[ Страница назад | Страница вперед | Содержание | Индекс | Библиотека | Юридическая информация | Поиск ]

Программирование: Разработка и отладка программ


Метод ввода символов японского языка (JIM)

Метод ввода символов японского языка (JIM) - это сложный метод ввода, предназначенный для работы с японским языком. Он предоставляет следующие функции:

Кодовые наборы японского языка состоят из трех групп символов:

Группы Катакана и Хирагана содержат приблизительно по 50 символов каждая и в совокупности образуют набор фонетических символов, называемый Кана. Все звуки японского языка можно представить с помощью символов Кана.

Канжи представляет собой набор идеограмм (иероглифов). Для передачи некоторых простых понятий достаточно одного иероглифа Канжи, более сложные понятия представляются в виде строк иероглифов Канжи. Существует несколько тысяч иероглифов Канжи.

В японском языке применяется и латинский алфавит. Он состоит из 26 символов и называется Ромажи. Как правило, латинские символы применяются в научно-технических и специальных текстах для записи технических терминов, отсутствующих в японском языке. Японское предложение обычно включает в себя одновременно символы наборов Катакана, Хирагана, Канжи, Ромажи, цифры и другие символы.

Обработка символов японского языка

В японском промышленном стандарте (JIS) перечислено около 7000 иероглифов Канжи, которые должны обрабатываться вычислительными системами. Программные продукты с поддержкой японского языка поддерживают все символы этого стандартного набора и некоторые другие. Ввод иероглифов осуществляется путем:

Для выполнения этих преобразований на японской 106-клавишной клавиатуре предусмотрены следующие специальные клавиши:

Специальные клавиши японской клавиатуры
Назначение Название клавиши Описание
Клавиша отключения KKC muhenkan Вводит символы Кана без преобразования.
Клавиша включения KKC henkan Преобразует символы Кана в иероглифы Канжи.
Клавиша показа всех вариантов KKC zenkouho Показывает все возможные иероглифы Канжи, соответствующие введенным символам.
Клавиша режима RKC Ромажи romaji Включает и выключает режим преобразования RKC.
Клавиша Shift Хирагана hiragana Переключение в верхний регистр набора символов Хирагана.
Клавиша Shift Катакана katakana Переключение в верхний регистр набора символов Катакана.
Клавиша Shift Ромажи eisu Переключение в верхний регистр латинского алфавита.

Примечание: Клавиши Shift действуют до нажатия другой клавиши Shift. Начальное состояние - Ромажи.

Технология преобразования Кана-Канжи (KKC)

Технология KKC метода ввода японских символов (JIM) основана на том, что с каждым отдельным иероглифом Канжи или осмысленным набором иероглифов Канжи связан звук или последовательность звуков, которую можно представить с помощью символов Катакана и Хирагана.

Реализовать ввод фонетических символов Хирагана или Катакана значительно проще, чем ввод иероглифов Канжи. JIM анализирует фонетические значения введенных символов Хирагана и Катакана и определяет наиболее точный их эквивалент в наборе иероглифов Канжи. Результаты фонетического анализа зависят от словаря и таблиц JIM.

Режимы ввода

В JIM есть три различных режима ввода:

Если установлены алфавитно-цифровая раскладка клавиатуры и размер символов Ханкаку, то JIM преобразует коды нажатых клавиш в символы Ромажи. Это сочетание режимов называется английским режимом. Предварительная компоновка символов в этом режиме не нужна, поэтому ее нельзя активизировать, независимо от текущего режима RKC. В других сочетаниях режимов можно активизировать предварительную компоновку символов, причем в этих режимах вводятся не символы ASCII.

Для преобразования Кана-Канжи в JIM служат следующие клавиши:

Диакритический символ Раскладка клавиатуры
Катакана Катакана, верхний регистр
Eisu_toggle Латиница, верхний регистр
Хирагана Хирагана, верхний регистр

Диакритический символ Размер символов
Zenkaku_Hankaku Переключение между полной и половинной шириной
Hankaku Половинная ширина
Zenkaku Полная ширина

Диакритический символ RKC вкл/выкл
Alt-Hiragana Включает и выключает преобразование Ромажи-Кана
Romaji *То же самое

* Эти клавиши есть не на всех клавиатурах

Перечисленные ниже клавиши применяются при предварительной компоновке символов в иероглифы Канжи.

Диакритический символ Компоновка иероглифов Канжи
Muhenkan Без преобразования - сохранить символы Кана
Henkan Преобразование - перейти к следующему варианту
Канжи См. Henkan
BunsetsuYomi *Возврат к фонетическому представлению фразы
MaeKouko *Возврат к предыдущему варианту
LeftDouble *Перемещение курсора на две позиции влево
RightDouble *Перемещение курсора на две позиции вправо
ErInput *Удаление текущей скомпонованной строки

Диакритический символ Вспомогательная функция предварительной компоновки
Alt-Henkan Все варианты
Touroku Динамическое занесение в словарь
ZenKouho *Все варианты (та же функция)
KanjiBangou *Числовой ввод иероглифов Канжи
HenkanMenu *Изменение режима преобразования

* Эти клавиши есть не на всех клавиатурах

Раскладка клавиатуры

Существует три возможных раскладки клавиатуры: латиница (Ромажи), Катакана и Хирагана. Переход к нужной раскладке осуществляется путем нажатия специальной клавиши. Эти клавиши - Katakana, Eisu_toggle и Hiragana Shift.

После нажатия одной из этих клавиш устанавливается раскладка клавиатуры, соответствующая нажатой клавише. Для изменения раскладки следует нажать другую клавишу переключения. Начальное состояние соответствует клавише Eisu_toggle, однако это можно изменить путем настройки.

При работе с раскладкой Катакана или Хирагана коды клавиш преобразуются в фонетические символы соответствующего набора. Например, клавиша q при работе с раскладкой Хирагана будет преобразована в символ Хирагана со звучанием "та", при работе с раскладкой Катакана - в символ Катакана со звучанием "та", а при работе с латиницей - в символ Ромажи "q". На каждой алфавитно-цифровой клавише японской клавиатуры производства фирмы IBM изображены все три соответствующих символа.

Кроме того, при работе с раскладкой Хирагана метод ввода автоматически выполняет преобразование символов Хирагана в иероглифы Канжи (предварительную компоновку). Дополнительная информация по этому вопросу приведена в разделе Компоновка иероглифов Канжи.

Некоторым клавишам соответствует по два символа Катакана или Хирагана. Например, клавише 7 соответствуют два символа Хирагана с одинаковым звучанием "йа": большой и маленький. Такие парные символы не имеют ничего общего с прописными и строчными буквами алфавита, так как в Канжи, Хирагана и Катакана нет таких понятий, как прописные и строчные буквы. Маленькие символы применяются для передачи особых звуков. Для ввода таких символов применяется клавиша Shift.

Размер символов

Некоторые японские символы могут быть полной или половинной ширины. Иероглифы Канжи, как правило, полной ширины. Фонетические символы и символы ASCII могут быть как полной, так и половинной ширины. Пользователь переключает ширину символа с помощью клавиши Zenkaku_Hankaku.

Преобразование Ромажи-Кана (RKC)

Для пользователей, привыкших работать с алфавитно-цифровой клавиатурой, проще вводить фонетические звуки, а не символы Хирагана или Катакана. JIM выполняет преобразование символов Ромажи в символы Кана (RKC); таким образом, пользователь может вводить фонетические звучания символов Хирагана или Катакана с обычной клавиатуры.

Компоновка иероглифов Канжи

При работе в режиме преобразования Ромажи-Кана переход к иероглифам Канжи происходит в два этапа. Сначала пользователь образует символы Хирагана путем ввода с клавиатуры фонетических знаков в раскладке Ромажи. На этом этапе для образования символа Хирагана следует ввести от 1 до 3 букв Ромажи. Затем пользователь преобразует символы Хирагана в иероглифы Канжи путем нажатия клавиши Henkan. Большинству иероглифов Канжи соответствует одна фонетическая фраза. Клавиша Henkan показывает список основных вариантов - ближайших по звучанию иероглифов Канжи. При повторном нажатии клавиши Henkan на экране появляется список всех дополнительных вариантов.

Например, для получения иероглифа, соответствующего последовательности звуков "к-а-н-ж-и", необходимо выполнить следующие действия:

  1. Установить раскладку клавиатуры Хирагана.
  2. Включить преобразование Ромажи-Кана путем нажатия клавиш Alt-Hiragana. Эта комбинация клавиш выполняет переключение на латиницу.

Теперь можно нажать клавиши, соответствующие последовательности звуков "канжи". После ввода каждого отдельного звука на экране появляется соответствующий символ Хирагана.

Символ Хирагана будет выделен для индикации того, что JIM выполняет предварительную компоновку. Символ выделяется инверсией и подчеркиванием. Выделение обеспечивается за счет применения функций callback. Дополнительная информация по этому вопросу приведена в разделе Применение функций callback.

Для преобразования символа Хирагана и скомпонованной строки в иероглиф Канжи нажмите клавишу Henkan. На экране появится самый подходящий по звучанию иероглиф. Если нажать клавишу Henkan еще раз, на экране появятся другие варианты.

Во время компоновки строка разделяется на сегменты, которые можно считать "словами" Канжи. После преобразования строки символов Кана в один из вариантов последний считается одним из таких преобразуемых сегментов. Пользователь оперирует с компонуемой строкой с помощью клавиш перемещения курсора и других клавиш.

Для передачи скомпонованной строки в программу следует нажать клавишу Enter. При этом код самой клавиши Enter не передается в программу.

Для отключения режима предварительной компоновки и передачи символов Хирагана и Катакана непосредственно в программу можно воспользоваться клавишей Muhenkan.

На таблице переходов из одних особых состояний клавиатуры в другие изображены эти переходы и эффект нажатия переключателя режима RKC в каждом из особых состояний.

Табл. 16-7.

Кодировка символов Кодовые знаки Описание Число
000xxxxx 00-1F Управляющие символы 32
00100000 20 Пробел 1
0xxxxxxx 21-7E 7-разрядные символы ASCII 94
01111111 7F Delete 1
10000000 80 Не определено 1
100xxxxx 01xxxxxx [81-9F] [40-7E] Двухбайтовые символы 1953
100xxxxx 1xxxxxxx [81-9F] [80-FC] Двухбайтовые символы 3844
10100000 A0 Не определено 1
1xxxxxxx A1-DF 8-разрядные однобайтовые символы 63
111xxxxx 01xxxxxx [E0-FC] [40-7E] Двухбайтовые символы 1827
111xxxxx 1xxxxxxx [E0-FC] [80-FC] Двухбайтовые символы 3596
11111101 FD Не определено 1
11111110 FE Не определено 1
11111111 FF Все единицы 1

В JIM есть четыре дополнительных области.

Операция преобразования Кана-Канжи может найти от одного до ста иероглифов Канжи, соответствующих данной строке символов Катакана или Хирагана. В худшем случае для подбора нужного иероглифа Канжи вам придется нажать клавишу преобразования больше сотни раз.

В таких случаях удобнее найти нужный иероглиф с помощью меню возможных вариантов, вызываемого клавишей ZenKouho ил Alt-Henkan. Это меню появляется в случае, если текущий фрагмент (слово Канжи в области компоновки, на которое указывает курсор) соответствует нескольким иероглифам Канжи. В этом меню можно выбрать нужный вариант из нескольких возможных. Меню всех вариантов исчезает с экрана после нажатия клавиши Reset, клавиши Enter или после выбора варианта.

В окне диалога числового ввода иероглифов Канжи пользователь может выбрать иероглиф Канжи путем ввода 3-5 цифр. Эти цифры обозначают код символа. Для поиска кода служат электронные словари с различными вариантами упорядочения содержимого: например, в одном словаре коды упорядочены по фонетическому звучанию, в другом - по числу нажатий клавиш, необходимых для ввода символа. Для перехода в это меню нажмите клавишу KanjiBangou, для выхода - клавишу Reset или Return.

Клавиша HenkanMenu выводит на экран меню режима преобразования. В этом меню следует выбрать один из четырех режимов. Самые важные режимы - режим преобразования слов и режим преобразования фраз. Введите номер выбранного режима и нажмите клавишу Return. Это меню исчезает с экрана после выбора режима или после нажатия клавиши Reset.

В окне диалога динамического занесения в словарь пользователь вводит строку Кана и строку Канжи для занесения этой пары в пользовательский словарь. После занесения пары в словарь JIM может использовать ее при поиске вариантов. Для выхода из этого меню нажмите клавишу Escape или Reset.

Внешний вид этих меню зависит от интерфейса среды, в которой работает JIM. Например, в некоторых интерфейсах для просмотра списков можно применять клавиши Page Down и Page Up. Обсуждение характеристик различных интерфейсов выходит за рамки этой книги.

Раскладки клавиатуры:

ja_JP.IBM-eucJP.imkeymap

Ja_JP.IBM-932.imkeymap

Ja_JP.IBM-943.imkeymap

Символы, вводимые с клавиатуры:

В JIM применяются клавиши из групп XK_KATAKANA, XK_LATIN1 и XK_MISCELLANY.

Зарезервированные символы:


XK_BunsetsuYomi 0x1800ff05 Возврат к фонетическому представлению фразы
XK_MaeKouho 0x1800ff04 Предыдущий вариант
XK_ZenKouho 0x1800ff01 Все варианты.
XK_KanjiBangou 0x1800ff02 Числовой ввод иероглифов Канжи.
XK_HenkanMenu 0x1800ff03 Изменение режима преобразования.
XK_LeftDouble 0x1800ff06 Перемещение курсора на две позиции влево.
XK_RightDouble 0x1800ff07 Перемещение курсора на две позиции вправо.
XK_LeftPhrase 0x1800ff08 Зарезервирован для использования в будущем.
XK_RightPhrase 0x1800ff09 Зарезервирован для использования в будущем.
XK_ErInput 0x1800ff0a Удаление текущей скомпонованной строки
XK_Resetreset 0x1800ff0b Сброс

Перечисленные символы уникальны для метода ввода данной системы.

XK_Kanji Преобразование Хирагана-Канжи.
XK_Muhenkan Отмена преобразования.
XK_Romaji Переключение JIM в режим ввода Ромажи.
XK_Hiragana Переключение JIM в режим ввода Хирагана.
XK_Katakana Переключение JIM в режим ввода Катакана.
XK_Zenkaku_Hankaku Переключение между режимами ввода символов полной и половинной ширины.
XK_Touroku Занесение слова в пользовательский словарь.
XK_Eisu_toggle Переключение JIM в режим ввода алфавитно-цифровых символов.

Связанная информация

Описание кодовых наборов ISO (Кодовые наборы ISO) в книге AIX 5L Version 5.1 Kernel Extensions and Device Support Programming Concepts.


[ Страница назад | Страница вперед | Содержание | Индекс | Библиотека | Юридическая информация | Поиск ]