日文輸入法
日文輸入法(日语:),是指為了將日語輸入電腦或行動電話等裝置而採用的編碼方法。在電腦中,英语等语言的输入只需要像打字机时代那样直接敲键盘就可以了,但是像日语这样常用文字的数目达到数千的语言,输入时不可能给每一个文字都分配一个按键,因此需要透過各种方式将文字编码为能够用简便输入。这样的编码系统就是日文输入法。
日文输入法在DOS时代都是透過前端处理器(Front End Processor)实现的,因此当时往往被称作日语输入前端处理器(,乃至于简称为FEP)。在Windows普及后则往往被称作IME(Input Method Editor)。
在日语中,IME既可以泛指一切输入法,也可能专指微软日语输入法Microsoft IME,但本文中不用IME专指微软日语输入法。而「」則泛指一切的輸入形式,如:輸入功率等。
另外,日語中專指文字輸入法的用語是「」。
键盘布局
标准QWERTY式
使用为美式英语设计的标准的QWERTY键盘就可以输入日语。由于QWERTY键盘上并没有铭刻假名,所以其使用者往往使用罗马字输入法。 但非JIS键盘也可以使用假名输入的方法输入日语,键位排列与JIS规格键盘稍有区别(“ろ”和“む”的位置不同)
JIS键盘有而QWERTY鍵盤沒有的按鈕,可以通過按下其他組合鍵來模擬(例如:Ctrl+Caps Lock 或 F6 切換為平假名,Alt+Caps Lock 或 F7 切換為片假名)。
一般來說,由於只要掌握了日语罗马字的拼法就可以使用罗马字输入法,而直接输入假名则需要记忆假名在键盘上的位置;尽管许多人使用附有假名的日語鍵盤,大多數人仍是靠羅馬字的方式輸入。輸入法的羅馬字與一般的有所不同,例如習慣上平文式羅馬字的「ぢ」及「じ」均為ji,而輸入法的前者則為di;输入「でぃ」时默认需输入dhi。輸入法的「ん」需輸入nn;輸入小字時,在其前加上 l 或 x ,如 la 和 xa 可顯示「ぁ」,xtu, xtsu, ltu, ltsu 可顯示「っ」。
JIS假名式
日本工業規格(JIS)對日文鍵盤上假名的排放位置作了規定。在日本銷售的鍵盤,大部分都是QWERTY鍵盤或者JIS键盘。Q W E R T Y在日文鍵盤對應著以下假名:(Ta Te I Su Ka N')
注意:标准的QWERTY键盘和JIS键盘的标点符号按键不同。例如QWERTY键盘上Shift+2是「@」,JIS键盘上却是「"」。
標記著假名的日文鍵盤在日本以外的市場頗為罕見,但直接輸入平假名並沒有任何的硬體限制。通常只需要直接切換到日文鍵盤序列並切換到假名模式即可直接輸入平假名(也可以基於這個鍵盤序列通過輸入法轉換某些詞語到日語漢字),大部分新型的作業系統都有支援這個功能。
因為日語輸入是基於平假名的,輸入完整的日語還需要轉換漢字、片假名以及普通的英語字符、標點符號,所以日文鍵盤上會多幾個特殊按鈕,使空白鍵短了許多,令初學者需要一定時間才能習慣。
拇指上档式
拇指上档式()是直接输入假名的键盘布局。后来做过一些更改后又称作NICOLA(ニコラ)式。两者统称为拇指上档键盘。
和JIS键盘最大的不同在于把QWERTY键盘放置空格的地方改为了两个「拇指上档键」,而空格自身变成了一个和Alt/Ctrl差不多大小的按键。这样做使得可以很容易地按上档键切换假名,而日语输入不像英语那样需要用空格隔开单词,不会因为空格难按影响输入。拇指上档式把输入假名的按键控制在3栏,而非JIS键盘的4栏。
21世纪以来,JIS键盘成了日语输入时最常使用的键盘,拇指上档键盘相比于JIS键盘处于完全不利的地位。但是由于使用者可以使用模拟程序在JIS键盘上实现拇指上档键盘的效果,拇指上档键盘的销量不能直接反映使用拇指上档式键盘布局的人数。[1]
手提電話
手提電話的按键較電腦少,所以必須另外研發出一套完全不同的輸入方法。
手提電話中的日語輸入基於手提電話上的數字按鈕。如圖中的鍵盤,每個數字都對應一行假名,例4鍵對應行假名,這行假名包括有,重複按4可選取想要的字。0除了對應行假名,還用作處理濁音和半濁音(符號)以及撥音。小寫假名以及促音與普通假名的輸入方法相同(重複按鍵)。假名輸入完畢按屏幕上提示操作以將某些字轉換成想要的詞語。
智能手机除了使用普通手机键盘的方式输入之外,还能使用触控输入(フリック入力)。首先,各行あ段假名排成一个类似电脑键盘最右侧数字键的布局,其他4段假名按十字形或者扇形排列あ段周围。在按下某个あ段假名后手指不放并向对应方向移动,则可输入相应的假名。
编码方案及转换
日文輸入法可分为汉字直接输入(漢字直接輸入)和假名汉字转换(かな漢字変換)两大类。其中汉字直接输入又可分为联想式和非联想式,假名汉字转换又可分为通過輸入羅馬字來轉換成平假名或直接輸入平假名。假名汉字转换是在1978年9月26日发售的东芝JW-10中最初实现的。
绝大多数日语使用者使用的都是假名汉字转换输入法。由于在假名汉字转换输入法中,直接输入平假名需要先記憶平假名的鍵盤分布,所以罗马字输入法也不乏使用者。也有部分軟體採用GUI選字方式甚至支援手寫模式作為輔助。
汉字直接输入
汉字直接输入,在日本往往被简称作“汉直”。由于汉直不是靠先输入日语的读音再由机器转换为对应的汉字,而是直接输入汉字或假名、符号对应的代码,因而可以做到一字一码,不会产生假名汉字转换所出现的选词选错导致的错别字。熟练者可以做到不看屏幕盲打。但是,打字者無法输入自己不知道編碼的汉字。
在被称作Mainframe的大型机刚刚能够处理日语的时候(1970~1980年代早期),電腦还没有假名汉字转换的功能,内存容量也很少(那个时代即使是超大型机也只有256MB内存、几十GB的硬盘),因此曾使用过巨型键盘直接输入汉字(在一个键上分配数个汉字)、用数字键输入汉字的机内码或者JIS区位码的汉字直接输入法。
现在的汉字直接输入可分为联想式和非联想式,不论哪种都是一字一码。
联想式
编码和所输入的汉字有关。
- 基于汉字偏旁部首的:NIK-Code、にこにこ等。
- 基于文字意思、读音等联想的:ラインプット、カンテック、KIS、LTWORD等。
非联想式
编码和所输入的汉字无关。
- 基于区位码等编码的:Mac OS 的 Unicode Hex Input
- 由2~4个按键所指定:T-code、TUT-code、G-code、超絶技巧入力等。
- 由文字读音指定:風及其兼容FEP。
假名汉字转换
假名汉字转换的典型动作方式如下:首先,用户将想输入的文字的读音通过输入装置输入。使用键盘输入时有假名输入和罗马字输入的区别。假名汉字转换系统读取读音,通过语素解析(Text segmentation)和“读音与汉字的对照表”(也就是所谓的辞典[2])转换为汉字假名混写文。
直接输入假名
通过敲击键盘,输入键盘上所铭刻的文字中的日文的那一部分所对应的假名。例如日本常见的JIS键盘,按键后输入键的右侧铭刻的假名。假名输入()存在不同的键盘布局。有些键盘布局只有特定的输入法才能使用,例如anthy可以使用拇指上档式输入(即使不是拇指上档式键盘也可用其他键模拟),而Google的mozc则不可。[3]另外,在GNU/Linux中键盘布局与输入法分离,如果不使用JIS键盘布局而使用直接输入假名的输入法,就会发现一部分按键顺序与Windows输入法不同。
标准罗马字
日本工业规格JIS X 4063:2000(,中译:为汉字假名转换系统而设的英语输入转换为假名的转换方式)曾经是一个日语罗马字输入()的标准,但是该标准已于2010年1月20日废止。
将和读音对应的罗马字输入后,罗马字会被转换为假名显示在屏幕上。之后进行的假名汉字转换通常与本阶段分离,成为另一个阶段。
增强型罗马字
增强型罗马字方案类似汉语拼音输入法的双拼方案。都是使用键盘上的辅音和其他按键来代表元音组合,从而达到节省按键次数的方法。
这里用一个例子解释。这个键盘上除了aeiou和y以外,每个按键下都写有对应的“韵母(?)”。像chuuka即可拆分为“c+yuu k+a”,而yuu对应c,也就编码成了“ccka”。jinmin拆分为为“j+in m+in”,in对应n,所以编码成了“jnmn”。而像“央(ou)”字这样的零“声母(?)”则使用“l”代表声母,因为日语没有l开头的发音。[4]
这句话的标准罗马字输入(类似全拼)需要60次按键。[5]使用增强型罗马字(类似双拼)则只需要42次按键。[6]直接输入假名如果是JIS键盘,则是41次按键外加6次上档键。[7]但是这个例子中为了实现双拼,和就无法再用标准罗马字输入了,而是使用“q”输入,“;”输入。
M式键盘[8]是森田正典于1980年代所提出的增强型罗马字方案。[9]該键盘布局使用了和拇指上档键盘类似的拇指上档键。虽然得到了许多专业人士的极高评价,但是并未得到大的普及。[10]以后的许多增强型罗马字输入方案的思考方式都可以说类似于M式键盘的处理模式。
日语维基百科上有许多增强型罗马字方案,例如:AZIK、Km式ローマ字配列、チーズタイピング。
不同假名输入方式的比较
富士通[11]的网站做了一个不同输入方式速度的比较。输入700字左右的朝日新聞的「天声人語」文章,结果如下[12]:
输入方式 | 按键总计 | 文字键 | 浊音键 | 上档键 | 假名记号键 | 其他 | 按键数/汉字假名混写文的字数 | 输入耗时 |
---|---|---|---|---|---|---|---|---|
拇指上档 | 1001 | 994 | 0 | 0 | 0 | 7 | 1.03 | 06.04min |
JIS | 1211 | 994 | 100 | 0 | 100 | 17 | 1.56 | 07.81min |
新JIS | 1309 | 994 | 100 | 203 | 0 | 12 | 1.69 | 07.38min |
标准罗马字输入 | 1773 | 1713 | 0 | - | 55 | 5 | 2.29 | 10.02min |
看来尽管标准罗马字输入的按键量是JIS假名输入按键的近1.5倍,但是JIS假名输入的效率才是标准罗马字输入的近1.3倍。
日文輸入法软件的主要功能
输入·转换
用户直接或间接输入假名序列(未转换文字列),按下「」键之后输入法开始判断进行分词,并开始汉字转换。许多输入法软件拥有包括熟语在内横跨多个文节的用例数据库,能够根据前后文节不同将读音转换成合适的汉字。一部分输入法中,未转换文字列积攒了很多假名之后会自动开始转换,或者是在输入了标点符号后自动转换标点之前的内容。
转换结果符合要求,则直接按确定键将结果转交给其他应用程序。当转换结果不是预期的转换结果时,用户可分别选择每一文节的转换结果,或者改变文节间的切分。当然,如果不用进行选字,默认的转换结果就是对的,那当然是最好的了。转换精度的优劣是决定输入法性能的决定性因素之一。
辞典
各输入法收入有假名汉字转换用的词汇数据库(日语称之为“系统辞典”,和“用户辞典”相对)。在汉字之外也收录有符号/特殊文字、英语单词、表情符号、方言词汇、网络语言等等,有的输入法利用转换系统,实现了邮政编码转换为地名、翻译、计算等功能。
在许多输入法中,用户可以将自己需要的词汇加入到用户辞典裡去。输入法自动学习功能强大、系统自带辞典丰富的话,可以减少自定义词汇的工作量。有的输入法可以把某个不需要却常常出现在转换结果候选的裡的词通过设置屏蔽。
自动学习
通过用户的转换、选字的结果增加未来的转换精度。通过自动学习,输入法可以更加切合个人的需要,但是有时错误的选字结果也被学习了,下次选字时就会出现在前面给人带来麻烦。ATOK等等可以直接编辑转换历史记录删除不要的转换结果。
有时学习数量过多,反而降低了转换精度,或使得学习功能异常(参见Microsoft IME)。此时需要重新初始化输入法的学习结果。
输入辅助功能
减少输入字数的输入预测(入力予測)功能,在和電腦相比输入速度慢的手机系统上得到了发展。之后,在2000年代后期,ATOK和Google日文输入法等電腦用的输入法中也加入了输入预测功能。Google日文输入法的预测功能使用的是从Google搜索系统中得来的数据,和手机系统的输入预测的工作方式不同。
有的输入法为帮助用户正确选择同音词,会在选字时出现解说同音词意思、用法的弹出窗口。
有的能够打字很快的用户会觉得,如果使用输入预测,则需要在预测列表中一一选择自己需要的词,反而降低了打字速度,因此辅助功能对他们是多余的。此外选字时弹出的解说词义窗口有时会影响程序的反应速度。因此许多输入法中的输入辅助功能是可以选择不使用的。
知名日文輸入法软件
名称 | 开发者 | 附注 |
---|---|---|
Anthy | 京都大学Project Heke | 自由软件(LGPL)。基本上只处理汉字转换。输入使用uim、ibus、fcitx或者附属的anthy.el等等。名称来自少女革命的姬宮安希。ibus-anthy支持模拟拇指上档键盘。主页 (页面存档备份,存于) |
ATOK | JustSystems | 专有软件。有GNU/Linux版本。有Mac版本。 |
Baidu IME | 百度 | 专有软件,目前仅有Windows版。该输入法主要面向喜爱流行文化的年轻人,内置大量宅文化词汇和流行语,以及2ch常用的颜文字和ASCII Art。并以二次元萌系角色作为其代言人[13],一度在中文御宅族中成为话题[14]。曾经在EULA中写明了“会自动将用户输入的信息加密送至百度的服务器”[15],后来该功能被改为默认不启用[16]。 |
Canna | NEC等 | 原由NEC开发。后成为自由软件(MIT許可證)。只有汉字转换。最新版Canna 3.7p3(2004/05/20)。 |
EGBRIDGE | エルゴソフト | Mac用。2008年结束销售。 |
FIXER | シティソフト | |
FSKAREN | 富士ソフト | 嵌入式。针对Android、Windows Mobile |
Google日文输入法 | 免费专有软件(Windows、Mac用)。自由软件版为Mozc(三段BSD)。 | |
Microsoft IME | 微软 | 微软Windows和Office附带。Office附带的比Windows附带的功能更多。 |
Japanist(OAK) | 富士通 | Windows Only。OAK是Japanist的前身。Japanist的最新版是Japanist 03。支持模拟拇指上档键盘。 |
Katana | アイフォー | 初期曾由大塚商会开发 |
NECAI | NEC | PC-9800系列用。 |
PRIME | 只有汉字转换。自由软件(GPLv2)。 | |
sj3 | SONY等 | 原为索尼开发,后成为自由软件(三段BSD)。只有汉字转换。 |
SKK | SKK Openlab | 最早由佐藤雅彦使用Emacs Lisp开发。自由软件(GPLv2+)。ibus-skk (页面存档备份,存于) elisp skk |
Social IME | 奥野陽 | Windows Only。可以将自定义词汇上传到服务器上。通过用户登录词汇扩充词库。转换汉字时必须总在线。 |
T-Code | 自由软件。 | |
Tegaki (页面存档备份,存于) | 自由软件。手写。 | |
TUT-Code | 大岩 元,高嶋孝明 | |
VJE | バックス | DOS时代的产品。2006年开发中止。2008年为雅虎假名汉字转换提供API。[17] |
Wnn | オムロン | 针对嵌入式。具备网络透明性。原本为工作站开发。有自由软件的FreeWnn(主页 (页面存档备份,存于))和专有软件的Wnn8 for Ubuntu等。 |
WX シリーズ | エー・アイ・ソフト | 有DOS版、Windows3.x~NT版、Mac OS8/9版、OS/2版。WXG for Linux/FreeBSD 1.0β作为自由软件推出,取得了很大反响;但是正式版还没出现,公司就被吞并了。 |
松茸 | 管理工学研究所 | DOS用。電腦普及初期曾和JustSystems的一太郎分庭抗礼。后因不支援Windows而失去了半壁江山。 |
ことえり | Apple | Mac OS、Mac OS X自带。名字来自于《源氏物语》「」。 |
書院IME | 夏普 | 也存在名为Power書院的文字处理器。 |
風 | 演算星組 | 现为共享软件。 |
かわせみ | 物書堂 | Mac用。专有软件。 |
參考
- . [2012-08-13]. (原始内容存档于2020-12-02).
- 汉语输入法常称作词库。不过日语输入法辞典往往储存了释义并在选字时会把释义用弹出窗口提示用户。
- . [2012-08-13]. (原始内容存档于2019-01-23).
- 当然,日语里面是没有“声母”“韵母”这样的概念的,这里只是借用一下汉语拼音的概念来说明。
- 「chuukajinminkyouwakokuchuuoujinminseihu,kyouseiritusimasita.」
- 「cckajnmnkdwak,cclbjnmnszhu,kdszr6simasita.」
- 每个小字和“、”“。”需要一次SHIFT。
- 日本語に最適なキーボード入力方式「M式」
- [ (PDF). [2012-08-13]. (原始内容存档 (PDF)于2018-09-29). 网址-维基内链冲突 (帮助) 参见其「」部分]
- . [2012-08-15]. (原始内容存档于2012-12-19).
- 不言忘了它是拇指上档式键盘的销售厂商
- . [2012-08-27]. (原始内容存档于2020-10-30) (日语).
- . [2012-08-23]. (原始内容存档于2013-06-17) (日语).
- . [2012-08-23]. (原始内容存档于2013-10-19) (日语).
- . [2012-08-13]. (原始内容存档于2013-10-05).
- 【Baidu Type】ログ情報の送信設定を「オフ」に変更しました 的存檔,存档日期2013-10-05.
- . [2012-08-13]. (原始内容存档于2020-10-28).
外部链接
- http://jisx6004.client.jp/layout-kana.html (页面存档备份,存于)
- http://homepage3.nifty.com/gicchon/index.htm (页面存档备份,存于)
- Welcome to My Home Page(一个关于许多日语输入法的个人网站) (页面存档备份,存于)
- http://www4.airnet.ne.jp/koabe/com_inet/im/index.html (页面存档备份,存于)
- Ajax IME: Web-based Japanese Input Method