內碼
在計算機科學及相關領域當中,內碼指的是「將資訊編碼後,透過某種方式儲存在特定記憶裝置時,裝置內部的編碼形式」。在不同的系統中,會有不同的內碼。
在以往的英文系統中,內碼為ASCII。 在繁體中文系統中,目前常用的內碼為大五碼。在簡體中文系統中,內碼則為國標碼。
為了軟體開發方便,如國際化與本地化,現在許多系統會使用Unicode做為內碼,常見的作業系統Windows、Mac OS X、Linux皆如此。許多程式語言也採用Unicode為內碼,如Java、Python 3。
國際漢字主流內碼
Big5大五碼(台港澳專用)
- 名稱取自五大中文套裝軟體,即Big-5軟體,是1984年[1]由中華民國財團法人資訊工業策進會與台灣13家廠商合作進行「五大軟體專案」,所開發出來的五種中文套裝軟體,分別為「文書處理」、「資料庫」、「試算表」、「通訊」及「繪圖」[2][3][4]。
- 「大五碼」()是由台灣財團法人資訊工業策進會為五大中文套裝軟體所設計的中文共通內碼,在1983年12月完成公告[5][6],隔年3月,資訊工業策進會與臺灣13家廠商簽定「16位元個人電腦套裝軟體合作開發(BIG-5)計畫(五大中文套裝軟體)」[7],因為此中文內碼是為臺灣自行製作開發之「五大中文套裝軟體」所設計的,所以就稱為Big5中文內碼[8][2][9][10]。五大中文套裝軟體雖然並沒有如預期的取代國外的套裝軟體,但隨著採用Big5碼的國喬中文系統及倚天中文系統先後在台灣市場獲得成功,使得Big5碼深遠地影響正體中文電腦內碼,直至今日。「五大碼」的英文名稱「」後來被人按英文字序譯回中文,以致現在有「五大碼」和「大五碼」兩個中文名稱。
Big5碼的產生,是因為當時個人電腦沒有共通的內碼,導致廠商推出的中文應用軟體無法推廣,並且與IBM 5550、王安碼等內碼,彼此不能兼容;另一方面,台灣當時尚未推出中文編碼標準。在這樣的時空背景下,為了使台灣早日進入資訊時代,所採行的一個計畫;同時,這個計畫對於以台灣為核心的亞洲繁體漢字圈也產生了久遠的影響。
Big5產生前,研發中文電腦的朱邦復認為內碼字集應該廣納所有的正異體字,以顧及如戶政等應用上的需要,故在當時的內碼會議中,建議希望採用他的五萬多字的字庫。工程師認為雖其技術可行,但是三個位元組(超過兩個位元組以上)長度的內碼卻會造成英文螢幕畫面映射成中文畫面會發生文字無法對齊的問題,因為當時盛行之倚天中文系統畫面係以兩個位元組文字寬度映射成一個中文字圖樣,英文軟體中只要以兩個英文字寬度去顯示一個中文字,畫面就不會亂掉,造成中文系統業者偏愛二個位元組長度的內碼[11];此外以倉頡輸入碼壓縮成的內碼不具排序等功能,因此未被採用。1983年有人誣指朱邦復為共產黨,其研究成果更不可能獲採用。[12]
在Big5碼誕生後,大部分台灣的電腦軟體都使用了Big5碼,加上後來倚天中文系統的高度普及,使後來的微軟Windows 3.x等亦予以採用。雖然後來台灣還有各種想要取代Big5碼,像是倚天中文系統所推行的倚天碼、台北市電腦公會所推動的公會碼等,但是由於Big5字碼已沿用多年,因此在習慣不易改變的情況下,始終無法成為主流字碼。而台灣後來發展的國家標準CNS 11643中文標準交換碼由於非一般的內碼系統,是以交換使用為目的,受先天所限,必須使用至少三個位元組來表示一個漢字,所以普及率遠遠不及Big5碼。
在1990年代初期,當中國大陸的電郵和轉碼軟體還未普遍之時,在深圳的港商和台商公司亦曾經使用Big5系統,以方便與總部的文件交流、以及避免為大陸的辦公室再寫一套不同內碼的系統。使用简体中文的社群,最常用的是GB 2312、GBK及其後續的國標碼(GB 18030)。
現在,除了台灣外,其他使用繁體漢字的地區,如香港、澳門,及使用繁體漢字的海外華人,都曾普遍使用Big5碼做為中文內碼及交換碼。由於Big5碼缺乏粵語字,因此有從Big5碼擴充而成的香港增補字符集。
GB 18030國標碼(中國大陸專用)
GB 18030,全称:国家标准GB 18030-2022《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2005《信息技术 中文编码字符集》的后续修订版,而GB 18030-2005《信息技术 中文编码字符集》是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。
GB 18030主要有以下特点:
- 與 UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。
- 编码空间庞大,最多可定义161万个字元。
- 支持中国国內少数民族的文字,不需要动用造字区。
- 汉字收录范围包含繁体汉字以及日韩汉字。
本规格的初版是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施。
此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。
微软视窗代码页为 54936。
漢字總碼(Unihan)
- 共收漢字與類漢字74617字(2012),較清初《康熙字典》原有的漢字47035字幾乎多了一倍。包括中日韓越台港澳等各種形式的漢字與類漢字,其中類漢字包括越南字喃、日本和製漢字(與假名相對的真名Mana)、朝鮮漢字特殊字形、港澳粵書、台灣喃書。
- 中日韓統一表意文字(英語:),也稱漢字總碼(英語:),目的是要把分別來自中文、日文、韓文、越南文、壮文中,起源相同、本義相同、形狀一樣或稍異的表意文字,賦予其在ISO 10646及萬國碼標準中相同編碼。
- 所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」,主要為汉字,包括繁體字(台港澳用字)、簡體字(中國大陸用字)、日本漢字()、韓國漢字()、越南的喃字(/)與儒字(/)、方塊壯字。
- 此計劃原本只包含中文、日文及韓文中所使用的漢字,舊稱中日韓(CJK)統一表意文字()。後來,此計劃加入了越南文的喃字,所以合稱中日韓越(CJKV)統一表意文字。
內碼輸入法
以內碼作爲輸入的方式稱為內碼輸入法,這並非主流輸入方式,但對於輸入特殊符號則很方便。
註釋
- 該年也是中華台北梅花旗正式啟用的一年
- (中文)數位雜談 - 中文的電腦或電腦的中文?,諶家雄 (页面存档备份,存于)
- (中文)財團法人中文數位化技術推廣基金會——認識中文碼【 九、Big5和Big5E 】 (页面存档备份,存于)
- (中文)中文內碼之應用及概要說明 (页面存档备份,存于)
- (中文)資策會大事紀要,1983年 (页面存档备份,存于)
- (中文)資策會大事紀要 (页面存档备份,存于)
- (中文)資策會大事紀要,1984年 (页面存档备份,存于)
- (中文)行政院主計處電子處理資料中心中文全字庫——中文碼介紹-BIG-5碼介紹 (页面存档备份,存于)
- (中文)CMEX財團法人中文數位化技術推廣基金會 - 認識中文碼:九、Big5和Big5E (页面存档备份,存于)
- (中文)與文字共舞___中文數位化發展簡介
- 來源參考:倚天中文系統、國喬中文系統
- (中文)朱邦復專欄——中文微電腦之歷史見証 (页面存档备份,存于)