香港增補字符集

香港增補字符集(,簡稱)是香港政府基於繁體中文電腦操作環境中最流行的大五碼(Big5)之上擴展的字符集標準,是現時香港的中文資訊交換內碼標準。

字符集所收羅的字主要包括香港的地名、人名用漢字、粵語漢字異體字,也有小部份簡體字;除此之外亦把倚天中文系統收錄的日語平假名片假名俄語字母包括在內。此字符集由中文諮詢委員會管理,仍在不斷擴編之中。最新版為HKSCS-2016,收錄5033字符。

負責機構

負責整套字符集管理的為中文諮詢委員會(Chinese Language Interface Advisory Committee,CLIAC),簡稱「中諮會」[1]。1999年5月由前資訊科技署成立,現隸屬「政府資訊科技總監辦公室」。中諮會轄下有兩工作小組:「中文電腦用字工作小組」、「中文資訊科技工作小組」。前者審核待增收字符,納入和編配碼位等工作;後者解決技術問題及與國際標準ISO/IEC 10646(簡稱ISO 10646)接軌等工作。2015年6月1日,兩小組合併爲「中文界面諮詢委員會工作小組」。各組成員來自學術界、語言學界、出版界和資訊科技界等。

歷史

1980年代中期,台灣中文電腦通行內碼為Big5碼。1990年代初期,香港電腦應用逐漸普及,而政府各部門也電腦化。和台灣一樣,香港也用繁體中文,故也採用Big5碼。可是Big5碼本身沒有收錄香港常用的廣東字、一些人名地名用字、一些學科用字,香港用戶經常面對缺字問題。於是,香港政府各部門使用Big5的外字區,自行補上這些字,並在政府內部使用。同時,香港業界也指出本地需要一套標準字符集來作電子文件來往,要求政府頒佈標準。到1995年,互聯網在香港起步,而政府也推出了自己的網站。個人電腦的中文系統雖然都用Big5碼,但都沒有政府用的外字,更可能用了自己的外字,使在瀏覽網頁時不能顯示正確字符。香港政府於是把內部使用有3000多字的Big5外字集標準造字檔公開,讓各界可以下載安裝這批字,使電腦能顯示正確的字符,並把這套字命名為《政府通用字庫》(Government Common Character Set,簡稱GCCS)。

到了1999年9月,此字集增加到4000多字,並改為現名。後來的人則將這版本返稱爲「HKSCS-1999」。自其公佈以後,香港增補字符集又經歷多次修訂,版本歷史[2]如下:

版本收錄字符公佈時間備注
GCCS30491995年
HKSCS-199947021999年9月
HKSCS-200148182001年12月
HKSCS-200449412005年5月
HKSCS-2004+增收字符49692006年11月
HKSCS-2004+增收字符50002008年2月
HKSCS-200850092009年12月
HKSCS-20165033[3]2017年5月不再編配Big5碼位

除了增補字符,中諮會亦於2002年公佈了《香港電腦漢字楷體字形參考指引》和《香港電腦漢字宋體(印刷體)字形參考指引》供業界參考[4],指引內容爲以部件為基礎的字形參考寫法,希望能推動業界開發符合香港小學及初中教育慣常書寫方式的漢字字型產品。

2016年,中諮會又公佈《香港電腦漢字參考字形[5],於字符層面提供完整的電腦漢字教育參考寫法,具體說明適用於香港的字形形狀,比較了香港參考字形與台灣業界習慣和台灣教育部寫法的異同;並涵蓋HKSCS-2016和Big5碼字符集所有漢字,補充2002年兩份指引的不足之處。文件的研訂目標是希望能清晰顯示ISO/IEC 10646國際編碼標準中H-列的字形,方便字型生產商開發有關產品。

中谘会之后在2018、2019和2021年繼續修订《香港增补字符集》,分别增收三汉字(U+5C83 U+2D25D 𭉝 U+2BB37 𫬷 )、修改U+22ACF 𢫏 的字形、调整U+270F0 𧃰 的码位。[6]

字符分類

HKSCS-2004版本共4500漢字字符,其中3353字可在《漢語大字典》等大型字典查到,包括簡化字、異體字、日語漢字等。其餘在各大中文字典中查不到的字中,有粵語方言字(有些可在方言字典及學術著作中查到)、人名、公司名、地方名、變形部首、附形、訛字。有些字來自入境事務處、公司註冊處、稅務局、地政總署。

各類符號共441個,有漢字筆形、漢語拼音字母、國際音標符號、漢字元件、畫表符號、日本平假名、片假名等。

香港增補字符集在此版本起才有畫數、部首、粵音等資料給用戶參考,還說明方便檢索,而非作為規範標準(漢字的部首在不同的字典中,歸部也不盡相同)。

和GCCS的關係

  • 註:各操作系統使用的字體不盡相同,下表列出的字符未必符合期望的結果。
已經與Unicode其他字符統一的字符
Unicode(PUA)字符Unicode(PUA)字符Unicode(PUA)字符
E01FE026E05B
E063E073E0A5
E0F3E12EE134
E149E166E191
E1BAE1C9E22C
E22DE230E266
E286E2A3E2BC
E2EFE33AE340
E34FE35AE363
E37CE37FE3C5
E3D7E3DCE417
E418E44AE478
E485E4C5E4DA
E545E589E5D2
E5D3E5D4E5D5
E5EBE5F4E6C6
E727E7D3E7FD
E884E893EB40
EB42EB45EB6E
EB86EB94EB9E
EBA9EBBAEBC9
EBCFEBD2EBDE
EC01EC02EC15
EC5BEC5EECA6
ED28ED6EED7C
ED9EEDA4EDE7
EDF4EE3EEE52
EE8EEE98EE9D
從大型字典中不能驗證而且無法與Unicode對應的字符
Unicode(PUA)字符Unicode(PUA)字符Unicode(PUA)字符
ED2BED43ED73
ED8CEDC9EDCD
EDDCEDE4EDF6
EE02EE06EE0B
EE2FEE32EE35
EE3DEE4DEE5E
EE66EE68EE8C
EE9A

如上表,第一部分有部分字符是重量單位,例如兙、兛、兝、兞等,在Big5中是以符號形式出現,意即該等字符在Big5中並非視為漢字,所以香港政府另行在Big5造字區安放這些字,造成重複;另外,有些字符在收錄時只與Big5正確字存在細微字形差異,例如「輋」上方一字從「山」而另一字從「屮」,「靜」左下方一字從「月」而另一字從「円」。研究這些字符可以從舊造字檔着手,因為現時在Windows通行的「細明體_HKSCS」字體已經標準化

編碼

和Big5的關係

香港增補字符集當初因為是補充Big5的收字不足,使用其外字區而發展的,所以受制於Big5的編碼架構,外字總數最多只能到6217(每區塊157字,有39區塊半)。除去已用碼位,剩下千餘碼位,其中有部分會保留給用戶造字。

早期的倚天中文系統國喬中文系統等對造字缺乏管理,而又沒有文字專家的審定,因此當時造字很是混亂,有些甚至可能只是臨時使用的「錯字」(尋遍各大字典、專書也查不到的字,也作幽靈漢字);製作這些中文系統的廠商又對字形、字體缺乏認識,有些字會因為字體不同而字形稍有差別,分別編進兩碼位。又有同一字有系統區及造字區兩碼位,有些聯綿詞只收其一不收其二;這問題帶到了政府通用字庫和香港增補字符集中,字集要反向兼容而跳過了一些碼位。

Big5原來的編碼只有漢字、標點、注音符號等字符及少數圖形,後來經過台灣廠商增收,多了7個「倚天字」(、、、、、、)及日文假名,最後這批字符又收入香港增補字符集。

香港增補字符集所用的Big5的外字區分幾區段:

  • 「造字區一」(FA40—FEFE):早期的GCCS字符集已填滿這段。
  • 「造字區二」(C6A1—C8FE):倚天用了這段來放日文假名等符號。這些符號收納在HKSCS-1999年版。
  • 「造字區三」(8140—A0FE):香港增補字符集把這段開頭的(8140—84FE)保留給用戶,新增的字符只用其餘的碼位。
  • 「廠商造字區」(F9D6—F9FE):倚天用了這段來放「倚天字」及製表符號。這些符號亦在HKSCS-1999年版本將之全部收納。

可是一般提及HKSCS的文件,包括來自香港政府的,都沒有註明HKSCS以外的一般繁體字編碼(即是Big5本身)使用哪版。Big5在2003年前就只有一版,不會混淆,但HKSCS-2004的文件仍沒有指定Big5部份是2003年之後還是之前的版本,雖然到目前為止並沒有任何系統使用Big5-2003。

和ISO 10646/Unicode的關係

1995年的政府通用字庫本來是內部使用的,到1999年才成立中諮會專門去負責增收及審核字符的工作,並與ISO 10646接軌。中諮會的成員會把香港增補字符集交到ISO的表意文字小組中,盡量讓其所有字符納入國際標準。表意文字小組會定期開會審議漢字的收納等工作,成員是來自世界各地的專家。

香港字在Big5-HKSCS內的碼位,都能對應到ISO 10646中日韓漢字區段中的碼位,或Private Use Area(私人使用区,簡稱PUA)內。隨著版本的更新,造字區的字會逐漸搬到中日韓漢字擴展區內。將所有已納入的HKSCS字符搬到正式中日韓漢字擴展區段(非PUA區段)的工作在2005年完成,對應於ISO 10646:2003的第一修訂版,相應的Unicode版本為Unicode 4.1。

不過,因為目前流傳極多使用舊版HKSCS的系統產生出來的文件,為了方便過渡,在HKSCS的定義中,在Unicode PUA所分配的字符位置會予以保留,不會給新加入而且未分配正式Unicode位置的字符使用。

字體提供

最初的香港字是由早期的台灣廠商(像倚天等)和用戶自行造字所得。大部份都不合標準和沒有流通,沒有沿用至今。後來,TrueType字型盛行,中文字的廠商都開始加入香港字,但因為是商業性質,沒有足夠的流通量。另外,在支援超大字庫的字體方面,因為HKSCS某些字和大陸GBK碼有衝突,廠商經常會因市場關係捨棄一些香港字。

香港政府的「數碼21」網頁(詳見下面的外部連結)有提供由華康授權的香港字參考宋體,但一來是使用條款苛刻而不可能廣泛使用,二來是沒有推廣,致使政府內部人員也不知道這套字體的存在。

目前由商業主導的情況漸有改變,近況如下:

開放源碼字體

文鼎科技在1999年釋出了四套字體(繁簡明體和楷書)給自由軟件界,但當中沒有香港字。後來高盛華(Arne Götje)發起計劃將繁簡體合併,稱之為CJK Unifonts。當中,Akar、Zunix等人在2004年末另外發起開源香港常用中文字體計劃,將香港字加入CJKUnifonts之內,到了2005年9月1日完成將HKSCS 2004加入CJKUnifonts的工作。目前UMingUKai已收錄在各大Linux發行版

商業字體

最早一套宣稱支援HKSCS的字體是華康「香港標準楷書」[7]及「香港標準宋體」[8],而最早一套宣稱支援HKSCS 2004的字體是華康「金蝶2006 H.K. Edition」[9],在2005年11月14日推出。後來文鼎、蒙納等字型公司亦陸續推出相應的字型產品。

增收字符

「中諮會」會讓各界申請新字符,不過要經過審核批准,才會給字符編配碼位。而用戶自造的字,可視乎需要加入,特別是一些人名地名等會經過互聯網傳送的字。另外,這些增收的字符不一定能夠收錄在Unicode之內,例如一些能夠表示成Unicode複合字符的字或符號,便不會收錄。

另外因為現在餘下的Big5兼容碼位不多(2005年9月為止只剩487碼位未用),中文界面諮詢委員會已經在2008年3月31日停止為字符提供Big5碼位[10],並在之前盡量協助業界和一般用戶過渡至Unicode。

操作系統的支援

香港增補字符集開始時只有Windows版本的Big5碼,後來與ISO 10646接軌後,才開始在LinuxMac OS等系統中使用。理論上因為ISO 10646已收納香港增補字符集,任何支援ISO 10646的系統都可使用香港字。但實際上,許多舊的程式內部是使用UCS-2(每字佔2位元組)儲存字串,無法表示許多放在基本多文種平面(簡稱BMP)以外的所有香港字。只有使用UCS-4(每字佔4位元組)作為內部儲存字串編碼的程式,才能夠完整地顯示所有香港字。

顯示和處理字符

根據Microsoft的網頁,在Windows Vista或以後的版本將不再支援HKSCS-2004的Big5擴展編碼(通常稱為Big5HKSCS),而只使用Unicode中的香港字支援。

至於HKSCS-2001,可以在微軟的網頁(請看下面的外部連結)中下載香港增補字符集;它支援Windows 98、NT、2000和XP。可是安裝該套件和其他軟件(例如Office)需要有一定的次序,而且它和別的Big5外字集並不兼容,必須先瀏覽有關文件方可安裝。

輸入字符

Windows XP中,內置的倉頡輸入法可輸入已包括在Unicode 1.1版本內的香港字;新倉頡輸入法則不能。

顯示和處理字符

自從glibc 页面存档备份,存于在2000年加入香港字(同時包括Big5hkscs和unicode碼兩者的轉換表)的支援後,就幾乎沒有再更新過,其中的Big5部份更是來自年代久遠的Big5/Unicode轉換碼表,當中有不少錯誤之處,令一些文件和網頁無論使用Big5還是Big5 HKSCS轉換至Unicode都會出現錯誤。暫時未有任何更新。相反地,如果單是使用Unicode作為系統編碼,處理香港字則沒有問題。

桌面環境方面,KDE 3.x桌面因為使用QT 3.x,而QT 3.x內部使用UCS-2儲存字符,因此KDE 3.x只能有限度地顯示少部份香港字。這情況期望在KDE 4.0解決。

GNOME沒有這方面的問題,只要是使用Unicode,在2004至2005年間就已經能夠顯示所有BMP以外的字符。

輸入字符

截至2007年3月,支援香港字集的開源輸入法有:SCIMOXIM;不支援的有:IIIMFgcin。但有些輸入法並非輸出Unicode中真正編配給香港字的碼位,而是一些造字區的碼位,例如SCIM中的倉頡五代輸入法便是這樣。

顯示和處理字符

Mac OS X 10.0至10.2版本支援的版本為HKSCS-1999。10.3、10.4、10.5及最新之10.6支援HKSCS-2001;10.4有部份HKSCS-2004新增字元,但編碼對應Unicode私人使用區;10.5及10.6有HKSCS-2004全部新增字元,但只有Unicode(4.1版本)編碼。

輸入字符

使用Mac OS X內置的中文輸入法即可,不屬Big5字集的字在選字區旁會有一綠色感嘆號[!]提示。

使用地區

除了香港使用香港字以外,現在台灣的中文電腦也有少部分使用它的(如處理常見但Big5未有收錄的人名用字,如「堃」和「喆」字;此外,台灣也有自己的一兩套外字集,如中國海字集)。而同樣使用粵語和繁體字的澳門也有使用這套字集,也許還有其他華語地區會使用。

澳門政府網站、澳廣視和很多澳門報紙網站已改用Unicode(UTF-8)編碼,因現在大部份系統已支援Unicode和內置相應字型,毋需額外安裝套件即可顯示澳門特有地名用字,如氹仔

衍生

日和字集

「日和字集」乃香港增補字符集採用Big5碼時期,香港人內木一郎和阿烈開發的True Type Eudc造字檔,以兼容香港增補字符集為賣點,增補字集仍沒涵蓋的日語假名日本漢字日本國字,有細明體、標楷體、中黑體等配合Windows 95、98、NT等作業系統字型的字款,並附有倉頡、速成等輸入法作輔助,以及把字集文檔轉換至日語編碼的轉碼器工具。

香港增補字符集完全過渡至Unicode編碼後,日和字集增補的字符基本上都已有Unicode編碼,作業系統字型能直接顯示,因此日和字集停止更新。

開源香港常用中文字體計劃

社會上有志願人士開始了開源香港常用中文字體計劃。以CJK UnifontsUMingUKai字型為基礎,增補香港增補字符集的所有字符。

評價

香港增補字符集一直需要和Big5碼兼容,可說是一套先天不足的字集。它要處理前期許多遺留下來的問題,也有外字字數上限,致使香港特區政府打算在2007年至2008年放棄它的Big5碼。如果系統使用Unicode編碼,用它反而較好。當今的趨勢是使用Unicode,它有足夠的字符,幾乎可以滿足文字學家字典專家的用字要求。但因為兼容性的關係,要將整套系統由使用Big5碼轉換至Unicode頗費時,因此還會有人暫時不願意轉換。

增收原則更改

《香港增補字符集》自2008年3月31日起更改字符增收原則,新增的字符只會編配ISO 10646國際編碼標準內碼,不再編配大五碼內碼。政府資訊科技總監辦公室表示,全面採用ISO 10646國際編碼,可統一編碼標準,解決兼容問題。ISO 10646國際編碼標準涵蓋各種主要語文的字符,包括繁體及簡體中文字,提供統一的字符編碼標準,方便世界各地的電腦用戶。《香港增補字符集》3月31日起更改字符增收原則,在此之前獲編配的字符,則不受影響。政府1999年公佈《香港增補字符集》,由中文界面諮詢委員會負責管理,收納適用於香港的中文電腦用字,以解決電子通訊出現亂碼或字符不能正確地顯示等問題。

參看

注釋

  1. . [2017-07-17]. (原始内容存档于2017-03-07).
  2. . [2017-07-17]. (原始内容存档于2017-06-28).
  3. . [2019-07-09]. (原始内容存档于2019-07-09).
  4. . [2017-07-17]. (原始内容存档于2017-06-07).
  5. . [2017-07-17]. (原始内容存档于2020-03-28).
  6. . www.ccli.gov.hk. [2022-04-15]. (原始内容存档于2022-06-20).
  7. . www.rnb.com.hk. [2010-01-07]. (原始内容存档于2009-03-12).
  8. . www.rnb.com.hk. [2010-01-07]. (原始内容存档于2009-07-22).
  9. 页面存档备份,存于

外部連結

字符和編碼

編碼表

字體

參考書籍、文章

  • Lunde, Ken. (paperback) First Edition. O'Reilly and Associates, Inc. 1999: 1128頁 [2005-07-17]. ISBN 978-1-56592-224-2. (原始内容存档于2005-08-26) (英语).
  • Graham, Tony. . Wiley. 2000: 528頁. ISBN 978-0-7645-4625-9. (原始内容存档于2005年7月3日) (英语).
  • 竹竹人水. . 電腦易出版社. 2003年7月. (原始内容存档于2008年7月6日).
  • 伍新華. . 德嘉書業. 1999年9月. ISBN 978-962-7690-25-2.
  • Linuxer(現已停刊)2002年9月號:我們的Big5碼,謝東翰
  • 香港星島日報。2008年4月2日星期三。《增補字符集更改增收原則》: 页面存档备份,存于
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.