2023年8月1日实施的中华人民共和国国家标准《信息技术 中文编码字符集》(GB 18030-2022)一方面是Unicode的完全对应编码,另一方面也对包括求闻百科(网站及基础设施)及阅读、编辑求闻百科所使用的软件、浏览器等的汉字支持程度提出了新的要求。
求闻百科所使用的共笔软件系统、数据库等不是汉字敏感的,亦即,其能接受并传输任何Unicode字符,包括GB 18030-2022、其第1号修改单(预计于2024年内发布)、后续修改单以及Unicode目前及今后规定的全部汉字、少数民族文字和全世界其他各民族使用的文字。求闻百科所使用的数据库表为“MariaDB utf8mb4”格式,支持存储整个Unicode编码空间内的全部字符。求闻百科唯一的汉字敏感的组件是提供“分类内按拼音排序”功能的扩展,其将按Unicode修订计划定期更新。因此,读者、编者所使用的操作系统、浏览器、字体字库等对GB 18030-2022及Unicode的支持对能否正常显示汉字至关重要。然而非常令人遗憾的是,由于Unicode的更新速度非常快,市面上的绝大多数设备和浏览器都有机会出现缺字的情形,导致字符显示为方格、乱码、内码方块、问号或空格等,影响用户使用体验。
除此之外,Unicode將大部分在來源編碼中分開編碼,但按漢字統一標準同屬一字的漢字分入「兼容漢字」區,以便達成無損來回轉換。除了專門處理某來源編碼「一字多形」的字型之外,大部分字型都將兼容區的漢字按其對應的普通字形呈現。因此,若想要分開顯示JIS X 0213:2004中「賓」(U+8CD3)的舊字形「賓」(U+FA64),就需要安裝特殊字型。[1]
要找出這些字,可到下面的「Unicode編碼表」,或到Unicode Consortium網站參閱他們的PDF檔案。
|
|
测试
本章节用于Unicode汉字显示情况相关的展示。如果您的设备缺少相关的字型,会显示为方框。
GB 18030-2022 实现级别1
合计27 570个汉字及14个汉字部首,外加9个在GB 18030-2005中存在,但在GB 18030-2022中删去的汉字位置。
- 中日韩统一表意文字(Unicode 1.0.1)(20 902个):北(U+5317)、晈(U+6648)、藐(U+85D0)、針(U+91DD)
- 位于GB 18030-2022双字节区的中日韩统一表意文字(Unicode 4.1追补)(8个):龵(U+9FB5)
- 位于GB 18030-2022双字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(52个):㘎(U+360E)
- 位于GB 18030-2022双字节区的中日韩汉字部首补充(Unicode 3.0)(14个):⺈(U+2E88)
- 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 1.0.1)(12个):﨔(U+FA14)
- 位于GB 18030-2022双字节区的中日韩兼容表意文字(Unicode 1.0.1)(9个——为保证与GB 18030-2005兼容而留空):凉(U+F979)
- 位于GB 18030-2022四字节区的中日韩统一表意文字(Unicode 4.1追补)(14个):龯(U+9FAF)
- 中日韩统一表意文字(Unicode 5.1追补)(8个):鿁(U+9FC1)
- 中日韩统一表意文字(Unicode 5.2追补)(8个):鿈(U+9FC8)
- 中日韩统一表意文字(Unicode 6.1追补)(1个):鿌(U+9FCC)
- 中日韩统一表意文字(Unicode 8.0追补,通称“急用汉字”)(3个):鿎(U+9FCE)
- 中日韩统一表意文字(Unicode 8.0追补)(6个):鿔(U+9FD4)
- 中日韩统一表意文字(Unicode 10.0追补)(21个):鿦(U+9FE6)
- 中日韩统一表意文字(Unicode 11.0追补)(5个):鿬(U+9FEC)、鿮(U+9FEE)
- 位于GB 18030-2022四字节区的中日韩统一表意文字扩展区A(Unicode 3.0)(6 530个):㐀(U+3400)、䏌(U+43CC)
GB 18030-2022 实现级别2
通称“BMP外196字”,见《通用规范汉字表》。实现级别1与实现级别2总计27 766个汉字及14个汉字部首。
- 位于中日韩统一表意文字扩展区B(Unicode 3.1)的通用规范汉字(36个):𠳐(U+20CD0)、𥻗(U+25ED7)、𩾌(U+29F8C)
- 位于中日韩统一表意文字扩展区C(Unicode 5.2)的通用规范汉字(44个):𪨶(U+2AA36)、𫚕(U+2B695)
- 位于中日韩统一表意文字扩展区D(Unicode 6.0)的通用规范汉字(8个):𫠆(U+2B806)
- 位于中日韩统一表意文字扩展区E(Unicode 8.0)的通用规范汉字(108个):𫰛(U+2BC1B)、𬉼(U+2C27C)、𬬿(U+2CB3F)、𬶠(U+2CDA0)
GB 18030-2022 实现级别3
实现级别1、实现级别2与实现级别3总计87 887个汉字及228个汉字部首。由于这一数字超过了OpenType单个字体字符数的上限(65 535个),因此您需要使用同一字体组的多个字体,或者使用OpenType字体集。
- 康熙部首(Unicode 3.0)(214个):⼳(U+2F33)、⾔(U+2F94)
- 位于中日韩统一表意文字扩展区B(Unicode 3.1)的非通用规范汉字(42 675个):𡈈(U+21208)、𤁾(U+2407E)、𦿅(U+26FC5)、𩻭(U+29EED)
- 位于中日韩统一表意文字扩展区C(Unicode 5.2)的非通用规范汉字(4 105个):𪠅(U+2A805)、𪿾(U+2AFFE)、𫐕(U+2B415)
- 位于中日韩统一表意文字扩展区D(Unicode 6.0)的非通用规范汉字(214个):𫝾(U+2B77E)
- 位于中日韩统一表意文字扩展区E(Unicode 8.0)的非通用规范汉字(5 654个):𫤖(U+2B916)、𬄀(U+2C100)、𬫿(U+2CAFF)
- 中日韩统一表意文字扩展区F(Unicode 10.0)(7 473个):𬼳(U+2CF33)、𭤯(U+2D92F)、𮜀(U+2E700)
GB 18030-2022 第1号修改单对实现级别3的补充
总计97 680个汉字及228个部首。
- 中日韩统一表意文字(Unicode 13.0追补)(13个):鿴(U+9FF4)
- 中日韩统一表意文字扩展区A(Unicode 13.0追补)(10个):䶹(U+4DB9)
- 中日韩统一表意文字扩展区B(Unicode 13.0追补)(7个):𪛘(U+2A6D8)
- 中日韩统一表意文字扩展区G(Unicode 13.0)(4 939个):𰝵(U+30775)、𰳾(U+30CFE)
- 中日韩统一表意文字(Unicode 14.0追补)(3个):鿾(U+9FFE)
- 中日韩统一表意文字扩展区B(Unicode 14.0追补)(2个):𪛞(U+2A6DE)
- 中日韩统一表意文字扩展区C(Unicode 14.0追补)(4个):𫜶(U+2B736)
- 中日韩统一表意文字扩展区H(Unicode 15.0)(4 192个):𱗯(U+315EF)、𱶐(U+31D90)
- 中日韩统一表意文字扩展区C(Unicode 15.0追补)(1个):𫜹(U+2B739)
- 中日韩统一表意文字扩展区I(Unicode 15.1,通称“公安人口信息专用字库补充汉字”)(622个):(U+2ED05)
模板
如果條目的標題或正文使用了Unicode 1.0.1版规定的20 902个汉字以外的任何其他汉字,請加入以下模板:
模板链接:{{CJK-New-Char}}
會顯示模板链接:{{CJK-New-Char|漢字16進位編碼}}
,以9FEB作參數则顯示:模板链接:{{CJK-New-Char|漢字16進位編碼|block=A}}
,指明該字為擴展A區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=B}}
,指明該字為擴展B區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=C}}
,指明該字為擴展C區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=D}}
,指明該字為擴展D區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=E}}
,指明該字為擴展E區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=F}}
,指明該字為擴展F區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|block=G}}
,指明該字為擴展G區漢字:模板链接:{{CJK-New-Char|漢字16進位編碼|ver=麻將符號}}
,指明該字符為麻將字符:模板链接:{{CJK-New-Char|第1個字的編碼|第2個字的編碼|...}}
,以同一模板顯示超過1個字(最多20個字):
對於使用越南语固有文字喃字的条目,加入模板链接:{{NomText}}
:
對於使用JIS X 0213:2004新收錄漢字的條目,加入模板链接:{{JIS2004}}
:
支持大字集的字型
若系統不能正確顯示相關字元,請嘗試從下面選擇一個字型安裝:
名稱 | 字形標準 | 開源 | Unicode支持部份 | 註釋 |
---|---|---|---|---|
華康標準宋體 | 中国台湾 | ❌ | 基本区、擴展A區、香港增补字符集(HKSCS) | |
微軟正黑體 | 基本区、擴展A區 | 可在Windows Vista安装光盘、安裝Office 2007、Visual Studio 2010等新版軟體或微軟官方網站上取得這兩種字型。 下载Windows XP简体中文ClearType字库 下载Traditional Chinese ClearType fonts for Windows XP | ||
微软雅黑 | 中国大陆 | 基本区、扩展A区全部汉字,扩展B区、C区、D区、E区的一部分汉字(仅限于《通用规范汉字表》内[a]) | ||
微软GB18030 Support Package | 基本区、擴展A區 | 安装后会添加4字节字符集编码支持插件和Simsun-18030字体以显示A区汉字。 | ||
冬青黑体简体中文 | 基本区、擴展A區 | 由字游工房和汉仪设计,并内置于macOS。 | ||
天珩字库 | 中国大陆、中国台湾、中国香港、日本、韩国 | 与Unicode同步更新,《TH-Tshyn》已支持显示全部Unicode15.1字符,包括14余万汉字〔基本区及扩展A、B、C、D、E、F、G、H、I区(含增补)〕。 字库以《Unicode Charts》为准修正了大量汉字字形,如“膥”、“槩”、“肞”、“褝”等。 |
以中易宋体、思源黑体、花園明朝等字形风格为基础制作,《TH-Tshyn》中的TH-Times.ttc支持复杂文种(如传统蒙古文)的正确显示。 | |
Han Nom Fonts(汉喃明) | 越南(喃字) | 基本区、部分擴展A區、B區漢字 | 越學院的Han Nom字型高解析度版本。 | |
Nôm Na Tống(喃那宋) | 字形受到一些越南古籍的影响。 下载链接 | |||
花園明朝 | 日本(JIS X 0213:2004) | 基本区、擴展A區、B區、C區、D區、E區,表意文字異體數據庫(IVD)Adobe-Japan1集合、Hanyo-Denshi集合,平假名,片假名,變體假名,諺文字母及音節,太玄經符號,算籌數字,易經六十四卦符號,麻將牌,盲文圖案 该字体分成HanaMinA(花園明朝A)、HanaMinB(花園明朝B)两部分,其中HanaMinA仅对中日韩统一表意文字区及其扩展A区提供全面支持,HanaMinB提供了对B区、C区、D区、E区、F区的完整支持。 |
从OSDN下载 | |
FZKaiS-Extended | 中国大陆 | ❌ | 基本区、擴展A區 | 由北大方正依楷体风格设计的大字符集字体。 |
FZKaiS-Extended(SIP) | 擴展B區 | 可分別配合FZKaiS-Extended使用。 | ||
方正宋体S-超大字符集 | 基本区、擴展A區 | 由北大方正依宋体风格设计的大字符集字体。 | ||
方正宋体S-超大字符集(SIP) | 擴展B區 | 配合方正宋体S-超大字符集使用。 | ||
BabelStone Han | 基本区、擴展A區、B區、E區、G區中的部份字元,擴展C區、D區和F區的所有字元 | 由汉学家魏安基于文鼎PL细上海宋修改,下载链接 | ||
文泉驿开源中文计划 | 完整覆盖GB2312、Big5以及GBK标准字符集 | |||
思源黑体[1] Noto Sans CJK[2] |
簡體版:中國大陸 | 完整基本区、擴展A區,擴展B~E區中規範漢字(即全部《通用规范汉字表》內字) | 由Google和Adobe聯合開發並各自推出 | |
繁體版:台灣、香港 | A區、B區中部分常用字 | |||
完整版 | 完整基本区、擴展A區,擴展B~F區中的部份常用字 | |||
苹方 | 苹方-简:中国大陆 | ❌ | 完整基本区、擴展A區,擴展B~E區中的部分常用字 | 由Apple委托华康设计,内置于iOS、macOS、watchOS和tvOS,随系统更新而更新 |
苹方-繁:台湾地區 | 擴展A~E區中的部分常用字。可配合苹方-简使用 | |||
苹方-港:香港特別行政區 | ||||
851手写杂字体 | 不定,主要为日本 | 基本区、擴展A區、B區、C區、D區、E區中的中、日文常用字(完全覆盖《通用规范汉字表》) | 手写字体。 | |
遍黑体 | 中国大陆 | 完整扩展C区、D区、G区、H区,基本区、扩展A区增补部分,少量其他扩展区汉字和非汉字字符 | 基于思源黑体修改而成。 | |
源樣黑體 | 舊字形(非任何现实地区标准) | 完整基本区、擴展A區,擴展B區、C區、D區、E區、F區中的部份常用字,特製臺灣閩客字、適應繁體中文的本地化改進 | 基於韓文版本的漢字傳承字形修改而成。 | |
一點明體 | 傳承字形(非任何现实地区标准) | 基本区、擴展A區、B區、C區、D區、E區、F區、G區中的中、日文常用字,香港字、臺灣閩客字,假名和擴展假名,粵語和臺灣方音注音符號,部首、漢字筆畫,麻雀牌、中國象棋、中國算籌、中式「正」字計數符號、八卦符號、易經六十四卦符號、太玄經符號等字符 | 完全覆蓋《通用規範漢字表》所有漢字及對應繁體字。 |
- 注意:表格中「字形標準」欄指的是該字体設計所符合的字形標準,並非其能顯示的漢字範圍,例如標明了「中国大陆」的字型亦能顯示繁體中文(但是會以中國大陸的繁體字字形標準顯示)。字型支援的編碼範圍,見「支援部份」欄。
輔助工具
- BabelMap或BabelMap線上版及BabelPad(這裡有一個漢化版)
- 可直接鍵入Unicode內碼、或使用拼音或部首找字,然後把文字粘貼到瀏覽器
- Unicode Unihan Database (英文)
- 可使用拼音或部首找字
- 字形维基Glyphwiki (日語)(繁體中文)(简体中文)
- 制作字形文件时可以使用这个网站上的字形图片(推荐使用svg格式)
- 字海网或叶典网 (简体中文)
- 字統网 (简体中文)
- 漢字源、形、音、義、碼数据库整合站點。收錄字形19.7萬、字義15.6萬(《説文解字》《康熙字典》等)、字理字源14.4萬(《字源》《汉语多功能字库》等)、超227萬筆音韻數據〔5地標准音、18本韻書(《广韵》《集韵》《蒙古字韵》《洪武正韻》等)、10種上古音方案、450餘方言點〕。同时还提供历代书法资源和动态组字工具。
- 古今文字集成(简体中文)及開放古文字字形字庫 (繁體中文)
- 可以通过多种检索方式查询大量古、今漢字以及類漢字(如西夏文、契丹文、女真文)释義、字形更革、音韻演變的大型在線辭書。
- 汉典 (简体中文)
- 可以透過部首、拼音找字,生僻字有圖片、文字轉換功能,包含《説文解字》《康熙字典》字書内容。
- 異體字字典 (繁體中文)
- 可以通過筆畫、部首檢索中日韓用漢字正字、異體字,網站使用了大量字形圖片,收錄超過10萬字
- 國際電腦漢字及異體字知識庫 (繁體中文)
- 可以透過部首、部件、相似字、UNICODE編碼找字。
- 漢語多功能字庫 (繁體中文)
- 可提供歷史字形、字源字理、音韻學语言學等數據資料,详见使用凡例
- 姓名生僻字处理平台(简体中文)
- 致力于解决姓名生僻字的社会应用问题,有生僻字查询、登记、Unicode转汉字等工具
注释
- ↑ 即包括:𠅤𠙶𠳐𡎚𡐓𣗋𣲗𣲘𣸣𤧛𤩽𤫉𥔲𥕢𥖨𥻗𦈡𦒍𦙶𦝼𦭜𦰡𧿹𨐈𨙸𨚕𨟠𨭉𨱇𨱏𨱑𨱔𨺙𩽾𩾃𩾌𪟝𪣻𪤗𪨰𪨶𪩘𪾢𫄧𫄨𫄷𫄸𫇭𫌀𫍣𫍯𫍲𫍽𫐄𫐐𫐓𫑡𫓧𫓯𫓶𫓹𫔍𫔎𫔶𫖮𫖯𫖳𫗧𫗴𫘜𫘝𫘦𫘧𫘨𫘪𫘬𫚕𫚖𫚭𫛭𫞩𫟅𫟦𫟹𫟼𫠆𫠊𫠜𫢸𫫇𫭟𫭢𫭼𫮃𫰛𫵷𫶇𫷷𫸩𬀩𬀪𬂩𬃊𬇕𬇙𬇹𬉼𬊈𬊤𬌗𬍛𬍡𬍤𬒈𬒔𬒗𬕂𬘓𬘘𬘡𬘩𬘫𬘬𬘭𬘯𬙂𬙊𬙋𬜬𬜯𬞟𬟁𬟽𬣙𬣞𬣡𬣳𬤇𬤊𬤝𬨂𬨎𬩽𬪩𬬩𬬭𬬮𬬱𬬸𬬹𬬻𬬿𬭁𬭊𬭎𬭚𬭛𬭤𬭩𬭬𬭯𬭳𬭶𬭸𬭼𬮱𬮿𬯀𬯎𬱖𬱟𬳵𬳶𬳽𬳿𬴂𬴃𬴊𬶋𬶍𬶏𬶐𬶟𬶠𬶨𬶭𬶮𬷕𬸘𬸚𬸣𬸦𬸪𬹼𬺈𬺓
参考资料
- ↑ 從Unicode的本身角度說,新舊字形不應使用「相容功能」表示,而應該通過表意文字變種資料庫中的后缀序列指定。要表示舊字形的「賓」,可以在Adobe-Japan1對照表查到8CD3的E0101號變體,使用(U+8CD3 U+E0101)序列表示。