中国的汉字如何编码？-问天问

中国的汉字如何编码？

所谓编码，是以固定的顺序排列字符，并以此做为记录、存贮、传递、交换的统一

内部特征，这个字符排列顺序被称为“编码”。

字库的编码是字库组织的依据，也是文字处理的基础。不同国家和地区有不同的编

码标准，和中文字库有关的常见编码有：单字节编码、GB2312-80、GB12345-90、GBK、U

nicode编码、ISO10646 / Unicode字符集、GB18030-2000、BIG5编码，下面简要介绍一

下：

单字节编码

MS Windows：Windows Latin 1（ANSI）

MS-DOS：MS-DOS Latin US

Macintosh：Macintosh Roman

GB2312-80

全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信

息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯

一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则

以GBK为基本汉字编码、但兼容支持GB2312。

双字节编码

范围：A1A1~FEFE

A1-A9：符号区，包含682个符号

B0-F7：汉字区，包含6763个汉字

GB码共收录6763个简体汉字、682个符号，其中汉字部分：一级字3755，以拼音排

序，二级字3008，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了

很大作用。

GB12345-90

1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助

集》，目的在于规范必须使用繁体字的各种场合，以及古籍整理等。该标准共收录6866

个汉字（比GB2312多103个字，其它厂商的字库大多不包括这些字），纯繁体的字大概有

2200余个。

双字节编码

范围：A1A1~FEFE

A1-A9：符号区，增加竖排符号

B0-F9：汉字区，包含6866个汉字

Unicode编码(Universal Multiple Octet Coded Character Set)

国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号

进行统一性编码。1991年美国跨国公司成立Unicode Consortium，并于1991年10月与WG2

达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与ISO1

0646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf

International Standard），目前版本V2.0于1996公布，内容包含符号6811个，汉字209

02个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个。

ISO10646 / Unicode字符集

全球可以共享的编码字符集。

UCS-4：组八位平面八位行八位字位八位

UCS-2：00组中的00平面是基本多文种平面（BMP），4E00~9FFF 中日韩文字

Ext A（CJK）：3400~4DB7，共6584字

Ext B（CJK）：42，807个汉字，在第2平面的0100~A836

GBK编码(Chinese Internal Code Specification)

GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组

于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、

符号883个，并提供1894个造字码位，简、繁体字融于一库。

Windows95/98简体中文版的字库表层编码就采用的是GBK，通过GBK与UCS之间一一对应的

码表与底层字库联系。

英文名：Chinese Internal Code Specification

中文名：汉字内码扩展规范1.0版

双字节编码，GB2312-80的扩充，在码位上和GB2312-80兼容

范围：8140~FEFE（剔除xx7F）共23940个码位

包含21003个汉字，包含了ISO/IEC 10646-1中的全部中日韩汉字

GB18030-2000

英文名：Chinese Internal Code Specification

中文名：信息技术信息交换用汉字编码字符集

基本集的扩充（ 2000-03-17发布和实施）

单字节、双字节、四字节编码

向下与国家标准GB 2312信息处理交换码所对应的事实上的内码标准兼容。

在字汇上支持GB 13000.1的全部中、日、韩（CJK）统一汉字字符和全部CJK统一汉字扩

充A的字符。

BIG5编码

是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准，包括440个符号，一级

汉字5401个、二级汉字7652个，共计13060个汉字。

相关文章

汉字区位码、国标码和机器码有什么区别

汉字找茬王略找出18个字通关攻略详情

1 汉字的手抄报简单

2 汉字进化史一目了然，百分之百让你长知识

3 汉字的演变过程及各阶段的特点

4 汉字繁简体转换

5 汉字的起源