汉字信息在计算机内部的表示.ppt_第1页
汉字信息在计算机内部的表示.ppt_第2页
汉字信息在计算机内部的表示.ppt_第3页
汉字信息在计算机内部的表示.ppt_第4页
汉字信息在计算机内部的表示.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章是计算机内汉字信息的表示,主要包括计算机内英文字符的表示,计算机内中文信息的表示,汉字的有序汉字编码字符集,2.1计算机内英文字符的表示,1。作为数据传输的标准代码。在早期,7位被用来代表英文字母、数字09和其他符号。现在,使用8位,最多可以分配(或指派)256个字符(包括字母、数字、标点符号、控制字符和其他符号)的数值。在ASCII字符标准中,128个字符由7位二进制数定义,其中94个是图形字符,32个是控制字符,1个是空格字符和1个Del键。ASCII的编码空间如图所示。7位二进制数被分成作为列号的高3位和作为行号的低4位,它们以十六进制表示,从而形成一个ASCII编码空间。扩展的A

2、SCII码由于ASCII码只能代表94个字符,如果计算机需要能够处理其他西方语言(如德语、法语、西班牙语等)。),它必须被扩展。最简单的方法是使用8位二进制编码来表示扩展的ASCII字符集。扩展的ASCII码的编码空间如图所示。总帐图形区域用作ASCII码,而GR图形字符区域是另一个西方国家的语言代码。为了使英语尽可能与其他西方语言和书写系统兼容,国际组织在ISO8859第110部分中定义了一个包含128个新符号的字符编码集。这10个部分分别定义了ASCII码及其扩展字符集。不同的扩展字符集由ISO8859表示,后跟不同的数字。扩展的ASCII码使用高4位作为列号,低4位作为行号。Cjk-Ro

3、man cjk-Roman是指在中文、日文和韩文字符编码标准中发展起来的ASCII码,它们分别是GB-Roman、CNS-Roman、JIS-Roman和KS-Roman。除了下列字符与ASCII码不一致外,CJK罗马字符与ASCII码相同。2.2计算机中的中文信息表示为了使中文字符通过计算机,亚洲国家和地区制定了CJK-罗马标准。随着计算机技术的发展,国际标准化组织(ISO)、国际电工电子工程师协会(IEE)等使用汉字的国家和地区也开发了各种汉字编码字符集。最具代表性的是国际标准化组织/国际电工委员会2022标准。本标准定义了位代码和位代码空间及其代码空间扩展技术。到目前为止,大多数计算机系

4、统采用的字符集都是基于这个标准的。从对ASCII码的扩展中,我们可以得出这样的结论:如果使用多个比特进行编码,那么除了控制字符区域之外,可以获得94*94*94个编码空间。如果使用双字节7位代码,为了保持与ASCII系统的兼容性,通常使用高位1的方法来区分汉字代码和ASCII代码。如果使用3字节7位代码,一个字节可用作汉字代码,另外两个7位代码可用作汉字代码。参照国际标准化组织/国际电工委员会2022标准,中国大陆、台湾、日本和韩国在标准框架下制定了相应的字符编码标准。2.3汉字编码系统,1。汉字交换码汉字交换码是用于信息交换的汉字码,也称汉字传输码,在GB2312中用双字节表示。它用于在计算

5、机之间传输汉字信息。与ASCII码不同,这种汉字编码表示不能直接用于信息处理。汉字处理码汉字处理码是一种用于信息处理的人类代码,也称汉字内码或汉字内码。在不同的汉字操作系统中,汉字内部代码的长度可以不同。为了表示汉字的数量,考虑到汉字信息的存储和传输效率,中文操作系统通常以双字节长度表示汉字的内部代码,并将每个字节的高位设置为1。这样,系统中的ASCII字符就可以根据汉字编码使用的字符类型,26个英文字母可用于大键盘编码,10个字母可用于小键盘编码。通过键盘转换程序将汉字输入码转换成汉字内部码。4.汉字字体编码汉字字体编码是表示汉字字体的字体数据,通常用点阵和矢量函数表示。当用点阵表示时,汉字

6、字体编码就是汉字字体的点阵编码。汉字地址码汉字地址码是在汉字系统的汉字库中存储某一汉字字体信息的逻辑地址的代码。与GB2312中的16*16点阵字体相比,地址码与汉字代码的关系是:地址码=(内码的第一个字节a1h)94(内码的第二个字节)32,6。汉字定位码不仅是一种输入码,也是汉字交换码的另一种表达形式。在GB2312-80中,交换码、位置码和处理码之间有一个简单的转换。如果交换代码是JH(十六进制),位置代码是QW(十进制),处理代码是C1(十六进制),那么J=Q 32被转换成十六进制H=W 32,然后转换成十六进制C=J 80 HL=然而,如果操作系统制造商想要根据在不同国家和地区使用不

7、同语言的人来开发不同的操作系统,那么成本、系统维护和升级都太高了。因此,当微软开发各种微软操作系统和视窗3.1产品时,它根据每个特定的平台进一步整理各种语言的字符集,并为每个特定的代码页分配一个代码名,称为“代码页标识”。2.4汉字排序,1。拼音顺序根据拼音顺序排列汉字。为此,我们首先要设计一个汉字和拼音的对照表,还要考虑多音的特点。2.笔画顺序是根据汉字的笔画数从少到多或从多到少进行排序的。字符顺序是根据每个汉字的大小写排序的。汉字的字符顺序通常基于GB2312-80。4.汉字属性数据库汉字属性数据库根据汉字编码集中的汉字及其属性建立相应的数据库。2.5汉字编码字符集,根据一套明确的规则称为

8、汉字编码字符集。每个汉字和代码之间是一一对应的。在信息处理中,汉字编码字符集用来表示、交换、传输、处理、存储、输入和显示汉字信息。1.GB2312-80包含7445个汉字和其他字符。1986年,国家标准局颁布了对GB2312-80的修订和补充,简称GB 6345.1-86。2.BIG5BIG5是中国台湾信息产业常用的汉字编码字符集的代码空间,可以直接作为处理代码使用。其编码采用双字节编码,编码范围为第一字节A 1-FE,第二字节40-7E,编码空间为94*157矩阵,最多可容纳14758个符号。实际上,Big5包含13494个字符,代码空间如下表所示。3.ISO/IEC 10646国际标准化组

9、织10646是一个国际标准号码,它被称为信息技术-通用多八位字节编码字符集的英文。中文叫:信息技术-通用多八位编码字符集,又称大字符集。本标准为世界主要语言的字符(包括繁体和简体中文字符)和附加符号编制了统一的内部代码。ISO 10646是由国际标准化组织ISO发布的,旨在实现世界上所有语言的统一编码。本标准广泛用于以电子方式表示、传输、交换、处理、存储、输入和显示世界上各种语言的书面形式和附加符号。1993年,国际标准化组织出版了第一版国际标准化组织10646,其全称是国际标准化组织/国际电工委员会10646-1:1993。它包含20902个表意字符。在2000年10月,第一部分的新版本已经

10、出版,在扩展区甲增加了6,582个表意文字。在2001年出版了国际标准化组织/国际电工委员会10646的第二部分,在扩展区乙增加了42711个表意文字这四个八位字节从左到右分别命名为组八位字节、面八位字节、行八位字节和位八位字节。ISO10646规定其字符代码的b32必须为0,所以整个编码空间可以分为128组(00-7F),每组一般由256个字面值(00-FF)组成,每个字面值由256行组成(00-FF),每行包含256位(00-FF),这是一个编码位置。此外,ISO10646规定保留每个文字的最后两个编码位置(FFFE和FFFF)。因此,在ISO10646的整个编码空间中有256*128=3

11、2768个字面值,每个字面值是256*256=65534个编码位置,总共有2147418112个编码位置。下图描述了统一通信系统的体系结构。当计算机系统仅使用BMP字符编码时,可以省略组八位组和面八位组。因此,字符从32位减少到16位。在ISO10646中的所有文字中,只有第0、第1和第2个文字真正包含编码字符。到目前为止,收集和整理出来的非表意文字和符号都纳入了第一个文字,而表意文字都纳入了第二个文字,不包括那些已经纳入BMP的文字。ISO10646 BMP代码如下:(1)0000-007F:基本拉丁字母区域。(2)0080-00A0:控制符号区。0080-009F是C1控制区,00A0是软

12、回车。(3)00A1-1FFF:拼音字符区。包括各种拼音字符。(4)2000-28FF:符号区,包含各种符号,包括标点符号、下标、货币符号、数字、箭头、数学符号、工程符号等。(5)2E80-33FF:中国、日本和韩国的符号区。包括康熙字典字根、中日韩辅助字根、音标等。(6)3400-4DFF:中国、日本和韩国同意使用表意字符来扩展A区,共有6582个中、日、韩文字符。(7)4E 00-9FF:中国、日本和韩国认可的表意区域,包含中国、日本和韩国的20,902个汉字。(8)A000-A4FF:彝语区。(9)AC00-D7FF:朝鲜拼音组合单词区,包含用朝鲜音符拼写的字符。(10) d800-df

13、ff:区域s,专用于UTF-16。(11)E000-F8FF:特殊文字区,其内容未指定,可由用户自行添加。(12)F900-FAFF:一个兼容中国、日本和韩国的表意文字区,总共包含302个中国、日本和韩国字符。(13)FB00-FFFD:字符表达区,包含拉丁字符和希伯来语等。GBK编码gbk是一个汉字,在GB2312-80中增加了iso 10646-1: 1993。主要包括以下几个部分:GB2312-80中的汉字和GB6345.1-86中的修正补充汉字;GB/12345-90中的非汉字;14240个附加汉字和166个附加符号。在GBK标准中,GBK/1和GBK/5是非汉字区,GBK/2、GBK

14、/3和GBK/4是汉字区,还有3个用户定义的1894个符号位置的区域。GBK标准是对以前许多标准的发展,并与GB2312-80保持向上兼容。下表显示了每个区域的内容。GB18030-2000国家标准GB 18030-2000信息交换用汉字编码字符集基本集的扩展是继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,也是我国计算机系统今后必须遵循的基本标准之一。在中国大陆用双字节编码的GB不能再容纳新字符。因此,在原GB2312-1981编码标准和GBK编码标准的基础上,对GB18030-2000编码标准进行了扩展,增加了4字节(32位)编码。该标准可以完全符合ISO106

15、46的所有文字。目前,GB18030包含了ISO10646中所有的文字汉字,并整合了GBK的汉字,达到了27484个汉字。总编码空间超过150万个码位。在GB18030标准中,字符有三种编码方式:单字节、双字节和四字节,其中单字节使用00-7F码位(对应于ASCII码位);双字节部分,第一字节码为81位,尾字节码位为40-7E和80-FE;四字节部分使用30-39作为后缀来扩展双字节编码。扩展的四字节代码是81308130-FE39FE39。第一和第三字节码位是81-FE,第二和第四字节码位都是30-39。四个字节的编码序列为0 x8 1308130-0 x8 0308139;0 x8 130

16、8230-0 x8 1308239;0 x8 130 Fe 30-0 x8 130 Fe 39;0 x8 1318130-0 x8 131-8139;0 X8131 Fe30-0 X8131 Fe39;0 x8 2308130-0 x8 2308139;0 xfe 308130-0 xfe 308139;0 xFE39FE30-0 xFE39FE39,在GB18030-200的编码中,单字节编码包括GB-Roman的所有128个字符;双字节部分包括:(1)全CJK统一汉字1)GB 13000.1-1993;(2) 21个汉字,选自2)GB 13000.1-1993 CJK兼容区;(3)GB13000.1-1993中包含139个图形字符,GB2312

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论