




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章汉字信息在计算机内部表示 主要内容 英文字符在计算机内部的表示中文信息在计算机中的表示汉字代码体系汉字的排序汉字编码字符集 2 1英文字符在计算机内部的表示 1 ASCII码ASCII码 AmericaStandardCodeforforInformationInterchange 美国信息交换标准码 作为数据传输的标准码 早期使用7个位来表示英文字母 数字0 9及其它符号 现在则使用8个位 最多可以给256个字符 包括字母 数字 标点符号 控制字符及其他符号 分配 或指定 数值 ASCII码字符标准中用7位二进制数定义了128个字符 其中94个为图形字符 32个为控制字符 1个为空格字符和一个Del键 ASCII的编码空间如图所示 图中把7位二进制数分为高3位作为列号 低4位作为行号 并用十六进制表示 从而组成了一个ASCII编码空间 2 扩展ASCII码由于ASCII码只能表示94个字符 因此若需要使计算机还能够处理其他西文 如德文 法文 西班牙文等 则必须对ASCII码进行扩充 最简单的方式是采用8位二进制编码来表示一个扩展的ASCII码字符集 扩展ASCII码的编码空间如图所示 GL图形区用作ASCII码 GR图形字符区为其他一个西方国家的语言文字编码 为了尽可能多地使得英文与其他西方语言文字系统兼容 国际化组织在ISO8859的第1 10部分中定义了新增128个码元的字符编码集 这10个部分分别定义了ASCII码和其扩展字符集 不同的扩展字符集用ISO8859后跟不同的数字表示 扩展ASCII码采用高4位作列号 低4位作行号 3 CJK RomanCJK Roman是指在中日韩字符编码标准中开发的ASCII码 分别是GB Roman CNS Roman JIS Roman和KS Roman CJK Roman除下列字符与ASCII码不一致之外 其他都与ASCII相同 2 2中文信息在计算机中的表示 为了能使汉字能够在计算机中通行 亚洲国家和地区除了制定CJK Roman标准外 国际化标准组织 国际电气电子工程师协会 以及各汉字使用国家和地区在计算机技术发展中 也制定了形式多样的汉字编码字符集 其中最具有代表性的是ISO IEC2022标准 该标准定义了 位代码和 位代码的空间及其代码空间扩充技术 迄今为止 绝大多数计算机系统所采用的字符集都是以此标准作为基础 从ASCII码的扩展中我们可以得出 如果采用多个 位编码 则除去控制字符区之外 可以获得94 94 94 个编码空间 若采用双字节的7位代码 则为了保持与ASCII系统的兼容 通常采用高位置1的方法来区分汉字代码与ASCII代码 若采用3字节的7位代码 则可以用一个字节作为汉字代码 其余2个7位编码作为汉字代码 参照ISO IEC2022标准 中国大陆 中国台湾地区 日本和韩国等在标准的框架下制定了相应的字符编码标准 2 3汉字代码体系 1 汉字交换码汉字交换码是用于信息交换的汉字代码 也称汉字传输码 在GB2312中用双字节表示 它用于汉字信息在计算机之间的传输 与ASCII码不同 汉字的这种代码表示一般不能直接用于信息处理 2 汉字处理码汉字处理码是用于信息处理的汉子代码 也称汉字内码或汉字机内码 汉字的内码在不同的汉字操作系统中的长度可以不同 为了表示汉字的数量 同时考虑到汉字信息的存储和传输效率等 通常中文操作系统用双字节长度表示汉字的内码 并把每个字节的高位置1 这样系统中的ASCII码字符就能够与汉字字符区分 3 汉字输入码汉字的输入码通常指汉字的键盘输入编码 根据汉字的属性 汉字的输入键盘码可以分为 音码 形码以及音形组合码 根据汉字编码说用的字符类别 则可以分别采用26个英文字母的大键盘编码和采用10个素质的小键盘编码 汉字的输入码通过键盘转换程序转换成汉字的机内码 4 汉字字形码汉字的字形码是表示汉字字形的字模数据 通常用点阵 矢量函数等方式表示 用点阵表示时 汉字字形码就是这个汉字字形点阵代码 5 汉字地址码汉字地址码是在一个汉字系统中 某一汉字字型信息存放在汉字库中的逻辑地址的编码 相对于GB2312中16 16点阵字库 地址码和汉字码之间的关系 地址码 内码第一字节 A1H 94 内码第二字节 32 6 汉字区位码汉字区位码既是一种输入码 也是汉字交换码的另一种表示形式 在GB2312 80中 交换码 区位码 处理码之间存在着简单的转换 设交换码为JH 十六进制 区位码为QW 十进制 处理码为CL 十六进制 则 J Q 32 再转换为十六进制H W 32 再转换为十六进制C J 80HL H 80H 7 代码页不同国家的人使用着不同语言的操作系统 然而 操作系统厂商若要根据各个国家和地区使用不同语言文字的人开发不同的操作系统 在成本 系统维护与升级等方面的开销太大 为此 微软公司在开发MS DOS和Windows3 1的各种产品时 进一步将依赖于各具体平台的各文种的字符集加以整理 并对各个具体的代码页都赋予一个代号 称作 代码页ID 2 4汉字的排序 1 拼音序按照拼音顺序对汉字进行排列 为此首先要设计一张汉字与拼音的对照表 也要考虑到一字多音的特点 2 笔画序按照汉字书写的笔画多少来排序 由少到多或由多到少 3 字符序按照每个汉字的大写来排序 汉字的字符序通常是以GB2312 80为标准 4 汉字属性数据库汉字属性数据库是按照字符编码集中的汉字以及其属性 建立起相应的数据库 2 5汉字编码字符集 按照一组无歧义的规则而定义的汉字词汇的有序几个称为汉字编码字符集 其中每一个汉字和代码之间具有一一对应的关系 在信息处理中 汉字编码字符集用于汉字信息表示 交换 传输 处理 存储 输入及显示 1 GB2312 80GB2312 80共收录7445个汉字及其他字符 1986年国家标准局颁布GB2312 80的更正和增补版 简称为GB6345 1 86 2 Big5Big5是中国台湾地区信息业常用的汉字编码字符集的一种代码空间 可直接用作处理码 其编码采用双字节编码 编码范围是第一字节A1 FE 第二字节40 7E 编码空间在一个94 157的矩阵中 最多可以容纳14758个码元 实际上Big5中收录了13494个字符 代码空间如下表所示 3 ISO IEC10646ISO10646是一个国际标准编号 该标准的英文全称为 InformationTechnology UniversalMultiple OctetCodedCharacterSet 简称UCS 中文全称为 信息技术 通用多八位编码字符集 亦称大字符集 这一标准为世界各种主要语文的字符 包括繁体及简体的中文字 及附加符号 编订统一的内码 ISO10646标准由国际标准化组织ISO颁布 用来实现全球所有文种的统一编码 该标准被广泛应用于电子化地表示 传输 交换 处理 储存 输入及显现世界上各种语言的书面形式以及附加符号 国际标准化组织于1993年发表ISO10646国际编码标准的首个版本 全名是ISO IEC10646第一部分 ISO IEC10646 1 1993 它收录了20902个表意字符 2000年10月发表了第一部分的新版 新增收了6 582个表意字符于扩展区A里 ISO IEC10646的第二部分在2001年发表 增收了42711个表意字符于扩展区B里 USC体系结构基于 多8位 即4个8位 这4个8位由左而右命名为组八位 G octet 面八位 P octet 行八位 R octet 和位八位 C octet ISO10646规定其字符码的b32必须为0 因而整个编码空间可区分为128个组 00 7F 每一组一般由256个字面组成 00 FF 每个字面由256行组成 00 FF 每行包含256位 00 FF 为一个编码位置 除此之外 ISO10646规定每个字面的最后两个编码位置保留不用 FFFE和FFFF 所以ISO10646整个编码空间总共有256 128 32768个字面 每个字面为256 256 65534个编码位置 合计2147418112个编码位置 下图描述了UCS的体系结构 当计算机系统只使用BMP的字符码时 可以省略组八位和面八位 因而将字符由32位降为16位 ISO10646所有字面中 目前仅有第0 第1 第2字面真正收录了编码字符 截至目前所收集 整理得非表意文字和符号部分 扣除已编入 者 其余全部编入第 字面 而表意文字部分扣除已经编入BMP者 其余全部编入第2字面 ISO10646的BMP编码如下 1 0000 007F 基本拉丁字母区 2 0080 00A0 控制符区 其中0080 009F为C1控制区 00A0为软回车 3 00A1 1FFF 拼音文字区 收录各种拼音文字字符 4 2000 28FF 符号区 收录各种符号 包括标点符号 上下标 钱币符号 数字 箭头 数学符号 工程符号等 5 2E80 33FF 中日韩符号区 收录康熙字典部首 中日韩辅助部首 注音符号等 6 3400 4DFF 中日韩认同表意文字扩充A区 总计收录6582个中日韩汉字 7 4E00 9FFF 中日韩认同的表意文字区 总计收录20902个中日韩汉字 8 A000 A4FF 彝族文字区 9 AC00 D7FF 韩文拼音组合字区 收录以韩文音符拼成的文字 10 D800 DFFF S区 专用于UTF 16 11 E000 F8FF 专用字区 其内容不予规定 供使用者自行添加 12 F900 FAFF 中日韩兼容表意文字区 总共收录302个中日韩汉字 13 FB00 FFFD 文字表现形式区 收录组合拉丁文字 希伯来文等 4 GBK编码GBK是在GB2312 80的基础上增加了ISO10646 1 1993的汉字 主要包括下列几个部分 GB2312 80中的汉字 以及GB6345 1 86中更正和增补的汉字 GB 12345 90中的非汉字 14240个附加汉字和166个附加符号 在GBK标准中 GBK 1和GBK 5为非汉字图形字符区 GBK 2 GBK 3和GBK 4为汉字区 另外还有3个用户自定义区 有1894个码元位置 GBK标准是对以前多个标准的发展 并与GB2312 80保持向上兼容 各个区中的内容如下表所示 5 GB18030 2000国家标准GB18030 2000 信息交换用汉字编码字符集基本集的扩充 是我国继GB2312 1980和GB13000 1993之后最重要的汉字编码标准 是未来我国计算机系统必须遵循的基础性标准之一 中国大陆以双字节编码的GB已无法容纳新增字符 因此 GB18030 2000编码标准就在原来GB2312 1981编码和GBK编码标准的基础上进行扩充 增加了四字节 32位 部分的编码 此标准可以完全对应ISO10646所有的字面 现阶段GB18030收录了在ISO10646基本面字面的所有汉字 再整合GBK的汉字后达到了27484个汉字 总编码空间超过150万个码位 GB18030标准中采用单字节 双字节和四字节三种方式对字符进行编码 其中 单字节使用00 7F码位 对应于ASCII码的相应码位 双字节部分 首位字节码是81 FE 尾字节码位是40 7E和80 FE 四字节部分使用30 39作为对双字节编码扩充的后缀 这样扩充的四字节编码 其范围是81308130 FE39FE39 其中第一 三字节编码码位为81 FE 第二 四字节编码码位均是30 39 其中四字节的编码顺序是0 x81308130 0 x80308139 0 x81308230 0 x81308239 0 x8130FE30 0 x8130FE39 0 x81318130 0 x8131 8139 0 x8131FE30 0 x8131FE39 0 x82308130 0 x82308139 0 xFE308130 0 xFE308139 0 xFE39FE30 0 xFE39FE39 在GB18030 200的编码中 单字节编码收录了GB Roman的全部128个字符 双字节部分收录了 1 GB13000 1 1993中的全部CJK统一汉字字符 2 GB13000 1 1993的CJK兼容区挑选出来的21个汉字 3 GB13000 1 19
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 作业安全操作风险评估方案
- 农业智能化管理技术研究
- CAD三维建模设计手册方案报告规划
- 工业废气治理方案
- 2025中国邮政储蓄银行威海市分行招聘4人笔试备考试题及答案解析
- 企业人才战略规划和执行策略
- 职业装面料剪裁手册
- 2025云南省红河州屏边县人民法院招聘聘用制书记员和司法警务辅助人员(2人)考试含答案
- 学校教研活动规定forIndexPath方式
- 榨汁机维修细则手册
- 《全球时尚品牌概述》课件
- 四川宜宾环球集团有限公司招聘笔试题库2025
- 护罩钣金合同协议
- 2025中国新型储能行业发展白皮书
- 患乳腺癌的心理护理
- 风电项目建设流程
- 2025年乡村医生考试题库:常见疾病诊疗与社区医疗管理试题试卷
- 小学教育学(第5版)课件 曾文婕 第0-4章 绪论、小学教育源流-小学教师
- H镇美丽乡村建设项目绩效评价体系构建及应用研究
- TCANSI 133-2024 液化天然气(LNG)燃料动力船舶槽车气试加注作业安全要求
- 力学篇01秒解动态平衡-高考物理答题技巧与模型
评论
0/150
提交评论