




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第3讲 字符和汉字的信息编码 4-11这节课是最专业的基础课,要全力理解其中难点,否则美国著名的科学家冯·诺依曼提出的程序和数据采用二进制代码表示,为现代计算机发展奠定了基础。为了互相传递和处理字符和汉字等信息,通过各种输入设备输入的每一个字符(如:数字、字母、符号等)和汉字,到计算机内部都有一个统一的二进制编码(机内码),一一对应表示。一、 计算机中字符的编码表示:P6计算机开始只在美国使用。一个字节八个位一共可以组合出256(2的8次方)种不同的状态(数字)。把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这些英文字母及键盘上其它字符,在计
2、算机中统一用二进制编码来表示,使用最广泛的是ASCII(美国国家信息交换标准)码,如字母“a”的ASCII码是:十进制数是97(二进制编码是1100001),其它部分字符的ASCII码见课本P6页的表1.2.3。 标准ASCII码使用一个字节的7位(最高位作符号位:0为+、1为-),因此最多可表示128个字符 0(1111111)2 = (127)10 。要注意字母和数字的ASCII码的大小排列规律:(经常要考到)字母: A B C D E . X Y Z 其它字符 a b c d e . x y zASCII码:65 66 90 97 98 122数字: 0 1 2 3 . 8 9 ASCI
3、I码:48 49 50 56 57注意:“其它字符”有6个,上面表的ASCII码是用十进制表示,但电脑里往往用十六进制表示,例如“A”的十六进制编码是:41基本的考题往往告诉你一个字符(例如“b”)的ASCII码98(十进制),请你写出另一个字符 (例如“X”)的ASCII码?(十进制)。二、 计算机中汉字的编码表示:P71、汉字的信息交换码(又称国标码,即汉字库GB2312):标准ASCII码使用一个字节的7位的不同的状态(数字)来表示127个空格、标点符号、数字、大小写字母,但汉字有6000多个常用汉字,我们要用多少位或几个字节来保存、表示这些汉字呢?但是这难不倒智慧的中国人民,我们规定:
4、一个小于127的字符的意义与原来相同,但两个大于127的2个字节(=16位)连在一起时,就表示一个汉字,如汉字“电”在GB2312中对应的二进制编码是: 0011010101100111B用十六进制编码表示是: 3 5 6 7 H这样我们就可以把每个汉字用一个2个字节二进制编码对应起来。实际上,2个字节(16位)可以表示65535个编码,还有太多的编码没用起来,所以我们干脆把数学符号、罗马希腊的字母、日文的片假名都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,演示:汉字库GB2312 2个字节编码的汉字库GB2312,汉字从16区开始编排,前15个区我
5、们可以对其它字符、符号进行2个字节编码,包括原来的128个标准ASCII码字符(半角),我们可以给与2个字节编码(全角:相当于取个中文姓名),我们把2个字节编码的字符叫"全角"字符,而前面介绍的ASCII码用1个字节编码的字符叫"半角"字符;所以键盘上的英文字符、数字,有半角1个字节和全角2个字节的编码: (输入演示)Abc123所以,汉字编码字符集GB2312是对 ASCII 的中文扩展。这种汉字编码是我国制定的信息交换码(又称国标码),用16位编码(两个字节)表示一个汉字, 每个字符、汉字的对应十六进制编码(机内码,下面说明)可用专门文本编辑软件(如
6、:UltraEdit文本编辑软件)来查看(演示):其中“电”的十六进制编码是:B5 E7; 2个字节!“脑”的十六进制编码是:C4 D4; 2个字节!“A”的十六进制编码是: 41。 1个字节!.2、汉字的信息交换码的第二种形式区位码(输入形式): 演示:汉字库GB2312,观察里面的字符、汉字编码,发现:我国制定的信息交换码GB2312将代码表分为94个区(对应第一字节);每个区94个位(对应第二字节),因此也称为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。例:“阿”的区位码是:1602
7、(第16区,第2位); (见P8的区位码表示图)每一个汉字的区位码需查汉字的区位码表,16-87区为汉字区按拼音字母a、b、c、d.排列(例如:第16区a拼音字母开始,第17区b拼音字母开始,.; 见P8的区位码表示图)。区位码是汉字库GB2312国标码的一种表示方法(国际码=区位码(十六进制)+2020H);当时的区位码好处是便于查找其中的汉字等字符(例如:查“电”的区位码),并设计了区位码输入法来输入汉字,但要查区位码表来输入汉字等字符,效率很低;现在有各种高效的输入法(例如:搜狗输入法、五笔字型输入法等),所以区位码输入法基本不用了。3、汉字的信息交换码的第三种形式处理码(机内码): 汉
8、字的信息交换码的国标码还不能直接输入计算机内作为汉字字库,有时需要作些处理,因为:一个汉字的信息交换码占两个字节,每个字节最高位也是“0”;英文字符的内码是7位ASCIl码,最高位也是0,就产生二义性问题,例如:(难点来了!)“电”的国标码二进制表示是:0011010101100111;但上面2个字节可分别表示2个ASCII码:(查ASCII码表) 00110101=35D“#” 01100111=103D-à“g”;所以,0011010101100111也可表示:“#g”,为避免这样的不确定性,我们把“电”的国标码二进制表示:0011010101100111,输入到计算机里时,在2
9、个字节的最高位分别加1:1011010111100111 称为机内码(或处理码)这样,为了在计算机内部能够区分是汉字编码还是ASCIl码,将一个汉字内码的每个字节的最高位设置为“1”(十六进制数80H=10000000),即:0011010101100111B=3567H+ 1000000010000000B=8080H=1011010111100111B=B5E7H(用UltraEdit查到的机内码)这样处理后的编码叫汉字的处理码,处理码是计算机内部用于信息处理的汉字代码,也称汉字机内码。一个汉字的国标码16进制数+ 8080H =机内码(处理码)(80H=10000000)从上可见,机内码
10、(处理码)8080H,请理解记住! 应用测试题:根据下面图示,你能判断有几个机内码?几个ASCII码?4、小结区位码、国标码和机内码之间的关系?(1)、汉字的国标码区位码、和机内码是汉字信息交换码的三种形式;国际码=区位码(16进制)+2020H机内码=国际码+8080H (2)、汉字的机内码(处理码)是国标码在计算机里经过处理(避免和ASCIl码冲突)后的表示; 三、 汉字的外码、字形码概念:P71、汉字的外码:(1)、计算机对文字处理首先要解决汉字输入问题。汉字输入法有上千种,常见的汉字输入法有十几种,每种输入法的编码(外码)不同,但对应的机内码是同一个,如: 电电拼音输入法:“电”的编码
11、(外码)是:“dian”;->机内码: 1011010111100111;电五笔字型输入法: “电”的编码(外码)是:“jnv”;->机内码: 1011010111100111; 从上例可以看出,所谓外码就是输入汉字时使用的编码,跟特定输入法对应,一个汉字的机内码是唯一的,可对应多个外码。(2)、输入法的编码(外码)的分类为:a、音码:(如:拼音输入法)b、形码:(如:五笔字型输入法)c、音、形码:(如:表形码输入法)2、汉字的字形码:(汉字的输出码)为了汉字的输出显示和打印,需要描述汉字的字形,汉字字形通常有两种表示方式:矢量方式(线段和短弧组成) 和点阵方式。这种对汉字字形的编
12、码,称为汉字的字形码。汉至于矢量图和点阵图的特点,我们以后会讨论的。课本P8图l 24表示了汉字输入码、处理码,交换码、字形码之间关系:国标码GB2312或区位码如:拼音码、五笔字型码等点阵方式和矢量方式显示电1011010111100111四、作业:(可从“网络”服务器上下载本讲稿)1、 仔细研究本讲稿,记录有关内容到课本;2、 已知字母“A”的ASCII码(1000001)的十进制数是:65,请写出字母“D”的ASCII码的十进制数是多少?(不能查ASCII码表)3、 UltraEdit文本编辑软件来查看字符和汉字(如:你的姓名、英文名字母、学号)的十六进制码内码;(UltraEdit注册
13、码: Name: Boedha s/n: TKSRSLIP50490511)4、机内码的概念?理解国标码(区位码)和机内码之间的关系;5、理解汉字外码、交换码(国标码)、机内码(处理码)、字形码概念;6、试用一种拼音输入法输入汉字,分别用半角全角方式输入:数字(英文字母、其它符号),看看显示结果的不同。(演示?)7、水平考试题用UhraEdit 软件观察字符内码,结果如下图所示。则图中内码表示的字符可能是(A)12个 ASCII 字符 (B)6个 ASCII 字符和 6 个 GB2312 字符(C)6 个 GB2312 字符 (D)6个 ASCII 字符和 3个 GB2312 字符8、水平考试
14、题:字符“1+1=2”的十六进制内码如下图所示:把讲稿发到家里,完成上面作业和练习,把答案写在一张纸上,写上班级、学号、姓名,下节课(给课代表)交上。2016-10-14附录:一个汉字交换码的第三种形式的关系(差一个常数)1、区位码+2020H = 国标码;例:查的“啊”的区位码是:1601D(D表示前面数是十进制数),16D=10H,01D=01H,(因为是2个字节合成的,所以分2段分别转换),所以“啊”的区位码十六进制表示是:1001H;所以,“啊”的国标码=一个汉字的区位码+2020H =1001H+2020H=3021H;2、国标码+ 8080H = 机内码(处理码),所以“啊”16进
15、制机内码为:3021H + 8080H = B0A1 H用UltraEdit文本编辑软件验证“啊”的机内码(处理码);3、如果你还不理解为什么国标码+ 8080H = 机内码(处理码)的关系,请再次看下面解释: “啊”的国标码二进制表示是:0011000000100001;但上面2个字节可分别表示2个ASCII码: 00110000=48D“0” 00100001=33D-à“!”;所以,0011000000100001也可表示:“0!”,为避免这样的不确定性,我们把“啊”的国标码二进制表示:0011000000100001,输入到计算机里时,在2个字节的最高位分别加1:101100
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产买卖中介合同
- 性格色彩分析理论及应用
- 中级经济师考试的创新意识培养与试题及答案
- 2025年市政工程考试知识点剖析试题及答案
- 建筑泥工劳务分包合同
- 农村生物技术应用研究开发合同
- 员工关系在公共关系中的角色试题及答案
- 掌握中级经济师考试复习的主动权与试题及答案
- 行政管理专科公共关系学全面试题及答案
- 维护技术基础考试试题及答案
- 人工智能导论知到智慧树章节测试课后答案2024年秋天津大学
- 食品安全知识8
- 《三只松鼠公司基于近三年数据的财务探析(4200字论文)》
- 《可复制的领导力》读书分享
- GB/T 25085.2-2024道路车辆汽车电缆第2部分:试验方法
- 【水利水电】李想 案例专项班教案 03-案例专项班(三)
- 水利工程项目预算管理方案
- 师德师风-做“四有”好老师
- 衣食住行见证改革开放时代变迁-(修订)
- 弱电智能化施工方案
- 新生儿X线检查
评论
0/150
提交评论