理学字符编码课件_第1页
理学字符编码课件_第2页
理学字符编码课件_第3页
理学字符编码课件_第4页
理学字符编码课件_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1提纲一计算机中字符的表示(ASCII码)二计算机中中文字符的表示1提纲2概述在计算机中,各种信息都是以二进制编码的形式存在不管是文字、图形、声音、动画,还是电影等信息,在计算机中都是以0和1组成的二进制代码表示计算机之所以能区别这些不同的信息,是因为它们采用的编码规则不同比如:同样是文字,英文字母与汉字的编码规则就不同,前者采用单字节的ASCII码,后者采用双字节的汉字内码但随着需求的变化,这两种编码有被统一的UNICODE码(由Unicode协会开发的能表示几乎世界上所有书写语言的字符编码标准)所取代的趋势2概述在计算机中,各种信息都是以二进制编码的形式存在一、计算机中字符的表示(ASCII码)ASCII(AmericanStandardCodeforInformationInterchange,美国标准信息交换码)规定了常用的数字、字符的编码。标准ASCII码采用7位二进制编码,对应的ISO标准为ISO646标准,最多可以表示128个字符。每个字符可以用一个字节表示,字节的最高位为0。一、计算机中字符的表示(ASCII码)ASCII(Ameri4ASCII码表(二进制)

高3位低4位0000010100111001011101110000NULDLESP0@P`p0001SOHDC1!1AQaq0010STXDC2"2BRbr0011ETXDC3#3CScs0100EOTDC4$4DTdt0101ENQNAK%5EUeu0110ACKSYN&6FVfv0111BELETB’7GWgw1000BSCAN(8HXhx1001HTEM)9IYiy1010LFSUB*:JZjz1011VTESC+;K[k{1100FFFS,<L\l|1101CRGS-=M]m}1110SORS.>N^n~1111SIUS/?O_oDEL4ASCII码表(二进制)高3位000001010基本ASCII码字符的分类显示字符范围为33~126,共94个,指能从键盘输入、可以显示和打印的字符。

控制字符范围是0~32和127,共34个,主要用于控制输入、输出设备。5基本ASCII码字符的分类显示字符控制字符5字符ASCII编码十进制值控制字符0000,0000—0001,1111和0111,11110—90011,0000—0011,1001

48—57A—Z0100,0001—0101,101065—90a—z0110,0001—0110,101097—122符号其余基本ASCII码字符的内容字符ASCII编码十进制值控制0000,0000—0001,解读基本ASCII码字符内容第0~31号及第127号共33个,为非打印字符,是控制字符或通讯专用字符,如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BEL(振铃)等;通讯专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等。第32~126号共95个可打印字符,其中第33个(32号)为空格,第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,第127个(126号)为“~”,其余为一些标点符号、运算符号等。解读基本ASCII码字符内容第0~31号及第127号共33个

从键盘上按键输入“CHINA”的字串,传送进计算机的,则是01000011、01001000、01001001、01001110、01000001这五个二进制数字串。

比较字符ASCII码值的大小

空格<标点符号<数字<大写字母<小写字母

十进制数字符号的ASCII码值与其二进制值的区别从键盘上按键输入“CHINA”的字串,传送进计算机的,则9ASCII码表示vs.

二进制表示int型数

10000的表示内存存储形式0010011100010000二进制形式0011000100110000001100000011000000110000ASCII形式文本存储形式10000213+210+29+28+24=8192+1024+512+256+169ASCII码表示vs.二进制表示int型数1000关于最高位若在该位置1,可表示一些特殊的符号(图形符)由于ASCII码只用了字节的七个位,最高位并不使用,所以后来又将最高的一个位也编入这套编码码中,成为八个位的延伸ASCII(ExtendedASCII)码,这套内码加上了许多外文和表格等特殊符号,成为目前常用的编码。

若将传送数据的该位置1,则用于数据传输校验虽然标准ASCII码是7位编码,但由于计算机基本处理单位为字节(1byte=8bit),所以一般仍以一个字节来存放一个ASCII字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位)。10关于最高位若在该位置1,可表示一些特殊的符号(图形符)若将传11关于数据传输的奇偶校验在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。11关于数据传输的奇偶校验在计算机的存储单元理学字符编码ppt课件13ASCII码表基本集(2,10,8,16进制)13ASCII码表基本集(2,10,8,16进制)

ASCII码表的扩展集EASCII扩展ASCII编码(ExtendedASCII,延伸美国标准信息交换码)是将基本ASCII码由7位扩充为8位,表示256个字符。

基本ASCII码:最高位为0,称为基本ASCII码;

扩充的ASCII码:最高位为1,扩充部分编码范围为10000000~11111111,相应的十进制数为128~255

用ASCII码组成的文件,称为“文本文件”,其扩展名为.TXT。14

ASCII码表的扩展集EASCII扩展ASCII编码(Ex15ASCII码表的扩展集15ASCII码表的扩展集16ASCII码表基本集+扩展集(16进制)MicrosoftWindowsIBMPCDOS16ASCII码表基本集+扩展集(16进制)Microsof17

二、计算机中中文字符的表示

汉字交换码

又称“国标码”,即GB2312-1980,是中华人民共和国国家标准汉字交换编码。

汉字信息在计算机内部也是以二进制方式存放。由于汉字数量多,用一个字节的128种状态不能全部表示出来,因此在1981年我国颁布的《信息交换用汉字编码字符集—基本集》,即准GB2312-80方案中规定用两个字节的十六位二进制表示一个汉字,每个字节都只使用低7位(与ASCII码相同),即有128×128=16384种状态。

17

二、计算机中中文字符的表示

汉字交换码

18

二、计算机中中文字符的表示

汉字交换码

由于ASCII码的34个控制代码在汉字系统中也要使用,为不致发生冲突,不能作为汉字编码,128除去34只剩94种,所以汉字编码表的大小是94×94=8836,用以表示国标码规定的汉字6763个(一级汉字,是最常用的汉字,按汉语拼音字母顺序排列,共3755个;二级汉字,属于次常用汉字,按偏旁部首的笔划顺序排列,共3008个),数字、字母、符号等682个,共7445个。

18

二、计算机中中文字符的表示

汉字交换码

19二、计算机中中文字符的表示

汉字交换码

国家标准将每个汉字和图形符号的两个字节分别用两位的十进制编码(不足补0),前字节的编码称为区码,后字节的编码称为位码,排列在一个94行94列的二维代码表中,形成区位码表。如“保”字在二维代码表中处于17区第03位,区位码即为1703D

。把区位码按一定的规则转换成的二进制代码叫做信息交换码(简称国标码)。19二、计算机中中文字符的表示

汉字交换码国家标准将每20二、计算机中中文字符的表示

汉字交换码国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,这样就得了一个与国标码有一个相对位置差(20H)的代码;再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。如:“保”字的国标码为(3123)H,它是经过下面的转换得到的:

国标码很少直接使用。20二、计算机中中文字符的表示

汉字交换码国标码并不等于区位21GB码简介国标码(GB)是指1981年我国公布的国家标准《信息交换用汉字编码字符集-基本集》,包含:

简化汉字,符号,字母,日文假名,共7445个字符;

其中包含了6763个汉字,并分作两级:

一级为常用字,3755个,按照拼音排序

二级为次常用字,3008个,按照部首排序。21GB码简介国标码(GB)是指1981年我国公布的国家标准22GB码的编码空间一个字符的国标码由两个部分组成,分别是该字符的区号和位号。GB码规定共有94个区,每个区中有94个位。

编码空间为:94*94=8836个码位

1~9区是西文字母、数字、日文假名、图形符号

16~87区是汉字区,其中

16~55区是一级汉字(40*94-5=3755个)

56~87区是二级汉字(32*94=3008个)

10~15,88~94区是用户自定义区22GB码的编码空间一个字符的国标码由两个部分组成,分别是该23GB码区位示例01区78位23GB码区位示例01区78位24GB码区位示例(续)24GB码区位示例(续)25GB码区位示例(续)25GB码区位示例(续)26GB码区位示例(续)26GB码区位示例(续)27GB码区位示例(续)27GB码区位示例(续)28二、计算机中中文字符的表示

汉字内码就是汉字在计算机内部所使用的编码。当将汉字通过使用外码输入到计算机中后,计算机为了识别汉字,必须将汉字的外码转换为汉字的内码,以便处理和存储汉字信息。在计算机系统中,通常使用两个字节来表示一个汉字的内码。

28二、计算机中中文字符的表示

汉字内码就是汉字29二、计算机中中文字符的表示

汉字内码

由于国标码不能直接存储在计算机内,为方便计算机内部处理和存储汉字,又区别于ASCII码,将国标码中的每个字节在最高位改设为1,这样就形成了在计算机内部用来进行汉字的存储、运算的编码叫机内码(或汉字内码,或内码)。内码既与国标码有简单的对应关系,易于转换,又与ASCII码有明显的区别,且有统一的标准(内码是惟一的)。

29二、计算机中中文字符的表示

汉字内码由于国30二、计算机中中文字符的表示

汉字内码国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保”字,国标码为31H和23H(区位码为1103H),而西文字符“1”和“#”的ASCII码也分别为31H和23H。现假如内存中有两个字节为31H和23H,这到底是一个汉字,还是两个西文字符“1”和“#”?于是就出现了二义性。30二、计算机中中文字符的表示

汉字内码国标码31二、计算机中中文字符的表示

汉字内码

显然,国标码是不可能在计算机内部直接采用的。于是,汉字的机内码采用变形国标码。其变换方法为:将国标码的每个字节都加上128(80H),即将每个字节的最高位由0改1,其余7位不变。或将区码和位码各加A0H(十进制160)。如:“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位分别改1为10110001B和10100011B

,即为B1A3H,因此,“保”字的机内码就是B1A3H。31二、计算机中中文字符的表示

汉字内码显然,国32二、计算机中中文字符的表示

汉字输入码

无论是区位码或国标码都不利于输入汉字,为方便汉字的输入而制定的汉字编码,称为汉字输入码,又称“外码”,即各种输入法编码方案。常见的输入法有以下几类:

按汉字的排列顺序形成的编码(流水码):如区位码;

按汉字的读音形成的编码(音码):如全拼、简拼、双拼等;

按汉字的字形形成的编码(形码):如五笔字型、郑码等;

按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC。

输入码在计算机中必须转换成机内码,才能进行存储和处理。32二、计算机中中文字符的表示

汉字输入码无33二、计算机中中文字符的表示

汉字字形码(输出码)

汉字字形码是对汉字的形状进行二进制编码,主要用来显示或打印汉字,是表示汉字字形的字模数据,常用点阵、矢量函数等方式表示。

为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码—字形码。

全部汉字字形码的集合叫汉字字库。汉字库可分为软字库和硬字库。软字库以文件的形式存放在硬盘上,现多用这种方式,硬字库则将字库固化在一个单独的存储芯片中,再和其它必要的器件组成接口卡,插接在计算机上,通常称为汉卡。

33二、计算机中中文字符的表示

汉字字形码(输出码)34二、计算机中中文字符的表示

汉字字形码(输出码)用于显示的字库叫显示字库。显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间。例:用16×16点阵表示一个汉字,就是将每个汉字用16行,每行16个点表示,一个点需要1位二进制代码,16个点需用16位二进制代码(即2个字节),共16行,所以需要16行×2字节/行=32字节,即16×16点阵表示一个汉字,字形码需用32字节。

即:字节数=点阵行数×点阵列数/8

用于打印的字库叫打印字库,其中的汉字比显示字库多,而且工作时也不像显示字库需调入内存。

34二、计算机中中文字符的表示

汉字字形码(输出码)用于35二、计算机中中文字符的表示

汉字字形码(输出码)可以这样理解,为在计算机内表示汉字而统一的编码方式形成汉字编码叫内码(如国标码),内码是惟一的。为方便汉字输入而形成的汉字编码为输入码,属于汉字的外码,输入码因编码方式不同而不同,是多种多样的。为显示和打印输出汉字而形成的汉字编码为字形码,计算机通过汉字内码在字模库中找出汉字的字形码,实现其转换。

例1:已知汉字“春”的国标码为343AH,求其机内码。

机内码=区位码+A0A0H=国标码+8080H=343AH+8080H=B4BAH

例2:用24×24点阵来表示一个汉字(一点为一个二进制位),则2000个汉字需要多少KB容量?

(24×24/8)×2000/1024=140.7KB≈141KB

35二、计算机中中文字符的表示

汉字字形码(输出码)可以二、计算机中中文字符的表示

汉字字形码(输出码)36二、计算机中中文字符的表示

汉字字形码(输出码)36二、计算机中中文字符的表示

汉字字形码(输出码)

37二、计算机中中文字符的表示

汉字字形码(输出码)

37汉字“中”的16×16点阵的字形及字形编码(a)16×16点阵字形表示(b)16×16点阵字形编码表示汉字“中”的16×16点阵的字形及字形编码(a)16×16点39三、计算机中其它中文字符集简介GB2312GBKBig5Unicode汉字是一个大字符集《说文解字》(东汉)收录9353字《玉篇》(南朝)收录16,917字《广韵》(宋代)收字26,194字《字汇》(明朝)收录33,197字《康熙字典》(清朝)收录47,043字《汉语大字典》(1992年)收录超过5.6万字39三、计算机中其它中文字符集简介GB2312汉字是一个大字40GBK码GBK码是GB-2312的扩展GBK向下与GB2312编码兼容,向上支持ISO10646.1国际标准。ISO10646是国际标准化组织ISO公布的一个编码标准,即UniversalMultilpe-OctetCodedCharacterSet(简称UCS),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与Unicode组织的Unicode编码完全兼容。ISO10646.1是该标准的第一部分《体系结构与基本多文种平面》。我国1993年以GB13000.1国家标准的形式予以认可(即GB13000.1等同于ISO10646.1)。40GBK码GBK码是GB-2312的扩展41GBK码(续)ISO10646是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“CJK统一汉字”(C指中国,J指日本,K指朝鲜)。CJK的中国部分,包括了源自中国大陆的GB2312、GB12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的CNS11643标准中第1、2字面(基本等同于BIG-5编码)、第14字面的汉字和符号。41GBK码(续)ISO10646是一个包括世界上各种语42GBK码的编码空间GBK采用双字节表示,总体编码范围为8140-FEFE,

首字节在81-FE之间,尾字节在40-FE之间,其中xx7F为空。总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

GB的编码范围:A1A0–F7FE

首字节:A1-F7,尾字节:A0-FE42GBK码的编码空间GBK采用双字节表示,总体编码范围为43GBK码的字符分布1.汉字区。包括:

a.GB2312汉字区。即GBK/2:B0A1-F7FE。收录GB2312汉字6763个,按原顺序排列。

b.GB13000.1扩充汉字区。包括:

(1)GBK/3:8140-A0FE。收录GB13000.1中的CJK汉字6080个。

(2)GBK/4:AA40-FEA0。收录CJK汉字和增补的汉字8160个。CJK汉字在前,按UCS代码大小排列;增补的汉字(包括部首和构件)在后,按《康熙字典》的页码/字位排列。2.图形符号区。包括:

a.GB2312非汉字符号区。即GBK/1:A1A1-A9FE。其中除GB2312的符号外,还有10个小写罗马数字和GB12345增补的符号。计符号717个。

b.GB13000.1扩充非汉字区。即GBK/5:A840-A9A0。BIG-5非汉字符号、结构符和“○”排列在此区。计符号166个。3.用户自定义区:分为(1)(2)(3)三个小区。

(1)AAA1-AFFE,码位564个。

(2)F8A1-FEFE,码位658个。

(3)A140-A7A0,码位672个。第(3)区尽管对用户开放,但限制使用,因为不排除未来在此区域增补新字符的可能性。43GBK码的字符分布1.汉字区。包括:44BIG5码BIG-5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。Big-5是一个双字节编码方案,其第一字节在A0~FE之间,第二字节在40~7E和A1~FE之间。因此,其第一字节的最高位是1,第二字节的最高位则可能是1,也可能是0。44BIG5码BIG-5码是通行于台湾、香港地区的一个繁45Big-5码字符分布1.符号408个,A140~A3FE(实际止于A3BF,末尾有空白位置)。2.汉字13053个,分为常用字和次常用字两部分,各部分中的汉字按笔划/部首排列。其中:

a.常用字5401个,编码位置为A440~C67E。包括台湾教育部颁布的《常用国字标准字体表》中的全部汉字4808个,台湾国中国小教科

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论