字符编码方式介绍及编码方式测试.doc_第1页
字符编码方式介绍及编码方式测试.doc_第2页
字符编码方式介绍及编码方式测试.doc_第3页
字符编码方式介绍及编码方式测试.doc_第4页
字符编码方式介绍及编码方式测试.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

字符编码方式介绍及编码方式测试第一部分 编码方式介绍一、ASCII编码: 美国标准信息交换标准码 (American Standard Code for Information Interchange, ASCII) 在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态。一个字节(byte)共由八个二进制位来组成,共有256种状态,从0000000到11111111。 阿拉伯数字、英文字母、标点符号等这些字符,怎么定义才能让计算机识别呢?因为计算机只识别二进制位0和1,所以以上这些字符就必须与二进制位(0和1)建立关系,才能让计算机识别。 60年代初,计算机界制定了一套统一的字符编码,来表示字符与二进制位之间的关系。这种统一的字符编码就叫做ASCII编码。ASCII码一共规定了128个字符的编码,比如空格是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。 在英语国家,128个ASCII编码足以表达所有字符,但其它非英语国家,字符不是由英文字符组成,这样就需要增加编码以表达这些字符,对于超过128个字符的编码被称为非ASCII编码。比如:在中国,我们用简体中文,字符编码方式为GB2312。二、Unicode编码: 看到上面的介绍后,我们了解了最早编码是ASCII码。它只用7个二进制位来表示,由于那个时期生产的大多数计算机使用8位大小的字节,因此用户不仅可以存放所有可能的ASCII字符,而且有整整一位空余下来。如果你技艺高超,可以将该位用做自己离奇的目的:WordStar中那个发暗的灯泡实际上设置这个高位,以指示一个单词中的最后一个字母,同时这也宣示了WordStar只能用于英语文本。由于字节有多达8位的空间,因此许多人在想:“呀!我们可以把128255之间的编码用做个人的应用目的。”问题在于,同时产生这种想法的人相当多,而且在128255之间的各个位置上应该存放什么这一问题上,真是仁者见仁智者见智。事实上,只要人们开始在美国以外的地方购买计算机,那么各种各样的不同OEM字符集都会进入规划设计行列,并且各人都会根据自己的需要使用高位的128个字符。如此一来,甚至在同语种的文档之间就不容易实现互换。 ASCII可被扩展,最优秀的扩展方案是ISO 8859-1,通常称之为Latin-1。Latin-1包括了足够的附加字符集来写基本的西欧语言。最后,这个人参与的OEM终于以ANSI标准的形式形成文件。在ANSI标准中,每个人都认同如何使用低端的128个编码,这与ASCII相当一致。不过,根据所在国籍的不同,处理编码128以上的字符有许多不同的方式。这些不同的系统称为代码页。同时,甚至更为令人头疼的事情正在逐步上演,亚洲国家的字符表有成千上万个字符,这样的字符表是用8位二进制无法表示的。该问题的解决通常有赖于称为DBCS(double byte character set,双字节字符集)的繁杂字符系统。不过,仍然需要指出一点,多数人还是姑且认为一个字节就是一个字符,以及一个字符就是8个二进制位,并且只要确保不将字符串从一台计算机移植到另一台计算机,或者说一种以上的语言,那么这几乎总是可以凑合。当然,只要一进入Internet,从一台计算机向另一台计算机移植字符串就成为家常便饭了,而各种复杂状况也随之呈现出来。令人欣慰的是,Unicode随即问世了。 Unicode字符集(简称为UCS),国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。Unicode编码后的大小是一样的.例如一个英文字母 a 和一个汉字 好,编码后都是占用的空间大小是一样的,都是两个字节! Unicode可以用来表示所有语言的字符,而且是定长双字节(也有四字节的)编码,包括英文字母在内。所以可以说它是不兼容iso8859-1编码的,也不兼容任何编码。不过,相对于iso8859-1编码来说,uniocode编码只是在前面增加了一个0字节,比如字母a为00 61。需要说明的是,定长编码便于计算机处理(注意GB2312/GBK不是定长编码),而unicode又可以用来表示所有字符,所以在很多软件内部是使用unicode编码来处理的,比如java。三、UTF-8编码 UTF:UCS Transformation Format.考虑到unicode编码不兼容iso8859-1编码,而且容易占用更多的空间:因为对于英文字母,unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码,utf编码兼容iso8859-1编码,同时也可以用来表示所有语言的字符,不过,utf编码是不定长编码,每一个字符的长度从1-6个字节不等。另外,utf编码自带简单的校验功能。一般来讲,英文字母都是用一个字节表示,而汉字使用三个字节。 注意,虽然说utf是为了使用更少的空间而使用的,但那只是相对于unicode编码来说,如果已经知道是汉字,则使用GB2312/GBK无疑是最节省的。不过另一方面,值得说明的是,虽然utf编码对汉字使用3个字节,但即使对于汉字网页,utf编码也会比unicode编码节省,因为网页中包含了很多的英文字符。 UTF8编码后的大小是不一定,例如一个英文字母a 和一个汉字 好,编码后占用的空间大小就不样了,前者是一个字节,后者是三个字节!编码的方法是从低位到高位。黄色为标志位其它着色为了显示其,编码后的位置。四、iso8859-1编码: 属于单字节编码,最多能表示的字符范围是0-255,应用于英文系列。如,字母a的编码为0x61=97。 很明显,iso8859-1编码表示的字符范围很窄,无法表示中文字符。但是,由于是单字节编码,和计算机最基础的表示单位一致,所以很多时候,仍旧使用iso8859-1编码来表示。而且在很多协议上,默认使用该编码。比如,虽然中文两个字不存在iso8859-1编码,以gb2312编码为例,应该是d6d0 cec4两个字符,使用iso8859-1编码的时候则将它拆开为4个字节来表示:d6 d0 ce c4(事实上,在进行存储的时候,也是以字节为单位处理的)。而如果是UTF编码,则是6个字节e4 b8 ad e6 96 87。很明显,这种表示方法还需要另一种编码为基础。五、GBK编码 GBK编码(Chinese Internal Code Specification)是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。gbk编码能够用来同时表示繁体字和简体字,而gb2312只能表示简体字,gbk是兼容gb2312编码的。GBK工作小组于1995年10月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBK与UCS之间一一对应的码表与底层字库联系。英文名:Chinese Internal Code Specification中文名:汉字内码扩展规范1.0版双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容范围:8140FEFE(剔除xx7F)共23940个码位包含21003个汉字,包含了ISO/IEC 10646-1中的全部中日韩汉字六、GB2312编码 GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从 A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。GB2312-80中共收录了7545个字符,用两个字节编码一个字符。每个字符最高位为0。GB2312-80编码简称国标码。GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换: GBK、GB2312UnicodeUTF8 UTF8UnicodeGBK、GB2312第二部分 编码方式测试一、文件内容编码方式验证:在广东版本中写文件的短信内容定义为UTF-8编码方式,如何验证编码方式是否正确。(1)查看GBK编码文件的十六进制:在UltraEdit中新建一个文档,将发送的短信内容粘贴进UltraEdit中,使用Ctrl+H切换到十六进制编辑状态,展示的为GBK编码短信内容的十六进制状态。其中,汉字以双字节表示,字母、字符以单字节表示,比如:“系统abc”GBK编码的十六进制编辑状态显示为:CF B5 CD B3 61 62 63,“系”的十六进制为CF B5,“统”的十六进制为CD B3,“a”的十六进制为61,“b”的十六进制为62,“c”的十六进制为63(2)查看UTF-8编码文件的十六进制: 用UltraEdit打开一个已经是UTF-8编码的文件,提示是否转换为DOS格式,选择NO。再使用Ctrl+H切换到十六进制编辑状态,展示的就是UTF-8编码的十六进制状态。(3)将GBK编码文件转换为UTF-8编码文件:在UltraEdit中新建一个文档,将发送的短信内容粘贴进UltraEdit中,选择“文件-转换-ASCII到UTF-8(Unicode编辑)”,再使用Ctrl+H切换到十六进制编辑状态,展示的为UTF-8编码短信内容的十六进制状态。其中,汉字以三个字节表示,字母、字符以单字节表示,比如:“系统abc”UTF-8编码的十六进制编辑状态显示为:E7 B3 BB E7 BB 9F 61 62 63,“系”的十六进制为E7 B3 BB,“统”的十六进制为E7 BB 9F,“a”的十六进制为61,“b”的十六进制为62,“c”的十六进制为63(4)在Linux的VI命令状态下转换查看文件的十六进制在VI命令状态下,按Esc,再输入:%!xxd,将当前文本转换为十六进制格式。其它命令参考如下::%!xxd 将当前文本转换为16进制格式。:%!od 将当前文本转换为8进制格式。:%!xxd -c 12将当前文本转换为16进制格式,并每行显示12个字节。:%!xxd -r 将当前文件转换回文本格式。二、文件回车换行符测试广东版本在写文件的内容中每条记录要求以0D0A回车换行符结束。可以通过Xftp从服务器上将文件下载,使用Ultra

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论