




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主讲人:薛 波字符集(字符集(Charset):一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符编码(字符编码(Character Encoding):是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。即在符号集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号集合(一般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字,因此字符编码就是将符
2、号转换为计算机可以接受的数字系统的数,称为数字代码。 常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。ASCIIASCII (American Standard Code for Information Interchange,美国美国信息交换标准代码信息交换标准代码)是基于拉丁字母的一套电脑编码系统。ASCII编码编码:将ASCII字符集转换为计算机可以接受的数字系统的数的规则。使用7位(bits)表示一个字符,共128字符;但是7位编码的
3、字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符ASCII字符集字符集:主要包括控制字符(回车键、退格、换行键等);可显示字符(英文大小写字符、阿拉伯数字和西文符号)。GB2312一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0 xA1用到 0 xF7,后面一个字节(低字节)从0 xA1到0 xFE。编码规则编码规则: GB2312,或GB2312-80。中国国家标准国家标准简体中文字符集,中国国家标准总局发布。GB2312
4、编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。对于人名、古汉语等方面出现的生僻字,GB2312不能处理,导致了后来GBK及GB18030汉字字符集的出现。GB18030GB18030特点:u与UTF-8相同,采用多字节编码,每个字可以由1个、2个或4个字节组成u编码空间庞大,可以定义161万个字符u支持中国国内少数民族的文字,不需要动用造字区u汉字收录范围包含繁体汉字以及日韩汉字 GB18030,全称国家标准GB18030-2005
5、信息技术中文编码字符集,是中华人民共和国现时最新的内码字集。与GB2312-80完全兼容,与GBK基本兼容,支持GB13000及Unicode的全部统一汉字。Big5 Big5,又称为大五码大五码或五大码五大码,是使用繁体中文(正体中文)社区中最常用的电脑汉字字符集标准,共收录13,060个汉字。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准。 Big5码是一套双字节字符集,使用了双八码存储方法,以两个字节来安放一个字。第一个字节称为高位字节,第二个字节称为低位字节。高位字节使用了0 x81-0 xFE,低位字节使用了0 x40-0 x7E,及0
6、 xA1-0 xFE。Unicode编码(UTF-32/16/8) 使用4字节的数字来表达每个字母、符号,或者表意文字(ideograph),每个数字代表唯一的至少在某种语言中使用的符号的编码方案,称为UTF-32。UTF-32又称UCS-4是一种将Unicode字符编码的协定,对每个字符都使用4字节。就空间而言,是非常没有效率的。UTF-32UTF-16 尽管有Unicode字符非常多,但是实际上大多数人不会用到超过前65535个以外的字符。因此,就有了另外一种Unicode编码方式,叫做UTF-16(因为16位 = 2字节)。UTF-16将065535范围内的字符编码成2个字节,如果真的需
7、要表达那些很少使用的超过这65535范围的Unicode字符,则需要使用一些诡异的技巧来实现。Unicode编码(UTF-32/16/8)UTF-8 UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。Unicode编码(UTF-32/16/8)UTF-8编码规则:u128个US-ASCII只需要应该字节编码(Unicode范围0000-007F)u带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版全国性猎头公司战略合作合同下载
- 2025版保姆与老人长期护理服务合同-温馨相伴每一天
- 2025年会议中心场地租赁合同模板
- 2025版外贸出口货物风险评估与控制合同
- 2025导游劳动合同范本:含导游行为规范与奖惩措施的导游服务合同
- 2025版新能源汽车售后服务专项委托代理合同
- 基于物联网的2025年城市轨道交通智慧运维系统创新实践报告
- 咖啡连锁品牌在2025年市场布局中的社区商业饮品品牌市场潜力分析报告
- 生物信息学育种应用-洞察及研究
- 2025版通勤车辆安全驾驶培训服务合同
- T/CGAS 026.1-2023瓶装液化石油气管理规范第1部分:安全管理
- PEP人教版六年级上册英语课后辅导计划
- 餐饮劳务合同协议书样本
- 中医护理灸疗技术操作规范:督灸
- 泌尿外科手术分级管理制度
- 阿尔茨海默病药物治疗指南(2025)解读
- 报酬协议模板
- 《贵阳市公共交通场站设计导则》
- 新时代中小学教师职业行为十项准则
- 职业指导师考试题库及答案(含各题型)
- 企业融资过程中的税务问题解析
评论
0/150
提交评论