




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅谈文字编码和Unicode浅谈文字编码和Unicode(上)引自:感谢:伐木丁丁鸟鸣嘤嘤我曾经写过一篇谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词(以下简称谈谈Unicode编码),在网上流传较广,我也收到不少朋友的反馈。本文探讨谈谈Unicode编码中未介绍或介绍较少的代码页、Surrogates等问题,补充一些Unicode资料,顺带介绍一下我最近编写的一个Unicode工具:UniToy。本文虽然是前文的补充,但在写作上尽量做到独立成篇。标题中的浅谈是对自己的要求,我希望文字能尽量浅显易懂。但本文还是假设读者知道字节、16进制,了解谈谈Unicode编码中介绍过的字节序和Unicode的基本概念。0 UniToy UniToy是我编写的一个小工具。通过UniToy,我们可以全方位、多角度地查看Unicode,了解Unicode和语言、代码页的关系,完成一些文字编码的相关工作。本文的一些内容是通过UniToy演示的。大家可以从我的网站()下载UniToy的演示版本。1文字的显示1.1发生了什么?我们首先以Windows为例来看看文字显示过程中发生了什么。用记事本打开一个文本文件,可以看到文件包含的文字:如果我们用UltraEdit或Hex Workshop查看这个文件的16进制数据,可以看到:我们看到:文件例子GBK.txt有10个字节,依次是D7 D6 B7 FB BA CD B1 E0 C2 EB,这就是记事本从文件中读到的内容。记事本是用来打开文本文件的,所以它会调用Windows的文本显示函数将读到的数据作为文本显示。Windows首先将文本数据转换到它内部使用的编码格式:Unicode,然后按照文本的Unicode去字体文件中查找字体图像,最后将图像显示到窗口上。总结一下前面的分析,文字的显示应该是这样的:步骤1:文字首先以某种编码保存在文件中。步骤2:Windows将文件中的文字编码映射到Unicode。步骤3:Windows按照Unicode在字体文件中查找字体图像,画到窗口上。所谓编码就是用数字表示字符,例如用D7D6表示字。当然,编码还意味着约定,即大家都认可。从谈谈Unicode编码中,我们知道Unicode也是一种文字编码,它的特殊性在于它是由国际组织设计,可以容纳全世界所有语言文字。而我们平常使用的文字编码通常是针对一个区域的语言、文字设计,只支持特定的语言文字。例如:在上面的例子中,文件例子GBK.txt采用的就是GBK编码。如果上述3个步骤中任何一步发生了错误,文字就不能被正确显示,例如:错误1:如果弄错了编码,例如将Big5编码的文字当作GBK编码,就会出现乱码。错误2:如果从特定编码到Unicode的映射发生错误,例如文本数据中出现该编码方案未定义的字符,Windows就会使用缺省字符,通常是?。如果当前字体不支持要显示的字符,Windows就会显示字体文件中的缺省图像:空白或方格。在Unicode被广泛使用前,有多少种语言、文字,就可能有多少种文字编码方案。一种文字也可能有多种编码方案。那么我们怎么确定文本数据采用了什么编码?1.2采用了哪种编码?按照惯例,文本文件中的数据都是文本编码,那么它怎么表明自己的编码格式?在记事本的打开对话框上:我们可以看到记事本支持4种编码格式:ANSI、Unicode、Unicode big endian、UTF-8。如果读者看过谈谈Unicode编码,对Unicode、Unicode big endian、UTF-8应该不会陌生,其实它们更准确的名称应该是UTF-16LE(Little Endian)、UTF-16BE(Big Endian)和UTF-8,它们是基于Unicode的不同编码方案。在谈谈Unicode编码中介绍过,Windows通过在文本文件开头增加一些特殊字节(BOM)来区分上述3种编码,并将没有BOM的文本数据按照ANSI代码页处理。那么什么是代码页,什么是ANSI代码页?2代码页和字符集2.1 Windows的代码页2.1.1代码页代码页(Code Page)是个古老的专业术语,据说是IBM公司首先使用的。代码页和字符集的含义基本相同,代码页规定了适用于特定地区的字符集合,和这些字符的编码。可以将代码页理解为字符和字节数据的映射表。Windows为自己支持的代码页都编了一个号码。例如代码页936就是简体中文GBK,代码页950就是繁体中文Big5。代码页的概念比较简单,就是一个字符编码方案。但要说清楚Windows的ANSI代码页,就要从Windows的区域(Locale)说起了。2.1.2区域和ANSI代码页微软为了适应世界上不同地区用户的文化背景和生活习惯,在Windows中设计了区域(Locale)设置的功能。Local是指特定于某个国家或地区的一组设定,包括代码页,数字、货币、时间和日期的格式等。在Windows内部,其实有两个Locale设置:系统Locale和用户Locale。系统Locale决定代码页,用户Locale决定数字、货币、时间和日期的格式。我们可以在控制面板的区域和语言选项中设置系统Locale和用户Locale:每个Locale都有一个对应的代码页。Locale和代码页的对应关系,大家可以参阅我的另一篇文章谈谈Windows程序中的字符编码的附录1。系统Locale对应的代码页被作为Windows的默认代码页。在没有文本编码信息时,Windows按照默认代码页的编码方案解释文本数据。这个默认代码页通常被称作ANSI代码页(ACP)。ANSI代码页还有一层意思,就是微软自己定义的代码页。在历史上,IBM的个人计算机和微软公司的操作系统曾经是PC的标准配置。微软公司将IBM公司定义的代码页称作OEM代码页,在IBM公司的代码页基础上作了些增补后,作为自己的代码页,并冠以ANSI的字样。我们在区域和语言选项高级页面的代码页转换表中看到的包含ANSI字样的代码页都是微软自己定义的代码页。例如:874(ANSI/OEM-泰文)932(ANSI/OEM-日文Shift-JIS)936(ANSI/OEM-简体中文GBK)949(ANSI/OEM-韩文)950(ANSI/OEM-繁体中文Big5)1250(ANSI-中欧)1251(ANSI-西里尔文)1252(ANSI-拉丁文I)1253(ANSI-希腊文)1254(ANSI-土耳其文)1255(ANSI-希伯来文)1256(ANSI-阿拉伯文)1257(ANSI-波罗的海文)1258(ANSI/OEM-越南)在UniToy中,我们可以按照代码页编码顺序查看这些代码页的字符和编码:我们不能直接设置ANSI代码页,只能通过选择系统Locale,间接改变当前的ANSI代码页。微软定义的Locale只使用自己定义的代码页。所以,我们虽然可以通过区域和语言选项中的代码页转换表安装很多代码页,但只能将微软的代码页作为系统默认代码页。2.1.3代码页转换表在Windows 2000以后,Windows统一采用UTF-16作为内部字符编码。现在,安装一个代码页就是安装一张代码页转换表。通过代码页转换表,Windows既可以将代码页的编码转换到UTF-16,也可以将UTF-16转换到代码页的编码。代码页转换表的具体实现可以是一个以nls为后缀的数据文件,也可以是一个提供转换函数的动态链接库。有的代码页是不需要安装的。例如:Windows将UTF-7和UTF-8分别作为代码页65000和代码页65001。UTF-7、UTF-8和UTF-16都是基于Unicode的编码方案。它们之间可以通过简单的算法直接转换,不需要安装代码页转换表。在安装过一个代码页后,Windows就知道怎样将该代码页的文本转换到Unicode文本,也知道怎样将Unicode文本转换成该代码页的文本。例如:UniToy有导入和导出功能。所谓导入功能就是将任一代码页的文本文件转换到Unicode文本;导出功能就是将Unicode文本转换到任一指定的代码页。这里所说的代码页就是指系统已安装的代码页:其实,如果全世界人民在计算机刚发明时就统一采用Unicode作为字符编码,那么代码页就没有存在的必要了。可惜在Unicode被发明前,世界各国人民都发明并使用了各种字符编码方案。所以,Windows必须通过代码页支持已经被广泛使用的字符编码。从这种意义看,代码页主要是为了兼容现有的数据、程序和习惯而存在的。2.1.4 SBCS、DBCS和MBCS SBCS、DBCS和MBCS分别是单字节字符集、双字节字符集和多字节字符集的缩写。SBCS、DBCS和MBCS的最大编码长度分别是1字节、两字节和大于两字节(例如4或5字节)。例如:代码页1252(ANSI-拉丁文I)是单字节字符集;代码页936(ANSI/OEM-简体中文GBK)是双字节字符集;代码页54936(GB18030简体中文)是多字节字符集。单字节字符集中的字符都用一个字节表示。显然,SBCS最多只能容纳256个字符。双字节字符集的字符用一个或两个字节表示。那么我们从文本数据中读到一个字节时,怎么判断它是单字节字符,还是双字节字符的首字符?答案是通过字节所处范围来判断。例如:在GBK编码中,单字节字符的范围是0x00-0x80,双字节字符首字节的范围是0x81到0xFE。我们顺序读取字节数据,如果读到的字节在0x81到0xFE内,那么这个字节就是双字节字符的首字节。GBK定义双字节字符的尾字节范围是0x40到0x7E和0x80到0xFE。GB18030是多字节字符集,它的字符可以用一个、两个或四个字节表示。这时我们又如何判断一个字节是属于单字节字符,双字节字符,还是四字节字符?GB18030与GBK是兼容的,它利用了GBK双字节字符尾字节的未使用码位。GB18030的四字节字符的第一字节的范围也是0x81到0xFE,第二字节的范围是0x30-0x39。通过第二字节所处范围就可以区分双字节字符和四字节字符。GB18030定义四字节字符的第三字节范围是0x81到0xFE,第四字节范围是0x30-0x39。2.2代码页实例2.2.1实例一:GB18030代码页1.1节的错误2中演示了一个全被显示成?的文件。这个文件的数据是:其实,这是一个包含了6个四字节字符的GB18030编码的文件。记事本按照GBK显示这些数据,而GB18030的四字节字符编码在GBK中是未定义的。Windows根据首字节范围判断出12个双字节字符,然后因为找不到匹配的转换而将其映射到默认字符?。使用UniToy按照GB18030代码页导入这个文件,就可以看到:这个GB18030编码的文件是用UniToy创建的,编辑Unicode文本,然后导出到GB18030编码格式。2.2.2实例二:GBK和Big5的转换综合使用UniToy的导入、导出功能就可以在任意两个代码页之间转换文本。其实,由于各代码页支持的字符范围不同,我们一般不会直接在代码页间转换文本。例如将以下GBK编码的文本:直接转换到Big5编码,就会看到:变成?的字符都是Big5编码不支持的简化字。在从Unicode转换到Big5编码时,由于Big5编码不支持这些字符,Windows就用默认字符?代替。在UniToy中,我们可以先将简体字转换到繁体字,然后再导出到Big5编码,就可以正常显示:同理,将Big5编码的文本转换到GBK编码的步骤应该是:将Big5编码的文本导入到Unicode文本;将繁体的Unicode文本转换简体的Unicode文本;将简体的Unicode文本导出到GBK文本。2.3互联网的字符集2.3.1字符集互联网上的信息缤纷多彩,但文本依然是最重要的信息载体。html文件通过标记表明自己使用的字符集。例如:meta http-equiv=Content-Typecontent=text/html;charset=utf-8或者:meta http-equiv=charsetcontent=iso-8859-1那么我们可以使用哪些字符集(charset)呢?在IETF(互联网工程任务组)的网页上维护着一份可以在互联网上使用的字符集的清单:CHARACTER SETS。如果有新的字符集被登记,IETF会更新这份文档。简单浏览一下,2006年12月7日的版本列出了253个字符集。其中也包括微软的CP1250CP1258,在这里它们不会被称作什么ANSI代码页,而是被简单地称作windows-1250、windows-1251等。其实在Unicode被广泛使用前,除了中日韩等大字符集,世界上,特别是西方使用最广泛的字符集应该是ISO 8859系列字符集。2.3.2 ISO 8859系列字符集ISO 8859系列字符集是欧洲计算机制造商协会(ECMA)在上世纪80年代中期设计,并被国际标准化(ISO)组织采纳为国际标准。ISO 8859系列字符集目前有15个字符集,包括:ISO 8859-1大部分的西欧语系,例如英文、法文、西班牙文和德文等(Latin-1)ISO 8859-2大部分的中欧和东欧语系,例如捷克文、波兰文和匈牙利文等(Latin-2)ISO 8859-3欧洲东南部和其它各种文字(Latin-3)ISO 8859-4斯堪的那维亚和波罗的海语系(Latin-4)ISO 8859-5拉丁文与斯拉夫文(俄文、保加利亚文等)ISO 8859-6拉丁文与阿拉伯文ISO 8859-7拉丁文与希腊文ISO 8859-8拉丁文与希伯来文ISO 8859-9为土耳其文修正的Latin-1(Latin-5)ISO 8859-10拉普人、北欧与爱斯基摩人的文字(Latin-6)ISO 8859-11拉丁文与泰文ISO 8859-13波罗的海周边语系,例如拉脱维亚文等(Latin-7)ISO 8859-14凯尔特文,例如盖尔文、威尔士文等(Latin-8)ISO 8859-15改进的Latin-1,增加遗漏的法文、芬兰文字符和欧元符号(Latin-9)ISO 8859-16罗马尼亚文(Latin-10)其中缺少的编号12据说是为了预留给天城体梵文字母(Deva-nagari)的。印地文和尼泊尔文都使用了这种在七世纪形成的字母表。由于印度定义了自己的编码ISCII(Indian Script Code for Information Interchange),所以这个编号就未被使用。ISO 8859系列字符集都是单字节字符集,即只使用0x00-0xFF对字符编码。大家都知道ASCII吧,那么大家知道ANSI X3.4和ISO 646吗?在1968年发布的ANSI X3.4和1972年发布的ISO 646就是ASCII编码,只不过是不同组织发布的。绝大多数字符集都与ASCII编码保持兼容,ISO 8859系列字符集也不例外,它们的0x00-0x7f都与ASCII码保持一致,各字符集的不同之处在于如何利用0x80-0xff的码位。使用UniToy可以查看ISO 8859系列所有字符集的编码,例如:通过这些演示,大家是不是觉得代码页和字符集都是很简单、朴实的东西呢?好,在进入Unicode的话题前,让我们先看一个很深奥的概念。浅谈文字编码和Unicode(下)3字符编码模型程序员经常会面对复杂的问题,而降低复杂性的最简单的方法就是分而治之。Peter Constable在他的文章Character set encoding basics Understanding character set encodings and legacy encodings中描述了字符编码的四层模型。我觉得这种说法确实可以更清晰地展现字符编码中发生的事情,所以在这里也介绍一下。3.1字符的范围(Abstract character repertoire)设计字符编码的第一层就是确定字符的范围,即要支持哪些字符。有些编码方案的字符范围是固定的,例如ASCII、ISO 8859系列。有些编码方案的字符范围是开放的,例如Unicode的字符范围就是世界上所有的字符。3.2用数字表示字符(Coded character set)设计字符编码的第二层是将字符和数字对应起来。可以将这个层次理解成数学家(即从数学角度)看到的字符编码。数学家看到的字符编码是一个正整数。例如在Unicode中:汉字字对应的数字是23383。汉字对应的数字是134192。在写html文件时,可以通过输入字;来插入字符字。不过在设计字符编码时,我们还是习惯用16进制表示数字。即将23383写成0x5BD7,将134192写成0x20C30。3.3用基本数据类型表示字符(Character encoding form)设计字符编码的第三层是用编程语言中的基本数据类型来表示字符。可以将这个层次理解成程序员看到的字符编码。在Unicode中,我们有很多方式将数字23383表示成程序中的数据,包括:UTF-8、UTF-16、UTF-32。UTF是UCS Transformation Format的缩写,可以翻译成Unicode字符集转换格式,即怎样将Unicode定义的数字转换成程序数据。例如,汉字对应的数字是0x6c49和0x5b57,而编码的程序数据是:BYTE data_utf8=0xE6,0xB1,0x89,0xE5,0xAD,0x97;/UTF-8编码WORD data_utf16=0x6c49,0x5b57;/UTF-16编码DWORD data_utf32=0x6c49,0x5b57;/UTF-32编码这里用BYTE、WORD、DWORD分别表示无符号8位整数,无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以BYTE、WORD、DWORD作为编码单位。汉字的UTF-8编码需要6个字节。汉字的UTF-16编码需要两个WORD,大小是4个字节。汉字的UTF-32编码需要两个DWORD,大小是8个字节。4.2节会介绍将数字映射到UTF编码的规则。3.4作为字节流的字符(Character encoding scheme)字符编码的第四层是计算机看到的字符,即在文件或内存中的字节流。例如,字的UTF-32编码是0x5b57,如果用little endian表示,字节流是57 5b 00 00。如果用big endian表示,字节流是00 00 5b 57。字符编码的第三层规定了一个字符由哪些编码单位按什么顺序表示。字符编码的第四层在第三层的基础上又考虑了编码单位内部的字节序。UTF-8的编码单位是字节,不受字节序的影响。UTF-16、UTF-32根据字节序的不同,又衍生出UTF-16LE、UTF-16BE、UTF-32LE、UTF-32BE四种编码方案。LE和BE分别是Little Endian和Big Endian的缩写。3.5小结通过四层模型,我们又把字符编码中发生的这些事情梳理了一遍。其实大多数代码页都不需要完整的四层模型,例如GB18030以字节为编码单位,直接规定了字节序列和字符的映射关系,跳过了第二层,也不需要第四层。4再谈Unicode Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。Unicode字符集可以简写为UCS(Unicode Character Set)。早期的Unicode标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码,UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成27=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。Unicode标准计划使用group 0的17个平面:从BMP(平面0)到平面16,即数字0-0x10FFFF。谈谈Unicode编码主要介绍了BMP的编码,本文将介绍完整的Unicode编码,并从多个角度浏览Unicode。本文的介绍基于Unicode 5.0.0版本。4.1浏览Unicode先看一些数字:每个平面有216=65536个码位。Unicode计划使用了17个平面,一共有17*65536=1114112个码位。其实,现在已定义的码位只有238605个,分布在平面0、平面1、平面2、平面14、平面15、平面16。其中平面15和平面16上只是定义了两个各占65534个码位的专用区(Private Use Area),分别是0xF0000-0xFFFFD和0x 100000-0x10FFFD。所谓专用区,就是保留给大家放自定义字符的区域,可以简写为PUA。平面0也有一个专用区:0xE000-0xF8FF,有6400个码位。平面0的0xD800-0xDFFF,共2048个码位,是一个被称作代理区(Surrogate)的特殊区域。它的用途将在4.2节介绍。238605-65534*2-6400-2408=99089。余下的99089个已定义码位分布在平面0、平面1、平面2和平面14上,它们对应着Unicode目前定义的99089个字符,其中包括71226个汉字。平面0、平面1、平面2和平面14上分别定义了52080、3419、43253和337个字符。平面2的43253个字符都是汉字。平面0上定义了27973个汉字。在更深入地了解Unicode字符前,我们先了解一下UCD。4.1.1什么是UCD UCD是Unicode字符数据库(Unicode Character Database)的缩写。UCD由一些描述Unicode字符属性和内部关系的纯文本或html文件组成。大家可以在Unicode组织的网站看到UCD的最新版本。UCD中的文本文件大都是适合于程序分析的Unicode相关数据。其中的html文件解释了数据库的组织,数据的格式和含义。UCD中最庞大的文件无疑就是描述汉字属性的文件Unihan.txt。在UCD 5.0,0中,Unihan.txt文件大小有28,221K字节。Unihan.txt中包含了很多有参考价值的索引,例如汉字部首、笔划、拼音、使用频度、四角号码排序等。这些索引都是基于一些比较权威的辞典,但大多数索引只能检索部分汉字。我介绍UCD的目的主要是为了使用其中的两个概念:Block和Script。4.1.2 Block UCD中的Blocks.txt将Unicode的码位分割成一些连续的Block,并描述了每个Block的用途:开始码位结束码位Block名称(英文)Block名称(中文)0000007 FBasic Latin基本拉丁字母008000 FFLatin-1 Supplement拉丁字母补充-1 0100017 FLatin Extended-A拉丁字母扩充-A 0180024 FLatin Extended-B拉丁字母扩充-B 025002 AFIPA Extensions国际音标扩充02B002FFSpacing Modifier Letters进格修饰字符0300036 FCombining Diacritical Marks组合附加符号037003 FFGreek and Coptic希腊文和哥普特文040004 FFCyrillic西里尔文0500052 FCyrillic Supplement西里尔文补充0530058 FArmenian亚美尼亚文059005 FFHebrew希伯来文060006 FFArabic基本阿拉伯文0700074 FSyriac叙利亚文0750077 FArabic Supplement阿拉伯文补充078007 BFThaana塔纳文07C007FFNKoNKo字母表0900097 FDevanagari天成文书(梵文)098009 FFBengali孟加拉文0A000A7FGurmukhi锡克教文0A800AFFGujarati古吉拉特文0B000B7FOriya奥里亚文0B800BFFTamil泰米尔文0C000C7FTelugu泰卢固文0C800CFFKannada卡纳达文0D000D7FMalayalam德拉维族文0D800DFFSinhala僧伽罗文0E000E7FThai泰文0E800EFFLao老挝文0F000FFFTibetan藏文1000109 FMyanmar缅甸文10A010FFGeorgian格鲁吉亚文110011 FFHangul Jamo朝鲜文1200137 FEthiopic埃塞俄比亚文1380139 FEthiopic Supplement埃塞俄比亚文补充13A013FFCherokee切罗基文1400167 FUnified Canadian Aboriginal Syllabics加拿大印第安方言1680169 FOgham欧甘文16A016FFRunic北欧古字1700171 FTagalog塔加路文1720173 FHanunoo哈努诺文1740175 FBuhid布迪文1760177 FTagbanwaTagbanwa文178017 FFKhmer高棉文180018 AFMongolian蒙古文1900194 FLimbu林布文1950197 FTai Le德宏傣文198019 DFNew Tai Lue新傣文19E019FFKhmer Symbols高棉文1A001A1FBuginese布吉文1B001B7FBalinese巴厘文1D001D7FPhonetic Extensions拉丁字母音标扩充1D801DBFPhonetic Extensions Supplement拉丁字母音标扩充增补1DC01DFFCombining Diacritical Marks Supplement组合附加符号补充1E001EFFLatin Extended Additional拉丁字母扩充附加1F001FFFGreek Extended希腊文扩充2000206 FGeneral Punctuation一般标点符号2070209 FSuperscripts and Subscripts上标和下标20A020CFCurrency Symbols货币符号20D020FFCombining Diacritical Marks for Symbols符号用组合附加符号2100214 FLetterlike Symbols似字母符号2150218 FNumber Forms数字形式219021 FFArrows箭头符号220022 FFMathematical Operators数学运算符号230023 FFMiscellaneous Technical零杂技术用符号2400243 FControl Pictures控制图符2440245 FOptical Character Recognition光学字符识别246024 FFEnclosed Alphanumerics带括号的字母数字2500257 FBox Drawing制表符2580259 FBlock Elements方块元素25A025FFGeometric Shapes几何形状260026 FFMiscellaneous Sym bols零杂符号270027 BFDingbats杂锦字型27C027EFMiscellaneous Mathematical Symbols-A零杂数学符号-A 27F027FFSupplemental Arrows-A箭头符号补充-A 280028 FFBraille Patterns盲文2900297 FSupplemental Arrows-B箭头符号补充-B 298029 FFMiscellaneous Mathematical Symbols-B零杂数学符号-B 2A002AFFSupplemental Mathematical Operators数学运算符号2B002BFFMiscellaneous Symbols and Arrows零杂符号和箭头2C002C5FGlagolitic格拉哥里字母表2C602C7FLatin Extended-C拉丁字母扩充-C 2C802CFFCoptic科普特文2D002D2FGeorgian Supplement格鲁吉亚文补充2D302D7FTifinagh提非纳字母2D802DDFEthiopic Extended埃塞俄比亚文扩充2E002E7FSupplemental Punctuation标点符号补充2E802EFFCJK Radicals Supplement中日韩部首补充2F002FDFKangxi Radicals康熙字典部首2FF02FFFIdeographic Description Characters汉字结构描述字符3000303 FCJK Symbols and Punctuation中日韩符号和标点3040309 FHiragana平假名30A030FFKatakana片假名3100312 FBopomofo注音符号3130318 FHangul Compatibility Jamo朝鲜文兼容字母3190319 FKanbun日文的汉字批注31A031BFBopomofo Extended注音符号扩充31C031EFCJK Strokes中日韩笔划31F031FFKatakana Phonetic Extensions片假名音标扩充320032 FFEnclosed CJK Letters and Months带括号的中日韩字母及月份330033 FFCJK Compatibility中日韩兼容字符34004 DBFCJK Unified Ideographs Extension A中日韩统一表意文字扩充A 4DC04DFFYijing Hexagram Symbols易经六十四卦象4E009FFFCJK Unified Ideographs中日韩统一表意文字A000A48FYi Syllables彝文音节A490A4CFYi Radicals彝文字根A700A71FModifier Tone Letters声调修饰字母A720A7FFLatin Extended-D拉丁字母扩充-D A800A82FSyloti NagriSyloti Nagri字母表A840A87FPhags-paPhags-pa字母表AC00D7AFHangul Syllables朝鲜文音节D800DB7FHigh Surrogates高位替代DB80DBFFHigh Private Use Surrogates高位专用替代DC00DFFFLow Surrogates低位替代E000F8FFPrivate Use Area专用区F900FAFFCJK Compatibility Ideographs中日韩兼容表意文字FB00FB4FAlphabetic Presentation Forms字母变体显现形式FB50FDFFArabic Presentation Forms-A阿拉伯文变体显现形式-A FE00FE0FVariation Selectors字型变换选取器FE10FE1FVertical Forms竖排标点符号FE20FE2FCombining Half Marks组合半角标示FE30FE4FCJK Compatibility Forms中日韩兼容形式FE50FE6FSmall Form Variants小型变体形式FE70FEFFArabic Presentation Forms-B阿拉伯文变体显现形式-B FF00FFEFHalfwidth and Fullwidth Forms半角及全角字符FFF0FFFFSpecials特殊区域100001007 FLinear BSyllabary线形文字B音节文字10080100 FFLinear BIdeograms线形文字B表意文字101001013 FAegean Numbers爱琴海数字101401018 FAncient Greek Nu mbers古希腊数字103001032 FOld Italic古意大利文103301034 FGothic哥特文103801039 FUgaritic乌加里特楔形文字103A0103DFOld Persian古波斯文104001044 FDeseret德塞雷特大学音标104501047 FShavian肃伯纳速记符号10480104 AFOsmanyaOsmanya字母表108001083 FCypriot Syllabary塞浦路斯音节文字109001091 FPhoenician腓尼基文10A0010A5FKharoshthi迦娄士悌文12000123 FFCuneiform楔形文字124001247 FCuneiform Numbers and Punctuation楔形文字数字和标点1D0001D0FFByzantine Musical Symbols东正教音乐符号1D1001D1FFMusical Symbols音乐符号1D2001D24FAncient Greek Musical Notation古希腊音乐符号1D3001D35FTai Xuan Jing Symbols太玄经符号1D3601D37FCounting Rod Numerals算筹1D4001D7FFMathematical Alphanumeric Symbols数学用字母数字符号200002 A6DFCJK Unified Ideographs Extension B中日韩统一表意文字扩充B 2F8002FA1FCJK Compatibility Ideographs Supplement中日韩兼容表意文字补充E0000E007FTags标签E0100E01EFVariation Selectors Supplement字型变换选取器补充F0000FFFFFSupplementary Private Use Area-A补充专用区-A 10000010 FFFFSupplementary Private Use Area-B补充专用区-B Block是Unicode字符的一个属性。属于同一个Block的字符有着相近的用途。Block表中的开始码位、结束码位只是用来划分出一块区域,在开始码位和结束码位之间可能还有很多未定义的码位。使用UniToy,大家可以按照Block浏览Unicode字符,既可以按列表显示:也可以显示每个字符的详细信息:4.1.3 Script Unicode中每个字符都有一个Script属性,这个属性表明字符所属的文字系统。Unicode目前支持以下Script:Script名称(英文)Script名称(中文)Script包含的字符数Arabic阿拉伯文966 Armenian亚美尼亚文90 Balinese巴厘文121 Bengali孟加拉文91 Bopomofo汉语注音符号64 Braille盲文256 Buginese布吉文30 Buhid布迪文20 Canadian Aboriginal加拿大印第安方言630 Cherokee切罗基文85 CommonCommon5020 Coptic科普特文128 Cuneiform楔形文字982 Cypriot塞浦路斯音节文字55 Cyrillic西里尔文277 Deseret德塞雷特大学音标80 Devanagari天成文书(梵文)107 Ethiopic埃塞俄比亚文461 Georgian格鲁吉亚文120 Gothic哥特文94 Glagolitic格拉哥里字母表27 Greek希腊文506 Gujarati古吉拉特文83 Gurmukhi锡克教文77 Han汉文71570 Hangul韩文书写系统11619 Hanunoo哈努诺文21 Hebrew希伯来文133 Hiragana平假名89 InheritedInherited461 Kannada卡纳达文86 Katakana片假名164 Kharoshthi迦娄士悌文65 Khmer高棉文146 Lao老挝文65 Latin拉丁文系1070 Limbu林布文(尼泊尔东部)66 Linear B线形文字B211 Malayalam德拉维族文(印度)78 Mongolian蒙古文152 Myanmar缅甸文78 New Tai Lue新傣文80 NkoNKo字母表59 Ogham欧甘文字29 Old Italic古意大利文35 Old Persian古波斯文50 Oriya奥里亚文81 OsmanyaOsmanya字母表40 Phags PaPhags Pa字母表(蒙古)56 Phoenician腓尼基文27 Runic古代北欧文78 Shavian肃伯纳速记符号48 Sinhala僧伽罗文80 Syloti NagriSyloti Nagri字母表(印度)44 Syriac叙利亚文77 Tagalog塔加路文(菲律宾)20 TagbanwaTagbanwa文(菲律宾)18 Tai Le德宏傣文35 Tamil泰米尔文71 Telugu泰卢固文(印度)80 Thaana马尔代夫书写体50 Thai泰国文86 Tibetan藏文195 Tifinagh提非纳字母表55 Ugaritic乌加里特楔形文字31 Yi彝文1220其中,有两个Script值有着特殊的含义:Common:Script属性为Common的字符可能在多个文字系统中使用,不是某个文字系统特有的。例如:空格、数字等。Inherited:Script属性为Inherited的字符会继承前一个字符的Script属性。主要是一些组合用符号,例如:在组合附加符号区(0x300-0x36f),字符的Script属性都是Inherited。UCD中的Script.txt列出了每个字符的Script属性。使用UniToy可以按照Script属性查看字符。例如:左侧Script窗口中,第一层节点是按英文字母顺序排列的Script属性。第二层节点是包含该Script文字的行(row),点击后显示该行内属于这个Script的字符。这样,就可以集中查看属于同一文字系统的字符。4.1.4 Unicode中的汉字前面提过,在Unicode已定义的99089个字符中,有71226个字符是汉字。它们的分布如下:Block名称开始码位结束码位数量中日韩统一表意文字扩充A34004db56582中日韩统一表意文字4e009fbb20924中日韩兼容表意文字f900fa2d302中日韩兼容表意文字fa30fa6a59中日韩兼容表意文字fa70fad9106中日韩统一表意文字扩充B 200002a6d 642711中日韩兼容表意文字补充2f8002fa1d542 UCD的Unihan.txt中的部首偏旁索引(kRSUnicode)可以检索全部71226个汉字。kRSUnicode的部首是按照康熙字典定义的,共214个部首。简体字按照简体部首对应的繁体部首检索。UniToy整理了康熙字典部首对应的简体部首,提供了按照部首检索汉字的功能:4.2 UTF编码在字符编码的四个层次中,第一层的范围和第二层的编码在4.1节已经详细讨论过了。本节讨论第三层的UTF编码和第四层的字节序,主要谈谈第三层的UTF编码,即怎样将Unicode定义的编码转换成程序数据。4.2.1 UTF-8 UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下:Unicode编码(16进制)UTF-8字节流(二进制)000000-00007F0xxxxxxx 000080-0007FF110xxxxx 10xxxxxx 000800-00FFFF1110xxxx 10xxxxxx 10xxxxxx 010000-10FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。例1:汉字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。例2:字的Unicode编码是0x20C30。0x20C30在0x 010000-0x10FFFF之间,使用用4字节模板了:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字(不足21位就在前面补0):0 0010 0000 1100 0011 0000,用这个比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。4.2.2 UTF-16 UniToy有个输出编码功能,可以输出当前选择的文本编码。因为UniToy内部采用UTF-16编码,所以输出的编码就是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 苗木销售绩效协议
- 弱电设施年度健康评估计划
- 消防安全演习与培训计划
- 中小学数学素养提升教学计划
- 2025教育项目经理述职报告范文
- 小学生健美操团体协作训练计划
- 2025版小学信息科技综合实践教学计划
- 2025年湘教版八年级地理上册学习评价计划
- 一年级第二学期班主任培训计划
- 初一班级艺术素养提升计划
- 桩侧摩阻力ppt(图文丰富共28)
- 幕墙材料运输方案
- 项目经理年度考核评价表
- 9E燃机系统培训演3.25
- 2022年山东省临沂市中考生物试题及答案解析
- 《红楼梦:金陵十二钗判词赏析》示范PPT课件
- 起重信号工、司索工安全教育培训试题带答案
- 废旧塑料回收再生资源利用项目建议书
- 玻璃纤维生产工艺流程培训
- 无砟轨道底座板首件施工总结(最新)
- 作文纸模板带字数
评论
0/150
提交评论