字符、编码、Unicode杂谈_第1页
字符、编码、Unicode杂谈_第2页
字符、编码、Unicode杂谈_第3页
字符、编码、Unicode杂谈_第4页
字符、编码、Unicode杂谈_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、字符的编码历史摩尔斯电码计算机二进制表达的字符集ASCIIEBCDIC计算机之前的时代摩尔斯电码将字母表和简单的标点符号进行了编码化盲文是另外一种类型的编码远在DOS时代计算机主要应用于英文和拉丁语系ASCII-美国信息交换标准编码编码范围 0127(单字节编码)不满足其他国家地区特殊字符IBM的解决方案使用ASCII码表没有使用的128255的编码空间在计算机的BIOS中间提供不同国家语言的不同编码CodePage也叫做OEM Code Page.IBM的解决方案解决了不同国家对于DOS下显示字符的问题问题:不能交换数据。显示希腊语言的机器如果需要显示日文,就必须要考虑更换Rom芯片目前存在

2、的各种代码页OEM (IBM PC) 代码页437 最初的 IBM PC 代码页,实现了扩展ASCII字符集737 希腊语850 “多语言 (Latin-1)” (西欧语言)852 “斯拉夫 (Latin-2)” (中欧及东欧语言)855 西里尔(Cyril)字母857 土耳其语858 带欧元符号的“多语言”860 葡萄牙语861 冰岛语863 法语 加拿大英语865 北欧866 西里尔(Cyril)字母869 希腊语目前存在的各种代码页(二)中日韩语言代码页932 日文936 简体中文(GBK)949 韩文950 繁体中文(大五码)目前存在的各种代码页(三)Windows (ANSI)代码页

3、874 泰文字母1250 东欧拉丁字母1251 古斯拉夫语1252 西欧拉丁字母 ISO-8859-1.1253 希腊语1254 土耳其语1255 希伯来语1256 阿拉伯语1257 巴尔1258 越南1254 土耳其语Sample使用C#做的字符到不同编码的转换Sample主要的中文编码标准GB23121981年实施,中国国家标准中国和新加坡采用6763个汉字,包括拉丁字母,希腊字母和日文假名、GBK汉字内码扩展规范,由微软制定,最早实现于Windows95中文版微软的CP936通常被视为等同GBK主要的中文编码标准GB 13000.1-93等同于Unicode 1.1标准GBK收录了GB1

4、3000.1-93全部字符但是编码方式不同。GB 18030-2005目前最新的字符集全面兼容GBK和UTF-8相同采用多字节编码。更新至 Unicode 4.1标准(2000年标准兼容Unicode3.0)主要日文编码标准ShiftJISShift_JIS是一个日本电脑系统常用的编码表。它能容纳全角及半角拉丁字母、平假名、片假名、符号及日语汉字。它被命名为Shift_JIS的原因,是它在放置全角字符时,要避开原本在0 xA1-0 xDF放置的半角假名字符。在微软及IBM的日语电脑系统中,即使用了这个编码表。这个编码表称为CP932。JIS-X0201 & JIS-X 0208Unicode志

5、在一统全球语言文字编码官网www.U最新标准Unicode现行6.2准备中标准目的在于为每一个可用的字符设置一个唯一编号,没有涉及任何编码方式,字长等。Unicode 6.x早在5.x 版本,Unicode已经开始使用超过 0 xFFFF的值为字符进行编码/versions/Unicode6.0.0/主要新增区块0840.085FMandaic1BC0.1BFFBatakAB00.AB2FEthiopic Extended-A11000.1107FBrahmi16800.16A3FBamum Supplement1B000.1B0F

6、FKana Supplement1F0A0.1F0FFPlaying Cards1F300.1F5FFMiscellaneous Symbols And Pictographs1F600.1F64FEmoticons1F680.1F6FFTransport And Map Symbols1F700.1F77FAlchemical Symbols2B740.2B81FCJK Unified Ideographs Extension DEmoticons絵文字 in Japanese/wiki/Unicode6.0%E3%81%AE%E6%90%BA%E

7、5%B8%AF%E9%9B%BB%E8%A9%B1%E3%81%AE%E7%B5%B5%E6%96%87%E5%AD%97%E3%81%AE%E4%B8%80%E8%A6%A7IVShttp:/xa-wiki:8080/display/IMWIN7X/SRS_NewFormatKeyword_IVS_KnowledgeIdeographic Variation Sequence(表意文字变化序列)Adobe和微软(Windows8)Windows支持Unicode情况Win7支持到Unicode 5.1标准Win8支持到Unicode 6.0标准Unicode in .NET.NET Char

8、字长为Short,双字节,采用UTF-16等效编码方式表示字符。超长字符串使用UTF32编码到UTF16编码等效映射方式保存,一对Char表示一个Unicode 字符。代理字符SurrogateCharStringInfo & TextElementChar.IsHiSurrogate()/Char.IsLowSurrogate()TextElement概念IVS孟加拉语Unicode 中其他用超过一个.NET字符表达的字形文件编码UTF-8/UTF-16/UTF-32UTF-16 Big Endian/UTF-32 Big EndianShfitJIS/GB2312UTF-8 Without Signature不明真相的Default Encoding 方式保存文件打开文件Demo其他讨论打开文件发现乱码的时候,请

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论