汉字计算机中的表示.doc_第1页
汉字计算机中的表示.doc_第2页
汉字计算机中的表示.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉字计算机中的一、前言众所周知,英文是拼音文字,一个不超过128种字符的字符集,就可满足英文处理的需要。汉字是平面结构,字数多,字形复杂、长期被认为不便于计算机存储和处理,因而常有一些知名人士主张用拼音文字来取代汉字。经过我国科技工作者的不懈努力,这一问题已得到了较好的解决,我国已经具备了成熟的汉字信息处理方法,并且得到了广泛应用。 二、汉字在计算机中表示方法。用计算机处理汉字,首先要解决汉字在计算机里如何表示的问题,即汉字编码问题。根据统计,在人们日常生活交往中,包括社会生活、经济、科学技术交流等方面,经常使用的汉字约有四、五千个。汉字字符集是一个很大的集合,至少需要用两个字节作为汉字编码的形式。原则上,两个字节可以表示 25625665536 种不同的符号,作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。这个方案可以容纳 128128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的字数是:94948836个。国家根据汉字的常用程度定出了一级和二级汉字字符集,并规定了编码。国家标准局于1981年公布了国家标准GB2312-80,即信息交换用汉字编码字符集基本集,其中共收录汉字和图形符号(682个)7445个。 每一个汉字或符号都用两个字节表示。其中每一个字节的编码取值范围都是从20H到7EH,即十进制写法的33到126,这与ASCII编码中可打印字符的取值范围一样,都是94个。因为这样两个字节可以表示的不同字符总数为8 836个。而国标码字符集共有7 445个字符,所以在上述编码范围中实际上还有一些空位。 汉字国标码作为一种国家标准,是所有汉字编码都必须遵循的统一标准,但由于国标码每个字节的最高位都是“0”,与国际通用的标准ASCII码无法区分。例如,“天”字的国标码是 01001100 01101100 , 即两个字节分别是十进制的 76 108 ,十六进制的 4CH 6CH。而英文字符“L”和“1”的ASCII码也恰好是76和108,因此,如果内存中的两个字节76和108,就难以确定到底是汉字”天“字,还是英文字符“L”和“1”。显然,国标码必须进行某种变换才能在计算机内部使用。常见的用法是将两个字节的最高位设定为1(低7位采用国标码)。例如,汉字“天”字的机内码是 11001100 11101100 , 写成十六进制是 CCH ECH。即十进制的 204 236。但这种用法对国际通用性以及ASCII码在通信传输时加奇偶检验位等都是不利的,因而还有改进的必要。 目前,汉字编码的标准还没有完全统一。在我国台湾,港澳地区多用BIG-5码,世界其它地区的汉字文化圈中也存在一些其它的汉字编码方案。这就造成了各种汉字处理系统之间无法通用的局面。为使世界上包括汉字在内的各种文字的编码走上标准化、规范化的道路,1992年5月国际标准化组织ISO通过了ISO/IEC10640,即通用多八位编码集(UCS),同时我国也制定了新的国家标准GB13000-1993(简称CJK字符集)。全国信息标准化技术委员会在此基础上发布了汉字扩展内规范,其中收集了中国、日本、韩国三国汉字共20 902个(简称GBK字符集),可以在很大程序上满足汉字处理的要求。2000年3月17日,信息产业部和国家技术监督局联合公布了国家标准GB 18030-2000信息技术、信息交换用汉字编码字符集、基本集的扩充(简称CJK字符集),并宣布GB 18030为国家强制性标准,自发布之日起实施,过渡期到2000年12月31日止。GB 18030是GB 2312的扩展,共收录了2.7万个汉字,采用单/双/四字节混合编码,与现有绝大多数操作系统、中文平台在内码一级兼容,可支持现有的应用系统;在字汇上则与GB 13000.1-1993兼容,并包容了其中收录的所有汉字、藏、蒙、维等少数民族文字,以及世界上几乎所有的语言文字,为中文信息在因特网上的传输和交换提供了保障。该标准的实施将为制定统一的应用软件中文接口标准规范创造条件。三、汉子的输入方法及优缺点电脑是老外发明的,键盘是为打ABC而设计的,用电脑打中文,曾经是一个大难题,曾经被老外看作中国实现信息化的一头拦路虎。自从电脑传入中国来,多少人在日以继夜地研究汉字输入的方法?随着电脑的普及,随着时间的推移,一种种输入法出现了,据说汉字输入法申请专利的就有500多种。目前,几百种汉字输入法,按输入工具而分,可分为键盘输入法(英文字母和数字键盘)和非键盘(鼠标、语音、手写)输入法。键盘输入法缺点:易学难输不实用,如当今流行的QQ拼音,搜狗拼音等输入法。难学易输难普及,如王永民教授的五笔输入法。优点:准确,输入错误率小,成本低。非键盘输入法扫描输入法:将文稿通过扫描仪输入到电脑,再用转换软件(如清华大学的OCR)转换为文本。光笔输入法:用专用笔在一写字屏上写入汉字,通过软件转换成文本。声音输入法:先引进标准的声音库,再通过话筒将文稿读入机器与之对应后由软件转换成文本。缺点:当前技术水平有限,输入错误率高,成本高。优点:输入速度快,效率高。四、汉字输入法的科学性 发明一种汉字输入法其实不难,但要发明一种社会一致认可的输入法就确实很难了。这条路上有多少人在探索和追求,“引无数英雄竞拆腰”。国家电子部有专门的中文信息处理开放实验室,民间有汉字编码协会,老外有微软专门设立了中国研究开发中心中文技术部,摩托罗拉手机也搞了个摩托罗拉按键输入法。 考量一个输入法好坏的标准,只有8个字:易学、好记、快打、规范。四者必须统一。易学难输(如拼音)不实用,难学易输(如五笔)难普及。汉字输入法是一种工具,工具不需要多,实用就行了,就象吃饭,中国人只用筷子,西方人只用刀叉,仅此一种。工具太多,往往无所适从,例如:学习打字选择哪种输入呢?学校推广输入法,那一种符合语文教学规范呢?由于输入法太多,已经给中国人带来了新的麻烦。没有汉字输入法,计算机难在中国普及,没有统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论