汉字信息电脑编辑加工效率高过了英文.doc_第1页
汉字信息电脑编辑加工效率高过了英文.doc_第2页
汉字信息电脑编辑加工效率高过了英文.doc_第3页
汉字信息电脑编辑加工效率高过了英文.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电脑新时代汉字不再落后,其处理效率已经反超英文(其二) 其一:汉字信息电脑存储-从沉重负担到比英文节省一半汉字信息电脑编辑加工效率高过了英文1 文本编辑的含义及历史回顾 这里所说的文本编辑,指的是:一个文件(文稿、书信、笔记、讲演稿、通知、报告,.等等)从起笔到文件最后写好,直到印刷之前的全部操作处理工作,包括起草、修改(删除,插入,替换,移动)、抄写等操作。中国在9世纪之前,印刷还没有产生的时候,文本编辑实际上包括了文件从起笔到完成的全部工作。如果需要不只一份,那就再进行手工抄写。公元2世纪到9世纪,是中国文书的手抄本时代。在纸上用笔沾墨起草、写作、修改或抄写。这个时代中国已经有了文房四宝:纸、笔、墨、砚。汉字文书的写作、编辑加工、传抄技艺,适应了当时的需要,在世界上也属于先进水平。此期间,西方世界还没有开始用纸。他们的文书编辑在羊皮、莎草上进行,不如汉字文书制作那么方便。中国在9到19世纪,广泛使用雕版和活字印刷,图书进入手工操作的印本时代。但此期间的印前文本编辑,依然是使用文房四宝完成。15世纪德国人把源于中国的活字印刷推向机械化、工业化,加速了印刷技术的世界性传播。中国的图书印刷开始落后于西欧。但此期间,使用文房四宝的汉字文书编辑并不比西欧落后。近代(1840年起)以来的中国,开始从西方和东洋引进工业化的印刷及机械打字技术。大多数中国文化人仍然使用文房四宝,编写汉字文书,但出现了机械打字员行当。西方在19世纪,发明了机械打字机。机械打字的字形正确、鲜明、规整和使用的便捷、高效,迅速获得普及。英文文书编辑制作开始了机械化时代。此期间使用传统文房四宝和其他硬笔的汉文文本制作,效率显著落后于英文机械打字,结果文稿也远不如打字稿那么整齐、规整、清晰。而机械打字机的汉字文本编辑加工明显地比英文繁难、低效(参见本书二之1-61)。这是大家普遍认同的,也是汉字拼音化改革的一个重要原因。1980年代中后期以来,汉字已经成功实现了电脑化处理。汉字文本的起草、编辑修改、打印,越来越多地使用微电脑完成。2 汉、英文文本电脑编辑比较的意义和困难汉字的这种电脑化处理,是在英文电脑化之后,是大量借用了英文相关技术(如英文软件汉化改造)情况下完成的。换句话说,具有文字处理功能的电脑最初是为了解决英文问题设计的,而后才扩展用于汉字。一个汉字字符要用两个字节,比一个英文字母用一个字节多了一倍;汉字字量庞大,字型复杂,字库比英文大得多;最初进入中国的微型计算机并不是都能处理汉字,有的要插上什么汉卡才行;汉字BB 机曾经比数字 BB机贵数百圆、甚至上千圆。这些现象使得许多人觉得:汉字的电脑化处理必定仍然是比英文的繁难、低效。当今这种认识仍然十分普遍。1994年中国已经基本淘汰了铅字,基本跨进电脑时代的时候,某些专家的讲话就依然强调汉字落后,提出继续简化汉字。 到2004年,中国社会网络化进程快速推进,使得普通中国百姓每人每天里都亲身感受到汉字电脑网络的无所不在。在邮局、银行、飞机场、火车站、超市里的每笔业务都已经离不开汉字电脑网络。中国城镇居民水费、电费、煤气费都已经实现了电脑网络化管理。那之后,不少语文学家的著作里仍然认为汉字的处理效率不如英文。这些表明,他们认为电脑化了的汉字和机械化时代的汉字一样或者差不多,还是技术性比英文差,处理效率比英文低。本文想要说明,从文本编辑处理各方面比较,汉字都比英文更高效。这种事实还没有被普遍认识、接受,可能的原因有:(1)现代电子信息技术发展的神速、难于预料,使得许多人还没有看清汉字的技术性已经不再落后、低效的事实,或者虽然看到但无法理解,仍抱怀疑态度。(2)现今汉、英文文本编辑可以在同一台电脑上进行,其间的差异可以仅仅表现为软件的差异。由于软件被封装在芯片和存储于硬盘、光盘里,其间的差异不再是明显的、外露的、直观的、感性的,而是隐蔽的、内敛的、抽象的、理性的。这使得比较增加了复杂性,失去了直观性、简单性。(3)许多学问家总是喜欢在自己信奉的理论指导下去观察世界。而汉字电脑化成功的事实,却和中国主流语言文字理论的预见不符。这可能是使一些人视而不见的原因。3 文本的电脑化编辑操作及其运算复杂性 文字信息的电脑处理本质上是字符串的处理。对英文来说,这字符串就是拉丁字母、标点及空格的序列;对于汉文来说,这字符串就是汉字、拉丁拼音字母及标点的序列。这种序列在电脑里都是二进制编码序列。作为文本编辑的最基本的处理操作包括插入、删除、查找、排序等四个操作。基于这些操作,通过软件编程可以完成以下更复杂的操作,如:整块(块可以是若干词、句子、段落、节、章)的移位、删除;把全文中某个词甲 改为 词乙(甲、乙的词长度可以不相同);对给定的词找出该词所在的每个位置(页、行、列号或章、节、段、行号);对全书自动生成目录和关键词索引,等等。这里每个操作所需要的处理时间都密切依赖于所处理字符串的长度,即该串所占用存储器字节个数。由于此事的重要,我们做一点具体观察。以下的内容,在理工科大学生的计算机基础、数据结构、算法等类课程里是基本内容。 插入操作。例如,要在已经有的串:“块可以是若干词、段落、节、章”里词后面插入、句子这三个字符,操作具体执行过程是:把原来串词之后的字符一律先向后移动3个字符位置。如: “块可以是若干词_、段落、节、章”再在空出来的位置写入字符串:、句子。得到:“块可以是若干词、句子 、段落、节、章”可见,插入操作要引起大量移位操作。移位操作的数量可以代表插入操作的复杂性。显然的,移位操作的数量取决于要插入字符的位置。要在最开头插入,整个原来串都要后移;要插入到最末尾,一次移动都不需要。通常用平均移动次数:n/2描述其运算量。这里n是字符串的长度,也就是串里包含的字符个数。由于计算机处理的运算都是极其大量的,往往并不要求很准确的具体次数,更喜欢用大致的量级方式。插入操作的平均移动次数n/2,常常仅仅表示为O(n),这表示是n的线性函数,或者说是与字符串长度n成比例的。删除操作。 删除操作的运算复杂性类似,也是O(n)。 查找操作。 在一个含n个汉字的串里(长度为n 的串里),查找逼近这个词。逼近这个词本身长度为记作m,此处 m=2。算法分析表明,在一个长为n 的串里 查找长度为m的串,运算复杂性是 n*m 的线性函数,既与乘机m*n成比例,记为 O(m*n)。 排序操作。 许多排序操作的复杂性为O(n2),既与字符串长度的平方成比例。排序的复杂性(包括运算时间和存储量)比插入、删除、查找都高。4 汉、英文本电脑化编辑加工操作的比较 假定一个中文文本汉字串Lc长度为一万汉字。那么它在计算机里占二万字节,即n=20000。在做插入操作时,平均移位次数n/2=10000。按照前述表7.1,和Lc为同一个内容的英文字符串Le长度是汉字字符串长度的d倍,这里2d 4. 5,即和此汉字文本Lc对应的英文文本Le的长度,为49万。平均移动次数为24.5 万次,这比汉字文本计算复杂性至少大一倍。或者,我们用O(n)的方式说明。汉字串 Lc长度为n ,对应英文串 Le的长度为 d*n 。英文和汉文插入操作的复杂性对比为O(d*n): O(n) = d*n:n=d:1。即就插入或删除操作而言,英文运算复杂性是汉文的d倍,这里2d 4. 5。 我们再考虑查找操作。例如要在一个长度为n的汉字串 Lc,查找词逼近。要求找到逼近第一次出现的位置。这里词逼近长度m=4(占4个字节)。此种操作的复杂性程度为O(m*n)= O(4*n)。对应英文串 Le的长度为 d*n,而词逼近对应的英文词是approximation,其长度m=13。英文中查找approximation的复杂性O(13*d*n),对比汉文查找逼近的复杂度O(4*n)。易得O(13*d*n):O(4*n)=3.25d:16.5。即在英文版里查找approximation是在汉文版里查找逼近耗费时间的6.5倍。 此时,我们可以概括地说,文本编辑本质上是字符串的加工处理。字符串处理的复杂性依赖于串的长度。由于英文串长度是其对应的汉文串的d倍,这里2d 4. 5。同类的操作英文比汉文就要花费更多的时间。这和许多人以为汉文处理比英文更困难的估计,正好相反。这是汉字简明特性在电脑处理中的反映。在基本的计算机程序教材,以及算法设计、数据结构教材里,都容易找到插入、删除、排序、查找等操作其计算量与字符串长度的关系式。不同的字符串相比较,只要字符串长,其操作占用存储量和耗费的计算时间也就一定长。上述是一般性的论证,其正确性是显然的。下面我们还是看一个具体统计实例。材料取自文献【41】,这是该文作者在加工、改造日、英、汉烟草工业词典时,所做的实验统计。该对照词典共计收词13666条。汉语词平均词长为4个汉字(8个字节),对应的英文平均词长为16个字母(16个字节)。对全部词做排序计算,英文词按通常的字母序,汉语词用笔画数序。处理结果如表7.5。该表所展示的工作是1980年代末进行的。估计当时该文作者所用计算机还在使用纸带光电输入和行式打印机等低速外部设备,所以表中I/O时间(输入/输出时间)所占比重甚大。读者可以主要关注排序用CPU时间这一行。 表9.5 汉语、英语词汇排序速度比较比较项目汉语 英语词的个数1366613666排

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论