




已阅读5页,还剩84页未读, 继续免费阅读
(计算机科学与技术专业论文)基于码本的输入法评测系统的设计和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于码奉的输入法讦测系统的设计和实现 中文摘要 中文摘要 在今后很长时期内,汉字键盘编码输入法仍将是汉字输入计算机的 主要方式。建立科学的输入法评价体系,不仅可以指导编码发明者形成 科学的汉字编码方案,而且可以帮助输入系统设计人员对输入法产品进 行客观的自我评价,从而推出符合国家规范的更好的输入法产品。 本文首先介绍了汉字输入法的现状和发展趋势以及汉字输入法的相 关标准:然后提出了汉字输入法评测系统的设计目标,并描述了评测系 统的组成;接着详细介绍了基于码本的汉字输入法静态评测子系统和汉 字输入法动态评测子系统的设计和实现过程;最后还介绍了基于输入法 规则库的码本自动获取子系统。 本文介绍的基于码本的汉字输入法评测系统,不仅可以作为一个汉 字编码输入法的通用评测平台,而且也可以作为一个汉字输入编码设计 的辅助平台,也可以作为探讨国家有关规范的辅助工具。对汉字编码发 明者和输入系统设计人员而言,该评测系统有很高的使用价值;对建立 科学的输入法评价体系而言,该评测系统也有十分积极的意义。 关键词: 汉字输入法,中文信息处理,汉字编码方案,输入法评测,码本 作者:张玉华 指导老师:杨季文 a b s t r a c tt h ed e s i g na n dr e a l i z a t i o no fi n p u tm e t h o de v a l u a t i n gs y s t e mb a s e do nc o d ec h a r t a b s t r a c t t h em a j o rw a yo fi n p u t t i n gc h i n e s ec h a r a c t e r si n t oc o m p u t e ri sa n dw i l l b et h ec h i n e s ee n c o d i n gi n p u tm e t h o df o ral o n gt i m e i ti sv e r yi m p o r t a n tt o s e tu pas c i e n t i f i ca p p r a i s i n gs y s t e mf o ri n p u tm e t h o dn o to n l yf o rj u s t i c i a l e v a l u a t i o n ,b u ta l s of o rb r i n g i n go u tp e r f e c tc h i n e s ec h a r a t e ri n p u tp r o d u c t s t h i sp a p e rf i r s ti n t r o d u c e st h e r e a l i t ya n dt h et r e n do ft h ec h i n e s e c h a r a c t e ri n p u tm e t h o d ,e x p l a i n st h es t a n d a r do rc r i t e r i o na s s o c i a t e dw i t h c h i n e s ec h a r a t e ri n p u ts c h e m e a l s oi tp r o m o t e st h ed e s i g ng o a la n dn a r r a t e s t h ec o m p o s i n go ft h ee v a l u a t i n gs y s t e m t h e ni td e s c r i b e st h ed e s i g na n d r e a l i z a t i o no ft h es t a t i ca n dd y n a m i ce v a l u a t i n gs y s t e mo ft h ec h i n e s ei n p u t m e t h o d sb a s e do nt h ec o d ec h a r ti nd e t a i lr e s p e c t i v e l y f i n a l l yi ti n t r o d u c e s h o wt oo b t a i nt h ec o d ec h a r tb a s e do nt h er u l el i b r a r y t h ee v a l u a t i n gs y s t e mo ft h ei n p u tm e t h o dc a nb ef lu n i v e r s a le v a l u a t i n g p l a t f o r mf o rg e n e r a li n p u tm e t h o d s u s i n gt h i sp l a t f o r mw ec a nd e s i g nc o d e s c h e m ea n dd i c u s st h ec r i t e r i o n sm o r ee f f e c t i v e l y t h i se v a l u a t i n gs y s t e mi s v e r yu s e f u lf o rt h ed e s i g n e ro fc h i n e s ec h a r a c t e ri n p u ts y s t e ma n di t i s s i g n i f i c a n tf o re s t a b l i s h m e n to fas c i e n t i f i ca p p r a i s i n gs y s t e m k e y w o r d s c h i n e s ec h a r a c t e ri n p u tm e t h o d ,c h i n e s ei n f o r m a t i o np r o c e s s i n g , c h i n e s e c h a r a c t e rc o d i n gs c h e m e ,i n p u tm e t h o de v a l u a t i n gs y s t e m , c o d ec h a r t w r i t t e nb y : z h a n g y u h u a s u p e r v i s e db y : y a n gj i w e n 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究1 二作所 取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或 撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材 料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承 担本声明的法律责任。 研究生签名:i 堡查叠 日 学位论文使用授权声明 期:型:! :兰9 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国 社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采 用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论 文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:i 量堡圣。 导师签名: 日期:丝! ! 竺:驾 日期:竺:竺:夕 基于码本的输入法评测系统的设计和实现 第一章绪论 第一章绪论 1 1 汉字编码输入技术的现状和发展趋势 在我国几乎所有计算机用户都离不开汉字输入这一操作。人们在利 用计算机处理各种信息时,需要输入汉字。如果是进行文字编辑等处理, 需要输入大量的汉字;如果是查询资料或数据,那么也需要输入少量的 汉字。在过去,汉字输入曾是制约计算机应用普及的瓶颈之。 目前汉字输入的主要手段仍是键盘编码输入。汉字输入方式可分为 两大类:键盘编码输入方式和自然输入方式。键盘编码输入方式是指给 汉字编码进而通过键盘实现输入的方式。自然输入方式是指通过字形识 别或者语音识别的途径实现输入的方式。虽然语音输入和手写输入技术 已渐趋成熟,语音输入和手写输入方法的识别率已相当高,但目前这些 自然输入方法仍较多地受到软硬件环境的制约,所以还只是汉字输入的 辅助手段。键盘编码输入方式输入速度快,无需特别的硬件支持,仍是 汉字输入的主要手段。因此,汉字输入技术的主流仍然是键盘编码输入 技术。本文以下所述的汉字输入技术仅指键盘编码输入技术。 1 1 1 汉字编码方案和汉字输入法 汉字编码方案是指,给某个范围内的每个汉字赋代码的组规则。 汉字编码方案的本质是规则。不同的赋代码规则,形成不同的汉字编码 方案。按制定规则的依据对汉字输入编码方案进行分类,汉字输入编码 可以分为流水码、音码、形码、音形码或形音码等大类。按构成代码的 码元是否为数字,汉字输入编码可分为数字码和普通码两大类。习惯上, 把根据输入编码方案给汉字赋的代码称为外码,把在机器系统内部表示 汉字的代码称为内码。 汉字键盘编码输入法是指,根据某个汉字输入编码方案把外码转换 第一章绪论 基于码本的输入法评测系统的设计和实现 为内码的软件,因此又常被称为汉字输入系统。汉字输入法的基础是汉 字输入编码方案。汉字编码方案不同,对应的汉字输入法也就不同。反 过来,同一个汉字编码方案,可能存在多个对应的汉字输入法。一般用 户实际操作使用的是汉字输入法,所以评价的主体也是汉字输入法,但 是毫无疑问汉字输入编码方案是汉字输入法的关键。 汉字编码的历史可追溯到最初字典、词典的查字法。就方法来说, 有传统的部首笔画编码、四角编码、拼音排序编码等。1 8 8 0 年丹麦人制 定的四码电报码一直用到今天,而成为“标准电报码本”【l 】。 随着微型计算机应用的普及,越来越多的人在工作中需要输入汉字, 由此吸引了一大批人关心汉字输入,尝试研究汉字编码方案。从1 9 7 8 年 以后的近2 0 年中,数以干计的汉字编码方案相继问世,先后有4 0 0 多种 编码方案申请了专利,形成了万“码”奔腾的格局 2 1 。这一阶段产生的汉字 编码方案有音码、形码、音形码和形音码,输入法增加了词组输入和联 想输入等功能。最终以单字输入为基础,以词组输入为主导,用户的汉 字输入速度也大大提高。 随着计算机技术的发展,从1 9 9 5 年开始,汉字智能化输入技术有了 较大进展,并取得了一些成果。汉字输入从字、词输入发展为整旬输入。 原来由人记忆的一些内容开始由计算机来承担,使输入系统有学习、记 忆和判断的功能。随着手机等掌上设备的逐渐普及,一些采用数字小键 盘进行输入的数字编码输入法也开始异军突起。 1 1 2 汉字编码输入法的现状 尽管汉字编码输入方案很多,但是,在这数以千计的汉字编码输入 方案中,无论是形码还是音码,都或多或少存在着不少缺点和不足。音 码输入法采用基于汉语拼音的编码方案,虽然编码规则简单,但重码率 高,码长较长,很难达到快速输入的要求。形码输入法虽然能较好地解 决重码问题,但一般都存在编码规则复杂难记,编码方案不完全符合国 家语言文字规范和标准,与国家基础教学的部分要求存在冲突等问题。 基于码本的输入祛评测系统的设计和实现 第一章绪论 总而言之,目前,计算机汉字编码输入技术的发展速度远远落后于计算 机技术发展的速度。 究其原因,主要有以下三点【3 】。首先,汉字编码输入技术属于边缘学 科,它需要综合多门学科的专业知识,比如:概率统计、语言学、语义 学、文字学等等。因此,汉字编码输入法的研究开发受到很多因素的影 响,研究成功并被广泛采用的可能性较小。 其次,进行汉字编码输入技术研究和开发的单位基本上都是国内的 个人和小企业,完全属于个人行为或小集体行为,力量极其单薄,而且 各自独立分散,这种小作坊式的工作规模,很难有较大的理论创新和技 术进步。 最后,在汉字编码输入技术领域,缺乏科学的规范和标准,缺乏通 用的输入法评价体系,汉字编码设计人员缺乏规范科学的指导,凭主观 意图对汉字进行编码。这些也是汉字编码输入技术长期停滞不前的原因。 1 1 3 汉字编码方案亟待规范化和标准化 汉字是象形文字,将组成汉字的部件进行科学的拆分是汉字字形处 理中首要的基础工作。正是由于它的重要性,并且缺乏统一的规范和标 准,以致于人们在相当长的时期内,在不同地区、不同信息处理系统中 自发地进行了这一工作,由此造成汉字形码方案万“码”奔腾的局面,部 件拆分的不规范现象也逐年增多。这种状况既不利于计算机的应用,又 不利于语言文字的统一规范,同时也给计算机教育和识字教育带来较大 的困难。 为了适应汉字输入技术的发展需求,最终实现“字同码、字同音、 字同形”的目标,在中文信息处理领域制订出相应的标准和规范,不但 可以解决上述存在的问题,而且有利于普及科学的汉字知识,增强全社 会的语言文字规范意识,其意义非常重大。 目前,规范化研究已引起国家重视并取得了进展。人大常委会、信 息产业部、国家技术监督局和国家语委等部门从上世纪九十年代中期开 始加快了语言文字和中文信息处理领域的立法和国家标准、规范的制定。 t 第一章绪论苎王塑查塑塑垒鲨堡塑墨竺塑壁生塑塞翌 世纪之初,国家颁布了语言文字法。这些规范和标准的相继出台和实 施,必将使汉字输入技术走上有序的良性发展的道路。 1 2 主要工作 根据当前汉字编码输入技术的现状,我们设计并基本实现了一个基于 码本的输入法评测系统。利用此系统,输入编码发明者和输入法设计人 员可以更好地完成输入法的自我评估和优化工作,输入法的评测者可以 对不同的输入法进行较为客观的评价。另外,输入编码发明者和输入法 设计人员也可以利用此系统对码本进行有效管理,提高输入法软件的质 量;规范和标准的制定者,也可以把该系统作为分析研究汉字输入编码 和汉字部件以及制定规范和标准的辅助工具。 该系统由三个子系统组成,分别是:码本属性管理及静态评测子系统、 输入法动态评测子系统和基于规则库的码本自动获取子系统。 1 、码本属性管理及静态评测子系统 该子系统的主要用户是输入编码发明者和输入法设计人员。其主要 功能是:( 1 ) 管理码本和汉字的各种属性;( 2 ) 基于码本进行静态评测。 在输入法设计开发的早期阶段,编码发明者和设计人员利用该系统,以 设计实现规范化、标准化的输入法为目标,对输入法的设计和实现进行 过程控制和质量控制。 在输入编码设计阶段,围绕码本的设计、生成、管理过程,该子系 统提供了遵循汉字输入法相关规范进行码本属性管理的功能,这样在过 程上保证输入法编码的规范性。在码本初步形成的基础上,该子系统实 现了基于码本的汉字编码方案静态评测功能。利用此功能,编码发明者 和输入法设计人员可以对编码规则进行评估和优化。 2 、输入法动态评测子系统 该子系统的主要用户是输入法设计者和输入法评测人员。该子系统 的主要功能是,基于码本对汉字输入法进行动态评测。动态评测的依据 是由国家标准给出的汉字输入法性能指标。利用该子系统,可以在系统 层次上评测一个汉字输入法的有关性能是否满足国家标准的规定。 茎主塑查盟熊叁婆塑型墨堕鲤鲨盐塑壅塑 一墨二重噬 3 、基于规则库的码本自动获取子系统 该子系统按照功能不同又可以分成两个模块。分别是输入法规则库 管理模块和基于规则库的码本自动获取模块。该子系统结合前述的输入 法动态评测子系统,为输入法评测人员提供评测未知码本的汉字编码输 入法的辅助手段。 输入法规则库管理模块的主要功能是建立和维护一个汉字输入法的 规则库,并对该输入法规则库中规定的各种输入法的输入模式进行抽取。 建立这个规则库的目的主要是用规范化的数据来描述具体的汉字编码法 和汉字输入法的特性,从而为输入法码本的自动获取以及为输入法动态 分析评测提供输入规则的支持。 基于规则库的码本自动获取模块主要是为评测未知码本的输入法而 设计的。其主要功能是获取某个输入法的码本。 1 3 所做工作的意义 1 、提供了一个汉字编码输入法的通用评测平台 建立科学的输入法评价体系和实用的评测平台,可以帮助输入编码 发明者和输入法设计人员对编码方案和输入法产品进行客观的自我评 价,并且根据评价的结果进行技术改进,从而推动编码输入法技术的不 断提高和发展。我们设计和实现的基于码本的评测系统提供了静态评测 和动态评测功能,可以作为一个评测汉字编码输入法的通用平台供汉字 输入法设计人员和汉字输入法评测人员使用。因此,该系统对评价汉字 编码输入法和改进汉字编码输入法有积极的意义。 2 、提供了一个汉字输入编码设计的辅助平台 本系统提供了码本和汉字属性管理功能,可以作为汉字输入编码设 计的辅助平台供汉字编码发明者和输入法设计人员使用。在设计汉字输 入编码方案的过程中,根据编码规则生成码本的工作量非常大,利用系 统提供的码本管理功能可以大大减少生成码本的工作量。在设计输入编 码方案的过程中,往往要利用汉字的各种属性;在生成输入法对照表的 过程中,一般也要利用汉字的有关属性。该系统提供了功能强大的汉字 第一章绪论基于码本的输! 塑竖堑塑塑生塑壅翌 属性管理功能,不仅可以方便地导入和引用符合国家规范的汉字属性, 也可以由输入编码发明者编辑添加特定的汉字属性。利用这些功能,编 码发明者能够方便地提取需要的汉字属性,并对有关属性进行统计分析 和编码;输入法设计者在生成对照表时,也可以方便地引用有关汉字属 性。利用该系统,设计人员不仅能够提高工作效率,也可以有效地实现 对输入法设计的过程控制,防止不必要的差错,从而保证输入法的最终 质量。所以,该系统可以为设计实现规范的汉字编码输入法提供必要的 技术保障。 3 、尝试了对汉字编码输入法的自动评测 本系统含有一个基于规则库的码本自动获取子系统,利用该子系统 可以获取汉字输入法的码本,从而实现对未知码本的汉字编码输入法进 行自动评测。虽然由于汉字编码输入法本身的复杂性和多样性,系统在 自动评测汉字编码输入法方面的通用性还有待加强和完善,但是,这种 通过计算机自动模拟汉字输入得到输入法码本,进而根据国家标准中汉 字编码输入法的性能指标对输入法进行评测的通用方法,可以为科学评 价汉字编码输入法奠定基础。 4 、提供了探讨国家有关规范的辅助工具 随着规范化研究的不断深入,国家语言规范和国家有关标准的相继 出台,使得对汉字编码输入法进行科学评测成为可能。但是,规范和标 准本身也有一个不断完善的过程。事实上,我们在结合多个汉字输入编 码方案研究国家有关规范和标准的过程中,发现规范和标准有些指标不 很客观,难以操作,值得进一步探讨。本系统不仅提供了评测功能也提 供了辅助设计功能,利用这些功能可以统计分析汉字的各种属性,可以 客观科学地评价各种汉字输入编码。所以,本系统实际上也可以作为一 个用于探讨国家有关规范和标准的辅助工具,在制定国家规范和标准的 工作中发挥重要的作用。 1 4 本文的组织结构 本文以下部分将详细描述基于码本的输入法评测系统各方面工作的 6 基于码本的输入法评测系统的设计和实现第一章绪论 背景知识、设计思想和实现方法,具体内容安排如下: 在第二章中,主要介绍了跟汉字编码输入法息息相关的一些标准和 规范,主要包括:字符集相关的标准和规范、作为国家标准的汉字编码输 入法通用要求和一些其它的相关标准和规范 在第三章中,在介绍汉字输入系统的设计步骤的基础上,提出了输入 法评测系统的总体设计目标,接着描述了系统的三个组成部分及各自的 的主要功能,最后说明了各部分之间的相互关系。 由于本文中对输入法的性能评测的主要依据是码本,因此在第四章 中,我们首先对码本在输入法中的重要地位、码本的作用、码本的形式 加以说明,然后分别介绍了字码本属性管理、词码本属性管理、基于字 码本的输入法静态评测、基于词码本的输入法静态评测等各个模块的具 体实现过程。 在第五章中,对输入法动态评测子系统的设计和实现进行了介绍,说 明了动态评测的含义和意义、讨论了影响动态评测的因素,介绍了动态 评测子系统的组成,给出了动态评测的工作流程,还介绍了评测文本的 管理方法、评测的流程。 在第六章中,介绍了基于输入法规则库的码本自动获取子系统。首 先介绍了输入法规则库的设计和建立方法,接着介绍了用程序自动模拟 汉字输入的方法获取输入法码本的过程。 最后,对所做工作做了简短归纳,并简单讨论了进一步完善输入法 评测系统还要做的工作。 第_ - g t 汉字编码输入的相关标准和规范基于毋车的输入法堂统的设计和! 兰堡 第二章汉字编码输入的相关标准和规范 对汉字输入法的评测非常重要,但是汉字编码输入法到底应达到什 么要求,输入法评测的主要依据又是什么呢? 随着汉字编码输入的相关 标准的不断出台和完善,使得输入法评测终于可以有据可循。本章主要 介绍汉字编码输入的相关标准和规范以及本评测系统所引用的评测内 容。 2 1 汉字编码输入的相关标准和规范 2 1 1 字符集标准和规范 在汉字输入技术领域中,首先需要规范的是汉字的字符集。目前, 汉字输入法的使用区域主要是华语地区,除了大陆、台湾和香港等区域 外,还有新加坡及散布在世界各国的华人聚居区。大陆一般采用g b 2 3 1 2 基本字符集、g b k 字符集和g b l 8 0 3 0 字符集;台湾主要采用繁体b i g 5 字 符集;香港则采用基于b i g 5 字符集并扩充特区特殊字符的香港政府通用 字集。目前,各地区正在积极向国际标准i s 0 1 0 6 4 6 u n i c o d e 体系过渡。 表2 1 列出了主要的汉字字符集标准和规范。在不同字符集下,同一个 汉字可能有不同的内码表示。 其中,g b 2 3 1 2 、g b l 8 0 3 0 和g b l 3 0 0 0 1 均为国家标准,而g b k 是国家 规范。g b 2 3 1 2 是在w i n d o w s 9 5 出现以前,国内信息处理系统普遍采用的 字符集和编码标准。g b k 是在保持g b 2 3 1 2 结构的基础上,将其字汇进行 扩充,它包括了i s o1 0 6 4 6 中最初的全部汉字。g b l 8 0 3 0 在g b k 的基础上 做进一步扩充,不但把c j ke x t e n s i o na 的6 5 8 2 汉字扩充进去,而且还 改变了g b k 的体系结构。g b k 是在w i n d o w s 9 5 开始至w i n d o w s1 w 5 0 之前 这一段时间内被业界广泛采用的编码规范。g b l 8 0 3 0 至今仍没有被有效应 用m 7 。 基于码本的输入法评测系统的设计和实现第二章汉字编码艳叁塑塑苤堡堕塑塑堕 表2 1 汉字字符集标准和规范 j j :一 标准和规范说明汉字个数冀 g b 2 3 1 2信息交换用汉字编码字符集基本集 6 7 6 3 g b k 汉字内码扩展规范g b k ( 国家规范) 2 1 0 0 3 g b l 3 0 0 0 1信息技术多八位编码字符( u c s ) 2 0 9 0 2 g b l 8 0 3 0 信息技术信息交换用汉字编码字符集基本集的扩充) 2 7 5 3 3 b i g 5 台湾工业标准 1 3 0 6 l i s 0 1 0 6 4 6 u n i c o d e 国际标准中的中、日、韩统一编码汉字 c j k2 0 9 0 2 字符集( 基本多文种平面编码) i s 0 1 0 6 4 6 u n i c o d e 中日韩汉字c j k 扩展a c j ke x t e n s i o na 6 5 8 2 ( 基本多文种平面编码) i s 0 1 0 6 4 6 u n i c o d e 中日韩汉字c j k 扩展b c j ke x t e n s i o nb 4 2 7 7 8 ( 第二辅助平面编码) b i g 5 是台湾地区的工业标准,编码汉字1 3 0 6 1 个,在w i n d o w s n t 5 0 之前,俗称的繁体平台普遍采用此编码标准。 i s 0 1 0 6 4 6 是国际标准,该标准旨在囊括世界上所有文种。c j k 特指 其中的中、日、韩统一编码的汉字部分。目前c j k 由三部分构成:c j k 2 0 9 0 2 汉字、c j ke x t e n s i o na6 5 8 2 汉字和c j ke x t e n s i o nb4 2 7 7 8 汉字。也 就是说,到目前为止i s 0 1 0 6 4 6 已编码汉字达七万字之多。其中,前两部 分在基本多文种平面( b m p ) 编码,第三部分是在第二辅助平面编码。 u n i c o d e 是工业标准,它的内容与i s 0 1 0 6 4 6 完全相同,也可以说是 i s 0 1 0 6 4 6 的俗称。g b l 3 0 0 0 是等同采用i s 0 1 0 6 4 6 的国家标准。尽管 g b 2 3 1 2 、b i g 5 和g b k 在较长时期内仍会继续存在,但i s 0 1 0 6 4 6 ( g b l 3 0 0 0 u n i c o d e ) 正日渐成为主流陆钉“。 2 1 2 汉字编码输入法的通用要求 2 0 0 0 年3 月国家质量技术监督局发布的国家标准:g b t1 8 0 3 1 2 0 0 0 第二章投字编码输入的相关标准和规范基于码本的输入法评测系统的设计和实现 信息技术数字键盘汉字输入通用要求规定了信息技术产品数字键盘 汉字输入的通用要求。2 0 0 3 年1 0 月公布的g b t1 9 2 4 6 信息技术通用 键盘汉字输入通用要求对通用键盘汉字输入进行了规范。在这两个标 准中,都对汉字输入的键位设定、所采用的编码字符集、应遵循的编码 规范、平均码长、重码字词键选率等作了具体规定“。 表2 - 2 汉字编码输入法相关的标准 鬻灏瓣龋;蜘1 a 巍然,# 嚣盎轰# 姆群 瓣蠢纛纛蒸鼗。滋菇燕禳黧藕瓣鬓囊渊溺纛壅黧爨锺 g b ,r1 8 0 3 l 信息技术数字键盘汉字输入通用要求 g b 厂r1 9 2 4 6 信息技术通用键盘汉字输入通用要求 这两个国家标准将编码层次和软件层次视为统一的键盘输入系统进 行性能考核。g b t1 8 0 3 1 对数字键盘编码在字符集万渊n 。甄小。:“应包 括g b 2 3 1 2 或g b l 3 0 0 0 1 或6 8 1 8 0 3 0 中定义的全部汉字字符。”g b t1 9 2 4 6 对通用键盘编码的要求是:“应包括g b l 8 0 3 0 中定义的全部汉字符号和现 代汉语标点符号”姗1 。 在键位设置方面,g b t1 8 0 3 1 规定“输入汉字的编码元素,设定在 0 97 的数字键范围内。”并对五种基本笔画和汉语拼音符号的键 位作了规定。多笔画部件及笔殛组合可以自由设定。g b t 1 9 2 4 6 规定a z 2 6 个字母键输入汉字和词语的特征编码信息,0 9 l o 个 数字键,除用来输入阿拉伯数字外,还可用来输入汉字和词语的特征编 码信息的辅助信息,包括汉语声调、重码字选择等。 g b t 1 8 0 3 1 和g b t1 9 2 4 6 提到的系统性能指标有三个:易学性、汉 字输入平均码长和重码字词键选率,并且规定国家标准给出的指标是当 前应达到的最低要求。 1 、易学性 “学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语 作为母语的使用者的思维习惯”。g b t1 8 0 3 1 对数字编码更进一步提出 要求:“做到上手能用”。 2 、汉字输入平均码长 汉字输入平均码长的定义:在输入给定的测试样本时,测得的输入 i n 基于码奉的输入法评测系统的设计和实现 第二章汉字编码输入的相关标准和规范 每个汉字的平均击键次数。 平均码长- 未_ 籀入样本的击键次数测试样本总霉数( 键字) 表2 3g b t1 9 2 4 6 的相关指标 j ,曩| i | i 辫誊蘩编码类,靼 , 平均码长( 键字) 汉语拼音、笔画为主的简易编码 3 2 形码( 部件码) 、音形码( 形音码) 、般拼 2 2 表2 4g b t1 8 0 3 1 的相关指标 i i l 蠢鬻巍编码类塑 ,:,? 平均码长( 键字)i 逐字字段输入 6 字词混合输入 4 3 、重码字词键选率 重码字词键选率的定义:在输入给定测试样本过程中,通过重码选 择键确认的汉字字数与测试样本总字数的百分比。 委码字词键选率。( 重码选择键确认的字数测试样本总字数) 1 0 0 表2 5g b t1 9 2 4 6 的相关指标 鞘黼潮黼匾霸薰? j 纂鬻豢鬻潮 重码字词键选率( ) 辫 汉语拼音、笔画为主的简易编码 6 形码( 部件码) 、音形码( 形音码) 、双拼 1 5 表2 6g b t1 8 0 3 1 的相关指标 鬻隳蒙i 芙萼鬻鬻。零 。”。”一一。鬻:避 重码字词键选率( ) 能一媾 逐字字段笔画、部件码输入 8 字、词混合笔画、部件码输入 1 0 逐字字段拼音输入( 1 0 键位) 1 3 逐字字段拼音输入( 8 键位) 1 4 字词混合拼音输入( 1 0 键位) 1 2 字词混台拼音输入( 8 键位) 1 4 第二章汉字编码输入的相关标准和规范基于码喹堕塑叁鎏妒型墨堕塑堡生塑壅翌 2 1 3 其他相关的标准与规范 在部件规范方面,规范g f3 0 0 1 对g b1 3 0 0 0 1 的2 0 9 0 2 个汉字进行 逐个拆分、归纳与统计后给出了5 6 0 个基础部件。规范g f 3 0 0 1 还规定: 基础部件也称末级部件,是最小的不可拆分的部件;基础部件可以组合 成成字部件使用,但不得组合成非字部件;字拆分为部件时,应遵循“相 离、相接可拆;交重不拆( 可拆成笔画) ”的原则。 在笔顺规范方面,规范g f3 0 0 2 明确了汉字的基本笔形是五种,按 照次序分别为一( 横) 、i ( 竖) 、j ( 撇) 、( 点) 、一( 折) ,分别用 符号1 、2 、3 、4 、5 表示。规范g f3 0 0 2 还给出了g b1 3 0 0 0 i 的2 0 9 0 2 字的规范笔顺“”。 表2 7 国家语委颁布的有关规范 标准与规范 l翮燃糯雕。瓣隰堡塑慰黧鬻丽鼹熙 g f 3 0 0 l 信息处理g b l 3 0 0 0 1 字符汉字部件规范, g f 3 0 0 2 ( g b l 3 0 0 0 1 字符集汉字笔顺规范 g f 3 0 0 3 ( g b l 3 0 0 0 1 字符集汉字字序( 笔画序) 规范 g f 3 0 0 6 汉语拼音方案的通用键盘表示规范 在标点符号方面,g b t1 5 8 3 4 定义了2 3 个标点符号,国家标准通 用键盘汉字输入通用要求对这2 3 个标点符号的键位进行了规定“。 另外,词库的规范化同样是很必要的。目前的词库普遍存在着质量 差、词库大小不一的问题。在研制词库的工作中有一个误区,似乎词库 越大越好,其实并非如此。词库太小固然不敷用户需要,太大就会增加词 的重码率,牺牲适应性。应该说,理想的词库应该是通用词库加专业词库 和个人词库。根据词频统计的结果和这些年的实践,通用词库以五万词左 右为宜。中文信息学会汉字编码专委会、标准化与信息分类编码研究所、 标准技术开发公司共同研制的g b t1 5 7 3 2 1 9 9 5 汉字键盘输入通用词语 集是个规模适当、动态覆盖率高的词库,以后应每隔一定时间依据实际 使用的情况和最新的词频统计加以修订“”。 基于妈本的输入法评测系统的设计和实现 第二章汉字编码输入的相关标准和规范 表2 8 其他相关标准和规范 奠譬滩写蒜繁il 鬻:囊萋鬻? :2 攀攀一。再”鬻鬻l i g 繁 ;溪 g b t1 5 8 3 4标点符号用法 g b t1 5 7 3 2 1 9 9 5 汉字键盘输入用通用词语集 上述标准与规范将纳入国家技术法规而强制执行。作为产品出售的 汉字输入法,无论是编码层次还是软件层次,均应遵循标准和规范。 2 2 对相关标准和规范的认识 通过对这些标准的研究,我们发现随着输入法技术的不断发展和应 用需求的变化,国家标准本身也有不断变化和扩充的过程。在编码层次, 国家标准要求形码编码输入法应遵循汉字部件规范和笔画规范,音码编 码输入法应遵循汉语拼音方案;在软件层次,国家标准提出了字符集设 置,键位的设置、输入系统的易学性、汉字输入的速度等方面的要求。 为在编码层次保证输入法满足国家标准的要求,在汉字的属性设置 方面有大量的工作要做。一旦对所有汉字的字形、字音等特性作了准确 的标定,结合编码易学性的要求,那么应该说任何输入法只要在主观上 愿意遵循国家标准,就能够满足国标中编码层次的要求。也可以说,对 输入法编码层次的要求只跟编码法相关,而跟输入系统的实现是无关的, 是一种静态方面的要求。 国标在系统层次对输入法的要求,则是跟输入系统的具体实现方案 密切相关,同种编码方案,用不同的输入系统来实现可能会呈现不同 的性能。因此,系统层面的性能要求可以说是一些动态方面的要求,它 不仅跟编码法有关,还跟输入系统有关,体现了对汉字输入法的综合要 求,而且,输入法是否满足国标系统层次的性能要求并不是显而易见的, 需要通过一些辅助的手段才能加以判别。 本系统对输入法的性能测试包括了静态和动态的两个方面。在静态 方面,我们主要通过规范性的码本属性设置从过程上保证编码法的规范 性,并且基于字词码本进行编码长度和重码情况的静态统计评测。 第二章汉字编码输入的相关标准和规范基于码本的输入法评测系统的设计和实现 对输入法的动态测试是本系统的主要功能,针对汉字输入法通用要 求的标准中“平均码长”和“重码键选率”这两个量化的指标,系统对 某个输入法在不同输入模式、不同字符集、不同测试文本等条件下进行 测定。 基于码本的输入法评测系统的设计和实现第三鼙系统总体设计 第三章系统总体设计 为了说明输入法性能评测系统的具体实现过程,在本章介绍系统的 总体设计思路。首先描述汉字输入系统的设计步骤,在此基础上提出输 入法评测系统的设计目标;然后围绕设计目标,介绍输入法评测系统的 组成和各部分的主要功能。 3 1 系统设计目标 汉字输入系统的设计过程本身就是一个不断修改和完善的过程,在 这个过程中,对汉字输入法性能的评测贯穿其中,评测的结果可以为汉 字编码方案、输入方式选择等各个关键步骤提供指导意见。实际上,输 入法评测系统的设计工作是根据汉字输入系统的设计步骤展开的。为此, 本节首先介绍汉字输入系统的设计步骤。 3 1 1 汉字输入系统的设计步骤 如第一章所述,汉字输入系统是根据汉字的编码方案而设计的用以 完成汉字输入的程序,因此,汉字输入系统设计过程可分为两个阶段: 编码方案设计阶段和编码方案实现阶段。编码方案设计阶段的主要工作 是设计制定单字和词组的编码规则。编码方案实现阶段的主要工作是设 计和开发输入法程序,包括设计、选择输入方案和编程实现。虽然第二 个阶段以第一个阶段为基础,但第二个阶段也会影响第一个阶段,甚至 导致重新开始第一个阶段。图3 1 给出了一般汉字输入系统的设计流程 图。 第三章系统总体设计 基于码本的输入法评测系统的设计和实现 y 图3 1 汉字输入系统的设计步骤 1 6 基于码奉的输入浊评测系统的设计和实毋l l 第三章系统总体设计 第一个阶段从选定汉字字符集开始到确定单字和词组码本为止。在 选定汉字字符集后,对每个单字进行汉字属性标定,在此基础上通过自 动抽取、映射等方法形成单字编码规则和单字码本。在得到单字码本后, 需要对单字编码进行评测,评测的内容主要是码长、码元分配和编码分 布情况,如果评测结果不理想,就需要重新形成单字编码规则和单字码 本。这一评测过程可能需要反复多次,直到评测结果比较理想为止,至 此初步确定单字编码方案。对词组来说,同样先要确定基本词组集,并 为每一个词条标定需要的词条属性,然后,选择词组编码规则并形成词 组码本。由于词组编码一般依据单字编码规则确定,所以词组码本一般 可由程序自动生成。同样,在得到词组码本后,需要对词组编码规则进 行评测,如果评测结果不理想,就需要重新选择词组编码规则,甚至重 新确定单字编码规则。 第二阶段从设计输入方案开始到完成输入法程序开发为止。输入法 程序的主要功能是实现由输入码到字词的转换,也即实现由外码到内码 的转换。对应一个编码方案,可以有多个输入方案,也就是说,一个编 码方案可以有多种输入方式。例如,逐码出字提示,还是必须有结束符; 再如,为单字、词组分别安排结束符,还是采用统一的结束符。在编写 输入法程序之前,一般应该选择输入方案。在编写完成输入法程序后, 需要对实现的输入系统进行综合测试。 通过反复测试,找出符合要求的输入模式或输入模式的组合。当然输入 系统的一个设计周期结束之后也有可能被推翻重来。 从图3 1 所示的设计流程可见,有些步骤需要人工参与,比如属性 标注等;但是,其中有很多工作是可以通过程序自动完成的,比如:输 入码的生成,输入法的静态和动态评测等。 3 1 2 系统设计目标 汉字输入法评测系统的总体目标,是为设计开发符合国家规范的各 种汉字输入系统提供全方位的服务。根据上述汉字输入系统的设计步骤, 提出输入法评测系统的如下设计目标: 1 7 第三章系统总体设计 基于码车的输入法评测系统的设计和实现 1 、输入法评测系统具有通用评测平台的功能 输入法评测系统能够对上述汉字输入系统设计开发的各个评测环节 提供评测服务。( 1 ) 作为通用的评测平台,它应该能够对各种以字词输 入为主的键盘编码输入法进行评测。( 2 ) 作为通用的评测平台,不仅能 够对单字编码方案进行评测,而且也能够对词组编码方案进行评测,还 能够对输入方式进行评测。( 3 ) 作为通用的评测平台,不仅可供编码发 明者和输入法开发人员对编码方案和输入方案进行自我评测,而且也可 供有关评委对汉字输入系统进行评测。( 4 ) 作为通用的评测平台,它不 仅要能够针对输入法的多个性能指标进行评测,而且也要能够对输入法 编码的规范性进行评测。 2 、输入法评测系统具有辅助汉字编码设计的功能 编码发明者和输入法开发人员利用系统进行各个阶段的自我评测, 并根据评测结果进行方案改进,这体现了辅助设计的功能。此外,系统 还应该对字词码本和属性进行有效管理,并在此基础上提供一系列其他 的辅助设计功能,为设计实现规范的汉字编码输入法提供必要的技术保 障。例如,根据词组编码规则,自动生成词码本;再如,对属性编码进 行替换等。利用这些辅助设计功能,设计人员不仅能够提高工作效率, 而且也可以有效地实现对输入法设计的过程控制,防止不必要的差错, 从而保证输入法的最终质量。实际上,目前评测的主要依据是字词码本, 为了提供上述通用评测功能,系统必须管理字词码本,必须管理字词的 多种属性。所以,上述两个目标是相辅相成的。 3 、输入法评测系统的各个组成部分具有良好的独立性 输入法评测系统有多个方面的功能,实现这些功能的各个组成部分 应该具有良好的独立性。只有这样,评测系统才更具有灵活性,才能更 好地发挥作用。也只有这样,才能有效地降低评测系统自身的复杂度, 保证评测系统自身稳定可靠。 4 、输入法评测系统具有良好的开放性 输入法评测系统应该具有良好的开放性,只有这样,评测系统才能 够保持通用性,才能够延长生命周期。实际上,对输入法的通用要求和 基于码本的输入法评测系统的设计和实现 第三章系统总体设计 汉字多方面的规范仍在不断改进完善之中。具体的开放性可体现为:允 许增加新制定的汉字某个属性方面的规范;允许补充、更换测试文本; 允许调整指标体系:等等。 5 、输入法评测系统具有良好的兼容性 输入法评测系统应该具有良好的兼容性。例如,不仅要能够支持 g b 2 3 1 2 字符集,也要能够支持i s 0 1 0 6 4 6 字符集。 6 、输入法评测系统具有一定的自动评测能力 输入法评测系统应该具有一定的自动评测能力,能够在定程度上 自动对指定的汉字输入系统进行评测。这种自动评测能力,可增加系统 的可用性,降低对用户的技能要求和减轻用户的工作强度,而且还能够 扩大评测输入法的范围。 3 2 系统的组成 3 2 1 系统的组成 根据系统的上述设计目标,结合汉字编码输入系统的设计步骤,我 们将整个评测系统分成三个相对独立的子系统。 1 、码本属性管理及输入法静态评测子系统 该子系统面向汉字输入系统编码设计人员,它提供编码方案设计阶 段的字词码本生成、属性管理、静态测试等功能。它包含四个模块,分 别是字码本属性管理模块、词码本属性管理模块、基于字码本的静态测 试模块和基于词码本的静态测试模块。设计开发人员能够利用该予系统 管理字词属性和码本,能够对字词码本进行静态测试,从而获得符合国 家规范的字词码本,为设计实现输入法程序作好准备。此外,有关人员 也可利用该子系统对汉字的单字和词组的属性进行统计分析,进而探讨 相关标准和规范。 首先,根据国家制定的相应标准和规范,由字码本属性管理模块对 选定的汉字字符集中所有汉字进行属性标注、校对、管理。由于按照标 准和规范设置属性,从过程上保障编码法的规范性。 1 9 第三章系统总体设计 綦于码本的输入法评测系统的设计和实现 接着,字码本属性管理模块根据编码设计者的一些先验知识以及前 期输入法性能评测子系统的一些回馈意见,对各属性进行分析、提取、 组合、将编码与汉字属性一一对应,形成单字码本。由于汉字的编码由 上一步骤中标注的属性自动提取,从而在编码层次保证输入系统符合规 范的特性。 然后,由词码本属性管理模块根据字条编码信息以及词组编码规则 对选定的词组集合进行词组的编码、其他辅助属性的生成等,形成词组 码本。最后,根据初步形成的字词码本数据,由字词静态评测模块对编 码法作静态评测,通过对评测结果的分析比较,可以使字词编码规则得 到优化。在第四章详细介绍该子系统的设计和实现。 2 、输入法性能动态评测子系统 该子系统面向汉字输入系统设计人员和专门的评测人员,提供对汉 字输入系统的动态评测功能。该子系统含有两个模块:评测文本管理模 块和输入法性能评测模块。它根据输入法设计者提供的码本或是码本自 动获取子系统获取的输入法码本,在选定汉字输入法确定的输入模式下 对随机测试文本在编码字符集、编码规范、平均码长、重码字词键选率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天体运动考试试题及答案
- 冀教版数学五年级上册第一单元第二课时 认识简单线路图 同步练习(含解析)
- 2025年公需科目考试试题及答案
- 保护心脏常识试题及答案
- 营运车运营管理办法
- 中彩项目资金管理办法
- 草莓假植地管理办法
- 装修功能需求管理办法
- 2025年环氧丙烷项目合作计划书
- 电玩城损耗管理办法
- 福建省2025-2026学年福州市高三年级第一次质量检测物理
- 2025至2030中国竹纤维行业市场行业市场深度研究及发展前景投资可行性分析报告
- 豆芽成长记录课件
- 公路施工应急预案
- 2025汽车金融考试题及答案
- 2025年工业机器人操作员技能考核题库及参考答案解析
- 2024-2025学年北京市海淀区七年级下英语期末考试题(含答案和音频)
- 2025年本科院校基建处招聘笔试预测试题及答案
- 商业租赁纠纷常见法律问题实务分析
- 2025-2026学年青岛版(2017)小学科学五年级上册教学计划及进度表
- 市场监管局计量监管课件
评论
0/150
提交评论