已阅读5页,还剩56页未读, 继续免费阅读
(应用数学专业论文)汉字语法语义智能输入法总体设计与部分实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河南大学硕士研究生学位论文第l 页 摘要 中文信息处理是利用计算机对汉语信息进行自动处理,其中解决汉字输 入是该领域内一项基础而又重要的工作。虽然已经有不依靠键盘输入汉字的 产品问世,但汉字键盘输入法还是最普及的方式,也是中文信息处理领域中 一个很重要的课题。为了提高输入法的智能性,设计实现了汉字语法语义智 能输入法。本文在对现有输入法分析的基础上,给出了一个汉字输入法的总 体设计,讨论了在w i n d o w s 平台上设计实现输入法涉及到的具体技术,同时 研究了非完整句子切分问题,最后给出输入法的部分实现。主要工作有: l 、设计汉字语法语义智能输入法的总体框架。本文设计的输入法通过 引入智能处理技术,提高输入法的智能特性。在整个框架中,将输入法系统 按照功能分成模块。其中输入法智能性的输入转换模块相对独立,可以加载 到其他现有输入法中,使这些输入法也具有智能的特性。 2 、对w i n d o w s 平台上输入法实现技术进行了深入的研究。首先从输入法 挂接技术入手,讨论了w i n d o w s 平台上不同的挂接方法。输入法管理一输入法 编辑器( i m m i m e ) 结构是中文w i n d o w s 操作系统多语言支持的核心组件之一, 为输入法的开发提供了强有力的支持。讨论了i m m i m e 的基本工作原理、特 点,详细分析了基于i m m i m e 结构的输入法的构成、接口、设计思想以及一 些重要核心技术。 3 、研究并实现非完整句子的切分标注。针对汉字语法语义输入法的需 要,提出对非完整句子的切分标注的问题。在分析了句子非完整性对切分的 影响后,对现有的分词系统做局部修改,使之能够处理非完整句子。该予系 统在输入法中以d l l 的方式调用,切分的结果用于减少候选字词和预测后续 输入的字词。 4 、输入法系统部分模块的实现。对系统实现时需要的关键技术进行研 究,实现了系统的整体框架、系统初始化、按键事件处理、安装程序等模块。 关键词:人工智能;中文信息处理;输入法;非完整句予 第| i 页河南大学硕士研究生学位论文 a b s tr a c t c h i n e s ei n f o r m a t i o np r o c e s s i n gi st oc a r r yo nt h ea u t o m a t i cp r o c e s s i n go f t h ec h i n e s el a n g u a g ei n f b r m a t i o nb yc o m p u t e r i nt h i sn e l d ,h o wt os e t t l et h e c h i n e s e i n p u tp r o b l e m i sa p “m d r y , b u tc r i t i c a lt a s k a l t h o u 曲 s o m e n o n - k e y b o a r dc h i n e s ei n p u tp r o d u c t sh a v eb e e nb r o u g h to u t ,k e y b o a r d - i n p u t t e c h n i q u es t i i l i st h em o s tp o p u l a rm e a n sa sw e l la sav e r yi m p o r t a n tt a s ki n c h i n e s ei n f b r m a t i o np r o c e s s i n gn e l d t bh e i g h t e nt h ei n t e l l i g e n c eo ft h ei n p u t m e t h o d ,t h ec h i n e s ei n t e l l i g e n ti n p u tm e t h o db a s e do ng r a m m a ra n ds e m a n t i c s i sd e s i g n e d t h i sd i s s e r t a t i o n a n a l y z e st h ee x i s t e di n p u tm e t h o d s ,a n dt h e n p r o p o s e sag e n e r a ld e s i g no f ac h i n e s ei n p u tm e t h o da n dd i s c u s s e st h ed e t a i l e d t e c h n i q u e so fh o wt or e a l i z ei t o nw i n d o w sp l a t f o r m m e a n w h i l e ,t h i sp a p e r r e s e a r c h e so nt h es e g m e n t a t i o no ni n c o m p l e t es e n t e n c e ,f i n a l l yp r e s e n t st h e r e a l i z a t i o no ft h ei n p u tm e t h o d t h em a i n w o r ki n v o l v e s : 1 ,d e s i g n i n gt h eg e n e r a lf r a m eo ft h ec h i n e s ei n t e l l i g e n ti n p u tm e t h o d b a s e do ng r a m m a ra n ds e m a n t i c sw h i c hc a nh e i 曲t e ni t s i n t e l l i g e n c eb y i n t e l l i g e n c ep r o c e s s i n gt e c h n i q u e s t h ew h o l ef r a m e w o r ko ft h ei n p u tm e t h o d s y s t e mc a nb ed i v i d e di n t or e s p e c t i v em o d u l e sa c c o r d i n gt od i f f 色r e n tf h n c t i o n s d u et ot h er e l a t i v ei n d e p e n d e n c yo ft h ei n p u tt r a i l s f b r mm o d u l e ,i tc a nb el o a d e d o n t ot h eo t h e re x i s t e di n p u tm e t h o d s , t h e r e b yt h e yc a na l s ob ei n t e l l e c t u a l i z e d 2 ,c a r r y i n go nat h o r o u g hr e s e a r c ho nt h ep “n c i p l e so fd e s i g n i n gi n p u t m e t h o d so nw i n d o w sp l a t f o r m s t a r tw i t hh o wt oi n s t a l l i n p u t m e t h o di n w i n d o w s ,a n dt a l ko v e rt h ed i f f 色r e n tk i n d so fm e t h o d s t h ei n p u tm e t h o d m a n a g e m e n t i n p u tm e t h o de d i t o r ( i m m i m e ) s t r u c t u r e i so n eo ft h ec o r e m o d u l e so ft h em u l t i l a n g u a g es u p p o r t e dw i n o sw h i c hp r o v i d i n gt h ep o w e r f i u l s u p p o r tf o rt h ed e v e l o p m e n to ft h ei n p u tm e t h o d d i s c u s s i n gt h ee s s e n t i a lt h e o r y o fi m m i m e 、t h et r a i t s , a n a l y z i n gt h ei n p u t m e t h o dc o n n g u r a t i o n 、t h e i n t e r f a c e 、t h e d e s i g n i d e aa sw e l la ss o m ei m p o r t a n tc o r et e c h n i q u e so n i m m i m es t r u c t u r ei nd e t a i l 3 ,s t u d y i n gt h es e g m e n t a t i o na n dt a go fi n c o m p l e t es e n t e n c e t os a t i s f yt h e 河南大学硕士研究生学位论文第l ii 页 d e m a n d so ft h e i n t e l l i g e n c ei n p u tm e t h o d , p r o p o s e t h e p r o b l e m o ft h e s e g m e n t a t i o na n dt a go fi n c o m p l e t es e n t e n c e a f t e ra n a l y z i n gt h ei n f l u e n c eo n s e g m e n tb r o u g h tb yh a l f - i n t e g “t yo fs e n t e n c e s ,i tm a k e sp a r t i a lm o d i n c a t i o no n t h ee x i s t i n gs y s t e mt om a k ei ta v a i l a b l et oh a n d l et h ei n c o m p l e t es e n t e n c e t h e s u b - s y s t e mi sc a l l e di nf o r mo fd l l , t h er e s u l to ft h es e g m e n t a t i o ni su s e df o r r e d u c j n gt h en u m b e r so fc a n d j d a t ew o r d sa n df b r e c a s tc a n d i d a t ew o r d s 4 ,t h er e a l i z i n go fs o m em o d u l e so ft h ei n p u tm e t h o ds y s t e m i n v e s t i g a t e t h en e e d e dc r i t i c a lt e c h n i q u e so ft h es y s t e m r e a i i z et h eg e n e r a lf r a m e w o r ka n d i n i t i a l i z a t i o no ft h es y s t e m ,a n da c c o m p l i s ht h ef u n c t i o no fi m e p r o c e s s k e ya n d t h ei n s t a l lm o d u l ea n ds oo n k e y w o r d : a r t i f i c i a l i n t e l l i g e n c e ; c h i n e s ei n f o r m a t i o n p r o c e s s i n g ; i n p u t m e t h o d ;i n c o m p l e t es e n t e n c e 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位芷舻博士学位口中请。本人郑重 声明:所呈交的学位论文是本人独立完成的,对所研究的课题有 新奇白见解囹创造性的见解口。据我所知,除文中加以说明、标注 和致谢的地方外,论文中不包括其他人已经发表或撰写过的研究 成果,也不包括其他掂袖袋漪崔耕教聱蝴机构的学位或证书 而使用过的材料群淄栽一嗣喜作触网事对本辚宠所做的任何贡献 均已在论文中榨了明确的说明并表示了 l | 意。 i o :、o ;。、蠢簿 ,j 学铵毫赫茨 誊。二、瑟 、。,壤 - 嚣嚣j 。 i | i = i o - 矗 钳。冀:鬻j 誊j 籍黪罐臻燃囊鬻酶:,爹 日 :氍j ,簟o 、,”, :一 尊 本人缝河南太擎审槭桃嘏授繁颂誊攀往涵博士攀住口。作为 学位的作者,1 本人完全了觯并筒毒河南大学有关保留、使用学位 论文的要求,即河南大学有靛向? 爵家匪书馆、科研信息机构、数 据收集机构和本校、吼书馆等挺拱攀位论丈瘴滢蓖质文本和电子文 本) 皑供公众检索、奎褥水寐瓠捩板河询大学出于宣扬、展览学 校学术发展和进行学术交流等目妁,可以采取影印、缩印、扫描 和拷贝等复制手段保存、汇编学位论文( 甄质文本和电子文本) 。 ( 涉及保密内容的学位论文在解密后适用本授权书) 学位获得者( 学位论文作者之签名:窍兰学 z 卯石年f 月,牛日 硅童:请在相应的口,内划t , 河南大学硕士研究生学位论文第1 页 1 1 研究背景 第1 章绪论 中文信息处理就是利用计算机对汉语信息( 包括书面和口头的) 进行自 动处理,在我国信息技术和计算机产业中处于关键的位置。对汉语的各种处 理都需要首先解决输入的问题,只有把输入问题解决了,才能进行其他的研 究工作;同时输入问题解决的情况,也直接影响着中文信息处理的发展。 1 9 7 4 年周恩来总理亲自批准了“七四八”工程,它标志着计算机中文 信息处理技术受到了国家高度重视并且进入了它的第一个发展阶段一一汉 字信息处理时代【8 j 。在新技术面前,完全使用由象形文字演化而来的方块汉 字,因为其不属于拼音文字,上万个汉字无法和键盘上按键直接对应。如果 不能解决好汉字的输入,必定受到信息化变革的冲击,从此便有大批学者开 始了与输入法相关的研究。 汉字键盘输入技术的研究一直是中文信息处理的研究热点之一,也是智 能化人机接口的一个重要组成部分。从最早的电报码、区位码等以字为单位 的输入发展到现在的可以按语句输入【6 ,”,发生了很大的变化。尽管目前国 内外已经提出近千种汉字输入方法,但都还没有做到既能快速输入汉字又能 很容易地掌握。同时,无论哪种输入方法都是工作在具体的操作系统环境下, 因此必须把汉字输入系统挂接到具体的操作系统中,这样才能实现汉字输入 系统与操作系统以及应用程序之间的通信。 各种输入方法虽然技术迥异,但它们工作的实质都是:通过不同的方式 获取用户的输入信息,将其通过转换接口( 对于键盘输入是编码规则) 转换为 对应的汉字( 计算机内部可以表示的内码) ,如果出现多个转换结果,则列出 供用户选择,得到用户选定的结果汉字字符串。各种输入方法都必须工作在 具体的操作系统平台下。这就要求不但要解决输入输出转换的问题,还要解 决输入法与系统之间的接口问题。目前微软的w i n d o w s 系列操作系统已成为 p c 中最常用的操作系统,但由于这些操作系统本身提供的输入法种类有限, 所以在w i n d o w s 中添加新的输入法是一个必须要解决的问题川。w i n d o w s 平 第2 页河南大学硕士研究生学位论文 台的输入法由输入法管理器( i n p u tm e t h o dm a n a g e r ,简称i m m ) 统一来管理, 而i m m 允许开发人员设计新的输入法模块并添加到系统中去。为此,微软公 司为开发人员提供了一整套用于开发输入法的工具包,它包含在开发 w i n d o w s 驱动程序的工具包d d k ( d e v i c ed r i v e rd e v e l o p m e n tk i t ,简称d d k ) 中。这就为添加新的输入法到w i n d o w s 系统中提供了途径针。 1 2 国内外研究现状 十九世纪中叶,在中国首次出现了汉字的编码输入,它是为电报的收发 而编写的一套四码电报码本i l ,一直延用到现在。四位编码对应一个汉字, 只能按单字方式输入。 从二十世纪八十年代至今,针对计算机的中文信息输入相继问世了数以 干计的汉字编码方案,其中4 0 0 多种编码申请了专利,形成了万“码”奔腾 的格局i l 。这一阶段产生的汉字编码方案可分音码、形码、形音码等三大类。 尽管存在着成百上千的汉字输入方案,但真正被广大用户所接受,得到普及 推广的只有少数几种,如:五笔字型、全拼、微软拼音等。通常学习难度大 的汉字输入法候选字词较少,输入速度较快;而学习容易的汉字输入法候选 字词较多,输入速度较慢,并且存在一个严重缺点:需要用户人工分词,即 每次只能输入一个字词,且当输入一个字词后就需要用户干预选择正确的候 选字。这样的操作方法容易打断人的连续思维,加重操作员的脑力劳动】。 在现有的输入法中,以字为单位输入的有区位码输入法、内码输入法。 它们在输入的过程中每个编码对应唯一的汉字,没有重码,但是汉字的编码 记忆比较困难。按词语为单位输入的有王永民教授发明的五笔字型输入法, 该输入法根据汉字的形来编码,大大降低了重码率,在很大程度上提高了输 入的速度。与以字输入具有同样的缺点,编码不容易记忆,需要经过专门的 训练才能使用,并且隔一段时间不使用就会忘记。 实践证明,单纯从编码上下功夫,要得到一个易学、易用兼备的“理想 的输入方法”是非常困难的【l2 1 。因此,随着计算机技术的发展,实用的、算 法各异的汉字输入智能软件相继问世。汉字智能输入法主要利用人工智能技 术和语言学知识结合进行编码后处理,自动调整用户编码的重码字、词,利 用一些知识搭配模型缩短平均码长,这样重码率将不再是一些自然编码( 例 河南大学硕士研究生学位论文第3 页 如拼音) 的瓶颈,可以使用户不必使用重码虽低却难以学习的编码,而采取 学习轻松的自然编码,促使编码简单化和规范化。因此,汉字智能输入法已 经成为输入法技术发展的趋势。 当前实现智能输入法有很多技术,文献 1 2 对当前主要汉字键盘输入 软件很好地介绍了几种成功的应用技术:基于理解的智能输入软件、基于 语用统计的智能输入软件、基于模板匹配的智能输入软件以及基于上下文 关联的智能输入软件】。 ( 1 )基于理解技术的智能输入软件 该技术主要利用汉语语法知识来消化同音字、词,以及化解歧义分词。 通常表述为计算机能够识别和处理的一系列固定搭配、公式和自定义规则。 在学科分类中属于人工智能分支自然语言理解。这类软件是最早出现的也 是最理想化的智能输入软件。这类输入软件可以根据自动分词得到同音字、 词的候选集,查找知识库得到相关的规则,再经过归约推理,得出转换结 果。利用句内编辑实时修正转换错误和批量学习可以使得系统知识不断完 善和充实。也就是自学习功能。 该技术优点是,由于这是一种自行构造的“语法体系”。大体上能够 包括最基本和较少歧义的汉语语法知识,因此系统的正确率比较稳定。缺 点是,其语言的覆盖面较小,当输入语句的语法不规范时,不能做有效处 理。该方法在建立知识库时,知识表达和知识获取均非常困难【38 1 。 ( 2 )基于语用统计的智能输入软件 该类软件主要利用语用统计的数据来消化同音字、词,以及化解歧义 分词。在学科分类中属于运筹学范畴。基于语用统计的方法适用于大规模 真实文本的应用,是目前的主流方法。这种方法主要通过汉字中字与字或 词与词之间的同时出现概率来完成汉语语用统计库的构造。 该类软件的优点是,对于已经进行过语用统计或者具有相同类型的领 域,系统的转换正确率比较高,或者说语用统计具有偏向性。对于每一个 用户而言,在使用过程中,语用统计库将会从最初的通用型逐渐改变为符 合这个用户语用习惯的专用型。缺点是,作为一个整体的二元同现概率矩 阵,不能做到模块化、积木化。偏重于整句处理,当出现转换错误时,需 要使用者回头去纠正,干扰了正常的思维。 第4 页河南大学硕士研究生学位论文 ( 3 )基于模板匹配的智能输入软件 该类软件寓汉语语法知识于巨量的短语串中,进而利用这些短语串来 消化同音字、词,以及化解歧义分词。这种短语串通常称之为“模板词”。 这种系统通过模板词搜索引擎来完成汉语语法体系的组织。只有搜索巨量 的语料,获取巨量的短语串,才有可能大体上包容汉语语法知识,根据分 词后的输入语句查找模板词库和句法规则库,然后进行匹配处理。如果匹 配结果唯一,则不必再用概率推理:若存在两个以上的候选结果时,则根 据句法规则或概率推断进一步判定,选出一个最有希望的可能结果作为输 出。 该类软件的优点是,对于已经搜索过模板词的或者具有相同类型的领 域,系统的转换正确率比较高,但是最大的缺点是由于模板词数量巨大, 对电脑硬件要求高,容易影响应用程序的速度。 ( 4 )基于上下文关联的智能输入软件 基于语用统计的软件是一种上下文字、词关联的实现方法。也有一些 系统实现了一种基于模糊控制理论,利用上下文关联的语用环境来智能选 择重码字、词。在学科分类中属于自动控制分支非线性控制范畴。 音字转换过程根据字、词属性知识,语法知识和动态语用统计知识计 算上下文关联重码字、词的特征函数值,根据特征函数值确定最有可能的 一个字、词。如果存在音字转换错误,则系统提供给用户错误修正机制, 根据修正后的结果,系统机器学习机制自动更新知识库。这里将自然语言 看成是一个模糊的集合,将汉字输入系统作为一个基于非线性控制范畴的 模糊控制系统来对待,预学习工具相当于一个传感器,算法程序、汉语知 识库和动态语用统计库作为非线性调节器,使得系统的键选率和平均码长 逐渐趋于最优。例如,青月亮汉字通上文关联4 个词,下文关联1 个词, 合计上下文关联5 个词,这一调节机制涉及到许多相互矛盾和相互牵制的 受控参数,模糊集合的特征函数从 0 ,1 区间连续取值,可以较为准确地表 现各种语言现象差异,获得比较好的效果。 该类软件不但降低了键选率,还大大缓解了输入过程中“回头看”问题, 但是未能完全根治输入过程中“回头看”的问题,当选字词有错时,仍然需 要近距离的即时修改。而且,对于“上下文关联”机制的人机界面,用户需 第6 页河南大学硕士研究生学位论文 音等:香港的汉语拼音、粤语拼音等。 这种输入方法不适于专业的打字员,但非常适合普通的电脑操作者,尤 其是随着中文信息处理技术的发展,输入法软件得到改善。 ( 3 ) 字形编码 字形编码是按汉字的字形( 笔画、部首) 来进行编码的。汉字是由许多 相对独立的基本部分组成的,例如,“好”字是由“女”和“子”组成,“助” 字是由“且”和“力”组成,这里的“女”、“子”、“且”、“力”在汉字编码 中称为字根或字元。形码是一种将字根或笔划规定为基本的输入编码,再由 这些编码组合成汉字的输入方法。 最常用的字形编码有五笔字型、表形码、码根码等;台湾的仓颉、大易 等;香港的纵横、快码等。形码的优点是重码少,不受方言干扰,经过一段 时间的训练,输入中文字的效率会有大大的提高,因而这类输入法也是目前 比较受欢迎的一类。现在社会上,大多数打字员都是用形码进行汉字输入, 而且对普通话发音不准的南方用户很有好处,因为形码中是不涉及拼音的。 但形码的缺点就是需要记忆的东西较多,长时间不用会忘掉。 ( 4 ) 音形编码 音形码吸取了音码和形码的优点,将二者混合使用。自然码是目前比较 常用的一种音形编码。这种输入法以音码为主,以形码作为可选辅助编码。 这种输入法的特点是速度相对于拼音输入要快些,但又不需要专门培训。适 合于对打字速度有些要求的非专业打字人员使用,如汜者、作家等。相对于 音码和形码,音形码使用的人还比较少。 ( 5 ) 混合编码 为了提高输入效率,某些汉字系统结合了一些智能化的功能,同时采用 音、形、义多途径输入。还有很多智能输入法把拼音输入法和某种形码输入 法结合起来,使一种输入法中包含多种输入方法。 以万能五笔为例,它包含五笔、拼音、中译英、英译中等多种输入法。 全部输入法只在一个输入法窗口里,不需要用户刻意去切换。如果会拼音, 就打拼音;会英语就打英语;不会拼音不会英语,可以打笔画;还可以拼音 和笔画同时使用,为用户提供多种输入方式。这种输入法虽然输入方式很灵 活,但是在提高速度上并没有实质性的改进。 河南大学硕士研究生学位论文第5 页 要一个熟悉的过程。 1 3 输入法分类 1 3 1 键盘输入 键盘输入法,就是利用键盘,根据一定的编码规则来输入汉字的一种方 法。英文字母只有2 6 个,它们对应着键盘上的2 6 个字母,所以,对于英文 而言是不存在什么输入法的。汉字的字数有几万个,它们和键盘是没有任何 对应关系的,但为了向计算机中输入汉字,必须将汉字拆成更小的部件,并 使这些部件与键盘上的键产生某种联系,才能通过键盘按照某种规律输入汉 字。 汉字是由字的音、形、义来共同表达的。汉字输入的编码方法,基本上 都是采用将音、形、义与特定的键相联系,再根据不同汉字进行组合来完成 汉字的输入的。目前的键盘输入法种类繁多,而且新的输入法不断涌现,各 种输入法各有各的特点,各有各的优势。随着各种输入法版本的更新,其功 能越来越强。目前,中文输入法有以下几类【i3 1 : ( 1 ) 数字编码 这种输入方法以各种编码表作为输入依据,因为每个汉字只有一个编 码,所以重码率几乎为零效率高,可以高速盲打,但缺点是需要的记忆量 极大,而且没有什么太多的规律可言。 常见的数字编码有区位码、电报码、内码等,一个编码对应一个汉字。 这种方法适用于某些专业人员,比如,电报员、通讯员等。但在电脑中输入 汉字时,这类输入法已经基本淘汰,只是作为一种辅助输入法,主要用于输 入某些特殊符号。 ( 2 ) 字音编码 按照拼音规定来进行输入汉字的,不需要特殊记忆,符合人的思维习惯, 只要会拼音就可以输入汉字。拼音输入法缺点:一是同音字太多,重码率高, 输入效率低;二是对用户的发音要求较高;三是难于处理不识的生字。 例如,全拼双音、双拼双音、新全拼、新双拼、智能a b c 、洪恩拼音、 考拉、拼音王、拼音之星、微软拼音等;台湾的注音、忘型、汉音、罗马拼 河南大学硕士研究生学位论文第7 页 除此之外,一般输入法都有一些辅助输入功能,比如,联想功能、模糊 音设置、自动造词、高频先见、自动忘却、多重南方音、叠字叠词、智能标 点等。随着网络的发展,出现了既可以输入简体字又可以输入繁体字的输入 法。新的输入法还提供扩充g b k 汉字库和g b k 难字查询功能,便于难检字 的输入。此外,还有以字义为基础的输入法,如英汉输入法。此类型输入法 主要针对使用外语的人士,只要输入相应字义的单词,即可输入该字,但速 度比较慢,而且对使用者的英文程度有一定的要求。 1 3 2 非键盘输入 键盘输入法,都需要使用者经过一段时间的练习才可能达到基本要求的 速度,至少用户的指法必须很熟练才行,对于并不是专业电脑使用者来说, 多少会有些困难。所以,就产生了不通过键盘而通过其它途径的输入方式, 省却了这个练习过程。这些不用键盘的输入法统称为非键盘输入法,它们的 特点就是使用简单,但都需要特殊设备,这里只做简单介绍。 非键盘输入方式主要是手写识别、语音识别、图像识别等方式。但由于 组合不同、品牌不同形成各种各样的产品,分为下面几类:手写笔、语音识 别、手写加语音识别、手写语音识别加0 c r 扫描阅读器【l ”。 ( 1 ) 手写输入法 手写输入法是一种笔式环境下的手写中文识别输入法,符合中国人用笔 写字的习惯,只要在手写板上按平常的习惯写字,电脑就能将其识别显示出 来。手写输入法需要配套的硬件手写板,在配套的手写板上用笔( 可以是任 何类型的硬笔) 来书写录入汉字。手写笔种类很多,有汉王笔、紫光笔等。 ( 2 ) 语音输入法 语音输入法是将声音通过话筒进入计算机进而转换成文字的一种输入 方法。语音识别以i b m 推出的v i av o i c e 为代表,国内推出的有d u t t y + + 语音识别系统、天信语音识别系统、世音通语音识别系统等。以i b m 语音输 入法为例,虽然使用起来很方便,但错字率仍然比较高,特别是一些未经训 练的专业名词以及生僻字。语音输入法在硬件方面要求电脑必须配备能进行 正常录音,对着麦克风用普通话语音进行文字录入。如果普通话发音不标准, 需要先使用提供的语音训练程序,进行一段时间的训练,让它熟悉你的口音, 第8 页河南大学硕士研究生学位论文 也同样可以通过讲话来实现文字输入。 ( 3 ) o c r 输入法 0 c r 叫做光学字符识别技术,它要求首先把要输入的文稿通过扫描仪转 化为图形才能识别,所以,扫描仪是必须的,而且原稿的印刷质量越高,识 别的准确率就越高,一般最好是印刷体的文字,比如图书、杂志等,如果原 稿的纸张较薄,那么有可能在扫描时纸张背面的图形、文字也透射过来,干 扰最后的识别效果。o c r 软件种类比较多,常用的有清华o c r ,在系统对图 形进行识别后,系统会把不能肯定的字符标记出来,让用户自行修改。0 c r 解决的是手写或印刷的重新输入的问题,它必须得配备台扫描仪,而一般 市面上的扫描仪基本都附带了o c r 软件。 ( 4 ) 混合输入法 手写加语音识别的输入法有汉王听写、蒙恬听写王系统等。语音手写识 别加0 c r 的输入法有汉王“读写听”、清华“录入之星”中的b 型( 汉瑞得 有线笔+ v i av o i c e 十清华t h o c r5 9 8 ) 和c 型( 汉瑞得无线笔+ v i av o i c e + 清华t h o c r5 9 8 ) 等。 1 4 本文研究内容和组织结构 目前国内出现的汉字键盘输入法中,某些已经引入了智能处理的技术, 但是这些输入法在智能处理方面还不够理想。 本文给出汉字语法语义智能拼音输入法的总体结构框架的设计,对系统 中相关部分做了理论上的研究并予以实现。汉字语法语义智能拼音输入法利 用了中文信息处理近年的研究成果,基于统计和规则相结合,通过汉语语法 和语义特性来提高输入法的智能性。本文的研究工作主要有以下四部分组 成: 1 、汉字语法语义智能输入法设计( 第二章) 2 、w i n d o w s 平台上输入法实现技术( 第三章) 3 、非完整句子的切分( 第四章) 4 、汉字语法语义智能输入法的部分模块实现( 第五章) 第一部分:汉字语法语义智能输入法设计 本部分给出了汉字语法语义智能输入法的总体设计。首先设计出该输入 河南大学硕士研究生学位论文第9 页 法的整体结构,确定各个功能模块要实现的功能,讨论了输入法的数据结构 设计。接着对汉字的编码理论进行研究,分析各种编码方案的优劣,讨论了 各种输入码表的存储方案以及如何对它们进行高效的查找,设计汉字语法语 义输入法的码表结构。最后讨论了输入法对智能处理技术的引入。 第二部分:w i n d o w s 平台上输入法实现技术 本部分首先给出了在w i n d o w s 平台上实现输入法的几种方法,然后重点 对i m m i m e 实现方法进行研究。在给出i m m i m e 的原理、特点、体系结构以 及设计与实现之后,详细的分析了w i n d o w s 平台上i m e 的标准接口和标准的 数据结构,同时介绍了供i m e 编程使用的a p i 函数。 第三部分:非完整句子的切分 本部分首先基于汉字语法语义输入法的需要,提出了非完整句子的切分 问题,接下来分析了非完整性对句子切分的影响,最后在研究目前已经实现 的h e n u 汉语自动分词系统的基础上,通过改进实现了对非完整句子切分的 处理。使用汉字语法语义智能输入法在输入汉字的过程中,实时地对已经输 入到应用程序中的非完整句子进行切分处理,再结合系统中搭配及规则知识 库可以提高汉字输入的智能性。该切分子系统以d l l 方式供其他程序调用, 其输入为待切分的句子地址和结果字符串地址,切分处理后带有词性标注的 字符串存储在指定的位置上。 第四部分:汉字语法语义智能输入法的部分模块实现 本部分在介绍系统实现需要的关键技术之后,给出了汉字语法语义智能 输入法的实现,包括输入法系统整体框架、系统初始化、按键事件处理、安 装程序等。 第1 0 页河南大学硕士研究生学位论文 第2 章汉字语法语义智能输入法设计 2 1 汉字语法语义智能输入法总体设计 2 1 1 汉字语法语义输入法体系结构 本文设计的汉字输入法目标是为了让它能够达到较高的智能性,包括智 能调整候选字词顺序、字词预测、自学习、自动调整频率等功能。在字词转 换上具有以下智能特性: ( 1 ) 由前面的单个字或多个字,根据输入法码表产生完整词的候选,如下 表达式: f l ( c ,k 。) = c 其中c = c lc 2 c ,c = c c i + 2 c j ,i = l ,j i ,c m ( 1 = m = j ) 为 汉字,k 。为输入法码表,令w = c 。c j c ( 1 = n = 1 ,w m ( 1 _ i k = l ,c m ( 1 = m = j ) 为汉字,w p ( 1 = p = k ) 为词语,k 。为词语搭配知识库, k 。为输入法码表,k f 为语法知识库,k y 为语义知识库,令w = c n c c ( 1 = n = i ) 则w k w 。 例如:输入“发扬爱国”,产生后续输入“主义”。 河南大学硕士研究生学位论文第11 页 输入法系统实现时,用户界面的优劣直接影响汉字输入系统的可操作 性。操作方式是汉字系统人机界面的一个主要部分。应该尽可能减轻用户记 忆和学习的负担,做到操作简洁方便。用户界面的设计应该注意以下几个方 面:允许用户根据自己的语言使用习惯,自定义特殊的功能键;允许用户采 用多种输入方式( 字、词,语句多种形式的输入) ,对用户输入可以进行字词 的自动切分以及检查输入错误,用户可以连续输入编码,提高输入速度:可 以定义特殊的编码来输入常用词组以及特殊的图形汉字。总之,用户界面是 汉字输入系统与用户交互信息的接口,尽可能做到符合大多数用户的使用习 惯,功能完备。 汉字语法语义智能输入法的体系结构如图2 一l 所示。该结构显示了输入 法从开始按键到最终汉字上屏的处理过程。设计的系统结构将输入法处理过 程分为几个阶段:初始化、输入法设置、按键处理、编码操作、候选字词集 生成、候选列表生成、窗口操作、词频调整、用户词表管理、切分非完整句 子等。 系统中涉及到的数据表和知识库有:输入法按键表、输入法码表、语法 语义搭配表、切分知识库等。输入法按键表用一个数组来记录当前输入法接 受的按键,如:拼音输入法中,所有能构成拼音的字母以及选择候选的数字 都需要处理,而像标点符号不需要输入法做专门的处理就可以直接进入到应 用程序中。输入法码表是在输入法系统中从输入码到字词转换过程中的参照 表。语法语义搭配表主要用来影响侯选的产生和列表的排序。切分知识库则 是在对已经上屏的输入串做切分处理时使用。 输入法系统中各模块功能如下: ( 1 ) 输入法初始化 在切换到输入法中时,首先要对输入法初始化。初始化时主要的工作包 括加载输入法码表、知识库,同时注册窗口类,初始化全局变量等。 ( 2 ) 输入法设置 提供输入法的参数的设置,包括候选列表显示样式、窗口移动特性、智 能特性、功能键等各种参数。 第1 2 页河南大学硕士研究生学位论文 图2 1 汉字语法语义智能输入法的体系结构 河南大学硕士研究生学位论文第13 页 ( 3 ) 键盘按键处理 该模块以键盘输入的字符、键盘布局和当前应用程序句柄为入口参数, 参考输入法按键表,返回一个布尔值。该布尔值决定输入法是否需要进一步 对该键盘( 包括软键盘) 按键进行处理,不需要处理的直接将该按键进入到 应用程序中去,如需要处理则继续由输入法后续模块对该按键进行处理。 如按键“z ”在拼音输入法中,一般都去处理它,但是在区位码输入法 中将会根据情况来处理。因为拼音输入法中“z ”可以作为拼音的构成部分, 而在区位码输入法中“z ”不能构成一个汉字区位码。如果当前没有输入编 码,按“z ”可以直接输入,但有编码就不允许按“z ”键。该模块的完成的 功能就是去实现w i n d w o s 操作系统中预留的标准转换接口函数中的 i e l e p r o c e s s k e y 。不同输入法处理的按键不同,i m e p r o c e s s k e y 通过输入法 设定的按键表以及已经输入的字符来判断,返回t r u e 表示需要处理,返回 f a l s e 表示可以直接输入或者在当前状态对此按键不做响应。 ( 4 ) 编码处理 该模块处理在i m e p r o c e s s k e y 中返回t r u e 并且是对编码操作的按键, 如:增加一个编码字符、删除一个编码字符、移动光标在编码中的位置。根 据不同的情况,修改编码并调用其他后续模块调整新编码对应的候选字词, 改变用户窗口的状态,利用当编码删除完毕后自动隐藏编码窗口等。 ( 5 ) 候选字词集生成 该模块的入口参数是在输入的编码,返回的是一组字或词列表。该模块 主要是利用输入窗口中已经输入的编码,通过对码表文件进行快速的查找, 返回编码对应的字或者词。由于汉字在计算机内是以机内码方式存储,提供 的一个码表文件就是一个拼音到机内码的映射。这个转换过程就是将输入码 转换为汉字的内码l j 。 ( 6 ) 生成候选字词列表 候选字词列表是把在生成的侯选字词集,依靠引入的智能技术将候选字 词以列表的形式输出。输出列表的排序对输入法的性能起到决定性的作用, 输入法的智能性很大程度上也通过候选列表来体现。在生成候选列表的过程 中,依靠的有在安装输入法的时候就有的词的共现概率,语法搭配等规则来 对候选进行排序。 第1 4 页河南大学硕士研究生学位论文 ( 7 ) 词频调整 词频调整是对最近输入的字( 词) 的频率进行调整,该频率的调整影响 下次候选列表出现的顺序,也是系统自学习的功能的体现。系统提供两种方 式:快速调整和渐进式调整。快速调整是直接将刚输入过的字调整到最前边, 而渐进式调整是每输入该字一次对该字进行适当的调整,出现在列表中的位 置前移。 ( 8 ) 用户词表管理 该模块主要用于用户对输入法码表中用户自己建立部分的管理,包括词 条导入、导出、删除等。主要为用户提供输入某些专业词语的途径,使输入 法更符合用户的习惯,同时也可以删除一些词条,但是用户的操作的是针对 用户自定义的词语【l “。 ( 9 ) 非完整句子切分 在用户输入过程中,大部分输入串都是非完整的句子。本模块主要对这 些非完整的句子进行切分标注。非完整句子的切分结果为由切分单位构成的 带有词性标注的字符串。本文设计的输入法除了在生成候选列表上具有很高 的智能性外,还具有强大的字词预测功能,即前面的字词上屏以后,在不输 入拼音编码的情况下自动出现可能的候选。这个功能要求系统对已经上屏的 非完整的句子进行切分,从而根据最近的输入去预测将要出现的字词,供用 户在不继续输入编码的情况下选择待输入字词,从而使汉字的输入更加流 畅,便捷。该模块就是对已经上屏的非完整句子进行切分,然后依据系统的 知识库来自动生成后续输入的候选列表。 2 1 2 数据结构 主要的数据结构包括码表、知识库、输入时的编码和候选列表等存储 结构。因此数据结构的设计,对系统的实现和性能非常关键。输入法中码 表的设计是很重要的,它作为输入码与汉字内码之间的映射表,通常要求 快速的查找和修改。因此,在设计码表的结构时需要从码表所占空间和查 找时间两个方面来考虑。通过压缩存储技术减少存储所需空间,选择合适 的结构和查找算法降低搜索时间。在候选列表生成过程中加入了语言规则 以及语用信息统计等因素,提高了转换的正确率和系统的性能。这些规则 河南大学硕士研究生学位论文第15 页 和统计知识的运用,也要求快速的去查找所需数据,通过计算较为理想的 候选以及排序。在知识库的构建上,目前以语料库为基础的统计语言建模 方法比较普遍,通过对语料库进行深层加工、统计和学习,获取大规模真 实语料中的语言知识。 2 2 输入法码表分析与设计 2 2 1 汉字编码的基本概念 汉字是随着中华民族社会发展而需要的信息交换与民族语言相适应的 书面的符号体系。汉字作为一种文字系统来记载语言的特殊的社会现象。所 谓“特殊”是因为它不能表音,书面语言与口头语言并不完全一致。它缺乏 明显的线性、序性,不容易排序和检索,不易为现代科技应用:它的多符性 又使人觉得难学难记,影响识字教育的迅速普及,有人曾经藉此说汉字是中 华民族落后的根本原因;还有人甚至认为是“汉字阻碍了我国的现代化”。 但另一些学者则不同意这种观点,他们认为汉字并不难学,认为拼音识字不 但不能缩短识字时间。反而增加识字负担。有人甚至还认为汉字对开发儿童 的右脑智力,促进形象思维有积极意义。最著名的是华师大曾圣初教授,写 了一篇汉字易学易用证,列举了许多实验的例证。可见汉字是否难学, 至今未有定论,但难检的毛病确实是存在的。人们正是为了克服这个困难而 研制编码的【哺,3 4 j 。 汉字编码是一门边缘学科,涉及到汉语言文学、心理学、计算机科学、 数学和物理学等多门学科。 从广义角度看,汉字编码是按照一定的规则,使汉字组成一套能拼、线 性、有序性符号系统【1 6 l 。从狭义上来说,汉字编码技术专门是指为了汉字输 入计算机,用计算机上的按键为汉字编码的技术,所以一般
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年超星尔雅学习通《计算机图形学与渲染技术》考试备考题库及答案解析
- 2025年超星尔雅学习通《环保领域中的生态学与技术》考试备考题库及答案解析
- 2025年超星尔雅学习通《音响工程与应用》考试备考题库及答案解析
- 2025年超星尔雅学习通《数字化营销策略升级与用户体验优化实践》考试备考题库及答案解析
- 2025年超星尔雅学习通《现代国际关系史》考试备考题库及答案解析
- 2025年超星尔雅学习通《全球化经济发展与市场营销策略关键因素实务分析》考试备考题库及答案解析
- 2025年超星尔雅学习通《旅游投资与融资》考试备考题库及答案解析
- 2025年超星尔雅学习通《现代视觉文化实践》考试备考题库及答案解析
- 2025年超星尔雅学习通《文学名著与传统文化继承》考试备考题库及答案解析
- 2025年护理管理学试题及答案(细选)
- 新型二次加压供水设备技术方案
- 餐饮场所消防安全培训课件
- ZXV10 M9000结构原理及维护
- 修理扫帚课件
- 2025年成都市团校入团考试题库(含答案)
- 毛绒玩具课件讲解
- 监理安全知识岗前培训课件
- 霹雳舞教学课件图片
- 特种设备管理课件
- 某市美术馆建设项目可行性研究报告
- 2025年国网湖北电力考试笔试试题(含答案)
评论
0/150
提交评论