拼音输入法的设计与实现开题报告.doc_第1页
拼音输入法的设计与实现开题报告.doc_第2页
拼音输入法的设计与实现开题报告.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

拼音输入法的设计与实现开题报告班号:计0402-12(304160212) 姓名:李杜松指导教师:吕学强 一综述 研究意义:虽然在汉字编码输入方面已经取得了不少进展,汉字能否输入计算机的问题已经解决,但是汉字编码输入理论一直是一个薄弱环节,迄今为止仅有的一本理论性较强的汉字键盘输入专著并没有引起输入法实践者足够的重视。同时,在实用性方面,人们对汉字编码输入的现状仍然十分不满意,新的汉字编码输入法还在不断地涌现,以期待克服现有输入法存在的诸多问题。不同时代有着不同的背景,从而决定了解决问题的不同方法。汉字编码输入技术问题的解决思路主要取决于人、机、文、码四个方面。在人方面,计算机的普及造就了巨大的用户群体,而且非职业打字员用户占绝大多数,其中还包括了大量的中小学生,中国已进入了非专业打字时代。非职业打字员一般都没有经过专业的打字培训,知识背景也大不相同。因此,如何使输入法易学易用和保持一定的速度是问题的关键。最好是,输入法在入门时基本上不用学习,熟悉后又有提升速度的手段,甚至达到或超过传统职业打字员的速度。但是当前的输入法往往是易学易用的输不快,如智能ABC;而输得快的难学难用,如五笔字型。非职业打字员的另一特征是根据腹稿录入,即边思考边看着屏幕打字。因此,如何利用好用户看屏输入这一点来进行反馈设计是极为重要的,它直接影响着输入法的质量。但是,目前的输入法对反馈设计没有引起足够的重视,有的过于强调盲打而丧失了易学易用性,有的又过于依赖人机交互而丧失了易用性和输入速度。另外,因为现在大多数用户都独自拥有计算机,所以输入法一般为某个用户专用,可以针对特定用户建立个性化的字词编码库,以提高用户的输入效率。但是,现在的输入法往往只有一个通用编码库,随着编码字词条目的增加就会出现大量的重码,无用词的比例也增大,进而影响输入法的性能。最后,在中小学进行打字教育时,汉字编码的规范化问题和汉字编码与语文教育的结合问题变得十分重要。在这一点上,目前很多流行的输入法都是不合格的。很多人批评五笔字型对汉字不合规范地乱拆分会导致语文教学和写字的混乱,五笔字型也因此未能进入中小学教育。即使是教育部推荐的认知码也有许多人对其规范性提出异议。在机方面,计算机处理能力已相当强大,手机、PDA等手持智能设备已广泛使用,数据库技术已非常成熟。当今微型计算机强大处理能力对于个人用户来说有很多富余,使得我们可以增大程序的时间和空间复杂度来提高输入法的性能。手持智能设备的流行要求输入法在通用键盘和数字键盘上的操作方式尽量统一,以减少用户的学习和使用负担。大型的数据库,如SQL SERVER,在微机上的运行速度完全可以满足输入法检索字词的要求,所以我们可以采用数据库来存储海量字词及其属性,甚至扩展输入法的功能到学习、查询和辅助翻译等领域。目前,除了语句型输入法充分地利用了富余的计算机资源外,其他的字词型输入法在资源利用上还停留在第二代输入法的水平上;数字键盘输入法一般自成体系,与通用键盘输入法缺乏衔接;数据库技术没有在输入法里得到应有的应用。在文方面,对于非职业打字员而言,输入文本以常用字构成的连续真实文本占绝大多数,而且对某个用户来说文本一般局限于特定的领域。因此,这类文本的冗余度比汉字文本整体的冗余度要高,可以动态地调整码长,给常用字词以短的编码,实时地、自动地创建新词组,从而充分地压缩冗余度,提高输入速度。对于离散文本和罕见字的处理,输入速度不是关键,关键是要有简单的手段实现输入。目前的输入法往往对输入文本的性质不加区别地对待,结果使得输入法的整体效率收到了影响。在码方面,目前流行的各类编码都存在各自的问题。字词型输入模式僵化,缺乏创新。空格键作为简码字词的结束键减低了编码效率;看打方式的设计被错误地用到了想打方式上,强调盲打而忽视了反馈信息的作用;对码长的过度限制(通常为4)导致重率上升,限制重码又使可使用的词组量受限,不限制重码又会增加人机交互而影响输入速度;未能充分地利用汉字丰富的笔画信息。语句型输入模式不太适合中文,其转换正确率不高,效率不高,编码识读性差,这与假名汉字转换已占统治地位的日文输入形成了鲜明的对比。 已有成果:第一代汉字编码输入法(1986)以单音节的字为单位输入:简拼和首尾码。简拼是纯音码,使用的是介于全拼和双拼之间的一种拼音方法。首尾码是一种纯形码。这两种方法都不支持联想,也不支持词组,都有很多重码。第二代汉字编码输入法(198690代末)以词语(包括单音节和多音节)为单位输入:五笔字型是最典型的纯形码部件类方案。较低的重码率。不具备在线自造词的功能。双音输入法是一种纯音码。以词定字、反向联想。不具备在线自造词的功能。自然码是最具代表性的音形码。大大减少了单字的重码。具备在线自造词的功能。第三代汉字编码输入法(90代末)根据用户的需要自造词语,并具有人工智能:智能化拼音输入法。基于理解的、基于语用统计的、基于模板匹配的和基于上下文关联的。可自定义词组和调整重码字词的顺序。基于笔画和声母的输入法。二笔输入法。它是一种基于声母和笔画的输入法。也可以单纯基于笔画进行输入。数字键盘编码输入法。基于手机键盘开发的输入法。通用输入法平台(IME)。为开发新的输入法而制作的输入法编辑器。二研究内容 主要功能:实现输入法软件核心部分。(见右图状态,写作,候选,用户界面窗口,以及转换接口的实线)。通过输入完整正确拼音,读出字库,列出候选字,并在用户端正确显示,选择 。在此基础上能够识别两个以上完整正确拼音,读出词库,列出候选词,并在用户端正确显示,选择。有用户词库,使用者可以随时新建自造词。能够随时加载导入新类型词库(批量导入)。候选词的首选项,接近使用者的意图(选词优先级)。有简单的语法分析,以此为基础分割词。一般输入法都具有的小功能。如:使用 分割连音(xian);中英文输入切换;词库字库翻页;实时修改输入拼音;清除当前输入内容;另外(额外的功能):输入非完整拼音即可读出字,词。(L D S-李杜松)。光标跟随。重复输入功能(呼叫上一次输入,或前几次)。实时删除自造词。独特功能(输出当前时间,日期等)。网络更新词库功能。未确定目标:最大词长度(或者不限长度)。 主要模块:IME转换接口模块;IME用户界面模块;字库/词库模块。三实现方法及预期目标: 初步方案:直接实现方式:作为编码或识别程序的界面,直接将转换结果汉字显示在转换程序的显示窗口中(无法把汉字传送到目标程序)。用来演示编码方案或识别器的效果。生成exe程序。挂钩(Hook )机制:在输入事件到达应用程序之前将其截取将键盘、鼠标等输入设备的动作消息转换为汉字字串消息,而后传递给应用程序窗口(不能同时存在多个输入程序,且Hook机制不稳定。)。生成exe程序。输入法管理器输入法生成器(IMM-IME ):提供了完整有效的输入法编程接口和支持。使用IME API函数(应用程序编程接口)进行输入法编程实现。生成DLL程序。我们选择最后一种使用IMM-IME,windows API函数接口。为了了解关于IMM-IME,需要浏览CNKI上的有关期刊。从msdn上查找输入法编程指南。在网上搜集有关知识。下载开源拼音输入法(IMM-IME结构的),通读理解。首先建立输入法的框架。如4个窗口的注册,建立,窗口函数的实线。这些部分可以参阅ddk中提供的例子。也可阅读源码(我们选择了freepy自由拼音输入法3.1版本)。之后一个一个完成19个Ime借口函数。重点难点:IMM-IME结构,基本工作过程。19个IME接口函数调用关系。多样的Windows API函数集。开发工具与环境:电脑: 中高档配置计算机;软件环境: Visual studio c+.Net 2003;DDK(Windows Driver Development Kit);操作系统: Windows XP sp2 home edition四对进度的具体安排 13周,阅读资料文献,撰写开题报告45周,系统设计612周,系统开发1315周,论文撰写和修改1617周,评阅、小组答辩、校级答辩五参考文献1 Microsoft. TBsoft Software Studio翻译. 输入法编程指南.2005年2 Herbert Schildt. C+ 参考大全(第四版).北京:电子工业出版社出版,2003年3 刘政怡等.Research of Programming Technology of Chinese Input Method Based on IMM-IME.计算机技术与发展,2006年,12期:P43-P484胡宇晓等.Input Method Implement Based on IMM-IME.计算机工程与应用,2002年,1期:P117-P1245张虹.软件工程与软件间开发工具.北京:清华大学出版社,2004年6朱友芹等.新编Windows API参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论