(农业机械化工程专业论文)嵌入式系统中汉字的数字输入技术研究.pdf_第1页
(农业机械化工程专业论文)嵌入式系统中汉字的数字输入技术研究.pdf_第2页
(农业机械化工程专业论文)嵌入式系统中汉字的数字输入技术研究.pdf_第3页
(农业机械化工程专业论文)嵌入式系统中汉字的数字输入技术研究.pdf_第4页
(农业机械化工程专业论文)嵌入式系统中汉字的数字输入技术研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(农业机械化工程专业论文)嵌入式系统中汉字的数字输入技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着社会信息化进程的加快,移动通信领域的发展也呈现出日新月异的景象。 中国作为移动通信设备拥有量的大国,也是移动通信设备制造的强国,因此对于移 动通信设备上中文信息处理能力的要求是相当高的。当前在移动通信设备上应用的 操作系统主要有w i n d o w sc e 、p l a t o 和e p o c 等。w i n d o w sc e 是m i c r o s o f t 公司在 移动通信领域推出的嵌入式操作系统,该操作系统具有强大的联网能力、强劲的实 时性和小内存体积占用以及丰富的多媒体和w e b 浏览功能,这使得此操作系统可在 各种小型嵌入式系统中使用,且因其功能强大,在工业控制领域中的应用有着非常 广阔的前景。但是此嵌入式操作系统在中文信息输入方面只是集成了汉字的手写输 入,而对于应用更为广泛的键盘输入则没有提供。本文就根据移动通信设备上常见 的数字键盘,为w i n d o w sc e 嵌入式操作系统在汉字的数字键盘输入技术及其实现 方面作了必要的研究;并使用了一种在查找时空间复杂度为o ( n ) 、时间复杂度为o ( n ) 的树形结构来存储中文信息,使用这种存储技术作为码表内存存放方式的汉字输入 法具有输入速度快、占用空间少的优点。为了加快汉字的输入速度,根据常用汉字 优先选择的原则,对常用的汉字频率作了统计,并且按照在相同编码下汉字频率的 由高到低的顺序来显示汉字。最后提出了在嵌入式系统中与汉字使用频率结合的方 法,共同生成汉字频率的排序列表。本输入技术的研究,为w i n d o w sc e 系统在中 文信息处理的汉字输入方法上添加了键盘输入,并且为其它嵌入式系统的汉字数字 输入技术提供了有意义的参考。 关键词:嵌入式系统;输入法;数字输入技术;树形结构 独创牲声明 本入声竣所黧交静学位论文燕本人在导疼指簿下遘行靛骚究工作及敬褥瀚磷 究成果。据我所知除了文中特别加以标注和致谢的地方外,论文中不包含其他 入已l 经发寝或撰写过的研究成采,也不包含为获得翅壅礞矗痉2 墓三一躐其他教 育机丰句的学位或邋书面使用过的木考料。与我同工作韵尉志对本研究所傲曲任何 贡献均已在论文中作了明确的说明并表示谢意。 学袋论文终密签名:够霸眇 签字嚣瀚:7 劝净勿夕毡 学位论文版权使用授权书 本学位论文作者完全了解j 墨叔必 照搬望有关保留、使用学锭论文的规定, 省权傈罄荇两国家有关郝f j 或祝构送交论文的复印件和磁盘,允许论文被奁阕和 借阕。本人授权迸她燃 可以将学位论文的全部或部分内容编入鸯关数撼 库避行检索,可以采用影即、缩印戚扫描等复制芋段保存、汇编学位论文。 ( 镶密的学位论文在鼹塞蘑适您本授权书 学位论文彳譬学签名:粤爹秒肖 签字磊期:狮;年扫循 副诺氨删 签字日期:孙d 3 年莎月谚翻 塑些查、业垄堂堕主堂垡笙壅 笙! 堕苎! ! 翌 引言 目前,汉字的输入技术日新月异,各种各样的汉字编码层出不穷,随着信息 时代的到来,一切事物都是以快速、方便和数字化的形式出现在我们的现实生活中, 汉字输入法也不例外。以前利用1 0 1 、1 0 4 等大的计算机键盘进行汉字输入,而现在 只能是办公室的应用;如今移动电话、网络电话等产品要求设备的尺寸相当小,这 就决定了使用较多的按键进行汉字输入的时代已经不能适应移动通信设备的需要。 移动通信设备一般具有的键盘仅仅是几个数字键和有限的几个控制按键,所以 如果在移动通信设备或移动产品上进行汉字输入,就必须对汉字进行数字编码。 通过输入汉字的数字编码,汉字的输入才能够在移动通信设备上实现。 汉字的输入编码有很多种,音码、形码、义码等各种编码都有其优点,但是总 体看来基于形码的编码具有通用性和更为广泛的使用性。”。 所以基于形码的汉字数字输入已经成为移动通信产品的需要,本文就此种汉字 输入的数字编码及其实现作了研究工作。 1 绪论 汉字输入电脑是计算机中文信息处理的第一个环节,而键盘输入又是将汉字输 入计算机最主要的手段”。几十年来,汉字键盘输入技术的理论研究和应用发展都 取得了很大的成就,由孤立的单字处理到词语处理并向语句处理发展;由早期的偏 重编码设计转向编码和软件设计并重,使得制约计算机汉字键盘输入的瓶颈一易学 和高效的矛盾有所缓解”。然而随着科学技术的发展,越来越多的高科技产品在社 会生活中扮演着越来越重要的角色,尤其是移动通信设备的广泛使用,更加促进了 汉字输入技术的发展。但是现存移动通信设备上汉字输入法的输入效率较低,所以 本文着眼于汉字输入法软件在系统中的开发过程,提出了一种快速高效的汉字输入 法。 1 1 汉字与电脑的关系 1 1 1 计算机处理汉字的主要环节 随着科学技术的突飞猛进的发展,信息变得越来越重要,可是我国的信息产业 比世界平均水平落后了近2 0 年,造成这现象的个非常重要的因素就是我国的中 文信息处理技术太落后,严重制约了信息处理技术的发展。西方的文字,多数都是 使用几十个字母的拼音文字。几十个字母,无论是使用打字机,或者是使用电脑, 其输入都是非常简单和方便的,毕竟可以使用少数的几十个按键来和字母一一对应 起来。所以,在西方各国,打字机在学校和家庭中早已广泛普及。及至电脑的出现, 河北农业人学顺上学位论文 两方社会又很快地实现了文字技术的历史性变革。但是古老而复杂多样的汉字属于 二维平面的方块字,不象英文那样是一维线形文字,可以直接输入计算机,因而汉 字难以进行机械化处理,这使中华民族隔离了大约一个世纪的打字机时代。而今, 当一个更加伟大而具有划时代意义的文字技术革命到来之时,人们发现,中国的汉 字与西方人发明的电脑格格不入。电脑向汉字提出了历史性的挑战,而汉字面临着 能够进入信息社会的选择。 为了让计算机处理汉字,许多问题需要解决,主要表现在以下三个方面: ( 1 ) 汉字的计算机输入:其中包括键盘输入和非键盘输入; ( 2 ) 汉字的计算机输出:包括通过显示器输出和通过打印机打印输出; ( 3 ) 汉字的计算机内部表示:包括汉字在计算机内部的存贮方式以及如何来使 显示的汉字和内部存贮的内容相联系”。 这三个方面相互独立,而又相互补充,构成了一个有机整体。随着计算机的发 展和计算机中汉字处理技术研究的深入,上述三个方面都有较大的改进。在汉字输 入中出现了手写输入、语音输入、扫描输入等;在汉字的多样性上表现为出现了多 字体、高点阵的汉字等。 1 1 2 计算机处理汉字困难的原因 以上三个问题中,如何将汉字高效、准确地输入既是特别基本又是最为重要的 一环,汉字输入为何比较困难? 有如下几个原因: ( 1 ) 汉字输入电脑的途径之一是通过讲话者的声音使汉字进入电脑,也就是我 们所说的语音输入。由于语音输入需要收集各种人的语音资料和各地对于同一个汉 字的不同发音,区别同音字的不同音调,并对这些信息进行分析整理和统计,只有 在这些工作彻底完成的基础上,才有可能达到普遍的使用性。在我国,尤其是近期 是难以做到的。即使所有的讲话者都采用普通话来进行汉字输入,那么也会因为需 要增加特殊的设备并且保证噪音干扰相当小等而受到限制。所以,语音输入在广泛 使用范围内推广的时机还不成熟“。 ( 2 ) 汉字输入电脑的第二个途径是把汉字的形状告诉电脑,然后由电脑去自动 识别,这种方式可以分为两种:印刷体汉字的识别和手写体汉字的识别。其中手写 体汉字的识别又可分为联机手写体识别和脱机手写体识别。由于不同人的手写体并 不一样,会出现笔画的长短不一或者是手写的时候可能出现缺笔或者连笔的现象, 此外还存在一些非规范的简化手写字等,使得电脑在识别手写体的汉字过程中表现 并不十分理想。目前发展较快的联机手写体识别的识别率不到9 9 ,但是只要书写 的比较规范,那么手写输入可以成为一种慢速简便的输入方法。对于印刷体汉字的 识别,在较少斑点或污点干扰的情况下,其汉字的识别率是相当高的,并且识别的 速度相当快。但是印刷体识别仅可以使用在已经有了印刷体的汉字以后才可以对其 进行识别输入”1 。 河北农业大学硕士学位论文 第3 页共5 7 页 1 1 3 汉字输入计算机的主要途径 汉字输入计算机的主要途径是汉字编码技术“,它的基础扎实,研究队伍庞大, 没有苛刻的环境要求,是汉字输入电脑的一个突破口。然而,汉字相对于英文字符 来说,其数量高出许多倍,英文字母的a s c i i 编码早在五十年代就已经定型,而古 老的汉字却没有一个统一的编码。所谓“汉字编码”是指用规定的符号( 这里所说 的符号是以代码形式表示) 按照一定的规则对汉字或汉语词汇所有的元素编制相应 的代码,一个汉字的编码是由一串有序符号组成的代码。汉字编码是一门边缘学科, 它涉及文字学、语言学、教育心理学、计算机科学、人机工程学等,汉字编码是汉 字的一种表现形式,它应该能描述所有汉字的特征且应该尽量做到从汉字代码中能 区分汉字的特征,同时还应该简便易学”“。 早在五十年代,我国就已经成立了计算机研究所并研制出各种类型的计算机, 如电子管、晶体管、集成电路计算机等,同时还研制出了亿次计算机,这表明我国 的计算机研制水平是紧跟世界潮流的,而其应用也从军事、科学计算、数据处理、 业务管理逐渐转向文化、商业、教育等各个领域。八十年代以后计算机应用更加普 及,不仅进入办公室,而且纷纷进入家庭,这种信息技术的发展推动了社会变革, 丽信息技术发展永远离不开计算机,离不开汉字输入电脑这个重要环节。 1 2 汉字输入法的分类 为了使中华民族能够赶上信息时代的步伐,为了使电脑这一现代化的工具走进 千家万户,人们一直在积极探索和研究各种将汉字输入电脑的方法,到目前为止, 全世界研究开发的汉字输入法,根据不完全统计至少有1 0 0 0 余种,其中,经过上机 实验的方案也不下1 0 0 种,特别是在汉字键盘输入方法方面更是万“码”奔腾,良 莠难分”。 目前,在汉字输入方法领域中常用的汉字输入法主要有以下几种类型。 i 2 1 语音识别 语音识别是把人类讲的话转换成计算机能够理解的数字代码,这种数字代码能 够应用于各种应用程序,能够从1 3 头讲授文本变成汉字处理文档,甚至通过说话来 控制计算机的功能和完成必要的任务”“。 语音识别技术是西方人发明的,而英文的语音与单词之间的一一对应关系比汉 语与汉字的对应关系要简单得多,但是时至今日西方人仍未扔掉键盘。将语音识别 与应用程序完整地结合,并使语音识别接近人的标准还需要一个过程,这是一个高 难度的技术。 河北农业大学硕士学位论文 第4 页共5 7 页 特别是对于字数众多、读音有限的汉字,语音识别的难度更为突出。汉字中的 同音字为数极多,再加上方言土语,往往使得在语音识别过程中错误百出,因此语 音输入在汉字识别中的精确度还远远达不到大规模实用的要求”1 。 即使一个优秀的语音识别系统,其应用范围也有很大的局限性,例如i b m 公司 研制开发的语音识别系统v i a v o i c e ,该系统具有非特定人语音识别、连续语音识别、 以声控宜接驱动应用程序、可自定义语音宏及热键等功能,其性能十分优越“。但 是该系统的应用领域也是有限的,主要为: 汉字输入模式固定,用语音进行命令操作或控制的场合; 不能用键盘或鼠标的场合; 需要将眼睛从显示器上解放出来或将手从键盘或鼠标上解放出来的场合。 同时,由于语音识别系统的造价相对昂贵,还远远没有达到大规模普及应用的 阶段。 1 2 2 手写体汉字识别 手写体汉字识别借助于与电脑相连接的笔触感应板和光笔,通过智能判断软件 将所写汉字与电脑中的字库进行模糊判断,得到相应的机内标准汉字。 这种方法的优点和缺点都很明显:会写汉字就应该会汉字输入,不需要学习取 码和编码规则。但是要求一个人把汉字每个字都写得规范是不容易的,况且字要写 得相当大,每分钟写1 0 一2 0 个,已经相当费劲了。 正确率和速度一直是手写汉字输入的难点。 目前较具有代表性的手写体识别系统有中自公司开发的“汉王笔手写体输入系 统”,这是一个将多字体印刷体识别、手稿识别及汉王笔三合一的汉字输入系统“。 1 2 3 扫描输入 扫描输入通过光电扫描设备,把符合一定要求的汉字图形扫描到电脑中,使它 与标准的字形进行比较从而完成汉字输入“。对于标准印刷资料的汉字输入,使用 这种方法判断起来很容易,非常方便简捷,而对于非标准印刷的汉字,特别是字体 字号过于复杂时,准确率就常常受到影响。 扫描输入对于某些用户,有相当的吸引力。比如信息处理量较大的图书资料中 心,复制存贮那些字体比较规范的现存文本,更有其使用价值和应用前景。如北信 公司开发的o c r 印刷体汉字识别系统可以将印刷体汉字自动输入到电脑中,对于不 同字体、不同字号、不同印刷方式、不同印刷物都可以自动识别,识别率达9 7 , 识别速度为每秒种3 0 个汉字左右。 但是,想用这种方法代替键盘输入,就未免不切实际了,首先,规范文本一开 始就是通过键盘输入的。初稿、手稿总是不大规范的。识别龙飞凤舞的手写稿错误 河北农业大学硕士学位论文 第5 页共5 7 页 百出,反复修改,到头来事倍功半,反而不如直接使用键盘输入得快了,更何况这 种用途有限的识别设备往往价格昂贵,不是专业的资料制作并不必要“。 1 2 4 键盘输入 键盘输入是利用计算机的键盘,根据输入的键盘按键,转换成相应的汉字和词 语,甚至整个语句。这种输入方法需要用户对键盘和对应的汉字信息进行一些记忆, 否则根本无法完成汉字的输入工作。以前的五笔汉字输入需要用户记住相当多的字 根和键盘的对应关系以及缤纷复杂的拆字规则等等,虽然输入速度快是其主要的优 点,但是对于初学者来说学习的难度使其入门非常不容易“。 随着汉字输入法的不断改进,仅仅键盘输入也可以有如下几种: ( 1 ) 音码 完全以汉字的读音确定汉字的编码“”,例如全拼、双拼、微软拼音等。汉语拼 音比较简单,只需用2 0 多个英文字母便可以拼出全部汉字的4 0 0 多种读音。 在我国,因为绝大多数学生从上小学起,就学习了很长时间的汉语拼音,打下 了良好的拼音基础,所以长大以后,拼音输入几乎不需要再学习,便可以掌握拼音 输入方法。其实“不需要再学习”是在儿时长年累月的学习基础上,如果没有学习 过拼音的人,则仍然需要对拼音进行补课和训练。 对于键盘拼音输入法来说,整个汉字系统有成千上万个汉字,但是对于汉字的 读音,总共加起来有4 0 0 多个读音,正如周恩来总理1 9 5 6 年强调的那样“汉语拼音 是给汉字作注音用的,它不能代替汉字”。这种拼音输入方法的缺点也是十分明显的。 具体说明如下: 重码率太高。键盘拼音输入虽然容易学,但是对于屏幕选字这一功能却非常难。 汉字数万之多,而读音大概只有4 0 0 多种,加上音调也不过1 2 0 0 种左右。而且各种 读音对应的汉字字数分配极不均匀。输入时虽然只对键盘打了两三个字母,可谓简 单易学,但是到选字的时候,必须从几屏中选取一个汉字来输入,这样做起来非常 麻烦。 许多汉字不被人们所认识和熟悉( 尤其是读音不准) 。对于一般人来说,不认识 的汉字总比认识的汉字多得多,因此在用拼音方法输入汉字常常会发生错误2 “。 ( 2 ) 形码 完全从汉字的图形中选取信息,图形相当于汉字的固体形状,直观易辨。形码 实现的关键是提取汉字的编码并将其映射到按键的键位上,即:汉字码元 码元代码+ 编码规则相应键位汉字这一过程。形码输入是一种高效的汉字输 入方法,其本质更加符合汉字是拼形文字的特征。 汉语方言虽然比较多,但是汉字的字形却是统一的,其字形和构造不受方言的 影响,输入时只需要按照汉字的字形信息进行输入,由此形成的编码不因地而变, 不因人而异“。 ! ! ! ! 韭墨些叁堂堡主鲎篁堡茎 笙! 墨苎! 旦 汉字本质上楚一静辨形文字,嗣一块块元将汉字维台麓采,符合汉字的椽字 规律和传统。另外,因为汉字的字形千姿百态,糍画繁多,结构各肄,所以可供 提取的僖息资源: # 卷丰富,比较容易设计出难一性强、重码窭低的编聪方案。鲻形 码输入法每分钟输入超过1 0 0 个字澄是常事,这是冀他方法所不能达剐的。 其实,如果说重码率低,莫过于计算机的内码,一个汉字一个内码。然而,这 耱编鹈怒a 为援定兹,没有经鼹兢律,缩玛信息与汉字没有熊毫关驳,螫矮爱记硬 背,所以其推广应用是不可能的,毕竟没有人愿意死记硬背那么多的编码。 可见,仅仅有编码的唯一性,即编码的重码率低,还是避远不够的。键盘汉字 输入法,必须考虑编鹃是秀好学彝记,是否便于推广,手稽的受摇逶器台理,怒否 便于提黼输入效率等问题。由此可见,一个科学实用的汉字编码,实际上是同时涉 及多个学科,璐发壤大的综合性设计。 ( 3 ) 义码和啻义码 与形码、音码不同,在众多的汉字输入方法中,还没有出现过单纯的“义粥”, 这是强为“接义毅玛”毙“按音致鹦”蔓熬糖象窝飘想不定。健是毕竟“义”怒汉 字的三大属性之。虽然没有单独拿出来用于汉字编码,却也可以用谯克服音码中 的大量蘸码,可以将汉字的音与义的信息同时提取,即为啬义码。 齑义码还有努羚翡一耱设诗。鲜将汉字鹃“义”,分为人体类、自然炎、雷理类、 植物类等等,每类也用一个字母来表示,追加在“拼音”之后,用以区分同音字。 那么这聃啻义码能否达到安用鹄辊废? 妇暴遇到一字多义、方言、遇到不认识不理 解其意憨的汉字,在这种情况下只肖靠实践经验来检验了”“。 ( 4 ) 音形码 继会音码、形羁魏双鬟特点,键位映射激考为主,孬辕戬笔垂信惑,这便是毒 形码。 区分同音重码字最有效的方法筵过于“营形”结台。即在攒音之后,追加若干 拿字形偻崽,部蕾、笔匿、字垄等,把这些信息嗣数筠或字母表示,逡加在音弼之 后,用于离散音码所形成的重码”。 1 3 汉字编码的意义 汉学要在信惑社会发挥其文化基石的僚鳟,就必须要输入计算视,嚣由于汉字 字数太多,利用语音识别和汉字手写体识别手段不能满足汉字输入电脑的问题的彻 底瓣决,强就,赣不褥不撵驹于键敷竣入手段来解决。键盘羧入不弱予遘音竣入弱 手写输入之处在于:一、键盘是每台电脑必备设备之一,用它进行汉字输入不必增 加额外设备,比较经济实惠;二、键盘有广泛的实用性,不管什么人只要会按键就 会操撑 三、键盘对谴嚣臻境无特殊熬要求,获覆抗于撬性麓毙较离;程、不妊增 加其它的硬件设施”1 。 然而,键盘上豹按键( 键位) 数量有艰,若每个键位上放嚣多个汉字,则会出 塑! ! 垒些查堂堡兰兰焦堡苎 笙! 墨苎! 丛 现难以找到汉字的现象,不能达到随心所欲的境界;若每个键位上放一个汉字,则 键盘将相当庞大,输入汉字还需要从键盘上一个一个地找,这种方法显然是行不通 的。因此只有把键盘上的键位数减少至西文键盘键位数,才能达到实用的目的,冈 此就必须给汉字进行编码,也就是要使汉字字数远远大于编码信息键位数时,汉字 编码才有其使用价值。 汉字编码的另一个原因是使汉字的字形由无序变为有序。过去,先人们为汉字 进行过多种排序,例如说文解字、康熙字典等,但是总有很多的字找不到其 序号,查起来相当困难,若将汉字用编码形式规范排序,则很容易找到所需要的汉 字。 总之,汉字编码的目的是为了应用,而且是很好的应用”“。自然,编码是为了 学习而设计的,因此比较容易学习是十分重要的,同时,编码还必须便于使用。对 初学者而言,全拼音码记忆量小,自然比较容易学习,但是真正使用时便会发现重 码率太高,效率很低,许多人宁愿去学一些稍微复杂难学一点的编码以提高输入效 率。 汉字编码的目的是为了人们在信息时代更好地使用、处理汉字,易学性和商效 性是汉字编码的主体和推广的重要条件。 1 4 汉字编码设计的目标 汉字编码的设计是个多目标决策问题,一般应该达到以下几个目标: ( 1 ) 易学易记。即规则简单,比较容易理解和掌握,机械的记忆量小; ( 2 ) 易用。包括重码率低、输入效率高、使用时间短的思想; ( 3 ) 规范化要求。即汉字编码必须严格符合构字规律和语言文字规范,以免与 学校语言教学相抵触,干扰文字的正常使用。国家语言文字工作委员会于1 9 9 6 年 1 1 月2 8 日审定了“信息处理用字符集汉字部件规范”,此规范以汉字的构形规律、 现代汉字的发展现实和汉字的历史继承性为依据,采用“从形出发,尊重理论,立 足现状,参考历史”的指导思想,对文本、编制说明、基础部件表和汉字拆分序列 都作了严格的规范化要求。 ( 4 ) 从汉字编码和中文信息处理的发展趋势去考虑,通用性也应该成为汉字编 码设计的主要目标之一。其含义为:汉字编码不仅作为中文输入计算机的一种手段, 也应该适用于汉字的排序、检索和字典编排等各个领域,而且一种编码方法应该不 仅能够处理常用汉字,也应该能够处理包括繁体汉字在内的全部汉字。此外,编码 还应该尽量适应不同使用者的特点,使各类人员都能够方便地使用”。 总之,汉字编码的全面优化目标是:易学、易用、规范和通用。 2 嵌入式系统的选择和编码方案 在当今移动信息的时代,体现两个方面的要求:一是移动,即比较小巧便于移 塑! ! 窒些奎堂堡! j ! 鲎些堡兰 里蔓基三生! ! 生 动;二燕信惠,邵在移动静过程中鬻要信意静产生、发送、传递耪接受2 。那么 其中最基本的也是最主要的就是信息的产生了,有了信息必须把信息表现成为一种 a 粕可以理辫的形式。这季申形式对予国内莫过于汉语黝表达了,那么怎样来使这些 信息成为可以在移动设备上输入的汉字信息藏是现在需要研究的问题,即在移动设 备上的汉字输入问题”。“”1 。 2 1 移动通信设备的操作系统介绍 从秘前市场上来看,移动通信设备的操作系统遥常采用设备厂商岛甚开发的操 作系统或者是使用在目前的市场上影响较大并且性能比较稳定的操作系统。 对予移动遗攘设鍪厂巍妻己开发懿操撵系统由予箕诞生戆保密牲,嚣产生了它 一开始就有很大的难兼容性,这种操作系统由于先天的独立憔和封闭性,不可能有 广阔的市场。当然了,也脊的移动通信设备厂商看到了其弊端,而且也在不断地改 迸本鸯鲍搡俸系统,允诲掰户选择各静吾群的扩充软件荠扩充功能,藏者稠用外部 的扩展设备达到与其它产晶相兼容的目的。不过这种扩展功能毕竟是有限的,它们 与翥场上影响较大的且比较稳定静撵手# 系统糕比,其动能和性能是微不足道的”。 目前市场上移动通信设备的探作系统中影响较大的主要肖以下三种: ( 1 ) w i n d o w sc e 操作系统。这个操作系统是美国微软公司想在移动电话领域 继在台妓诗葬辊操律系统镁域弱独特逮住静一个延 串。麸多媒髂发展弱角度寒羲, 该操作系统具有搬强的竞争能力。又因为微软在软件行业的影响力,其产品在软件 的各个领域的占糟率很高等等,这样使其w i n d o w sc e 操作系统在升级和扩展等方 蟊的潜力是相当大的”一。 由于w i n d o w sc e 操作系统是微软公司的w i n d o w s 系列产品,所以其兼容性是 比较好的,只不过在w i n d o w sc e 上的代码全部都怒u n i c o d e 编码,嚣要在编理 的时候特别注意+ ”。 ( 2 ) p l a t o 操作系统。这个操作系统是3 c o m 公司的p a l mc o m p u t i n g 部开发的 秘3 2 位熬嵌入式操捧系绫,宅经常镬蠲于些掌上奄齄中葶【l 一些p d a 熬移动遮 信设备中,利用该操作系统可以方便地扩展存储设备”。 ( 3 ) e p o c 操作系统,是由p s i o ns o f t w a r e 公司在比较早的时候搬出的操作系 统,现在一般豹移动计算浚备穰多莱爝诧操作系统。翠期的e p o c 操作系统燕1 6 位的,随着信息蹙的不断增加和技术的不断成熟,现在的e p o c 操作系统在很多方 嚣都有所改进。魄如性髓更加稳定,设计更加紧凑,功毙更秘实用,更能提高个人 工作效率和个人信息管理功能。酲箭支持e p o c 的圭簧有爱立倍、摩托罗拉、松下、 诺基甄以及p s i o n p l c ,这些公司为了共同的利益,组建了一个s y m b i a n 公司,和微 软静w i n d o w sc e 、3 c o m 静p l a m 争夺移动逶信审场”。 塑些查、业查堂堕主堂焦笙垄 笙! 蒌苎翌二生 2 2 移动通信设备的操作系统选择 总体来说在移动通信设备的操作系统中,w i n d o w s c e 有中文版j ;而3 c o m 的 p l a t o 只能依靠一些特殊的挂接技术来实现中文功能;e p o c 系统又需要其特定的开 发设备和环境。这样就需要有一个可行的开发操作系统的选择”“1 。”。 本文选择的是在w i n d o w sc e 操作系统中来开发汉字输入法。之所以采用这个 操作系统来开发,原因如下: ( 1 ) 从开发的硬件条件来看。对于w i n d o w sc e 而言,其开发可以在台式计算 机上来进行,这就比较好地应用了现有的计算机资源。要开发w i n d o w sc e 程序必 须安装w i n d o w sn t 2 0 0 0 。首先需要从h t t p :w w w m i c r o s o f t c o m w i n d o w s c e 下载一 个w i n d o w sc ep l a t f o n t ls d k ,它可以生成各种不同设置的p d a 的调试工具和模拟 器;也有的硬件厂商已经使用s d k 生成了其硬件的s d k ,使用此种s d k 也可以进 行开发。然后需要购买v i s u a l c + + f o r w i n d o w s c e k i t 开发工具( 在微软的站点可以 f 载评估版本) 才能给w i n d o w sc e 编写程序。v c + + 6 0 和v c + + f o rc e 是两个完 全不同的产品,v c + + 6 0 不能用来开发w i n c e 软件”。 ( 2 ) 从开发的程序开发技术基础来看。在w i d o w sc e 上开发软件,只要按照 以前的w i n d o w s 开发基础,参考适当的开发文档,就可以编写代码。只要注意某些 a p i ( a p p l i c a t i o np r o g r a m m i n gi n t e r f a c e 应用程序接口) 在w i n d o w sc e 上的特殊参 数和在使用字符串处理的时候一定是u n i c o d e 编码,使用的是宽字符串( 两个字 节存储一个字符) ,在存储的时候注意不要把字符存储到奇数地址开始的空问上。 ( 3 ) 从开发输入法的技术资料来看。w i n d o w sc e 版本提供了中文版的操作系 统,并且此操作系统对于w i n d o w s9 x n t 2 0 0 0 中存在的i m m y l m e 输入法机制依 然有效。用此操作系统开发起来比较合理且兼容性好“。 2 3 编码方案 2 3 1 系统环境介绍 本汉字输入法的主要应用环境是基于w i n d o w s c e 操作系统的网络电脑电话机。 此产品系统的主要性能是: ( 1 ) 作为普通的电话机来使用; ( 2 ) 作为小型的电脑来使用,其中除了桌面系统以外,还有w o r d ,e x c e l 等o f f l c e 系列软件1 : ( 3 ) 内存容量为1 6 m ; ( 4 ) 此系统的按键主要是计算机上小键盘的内容:包括数字健和“ 、“+ ”、“一”、 、“d e l ”和回车键等 河北农业人学顺士学位论文 第1 0 页共5 7 页 2 3 2 本输入法的编码方案 由于本电脑电话机的按键是数字小键盘上的数字键和其它有数的按键,这就决 定了本键盘输入法所采用的按键是由数字小键盘来构成的”。 汉字的构成可以由笔划和部件( 包括偏旁部首等) 来构成,这些部件也是由笔 划来构成的,所以本输入法主要是依靠汉字书写的笔顺来进行汉字的数字编码的。 最初编码规则具体如下: ( 1 ) 数字键盘的1 代表汉字笔划中的“横”; ( 2 ) 数字键盘的2 代表汉字笔划中的“竖”; ( 3 ) 数字键盘的3 代表汉字笔划中的“撇”i ( 4 ) 数字键盘的4 代表汉字笔划中的“点”; ( 5 ) 数字键盘的“5 ”代表汉字笔划中的“折”( 包括横折、竖弯勾) 。 这样五种笔划来描述汉字,并且按照汉字的书写笔划顺序给汉字进行编码。 此种编码分析: ( 1 ) 重码率:此种编码按照汉字的书写顺序来生成汉字的编码,因为汉字是 图形文字,那么其主要差别在于构成图形的要素( 即笔划及其顺序) ,所以采取按照 笔顺进行汉字编码是区分汉字的重要方法。那么由汉字的笔划及其顺序来对汉字进 行编码是合乎逻辑的,并且从开发输入法的结果来看也是可行的。对于简体一、二 级汉字的统计结果表明,采用这种方法给汉字进行编码其重码率在2 以下。所以采 用此方法对汉字进行编码其重码率是相当低的。 ( 2 ) 码长”“:这种汉字数字编码的码长主要取决于汉字笔划的多少。对于笔划 比较少的汉字来说,其码长是比较短的,并且汉字的输入是比较快捷的;但是我们 知道有的汉字其笔划的数目是比较多的,甚至超过2 0 个笔划,那么用这个汉字输入 法对汉字进行输入,其速度是可想而知的。 ( 3 ) 输入速度”:对于大部分汉字其输入速度是相当快捷的,但是对于笔划多 的汉字,输入就比较慢了。针对此种情况,本文提出以下改进方案。 2 3 3 编码方案的改进方案 在改进方案中,编码基本规则不变,只是在改进方案中采取了汉字部件的思想, 即根据国家语言文字工作委员会1 9 9 6 年1 1 月2 8 日审定的“信息处理用字符集汉字 部件规范”,把其中可以用部件来描述的汉字进行编码。但是在“信息处理用字符集 汉字部件规范”中定义了很多部件,我们选择了其中1 0 0 多个偏旁部首、部件”来 使用。 这些偏旁部首、部件也是由编码来构成的,按照一定的规则把这些部件排列出 来,具体见偏旁部首部件代码表( 见附录a ) 。其中的代码比如:11 ”代表偏旁“王”, 其输入规则是先输入1 ,代表起笔是“横”,后面的“1 ”表示在键盘上双击“1 ” 翌! ! 窒些查兰型主兰垡堡壅兰王旦生苎! 里 这个按键。其实,输入起笔1 ( 代表横) 就在偏旁部件窗口出现可以选择的偏旁 部件,那么按照偏旁部件出现的顺序,如果选择那个偏旁部件就双击该偏旁部件的 序号就可以了。 选择了偏旁部件以后,就在汉字选择窗口出现带有所选择的偏旁部件的汉字, 以供选择。 汉字的选择是在汉字选择窗口出现所需要的汉字时,先输入“键,表示要输 入汉字选择窗1 3 的汉字,然后再输入所选汉字在汉字选择窗1 3 中的序号,就可以选 择汉字上屏。 改进编码分析: ( 1 ) 重码率:按照改进方案进行编码,其实质就是把原始方案中由于码长较长, 引起输入时输入的按键较多而造成的不便,引入了偏旁部件的概念,从而使一些偏 旁的笔划得以简化,从而达到缩短码长的目的。但是这种方法对于重码率是没有任 何影响的,其重码率还是和原始编码方案一样少。 ( 2 ) 码长:由于原始编码方案中编码的码长较长,改进方案引入偏旁部首的概 念,缩短了码长。 ( 3 ) 输入速度:在输入原始码长较长的编码时,要输入较多的键盘按键,影响 了输入的速度。改进的方案缩短了码长,这样在输入汉字的时候就不需要输入较长 的编码了,从而提高了汉字的输入速度。 2 3 4 本输入法的进一步改进 在以上改进方案的演示过程中,虽然输入速度有了较大的提高,但是还是不够 理想,主要体现在以下两个方面: ( 1 ) 虽然引入了偏旁部件的概念,但是对于一些笔划很多的汉字仍然需要输入 较多的笔划才能在汉字选择窗口显示出来: ( 2 ) 在汉字显示的过程中,对于有些比较经常用到的汉字显示在翻几页以后的 汉字选择窗口上,而不是常用的汉字优先显示。 针对上述的两个问题,采取了以下解决方案: ( 1 ) 对于需要输入较多的笔划才能在汉字选择窗口显示的汉字,采取缩短其码 长的方法。即通过对相关汉字的统计和分析,并不是按照原原本本的汉字的笔划来 确定其编码,而是取汉字编码的前x 位,那么,这个x 是通过与相关汉字的比较得 来的。每一个较长编码的汉字取前x 位中的x 是不一定相同的。 ( 2 ) 对于常用汉字显示比较靠后的问题,采用了对常用汉字编码缩短的方法, 编码的缩短,使常用汉字在输入的时候能够排列到比较靠前的位置。 进一步改进编码方案分析: ( 1 ) 重码率:进一步改进方案中码长的缩短,可能会因为很多汉字在较短的编 码上排列,从而导致重码率的上升。但是通过实验测试,发现重码率依然在2 以下, 河北农业= 学坝十学位论文 所以重码率是比较低的。 ( 2 ) 码睦:无论是对丁二码长较长的汉字,还是使用频率较多的汉字,缩短其编 码的长度会从整体上缩短这种方法编码的长度。 ( 3 ) 输入速度:对于较长编码的汉字采取缩短码长的方法,可以使用户输入较 少的按键就能够对此汉字进行输入,输入按键的减少必然会使输入速度加快。对输 入速度影响最大的就是使用频率较高的汉字了,因为常用字的使用频率较高,那么 缩短其码长,就可以大大提高汉字的输入速度。 现在所做到的,就是到这个阶段了。但是我们知道,每一个人都有自己的职业、 习惯等,那么表现在汉字表达上有一个特点就是对于有特定职业的人,他或她对于 汉字的使用频率是不一样的。比如如果一个人是学生,那么他或她使用频率较多的 汉字将是“老师”、“课堂”、“考试”、“证书”、“成绩”等等;如果是医生,那么他 或她使用频率较多的汉字将是“病号”、“病情”、“病例”、“药品”等。如何既能满 足常用字优先显示又能体现每个人的汉字使用特点就是未来改进的方向。 2 3 5 改进方案的设想 为了能满足常用字优先显示和照顾每个人的汉字使用习惯,应该在汉字中加入 词频特性。所谓词频特性就是汉字使用的频率”“。词频特性反映在现实中就是常用 字和非常用字,我们平时所说的常用字和非常用字就是对于社会生活中汉字使用频 率的总结,那么如何来结合每个人的汉字使用频率昵? 我们采用了在显示汉字的时候按照高频先见的特性,即使用频率高的汉字首先 显示。主要是针对6 7 6 3 个一、二级简体汉字”“按照统计好的汉字频率表中的频率设 置汉字的频率特性,然后,按照每一个人在使用同一个编码时所选择的汉字频率累 计,这样既可以按照汉字频率的特性也照顾到了每个人输入汉字的频率习惯。 这个方案只是一个设想的改进方案,有待于编程实现和检验。 2 4 汉字的内部存储结构 2 4 1 树形存储结构 本输入法在内部采用树形存 储结构,每个节点存储着本节点表 示的汉字编码、汉字或词组的内 容,以及与其相联系的其他汉字或 n e x t ln e x t 2 n e x t 3 n e x t 4n e x t 5 图2 1 汉字内部存储结构节点图 河北农业大学硕士学位论文 第1 3 页共5 7 页 词组的信息“”。如图2 1 所示。 图2 1 给出了汉字在内存中一个节点的存储结构,每个汉字节点有本身汉字的 编码信息或词组信息,并且拥有n e x t l 到n e x t 5 共五个下一级节点指针,它们分别 对戍本节点汉字编码卜一层节点,n e x t l 代表下一笔是“横”的节点,n e x t 2 代表卜i 一笔是“竖”的节点,n e x t 3 代表f 一笔是“撇”的节点,n e x t 4 代表下一笔是“点” 的节点,n e x t 5 代表下一笔是“折”的节点。 此种编码中对于有相同笔顺的汉字,比如“太”和“犬”两个汉字其笔顺都是 “横、撇、点( 捺在本输入法种按点处理) 和点,其数字编码为“1 3 4 4 ”,这样就出 现了具有相同编码的汉字,也就是说出现了重码字。这是不可避免的,因为汉字笔 顺是相同的。对于具有相同编码的汉字或词组,采用左子树处理的办法,就是把和 当前节点具有相同编码的节点放到当前节点的左子树上( 也就是图2 1 种的l e f 节 点) ,这样对于重码字的处理既能通过节点信息来查找其编码,也不增加存储的空间 复杂度”。 本汉字输入法还支持偏旁部首,也就是说对于偏旁部首进行总结、统计和归纳。 对于偏旁部首的存储也放到树形存储结构的节点中。比如开始是横的偏旁中有“王” 这个偏旁,那么就把这个偏旁存放到本节点的右子树( r i g h t 节点) 上。这样通过树 形结构的节点就完成了汉字编码以及偏旁部首的存储处理。 2 4 2 树形存储结构的优点 采用树形存储结构,使我们在输入汉字编码的时候,就对汉字实行了分支策略, 即每输入一个编码就在原来的汉字基础上缩小到原来大约l ,5 的搜索范围。编码范 围的缩小直接减小了搜索的时间复杂度”o i 。 在搜索的时候,仅仅是按照其笔划和笔顺进行比较,并判断跳转到当前节点的 哪一个分支中进行搜索,并不需要进行额外的空间分配和比较,所以采用这种结构 进行搜索,比采用数组进行比较判断搜索的空间复杂度大大降低。 总体来看,采用树形存储结构有如下优点: ( 1 ) 缩小了搜索的时间复杂度; ( 2 ) 降低了搜索的空间复杂度。 3w i n d o w s 平台上汉字输入法采用的技术 3 1 动态数据连接库( d y n a m i cl i n kl i b r a r y ) 动态数据连接库( d l l ) 是w i n d o w s 操作系统的基础,w i n d o w s 的a p i 中所有 函数都包含在d l l 中。三个最重要的d l l 是k e m e l 3 2 d l l ,它包含了用于管理内存、 进程和线程的各个函数;u s e r 3 2 d l i ,它包含用于执行用户界面任务( 窗口的创建和 型! ! 查些点兰婴主堂些堡壅一一一j 王竖l 生苎i :。堕 消息传递等) 的各个函数:g d l 3 2 ,d l l ,它惫含嗣于瓣圈帮显示文本静嚣个函数”“。 3 1 。1 动态数据连接痒( d l l ) 懿特点 ( 1 ) d l l 扩展了应用程序的特性。由予d l l 能够动态地装入进穰的地址空间, 因此应麓程序能够在运行辩确定执行仟么样的操作,然后装入稻应的代码,鲢馁裰 据需要执行这些操作“; h c o m p s t r ) ; a c c e s sl p c o m p s t r i m m u n l o c k l m c c ( 1 p l m c - h c o m p s t r ) ; r e s i z ei p l m c - h c o m p s t r i f ( ! ( h m y c o m p s t r 。i m m r e s i z e l m c c ( i p l m c - h c o m p s t r , d w n e w s i z e ) ) m y e r r o r ( ”c a nn o tr e s i z eh c o m p s t r ”) ; i r n m u n l o c k l m c r h i m c ) ; r e t u r nf a l s e ; ) l p i m c - h c o m p s t r = h m y c o m p s t r ; i m m u n l o c k l m c ( h i m c ) ; ) 河北农业夫学硕j 二学位论文 鹅2 4 页共5 7 页 4 7 输入法的消息 i m e 需要生成i m e 消息。当i m e 开始转换时,i m e 必须生成 w mi m es t a r t c o m p o s i t i o n 消息,如果1 m e 改变了写作字符串,i m e 必须生 成w mi m ec o m p o s i t i o n 消息,i m e 事件生成与输入上f 文进行交互的窗口消 息。1 m e 基本上使用l m e t o a s c i i e x 函数参数提供的l p d w t r a n s k e y 缓冲区生成消息, 当i m e t o a s c i i e x 函数被调用时i m e 存储消息到l p d w t r a n s k e y 缓冲区中,不过即使 i m e t o a s c i i e x 函数没有被调用,i m e 也可以生成消息给使用输入上f 文的消息缓冲 区与输入上卜文交互的窗口。输入上下文有一个内存块的句柄作为消息缓冲区,1 m e 存储消息到由消息缓冲区句柄提供的内存块中,以后i m e 调用i m m g e n e r a t e m e s s a g e 函数,此函数发送保存在消息缓冲区中的消息到适当的窗1 :3 。 4 ,7 1 在i m e t o a s c i i e x 函数中使用消息缓冲区 下面的实例显示了怎样通过传递缓冲区到l m e t o a s c i i e x 函数生成消息 u 1 n t i m e t o a s c i i e x ( u v i r k e y , u s c a n c o d e ,l p b k e y s t a t e ,l p d w t r a n s b u f , f u s t a t e ,h l m c ) d w o r d d w m y n u m m s g = o : s e tt h em e s s a g e st h a tt h ei m en e e d st og e n e r a t e + l p d w t r a n s b u f + + 2 ( o w o r d 、m s g ; * l p d w t r a n s b u f + + = ( d w o r d ) w p a r a m ; l p d w t r a n s b u f + 斗= f d w o r d ) 1 p a r a m ; c o u n tt h en u m b e ro f t h e m e s s a g e st

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论