无字库智能造字系统在计算机上的实现_硕士学位论文.docx_第1页
无字库智能造字系统在计算机上的实现_硕士学位论文.docx_第2页
无字库智能造字系统在计算机上的实现_硕士学位论文.docx_第3页
无字库智能造字系统在计算机上的实现_硕士学位论文.docx_第4页
无字库智能造字系统在计算机上的实现_硕士学位论文.docx_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文无字库智能造字系统在计算机上的实现作者姓名学科专业模式识别与智能系统指导教师所在学院自动化科学与工程学院论文提交日期the realization of chinese character intelligent formation system without font on computera dissertation submitted for the degree of mastercandidate:huang jian supervisor:prof. pi youguosouth china university of technologyguangzhou, china华南理工大学硕士学位论文无字库智能造字系统在计算机上的实现作者姓名: 指导教师姓名、职称:申请学位级别:工学硕士 学科专业名称:模式识别与智能系统研究方向:图像处理与模式识别论文提交日期: 年 月 日 论文答辩日期: 年 月 日学位授予单位:华南理工大学 学位授予日期: 年 月 日答辩委员会成员:主席: 委员: 华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于:保密,在 年解密后适用本授权书。不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览。(请在以上相应方框内打“”)作者签名: 日期:指导教师签名: 日期:摘要到目前为止,中文信息处理系统都采用字库方式,gb18030-2005是目前国家发布的包含汉字数量最大的字符集标准,基本满足了汉字信息化的需要。但是汉字是不断变化发展的,字库总是很难跟上汉字的变化发展。每增加一个汉字,就需要增加相应的编码来表示这个汉字,字库也要相应地进行更新,不利于中文信息的交流和传播,不能满足整个社会的各个领域的应用需求。因此很难为汉字信息化建立长期稳定和规模合理的字库标准。此外,字库方式还有不能很好地传承汉字文明、不符合汉字认知机理、与教育脱节等弊端。对这些问题如果能找到一种一劳永逸的解决办法,将会给汉字信息化作出重大贡献。文献23根据认知心理学原型匹配理论,将计算机比作人脑,提出了无字库智能造字的概念,明确了智能造字系统中汉字的编码方式和造字方式,完全有别于传统的从字库选字方式。作者进一步的研究提出了系统的结构框架,由网格获取汉字的结构知识,汉字编码使用结构加基元的表示方式。由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。本文的主要内容是基于上述理论实现智能造字系统,包括:(1) 通过对组成智能造字系统结构框架的各个部分的详细阐述,展示了智能造字的原理。通过分析汉字与基元的关系,以当前广泛使用gb18030-2005字符集为实验对象,把汉字部首和汉字部件作为基元的主要来源,实验研究和分析后,最终提取出1085个汉字基元和18种汉字结构。所有汉字都用“汉字结构+基元”的方式来进行编码。仿射变换是系统组字的重要技术手段,基元之间通过仿射变换拼合起来组成汉字。仿射变换参数通过sift算法获取。智能造字的知识库由汉字的编码知识、结构知识、基元知识以及基元的映射知识组成,是智能造字系统的数据基础。2. 把智能造字系统划分为三个模块:输入模块,造字模块和显示模块。对各个模块编写了详细的功能需求,根据模块的数据特点精心设计了数据结构,并在算法效率上进行了理论分析。输入模块实现了微软windows系统的ime接口,既可以作为智能造字系统的输入,也可以作为一个独立的系统输入法。造字模块使用了编码校验算法对输入的编码进行了检查,再通过解析程序分离结构编码和基元编码,然后使用仿射变换组字。显示模块使用了编码转换算法和排版算法,在用户界面设计上借鉴了windows记事本。3. 在windows平台上运行智能造字系统,记录系统加载知识库等数据占用的内存情况。测试在系统中各级结构的汉字的输入情况。测试了系统显示界面的排版显示效果。关键词:输入法;汉字基元;汉字结构;排版算法abstractso far, all chinese informationlization processing systems are implemented by font. the gb18030-2005 chinese character set is the biggest standard character set issued by country and it almost meets the need of chinese informationlization. the evolution of chinese character happens all the time and current font cannot follow the process. when a new word arises, it needs a new code to represent the word, and the font also should be updated, which hinders the communication and transformation of chinese information. it is hard to establish a reasonable size chinese character set which will be stable for a long time. plus, the font cannot reflect chinese civilization, not conforms to chinese character recognition mechanism, and is out of touch with education. it will be a great contribution to the chinese informationlization if a solution to solve all the problems is found.literature 23 according to the prototype matching theory of cognitive psychology, compare computer to be human brain, proposed the concept of chinese character formation system without font, defined the coding and formation method which completely differed from the traditional font. the author brought forward to the framework of the system, acquiring the chinese character structure by grid, coding the word with the form of chinese character structure plus chinese character prototype. the system was composed by chinese character prototype set, knowledge base and intelligent formation unit. base on the above theory implemented the chinese character intelligent formation system as following:(1) detailed descriptions of all parts of the chinese character intelligent formation system demonstrated the theory of the system. analyzing the relationship between chinese character and prototype, using the generally used gb18030-2005 chinese character set as experimental subject, we chose chinese radicals and chinese character components as the major source of prototype. after experiment and analyzing, we finally extracted 1085 prototypes and 18 structures. all chinese characters coding followed the form of structure plus prototype. affine transformation was an important formation technology in the system. chinese character was formed by the prototypes and affine transformation. affine transformation coefficients were acquired with sift algorithm. the knowledge base of the system was composed by prototype coding knowledge, structure coding knowledge, chinese character coding knowledge and affine transformation coefficients, which was the most important part of the system.(2) divided the system into three modules: input method module, chinese character formation module and display module. detailed functional requirements were designed towards each module. according to the properties of each module, data structure and algorithm efficient were discussed. the input method module implemented the ime interface of microsoft windows operating system. it could be used as an input method either on the chinese character intelligent formation system or windows system. chinese character formation module used a code check algorithm to check the input code, divided the prototypes and structures, and applied affine transformation to form chinese character. display module developed coding transformation algorithm and document layout algorithm. its interface design was referenced to windows notepad.(3) launched the chinese character intelligent formation system on windows system and recorded the memory consumption of knowledge base. tested all level structures chinese characters input. tested the systems display and document layout.key words: input method; chinese character prototype; chinese character structure; document layout algorithm目录摘要iiiabstractiii第一章 绪论31.1 研究背景31.1.1汉字的起源和发展31.1.2中文信息化的发展31.1.3智能造字理论31.2 本文的目的和意义31.3 本文的主要工作31.4 本文的结构安排3第二章 智能造字系统32.1 引言32.2 智能造字系统32.2.1 智能造字系统结构32.2.2 智能造字系统模块划分32.3 基元提取,结构提取以及编码方式32.3.1 基元提取32.3.2 结构提取32.3.3 编码方式32.4 仿射变换造字原理32.5 基元变换知识获取32.5.1 选点方法32.5.2 计算感兴趣区域32.5.3 计算基元变换知识32.6 知识表示32.7 本章小结3第三章 输入法模块设计33.1 引言33.2 功能需求33.2.1 皮氏输入法的特点33.2.2皮氏输入法的功能设计33.3 方案设计33.3.1 ime介绍33.3.2 数据结构与查找算法33.3.3 内存处理技巧33.3.4 模块工作流程33.4 本章小结3第四章 造字模块设计34.1 引言34.2 需求与设计34.2.1 功能需求34.2.2 数据结构分析与算法34.2.3 模块工作流程34.3 本章小结3第五章 显示模块设计35.1 引言35.2 需求与设计35.2.1 功能需求35.2.2 数据结构分析与算法35.2.3 模块工作流程35.3 本章小结3第六章 系统测试与分析36.1 引言36.2 智能造字系统性能36.3 智能造字系统实验操作36.4 本章小结3结论31 主要工作及创新32 下一步的改进3参考文献3攻读硕士学位期间取得的研究成果3致谢3v第一章 绪论第一章 绪论1.1 研究背景1.1.1汉字的起源和发展语言是一种社会现象,是音、义结合的一种符号系统1。人借助于语言来交流思想,组成人类社会生活,进行思维活动、揭露事物的本质和规律,创造人类的物质文明和精神文明2-4。文字是在语言的基础上创造出来的,是语言的最重要的辅助工具。文字储存着人类文明的信息,它超越了语言交际的时、空限制,使异时、异地的交际成为可能5。它可以记载和传递人类的历史经验、使人了解过去的历史,总结自己的经验,开拓未来的生活。这是人类社会发展和认知发展的重要前提6。汉字是汉民族在长期的劳动生产和社会实践中为适应交际需要而独立创造出来的书面交际工具7。在人类文字发展的历史长河中,汉字是一种重要而独特的文字系统。它在记录语言的方法、造字的方式、字形的结构等方面都有着显著的特点8。关于中国文字的起源,在战国以来的两千多年中,一直为学术界所关注,历代学者各抒己见9。归纳起来,包括:(1)结绳说。认为文字是在上古时期结绳记事的启示下创制而成的。(2)八卦说。认为文字产生于易卦的卦象,如乾卦为天,坤卦为地,坎卦为水,离卦为火等。(3)刻契说。认为文字产生于古人为了记事在竹片或木板上所刻的缺口和记号。(4)仓颉造字说。认为仓颉受到灵龟的启示创制了文字。(5)图画说。古人用图画记事,文字是在图画的基础上逐渐产生的。尽管各种说法不尽相同,但是它们都有共通之处,那就是汉字是先民在早期的计数和记事的方法中逐渐演变过来的。计数和记事方法中使用的符号慢慢演化成原始的文字。随着社会的发展,文字的使用越来越广泛,原有的文字开始无法满足社会的需求,人们不得不在这些原有的文字的基础上利用新的方法来创造更多的文字。于是新的造字方法产生了,这就是后来的“六书”造字法。许慎在说文解字中总结了六种造字方法10,分别是“象形、指事、会意、形声、转注、假借”,这六种方法就是“六书”。 自许慎系统地提出六书说后,汉字造字法一直围绕六书展开,形成了不同时代,不同派别的“六书说”11,12:戴震提出“四书二用”;唐兰、陈梦家、裘锡圭提出“三书说”;詹郸鑫提出“新六书说”。其中,戴震提出的“四书二用”影响最大,认为转注和假借一般认为只是“用字之法”,象形、指事、会意、形声才是“造字之法”。(1)象形是用线条描画实物的形象,以此来表示字义的造字方法。例如“木”的古字形就是用线条画出树的样子,上面是枝干,下面是树根;“火”的古字形则像火苗向上的样子;“马”的古字形像一匹马;“车”的古字形像一辆车。象形字的字形与字义联系比较具体、紧密,这类字大多表示自然界和日常生活中的实物,如“日、月、山、水、田、井、禾、米、弓、目”等都是象形字。由于象形字只能画出有客观物象的事物,无法表示无形可象的事物和不易画象的事物,所以象形字数量并不多。(2)指事是用象征性的符号来提示字义的造字方法。指事字可以分为两类:一类是纯粹符号性质的,如用一横线作基准,横线上加一短横表示“上”字,横线下加一短横表示“下”字。一类是在象形字的基础上添加指事符号,如“木”下加短横,表示“本”字,指树根,“木”上加短横,表示“末”字,指树梢。其他如“刃”在刀口加点,指明刀口所在,“亦”在人形的两臂之下加点,指明两腋所在。指事字比象形字还少,尤其是纯符号的指事字更少,因为用抽象符号来表示字义,局限性很大。(3)会意是用两个或两个以上字形组合起来表示字义的造字方法。如“吠”是由“口”和“犬”合成,表示狗用口发出叫声。又如“看”是由“手”和“目”合成,表示手放在眼睛上方,挡住光,好远望。其他如“出”像人的脚从坑中跨出,“析”指斧子去砍树木。会意字是在象形字的基础上创造出来的,它所表示的字义要从几个象形字组合的关系上会合出来,因此它加强了象形的表意作用,扩大了象形的使用率。会意比象形、指事前进了一步,能表示较复杂抽象的概念,在一定程度上丰富了文字,但它所创造的字仍然有限,只能弥补象形和指事的一部分不足。(4)形声是用形符和声符组合起来分别提示字的意义和读音的造字方法。形符是形声字的表义成份,声符是形声字的表音成份。例如“桐”字,“木”是形符,表示属树木一类,“同”是声符,表示读“同”音。形声字用形符来提示所记词的意义类属,并区分声符相同的同音字和近音字,如“清、晴、情、请、菁、睛、精”等;形声字又用声符来提示所记词的大致读音,并区分形符相同、读音相近的字,如“伊、仪、倚、亿、依”等。正因为形声法采用形符和声符相结合的方式弥补了单纯依靠字形来表达字义的缺陷,丰富了汉字记录汉语的手段,具有强大的派生能力,所以后来成为最主要的造字方法。上述分析表明,汉字是造出来的而不是选出来的;汉字是由象形和指事符号本身构成或是由象形和指事符号按照会意以及形声的法则进行组合而造出来的。张恩普等人对现代汉字的特点进行分析,认为汉字是拼形文字13-16,是通过图形拼合来记录汉语的。作为一种拼形文字,汉字有如下几个特点:(1)表意的直接性。由于汉字是通过图形拼合来表意的,而图形本身又是同语言中的意义直接联系的;所以汉字的表意具有明显的直接性。首先是形义合一性;这一点在象形字中体现得最为明显,如“日”、“月”、“水”、“火”等字,均依形而画,其字义一看便知。其二是视觉认知性;汉字最能体现文字作为书面语言系统的特性,汉字可以通过视觉接受,而不一定借助声音。(2)图形的整一性。汉字的基本图形为部件或是由若干笔画组成的独体汉字,其组合图形具有完整统一的特点。完整,是指在图形组合中基本图形保持不变;统一,是指组合图形要统一到方形中。具体表现在为两方面:其一,无论多么复杂的汉字,都可以分解为若干完整图形,比如“瀛”可分解为“氵”、“亡”、“口”、“月”、“女”、“凡”六个完整图形。其二,无论由多少图形组成的汉字都必须统一在一个方形里,不因组合图形多少或简单复杂。如“二”和“嫠”。(3)结构的立体性。汉字的图形结构具有很强的立体性,其图形不像拼音文字那样的横向线性排列,而是方形立体结构,组成汉字的各个图形均依据方块字形做立体排列。例如“萍”字。汉字在我国漫长的历史过程和文明发展中建立了不可磨灭的功绩。在世界进入信息时代的今天,最先进的计算机工具与最古老的文字正在有机地结合起来,汉字在文字使用范围和效能上的这种变化使汉字面临着一场新的挑战,这也为汉字的应用和发展开辟了极其广阔的前景,可以使汉字推动社会进步的作用得到了更充分的发挥。我们学习和应用汉字,研究汉字,目的就是要使汉字对中国现代化建设与人类社会文明进步作出更大的贡献。1.1.2中文信息化的发展信息化是指培养、发展以计算机为主的智能化工具为代表的新生产力,并使之造福于社会的历史过程。语言文字是信息化的主要内容。信息资源必须有载体,没有载体就不能保存和传递,由于语言文字承载了80以上的信息,在各类信息载体中,语言文字的重要性居于首位。因此,文字信息化是信息化最重要的底层核心技术,它影响一个国家的信息产业在国际上的竞争能力及信息化水平和效率。我国从20世纪50年代就开始了计算机中文信息处理的理论和技术的研究,自20世纪70年代中期开始,我国逐渐加快在计算机中文信息处理方面的发展步伐,在汉字键盘输入技术、汉字输出技术、汉字编码技术、汉字储存、检索和识别、电子照排、中文平台等多方面取得了一系列重大成果17,18。尤其是在汉字识别和自然语言理解等高技术领域拥有国际领先的地位18。中文信息处理的应用市场广阔,潜力巨大,国外众多计算机企业也加入中文信息处理的研究队伍,对以计算机为实现工具的中文信息处理的应用和推广起到了重要的推动作用。我国已在科学、文化、管理等社会的各个方面广泛使用计算机,信息化已席卷全国城乡,成为一种新型的生活和工作方式。到目前为止,我国和国际组织开发的中文信息处理系统都采用字库方式19-22,以汉字作为信息处理的基本单位。字库中按照一定的顺序保存有每个汉字的显示信息,保存的位置与对应汉字的编码存在映射关系,显示汉字的时候可以直接根据编码读取对应的显示信息。字库根据显示信息的描述方法分为点阵字库和矢量字库。点阵字库中保存了汉字图像中像素信息,这种字在进行放大时很容易出现锯齿,影响美观。现在的字库大都是矢量字库,常用的有true type字库和postscript字库。矢量字库保存的是汉字图像的关键点信息,显示汉字的时候根据这些关键点用二次或三次贝塞尔曲线重新连接,所以不管把这种字体放大多少倍也不会模糊或出现锯齿,保证了字体的美观。汉字字库在国内外一直使用至今,基本满足了到目前为止的中文信息化的要求,为中文信息化做出了不可磨灭的贡献。但这种方式也存在它固有的弱点23:(1)汉字信息化标准变化频繁。近20多年来,在汉字信息化标准制定方面,国内外相继制定了多个汉字编码标准。1980年我国颁发的gb2312-80,收录了信息交换用的6763个汉字和682个非汉字图形符号的代码24。1990年我国颁发了gb12345-90,收录了717个图形符号和6866个汉字。汉字均是gb2312-80中简化汉字的繁体形式,其编码范围与gb2312-80相同25;1993年国际标准化组织正式发布gb 13000.1-1993,收录汉字字形20902个26;1995年我国颁布了汉字内码扩展规范gbk,收录了21003个汉字27;2001年我国信息产业部和国家质量技术监督局联合颁布了gb18030-2000,共收录汉字27484个28。1978年到2000年短短22年间,我国出台了四个国家标准,国际标准组织出台了一个国际标准,都是交换码标准。这反映我国对汉字信息化高度重视和全社会对汉字信息化的迫切需求,另一方面也反映了我国汉字信息化的标准稳定性差。最新的gb1803-2005标准可以涵盖70244个汉字。然而,现有十万多个汉字,gb18030-2005的字库还是远没有覆盖所有汉字。从七十年代末期实现中文输入到现在,每隔几年就要扩大更新一次汉字字库。汉字是在不断发展的大字符集,字库总是不能适时跟上汉字的发展,要增加一个新的汉字,需要增加相应字节来储存并规定编码29,就必须颁布新的标准。这就意味着汉字字库方式很难为汉字信息化建立长期稳定和规模合理的字库标准。而且,汉字字库的规模和稳定性永远是一对矛盾:规模越大,稳定性越好;规模越小,稳定性就越差。只要采用汉字字库,上述问题就得不到解决。(2)不符合汉字认知规律而与汉字教学脱节,汉字的学习是从笔画、偏旁部首开始的,而在计算机里就完全是选字,两者脱节。(3)不符合汉字的造字规律,影响对文化的传承作用。汉字是由象形和指事的基本符号体系进行拼合的文字。而现有字库系统不能全面传承中国文字的文化。(4)信息熵高,是效率最低的文字信息系统。联合国的5种工作语言文字的静态平均信息熵,法语、西班牙语、英语、俄语、汉语,分别为3.98、4.01、4.02、4.35、9.65。可见汉字平均静态信息熵是世界上开销最大和效率最低的文字30。1.1.3智能造字理论1.1.3.1 智能造字国内外研究现状鉴于汉字字库存在的不足,不少学者对汉字生成技术进行了研究和探索,并取得了一些研究成果。周浩华31, 32对智能汉字库进行了探讨,受到人写字的思维过程的启示,人先是使用了汉字的构成知识,然后是使用了基本笔画知识,再根据笔画来组成汉字,提出了用笔画来组字的理论;香港大学pak-keung lai33, 34等人根据汉字组件之间的层次关系,提出了汉字组件通过结构进行组合来生成汉字的方法,从而解决计算机字库中存在缺字的问题;香港浸会大学candy l.k. yiu35等人同样针对计算机字库缺字问题,提出了利用操作子通过笔画组合来生成汉字,使用一种叫做hanglyph的汉字描述语言,开发了汉字生成系统;金连文36, 37针对汉字字库的存储量大的问题,根据相同的部件在不同的汉子中出现的规律,提出了一种基于部件复用的分级汉字字库的构想。综上所述,无字库汉字生成研究采用组件拼合的方式,或以笔画作为基本组件,或以部件作为基本组件,得出了可以不用字库生成汉字的结论。上述的汉字生成研究主要存在以下不足:(1)只是从技术层面对汉字生成技术进行了探讨,并没有从文化层面探讨如何传承汉字优秀文化,也无法一劳永逸的解决汉字的信息化标准问题。(2)以上研究的出发点主要针对汉字字库存储量大,汉字字库缺字等问题,开展了局部的,小范围汉字字符集的实验研究,实验集合远远小于当前所有的汉字。(3)以笔画作为基本组件,虽然可以大大减少基本组件的数量,但是汉字编码的长度势必要大大增加,从而大大地降低了计算机进行信息处理的效率和输入速度。另外,笔画是书写的最小单位,采用笔画生成汉字不符合人对汉字的认知机理,与教育脱轨,不传承汉字文明。1.1.3.2 基于认知机理的造字理论针对汉字字库存在的不足,文献38提出汉字电子化中的拼部组字方法,明确提出采用智能造字取代汉字字库,不以汉字作为中文信息处理的基本单元,而是把汉字基元作为组字的基本单元。在中文信息处理系统中只有汉字基元库而没有汉字字库,用汉字基元进行造字而不是到汉字字库中选字。文献39进一步研究提出了系统的结构框架,由网格获取汉字的结构知识,由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。文献40从认知科学的角度开展基于认知机理的汉字智能造字研究,建立汉字原型库和智能造字知识库,在此基础上研究无字库智能造字系统,以智能造字取代现有中文信息处理的汉字字库。研究结果表明基于认知机理的智能造字有如下优点:(1)能建立长期稳定的标准。建立的汉字原型库经过实验,能够覆盖已经存在的所有汉字,归纳的智能造字知识库也能够涵盖已经存在的所有汉字;用规则的形式将他们确定下来,形成造字规则,以后新产生的汉字按造字规则来构造。这样就可以制定长期稳定的标准。(2)能传承汉字文明。智能造字主要使用汉字部件进行组字,偏旁部首汉字原型库和智能造字知识库都遵循汉字的文化特点,符合人的汉字认知规律,同时兼顾计算机信息处理的特点。这样就可以将汉字的文明代代传承。(3)满足社会应用的需要。建立的汉字原型库能够覆盖已经存在的所有汉字,归纳的智能造字知识库也能够涵盖已经存在的所有汉字,据此建立的造字规则能够保证在相当长的一段时间内满足全社会各个领域的需要,不存在不够用的问题。(4)与现有的识字教学相适应。汉字原型库和智能造字知识库都从汉字的文化特点出发,与汉字教学接轨。汉字学习者在学校里学习的汉字知识可在基于智能造字的中文信息处理系统中使用,这就克服了基于字库的中文信息处理与汉字教育脱节的缺点,将为全社会节约大量的社会成本。(5)有可能降低汉字信息熵。汉字原型库的数量将远小于汉字的数量,信息处理过程中的确定性增加,信息熵将会降低,信息化效率将会提高。1.2 本文的目的和意义本文的研究目的是通过实验,利用工程化的实验方法,验证经过实验提取的基元和结构对汉字集的覆盖情况;验证通过实验获取的仿射变换知识来组字的可行性;最终验证基于认知机理的汉字智能造字的可实现性。本文根据基于认知机理的汉字智能造字理论,介绍了基元和结构的提取方法以及汉字的智能造字编码方式,以仿射变换为工具,把基元映射到目标图像来造字。汉字的智能造字编码,基元库和仿射变换系数组成智能造字系统的知识库,利用这些知识开发输入模块,造字模块以及显示模块。如果实现上述目标,就将具有如下意义:(1)如果建立的汉字基元库经过实验验证,能够覆盖已经存在所有的汉字,那么就可以用规则的形式将他们确定下来,以后新产生的汉字将按照该规则来造字。这样就可以像拼音文字一样制定长期稳定的汉字信息化标准;也就可以验证利用有限个汉字基元可以覆盖到整个汉字实验样本。从而建立长期稳定的标准。(2)通过仿射变换进行组字的智能造字方案是可行的。(3)随着汉字集合的不断变大,许多汉字没有读音,五笔输入法也无法涵盖所有汉字,部分汉字的录入成了问题。智能造字系统的输入法可以轻松解决复杂汉字的录入问题。(4)基于认知机理的智能造字方式与传统的选字方式不一样,它需要实时造字,对系统要求高,如果智能造字系统的效率符合需求,有利于智能造字的广泛应用。1.3 本文的主要工作本文主要的研究工作如下: (1)研究智能造字系统的工作原理,根据智能造字系统的结构划分软件模块。按照基元,结构和仿射变换系数的提取方法来获取相关数据,为智能造字系统提供数据基础。(2)智能造字系统的软件实现。设计各个模块的功能需求,然后根据需求来进行具体的设计,在数据存储效率和数据查找算法方面进行优化,尽可能地提高系统的性能,为智能造字的推广创造条件。(3)对智能造字系统进行测试,验证基元和结构的覆盖情况,验证仿射变换组字的可行性,测试系统的整体性能。1.4 本文的结构安排针对上述研究工作,对本文的各个章节安排如下: 第一章绪论,简要介绍了汉字的起源和发展;对汉字信息化及中文信息处理系统进行了评述,深入地对汉字字库方式存在的弊端进行了分析和思考;根据认知心理学的原型匹配理论,提出了本文所研究的科学问题,并提出了本文的研究目的、研究意义及主要研究内容。第二章智能造字系统。介绍智能造字系统的工作原理,并且对系统进行了模块划分。简要介绍基元提取的原则和方案,结构提取的理论依据,结构加基元分层编码方式的合理性,仿射变换的数学原理,以及仿射变换系数的获取方法。第三章输入法模块设计。介绍windows系统imm输入法接口;介绍输入法模块使用的数据结构和数据查找算法;介绍内存处理技巧;详细介绍输入法的按键处理流程。第四章造字模块设计。设计高效的编码校验算法;设计专门的哈希算法来实现编码的转换;组字过程中加入了双线性插值算法来平滑仿射变换过程中出现的边缘锯齿。第五章显示模块设计。显示模块借鉴记事本的界面;阐述光标定位算法;设计排版算法来增加汉字文档显示的美感。第六章系统测试与实验。对智能造字系统的各个模块的内存使用进行测试;对智能造字系统的基本操作进行测试;对智能造字系统的排版算法进行测试;用图示详细展示输入的过程。最后回顾全文的工作,总结归纳了本研究工作的成果和创新之处,并指出今后进一步的研究工作。83第二章 智能造字系统第二章 智能造字系统2.1 引言六书汉字造字方法为“象形、指事、会意、形声、转注、假借”。汉字包括独体字和合体字,其中象形字、指事字是独体字,由象形字、指事字及其符号按照会意和形声规则进行拼合而成的字就是合体字。组成汉字的 “象形”和“指事”字及其符号是汉字的基元。组成汉字合体字的 “会意”和“形声”方法是汉字的字源结构。它们决定了汉字是“表意”文字和是“结构化”文字的基本文字特点。汉字的认读和书写过程,都是一个典型的模式识别的过程。将传统的造字理论与认知心理学的原型理论相结合,形成基于认知机理的智能造字原理。2.2 智能造字系统2.2.1 智能造字系统结构将计算机比作人脑,用计算机模拟人的认读和书写功能,将汉字基元知识、将汉字结构知识、将基元在结构中的映射知识建立知识库来模拟人的长时记忆;用推理机、解释机制、智能造字单元来模拟人在认读和书写过程中脑的控制功能。汉字识别对应于认读过程,智能造字对应于书写过程。这样就将人的汉字认读和书写过程外延到计算机中了。根据文献39提出的认知模式识别系统框架结构,结合汉字认知机理的汉字智能造字系统结构如图2-1所示。智能造字系统由知识库、推理机、解释机制、智能造字单元、用户界面和储存单元组成40。一知识库知识库用来存放汉字的编码知识、结构知识、基元知识以及基元的映射知识,是整个智能造字系统的核心。系统造字过程所需要的数据都由知识库提供。其中基元知识是以部首和汉字部件为基础通过实验和分析不断优化获得41-43;结构知识在依层次分析得出的13种汉字结构基础上对gb18030-2005汉字集通过实验补充和调整获得41,44;基元的映射知识以仿射变换为基础,通过pso算法和实验获得45,46。二推理机推理机根据用户的输入,利用一定的规则限制和造字规律,结合知识库中的知识,推理出汉字编码,补充和完善用户的输入,减少不必要的按键,避免不必要的输入错误,提供了友好的联想提示,从而帮助用户方便准确地完成汉字编码的输入工作。知识库:结构知识,基元知识,编码知识,映射知识推理机解释机制造字单元人机接口存储单元图2-1 智能造字系统结构fig 2-1 architecture of chinese character intelligent formation system三解释机制解释机制分析当前输入的编码,根据编码规则校验当然输入的编码是否正确,并把当前编码中的结构编码知识和基元编码知识解析出来,再根据解析的结果从知识库中提取对应的基元映射知识,为造字单元提供必要的数据,为下一步的造字工作做好准备。四智能造字单元智能造字单元通过仿射变换原理将编码中的所有基元映射到目标图片来完成造字工作。仿射变换可以实现把一个图像按照给定的参数变换到另一个图像的功能,这种变换可以是拉伸或旋转。智能造字单元根据解释机制提供的汉字结构编码知识、基元编码知识和映射知识,运用仿射变换原理把基元图片映射到目标图像上生成汉字。五人机接口(键盘、显示界面)人机接口接收用户的输入并显示结果。这种交互方式就像是在文本编辑器中进行汉字输入操作,包括汉字输入法功能和文本编辑功能。用户输入的是智能造字系编码,然后系统根据输入的编码在知识库中搜索符合该编码的知识,并把搜索结果像汉字输入法的候选字提醒功能那样显示在用户界面上供用户选择。用户根据搜索结果的提示进行下一步操作,直到输入完成。由于汉字基元数目较多,要用户记住基元的编码然后直接以汉字编码的方式输入比较困难,为了方便用户输入,免去记忆基元的麻烦,造字系统提供友好、方便的输入方式,只要求用户具有基本的汉字结构知识,然后根据系统的提示就能顺利完成编码的输入。用户输入的汉字能正确地在类似记事本的显示界面上显示,然后用户可以像编辑记事本文本一样对界面上的汉字进行编辑。六存储单元储存单元完成相关数据文件的保存和打开功能,保存文件时,把汉字的编码按照特定的方式保存下来,而打开文件时运用系统的解析机制和造字功能把汉字拼组出来并在界面上显示。智能造字系统工作的流程如下:用户输入汉字编码的首位后,推理机利用知识库的知识进行推理和联想,与用户交互方式进行编码录入,以免去人们记忆基元和结构编码的麻烦并保持高效输入。计算机得到智能造字编码后,解释机制对汉字编码进行解析,得出汉字的结构和基元;然后从知识库中取得映射知识数据,智能造字单元将基元映射到相应的结构上,从而完成汉字智能造字并在用户界面上显示。通过用户界面,用户可进行文件保存、打印等操作。2.2.2 智能造字系统模块划分程序的模块化设计,简单地说就是将程序的某些功能组合在一起,构成一个具有特定功能的子系统,将这个子系统作为通用性的模块与其他模块进行多种组合,构成新的系统,产生多种不同功能或相同功能、不同性能的系列产品。模块化设计是最常用的设计方法,经过大量的开发实践,它已经从理念发展为成熟的设计方法47。系统模块的划分要符合两个要求:(1)高内聚48。内聚性又称块内联系,指模块的功能强度的度量,即一个模块内部各个元素彼此结合的紧密程度的度量。若一个模块内各元素(语名之间、程序段之间)联系的越紧密,则它的内聚性就越高。(2)低耦合49。耦合性是程序结构中各个模块之间相互关联的度量,它取决于各个模块之间接口的复杂程度、调用模块的方式以及哪些信息通过接口。模块化设计的最终目标,是希望建立模块间耦合尽可能松散的系统。在这样一个系统中,我们设计、编码、测试和维护其中任何一个模块,就不需要对系统中其他模块有很多的了解。此外,由于模块间联系简单,发生在某一处的错误传播到整个系统的可能性很小。因此,模块间的耦合情况很大程度影响到系统的可维护性。可是,“高内聚、低耦合”的要求是相互矛盾的,内聚性越强,则要求的函数越多(每个函数只作一件“事”),这样,将它们组合成“大”的功能,也就越复杂,就不可能达到低耦合。因此,应在二者之间作出平衡与折衷的选择,这也体现程序员的水平。从系统论的角度来看,系统是有层次的,即系统可以分为子系统,模块可分为子模块,“高内聚、低耦合”的“度”的把握,应结合系统的次层性来考虑,即通常应在层次性上作出折衷,如:模块内子程序(下一个层次上)应共享数据(有一定的耦合度),而减少全局变量能降低子程序性间的耦合性。在智能造字系统中,用户的输入逻辑由输入模块进行管理,智能造字模块则负责处理输入模块传递过来的编码,然后把结果交给显示模块,显示模块则负责把结果显示在用户界面上,这三个模块的划分符合高内聚低耦合的要求,其模块划分框图如下所示。输入法模块显示模块智能造字模块系统数据,配置信息,知识库图2-2 智能造字系统模块划分fig 2-2 module partition of chinese character intelligent formation system2.3 基元提取,结构提取以及编码方式2.3.1 基元提取从理论角度分析,心理学的原型理论认为客体由原型按照一定的方式组成,元素周期表是地球上万物组成的“原型集”,现存于地球上的任何物体都是由元素周期表中的元素组合而成。随着科技和社会的不断发展,可能会有不断被提取的原型添加到原来的原型集。通过这种不断发展完善的方式使得原型集能够一直适应时代的发展。虽然原型集是一直变化发展的,但是在一定的时间范围内,它确是固定不变的,比如拼音文字中的英文,以26个字母作为原型。所有英文都可由26个字母组合而成,在英文发展演变过程中,尽管英文的单词长度和字汇数量在不断变化,但26个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论