（计算机应用技术专业论文）分词词典的构建.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：41 大小：1.72MB 积分：12 举报 版权申诉

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

内蒙古师范大学硕士学位论文中文摘要随着网上数字化信息资源的不断增长，怎么样自动处理这些信息已成为目前一个重要的研究课题，汉语自动分词在中文海量信息处理中起着非常重要的作用。由于汉字之间没有明显的分词标志，如果简单地以单个汉字作为信息处理的基本单元，既缺乏必要的语义表达，又带来大量的冗余信息，因而分词算法在中文信息处理的各个领域被广泛应用。现有的汉语自动分词系统大都是先基于词典进行匹配分词，再利用句法语义关系和统计方法进行歧义处理和未登录词处理。分词词典机制的优劣直接影响到分词系统的速度和效率，因而建立高效快速的分词词典机制势在必行。常用的分词词典机制有：基于逐字二分的词典机制、整词二分的词典机制和基于t r i e 索引树的词典机制。在对前面分词词典机制的分析中，前面的三种词典都是以首字建立索引表，通过统计，我们知道在汉语中，二字词和一字词的出现概率远远大于其它字长的词，依据这一现象，我们提出了以词的前两字为关键字建立索引表的想法。该索引表是一个二维数组，该算法是通过将前两字的汉字内码与数组下标建立对应关系来直接确定数据项的位置的，这样通过二维数组可以直接把二字词判断出来，然后再进行下面的查询匹配，这种方法可以使查询次数大大减少，从而使分词速度进一步加快。本文在对语料进行选取，加工的基础上，最终建立了一个基于二字词检测的分词词典试验系统，该系统具有自动分词、词语查询和词典维护的功能。关键词：词典机制，分词词典，二字词检测数组内蒙古师范大学硕士学位论文 a b s t r a c t w i t ht h eu n c e a s i n g l yg r o w i n go fo n l i n ed i g i t a li n f o r m a t i o nr e s o u r c e s ，i t h a sb e c o m ea ni m p o r t a n tr e s e a r c ht o p i ct h a th o wt oa u t o m a t i c a l l yp r o c e s s t h e s ei n f o r m a t i o n c h i n e s ew o r ds e g m e n t a t i o np l a y sav e r yi m p o r t a n tr o l ei n c h i n e s em a s s i v ei n f o r m a t i o n p r o c e s s i n g a s t h e r e i s n to b s v i o u s s e g m e n t a t i o nm a r ki nc h i n e s ec h a r a c t e r s ，a n di fs i m p l yp u t t i n g as i n g l e c h a r a c t e ra st h eb a s i cu n i to fi n f o r m a t i o np r o c e s s i n g ，i tn o to n l yl a c k st h e n e c e s s a r ys e m a n t i ce x p r e s s i n g ，b u ta l s ob r i n g sal o to fr e d u n d a n ti n f o r m a t i o n ， t h u sw o r ds e g m e n t a t i o na l g o r i t h mi sw i d e l yu s e di nv a r i o u sf i e l d so fc h i n e s e i n f o r m a t i o np r o c e s s i n g e x i s t i n gc h i n e s ew o r ds e g m e n t a t i o ns y s t e m sa r e m o s t l yb a s e do nt h ed i c t i o n a r y t om a t c ht h ef i r s t w o r d ，t h e nu s i n g s y n t a c t i c s e m a n t i cr e l a t i o n s h i pa n ds t a t i s t i c a lm e t h o dt od e a lw i ma m b i g u i t y p r o c e s s i n ga n dn o tr e g i s t e rw o r d sp r o c e s s i n g t h es u p e r i o ra n di n f e r i o ro f s e g m e n t a t i o nd i c t i o n a r ym e c h a n i s md i r e c t l ya f f e c t st h es p e e da n de f f i c i e n c y o ft h es e s t e m ，t h e r e f o r e ，i ti si m p e r a t i v et oe s t a b l i s hah i g he f f i c i e n ta n df a s t m e c h a n i s m t h ec o m m o n s e g m e n t a t i o nd i c t i o n a r ym e c h a n i s m sa r ea sf o l l o w s ： b i n a r y - s e e k - b y c h a r a c t e r 、b i n a r y s e e k - b y - w o r da n d t r i ei n d e x i n gt r e e i nt h e p r e v i o u sa n a l y s i s o f s e g m e n t a t i o nd i c t i o n a r ym e c h a n i s m , t h e t h r e e d i c t i o n a r i e sa l lb u i l du pi n d e xt a b l eb a s e do nt h ef i r s tc h a r a c t e r t h r o u g h s t s t i s t i c sw ek n o wt h a ti nc h i n e s et h ea p p e a r a n c ep r o b a b i l i t yo ft w o w o r d w o r d sa n do n e - w o r dw o r d si sf a r l a r g e rt h a n t h a to fo t h e rw o r d e n g t h w o r d s ，a c c o r d i n gt ot h i sp h e n o m e n o n ，w ep u tf o r w o r ds u c ha ni d e at h a tw e c a n b u i l du pi n d e xt a b l eb ys e e m i n gt h ef i r s tt w ow o r d sa st h ek e y w o r d s ，a n dt h i s i n d e xt a b l ei sat w o d i m e n s i o n a la r r a y , t h i sa l g o r i t h md i r e c t l yd e t e r m i n e sd a t a i t e m s l o c a t i o nb ye s t a b l i s h i n gac o r r e s p o n d i n gr e l a t i o n s h i pb e t w e e nt h ef i r s t t w oc h i n e s ec h a r a c t e r s i n t e r n a lc o d ea n da r r a yi n d e x ，i nt h i sw a y , w ec a n 内蒙古师范大学硕士学位论文 d i r e c t l yf i n do u tt h et w o - w o r dw o r d sb yu s i n gt h et w o - - d i m e n s i o n a la r r a y , a n d t h e np r o c e e d i n gt ot h ef o l l o w i n gq u e r ym a t c h t h i sa p p r o a c hc a ns i g n i f i c a n t l y r e d u c et h et i m e so fq u e r i e s ，s oa st of u r t h e ra c c e l e r a t et h es p e e do f s e g m e n t a t i o n o nt h eb a s i so f s e l e c t i n ga n dp r o c e s s i n go f w o r d c o r p u s ，t h ep a p e rf i n a l l y e s t a b l i s h e da s e g m e n t a t i o n d i c t i o n a r y t e s t s y s t e m b a s e do n t w o w o r d a r r a y ，w h i c hh a ss u c hf u n c t i o n sa sa u t o m a t i cs e g m e n t a t i o n 、w o r d s i n q u e r ya n dd i c t i o n a r ym a i n t e n a n c e k e y w o r d ：d i c t i o n a r ym e c h a n i s m ，s e g m e n t a t i o nd i c t i o n a r y , t w o w o r d a r r a y 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果，尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含本人为获得内蒙古师范大学或其它教育机构的学位或证书而使用过的材料。本人保证所呈交的论文不侵犯国家机密、商业秘密及其他合法权益。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示感谢。，7 7- 签名：盈兰釜日期：矽尸年g 月加日关于论文使用授权的说明本学位论文作者完全了解内蒙古师范大学有关保留、使用学位论文的规定：内蒙古师范大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅，可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文，并且本人电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。签名：龟人矽，导师签名：日期：- z o l o # 6 月d 日第一章绪论第一章绪论 1 1 研究背景与意义 1 1 1 研究背景随着互联网的迅猛发展，我们已经进入了一个信息化的时代。那么，如何高效快捷的从超量的信息世界里，寻找到所要的内容，成为了这个高速运转的信息化时代重要和必然要攻克的课题。大家都知道，英文是以一个单词为一个语言单位，每个词与每个词之间都是由空格间开的。而汉语与英文有很大的区别，汉语的书面形式是以连贯汉字串形式显现，在每个汉字与汉字之间没有明显的自然界限。所以我们需要把这些字串切分成词，我们把这个过程称为汉语的自动分词。在大量的信息处理中，很多基本信息都要从语言词典库里抽取，词典在语言信息的处理过程中，越来越显示出其举足轻重的作用。人们对分词词典的重视度也越来越大，越来越多的人投入了大量的精力对其进行研究。我们可这样说，分词词典是中文处理的一个基础。如果没有分词词典，无论哪种语言工程均不能完成伽。而随着语言信息处理的发展，句处理又成为一项新的任务摆在我们的面前，而只有建立大规模的语言知识库才能在句处理上有所突破。在实际应用中，伴随着信息化的不断扩大，词汇资源越来越受到人们的关注。越来越多计算语言学工作者和语言学家，把分词词典建筑的质量和规模看作是信息处理的基础。很多发达国家的政府和企业界将大量的资金和人力投入到分词词典的研究和建设中。 8 0 年代以来，世界各国尤其是欧美，东亚一些比较发达的国家，在这个领域投入了大量的人力、物力及时间。日本大概于1 9 8 6 年便开始着手于分词词典的研究。他们为了建立一个让下一代都有收益的超级分词词典，政府出资一亿多美金及投入了大量的精力，准备通过九年的时间，完成日文及英文的十多部分词词典。欧洲的好多共同体也参与了这项科研2 】o 1 1 2 研究意义 + 随着网上数字化信息资源的不断增长，怎么样自动处理这些信息已成为目前一个重要的研究课题。汉语自动分词算法在中文海量信息处理中起着非常重要的作用。由于汉字之间没有明显的分词标志，如果简单地以单个汉字作为信息处理的基本单元，内蒙古师范大学硕士学位论文既缺乏必要的语义表达，又带来大量的冗余信息，因而分词算法在中文信息处理的各个领域被广泛应用。现有的汉语自动分词系统大都是先基于词典进行匹配分词，再利用句法语义关系和统计方法进行歧义处理和未登录词处理。分词词典机制的优劣直接影响到分词系统的速度和效率，因而建立高效快速的分词词典机制势在必行。中文分词技术主要的应用领域d 1 ： 1 、搜索引擎中文分词成为搜索引擎的核心技术之。因为搜索的结果的排序总是受到分词的准确度的影响。搜索引擎最重要的工作是能把最相关的结果排在最前面，展现给用户，而并不是把所有结果都找出来。在超大量的网页中找到所有结果并没有太多的意义。 2 、中文校对系统目前，出版业尤其是电子出版业的发展相当迅猛，却仍然使用人工校对，需要大量的劳力，这与出版业的迅猛发展不同步，形成了脱节。为了减轻劳力，便出现了使用计算机对文本进行校对，这便是中文自动校对系统。随着时代的进步，词典也在中文自动校对系统中，越来越显示出举足轻重的作用。 3 、信息检索及信息摘录把利用计算机从众多的文献资料中找出符合特定需要的文献或情报的过程叫信息检索。因为实词是文本信息的载体，词或短语便合理的成为了文档标引项或检索项。在保证查全率的同时，又能提高查准率和检索速度，中文分词技术是关键的一环。 4 、自然语言理解自然语言理解可以说是语言信息处理的最高目标。自然语言理解的应用领域包括：基于理解的自动文摘、文本分类、信息摘录中译英系统、中文文献自动标引、简体繁体自动转换和自动翻译等。对输入文本行句法分析在这些应用领域中成为一项不可或缺的处理任务。由于词是“语言最小的能独立运用的单位”，因此自动分词又是句法分析的一个前提。 1 2 汉语自动分词的研究现状汉语自动分词是智能化中文信息处理的重要一环，也是中文信息处理领域的基础性课题。由于信息自动化的逐级升级，自动分词显得越来越重要。从7 0 年代末到现在，越来越多的人们加入到研究自动分词的行列中。并出现了大量有应用价值的分词方法n 刊。至目前，很多分词方法已经应用到实践中，二些分词方法还在不断完善过程中。在汉语自动分词系统的早期研究当中，主要采用基于机械匹配的方法，采用这类方法的系统大多歧义解决能力比较差，而且切分精度比较低。我国第一个实用性的 2 第一章绪论自动分词系统是c d w s ，它是在1 9 8 3 年由北京航空航天大学计算机科学与工程系设计的。这个系统的纠错能力较差，它的精度大概为1 6 2 6 。随着人们进一步的研究，增加了很多规则排歧，可是，这种分词系统需要大量的人工参与，不能达到人们的要求，所以它不够灵活的局限性也就显现了出来。这些年来，国内采用统计方法的分词系统越来越多，在统计信息中我们除了运用词频信息之外，而且开始运用词性等信息来提高切分歧义的能力，并且把这作为中文分词的一个新的想法。9 0 年代末，清华大学人工智能实验室研制的s e ( 订i a g 系统( 书面汉语自动分词和词性标注系统) 就是运用的这样的想法。它设计的一个基本思想是：我们不能把中文自动分词和词性标注当作为两个独立的单元，这两个是相互反馈的。只有把两者结合起来才有利于两者性能的提高。通过初步的测试结果显示，该系统的词性标注正确率约为9 1 0 9 7 1 ，分词正确率约为9 8 0 - 9 9 3 ，对三种专有名词( 中文姓名、外文译名、中国地名) 的精确率约为8 7 6 - 9 5 3 ，召回率约为9 5 0 - 9 9 0 。近些年，北师大的自动分词专家系统、清华大学的一个基于评价的全切分汉语自动分词系统 s e g t a g 、东北工学院的基于规则的汉语分词系统、中科院计算所i c t c l a s 分词系统、杭州电子工业学院的h d c a w s 系统为主要的自动分词系统口1 。 1 3 本文研究的目的和内容 1 3 1 本文的研究目的通过对现有词典机制的比较分析，针对汉语中二字词较多的特点，提出了一种新的基于二字词索引的分词词典机制，以进一步提高分词词典的查询速度。 1 3 2 本文研究的主要内容主要内容有： ( 1 ) 对语料的选取，对语料的加工和处理，构建分词词典。 ( 2 ) 系统界面设计和系统结构设计。 ( 3 ) 本文设计的分词词典主要包括两个功能模块：基本的分词处理模块和词条查询模块、词条删除模块、词条添加模块。 ( 4 ) 界面的实现、系统集成。 ( 5 ) 系统的性能评价实验及结果分析。内蒙古师范大学硕士学位论文第二章汉语自动分词 2 1 汉语自动分词基本算法现有的基本分词算法，一般可分为：基于统计的分词方法、基于字符串匹配的分词方法、基于理解的分词方法。 2 1 1 基于统计的分词方法基于统计的分词方法l 町是对字和字相邻共现的频率或概率进行统计，其相邻共现的频率或概率越大，其组成词的可能性就越大。字和字相邻共现的频率或概率反映了成词的可能性。通过字和字相邻共现的频率统计，算出两者之间的互现信息，两者之间紧密度越高，其越可能成为一个词。当互信息超过一定的阈值时，就将它认定为词。此方法是统计字和字相邻共现的频率或概率而没有用到分词词典，所以又把它称为无词典切分法。 2 1 2 基于字符串匹配的分词方法基于字符串匹配的分词法m ，又叫机械分词法，它是把要切分的字串以一定的原则，和一个认为足够大的机器词典当中的词条去相互匹配，依照扫描方向，机械匹配法分为，正向匹配法和逆向匹配法。通过实验证明，正向匹配法的切分准确率稍低于逆向匹配法的。在实际运用中，经常将两者有机地结合起来利用双向匹配法进行歧义判断。机械匹配法分为： ( 1 ) 正向最大匹配( 姗从被切分的字串中，按指定的顺序选取定长的字符串，这个字串的长度为最大词长，一般为6 到8 个汉字，取最大词长的字符串与词典中的词匹配，匹配成功，那么该字符串是一个词，失败的话，将字符串最后一个字减掉，再与词典中的词进行匹配，如此循环，直到把每个词都切分出来。例如现有短语“白雪公主和七个小矮人”，假设词库中最长词为7 字词，我们先取“白雪公主和七个”做为匹配字段，利用分词词库进行匹配，因为词库中没有这个词，查询失败，将最后一个字“个”去掉，将剩余的六个字继续与词典中的词进行匹配，同样没有匹配成功，我们取“白雪公主和”作为新的匹配字段，来继续进行匹配，词库中没有该词，所以仍然匹配失败! 我们接着取“白雪公主”，将这个字符串与词典中的词进行匹配，词典中有这个词，所以查询成功，可以确定“白雪公主”是一个词，这样第一个词就被切分出来了，利用同样的 4 第二章汉语自动分词方法进行下面的操作。 ( 2 ) 逆向最大匹配( i 它的原理与m m 一样，区别在于他们切词时的扫描方向，如果m m 的扫描方向是从左到右，那么r m 的扫描方向就是从右到左，它的切词正确率比m m 高一些。 ( 3 ) 最少切分( 使每一句中切出的词数最小) ( 4 ) 逐词遍历法逐词遍历法是逐个的将词库中的词依照由长到短得顺序和要被切分的字符串进行匹配，比配到将所有需要切分的词切分出来为止。如“我老说梦话，切分这个字符串需要把整个词库都遍历一遍，这种方法比较浪费时间，效率比较低，我们一般不提倡使用这种分词方法。 2 1 3 基于理解的分词方法对于基于理解的分分词系统来说，分词系统的歧义处理可以在分词阶段处理，也可以在后续过程处理。它是通过语义及句法的分析来解决歧义的。 2 。2 几种典型的自动分词系统介绍 2 2 1 早期的自动分词系统 8 0 年代以来，人们孜孜不倦的研究，使得一些分词系统得到了进一步的完善，在当时，一些影响力较大的自动分词系统主要有以下几种n 2 1 ：我们国家在1 9 8 3 年，由北京航空航天大学计算机科学与工程系设计出第一个自动分词系统一c d w s 。它利用最大匹配法分词，以词尾字构词纠错技术做为辅助。它的切分精度约为1 6 2 6 ，分词速度为5 一1 0 字秒。这种分词系统耗费大量的劳力。山西大学设计的自动分词系统i a b w s ，它运用了联想一回溯的法，同时还用了一些句法及词法等方面的知识。它的运行速度为4 8 词分钟，切分正确率为9 8 6 ( 不包括非常用、未登录的专用名词) 。在1 9 8 8 年北航再次设计出c a s s 分词系统。它使用的是正向最大匹配法，并且同时使用了知识库帮助解决一些歧义问题。其知识库的分词速度为1 5 0 字秒( 没有完全实现) ，机械分词速度为2 0 0 字秒以上。到了1 9 9 1 年，北师大的现代教育研究所设计出了书面的中文自动分词专家系统，第一次在分词系统技术中运用了专家系统方法。 2 2 2 清华大学s e g t a g 系统? 这个系统以最大限度的把各样的信息利用起来，以提高切分的精度。它是把各类型的信息( 包括预切分模式、切分标志等别的切分单位) 利用有向图集成。在这个系内蒙古师范大学硕士学位论文统里，给每个重要词均标上切分标志，这便是标志”c k ”或”q k i t ，同时结合使用几条规则以实现有限的全切分。该系统对有”c k ”标志，显示有组合歧义的词进行全切分，也就是对该标志词进行任意可能组合的切分，q k i 标志词，即绝对切分词，由于它不存在歧义，所以根本不必考虑对它进行歧义处理。该系统使用了词频、词类频度、词类共现频度等统计信息，运用了“全切分搜索+ 叶子评价和“动态规划”这两种搜索算法。实验表明，该系统可以对未登录词比较密集的文本进行处理，切分速度大概为 3 0 字秒，9 9 左右的切分精度基本上可以实现。 2 2 3 国家语委文字所应用句法分析技术的汉语自动分词模型为了更好的解决切分歧义问题，此分词模型考虑了句法分析在自动分词系统中的作用。在切词过程中应用句法规则及其它知识，从所有可能的切分结果中作出合理的选择。 2 2 4 复旦分词系统它有四个模块组成：第一模块为预处理，第二模块为歧义识别，第三模块为歧义字段的处理，第四模块为未登录词的识别。它使用了汉语姓名的用字频率、规律，以及姓名的上下文等信息以对中文姓氏进行自动识别。它是从数十万计的姓名中做出统计，创立一个姓名的统计表，利用这个表，可以从中获取字与字之间的规律，结合上下文信息，来判断组成姓名的可能性。这个系统识别汉语姓氏的正确率为7 0 。这个系统也可识别这个文本里的一些专有词和地名。 2 2 5 哈工大统计分词系统该系统应用了统计的方法，它是对字和字相邻共现的频率或概率进行统计，其相邻共现的频率或概率越大，其组成词的可能性就越大。字和字相邻共现的频率或概率反映了成词的可能性。通过字和字相邻共现的频率的统计，算出两者之间的互现信息，互现信息越高，两者之间紧密度就越高，就越可能成为一个词。当互信息超过一定的阈值时，就将它认定为词。此方法是统计字和字相邻共现的频率或概率而没有用到分词词典，该系统是通过上下文识别生词以解决一些歧义问题。对于常用词来说，这种统计的分词方法的识别精度还是比较差的。通过相关检测，这个系统的速度为2 3 6 字秒，分词错误率为1 5 。 2 2 6m i c r o s o f tr e s e a r c h 中文句法分析器中的自动分荫 6 第二章汉语自动分词自9 0 年代以来，微软公司建立了可以用多个国家的语言来处理的平台一 n l p w i n ，它的语法分析应用了双向的c h a r t p a r s i n g ，是以概率模型作为导引，应用语义及语法规则，将语法和分析器独立开。通过实验结果证实，系统在p e n t i u m z o o p c 上的速度约6 0 0 9 0 0 字秒，对歧义切分字段处理的正确率可达8 5 。 2 2 7 北大计算语言所分词系统该系统是北大计算语言学研究所设计的。这个系统是一个将词类标注和分词相结合的系统，它运用词类信息提高分词精度，反过来，在标注过程中又对分词结果进行检验和调整，该系统是把基于语料库统计模型的排歧和基于规则的标注排歧结合起来，使规则的灵活性得到进一步提高。不仅对未登录词，该系统对其进行估算的准确率非常的高，而且，该系统做到了多样化及通用化的相互统一，大大的提高了效率。近来，通过不断的改进搜索算法，分词和标注速度明显增快，p e n t i u mi f 6 4 m b 内存机可达5 千词秒的速度，在p e n t i u m1 3 3 h z 1 6 m b 内存机速度也达到了3 千词秒以上。实际上，目前并没有让人信服的一个统一标准，能够比较出哪种分词算法有更高的精准度。每一个比较完善的分词系统，都需要综合运用不同的算法而不可能单独依靠某一种算法来实现。在实际当中，大都也是初分时使用机械分词，再结合其他各种信息使准确率得到提高。 2 3 汉语自动分词中的难题在多国的语言当中，中文是一种相对来说比较复杂的语言，让计算机来理解这种语言还是比较困难的。在中文的分词过程中，一直存在着两大难题n 3 j 钔还没有完全解决。 2 3 1 歧义识别歧义是指同样的一句话或短语有不止一种的切分方式。比如说：“让位移”，这个词在切分时存在歧义，它既可以切分成“让位移”，也可以分成“让位移”，“自主权”可以分成“自主权，也可以分成“自主权”，我们把这种歧义称为交叉歧义，这种交叉歧义比较常见。“学生会去图书馆”可以分成“学生会去图书馆”，也可以分成“学生会去图书馆”。如果没有提供其它的一些信息，计算机很难判断如何对“学生会”进行切分。除了交叉歧义外还有一种歧义为组合歧义，对于组合歧义我们需要结合上下文进行处理，比如说，在句子“我的将来会怎么样”中，“将来”是_ 个名词，而在句子“他将来我校检查”中“将来”为- - n 词加动词，在“他 7 内蒙古师范大学硕士学位论文的穿着比较时尚中，“穿着是一个名词，而在“他穿着一个红色的褂子中，“穿着是动词加助词，再比如说“我后天把文件给你”中，“后天”是一个名词，而在 “我到单位后天就亮了中，“后天为方位词加名词，计算机怎样去识别这些词? 如果我们可以解决组合歧义和交叉歧义，在歧义中还有一个难题，那就是真歧义。真歧义意思是给出一句话，人们也不清楚应该怎样去切分，我们也无法判断哪个应该是词，哪个应该不是词。在这种情况下，我们只能根据更多的语境信息进行判断。 2 3 2 新词识别我们把新词和专业术语称为未登录词n 町。这些词没有收入到词典中。最典型的是人名，我们可以很容易理解句子“张金虎去北京了中，“张金虎是个一个词，因为“张金虎是一个人的名字，但如果让计算机去识别这个词就比较困难了。我们可以把“张金虎做为一个词收录到词典中去，但是全世界得人名那么多，而且每时每刻都有新人名增加，如果我们把所有这些人名都收录到词库中，这项工程是非常巨大的。即使这项工作能够完成，还是会存在问题，例如：在句子“张金虎头虎脑的中，“张金虎”已经不再是一个词了。在实际运用中，除了人名以外，我们还会经常使用到机构名、商标名、地名、简称、产品名、省略语等词，而我们利用计算机去识别这些新词，处理起来是比较困难的。尤其是对搜索引擎来说，分词系统中的新词识别特别重要。目前新词识别准确率已经成为评价一个分词系统好坏的一项重要指标。 2 4 中文分词系统的性能评价自动分词包括分词和自动标注两方面，分词是这个系统的一项基础性工作，对于这个系统来说，既要求在分词速度面达到一定的水平，而且要求在分词精度方面也要达到一定的水平，评判中文分词系统好与坏的指标有两个方面。 2 4 1 分词精度切分词的正确率被称为是分词精度n 9 1 。它影响着分词系统的性能，在汉语的书写当中，字和字是连着写的，词与词之间没有明显的分词标志，而我们对语句的理解是建立在词的基础上的，如果想让计算机理解句子的意思也需要计算机能自动识别词的边界，所以分词已成为中文处理的_ 个非常重要的任务，而分词的正确与否，将直接影响对句子意思的理解。影响分词正确率的主要有两个因素：歧义处理和未登录词的识别问题。为了进步提高分词系统切分正确率，我们需要从整体性能，未登录词识第二章汉语自动分词别同歧义处理等方面进一步的进行考虑。自动分词是中文处理中的一大难题，到目前为止，分词系统的准确率可达到9 9 9 ，而对于分词处理来说，未登录词识别和歧义处理又是它的两大难点，对于分词系统来说它需要词库的支持，词库录入的词是有限的，而词汇是一个开放的系统，随着一些新词的不断出现，那么未登录词的问题已成为一个不可避免的问题。如何识别未登录词? 可以利用统计的方法，当字与字相邻共现的频率或概率达到某一阙值，我们判定其为词，利用统计分词可以有效地解决未登陆词识别问题。对于机械分词和统计分词来说都存在歧义切分问题，而在统计分词阶段可以去除部分歧义。 2 4 2 分词速度分词速度2 妇是指单位时间内所处理的汉字个数。在满足分词正确率的基本要求下，切分速度是中文分词系统的性能另一个很重要的指标。特别是对于那些用了辅助手段，算法比较复杂，诸如专家系统、联想、基于规则的、神经网络等方法，对分词速度的要求更为突出。影响分词速度的主要方面：利用分词词典对被切分字串的匹配时间，处理歧义字段的时间。除了这两个因素之外，还有一些其他的因素，也影响切分速度，所以我们需要综合考虑这些因素以使系统总开销更加合理。 9 内蒙古师范大学硕士学位论文第三章分词词典机制分析 3 1 词典内容构建本文在对语料进行切分和分析的基础上构造了分词词典。 3 2 词典内容构建方式目前构造分词词典主要有两类研究方向乜1 ：一类通过对各种各样大规模真实文本的分析获取有关的词汇信息来构建分词词典，主要采用相对简单的语言模型和概率统计的方法。另一个方向，主要利用人工参与的方式，人工描述词条信息。一般情况下，有三种设计分词词典的方法：第一种方法，以机器做辅助，主要靠人工输入信息的方式构造词典，这是一个相当复杂的过程，投入的人力比较大，耗费的时间比较多。第二种方法，从印刷版的词典里获取信息来构造分词词典。第三种方法，通过对语料库的加工处理和分析，抽取相关信息来实现分词词典的设计。通过分析，在上述前三种方法中，第一种和第二种方法主要是从一些印刷版文本中获取信息，主要利用人工参与的方式去描述词条信息，在实际当中，对很多项目的研究都采用了前两种方法，很多的语言信息库，语义词库，词典都是利用上述方法实现的。然而，前两种方法有两个很大的缺点：一是需要投入的人力比较多，资金比较大，另外一个就是需要的时间比较长。所以与第三种方法相比，第三种方法可能更实用一些。本文选取了2 0 0 6 年人民日报的部分语料，对语料进行了切分和分析，在此基础上构造了分词词典。 3 3 常用分词词典机制词典机制的信息查询方法瞳2 ，2 引。在分词过程中，我们经常用到的方式有：哈希查询、t r i e 树查询、二分查询和顺序查询等等几种查询方式，在很多时候我们在分词过程中用到了多种查询方式，比如在哈希机制的词典中，我们就采用了哈希查询和二分查询相结合的方式，在t r i e 机制的词典中采用了t r i e 树查询和二分查询相结合的方式，将多种查询方式相结合进行查询，可以提高查询效率。 3 3 1 常用的三种分词词典机制常用的分词词典机制妇t 2 副有：基于逐字二分的词典机制、整词二分的词典机制和基于t r i e 索引树的词典机制。 1 0 第三章分词词典机制分析 3 3 1 1 基于整词二分的分词词典机制如图3 1 所示，这种机制下的分词词典包括三个部分：首字索引表、词索引表、词典正文。这种机制引以首字做为索引项，利用首字索引表、词索引表，得到词在正文中的一个范围，然后进行二分查找。匹配过程是一个全词匹配的过程。以查找s = 。你小子大白天还在睡觉中从“大”字开始的最长词( 及所有词) 为例，根据图3 1 的词典结构，实例的匹配步骤如下： ( 1 ) 取从“大”字开头最长的字串s t r m a x ，s t r m a x = “大白天还在睡觉”； ( 2 ) 用整词二分法在词典中查找候选词s t r m a x ，查找不成功； ( 3 ) 将s t r m a x 的最后一个字减掉，继续进行上述操作，查找不成功； ( 4 ) 重复步骤( 3 ) ； ( 5 ) 经过5 次尝试，s t r m a x 最终消减到“大白天，此时查找成功，于是返回s t r m a x = “大白天。从上述的匹配步骤可以看出，此过程类似于正向的最大匹配。即先匹配最长词，若成功则返回，否则在待匹配字串的末尾减去一个字符，接着继续匹配，直至结束本轮匹配。首字h a s h 表入口项个数第一项指针同素引表词典正文指针词典正文图3 1 整词二分的分词词典结构 3 3 1 2 基于t r l e 索引树的分词词典机制这种分词词典由两个部分组成：首字索引表、t r i e 索引树结点。如图3 2 所示。对于这种机制来说，它在查询的过程当中，不需要事先知道被切分字符串的长度，只需要从根结点出发，逐字进行匹配，这种分词词典机制的空间浪费比较大。例如：s = “你小子大白天还在睡觉中我们从“大”字开始查找，具体操作： ( 1 ) 在首字索引表中找到“大”字，通过后缀的入口指针找到它索引树结点。内蒙古师范大学硕士学位论文 ( 2 ) 在索引树结点中，包含空字符，说明“大”可单独构成一个词，在结点中进行二分查找，找到了“白”字，通过结点的子树指针继续向下查找。 ( 3 ) 在大白的索引树结点中，包含空字符，说明大白可构成词，在结点中查找，找到了“天”，而它的后缀指针指向叶子结点。“大白天也构成词，查询完毕。首字h a s h 表入口项个数第一项指针关键字子树大小子树指针 n u l l案坝白笏：| j f q o205 o 一一， 1 r n u l l要 ? 0 1 人 n u l l菜话鼠天坝 oo0o0 v 1r案大 0 r1r1r 。 rr 塞一大大大大大白自白白白 1r #二工臼工大案要案图3 - 2 t r i e 索引树的分词词典结构 1 2 鼾鼾声睡第三章分词词典机制分折 3313 基于逐字二分的分词词典机制基于逐字二分的分词词典在前两种机制的基础上做了改进，在这种分词词典机制中，使用了。逐字匹配”的查询方式，而它的数据结构与整词二分的相同。逐字二分的分词词典的分词效率较前两种机制有所提高。例如：s = “你小子大白天还在睡觉”中从“大”字开始查找，按照图3 - 3 的词典结构，具体操作： ( 1 ) 在首字索引表中找到“大”字，通过它的后缀指针可以确定以它为前缀的的词在词索引表中的始末位置，同时可以判断出“大”可单独构成一个词； ( 2 ) 上述范围内用二分祛查找，找到了“白”字，通过它的后缀指针可以确定。大白”为前缀的的词在词索引表中的始末位置，同时可以判断出“大白”可构成词； ( 3 ) 在上述范围内进行查找，找到了“天”字，通过它的后缀指针可以确定以 “大白天”为前缀的词在词索引表的始末位置，并且可以判断出“大白天”可构成一个词： ( 4 ) 在上述范围内进行查找，没有找到“还”，查询完毕。从图中我们可以看出，r 3 0 r 2 r l 。躅3 - 3 逐字二分的分词词典结构 q 胜眦姒墟旺鞋。一喇书区时目瑁 h*_i。m：-j 访内蒙古师范大学硕士学位论文 3 3 1 4 三种分词词典机制的实验结果时间：对这三种分词词典机制，进行了四种不同类型的测试： ( 1 ) 在这种测试中，是使用最大匹配法对语料库中我们随意抽样的一节语料进行切分。 ( 2 ) 把词典里每一个词都按照顺序查询1 次。 ( 3 ) 在这种测试中，是使用全切分法对语料库中我们随意抽样的一节语料进行切分。 ( 4 ) 这个测试是按照顺序对词典里每一个词进行查询，它要求每个词的查询的次数都和它的词频成正向比例。对于( 1 ) 和( 3 ) ，利用人民日报中随机抽取的长度是3 0 6 6 k 字节的语料进行测试。四种查询的测试数据如下：表3 - 1 时间空间的比较结果查询方法词典空间( 字测试1 ( 单位测试2 ( 单位时测试3 ( 单位测试4 ( 单位节)时间)间时间时间整词二分 1 2 9 5 4 5 81 0 5 4 0 65 0 01 6 8 9 5 03 9 5 0 t r i e 索引树 1 0 9 7 6 1 66 7 5 02 7 08 9 5 02 1 4 0 逐字二分1 2 9 5 4 5 86 4 8 03 3 09 6 1 0 9 8 0 依照这个测试结果分析出，在这三种分词词典机制中，逐字二分的分词词典机制采用了“逐字匹配的查询方式，而它的数据结构与整词二分的相同。逐字二分的分词词典机制的查询速度要比整词二分的查询速度快，与t r i e 索引树的查询速度差不多，而逐字二分的分词词典得占用空间要比t r i e 索引树的占用空间小，总的来说，在这三种分词词典机制中，逐字二分的分词词典的综合性能是最好的。 3 4 本章小结从实验结果来看，在这种分词词典机制中，逐字二分的分词词典机制采用了“逐字匹配”的查询方式，而它的数据结构与整词二分的相同。逐字二分的分词词典机制的查询速度要比整词二分的查询速度快，与t r i e 索引树的查询速度差不多，而逐字二分的分词词典的占用空间要比t r i e 索引树的占用空间小，总的来说，在这三种分，词词典机制中，逐字二分的分词词典的综合性能是最好的。 1 4 第三章分词词典机制分析在对三种分词词典的性能分析之后，该文以词的前两字为关键字建立索引表，该索引表是一个二维数组，该算法通过将前两字的汉字内码与数组下标建立对应关系来直接确定数据项的位置，以提高词典的查询速度。内蒙古师范大学硕士学位论文第四章分词词典设计的总体思想本文的主要目标就是在w i n d o w 环境下建立一个基于二维数组检测的分词词典。该分词词典主要包括词汇查询、自动分词等功能。该分词词典的总体设计思想为：首先需要对原始语料进行加工及处理。其次，利用加工好的语料生成分词词典。分词词典的主要功能有：自动分词功能、分词词典的维护功能。 4 1 总体功能模块设计图4 - 1 分词词典模块图 4 2 分词词典的开发环境和运行环境 4 2 1 开发环境编程语言：v is u a l c + + 6 0 4 2 2 运行环境硬件要求： c p u ：奔腾1 8 g h z 及以上，内存：5 1 2 m b 及以上，显示卡：标准v g a 2 5 6 标准色显示模式以上软件要求： w in d o w s2 0 0 3 x p 4 3 分词词典的构建流程分词词典的构建流程图如下： 1 6 第四章分词词典的设计的总体思想图4 2 分词词典的构建流程图模型 4 4 语料的建立 4 4 1 关于语料库语料库瞳6 1 ，顾名思义，就是存放语言材料的仓库。当语言材料达到一定的规模，就能够构成语料库。事实上，对语料库的认识至少应该包括以下三点： ( 1 ) 语料库中存放的是在语言的实际使用中真实出现过的语言材料。 ( 2 ) 语料库是以电子计算机为载体承载语言知识的基础资源。 ( 3 ) 真实语料需要经过分析，加工，处理才能成为有用的基础资源。语料库可分为熟语料库生语料库、专用语料库系统语料库、多语种语料库单语种语料库。我们把被加工过的，带有标注、切分标记的语料库称为是熟语料库。把没有被加工过的，没有任何标注、切分标记的原始语料称为是生语料库，系统型语料库就是根据先前确定的比例和选材原则进行语料选取的语料库。一般情况下，在自然语言处理当中，我们不能直接使用生语料，我们需要对其进行加工然后从中抽取出有用的信息。 4 4 2 关于语料的建立 1 7 内蒙古师范大学硕士学位论文 4 4 2 1 语料的采集当采集语料时，需要注意以下两个方面：一是语料库的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）分词词典的构建.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）分词词典的构建.pdf

文档简介

温馨提示

最新文档

评论

相关文档