已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内蒙古师范大学硕士学位论文 中文摘要 随着网上数字化信息资源的不断增长,怎么样自动处理这些信息已 成为目前一个重要的研究课题,汉语自动分词在中文海量信息处理中起 着非常重要的作用。由于汉字之间没有明显的分词标志,如果简单地以单 个汉字作为信息处理的基本单元,既缺乏必要的语义表达,又带来大量的 冗余信息,因而分词算法在中文信息处理的各个领域被广泛应用。现有的 汉语自动分词系统大都是先基于词典进行匹配分词,再利用句法语义关 系和统计方法进行歧义处理和未登录词处理。分词词典机制的优劣直接 影响到分词系统的速度和效率,因而建立高效快速的分词词典机制势在 必行。 常用的分词词典机制有:基于逐字二分的词典机制、整词二分的词 典机制和基于t r i e 索引树的词典机制。在对前面分词词典机制的分析中, 前面的三种词典都是以首字建立索引表,通过统计,我们知道在汉语中, 二字词和一字词的出现概率远远大于其它字长的词,依据这一现象,我 们提出了以词的前两字为关键字建立索引表的想法。该索引表是一个二 维数组,该算法是通过将前两字的汉字内码与数组下标建立对应关系来 直接确定数据项的位置的,这样通过二维数组可以直接把二字词判断出 来,然后再进行下面的查询匹配,这种方法可以使查询次数大大减少, 从而使分词速度进一步加快。 本文在对语料进行选取,加工的基础上,最终建立了一个基于二字 词检测的分词词典试验系统,该系统具有自动分词、词语查询和词典维 护的功能。 关键词:词典机制,分词词典,二字词检测数组 内蒙古师范大学硕士学位论文 a b s t r a c t w i t ht h eu n c e a s i n g l yg r o w i n go fo n l i n ed i g i t a li n f o r m a t i o nr e s o u r c e s ,i t h a sb e c o m ea ni m p o r t a n tr e s e a r c ht o p i ct h a th o wt oa u t o m a t i c a l l yp r o c e s s t h e s ei n f o r m a t i o n c h i n e s ew o r ds e g m e n t a t i o np l a y sav e r yi m p o r t a n tr o l ei n c h i n e s em a s s i v ei n f o r m a t i o n p r o c e s s i n g a s t h e r e i s n to b s v i o u s s e g m e n t a t i o nm a r ki nc h i n e s ec h a r a c t e r s ,a n di fs i m p l yp u t t i n g as i n g l e c h a r a c t e ra st h eb a s i cu n i to fi n f o r m a t i o np r o c e s s i n g ,i tn o to n l yl a c k st h e n e c e s s a r ys e m a n t i ce x p r e s s i n g ,b u ta l s ob r i n g sal o to fr e d u n d a n ti n f o r m a t i o n , t h u sw o r ds e g m e n t a t i o na l g o r i t h mi sw i d e l yu s e di nv a r i o u sf i e l d so fc h i n e s e i n f o r m a t i o np r o c e s s i n g e x i s t i n gc h i n e s ew o r ds e g m e n t a t i o ns y s t e m sa r e m o s t l yb a s e do nt h ed i c t i o n a r y t om a t c ht h ef i r s t w o r d ,t h e nu s i n g s y n t a c t i c s e m a n t i cr e l a t i o n s h i pa n ds t a t i s t i c a lm e t h o dt od e a lw i ma m b i g u i t y p r o c e s s i n ga n dn o tr e g i s t e rw o r d sp r o c e s s i n g t h es u p e r i o ra n di n f e r i o ro f s e g m e n t a t i o nd i c t i o n a r ym e c h a n i s md i r e c t l ya f f e c t st h es p e e da n de f f i c i e n c y o ft h es e s t e m ,t h e r e f o r e ,i ti si m p e r a t i v et oe s t a b l i s hah i g he f f i c i e n ta n df a s t m e c h a n i s m t h ec o m m o n s e g m e n t a t i o nd i c t i o n a r ym e c h a n i s m sa r ea sf o l l o w s : b i n a r y - s e e k - b y c h a r a c t e r 、b i n a r y s e e k - b y - w o r da n d t r i ei n d e x i n gt r e e i nt h e p r e v i o u sa n a l y s i s o f s e g m e n t a t i o nd i c t i o n a r ym e c h a n i s m , t h e t h r e e d i c t i o n a r i e sa l lb u i l du pi n d e xt a b l eb a s e do nt h ef i r s tc h a r a c t e r t h r o u g h s t s t i s t i c sw ek n o wt h a ti nc h i n e s et h ea p p e a r a n c ep r o b a b i l i t yo ft w o w o r d w o r d sa n do n e - w o r dw o r d si sf a r l a r g e rt h a n t h a to fo t h e rw o r d e n g t h w o r d s ,a c c o r d i n gt ot h i sp h e n o m e n o n ,w ep u tf o r w o r ds u c ha ni d e at h a tw e c a n b u i l du pi n d e xt a b l eb ys e e m i n gt h ef i r s tt w ow o r d sa st h ek e y w o r d s ,a n dt h i s i n d e xt a b l ei sat w o d i m e n s i o n a la r r a y , t h i sa l g o r i t h md i r e c t l yd e t e r m i n e sd a t a i t e m s l o c a t i o nb ye s t a b l i s h i n gac o r r e s p o n d i n gr e l a t i o n s h i pb e t w e e nt h ef i r s t t w oc h i n e s ec h a r a c t e r s i n t e r n a lc o d ea n da r r a yi n d e x ,i nt h i sw a y , w ec a n 内蒙古师范大学硕士学位论文 d i r e c t l yf i n do u tt h et w o - w o r dw o r d sb yu s i n gt h et w o - - d i m e n s i o n a la r r a y , a n d t h e np r o c e e d i n gt ot h ef o l l o w i n gq u e r ym a t c h t h i sa p p r o a c hc a ns i g n i f i c a n t l y r e d u c et h et i m e so fq u e r i e s ,s oa st of u r t h e ra c c e l e r a t et h es p e e do f s e g m e n t a t i o n o nt h eb a s i so f s e l e c t i n ga n dp r o c e s s i n go f w o r d c o r p u s ,t h ep a p e rf i n a l l y e s t a b l i s h e da s e g m e n t a t i o n d i c t i o n a r y t e s t s y s t e m b a s e do n t w o w o r d a r r a y ,w h i c hh a ss u c hf u n c t i o n sa sa u t o m a t i cs e g m e n t a t i o n 、w o r d s i n q u e r ya n dd i c t i o n a r ym a i n t e n a n c e k e y w o r d :d i c t i o n a r ym e c h a n i s m ,s e g m e n t a t i o nd i c t i o n a r y , t w o w o r d a r r a y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果,尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含本人为获得内蒙古师范大学或其它教育机构的学位或证书而使 用过的材料。本人保证所呈交的论文不侵犯国家机密、商业秘密及 其他合法权益。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示感谢。 ,7 7- 签名:盈兰釜日期:矽尸年g 月加日 关于论文使用授权的说明 本学位论文作者完全了解内蒙古师范大学有关保留、使用学位 论文的规定:内蒙古师范大学有权保留并向国家有关部门或机构送 交论文的复印件和磁盘,允许论文被查阅和借阅,可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容 和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:龟人矽, 导师签名: 日期:- z o l o # 6 月d 日 第一章绪论 第一章绪论 1 1 研究背景与意义 1 1 1 研究背景 随着互联网的迅猛发展,我们已经进入了一个信息化的时代。那么,如何高效快 捷的从超量的信息世界里,寻找到所要的内容,成为了这个高速运转的信息化时代重 要和必然要攻克的课题。大家都知道,英文是以一个单词为一个语言单位,每个词与 每个词之间都是由空格间开的。而汉语与英文有很大的区别,汉语的书面形式是以连 贯汉字串形式显现,在每个汉字与汉字之间没有明显的自然界限。所以我们需要把这 些字串切分成词,我们把这个过程称为汉语的自动分词。在大量的信息处理中,很 多基本信息都要从语言词典库里抽取,词典在语言信息的处理过程中,越来越显示出 其举足轻重的作用。人们对分词词典的重视度也越来越大,越来越多的人投入了大量 的精力对其进行研究。我们可这样说,分词词典是中文处理的一个基础。如果没有分 词词典,无论哪种语言工程均不能完成伽。而随着语言信息处理的发展,句处理又成 为一项新的任务摆在我们的面前,而只有建立大规模的语言知识库才能在句处理上有 所突破。 在实际应用中,伴随着信息化的不断扩大,词汇资源越来越受到人们的关注。越 来越多计算语言学工作者和语言学家,把分词词典建筑的质量和规模看作是信息处理 的基础。很多发达国家的政府和企业界将大量的资金和人力投入到分词词典的研究和 建设中。 8 0 年代以来,世界各国尤其是欧美,东亚一些比较发达的国家,在这个领域投 入了大量的人力、物力及时间。日本大概于1 9 8 6 年便开始着手于分词词典的研究。 他们为了建立一个让下一代都有收益的超级分词词典,政府出资一亿多美金及投入了 大量的精力,准备通过九年的时间,完成日文及英文的十多部分词词典。欧洲的好多 共同体也参与了这项科研2 】o 1 1 2 研究意义 + 随着网上数字化信息资源的不断增长,怎么样自动处理这些信息已成为目前一个 重要的研究课题。汉语自动分词算法在中文海量信息处理中起着非常重要的作用。由 于汉字之间没有明显的分词标志,如果简单地以单个汉字作为信息处理的基本单元, 内蒙古师范大学硕士学位论文 既缺乏必要的语义表达,又带来大量的冗余信息,因而分词算法在中文信息处理的各 个领域被广泛应用。现有的汉语自动分词系统大都是先基于词典进行匹配分词,再利 用句法语义关系和统计方法进行歧义处理和未登录词处理。分词词典机制的优劣直接 影响到分词系统的速度和效率,因而建立高效快速的分词词典机制势在必行。中文分 词技术主要的应用领域d 1 : 1 、搜索引擎 中文分词成为搜索引擎的核心技术之。因为搜索的结果的排序总是受到分词的 准确度的影响。搜索引擎最重要的工作是能把最相关的结果排在最前面,展现给用户, 而并不是把所有结果都找出来。在超大量的网页中找到所有结果并没有太多的意义。 2 、中文校对系统 目前,出版业尤其是电子出版业的发展相当迅猛,却仍然使用人工校对,需要大 量的劳力,这与出版业的迅猛发展不同步,形成了脱节。为了减轻劳力,便出现了使 用计算机对文本进行校对,这便是中文自动校对系统。随着时代的进步,词典也在中 文自动校对系统中,越来越显示出举足轻重的作用。 3 、信息检索及信息摘录 把利用计算机从众多的文献资料中找出符合特定需要的文献或情报的过程叫信 息检索。因为实词是文本信息的载体,词或短语便合理的成为了文档标引项或检索项。 在保证查全率的同时,又能提高查准率和检索速度,中文分词技术是关键的一环。 4 、自然语言理解 自然语言理解可以说是语言信息处理的最高目标。自然语言理解的应用领域包 括:基于理解的自动文摘、文本分类、信息摘录中译英系统、中文文献自动标引、简 体繁体自动转换和自动翻译等。对输入文本行句法分析在这些应用领域中成为一项 不可或缺的处理任务。由于词是“语言最小的能独立运用的单位”,因此自动分词又 是句法分析的一个前提。 1 2 汉语自动分词的研究现状 汉语自动分词是智能化中文信息处理的重要一环,也是中文信息处理领域的基础 性课题。由于信息自动化的逐级升级,自动分词显得越来越重要。从7 0 年代末到现 在,越来越多的人们加入到研究自动分词的行列中。并出现了大量有应用价值的分词 方法n 刊。至目前,很多分词方法已经应用到实践中,二些分词方法还在不断完善过 程中。在汉语自动分词系统的早期研究当中,主要采用基于机械匹配的方法,采用这 类方法的系统大多歧义解决能力比较差,而且切分精度比较低。我国第一个实用性的 2 第一章绪论 自动分词系统是c d w s ,它是在1 9 8 3 年由北京航空航天大学计算机科学与工程系设 计的。这个系统的纠错能力较差,它的精度大概为1 6 2 6 。随着人们进一步的研究, 增加了很多规则排歧,可是,这种分词系统需要大量的人工参与,不能达到人们的要 求,所以它不够灵活的局限性也就显现了出来。这些年来,国内采用统计方法的分词 系统越来越多,在统计信息中我们除了运用词频信息之外,而且开始运用词性等信息 来提高切分歧义的能力,并且把这作为中文分词的一个新的想法。9 0 年代末,清华 大学人工智能实验室研制的s e ( 订i a g 系统( 书面汉语自动分词和词性标注系统) 就 是运用的这样的想法。它设计的一个基本思想是:我们不能把中文自动分词和词性标 注当作为两个独立的单元,这两个是相互反馈的。只有把两者结合起来才有利于两者 性能的提高。通过初步的测试结果显示,该系统的词性标注正确率约为9 1 0 9 7 1 ,分词正确率约为9 8 0 - 9 9 3 ,对三种专有名词( 中文姓名、外文译名、中 国地名) 的精确率约为8 7 6 - 9 5 3 ,召回率约为9 5 0 - 9 9 0 。近些年,北师大 的自动分词专家系统、清华大学的一个基于评价的全切分汉语自动分词系统 s e g t a g 、东北工学院的基于规则的汉语分词系统、中科院计算所i c t c l a s 分词系 统、杭州电子工业学院的h d c a w s 系统为主要的自动分词系统口1 。 1 3 本文研究的目的和内容 1 3 1 本文的研究目的 通过对现有词典机制的比较分析,针对汉语中二字词较多的特点,提出了一种新 的基于二字词索引的分词词典机制,以进一步提高分词词典的查询速度。 1 3 2 本文研究的主要内容 主要内容有: ( 1 ) 对语料的选取,对语料的加工和处理,构建分词词典。 ( 2 ) 系统界面设计和系统结构设计。 ( 3 ) 本文设计的分词词典主要包括两个功能模块:基本的分词处理模块和词条 查询模块、词条删除模块、词条添加模块。 ( 4 ) 界面的实现、系统集成。 ( 5 ) 系统的性能评价实验及结果分析。 内蒙古师范大学硕士学位论文 第二章汉语自动分词 2 1 汉语自动分词基本算法 现有的基本分词算法,一般可分为:基于统计的分词方法、基于字符串匹配的 分词方法、基于理解的分词方法。 2 1 1 基于统计的分词方法 基于统计的分词方法l 町是对字和字相邻共现的频率或概率进行统计,其相邻共 现的频率或概率越大,其组成词的可能性就越大。字和字相邻共现的频率或概率反映 了成词的可能性。通过字和字相邻共现的频率统计,算出两者之间的互现信息,两者 之间紧密度越高,其越可能成为一个词。当互信息超过一定的阈值时,就将它认定为 词。此方法是统计字和字相邻共现的频率或概率而没有用到分词词典,所以又把它称 为无词典切分法。 2 1 2 基于字符串匹配的分词方法 基于字符串匹配的分词法m ,又叫机械分词法,它是把要切分的字串以一定的 原则,和一个认为足够大的机器词典当中的词条去相互匹配,依照扫描方向,机械匹 配法分为,正向匹配法和逆向匹配法。通过实验证明,正向匹配法的切分准确率稍低 于逆向匹配法的。在实际运用中,经常将两者有机地结合起来利用双向匹配法进行歧 义判断。机械匹配法分为: ( 1 ) 正向最大匹配( 姗 从被切分的字串中,按指定的顺序选取定长的字符串,这个字串的长度为最大词 长,一般为6 到8 个汉字,取最大词长的字符串与词典中的词匹配,匹配成功,那么 该字符串是一个词,失败的话,将字符串最后一个字减掉,再与词典中的词进行匹配, 如此循环,直到把每个词都切分出来。例如现有短语“白雪公主和七个小矮人”,假 设词库中最长词为7 字词,我们先取“白雪公主和七个”做为匹配字段,利用分词词 库进行匹配,因为词库中没有这个词,查询失败,将最后一个字“个”去掉,将剩余 的六个字继续与词典中的词进行匹配,同样没有匹配成功,我们取“白雪公主和”作 为新的匹配字段,来继续进行匹配,词库中没有该词,所以仍然匹配失败! 我们接着 取“白雪公主”,将这个字符串与词典中的词进行匹配,词典中有这个词,所以查询 成功,可以确定“白雪公主”是一个词,这样第一个词就被切分出来了,利用同样的 4 第二章汉语自动分词 方法进行下面的操作。 ( 2 ) 逆向最大匹配( i 它的原理与m m 一样,区别在于他们切词时的扫描方向,如果m m 的扫描方向 是从左到右,那么r m 的扫描方向就是从右到左,它的切词正确率比m m 高一些。 ( 3 ) 最少切分( 使每一句中切出的词数最小) ( 4 ) 逐词遍历法 逐词遍历法是逐个的将词库中的词依照由长到短得顺序和要被切分的字符串进 行匹配,比配到将所有需要切分的词切分出来为止。如“我老说梦话,切分这个字 符串需要把整个词库都遍历一遍,这种方法比较浪费时间,效率比较低,我们一般不 提倡使用这种分词方法。 2 1 3 基于理解的分词方法 对于基于理解的分分词系统来说,分词系统的歧义处理可以在分词阶段处理,也 可以在后续过程处理。它是通过语义及句法的分析来解决歧义的。 2 。2 几种典型的自动分词系统介绍 2 2 1 早期的自动分词系统 8 0 年代以来,人们孜孜不倦的研究,使得一些分词系统得到了进一步的完善, 在当时,一些影响力较大的自动分词系统主要有以下几种n 2 1 :我们国家在1 9 8 3 年, 由北京航空航天大学计算机科学与工程系设计出第一个自动分词系统一c d w s 。它 利用最大匹配法分词,以词尾字构词纠错技术做为辅助。它的切分精度约为1 6 2 6 , 分词速度为5 一1 0 字秒。这种分词系统耗费大量的劳力。山西大学设计的自动分词 系统i a b w s ,它运用了联想一回溯的法,同时还用了一些句法及词法等方面的知识。 它的运行速度为4 8 词分钟,切分正确率为9 8 6 ( 不包括非常用、未登录的专用名词) 。 在1 9 8 8 年北航再次设计出c a s s 分词系统。它使用的是正向最大匹配法,并且同时 使用了知识库帮助解决一些歧义问题。其知识库的分词速度为1 5 0 字秒( 没有完全实 现) ,机械分词速度为2 0 0 字秒以上。到了1 9 9 1 年,北师大的现代教育研究所设计出 了书面的中文自动分词专家系统,第一次在分词系统技术中运用了专家系统方法。 2 2 2 清华大学s e g t a g 系统? 这个系统以最大限度的把各样的信息利用起来,以提高切分的精度。它是把各类 型的信息( 包括预切分模式、切分标志等别的切分单位) 利用有向图集成。在这个系 内蒙古师范大学硕士学位论文 统里,给每个重要词均标上切分标志,这便是标志”c k ”或”q k i t ,同时结合使用几条规 则以实现有限的全切分。该系统对有”c k ”标志,显示有组合歧义的词进行全切分,也 就是对该标志词进行任意可能组合的切分,q k i 标志词,即绝对切分词,由于它不存 在歧义,所以根本不必考虑对它进行歧义处理。该系统使用了词频、词类频度、词类 共现频度等统计信息,运用了“全切分搜索+ 叶子评价 和“动态规划”这两种搜索 算法。实验表明,该系统可以对未登录词比较密集的文本进行处理,切分速度大概为 3 0 字秒,9 9 左右的切分精度基本上可以实现。 2 2 3 国家语委文字所应用句法分析技术的汉语自动分词模型 为了更好的解决切分歧义问题,此分词模型考虑了句法分析在自动分词系统中的 作用。在切词过程中应用句法规则及其它知识,从所有可能的切分结果中作出合理的 选择。 2 2 4 复旦分词系统 它有四个模块组成:第一模块为预处理,第二模块为歧义识别,第三模块为歧义 字段的处理,第四模块为未登录词的识别。它使用了汉语姓名的用字频率、规律,以 及姓名的上下文等信息以对中文姓氏进行自动识别。它是从数十万计的姓名中做出统 计,创立一个姓名的统计表,利用这个表,可以从中获取字与字之间的规律,结合上 下文信息,来判断组成姓名的可能性。这个系统识别汉语姓氏的正确率为7 0 。这个 系统也可识别这个文本里的一些专有词和地名。 2 2 5 哈工大统计分词系统 该系统应用了统计的方法,它是对字和字相邻共现的频率或概率进行统计,其相 邻共现的频率或概率越大,其组成词的可能性就越大。字和字相邻共现的频率或概率 反映了成词的可能性。通过字和字相邻共现的频率的统计,算出两者之间的互现信息, 互现信息越高,两者之间紧密度就越高,就越可能成为一个词。当互信息超过一定的 阈值时,就将它认定为词。此方法是统计字和字相邻共现的频率或概率而没有用到分 词词典,该系统是通过上下文识别生词以解决一些歧义问题。对于常用词来说,这种 统计的分词方法的识别精度还是比较差的。通过相关检测,这个系统的速度为2 3 6 字秒,分词错误率为1 5 。 2 2 6m i c r o s o f tr e s e a r c h 中文句法分析器中的自动分荫 6 第二章汉语自动分词 自9 0 年代以来,微软公司建立了可以用多个国家的语言来处理的平台一 n l p w i n ,它的语法分析应用了双向的c h a r t p a r s i n g ,是以概率模型作为导引,应用语 义及语法规则,将语法和分析器独立开。通过实验结果证实,系统在p e n t i u m z o o p c 上的速度约6 0 0 9 0 0 字秒,对歧义切分字段处理的正确率可达8 5 。 2 2 7 北大计算语言所分词系统 该系统是北大计算语言学研究所设计的。这个系统是一个将词类标注和分词相结 合的系统,它运用词类信息提高分词精度,反过来,在标注过程中又对分词结果进行 检验和调整,该系统是把基于语料库统计模型的排歧和基于规则的标注排歧结合起 来,使规则的灵活性得到进一步提高。不仅对未登录词,该系统对其进行估算的准确 率非常的高,而且,该系统做到了多样化及通用化的相互统一,大大的提高了效率。 近来,通过不断的改进搜索算法,分词和标注速度明显增快,p e n t i u mi f 6 4 m b 内存 机可达5 千词秒的速度,在p e n t i u m1 3 3 h z 1 6 m b 内存机速度也达到了3 千词秒以 上。实际上,目前并没有让人信服的一个统一标准,能够比较出哪种分词算法有更高 的精准度。每一个比较完善的分词系统,都需要综合运用不同的算法而不可能单独依 靠某一种算法来实现。在实际当中,大都也是初分时使用机械分词,再结合其他各种 信息使准确率得到提高。 2 3 汉语自动分词中的难题 在多国的语言当中,中文是一种相对来说比较复杂的语言,让计算机来理解这种 语言还是比较困难的。在中文的分词过程中,一直存在着两大难题n 3 j 钔还没有完全解 决。 2 3 1 歧义识别 歧义是指同样的一句话或短语有不止一种的切分方式。比如说:“让位移”,这 个词在切分时存在歧义,它既可以切分成“让位移”,也可以分成“让位移”,“自 主权”可以分成“自主权 ,也可以分成“自主权”,我们把这种歧义称为交叉歧 义,这种交叉歧义比较常见。“学生会去图书馆”可以分成“学生会去图书馆”, 也可以分成“学生会去图书馆”。如果没有提供其它的一些信息,计算机很难判断 如何对“学生会”进行切分。除了交叉歧义外还有一种歧义为组合歧义,对于组合歧 义我们需要结合上下文进行处理,比如说,在句子“我的将来会怎么样”中,“将 来”是_ 个名词,而在句子“他将来我校检查”中“将来”为- - n 词加动词,在“他 7 内蒙古师范大学硕士学位论文 的穿着比较时尚中,“穿着 是一个名词,而在“他穿着一个红色的褂子 中,“穿 着 是动词加助词,再比如说“我后天把文件给你”中,“后天”是一个名词,而在 “我到单位后天就亮了 中,“后天 为方位词加名词,计算机怎样去识别这些词? 如果我们可以解决组合歧义和交叉歧义,在歧义中还有一个难题,那就是真歧义。真 歧义意思是给出一句话,人们也不清楚应该怎样去切分,我们也无法判断哪个应该是 词,哪个应该不是词。在这种情况下,我们只能根据更多的语境信息进行判断。 2 3 2 新词识别 我们把新词和专业术语称为未登录词n 町。这些词没有收入到词典中。最典型的 是人名,我们可以很容易理解句子“张金虎去北京了 中,“张金虎 是个一个词, 因为“张金虎是一个人的名字,但如果让计算机去识别这个词就比较困难了。我们 可以把“张金虎做为一个词收录到词典中去,但是全世界得人名那么多,而且每 时每刻都有新人名增加,如果我们把所有这些人名都收录到词库中,这项工程是非常 巨大的。即使这项工作能够完成,还是会存在问题,例如:在句子“张金虎头虎脑 的 中,“张金虎”已经不再是一个词了。在实际运用中,除了人名以外,我们还会 经常使用到机构名、商标名、地名、简称、产品名、省略语等词,而我们利用计算 机去识别这些新词,处理起来是比较困难的。尤其是对搜索引擎来说,分词系统中的 新词识别特别重要。目前新词识别准确率已经成为评价一个分词系统好坏的一项重要 指标。 2 4 中文分词系统的性能评价 自动分词包括分词和自动标注两方面,分词是这个系统的一项基础性工作,对于 这个系统来说,既要求在分词速度面达到一定的水平,而且要求在分词精度方面也要 达到一定的水平,评判中文分词系统好与坏的指标有两个方面。 2 4 1 分词精度 切分词的正确率被称为是分词精度n 9 1 。它影响着分词系统的性能,在汉语的书写 当中,字和字是连着写的,词与词之间没有明显的分词标志,而我们对语句的理解是 建立在词的基础上的,如果想让计算机理解句子的意思也需要计算机能自动识别词的 边界,所以分词已成为中文处理的_ 个非常重要的任务,而分词的正确与否,将直接 影响对句子意思的理解。影响分词正确率的主要有两个因素:歧义处理和未登录词的 识别问题。为了进步提高分词系统切分正确率,我们需要从整体性能,未登录词识 第二章汉语自动分词 别同歧义处理等方面进一步的进行考虑。自动分词是中文处理中的一大难题,到目前 为止,分词系统的准确率可达到9 9 9 ,而对于分词处理来说,未登录词识别和歧义 处理又是它的两大难点,对于分词系统来说它需要词库的支持,词库录入的词是有限 的,而词汇是一个开放的系统,随着一些新词的不断出现,那么未登录词的问题已成 为一个不可避免的问题。如何识别未登录词? 可以利用统计的方法,当字与字相邻共 现的频率或概率达到某一阙值,我们判定其为词,利用统计分词可以有效地解决未登 陆词识别问题。对于机械分词和统计分词来说都存在歧义切分问题,而在统计分词阶 段可以去除部分歧义。 2 4 2 分词速度 分词速度2 妇是指单位时间内所处理的汉字个数。在满足分词正确率的基本要求 下,切分速度是中文分词系统的性能另一个很重要的指标。特别是对于那些用了辅助 手段,算法比较复杂,诸如专家系统、联想、基于规则的、神经网络等方法,对分词 速度的要求更为突出。影响分词速度的主要方面:利用分词词典对被切分字串的匹 配时间,处理歧义字段的时间。除了这两个因素之外,还有一些其他的因素,也影响 切分速度,所以我们需要综合考虑这些因素以使系统总开销更加合理。 9 内蒙古师范大学硕士学位论文 第三章分词词典机制分析 3 1 词典内容构建 本文在对语料进行切分和分析的基础上构造了分词词典。 3 2 词典内容构建方式 目前构造分词词典主要有两类研究方向乜1 :一类通过对各种各样大规模真实文本 的分析获取有关的词汇信息来构建分词词典,主要采用相对简单的语言模型和概率统 计的方法。另一个方向,主要利用人工参与的方式,人工描述词条信息。 一般情况下,有三种设计分词词典的方法:第一种方法,以机器做辅助,主要靠 人工输入信息的方式构造词典,这是一个相当复杂的过程,投入的人力比较大,耗费 的时间比较多。第二种方法,从印刷版的词典里获取信息来构造分词词典。第三种方 法,通过对语料库的加工处理和分析,抽取相关信息来实现分词词典的设计。 通过分析,在上述前三种方法中,第一种和第二种方法主要是从一些印刷版文本 中获取信息,主要利用人工参与的方式去描述词条信息,在实际当中,对很多项目的 研究都采用了前两种方法,很多的语言信息库,语义词库,词典都是利用上述方法实 现的。然而,前两种方法有两个很大的缺点:一是需要投入的人力比较多,资金比较 大,另外一个就是需要的时间比较长。所以与第三种方法相比,第三种方法可能更实 用一些。本文选取了2 0 0 6 年人民日报的部分语料,对语料进行了切分和分析, 在此基础上构造了分词词典。 3 3 常用分词词典机制 词典机制的信息查询方法瞳2 ,2 引。在分词过程中,我们经常用到的方式有:哈希查 询、t r i e 树查询、二分查询和顺序查询等等几种查询方式,在很多时候我们在分词 过程中用到了多种查询方式,比如在哈希机制的词典中,我们就采用了哈希查询和二 分查询相结合的方式,在t r i e 机制的词典中采用了t r i e 树查询和二分查询相结合 的方式,将多种查询方式相结合进行查询,可以提高查询效率。 3 3 1 常用的三种分词词典机制 常用的分词词典机制妇t 2 副有:基于逐字二分的词典机制、整词二分的词典机制和 基于t r i e 索引树的词典机制。 1 0 第三章分词词典机制分析 3 3 1 1 基于整词二分的分词词典机制 如图3 1 所示,这种机制下的分词词典包括三个部分:首字索引表、词索引表、 词典正文。这种机制引以首字做为索引项,利用首字索引表、词索引表,得到词在正 文中的一个范围,然后进行二分查找。匹配过程是一个全词匹配的过程。 以查找s = 。你小子大白天还在睡觉 中从“大”字开始的最长词( 及所有词) 为 例,根据图3 1 的词典结构,实例的匹配步骤如下: ( 1 ) 取从“大”字开头最长的字串s t r m a x ,s t r m a x = “大白天还在睡觉”; ( 2 ) 用整词二分法在词典中查找候选词s t r m a x ,查找不成功; ( 3 ) 将s t r m a x 的最后一个字减掉,继续进行上述操作,查找不成功; ( 4 ) 重复步骤( 3 ) ; ( 5 ) 经过5 次尝试,s t r m a x 最终消减到“大白天,此时查找成功,于是返回s t r m a x = “大白天 。从上述的匹配步骤可以看出,此过程类似于正向的最大匹配。即先匹配 最长词,若成功则返回,否则在待匹配字串的末尾减去一个字符,接着继续匹配,直 至结束本轮匹配。 首字h a s h 表 入口项个数 第一项指针 同素引表 词典正文指针 词典正文 图3 1 整词二分的分词词典结构 3 3 1 2 基于t r l e 索引树的分词词典机制 这种分词词典由两个部分组成:首字索引表、t r i e 索引树结点。如图3 2 所示。 对于这种机制来说,它在查询的过程当中,不需要事先知道被切分字符串的长度,只 需要从根结点出发,逐字进行匹配,这种分词词典机制的空间浪费比较大。 例如:s = “你小子大白天还在睡觉 中我们从“大”字开始查找,具体操作: ( 1 ) 在首字索引表中找到“大”字,通过后缀的入口指针找到它索引树结点。 内蒙古师范大学硕士学位论文 ( 2 ) 在索引树结点中,包含空字符,说明“大”可单独构成一个词,在结点中 进行二分查找,找到了“白”字,通过结点的子树指针继续向下查找。 ( 3 ) 在大白的索引树结点中,包含空字符,说明大白可构成词,在结点中查找, 找到了“天”,而它的后缀指针指向叶子结点。“大白天 也构成词,查询完毕。 首字h a s h 表 入口项个数 第一项指针 关键字 子树大小 子树指针 n u l l案 坝 白 笏 :| j f q o205 o 一一 , 1 r n u l l要 ? 0 1 人 n u l l菜 话鼠天 坝 oo0o0 v 1r案 大 0 r1r1r 。 rr 塞 一 大大大大 大 白自 白白 白 1r #二工臼工 大 案 要 案 图3 - 2 t r i e 索引树的分词词典结构 1 2 鼾鼾 声睡 第三章分词词典机制分折 3313 基于逐字二分的分词词典机制 基于逐字二分的分词词典在前两种机制的基础上做了改进,在这种分词词典机制 中,使用了。逐字匹配”的查询方式,而它的数据结构与整词二分的相同。逐字二分 的分词词典的分词效率较前两种机制有所提高。 例如:s = “你小子大白天还在睡觉”中从“大”字开始查找,按照图3 - 3 的词 典结构,具体操作: ( 1 ) 在首字索引表中找到“大”字,通过它的后缀指针可以确定以它为前缀的 的词在词索引表中的始末位置,同时可以判断出“大”可单独构成一个词; ( 2 ) 上述范围内用二分祛查找,找到了“白”字,通过它的后缀指针可以确定。大 白”为前缀的的词在词索引表中的始末位置,同时可以判断出“大白”可构成词; ( 3 ) 在上述范围内进行查找,找到了“天”字,通过它的后缀指针可以确定以 “大白天”为前缀的词在词索引表的始末位置,并且可以判断出“大白天”可构成一 个词: ( 4 ) 在上述范围内进行查找,没有找到“还”,查询完毕。从图中我们可以看 出,r 3 0 r 2 r l 。 躅3 - 3 逐字二分的分词词典结构 q 胜 眦姒 墟 旺鞋 。一 喇书区时目瑁 h*_i。m:-j 访 内蒙古师范大学硕士学位论文 3 3 1 4 三种分词词典机制的实验结果 时间: 对这三种分词词典机制,进行了四种不同类型的测试: ( 1 ) 在这种测试中,是使用最大匹配法对语料库中我们随意抽样的一节语料进 行切分。 ( 2 ) 把词典里每一个词都按照顺序查询1 次。 ( 3 ) 在这种测试中,是使用全切分法对语料库中我们随意抽样的一节语料进行 切分。 ( 4 ) 这个测试是按照顺序对词典里每一个词进行查询,它要求每个词的查询的 次数都和它的词频成正向比例。 对于( 1 ) 和( 3 ) ,利用人民日报中随机抽取的长度是3 0 6 6 k 字节的语料 进行测试。四种查询的测试数据如下: 表3 - 1 时间空间的比较结果 查询方法词典空间( 字测试1 ( 单位测试2 ( 单位时测试3 ( 单位 测试4 ( 单位 节)时间)间时间时间 整词二分 1 2 9 5 4 5 81 0 5 4 0 65 0 01 6 8 9 5 03 9 5 0 t r i e 索引树 1 0 9 7 6 1 66 7 5 02 7 08 9 5 02 1 4 0 逐字二分1 2 9 5 4 5 86 4 8 03 3 09 6 1 0 9 8 0 依照这个测试结果分析出,在这三种分词词典机制中,逐字二分的分词词典机制 采用了“逐字匹配 的查询方式,而它的数据结构与整词二分的相同。逐字二分的分 词词典机制的查询速度要比整词二分的查询速度快,与t r i e 索引树的查询速度差不 多,而逐字二分的分词词典得占用空间要比t r i e 索引树的占用空间小,总的来说, 在这三种分词词典机制中,逐字二分的分词词典的综合性能是最好的。 3 4 本章小结 从实验结果来看,在这种分词词典机制中,逐字二分的分词词典机制采用了“逐 字匹配”的查询方式,而它的数据结构与整词二分的相同。逐字二分的分词词典机制 的查询速度要比整词二分的查询速度快,与t r i e 索引树的查询速度差不多,而逐字 二分的分词词典的占用空间要比t r i e 索引树的占用空间小,总的来说,在这三种分 , 词词典机制中,逐字二分的分词词典的综合性能是最好的。 1 4 第三章分词词典机制分析 在对三种分词词典的性能分析之后,该文以词的前两字为关键字建立索引表,该 索引表是一个二维数组,该算法通过将前两字的汉字内码与数组下标建立对应关系来 直接确定数据项的位置,以提高词典的查询速度。 内蒙古师范大学硕士学位论文 第四章分词词典设计的总体思想 本文的主要目标就是在w i n d o w 环境下建立一个基于二维数组检测的分词词典。 该分词词典主要包括词汇查询、自动分词等功能。该分词词典的总体设计思想为:首 先需要对原始语料进行加工及处理。其次,利用加工好的语料生成分词词典。分词词 典的主要功能有:自动分词功能、分词词典的维护功能。 4 1 总体功能模块设计 图4 - 1 分词词典模块图 4 2 分词词典的开发环境和运行环境 4 2 1 开发环境 编程语言:v is u a l c + + 6 0 4 2 2 运行环境 硬件要求: c p u :奔腾1 8 g h z 及以上,内存:5 1 2 m b 及以上,显示卡:标准v g a 2 5 6 标准色显 示模式以上 软件要求: w in d o w s2 0 0 3 x p 4 3 分词词典的构建流程 分词词典的构建流程图如下: 1 6 第四章分词词典的设计的总体思想 图4 2 分词词典的构建流程图模型 4 4 语料的建立 4 4 1 关于语料库 语料库瞳6 1 ,顾名思义,就是存放语言材料的仓库。当语言材料达到一定的规模, 就能够构成语料库。事实上,对语料库的认识至少应该包括以下三点: ( 1 ) 语料库中存放的是在语言的实际使用中真实出现过的语言材料。 ( 2 ) 语料库是以电子计算机为载体承载语言知识的基础资源。 ( 3 ) 真实语料需要经过分析,加工,处理才能成为有用的基础资源。 语料库可分为熟语料库生语料库、专用语料库系统语料库、多语种语料库单 语种语料库。我们把被加工过的,带有标注、切分标记的语料库称为是熟语料库。把 没有被加工过的,没有任何标注、切分标记的原始语料称为是生语料库,系统型语料 库就是根据先前确定的比例和选材原则进行语料选取的语料库。一般情况下,在自然 语言处理当中,我们不能直接使用生语料,我们需要对其进行加工然后从中抽取出有 用的信息。 4 4 2 关于语料的建立 1 7 内蒙古师范大学硕士学位论文 4 4 2 1 语料的采集 当采集语料时,需要注意以下两个方面:一是语料库的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年厦门市妇幼保健院医护人员招聘笔试参考试题及答案详解
- 2026年中国医科大学附属盛京医院滑翔院区医护人员招聘笔试参考题库及答案详解
- 2026年右江民族医学院附属医院医护人员招聘笔试备考题库及答案详解
- (2026版)安全工器具使用管理制度
- 2026年上海中医药大学附属曙光医院医护人员招聘考试备考试题及答案详解
- 2026年十堰人民医院医护人员招聘笔试备考试题及答案详解
- 2026年中国医科大学附属盛京医院滑翔院区医护人员招聘考试参考题库及答案详解
- 2026年中国人民解放军230医院医护人员招聘考试参考试题及答案详解
- 2026年邮政储蓄银行(陕西省分行)人员招聘考试备考题库及答案详解
- 2026年邮政储蓄银行(深圳分行)人员招聘考试参考题库及答案详解
- 江苏省南通市2025年中考数学试卷附真题答案
- 2026公务员考试题及答案 行测 真题
- 危险性较大的分部分项工程安全管理规定(37号令及31号文)
- 高中英语新教材必修课文全文及翻译
- 地震医护救援知识培训内容课件
- 高速电机的三维建模与仿真
- 市政道路工程资料归档目录
- 天然气场站安全管理培训课件
- 铁路脱轨事故课件
- 电缆公司服务方案(3篇)
- 2026届河南省郑州市郑州枫杨外国语校中考语文全真模拟试卷含解析2
评论
0/150
提交评论