




已阅读5页,还剩81页未读, 继续免费阅读
(计算机软件与理论专业论文)在自然汉语中进行分词和词性标注.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 学科专业 论文题目 硕士生: 学号: 导师: 摘要 计算机软件 在自然汉语中进行分词和词性标注 刘东旭 0 1s 0 6 13 4 杨国纬教授 f 分词和词性标注是自然汉语处理( n l p ) 的基础,前几届师兄已经 在这方面做了大量的研究,我所做的课题就是在他们的基础上对这部 分内容进行总结、改进、提高,对后续研究提供更完善的支持。十 分词在以前的研究中主要采用将m m 法( 正向最大匹配) 、r m m 法( 逆向最大匹配) 相结合的方法,并且对其中的最大交集字段采用 比较各自结合度的方法来选择切分方式,但这种方法只能处理一部分 最大交集字段。本课题在对大规模真实文本中的最大交集字段进行统 计的基础上,将最大交集字段分为三类,并分别对其进行处理,极大 的提高了对最大交集字段的处理能力。 中文姓名识别是分词中的一个重要内容,本课题在大规模真实文本 中对姓氏、名字用字、姓名前后常用字三方面进行考察。采用在分词 后进行姓名判断,以姓氏为触发点,开始姓名判断,其召回率和精确 率都达到9 0 以上。 词性标注是自然汉语处理中的一个难点。在英语中,当一个词变换 词性时往往伴随着词型上的变化,而在汉语中则没有词型上的变化, 这就增加了汉语词性标注的难度。我除了按常规方法对词性进行判断 外,还建立一个词性判断规则表,每一个词在词性判断规则表中有一 个相应的对象,进行词性判断时,从词性判断规则表中取出相应词的 对象进行词性判断。 厂本课题还有一个任务就是将前几届师兄所做课题从v c 移植到 j a 讼上去,以便于在n 上公布。l , 关键词:自然汉语处理分词正向最大匹配? 逆向最大匹配交集 字段结合度中文姓名识别- 词性标注 7 a b s t r a c t m a j o r i t y t i t l e : a u t h o r : n u m b e r : t u t o r : a b s t r a c t c o m p u t e rs c i e n c ea n dt h e o r y w o r ds e g m e n t a t i o na n dp o st a g g i n gi nc h i n e s e l i ud o n g x u 0 1 s 0 6 13 4 y a n gg u o w e i w o r ds e g m e n t a t i o na n dp a r t o f - s p e e c ht a g g i n ga r eb a s e so fn a t u r a l l a n g u a g ep r o c e s s i n g ( n l p ) t h ef o r m e rg r a d u a t e ds t u d e n t sh a v ed o n ea g r e a td e a l o fw o r ki nt h i sf i e l d i nm yt a s kim a d eu s eo ft h em o s to f t h e i rr e s u l t ,m o d i f i e dt h e i rs h o r t c o m i n ga n di m p r o v e dt h e i rp e r f o r m a n c e t h en e wm o d i f i e ds y s t e mc a ns u p p l yam o r es t r o n gs u p p o r tf o rt h ef u t u r e r e s e a r c h i nt h e i rr e s e a r c ht h e yp u tf o r w a r dan e wm e t h o d w h i c ha d o p t sm m a n dr m m s i m u l t a n e o u s l ya n dc o m p a r e st h e i rc o m b i n a t i o nd e g r e e ,t od e a l w i t hm a x i m a lc r o s s i n ga m b i g u i t i e s b u tt h i sm e t h o dh a sas h o r t c o m i n g i tc a no n l yd e a lw i t hap a r to fm a x i m a lc r o s s i n g a m b i g u i t i e s i d i v i d e m a x i m a l c r o s s i n ga m b i g u i t i e s i n t ot h r e es o r t sb a s e do n s t a t i s t i c so f m a x i m a l c r o s s i n ga m b i g u i t i e s f r o ma l a r g e s c a l ec h i n e s e c o r p u s a n d a d o p t d i f f e r e n tm e t h o d st od e a lw i t ht h e m t h i sm o d i f i e d a l g o r i t h m i m p r o v e st h ea b i l i t yt od e a lw i t hm a x i m a lc r os s i n ga m b i g u i t i e sg r e a t l y i d e n t i f y i n gc h i n e s en a m e sis a n o t h e ri m p o r t a n tc o n t e n ti nc h i n e s e t e x ts e g m e n t a t i o n f i r s tio b s e r v et h er e g u l a r i t yo fn a m ef r o ms u r n a m e s , t h ec o n s t a n tu s ec h a r a c t e r so f n a m e s ,t h ec o n s t a n tu s ec h a r a c t e r si nf r o n t o fn a m e so rb e h i n dn a m e sb a s e do na l a r g e - s c a l e r e a l c o r p u s t h e n i d e s i g n a na l g o r i t h mt o i d e n t i f yc h i n e s en a m e sa f t e rt e x ts e g m e n t a t i o n t h e p r o c e s s o fi d e n t i f y i n gc h i n e s en a m e ss t a r t sw h e nas u r n a m ew a s i d e n t i f i e d t h ep r e l i m i n a r ye x p e r i m e n ts h o w st h a tt h er e c a l lr a t ea n dt h e a c c u r a t er a t eo ft h i sa l g o r i t h mr e a c ho v e r9 0 p a r t - o f s p e e c ht a g g i n gi s ad i f f i c u l tt a s ki nn l p t h e r eis u s u a l l ya c h a n g e i nt h ew o r df o r mw h e naw o r d c h a n g e s i t s p a r t o f s p e e c h i n e n g l i s h b u tt h e r ei sn o c h a n g e i nt h ew o r df o r mi nc h i n e s e s o p a r t o f s p e e c ht a g g i n g ism o r ed i f f i c u l ti nc h i n e s et h a ni 1 1 e n g l i s h i n a b s t r a c t a d d i t i o nt oj u d g i n gw o r da t t r i b u t eb yn o r m a lm e t h o d s ,1b u i l dar u l et a b l e o fj u d g i n gw o r da t t r i b u t e e a c hw o r dh a sac o r r e s p o n d i n go b j e c ti nt h e t a b l e w h e nat a g g i n gw o r disi nt h et a b l e ,i t sc o r r e s p o n d i n go b j e c tw i l l b ee x t r a c t e df r o mt h et a b l e t h e nt h ew o r d sa t t r i b u t ec a nb ej u d g e db y u s i n gi t so b j e c t m yl a s t t a s kis t r a n s f e r r i n g t h e p r o g r a mb a c k g r o u n d f r o mv ct o j a v as ot h a tt h e p r o j e c t o fn a t u r a l l a n g u a g ep r o c e s s i n g c a nb e p u b l i s h e di ni n t e r n e te a s i l y k e y w o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ;w o r ds e g m e n t a t i o n ;m a xm a t c h r e v e r s em a xm a t c h ;c r o s s i n ga m b i g u i t y ;c o m b i n a t i o nd e g r e e ;i d e n t i f y i n g c h i n e s en a m e s ;p a r t o f - s p e e c ht a g g i n g v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成聚,也不包含 为获褥奄子科技大学或其它教弯祝褐的学锭或证书两使蠲过酌材料。 与我一同工 乍的同志对本研究所做的任何赁献均已在论文中佧了明 确的说明并表示谢意。 签名:塑盔丝嚣期:必? 年箩月2 。疆 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的藏定,有权绦瞥并岛国家裔关部门或枫褐送交论文的复印件和磁 数,允诲论文被查酒翻偕阕。本人授权电予科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守蔬裁定) 签名:塞盔丝导师签名:醴 日期:。n j 年f 月2o 日 第一章前言 第一章前言 自然语言处理就是研究如何能让计算机理解并生成人们日常所使 用的( 如汉语、英语) 语言,使得计算机懂得自然语言的含义,并对人 给计算机提出的问题,通过对话的方式,用自然语言进行回答。目的 在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度 的信息传递与认知活动。自然语言理解系统可以用作专家系统、知识 工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用 价值。 1 。1 自然语言理解系统的发展阶段 自然语言理解系统的发展可以分为第一代系统和第二代系统两个 阶段。第一代系统建立在对词类和词序分析的基础之上,分析中经常 使用统计方法;第二代系统则开始引进语义甚至语用和语境的因素, 几乎完全抛开了统计技术。 第一代自然语言理解系统可分为四种类型: 1 特殊格式系统 2 以文本为基础的系统 3 有限逻辑系统 4 一般演绎系统 第二代自然语言理解系统出现于1 9 7 0 后,这些系统绝大多数是程 序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名 的系统是l u n a r 系统、s h r b l u 系统、m a r g i e 系统、s a m 系统、p a m 系 统。 1 2 我国的发展现状 我国自然语言理解的研究起步较晚,比国外晚了17 年。国外在1 9 6 3 年就建成了早期的自然语言理解系统,而我国直到1 9 8 0 年才建成了两 个汉语自然语言理解模型,都以人机对话的方式来实现。但是,在国 际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内得到 了越来越多的重视,研究单位在逐渐增多,研究队伍也在逐渐壮大。 国内比较有代表性的成果如下: a 机器翻译:以冯志伟教授为代表的计算语言学学者早期在机器 第一章前言 翻译研究方面做了大量的工作,并总结出了不少珍贵的经验和方法, 为后来的计算语言学研究奠定了基础。 b 语料库研究:清华大学的黄昌宁教授领导的计算语言学实验室, 主要从事基于语料库的汉语理解。近年来,在自动分词、自动建立知 识库、自动生成句法规则、自动统计字词的使用和关联频率方面做了 大量的工作并发表了不少很有价值的论文。 c 篇章理解研究:东北工学院的姚天顺教授和哈尔滨工业大学的 王开铸教授等在计算语言学的篇章理解方面的研究也取得了一定的成 就。 d 概念层次网络:中科院的黄曾阳先生在自然语言研究当中通过 长期的探索和总结,在语义表达方面提出了“概念层次网络”理论。 这个理论框架是以语义表达为基础,并以一种概念化、层次化和网络 化的形式来实现对知识的表达,这一理论的提出为语义处理开辟了一 条新路。 e 受限汉语:北京信息工程学院的周锡令教授主持的受限汉语的 研究为自然语言理解提出的一种新的思路。他认为短期内计算机还很 难做到真正的理解自然语言,在继续对自然语言理解方面进行研究的 同时,应该研究受限的规范的汉语,这样可以让研究成果较快的实用 化。 f 知网:由董振东先生提出的一种汉语知识表示方法。知网把客 观世界看作是有很多的概念构成。概念与概念之间有各种各样的关系, 这些关系相互交织就构成了一个网。要表示一个客观世界,就是要确 定这些概念、概念的属性以及概念之间的关系。 1 3 现代汉语的分词技术 中国正在向信息化社会迅速前进,其突出表征是i n t e r n e t 上中文网 页的急剧膨胀和中文电子出版物、中文数字图书馆的迅速普及。以非 受限文本为主要对象的中文自然语言处理研究于是也水涨船高,重要 性日益显著。而汉语自动分词和词性标注是任何中文自然语言处理系 统都难以回避的前两道基本“工序”,其作用是怎么估计都不会过分的。 只有逾越这个障碍,中文处理系统才称得上初步打上了“智能”的印 记,构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。 否则,系统便只能被束缚在字平面上,成不了太大气候。具体言之, 自动分词和词性标注在很多现实应用( 中文文本的自动检索、过滤、 分类及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语 第一章前言 语音识别的后处理,汉语语音合成,以句子为单位的汉字键盘输入 汉字简繁体转换等) 中都扮演着关键角色。 1 3 1 自动分词算法的分类 我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方 法、基于理解的分词方法和基于统计的分词方法。 l 、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的 汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找 到某个字符串,则匹配成功( 识别出一个词) 。按照扫描方向的不同, 串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹 配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是 否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相 结合的一体化方法。 2 、基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而 有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个 语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、 语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三 个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协 调下,分词予系统可以获得有关词、句子等的句法和语义信息来对分 词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需 要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性, 难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理 解的分词系统还处在试验阶段。 3 、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字 同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现 的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现 的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字 m ( x ,】,) = l o g 的互现信息为: 尸( x ,) 户( x ) 。p ( 】,) ,其中p ( x ,y ) 是汉字x 、y 的 相邻共现概率,p ( x ) 、p ( y ) 分别是x 、y 在语料中出现的概率。互现 信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个闽 值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的 第一章前言 字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统 计取词方法。 1 3 2 几种典型的自动分词系统 1 、清华大学s e g 分词系统 此系统提供了带回溯的正向、反向、双向最大匹配法和全切分一评 价切分算法,由用户来选择合适的切分算法。其特点则是带修剪的全 切分一评价算法。系统考虑到了切分盲点的问题( 某些字串永远不会被 某种分词方法匹配出来) ,由此提出了全切分的概念,即找出输入字串 的所有可能的子串,然后利用某种评价方法从所有这些可能的子串中 选出最佳子串序列作为分词结果。为了解决全切分所带来的组合爆炸 问题,又引进了对全切分过程进行修剪的方法,强制性地截止某些全 切分的进行。用户在使用时,对于歧义较少的语料,可采用正向或反 向最大匹配法;对于有较多交叉歧义的语料,可使用双向最大匹配法; 对于其它歧义较大的语料,则采用全切分一评价算法,并需要采用一个 合适的评价函数。由于对具体语料的统计参数设置了不确切初值,全 切分一评价算法在第一、二遍切分过程中的正确率较低,随着切分的多 遍进行,评价函数逐渐得以矫正,系统的切分精度逐步得以提高。经 过封闭试验,在多遍切分之后,全切分一评价算法的精度可以达到9 9 左右。 2 、北大计算语言所分词系统 此系统由北京大学计算语言学研究所研制开发,属于分词和词类标 注相结合的分词系统。由于将分词和词类标注结合起来,系统可利用 丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对 分词结果进行检验、调整,同时将基于规则的标注排歧与基于语料库 统计模型的排歧结合起来,使规则的普遍性与灵活性得到统一,而且 对未登入词的估算到达了相当高的准确率。系统的处理过程包括了自 动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词 性标记排歧、切分和词性标注后处理等过程,系统的算法综合了多种 数据组织和搜索技术,以很低的时空开销实现了高速匹配和查找,同 时采用了当代计算语言学的统计方法,运用隐m a r k o v 过程进行词类标 注和排歧,对算法的效率和稳固性都作了尽可能的优化。此系统的一 大特色是对通用性的强调,将最稳定、最常用的4 万6 千余条现代汉语 基本词汇( 即将扩充到7 万多条) 及其有关属性组织成为基本词典,这 第一章前言 些词的基本地位都是由汉语语言学家逐一检验认可的,这是本系统通 用性的保证:在此词典的基础上充分利用汉语构词法的研究成果,可 以识别出大部分的常用词。同时本系统对用户词典机制作了最大限度 的扩展,允许用户加入3 部到3 0 部以上的自定义词典,并允许用户对这 些词典的优先顺序自由排列,这样就可以用较小规模的多个特殊词典 更有针对性地解决具体领域的文本处理。豳此此系统的语言模型实现 了通用性与多样性的商效结合,并翔达了很高的效率。经过最近在搜 索算法上的改避,系统的分词连同标注的速度在p e n t i u mi3 3 h z 1 6 m b 洳存梳器上的达到了每秒3 千词以上,而在p e n t i u l ni i 6 4 m b 内存枫器 上速度裔达每秒5 千词。 3 、髓i c r o s o f tr e s e a r c h 汉语旬法分橱器中的鲁动分词 微软研究麓翡鑫然语言嵇究掰在从e 0 年代初开始开发了一个邋耀 型静多潮语言处理平台n l p w i n ,最初除段豹研究郡是对荚港进萼亍的。 大终从1 9 9 7 年开始,增嘉窭了中文处理数研究,从露袋n l p w i n 成为能够 进行7 国涯富处理的系缝( 其中爨语敷韩语龆分的褥究已较旱地开展起 来) 。中文部分媳磷究在开始时缺少必要鲍基础资源,于是经过细致验 磺究分孝居之压,贱买了北大计算语塞所魄现代汉语语法信息词典, 从此进展顺利,在短缎的一年半的时间里达到了其它东方语融鲍处理 水平。据报道,n l p w in 的语法公拼部分使用的是一莉双向的c h a r t p a r s i n g ,使用了语法规则著以概率模型作导向,并且将语法和分析器 独立开。 其中文部分的一个特点是将词的切分间句法分析融合起来,即是 一种前面提到过的“切词一句法分析一体化”方法:在其匹配切词阶 段保留所有可能的切分结果( 包括歧义切分) ,然后在句法分析阶段使 用汉语的句法规则判断切分的合理性,如果对句子的某种切分能够成 功地建立起完全的句法树,则表示该切分结果是正确的。对于有上下 文及语用歧义的歧义切分字段,系统将生成两棵以上的分析树( 可以 使用某种标准进行排序) 。 当然,为了提高系统效率,有必要在分词阶段排除尽可能多的局 部一级的切分歧义。其中使阁的技术有:消除所商导致词典中没有对 应词条的单字的切分,为词典中的每一个词条增加一颈“a t o m i c ”属 性( 为1 表示不需要分析箕内部字串,为0 a 示需要傈箔其内部的切分, 即是种组合坡义标志一一作者注) ,阻及为每个词增加l e f t c o n d i 、 r i g h t c o n d l 、l e f t c o n d 2 、r i g h t c o n d 2 西类字符集合( 前两项表示歧 第一章前言 义绝对生效,后两项表示歧义有比较高的可能性生效,即歧义的直接 前后文一作者注) ,还包括一些排歧规则( 例如对于连续型歧义字段 a b c d ,如果a b 和c d 不与前后词交叉、a 或d 是名词、a b c * i b c d 都不是词, 则切分出a b c d :“昨天下午” “昨天下午”) 。 实验结果表明,系统可以正确处理8 5 的歧义切分字段,在p e n t iu m 2 0 0p c 上的速度约6 0 0 9 0 0 字秒。考虑到系统对多种切分结果进行了 完全的句法分析、对词典每个属性进行了完全的查找,这是相当可观 的效率。 以上三种分词系统是国内分词系统的典型代表,各自的分词算法 都有其新颖独特之处,最后的实验数据也都达到了相当高的标准,因 此我在对前几届师兄所做的分词系统的修改过程中吸收了不少它们的 分词算法思想。 第二章系统介绍 第二章系统介绍 为了使读者对我所做的课题有一个整体上的印象,我先对我所做 的课题做个系统介绍。系统介绍按照课题的组成结构和工作流程不 同分为系统结构介绍和系统流程图介绍。 2 ,1 系统结构 本课题采用m v c 体系结构,m v c 体系结构由模型( m o d e l ) 、视 图( v i e w ) 、控制器( c o n t r 0 1 ) 构成,m v c 应用程序由于模型和视图 分离,从而使其比相应的传统应用程序更灵活和更具再使用性,一个 典型的m v c 通信图如下: 图2 1典型的m v c 通信 系统结构是主要是指系统中用到的模块、数据库以及它们之间的 关系,也包括这些模块与用户之间的接口。m v c 体系结构的思想也在 本课题的系统结构中得到体现,编辑器界面对应着视图,输入输出模 第二章系统介绍 块包括在视图中,分词模块、词性判断模块、姓名判断模块对应着模 型,编辑器与这些模块的逻辑关系构成了控制器,具体的系统结构如 下: 图2 2 系统结构图 在图2 2 这个系统结构图中,姓名判断模块本来应该属于分词模 块中的一部分,但由于需要用到姓名词库和判断逻辑的特殊性,将其 单独列为一个模块。分词词库里既包括基本词信息,又包括词性信息, 因此分词模块、词性判断模块都以分词词库为基础。分词词库不是指 单独一个词库,而是些结构、功能相似词库的集合,包括基本词库、 特殊词库、领域词库,领域词库又包括计算机词库、政治词库、经贸 词库等。同样姓名词库也不是单独的词库,而是与判断姓名相关词表 的集合,如:姓氏词频率表、名字用字频率比值表、前称谓表、后称 谓表等。对具体词库、词表的介绍将在后面的章节中。 第二章系统介绍 2 2 系统流程图 系统流程图主要是指模块的工作顺序,以及模块之间的逻辑关系。 本课题的系统流程图如下: 图2 3系统流程图 在进行分词以前,先通过“。,;! ? :”等分句符号将文本划 第二章系统分缨 分为荤句,然后以句子为单位避行分调和词性标注。在分词煎还要对 句子里嚣懿标点符号进行进一步处理,将当做个词来处理,对 、“、( ) ,如果里嚣没有“。,;! ”等分旬德,则燎“”、“、( ) 当 搬一个词来处理,如“活享申仙”为一个词,秀则不进行处理。分词缀 果采用空搀“”熄词与词之间分开。由于姓名悬应该与周围的词是没 有联系的,同时为了降低中文姓名判断的难度,因此采取在分词后进 行姓名判断,对少部分姓名中的一部分与周闰的词楣缀合的情况,单 独处理这部分。词性判断的结柴采用直接在判断的词后面用词性代码 进行标注。由于是将文本划分为单句进行处理,因此在分析完一句话 后要继续向下查看整个输入文本是否处理完了,如果没有处理完,要 调用分旬程序划分出下个单旬,交分词模块处理,如果已经处理完, 则将整个文本的处理结果交输如模块在屏幕上显示。 0 第三章汉语分词 第三章汉语分词 3 1 回顾以前的分词系统 我所做的课题是在以前分词系统基础上的改进、提高,为了使读者 对整个分词系统有一个完整的了解,有必要对以前的分词系统做一个 简单的介绍。 3 1 1 分词系统的基本思想和方法 1 、最大匹配法 亦称m m 法;其基本思想是这样的,假设自动分词词典中的最长词 条是i 个字,则取被处理材料当前字符串序列中的前i 个字作为匹配 字段,查找词典,若词典中存在这样的一个i 字词,则匹配成功,匹 配字段被作为一个词切分出来;如果在词典中找不到这样一个i 字词, 则匹配失败,匹配字段去掉最后一个字,剩下的字段重新进行匹配, 如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词 为止。m m 法的中心思想就是长词优先原则。 2 、逆向最大匹配法 亦称r m m ;其基本原理和m i 法相同,不同的是分词切分方向;它 从被处理材料的末端开始匹配,每次取最末端的i 个字作为匹配字段, 匹配失败则去掉最前面的一个字。r m m 法要求配置逆序分词词典。 3 、跳跃匹配法 主要是为了减少一些非连续词( 如:“在上”) 对切词的影响, 在切词以前先将其找出来,从而提高分词的正确率。对例旬“当原子 结合成分子时”,如果不用跳跃匹配,无论用m m 算法还是r m m 算法, 都会错误切分成“当原子结合成分子时”,而采用了跳跃匹配算法 后,原句首先被切分成“当原子结合成分子时”,再对未切分出来的 部分采用其它方法进行切分,这样就降低了分词的难度。跳跃匹配算 法不能算一个独立的分词算法,主要是对其它分词算法起一个辅助的 作用。 第三章汉语分词 4 、改进双向匹配法 基于以上理论,本系统提出了改进双向匹配法。统计结果表明, 单纯使用正向最大匹配的错误率比单纯使用逆向最大匹配的错误率高 一些,但两种算法都存在一部分无法正确切分的交集字段,如果能综合 m m 算法和r m m 算法的优点,则能明显提高分词的正确率,改进双向 匹配法正是在这种思想的基础上产生的。同时由于需要一种评估机制 来评估两种方向的优劣,我们提出了结合度这个概念,用来处理交集 字段。 交集字段:在中文字符串s = c 1 c 2 八c 。中,s 不为词,c i c j i 、c i l c j 2 、 c i 2 c j3 、c i k 1 c j k 、c i k c 。分别为词,并且1 i 1 j 1 i 2 j 2 i 3 j3 i k jk y , 选取正向匹配,从而得到正确的结果。 ( 2 ) 后缀词和量词 后缀词本身没有意义,通常跟在名词后面共同组成一个新的名词, 当然,也有一些后缀词跟在形容词后面,常见这类词有“所”,“者”, “长”。和助词一样,后缀词也能和前面或后面的字构成一个词,从而 导致分析错误。例如,在句子“生物所有一台设备”中,“所”是个 后缀词,正确分法应该是“生物所有台设备”。然而,根据最大 匹配法,则得出了“生物所有一台设备”的错误结果。量词也存在 这个问题,例如,“每个人”应分为“每个人”而不是“每个人”。 值得指出的是,造成这类错误是多义组合字段( 在字段s = a 1 a i b l b , 中,若a 】,a ,、b 】b ,和s 三者都构成词,则字段s 称为多义组合字段, 如上例中的“所”、“有”和“所有”三者都可成为词) ,而对于这类字 段各种最大匹配的处理能力是一样的,结果都是把s 作为个词划分 出来。因此,为了解决这类问题,必须引入新的算法:当分出一个单 字词后,程序查看它是否有后缀词或量词词性,若有就进行特殊处理, 否则则检查它能否与后面的字串组成更长的词。对于量词,其处理是 查看前面是否为数词或“每”、“这”、“那”等字,如果是则让它单独 成词,例如“每个人”,由于前面跟“每”,所以分为“每个人”,而 “反对个人主义”,“反对”是动词,则分为“反对个人主义”。对于 后缀词,处理方法是查看前面的词是否具有名词( 少数后缀词接在形 容词后面,这时相应地检查前面的是否为形容词) 含义,如果是也让 它单独成词。例如前面提到的“生物所有一台设备”,因为“生物”是 名词,所以分为“生物所有一台设备”。 第三章汉语分词 3 1 2 分词系统的实现 1 、分词系统的数据结构 在以前的版本中个词条只能有四个词性,在当前版本中将其扩 充为八个词性,并且每个词性还可以有其子词性。其数据结构如下: c l a s s u n i t s t r i n gw o r d ; i n t a t t r 8 ; ) 说明:w o r d ,代表存储的词条, a t tf i 的表示高0 0 0 0 0 0 0 0 , ( a t t r 7 除外) a t t r 7 的表示高0 0 0 0 0 0 0 0 , 用。 用i 区别同一词条的不同词性。 0 0 0 0 0 0 0 0 ,0 0 0 0 0 0 0 0 ,0 0 0 0 0 0 0 0 低 子词性主词性 0 0 0 0 0 0 0 0 ,0 0 0 0 0 0 0 0 ,0 0 0 0 0 0 0 0 低 结合度 从低字节开始数,第二字节和第四字节没有用,保留做以后扩展 2 、改进双向匹配法的具体实现 s t r i n gs p l i t ( s t r i n gs e n t e n c e ,a r r a y l i s ta r r a y l i s t ) i n t p o s = o ;代表指向s e n t e n c e 的当前位置 s t r i n gi n t e r s e c t i o n ;代表最大交集字段 s t r i n gf o r w a r d w o r d ;代表正向最大匹配法进行切分的结果 s t r i n gb a c k w a r d w o r d ;代表逆向最大匹配法进行切分的结果 i n t f o r w a r d p r i o r i t y ;代表正向最大匹配的结合度 i n t b a c k w a r d p r i o r i t y ;代表逆向最大匹配的结合度 w h i l e ( p o s b a c k w a r d p r i o r i t y ) 保留正向最大匹配的切分结果 e l s e 保留逆向最大匹配的切分结果 ) p o s + = i n t e r s e c t i o n 1 e n g t h ( ) ;移动指针 ) e n do f i f e l s e f 如果不存在交集 按普通正向最大匹配进行切分 ) ) e n d o fw h i l e ) 说明:s e n t e n c e ,代表当前要进行分词的句子 a r r a y l is t ,代表进行分词用到的词典 s p l i t 代表分词函数,分词结果以s t r i n g 形式返回 跳跃匹配法在s p l i t 函数之前进行,先建立一个非连续词表,将尽 可能多的非连续词收入其中,在待处理文本中寻找属于非连续词表中 的词,如果找到,先将其切分出来。采用了跳跃匹配算法后,分词错 误率可由原来的4 降为3 6 ,也就是错误率降低了10 左右。 3 、查找最大交集字段 查找最大交集字段是程序中较关键也较难的一部分,程序如下 s e n l :代表进行分词的句子 p o s l :代表从句子中的当前位置查找最大交集字段 a r r a y l i s t :代表分词用到的词库 s t r i n gf i n d i n t e r s e c t i o n ( i n tp o s l ,s t r i n gs e n l ,a r r a y l i s ta r r a y l i s t ) i n tp o s 2 2 p o s l + 1 : 找出从p o s l 开始的最大匹配 m a x w o r d l = f i n d m a x m a t c h ( p o s l ,s e n l ,a r r a y l is t ) ; w h i l e ( 从p o s l + 1 到p o s l + m a x w o r d l 1 e n g t h ( ) 查找最大匹配) ( 第三章汉语分词 找出从p o s 2 开始的最大匹配 m a x w o r d 2 2 f i n d m a x m a t c h ( p o s 2 + + ,s e n1 ,a r r a y l i s t ) ; i f ( m a x w o r d 2 落在m a x w o r d l 外) 表示存在交集字段 用递归找出从p o s 2 开始的最大交集 m a x w o r d 3 = f i n d i n t e r s e c t i o n ( p o s 2 ,s e n l ,a r r a y l is t ) ; i f ( m a x w o r d 3 1 e n g t h ( ) ! = o ) 如果存在从p o s 2 开始的最大交集 返回从p o s l 到m a x w o r d 3 末尾的最大交集字段 ) e l s e 返回从p os l 到m a x w o r d 2 末尾的最大交集字段 ) ) e n do f i f ) e n do fw h i l e 没有找到则返回空字符 ) e n do ff i n d i n t e r s e c t i o n 这个查找最大交集字段程序最大的特点就是在程序中利用了一个 嵌套递归,使程序显得简洁易读。 3 2 最大交集字段的频率统计 改进双向匹配法虽然能将正向最大匹配和逆向最大匹配结合起 来,但仍然有一些交集字段不能用正向最大匹配和逆向最大匹配来解 决,如:“折合成人民币”,m m 法切分为“折合成人民币”,r m m 法切分为“折合成人民币”,都不正确,这时需要寻找其它方法。基 本思想就是以一个极大规模汉语语料库为背景,对交集型歧义字段进 行穷举式的调查及统计分类,摸清交集型歧义字段的全貌,做到“一1 1 中有数”,从而为系统地研究其消解策略奠定基础。 根据清华大学智能技术与系统国家重点实验室的报告,从 1 0 1 ,5 0 6 ,15 2 个字的汉语语料库r c o r p u s 中抽取出其中所有的最大交集 字段。最后共得到不同的最大交集字段2 3 3 ,8 8 8 个( 段型) 。这些字段 在r c o r p u s 中累计出现了1 ,7 9 3 ,3 17 次( 段次) 。为了表述方便,这里 引入两个概念:最大交集字段的静态频率和动态频率。 设最大交集字段( 段型) 的全集为i = s l ,& ,s 。) ,其中字段 s 在语料库中的出现次数( 段次) 为f r e q ( s i ) 。又,c 是某些最大交集 字段( 段型) 组成的集合,c = s 。,s ) ,则c 关于i 的静态频率和 动态频率分别定义为: 第三章汉语分词 f r e q ( s ) c s f c 2 静态频率= , 动态频率= j 一 l i lf r e q ( s ) s j z 其中i c l 和1 1 1 分别表示集合的大小。 将最大交集字段( 段型) 按动态频率降序排列,考察其前”个高 频字段对r c o r p u s 中全部最大交集字段出现次数( 段次) 的动态覆盖 情况。则覆盖率随f 的变化曲线如图3 1 : 图3 1 前7 个高频最大交集字段的覆盖率 ( 横坐标上的“k ”表示数字10 0 0 ) 这种曲线变化是我们所乐见的:为数不多的高频最大交集字段的 覆盖率就已经相当可观。为了看得更清楚些,将高频部分的曲线放大, 得图3 2 : 图3 2 前,7 个高频最大交集字段的覆盖率( 局部放大) 第三肇汉语努竭 如图3 、2 ,2 所示,前2 5 0 0 个海频爨丈交集字段( 段泌) 的覆羲零 超过了5 0 ,前4 , 6 1 9 个的覆盏率接近6 0 。 囱诧可觅,嵩颁潦大交榘鍪蛟义切分字袋肖褥当强的裰盏能力。 我们翁像了个窝骏;群从r c o r p u s 获欷的箭4 ,6 1 9 个商频最大交集 漤躞义鞠分字段去稷溢个与r c o r p u s 麓不穗干鹃、6 0 万字瓣语辩簿 a c o r p u s 串蕊涵懿全帮鼗大交熊霆技义翡分字菝,褥戮覆菇率窝纯藏 线麴颦3 。3 : 熙3 。3r 0 0 r p u s 抟麓封个高频最太交集型嫒义翅分字段关- 7 :a 0 0 r p u s 的覆蕴率 遽肆,6 1 9 个搿颓竣大交集麓蝮义留分字段燕子a c o r p u s 的覆盏率 仍然达翔了5 0 8 5 ,与芙予r c o r p u s 的覆菔攀5 9 2 0 稠阮,下降裰度 膏限。这袭翳高频最大交桑篷酸义切分字段蹙滗较稳定游,受领域嶷 优虢影镌不大,其存裙嚣程度辩避罐髓。 窝颧最大交爨鼙蛙义秘分警段强蠢稳定鹣覆蓬裁力决定了它霄j 态 汉语叁动分谣中势磐占撂转弱罨鬻懿槛饕:处理好这些字段,裁爨喙 藉解决了汉语其实文本中全部交集澎螋义的一半友蠢。 对r c o r p u s 中的前4 , 6 1 9 个商频最大突鬟黧歧义切分字段儆避一 步的分耩,可把它们癌结成三释癸燮: ( 1 ) 傍竣义:只肖一种韬分形式楚可实现的( 凝4 ,2 7 9 个) 繇;避行a进行,天( 4 遴,行人( ) 等两悫等n 惠( 4 )等游,悫( ) 上t 功夫上,下功夫( 4 )主t ,功夫( ) 2 ) 凑竣义l :移在溪静戳上经零可窦璇兹锈分形式( 共8 5 夺) 皴:不平等不平等瀵鼗麝签定了诲多丕垩签条懿。 不乎等 这条爨赛太窄、丕墨釜皱陲。 第三章汉语分词 有意见 有意见我对他直童巫。 有意见他被告知总统直鏖旦他。 的确定的确定毛泽东领导地位的煎定是在遵义会议 上。 的确定这件事一时的确定不下来。 ( 3 ) 真歧义2 :本质上属于真歧义但通常情况下只有一种切分形式 是可实现的( 其它切分形式出现机会很小) ,基本上可当成伪歧义处 理( 共2 5 5 个) 如:方面的方面的( 常见) 他受到了来自几个直画的压力。 方面的( 罕见)受害那一友亘的的车门被撞扁了。 主要是主要是( 常见) 我看圭要星你的问题。 主要是( 罕见) 圭夔是再不显灵,我们就没救了。 水平和水平和( 常见) 生产丞垩塑规模都得以迅速发展。 水平和( 罕见) 丞垩塑地流着。 这三种类型对r c o r p us 中全部最大交集型歧义切分字段的覆盖率 见表3 1 : 表3 1 前4 6 19 个高频最大交集歧义切分字段对r c or p u s 的覆盖率 由此可见,只需建一张最大交集型歧义表,将伪歧义和真歧义2 装入其中,并填入对应的正确切分,则通过简单的查表,就可以解决 占5 8 交集型歧义字段。 3 。3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息科招聘考试题及答案
- DB65-T 4853-2024 自然灾害应急指挥体系建设规范
- 养猪专业试题及答案详解
- 2025年井下防突工考试题及答案
- 内外科疾患康复学习题及答案
- 排球专业理论试题及答案
- 2025年煤矿探放水考试题模拟考试题库及在线模拟考试及答案
- 2025预防艾滋病、梅毒和乙肝母婴传播技术培训考试练习题及答案
- (2025)特种设备安全管理员考试题库及参考答案
- 员工培训计划制定工具新员工入职培训内容规划版
- 2025年人社局编外考试题库及答案
- 木制品厂安全生产培训课件
- 电工四级考试理论题库及答案
- 世纪英才教程课件
- 小学科学新教科版三年级上册全册教案(2025秋新版)
- 婴幼儿发展引导员技能竞赛考试题库(含答案)
- 小学生航空航天知识题库及答案
- 统编版八年级上册道德与法治第三课 共建网络美好家园 课件
- 企业数据安全管理制度与操作规程
- 2025年合肥市公安局第一批招聘430名警务辅助人员笔试模拟试题带答案详解
- 2025年综合基础知识题库(含答案)
评论
0/150
提交评论