（计算机应用技术专业论文）基于统计的汉语词性自动标注的若干分析与实验研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：48 大小：1.27MB 积分：10.8 举报 版权申诉

（计算机应用技术专业论文）基于统计的汉语词性自动标注的若干分析与实验研究.pdf_第2页

（计算机应用技术专业论文）基于统计的汉语词性自动标注的若干分析与实验研究.pdf_第3页

（计算机应用技术专业论文）基于统计的汉语词性自动标注的若干分析与实验研究.pdf_第4页

（计算机应用技术专业论文）基于统计的汉语词性自动标注的若干分析与实验研究.pdf_第5页

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着社会的日益信息化，人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看，自然语言理解的任务是建立一种计算机模型，这种计算机模型能够给出像人那样理解、分析并回答自然语言的结果。现在的计算机的智能还远远没有达到能够像人一样理解自然语言的水平，而且在可预见的将来也达不到这样的水平。因此，关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话，或机器翻译，或自动文摘等语言信息处理功能，则认为计算机具备了自然语言理解的能力。在自然语言处理领域，汉语词性标注一直是一项颇受关注的基础性研究课题。它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、o c r 和文本核对等诸多领域的研究。目前，基于统计的方法已在词性标注方面奠定了扎实的基础，它较之过去采用的基于规则的方法有了质的飞跃和突破。基于统计的方法有很多，如隐m a r k o v 模型、转换模型、最大熵模型、神经网络、决策树等，这些方法对英语文本中的兼类词的词性标注正确率不相上下。本文扩展了传统的基于隐m a r k o v 理论的二元模型，提出了一种双向二元模型。同时，为了使模型参数能够随着新训练语料的增加而动态地进行调整从而能更好地反映语言现象，本文提出一种能不断地从新的训练语料中获取知识的参数估算法。本文利用经典的v i t e r b i 算法在不同规模的训练语料情况下对同- - i i i 试集进行测试，对正向、反向与双向二元模型所得出的实验结果进行了对比。结果表明，双向二元模型的正确率和排歧率较正向和反向的来得高。关键词：双向二元模型汉语词性标注隐m a r k o vv i t e r b i a b s t r a c t w i t ht h ei n f o r m a t i o nd e v e l o p i n gd a yb yd a ya l o n gw i t ht h es o e i e t y t h ep e o p l e m o r ea n dm o r ei n t e n s e l yh o p e de x c h a n g e sw i t ht h ec o m p u t e rb yn a t u r a ll a n g u a g e t h en a t u r a ll a n g u a g eu n d e r s t a n d i n gi saf a s c i n a t i n gt o p i ci nc o m p u t e rs c i e n c e f r o mt h ev i e w p o i n to fc o m p u t e rs c i e n c ee s p e c i a l l ya r t i f i c i a li n t e l l i g e n c e ，t h e t a s ko ft h en a t u r a ll a n g u a g eu n d e r s t a n d i n gi st oe s t a b l i s ho n ek i n do fc o m p u t e r m o d u l e t h i sm o d u l ec a np r o v i d et h er e s u l t o fu n d e r s t a n d i n g ， a n a l y s i sa n d a n s w e r i n gt h en a t u r a ll a n g u a g ej u s ta st h eh u m a nd o e s t h ep r e s e n tc o m p u t e ri n t e l l i g e n c eb yf a rh a sn o ta c h i e v e dt ou n d e r s t a n d t h en a t u r a ll a n g u a g ej u s ta sp e o p l eh a v e ，e v e ni nt h ef u t u r ew h i c hc a nb e f o r e s e e n t h e r e f o r e ，a st h en a t u r a ll a n g u a g eu n d e r s t a n d i n gb yc o m p u t e ri s c o n c e r n e d ，i ti sg e n e r a lt oc a r r yo nt h ej u d g m e n tf r o mt h ep r a c t i c e i ft h e c o m p u t e rh a sr e a l i z e dt h el a n g u a g ei n f o r m a t i o np r o c e s s i n gf u n c t i o ns u c ha st h e m a n - m a c h i n ec o n v e r s a t i o n ，m a c h i n et r a n s l a t i o n ，o ra u t o m a t i cd i g e s ta n ds oo n ， t h e ni ti st h o u g h tt h a tt h ec o m p u t e rh a s h a dt h en a t u r a ll a n g u a g eu n d e r s t a n d i n g a b i l i t y i nn a t u r a ll a n g u a g ep r o c e s s i n g ，c h i n e s ep a r t o f s p e e c ht a g g i n gi so f t e n af u n d a m e n t a lt h e m e i t ss t u d yr e s u l td i r e c t l ya f f e c t sm a n yo t h e rs t u d yd o m a i n s s u c ha sg r a m m a ra n a l y s i s ，s e m a n t i ca n a l y s i s ，p h o n e t i ci d e n t i f i c a t i o n ，m a c h i n e t r a n s l a t i o n ，i n f o r m a t i o nr e t r i e v e ，o c ra n dt e x tc h e c k r e c e n t l y ，t h em e t h o do fs t a t i s t i c b a s e dh a sb e e np o p u l a ri np a r t o f - s p e e c h t a g g i n g i th a sd e v e l o p e dm u c hm o r et h a nt h em e t h o do fr u l e b a s e d t h em e t h o d o fs t a t i s t i c s b a s e dh a sm a n yk i n d s ，f o re x a m p l e ，h i d d e nm a r k o vm o d e l ， t r a n s f o r m a t i o n b a s e dm o d e l ，m a x i m u me n t r o p ym o d e l ，n e u r a ln e t w o r k s ，d e c i s i o n t r e e se t c t h et a g g i n ga c c u r a c yo ft h e s em e t h o d sf o re n g l i s ht e x t sd o e s n t c h a n g ev e r ym u c h t h i sp a p e rd e s c r i b e sa ne x t e n s i o nt ot h eb i g r a mm o d e l b a s e do nh i d d e n m a r k o v i tp u t sf o r w a r dak i n do fm o d e lw h i c hc a l l e dd o u b l eb i g r a m m e a n t i m e ， t h i sp a p e ra l s or a i s e sam e t h o du s e dt oo b t a i nt h ek n o w l e d g ef r o mn e wt r a i n i n g c o r p u si no r d e rt om a k et h em o d e l sp a r a m e t e r sd y n a m i c a l l yc h a n g ew i t ht h e t r a i n i n gc o r p u s i n c r e a s ei nw h i c ht h e yc a nr e f l e c tt h ep h e n o m e n o no fl a n g u a g e b e t t e r t h i sp a p e ra d o p t sv i t e r b ia l g o r i t h mw h i c hi st r a i n e do nd i f f e r e n t s c a l e sc o r p u st ot e s to nt h es a m es c a l e sc o r p u sa n dt h e nc o m p a r et h er e s u l t o ff o r w a r da n db a c kb i g r a mm o d e lw i t ht h o s eo fd o u b l eb i g r a mm o d e l t h er e s u l t s h o w st h a td o u b l eb i g r a mm o d e l st a g g i n ga c c u r a c i e s a n dd i s a m b i g u a t i o n a c c u r a c i e sa r eh i g h e rt h a nf o r w a r da n db a c kb i g r a mm o d e l s k e yw o r d s ：d o u b l eb i g r a mm o d e l ，c h i n e s ep a r t o f s p e e c ht a g g i n g ，h i d d e n m a r k o vv i t e r b i 原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本声明的法律结果由本人承担。论文作者签名：王琦、谄p 日期：7 年3 月5 1 日 k 备t 虹j 、学佃! j 学论上第一章绪论 1 1 自然语言理解与处理随着社会的日益信息化，人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看，自然语言理解的任务是建立一种计算机模型，这种计算机模型能够给出象人那样理解、分析并回答自然语言( 即人们日常使用的各种通俗语言) 的结果。现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平，而且在可预见的将来也达不到这样的水平。因此，关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话，或机器翻译，或自动文摘等语言信息处理功能，则认为计算机具备了自然语言理解的能力。自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的语言( 如汉语、英语) ，使得计算机懂得自然语言的含义，并对人给计算机提出的问题，通过对话的方式，用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系，使之能进行高度的信息传递与认知活动。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口，有很大的实用价值。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之问用自然语言进行有效通信的各种理论和方法。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，包括中文、英文、俄文、日文、德文、法文等等，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。语言是人类区别其他动物的本质特性。在所有生物中，只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式，人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而，它也是人工智能的一个重要甚至是核心部分。用自然语言与计算机进行通信，这是人们长期以来所追求的。因为它既有明显的实际意义，同时也有重要的理论意义：人们可以用自己最习惯的语言来使用计算机，而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言；人们也可通过它进一步了解人类的语言能力和智能的机制。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义，也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解，后者称为自然语言生成。因此，自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多，而对自然语言生成研究得较少，但这种状况近年来已有所改变。我国研究自然语言的信息处理当然以汉语作为主要研究对象。我国在1 9 5 7 年就丌始进行机器翻译的研究，是世界上最早开展自然语言信息处理研究的国家之一。不过大规模系统地对自然语言处理进行研究是到8 0 年代中期才开始的。我国研究自然语言处理的主要精力集中于实用系统的开发，机器翻译和信息检索是最热门的课题。 1 2语料库概述语料库1 。2 1 从最为宽泛的意义上说就是存放语言材料的仓库。在现代语言学的意义上，对语料库的认识应该包括如下三点： ( 1 ) 语料库中存放的是在语言的实际使用中真实出现过的语言材料； ( 2 ) 语料库是以电子计算机为载体承载语言知识的基础资源； ( 3 ) 真实语料需要经过分析、加工、处理，才能成为有用的基础资源。下面是本文所使用的语料库的样例( 关于其中的标记的含义请见本文附录1 ) ：耋! ：! ! ! 塞奎堂盐基堡宣堑望主垦旦塑堡鎏亘整壁堂型历史n 将d 铭记v 这个r 坐标n ：w 北纬b 4 1 1 m 度q 、w 东经b 1 1 4 3 m 度q ；w 人_ f f n 将d 铭记v 这r 一m 时刻n ：w 1 9 9 8 年t 1 月t 1 0e t t 1 1 时t5 0 分t 。w 从此样例可以看出语料库中的语言材料是真实的书面语( 或1 ：3 语) ，并且在真实材料的基础上，做了语言学的加工和分析。语料库因所承载的语言知识的性质不同，就构成了不同类型的语料库，比如书面文本材料、口语语料、单语语料或多语语料等等。加工好的语料库或者适用于多个应用领域的需求，或者适用于某些专门领域的需求。概括说来，现代语料库在不算太长的发展过程中，对于词典编纂、语言学研究，甚至文学，社会学研究，以及语言教学等领域，都发挥了很大的作用。语料库在自然语言处理的许多方面都有重要的应用价值，比如：基于大规模语料库的语言识别；基于大规模语料库的音字转换技术( 中文输入) ；基于大规模语料库的自动文本校对技术；利用语料库训练h m m 模型【3 】进行分词、词性标注、词义标注等等；基于语料库的句法分析；基于语料库的机器翻译；基于机器学习技术，通过语料库获取语言知识，包括搭配特征，句法规则等等；基于语料库的语言模型训练及语言模型的评价。 2 1 3 词性标注的重要性语料库是机器翻译研究中的基础。在语料库信息加工的过程中，词性标注是一项基础性课题。词性标注的任务就是在具体的语言环境中正确地给出一个词的确切词性。如果词性标注错误，就会影响后面的句法分析和语义分析，甚至导致自然语言理解的严重错误。因此词性标注对汉语语料库标注、机器翻译和大规模文本的信息检索等都有重要的意义。具体说明如下： ( 1 ) 在机器翻译中我们不但要知道词义，还要知道词的用法，能根据不同的语言环境选择最恰当的词义。标注词性就是注明词的用法的最有效的手段之一。 ( 2 ) 标注词性有助于词的义项分合的确定或发现新义项。词类划分以词的同一性为基础，分析词性( 也就是充分考虑词的用法) 会为分析词义提供一个新的角度，弥补单纯的词义分析的不足。 ( 3 ) 标注词性有助于准确地释义。释义是与词的词性相关的，不同词性的词应采取相应的释义方式，一般情况下用来释义的词语应基本上与被释义的词的词性相同，即释义应与词性协调，准确的释义离不开准确的词性分析。现举例说明。在“把这篇报道编辑一下”句中，除了“这”、“篇”词性确定外，其他词都存在多种词性。对于像“这”、“篇”词性确定的词，我们很容易知其用法、知其含义，但对于像“把”、“报道”、“编辑”、“一”、“下”这些存在多种词性的词，它们往往用法灵活，其含义随词性的变化而变化。例如“报道”在此词性为动词，意思为通过报刊、广播电视等向公众报告新闻，而在“给我一份报道”旬中，其词性为名词，意思为发表的新闻稿。因此，词性和词义是紧密联系在一起的。另外，分析词性间的相互作用可以更好地理解自然语言现象。总之，应做到释义、配例和词性的协调。考虑词性会为我们增加一个看问题的角度，多一种眼光，其结果是使我们对义项分合、释义和举例有了新的认识。 1 4 标注词性的可能性和困难性 1 4 1 标注词性的可能性 ( 1 ) 词类区分是世界语言的共性，汉语也有词类区别。汉语同其他语言一样，词在组合中不是随机排列的，而是有序的，这种有序性体现为语法位置对词语的选择限制，如：这一本书 i al b l i _ c ll d i l e i f _ l 按层次分析法，共有六个语法位置，其中位置b 、c 、d 、e 、f 五个位置分别可以 k 阜，1 业、学坝学位论由以下单词替换：位置b ：纸、鱼、石头、花生、苹果( 名词) 位置c ：那、每、任何、某、另、唯( 指示词) 位置d ：不少、一切、许多、俩 ( 数量词) 位置e ：两、三、四、十、半、几 ( 数词) 位置f ：张、条、块、粒、个( 量词) 这种替换是有限制的，比如出现在位置b 的词不能替换出现在位置c 上的词，出现在位置c 上的词不能替换出现在位置f 上的词，反之亦然。也就是说，语法位置对能进入的词有选择限制，不同的语法位置允许进入的词是不同的。这就表明，词语的本身的性质有不同，我们就可以根据词的性质的不同把词分成不同的类。 ( 2 ) 汉语词类划分研究已有大量积累，我们已经找到汉语词类划分的一套明确标准，并对4 万多词进行了归类，证明这套标准是可行的。 1 4 2 标注词性的困难性根据我们的工作，标注词性主要有以下几方面困难： ( 1 ) 个别词用法特殊，难以归类，但数量极少。如：整、摄氏、例如、内秀、据说、阿门、贵姓。 ( 2 ) 个别词在使用中的句法成分不好确定，因而不好归类。如： a 决心提前完成任务( 如果整个结构是述宾结构，那么“决心”应看作动词；如果整个结构是状中偏正结构，那么“决心”应看作副词。) b 继续前进( 如果整个结构是述宾结构，那么“继续”是动词；如果整个结构是状中偏正结构，那么“继续”是副词。) c ( 三名工人) 随同他前往工地( 如果整个结构是连谓结构，那么“随同”是动词，如果整个结构是状中偏正结构，那么“随同”是介词。) d 享年a 十岁( 如果整个结构是主谓结构，那么“享年”是名词，如果整个结构是述宾结构，那么“享年”是动词。) ( 3 ) 部分词的用法不清楚，主要是文言词和专门用语。如：狐媚、安堵、板荡、错谬、风凉、渐染、暗转、爆振。这个问题可以通过大规模语料库的建立来解决。 ( 4 ) 部分词同一性的确定有困难。如“很危险”和“有危险”中的“危险”是否同一，“很困难”和“不少困难”中“困难”是否同一，“表现得很好”和“他今天的表现很好”中的“表现”是否同一，“文章的论点前后冲突”和“武装冲突”中的“冲突” 是否同一。词的同一性涉及到分类的单位，如果不同一，那么肯定应作为两个单位分别考察，处理成兼类词或不同词类的同音词；如果同一，那么是一个单位，可以处理成兼类词也可以不处理成兼类词，是否处理成兼类词，要通盘考虑。尽管有以上困难，但归类有困难的词毕竟是少数，其中一些问题随着研究的深入 4 长备t 业j 、学坝i 。学位论上可以得到解决，那些目前一时还不能定类的词，不妨暂时归入语法功能接近的词类比如可暂把“整”归入形容词，“例如、据说”归入动词等。 1 5 词性标注应注意的问题通过对几部词典的词性标注工作的分析，我们觉得主要应注意四点： ( 1 ) 应通盘考虑，建立一个内部协调的词类体系。比如，过去的多数词类体系不区分形容词、状态词、区别词、数量词，它们都归入形容词，又把形容词归入谓词( 主要作谓语) ，但实际上区别词、数量词都不属谓词，而属饰词( 主要作修饰语) ，因此这样的体系内部不协调。目前已出的标注词性的词典都没有认真作这方面的研究，大多是沿用“暂拟体系”的词类系统，缺乏明确的划类标准，漏洞不少。 ( 2 ) 应以明确的语法功能为划类标准，不能以意义为划类标准。之所以如此，是因为必须以可观察的( 看得见的) 特征为划类标准，这样才能有可操作性。意义不可观察，因而用来判断词性不可靠。 ( 3 ) 注意同一性问题。词类划分应以概括词为对象，因此，划类的前提是确定词的同一性，同一性确定不好，就有可能把同一词的不同用法看作不同单位而划归不同词类，或忽略词的兼类。 ( 4 ) 兼类词的处理应全盘考虑、统一处理。兼类词有异型兼类词和同型兼类词两种。异型兼类词指词义不同的兼类词，如“领导( 动、名) 、锁( 动、名) 、死( 动、形) ”，也有人认为这些实际是同音词。同型兼类词指词义相同的兼类词，如“共同( 区别词、副词) 、小时( 量词、名词) 、区别( 动词、副词) ”。异型兼类词必须处理成兼类词或异类同音词，但同型兼类词从理论上说则不一定处理成兼类词，这与我们的划类策略有关。比如“研究、检查”一类词，兼有动词和名词的性质，我们可以采取同质策略处理成动词兼名词，也可以采取同型策略处理成第三类词，还可以采取优先同型策略处理成动词或名词。到底采取哪一种策略，主要应考虑下面两方面因素：( 一) 词类的简单性：类的总数尽可能少；同型兼类词总数尽可能少。( - - ) 句法规则的简单性：划归同一词类的不同词的语法功能应尽可能单一。两方面因素实际上是矛盾的，照顾了词类的简单性就会破坏句法的简单性，照顾了句法的简单性就会破坏词类的简单性，因此应全盘考虑，使两方面的总代价降到最小。比如“研究、检查”等具有动词和名词性质的词占常用动词的4 4 ，若采取同质策略，则会使兼类词太多，破坏词类的简单性，由于数量相当大，因而在句法规则方面得到的好处远远抵不上在词类的简单性上所付出的代价，所以宜采取优先同型策略，把这类词处理为动词，叫“名动词”。只有在词类性质重合的词数量少时，才宜采取同质策略。比如，“胜利、区别、破例”等既有动词性，又有副词性( 可做状语) ，这一类词数量很少，采取同质策略不会使狭义兼类词过多，还会有词类与词类性质一一对应的优点，两方面的总代价较小，因此宜对这些词采取同质策略，处理为动词兼 5 备t 业人号：伽! f 学位论，副侧。一旦划类策略定下来，就应对同类现象作统一处理，比如如果把“研究”处理成动词兼名词，就应把“生产、管理、照顾”等也处理成动词兼名词；如果前者处理成动词，那么后者也应处理成动词。现代汉语用法大词典把“生产、变化”处理成动词兼名词，但“研究、学习、检查”却只是动词；汉语常用词用法词典把“生产、变化、研究、学习、检查”都处理成动词兼名词，但把“管理、检验、训练、实习、出版”只处理为动词，这两种处理都缺乏统一性。 1 6 兼类词的特点所谓兼类，并不是指某个词在具体语句中同时具备甲类和乙类的特点，恰恰相反，指的是某个词在某一场合具备甲类词的特点而不具备乙类词的特点；在另一场合具备乙类词的特点而不具备甲类词的特点。例如“丰富”、“方便”、“繁荣”是形容词兼属动词。因为是形容词，所以它们前边能加程度副词“很”，但是一经加“很”，后边就不能带宾语了。又因为它们是动词，所以能带上宾语，如“丰富生活”、“方便群众”、“繁荣创作”。既然带上宾语，它们前边就不能加“很”了。几乎大多数词类大类之间和小类之间都有兼类问题，但是常见的兼类现象是动名兼类、形名兼类和动形兼类。兼类问题的焦点在动名兼类和形名兼类。下面我们具体考察这三种情况，特别是动名兼类和形名兼类。 ( 1 ) 动名兼类问题。动名兼类的词常见的有：病、锈、冰、猫、决定、领导、工作、代表、指示、通知、总结等。 ( 2 ) 形名兼类问题。形名兼类的词常见的有：左、科学、精神、经济、道德、困难、麻烦、矛盾等等。 ( 3 ) 动形兼类词。动形兼类的词常见的有：破、忙、丰富、明确、端正、明白、深入等。汉语中词的兼类是普遍存在的现象。曾经有人通过对动词用法词典的约4 0 万字语料的切分结果进行统计，得到了表1 2 的结果。表1 2 兼类词现象统计表总词次 2 9 1 6 2 3 ( 个) 总词条1 0 8 1 3 ( 个) 兼类词词次1 0 7 4 0 6 ( 个) 兼类词词条4 6 3 ( 个) 兼类词现象 1 0 2 ( 种) 通过考察，我们总结了兼类词在各种语言环境中出现的特点：兼类词数量虽不多( 占词条总数的4 2 8 ) ，但出现频度却很高( 约占总词次的 6 3 6 8 ) 。越是常用的词歧义现象越严重。同形异类现象错综复杂，但分布很不均匀，一些常见词性歧义组合占很大比例。了解了语料中兼类词现象的分布规律，对我们在语料的自动词性标注中采取正确的策略是有很重要启示意义的。 1 7 词性标注的国内外研究现状针对英语文本的词性自动标注已有近2 0 年的研究历史，早在6 0 年代，国外就提出了一系列比较典型的方法，这些方法大多是基于规则的或者是基于统计的。基于规则的方法是一种传统的方法，其优势在于能充分利用现有的语言学研究成果，对于某些特殊的歧义组合，可以通过对语境中的词语、词性和语法的特征信息的深入细致的描述，获得很高的排歧准确率，但是规则的覆盖率比较低，难以解决所有兼类问题；基于统计的方法目前占主导地位，其优势在于它的全部知识是通过对语料库的训练得到的，因此可以获得很好的一致性和很高的覆盖率，但是也存在一些缺陷，如它在保证了大概率事件发生的前提下忽略了小概率事件的发生。目前，国内已相继运用基于统计的方法( 如隐m a r k o v 模型、转换模型【、最大熵模型m 、神经元网络嘲、决策树【9 】等) 研制了一系列汉语词性自动标注系统。但是，受制于汉语语言学及语言计算资源等客观条件( 如训练语料规模偏小) ，再加上统计方法中隐含着一些缺陷，总的来说还不够深入，迄今为止尚无经得起推敲的系统推出。最近几年，人们对词性标注又进行了大量的研究，并提出了很多有效的方法，如对未知词的改进、线性分离网络标注模型、非监督方法获取参数的h m m 、可变存储的马尔可夫模型、h m m 和对数线性模型相结合等等。基于统计的汉语词性标注方法逐渐流行并得到应用，国内如清华大学人工智能国家实验室、北京大学计算语言学研究所对此都做了深入的研究。 1 8 本文研究内容及工作目i i i 汉语词性标注的研究方法虽然有很多，但是主要的方法还是基于规则的方法和基于统计的方法。基于规则的方法口叫1 】是一种传统的方法，其优势在于能充分利用现有的语言学研究成果，对于某些特殊的歧义组合，可以通过对语境中的词语、词类和词语的特征信息的深入细致的描述，获得很高的排歧率。基于统计的方法，其优势在于它的全部知识是通过对语料库的训练得到的，因此可以获得很好的一致性和很高的覆盖率。目前这种方法占主导地位。但是这两种方法各有缺陷。对于规则处理方法最重要的就是规则库的构造。目前规则库的构造存在下列问题： ( 1 ) 规则的不完备性。通过对常用词典进行统计，兼类词共有1 5 5 0 个，占全部词 7 k 奋t 业j ：学坝i + 学位论，汇的7 7 。若要将所有的兼类词抽象出规则束，是很困难的，因为规则是通过特定语料总结出来的，很难做到覆盖活语料中出现的各种情况，此外有些语言现象不能用规则语言来描述。规则的不完整性产生的后果是：在测试语料中出现规则库中未曾总结过的兼类词或者兼类词上下文语境超出规则总结的范围。显然，规则方法不能解决这些问题。 ( 2 ) 规则的准确性。传统的规则的获取方法是利用人工从一定语料中总结得到的，因而不能保证每条规则的准确率，如果规则的准确率偏低，就会使词性标注的正确率下降。 ( 3 ) 对于一条规则而言，其覆盖率和正确率是成反比的。如果规则描述过粗，覆盖率比较高，但精确率比较低；相反，如果对于一条规则描述太细，其正确率比较高，但覆盖的语言现象就会比较少。因此要兼顾规则对语言现象的覆盖率和规则处理的正确率，获得一个综合性能很好的规则库是比较困难的。 ( 4 ) 前后词是兼类词和未登录词的情况不易处理。以上存在的不足是可以随着语料规模的增加而得到改进的，但改进的工作量是很大的，而且规则不能描述所有语言现象，所以规则方法不能解决一切兼类问题。同样，统计方法也存在着如下不足： ( 1 ) 统计方法的实质是选择概率高的词性标记，这只是一种最大的可能性，但并不是唯一的可能，它是以舍弃概率低的词性标记为前提的，这必然会使词性标注的准确率受到限制。 ( 2 ) 统计模型的选择和统计语料库的规模对统计方法的正确率影响很大。如果统计语料库过小，就不能得到最贴近语言现象本质的参数。进而影响词性标注的正确率。 ( 3 ) 训练语料的选择也很重要。如果训练语料的内容和题材不够广泛，偏重于某一方面，比如体育方面，使用这样的训练语料得到的参数进行标注，会使得对这个特定方面的测试语料标注效果很好，但对其他方面语料的标注正确率会比较低。从上面的分析可以看出，在词类排歧和词性标注中要得到比较高的正确率和覆盖率，较好的方法是将规则方法和统计方法结合起来，使这两种方法取长补短，互为补充。但是基于规则的方法是属于一种理性主义【1 0 _ 1 2 】，而基于统计的方法是属于一种经验主义1 2 。4 1 ，要找到一个连接理性主义与经验主义的节点以致充分发挥它们的优势而克服它们潜在的缺点真是谈何容易! 本文要做的研究工作如下： ( 1 ) 在传统的二元隐m a r k o v 模型f 】5 - 1 刁基础上提出逆向与双向二元模型传统的词性标注的二元隐m a r k o v 模型是从词串的首词扫描，利用v i t e r b i 算法( 一种动态规划算法) 逐渐解决局部子问题，并将局部子问题的最优解一一进行存储，扫描到最后一个词时，整个词串的词性标注串的最优解便形成。而本文提出的逆向则是其传统的二元模型的逆过程，即扫描时是从尾词进行扫描的，当然其统计参数除了几处 k 击t 业人学协! l 学位论文与传统的二元模型不一致外，其他都一致。而双向二元模型则是结合了传统的二元模型和其逆向二元模型，其标注准确率都略高于传统的二元模型和逆向二元模型。 ( 2 ) 训练语料的扩增引发的概率参数的实时调整本文考虑到训练模型是需要不断地从训练语料中汲取知识，如果一个训练模型不具备随着训练语料的增加而使训练参数动态地做出调整，那么这个模型就不具备自学习过程。具备自学习过程的训练模型符合人工智能给出的定义。 ( 3 ) 引用s p a n ( 跨度) 【l 】缩短标注时间，提高标注效率一个s p a n 是指这样的一个词串“w l w 2 w i ”，其中w l 和w i 的词性都无歧义，而w 2 w i 1 都是由两个以上词性标记的词。这样，就可以将长度为m 的词串转换为几个s p a n ，来对每个s p a n 进行词性标记。 ( 4 ) 针对未登录词处理对于自然语言来讲不存在完备的可计算的词典，如何确定未登录词的词性是除兼类问题之外词性标注所面临的另一个关键问题。本文对未登录词处理提出自己的处理方法。 ( 5 ) 参数平滑策略、v i t e r b i 算法的实现为了解决由于训练语料数量有限所产生的数据稀疏问题，本文采用常数约束法进行参数平滑处理。传统的v i t e r b i 算法是正向进行的( 或者说是顺序进行的) 。本文对于逆向二元模型采用逆向v i t e r b i 算法实现。最后我们用北大9 8 年人民日报中随机抽取的不同规模的训练语料通过传统( 或者叫顺序、正向) v i t e r b i 算法和逆向v i t e r b i 算法对同一测试集进行测试，对正向、逆向与双向二元模型所得出的实验结果进行了对比。结果表明，双向二元模型的正确率和排歧率较正向和反向的来得高。 9 k 备t 业j 、学碗l 学位论上第二章基于隐马尔可夫的词性标注方法 2 1 从统计模型角度看词性标注问题给定一个词串w = w l w 2 w 3 w 。，如果t = t l t 2 t 3 t 。是这个词串对应的词性标记串，所谓对w 进行词性标记，就是在给定w 和带词性标记信息的词表条件下，求t 的过程。如果w 中包含的所有词在词表中分别都只对应着唯一的一个词性标记，那么t 就是确定的，唯一的。如果w 中有一些词在词表中有1 个以上的词性标记，w 就存在多个可能的词性标记结果t 1 ，t 2 ，t i ，这样，对w 进行词性标记，从概率的视角看，就是求已知w 的条件下，使得p ( t i w ) 概率最高的那个词性标记串r 。 t = a r g m a xp ( tw ) 例如，词串是w - 把这篇报道编辑一下，因为w 中的“把”、“报道”、 “编辑”、“一”、“下”等分别都有一个以上的词性标记，这就使得w 对应的词性标记串有多种可能性。全部可能的标记结果等于w 中各个词可能词性标记数目的乘积，即 4 术1 术l 术2 半2 木2 3 = 9 6 种可能性。比如： t l = qrqvvmq ( 把q 这r 篇q 报道v 编辑v 一m 下q ) t 2 = qrqvvi nf ( 把q 这r 篇q 报道v 编辑v 一m 下f ) t 3 = qrqvvh iv ( 把q 这r 篇q 报道v 编辑v 一下v ) 词性标注的任务是从这9 6 种可能中，找到可能性最高的那个词性标记串r ，理想状况下，r 应该等于“prqnvmq ”，这个结果符合关于汉语的语法知识。当然，对于一个实际的标注系统来说，它所“认为”的“可能性最高”的r 也许是“正确” 的词性标记串，也许不是。已有的基于统计的词性标注方法，基本上都可以归结为在已知w 情况下，求使得 p ( t i w ) 最大的词性标记串r 。只是在具体的求解中各有一些不同的做法。那么，如何得到这个可能性最高的词性标记串r 昵? 下面介绍以隐马尔可夫模型( h m m ) 来描述词性标注问题，以及以v i t e r b i 算法来高效求解r 的过程。为行文方便，不妨做如下约定：t ；表示一个词性标记串，t i 表示一个具体的词性标记。w 。表示一个词语串，w i 表示一个具体的词语。 2 2 词性标注的隐马尔可夫模型上述词性标注问题可以用概率统计中的隐马尔可夫模型来加以刻画。概括而言，h m m 是描述连续符号序列的条件概率的一个统计模型。可以定义成一个五元组入： = ( s ，v ，a ，b ，) ，其中： s 代表一组状态的集合s = 1 ，2 ，3 ，n ) ； v 代表一组可观察符号的集合v = v l ，7 2 ，7 3 ，7 m ； 1 0 k 仟t 业j 、学倾i # 位论上 a 代表状态转移概率矩阵a = a i ，是一个n 行n 列的矩阵，其中a i j = p ( q t + l = jq 。= i ) ， 1 i ，j n ； b 代表可观察符号的概率分布b = b j ( k ) 。b ，( k ) 表示在状态j 时输出观察符号”k 的概率。则有：b j ( k ) = p ( v k ij ) ，1 k m ，1 j n ； n 代表初始状态的概率分布n = n i ) ，表示在时刻1 选择某个状态i 的概率。则有丌i = p ( q l = i ) 。一个确定的h m m ，其状态数是确定的，每个状态可能输出的观察值数目也是确定的。模型的参数包括a ，b ，丌。这三个参数需用通过统计样本得到。就词性标注问题而言，“词性”序列就相当于h m m 中的隐藏的状态序列，因为词性序列在标注前是隐藏的，是需要求解的目标；给定的“词性”则是客观符号的序列，是标注前已知的条件。如果把词性标注问题模型化为一个h m m ，则( 1 ) 词性标记集合是确定的( h m m 的状态数是确定的) ；( 2 ) 每个词性所对应的词语是确定的，反过来说，在词典中，每个词语都有确定的一个或若干个词性标记( h m m 的可观察符号是确定的) 。在隐马尔可夫模型下，词性标注问题可以表述为：在给定观察值( w ) 和模型参数( ) 的情况下，求状态序列t = t i t 2 t 3 ，使得这一状态序列可以“最好地解释”观察值序列w = w l w 2 w 3 。这也可以用下面公式2 1 表示为： t 7 = a r g m a x p ( t 1 w ，”( 2 1 ) 根据条件概率公式可知： p ( tw ，五1 ：盟! 幽 ( 2 2 ) 对所有的情况，九都是一样的，可以省略。根据b a y e s 公式，于是有： p ( tl ：! 竖! 塑：! ! ! 型! 1 1 2 、。 p ( w )p ( w ) ( 2 3 ) 由于目标只是寻找最大的p ( t i w ) ，而并不想知道实际p ( t i w ) 的值，因此对于公式中那些不影响比较的最终结果的项目，都可以省去。公式2 3 中p ( t l w ) 是词串的概率，对于所有可能的标记结果来说，p ( w ) 都是一样的，对比较p ( t i w ) 值的大小没有影响，因此分母p ( w ) 可以忽略，至此，公式2 1 可以演化为： t = a r g m a x p ( t w ，句= a r g m a x p ( t ) 4p ( w ft ，乃( 2 4 ) tt 其中：p ( t ) = p ( t 1 ) p ( t 2 l t l ) p ( t i i t i 1 ，t i _ 2 ，)( 2 5 ) 根据一阶马尔可夫假设，当前词性标记只跟它前面( 左边) 的一个词性标记有关，于是得到： p ( t ) = p ( t 1 ) p ( t 2 l t l ) p ( t i l t i 1 )( 2 6 ) 这样，p ( t ) 实际上就是求词性标记串中，两两相邻的两个词性标记的转移概率的乘积。两个词性之日j 的转移概率p ( t j t i 1 ) 可以通过训练语料中词性频度估算出来( h m m 的参数a ) ： k 备t 业人学f fi 学位葩上即。= 骂翥群装蒜焉坠偿， p ( w t ) 是已知标记串t 的条件下词串w 的概率。 p ( w i t ) = p ( w l j t l ) p ( w 2 l t 2 ，t 1 ，w 2 ，w 1 ) p ( w i l t i ，t i 1 ，t l ，w i ，w i - l ，w 1 )( 2 8 ) 可以根据独立性假设，已知词性标记串条件下词语串的条件概率只跟各个词和它本身的词性标记有关。于是将公式简化为： p ( w i t ) ：p ( w l l t l ) p ( w 2 i t 2 ) p ( w i l t i )( 2 9 ) 这样，p ( w l t ) 实际上就是求某个词性标记下，某个词语的概率。p ( w i l t i ) 同样可以通过训练语料中词性频度和词语频度估算出来( h m m 的参数b ) ：晰小护塑鬻麓群蒜震掣盟亿至此，就可以对给定词串，计算其词性标注串的概率了。不过，真的这样来求得可能性最大的词性标注串，效率是很低的。因为对每一个给定词串，都要穷尽所有可能的状态序列。设想有n 个可能的词性( 词性标记集，对应删中的状态个数) ，给定词串中有m 个词( 对应h m m 中的过程的时间长度) ，考虑最坏的可能性，即每个词都有n 个可能的词性，则全部可能的词性标记序列( f f m m 中的状态序列) 有n m 个，也就是说，随着词串长度的增加，计算复杂性是呈“指数级”增长的。 c l a w s 算法【1 】就是以这种低效率的方式来求得具有最大可能

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于统计的汉语词性自动标注的若干分析与实验研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于统计的汉语词性自动标注的若干分析与实验研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档