已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
长春工业大学硕上学位论文 摘要 长久以来,人们就想制造出一种具有智能的机器,它能通过自然语言与人类交流 并服务于人类。计算机的出现和迅速发展为这个梦想的实现带来了希望。因此,人们 迫切地需要计算机具有理解自然语言的能力,从而为具有人工智能的机器人的实现铺 平道路。自然语言处理因此应运而生,成为人工智能领域的一个热门课题。人工智能 就是以建立智能化的、自主的计算机为目标的一门学科,它研究的课题包括专家系统、 问题求解、逻辑与不确定性问题、自然语言处理、机器人学、视觉与模式识别等。本 文从事的研究是自然语言处理领域的一个基础性的课题:汉语词性自动标注。 汉语词性标注的目的是对句子中己切分的词标注上正确的词性,从而为下一步的 处理提供输入。它的研究结果直接影响到语法分析、语义分析、机器翻译和信息检索 等诸多领域。 词性标注方面的研究最初采用基于规则的方法进行,根据人工制定各种语言学规 则标注词性,正确率并不高。后来采取基于统计的方法( 机器学习) 进行标注词性,正 确率有了较大提高,可达到9 5 以上。目前基于机器学习的词性标注方法成为研究的热 点,比较典型的有最大熵模型、隐马尔科夫模型、人工神经网络、决策树、支持向量 机等。目前采用较多的是基于n 一元语法的隐马尔科夫,一般采用二元或三元模型,但 该模型存在一些先天不足。 最大熵模型在词性标注方面相对其它模型来说具有较多的优点。因此本文采用了 基于改进的最大熵模型,并运用b l m v m 参数估计算法,有效地提高了标注正确率和标 注效率。在自然语言处理领域,由于熟语料( 已标注好的语料) 规模的限制,数据稀 疏现象严重,模型在训练中不可避免地会出现训练过适应的问题,需要对模型进行平 滑。g a u s s i a np r i o r 平滑方法在众多的平滑方法中有出色的表现,适合用来平滑最大 熵模型。应用最大熵模型进行词性标注的一个重要步骤是特征的选取,特征选取的好 坏将对模型的标注精度产生很大的影响。本文根据汉语自身的特点,设计了基于字和 词混合的特征,取得了较好的标注效果。另外,最大熵的一个优势就是在模型不变的 情况下,只要发现好的特征就可以加入,而不用更改数学模型,这有利于在实际应用 中根据领域特点增加不同的特征,进一步提高模型的标注正确率。 本文应用最大熵模型并根据汉语自身的特点选取有效的特征,在词性标注实验中 取得了令人满意的标注结果。 关键词:机器学习词性标注最大熵高斯平滑方法b l m v m 算法 、 长春工业大学硕士学位论文 a b s t r a c t f o ral o n gt i m e ,p e o p l eh a v ed r e a m e dt oi n v e n tak i n do f i n t e l l i g e n tm a c h i n e ,w h i c hc 她 c o m m u n i c a t ew i t hh u m a nb e i n gi nn a t u r a ll a n g u a g ea n di t ss o u lr e s p o n s i b i l i t yi st os e r v e r p e o p l e t h e2 0 t bc e n t u r y sm o s ti m p o r t a n ti n v e n t i o ni sc o m p u t e r , w h i c hb r i n g sp e o p l eal i g h t h o wt or e a l i z et h i sd r e a m t h e r e f o r e ,t h e yh o p et h a tt h ec o m p u t e rh a sac a p a c i t yo f u n d e r s t a n d i n gn a t u r a ll a n g u a g e i ft h i se a r lb et r u e ,w ew i l lh a v ep r i v a t ei n t e l l i g e n tr o b o t s o o n n a t u r a ll a n g u a g ep r o c e s s i n gi sp u to l lj u s ti nt i m e ,w h i c hh a sb e c o m eap o p u l a r p r o b l e mi na r t i f i c i a li n t e l l i g e n c e ( a df i e l d t h er e s e a r c ho ft h i s a r t i c l ei sc h i n e s e p a r t - o f - s p e e c h ( p o s ) ,w h i c hi sab a s i sp r o b l e mo f n a t u r a ll a n g u a g ep r o c e s s i n g t h e g o a lo f p a r t - o f - s p e e c hi st og i v eac o r r e c tt a gf o re a c h w o r di nac e r t a i ns e n t e n c e w i t ht h ec o r r e c tp o s ,as e n t e n c ec a nb ep r o c e s s e di nah i g hl e v e l ,f o re x a m p l e :s y n t a x a n a l y s i s t h ea c c u r a c yo ft h ep o s h a sad i r e c t l ya f f e c t i o no ng r a m m a ra n a l y s i s ,s e m a n t i c a n a l y s i s ,m a c h i n et r a n s l a t i o na n d t h ei n f o r m a t i o nr e t r i e v a la n ds o0 1 1 a tf i r s t , t h em o s tr e s e a r c hi nt h i sf i l e di sb a s e do nr u l em e t h o d t h em l e su s e di nt h e p o sw e r em a d eb ym a n u a l t h i sm e t h o dc o s tm u c ht i m ea n dm a n p o w e rb u th a sl o w a c c u r a c yt ot h o s eb a s e do nm a c h i n el e a r n i n g m a c h i n el e a r n i n gi sam e t h o dw h i c ha i m st o h e l pc o m p u t e rb e c o m em o r ea n ds l n a r t e ri nac e l t a i nf i l e d w ec a na c h i e v eh i g h e ra c c u r a c y i nt h ep a r t - o f - s p e e c hb ya p p l y i n gam a c h i n el e a r n i n gt e c h n o l o g y a tp r e s e n t , m a c h i n e l e a r n i n gh a sb e c o m ep o p u l a ri nn a t u r a ll a n g u a g ep r o c e s s i n gf i e l d t h e r ea r em a n y m e t h o d s b e l o n gt oi t ,s u c ha s :m a x i m u me n t r o p ym o d e l s ,h i d d e nm a r k o vm o d e l s ,a r t i f i c i a ln e u t r a l n e t w o r ka n ds oo n m a n yr e s e a r c hc o n c e n t r a t ei nn g r a mh i d d e nm a r k o vm o d e l t h em a x i m u me n t r o p ym o d e lh a sab i g g e rm e r i tc o m p a r i n gw i mo t h e rm o d e l si n p a r t - o f - s p e e c h t h e r e f o r et h i sa r t i c l ea p p l i e sm e m o d e lo nc h i n e s ep a r to fs p e e c h w i t ht h e h e l po ft h eb l m v mp a r a m e t e re s t i m a t i n ga l g o r i t h m ,m em o d e lb r i n g sah i g h e ra c c u r a c y a n de f f i c i e n c y b e c a u s eo ft h e l i m i t a t i o no ft h e w a i n i n ge x a m p l e s ,t h ed a t as p a r s e p h e n o m e n o ni ss e r i o u si n c h i n e s ep a r to fs p e e c h t h em o d e li s p r o n et oo v e rf i t t i n go f t r a i n i n gd a t a , t h e r e f o r ew e m a s ta p p l ys o m es m o o t h i n gm e t h o do nm 匝m o d e l w h i l es e v e r a l s m o o t h i n gm e t h o d sf o rn 均x i i n 啪e n t r o p ym o d e l sh a v eb e e np r o p o s e dt oa d d r e s st h i s p r o b l e m ,g a u s s i a np r i o rs m o o t h i n gm e t h o dh a st h eo u t s t a n d i n gp e r f o r m a n c e h o wt oc h o i c e f e a t u r e si sv e r yi m p o r t a n tt ot h em a x i m u me n t r o p ym o d e l s a c c o r d i n gt ot h ec h i n e s e c h a r a c t e r i s t i c ,f e a t u r e sb a s e d0 1 1t h ec h a r a c t e ra n dt h ew o r dm i xc h a r a c t e r i s t i c sa r ea d o p t e d m o r e o v e r , a n o t h e ra d v a n t a g eo fm a x i m u me n t r o p ym o d e l si st h a tw h e nab e t t e rr u l ei s f o u n d , y o uc a na d di tt ot h em o d e lw i t h o u tm o d i f y i n gi t 长春t 业大学硕士学位论文 t h et h e o r yd i s c u s s e di np r e t e x th a sb e e nc a r r i e do u ti ne x p e r i m e n t t h er e s u l to ft h e c h i n e s ep a r to f s p e e c hs h o w si tw o r k sw e l l k e yw o r d s :m a c h i n el e a r n i n g ;p a r t - o f - s p e e c h ;m a x i m u mm o d e l ;g a u s s i a np r i o r s m o o t h i n g ;b l m v ma l g o r i t h m 长存工业大学硕士学位论文 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经 发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本声明的法律结果由本人承担。 论文作者签名: 岛滗半 日期:2 7 年弓月弓1e t 日期:2 年弓月弓 长春工业大学颐十学位论文 第一章绪论 1 1 论文选题的背景 计算机经过几十年的发展,已从实验室走到了寻常百姓家,其身份也从最初的昂 贵的“计算机”变为现在的“多媒体”。现实生活中,人们已离不开计算机。随着计算 机的普及,有个问题会越来越突出:如何与计算机迸行交流。虽然人机交互的技术在 迅速发展,新技术也层出不穷,但离人们的理想要求一用自然语言与之交流一还相差 甚远。现在的计算机还不够智能,尚不能理解自然语言,最明显的一个例子就是在网 上搜索资料,搜索结果绝大部分与人们的需求并不相符。此外,世界经济的发展,使 来自不同国家和地区的人们有更多的机会进行交流与合作,但语言的隔膜使得这种交 流与合作的成本大大增加,若能研制出一种智能的机器,可以准确流畅地进行翻译, 那将是很美妙的事,可惜现在的计算机还不能胜任这项任务。本文研究的汉语词性自 动标注只是这些应用中的一个基础性的课题。 现实中的很多计算机技术方面的需求,最终都可以归结到一个问题上:使计算机 具有理解自然语言的能力。从计算机诞生的那一天,就有人开始研究如何使其具有人 工智能,具有理解自然语言的能力。然而直到目前为止,这方面的研究仍然不能满足 实际的需求。经过几十年的努力,人工智能领域的专家学者提出了不少理解自然语言 的方法,取得了不少成绩,但自然语言处理领域还有很多难题尚未攻克,还需要迸一 步的研究或将目前的研究成果应用到实践中去。目前,各国政府和一些企业投入大量 资金进行这方面的探索,中国政府也设立了专门的项目,成立相关课题组进行汉语语料 库的研究。本文从事的研究就是吉林省科技厅项目中的一个组成部分,该项目的名称 是:人机互助的语料库多级加工与多a g e n t 集成诊断与决策专家处理系统。 1 2 论文研究的目的和意义 用自然语言与计算机进行交流,获取合适的信息,得到满意的服务,是人们长期 以来所追求的。它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己 最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习各种计算机语言; 人们也可通过它进一步了解人类的语言能力和智能的机制。自然语言理解是计算机科 学中的一个引人入胜的、富有挑战性的课题,它是计算机科学领域与人工智能领域中 的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 方法。 随着对自然语言理解的深入研究,出现了一门新的学科一计算语言学。计算语言 学的任务就是利用统计的方法对真实的自然语言进行处理,以获取自然语言的各种有 用信息,最终达到理解自然语言的目的。随之出现的基于统计方法的语料库技术也成 长春工业大学硕士学位论文 为当今研究的热点。所谓语料库就是含有自然语言各种语言事实和规律的大规模真实 文本。语料库研究机器可读的自然语言文本的采集,存储、检索、统计、分词、词性 标注、语法标注、句法语义分析等。 汉语的特点是以词素为最小单位,词与词之间没有间隔,而英语以单词为单位, 单词之间有明显的间隔。这就为汉语的研究带来了不小的困难。故汉语研究的第一步 是进行分词并对词性进行标注。这是汉语本身的特点决定的,也是汉语自动理解的基 础。 汉语词性自动标注问题是中文信息处理领域的基础性研究课题。随着计算机对大 量真实文本处理的迫切需要,对词性的要求也显得日益迫切,由于它的研究结果直接 影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域 的研究,因此,一直引起人们的关注。 词性自动标注广泛应用于语音识别、机器识别、文本校对、信息检索、信息过滤、 自动摘要等诸多领域。 1 3 国内外研究现状 自2 0 世纪7 0 年代美国开始制作语料库以来,各国制作了许多语料库。8 0 年代后 期,英国制作了标注语料库l o bc o r p u s 。9 0 年代以前的语料基本上都是英语的,9 0 年代以后开始出现英语以外的标注语料库,如日本的e d i t 语料,n h k 的新闻稿语料, 日本经济新闻1 0 年语料,以及人民日报5 0 年语料等。 由于自然语言处理在国外开始较早,一些典型的方法均由国外率先提出。由于英 语词与词之间有间隔,且有时态、语态变化,所以英语的词性标注相对简单,算法也 较为成熟。国内这方面的研究起步较晚,研究人员根据国外的算法,结合中文信息处 理的特点,对其进行吸收和改进,形成了一些适合汉语词性标注的算法,但并不太成 熟,总的来说还不够深入,迄今为止尚无成熟的系统推出。 自动词性标注技术可分为基于规则的方法和基于统计的方法。由于汉语不同英语 的特点( 如:汉字连续书写,词与词之间无间隔,兼类词较多,词语无人称、时态、 单复数变化等) ,汉语词性标注难于英语的词性标注,因此,用基于规则的方法对汉语 进行自动词性标注较为困难。基于统计方法的词性标注正成为目前研究的热点。 基于统计的词性自动标注,其关键技术是机器学习,即通过计算机自动学习语言 学家标注的范例( 又称为熟语料库) ,从而达到对生语料进行自动标注的目的。比较典 型的机器学习方法,如朴素贝叶斯分类器( n b ) 、最大熵原理( m e ) 、隐马尔科夫模型 ( h m m ) 、决策树( d t ) 、基于转换的错误驱动学习( t b l ) 、线性分割( l s m ) ,神经网络 ( n 、支持向量机( s v m ) 等方法,它们都可应用到词性标注方面。 目前实现的汉语词性自动标注基本上采用二元或三元语法的隐马尔科夫模型,它 们虽然也都有较好的标注效果,但由于预测信息的不足,对词性标注,特别是末登录 2 长春工业大学硕士学位论文 词的词性标注精度影响很大。而最大熵模型使用特征的形式,有效地利用了上下文信 息,即使对于未登录词也有很好的词性标注效果。 我国研究自然语言处理当然以汉语作为主要研究对象,早在1 9 5 7 年就已开始进行 机器翻译的研究,是世界上最早开展自然语言信息处理研究的国家之。不过大规模 系统的对自然语言处理进行研究是到8 0 年代中期才开始的。自2 0 世纪9 0 年代以来, 国家已投入大量的专门资金,成立相关课题组进行汉语语料库的研究,比较突出的如: 清华大学人工智能国家实验室、北京大学计算语言学研究所、中科院、中山大学等。 北大计算语言所还提出了相应的词性标注规范,建立了汉语语法信息词典,成功地研 制出人民日报语料库,取得了很好的成绩。 我国研究自然语言处理的主要精力集中于实用系统的开发,机器翻译和信息检索 是最热门的课题。 1 4 本文研究的内容 词性是汉语词最重要的词法特征之一,对给定的自然语言正确地标注词性有助于 计算机进一步的处理,从而为正确地处理自然语言打下坚固的基础。从自然语言处理 发展的历史可以看出,基于规则的理性主义和基于统计的经验主义是该领域中最主要 的两种方法。随着时间的推移,统计语言学已成为当前研究的最主要的手段。统计语 言学已经解决或正在解决自然语言处理中用其它的方法无法解决的许多难题。但统计 语言学也存在一些自身的不足。 大多数基于语料库的语言处理方法借鉴了统计学或者是信息论的思想,这种趋势 逐步转向针对自然语言工程中的特定任务进行自动化处理和建模。基于机器学习的自 然语言处理方法成为目前研究的热点,它们被应用于自然语言处理中的各个方面,如 拼写检查、词性标注、语义消歧、机器翻译、浅层句法分析、文本分类、文本摘要等 等。 语料库语言学的发展的核心问题是语言模型的建立。语言建模技术认为,语言就 是该语言的字母表上的某种概率分布,该分布反映了任何一个字母序列s 有多大的可 能性成为该语言中的一个句子,这个概率分布就称为该语言的语言模型( l a n g u a g e m o d e l ) 。比如在汉语中,p ( “张三正在读书”) 。o 0 0 1 。在语言建模中需要考虑的问题是: 1 ) 如何估计给定语言的语言模型? 2 ) 对于一个服从某个未知概率分布p 的语言l , 如何根据给定的样本集估计p ? 3 ) 对于一个给定的句子s = w i w 2 w t ,如何计算概率 p ( s ) ? p ( s ) = p ( 嘶) p ( w 2 f w ) p ( w 3 f ) p ( f 1 w t _ 1 ) = il p ( fw l w 。) 。由于样本 集的限制,“历史”不能太长,否则模型参数太多。 5 常用的语言模型可以概括为三类“o 】:( 1 ) 1 1 元模型( 即隐马尔可夫模型) 。n 元模型认 为自然语言的知识可以用连续符号序列( 如:字序列、词序列、词性标记序列、语音波 形序列等) 的概率来表示,当前出现哪个词,仅仅与前面的n 1 个词有关。如对于句子 长春1 二业大学硕十学位论文 w l w 2 w i w 。可以用p ( w t w 2 w i w 。) 表示它的出现概率( w i 为第i 个词) 。对于该 模型的评价标准是混乱度。但) 基于分布理论的模型。基于分布理论模型的依据是词语 分布假设:一个词的语义和语法功能决定了它和其它词的组合关系。这种模型主要用 到三个概念:互信息:用来表示两个词的联系强度;熵:借用热力学上的一个概 念,表示系统的无序化;相异度d ( t 1 , t 2 ) :反映t 1 与砣的差异性。( 3 ) 基于规则的 模型。这种模型假设自然语言的知识可以用规则集来表示,而规则的获取可以人工编 写( 唯理主义) ,也可以由语料库中学习得到期( 经验主义) 。 本文所做的研究内容如下: 1 ) 语料库的特点、历史、现状以及发展前景,汉语词性自动标注面临的问题以及 解决方法; 2 ) 机器学习的基本原理、方法。重点是研究与词性标注相关的算法,弄清其原理 及实现方法,在有能力的前提下,对其进行计算复杂性分析。 3 ) 汉语词性自动标注的模型及算法,这是本文研究的重点。本文采用基于分布理 论的模型之一:最大熵模型。由于自然语言本身的特点,获取的模型参数存在 数据稀疏现象。本文对几种主要的参数平滑方法做了对比研究,采用了基于高 斯先验概率的平滑方法。此外,由于模型的参数众多,般的参数估计算法的 难以有较好的表现,综合研究后,决定将改进的b l m v l d 算法应用到模型中,这 将有效提高模型的效率和精度。 4 ) 系统的实现。利用前述研究的结果,设计出一个实用的系统。 5 ) 将基于最大熵模型的词性标注方法与其它词性自动标注方法作比较,并得出相 应的结论。 4 长奋1 = 业大学硕士学位论文 第二章词性标注概述 2 1 自然语言处理 语言是人类区别其它动物的本质特性。在所有生物中,只有人类才具有语言能力。 人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝 大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个 重要,甚至核心部分。自然语言处理就是研究如何能让计算机理解并生成人们日常所 使用的( 如汉语、英语) 语言,使得计算机懂得自然语言的含义,并对人给计算机提出 的问题,通过对话的方式,用自然语言进行回答。 2 。1 1 自然语言处理研究的内容和目的 自然语言处理( n l p ) 研究能实现人与计算机之间用自然语言进行有效通信的各种 理论和方法。研究的目的在于建立一种人与机器之间的密切而友好的关系,使之能进 行高度的信息传递与认知活动。这一领域的研究将涉及自然语言与计算机技术,前者 是指人们日常使用的语言,包括中文、英文、日文、俄文、德文、法文等等,所以它 与语言学的研究有着密切的联系,但又有重要的区别;后者主要是指计算机领域中的 人工智能方向,如何使计算机具有自主学习自然语言的能力。因此自然语言处理并不 是一般地研究自然语言,丽是研制能有效地实现自然语言通信的计算机系统,特别是 其中的软件系统,因而它是计算机科学的一部分,是人工智能领域中的一个重要方向。 自然语言处理系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语 言人机接口,有很大的实用价值。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能 以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然 语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。 历史上对自然语言理解研究的较多,而对自然语言生成研究的较少。但这种状况近年 来已有所改变。 2 1 2 自然语言处理的研究方法 论及计算语言学的研究方法,可以从计算语言学论著中经常遇到的两个术语中窥 得一斑。基于规月, l j ( t u l e b a s e d ) 和“基于语料库( c o r p u s b a s e d ) ”,这两个术语反映了自然 语言处理的两个不同的方向。基于规则的方法,其核心就是根据语言学原理和知识制 定一系列共性规则和个性规则,以处理自动分析中所遇到的各种语言现象。而基于语 料库的方法则认为,从大规模真实文本中可以观察到,自然语言远不是一个经过事先 精心规划的系统,我们难以用一套规则去准确地预测真实文本中所出现的各种变异, 长春t 业大学硕十学位论文 这些变异有相当的随机性,因此应当用基于语料库的统计方法来研究自然语言。这两 种方法之争反映了语言研究中理性主义和经验主义的对立f i j 。也有学者认为应把这两种 方法结合起来,并提出了一些具有代表性的研究成果,如“错误驱动”的学习方法。 自然语言处理研究的初期,大约1 9 6 0 年至1 9 8 5 年,大部分研究被一种理性主义 ( r a t i o n a l i s ta p p r o a c h ) 方法所支配。理性主义者希望通过手工编码大量的先验知识和推理 机制来建立一个智能系统。8 0 年代后期,经验主义逐渐复苏并成为该领域的主流。经 验主义方法认为可以通过适当的语言模型学习复杂的和广泛的语言结构,通过把统计 学、模式识别和机器学习的方法应用到大规模的语言例子中,得到模型参数的数值。 通常,在统计自然语言处理中实际上不可能研究观测到大规模的语言实例,所以,人 们简单地使用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文 关系的替代品。 把概率作为理解自然语言的一种科学方法的最基本论点认为,人类的认知是随机, 因此语言也必须是随机的,因为它是认知的一个完整部分。用概率的方法去认知世界 是因为我们生活的世界中充满了不确定和不完整的信息。为了能够和世界有效她相互 作用,我们需要处理这种类型的信息。统计语言学已经解决或正在解决自然语言处理 中用其它方法无法解决的许多难题。大多数基于语料库的语言处理方法借鉴了统计学 或者是信息论的思想,目前基于机器学习的自然语言处理方法成为研究热点,比较典 型的如最大熵、隐马尔科夫模型、决策树、线性阈值、支持向量机等方法田。 2 1 3 自然语言处理的难点 自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生 成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在 的各种各样的歧义性或多义性。 语言中的歧义问题是自然语言难以处理的原因。因此,一个实用的自然语言处理 系统必须具有良好的消除歧义的功能,它要解决词义、词类别、句法结构和语义范畴 的歧义问题。 自然语言处理研究的最终目标是分析和理解语言。我们离实现这个目标还很遥远, 由于这个原因,很多自然语言处理的研究都集中在一些所谓的中间任务上,即在不完 全需要理解语言的情况下如何了解语言的内在结构,词性标注便是其中之一。 2 2 语料库 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书 面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、 具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和 把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用 6 长春工业大学硕十学位论文 研究和语言工程不可缺少的基础资源。经过切分、标注的语料库称为熟语料库,未经 切分、标注的语料库称为生语料库。 我国语料库的建设始于8 0 年代,当时的主要目标是汉语词汇统计研究。进入9 0 年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型 的语料库,研究的内容涉及语料库建设中的各个问题。9 0 年代末到新世纪初这几年是 语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料 库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应 用。 人民日报标注语料库由北京大学计算语言学研究所和日本富士通公司合作, 从1 9 9 9 年开始,到2 0 0 2 年完成,原始语料取自1 9 9 8 年全年的人民日报,共约2 7 0 0 万字,到2 0 0 3 年又扩充到3 5 0 0 万字,是我国第个大型的现代汉语标注语科库。这 个语料库加工的项目有词语切分和词性标注,还有专有名词( 人名、地名、团体机构 名称等) 标注、语素子类标注、动词、形容词的特殊用法标注和短语型标注。下面是 一段摘自该语料库的标注实例: 1 9 9 8 0 1 0 1 - 0 5 - 0 0 1 0 1 1 m 我国n 的u 国有v n 企业n 改革v 见v 成效n 。w 位于,v 河南i 坞的u 【中国1 1 s 一拖巧集团n 有限,a 责任n 公司h i n t 面向v 市场n ,w 积极a d 调整v 产品n 结构n ,w 加快v 技术n 改造和赶新妇产品,n 研制 憾步伐n 。w 图 ,n 为,v 东方红牌l l z 履带,n 拖拉机n 生产线,n 。w ( w 赵,n r 鹏m 摄n g ) w 在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记( n ,v , a ,u ,m ,w 等) ,专有名词标记( n r ,m ,n z 等) ,语素子类标记( v g 等) ,动词和形 容词特殊用法标记( v n ,a d ) 。所有的标记都是以北京大学的现代汉语语法信息词典 为基础词库,在一个加工规范的指导下标注的f 3 卅。具体的标记可参考附录2 。 2 3 词性标注 汉语词性自动标注是中文信息处理领域的基础性研究课题,随着计算机对大量真 实文本处理的迫切需要,对词性的要求也显得日益迫切。由于它的研究结果直接影响 到语法分析、语义分析、机器翻译等诸多领域的研究,再加上其本身所具有的难度, 使其很难从根本上解决,因此,一直引起人们的高度关注。词性标注的作用就是通过 采取适当的方法,根据上下文语境关系,消除句子中词的语法兼类,使得一个词无论 兼几种词性,在特定的场合下只能保留最合适的一种。也就是我们要确定旬中每个词 的词性是名词、动词、形容词还是其它词。下面是词性标注的一个例子: 台湾n s 是v 中国n s 领土n 不可分割l 的u 一m 部分恤。w 例子中的词性标记采用的是北京大学现代汉语语料库基本加工规范( 俞士文等) 规定的标记集,如l l s 是专有地名,v 是动词等。 7 长春t 业大学硕十学位论文 2 3 1 词性标注的必要性 1 ) 词性是汉语词最重要的语法特征之一,正确地为句中的每个词标上词性,对汉 语语料库标注、机器翻译等自然语言处理工作都有重要的意义。 2 ) 词性标注的一个重要目的是为进一步的短语标注、句法分析铺垫基础。 3 ) 词性标注有助于释义。释义是与词的词性相关的,不同词性的词应采取相应的 释义方式,一般情况下用来释义的词语应基本上与被释义的词的词性相同,即释义应 与词性协调,准确的释义离不开准确的词性分析。 2 3 2 词性标注的方法 要确定文本中一个词的词性,有两个基本的信息源。一个是观察我们感兴趣的词 的邻近上下文中的其它词的标注;一个是词本身提供的信息。第一个信息源中,上下 文中词的词性也可能是歧义的,但是有一个基本的观测准则:很多词性的序列都是很 常见的,这种类型的结构语段信息是标注中最明显的信息源。第二个信息源,对于英 文等具有词形变化的语言来说,是一个很好的参考,但对于汉语来说,由于汉语词的 本身没有词形变化,词本身提供的信息并不明显,但汉语中组成词的字与词之问有一 定的规律可寻,也可以充分考虑字的特征,这有助于提高标注的准确率。汉语词性标 注中一般考虑第一个信息源,对于第二个信息源考虑较少或不考虑。词汇信息是很有 用的,因为词语的不同词性的使用分布极不均匀。即使是对于兼类情况的词语,大多 数情况下它们只能作为一种特殊词性使用。通常某种词性会被作为基本词性,其它的 词性由它派生出来。 比较典型的词性标注算法有: 1 ) 基于规则的方法。国外在7 0 年代初主要采用这种方法,著名的t a g g i t 系统, 利用3 3 0 0 条上下文规则,对1 0 0 万词次的b r o w n 语料库标注正确率达到7 7 。 2 ) 基于统计的方法。8 0 年代以后,随着经验主义方法在计算语言学中的重新崛起, 统计方法在语料库词性标注中又占据了主导地位。c l a w s 标注系统对l o b 语料库的 标注正确率达到9 6 左右。 3 ) 混合策略:采用规则和统计相结合的方法,如:北京大学计算语言学研究所提 出的一种先规则、后统计的规则和统计相结合的标注算法,其准确率达到了9 6 6 。 4 ) 使用神经网络和遗传算法进行词性标注,这方面的文献较少。 目前在词性标注中占主导地位的是基于统计的方法。其中采用较多的是基于n 元 语法的隐马尔科夫模型,它们虽然有较好的标注效果,但该类算法存在以下三个问题: 1 ) n - 元模型只能反映句子中的局部情形;2 ) 由n 元模型处理的文本,某个单词只能 跟前几个词有关;3 ) 马尔科夫的概率独立性假设( 假定第n + 1 个符号出现这个事件的 概率只跟其前的n 个符号的出现相关,而跟语句中的其它符号的出现与否都无关。参 见附录1 ) 。在自然语言处理领域,这三个问题大大影响了模型的有效性。而最大熵模 长春1 = 业大学硕士学位论文 型不对未知信息做任何假设,而是在己知特征的约束下使未知信息的分布取均匀分布 ( 这时熵最大) ,体现了“知之为知之,不知为不知”的原则。此外,最大熵模型的另 一个优点是可以有效地利用自然语言中存在的一些非连续特征。由于最大熵的这些优 点,使其成为自然语言处理领域的研究热点【2 】。 2 3 3 词性标注的难点 在汉语中,词性兼类现象普遍存在,给词性标注带来了很大困难,因此,对兼类 词的处理是词性标注的关键所在,也是词性标注的难点之一。此外,未登录词的词性 标注对词性标注的准确率有不小的影响。 2 3 3 1 词性兼类问题 词性兼类在理论上指的是有些词具有两类或两类以上的词的句法分布特征,这些 词将属于不同的词类,简称兼类。因此,词的兼类并不是指某个词在具体语句中同时 具备甲类和乙类的特点,而是指在某一场合具备甲类词的特点而不具备乙类词的特点; 在另一场合具备乙类词的特点而不具备甲类词的特点。汉语的兼类词现象错综复杂, 其主要构成如下【5 - s : 1 ) 形同音不同,如:好o 强o ( 三声、形容词) 、h a o ( 四声、动词) ) 。 2 ) 同音同形但意义上毫无联系,如:会( 开个会( 名词) 、会( 动词) 滑冰) 。 3 ) 具有典型意义的兼类词,如:典型( 名词,形容词) 。 4 ) 上述的组合。如:行( 动词形容词名词量词) 。 由以上四种情况构成的兼类词在汉语中普遍存在。通过对标注所用词典和一个1 3 万词的熟语料库进行统计,得到如下结果: 表1兼类现象的静态分布特征( 对词典统计结果) 总词数5 47 6 0 兼类种类 1 1 3 兼类词条数36 8 0 兼类词占总词数的百分比6 7 2 名词动词3 6 “l3 3 1 ) 高频兼类词占总兼类词的百分比 形容词名词2 6 钺9 7 4 ) 其他( 1 1 1 种)3 7 5 ( 13 7 5 ) 表2 兼类现象的动态分布特征( 对语料库统计结果) l 总词次 1 3 l2 3 0 l 总词条87 6 1 l 兼类词词次3 09 7 2 ( 2 3 6 1 9 长春工业大学硕 学位论文 l 兼类词词条5 2 7 i 兼类词种类 7 8 由以上两表可以看出,汉语兼类词的静态分布和动态分布特征差别很大。兼类词 条数虽然不是很多,但在语料库中出现的词次已不可忽视。另外,不同的兼类现象和 不同的兼类词分布差别很大。例如:在1 1 3 种兼类现象中,“名词,动词”和“形容词名 词”兼类就占6 2 5 ;在语料中,兼类词次达3 09 7 2 次,却只出现5 2 7 个不同的兼类词 条。这说明在真实语料中,某些兼类词出现的频度极高( 如过,好、得、没有等词) 。这 些兼类现象出现的分布特征在某种程度上决定了消歧的策略。 兼类词的数量虽然不多,但使用频率很高,并用兼类现象很复杂,因此解决好兼 类词的标注问题对于提高词性标注的正确率有重要意义。当前对兼类词的处理方法主 要有;基于规则的方法,基于统计的方法,规则和统计相结合的方法。基于规则的方 法是一种传统的方法,其优势在于能充分利用现有的语言学研究成果,对于某些特殊 词的歧义组合,可以通过对语境中的词语、词类和词语的特征信息的深入细致的描述, 获得很高的排歧准确率,但是规则的覆盖率比较低,难以解决所有的兼类问题;基于 统计的方法目前占主导地位,其优势在于它的全部知识是通过对语料库的训练得到的, 因此可以获得很好的一致性和很高的覆盖率,但是统计方法的实质是选择概率高的词 性标记,这只是种最大的可能性,并不是唯一的可能,它是以舍弃概率低的词性标 记为前提的,这必然会使词性标注的准确率受到限制。 2 3 3 1 未登录词问题 系统进行开放测试时,肯定会遇到很多未登录词。未登录词处理的方法将对语言 模型的性能产生不小的影响。由于对于自然语言来讲不存在完备的可计算的词典,如 何确定未登录词的词性成为词性标注所面临的除兼类问题之外的另一个关键问题。 为了说明汉语未登录词词性的分布特点,文献1 9 对6 8 5 8 个未登录词的词进行了统 计,统计结果表明:超过9 1 的未登录词的词性集中在名词、动词、区别词、形容词和 副词,其中,名词性的未登录词最多,约占总数的6 2 0 7 。 表3 未登录词的词性分布 序号词性数量百分比序号 。词性 数量百分比 l1 1 4 2 5 76 2 0 7 7t8 7l - 3 0 2v 1 4 3 82 0 9 7 8l5 00 ,7 3 3b2 1 23 0 99 2 4 7o 6 9 4 a1 6 92 4 6l oi4 60 6 7 5d1 6 82 4 51 1o t h e r2 7 33 9 8 1 0 长春工业= 学硕上学位论文 i 二:i 二j 二二互二二垂 至:二三二二亟二! 亟二i 本论文处理汉语未登录词词性按下面的方法步骤: ( 1 ) 对于给定的词性标注集,确定一个适当数量的开放类词性。本文取表2 1 中覆 盖度超过9 0 的前5 个词性作为开放类词性,即给每一个未登录词依次标上名词、动 词、形容词、副词和区别词。 ( 2 ) 根据所赋的词性,把未登录词看作兼类词进行统计处理。 2 3 4 影响词性标注的性能的因素 基于统计方法的汉语词性自动标注性能主要依赖于以下几个因素: 1 ) 可以获得的训练数据量:通常是越多越好,但大规模语料的获取与加工成为统 计语言学习技术面临的最大的难题。语料库的人工标注是一件很费时费力的工作,尤 其是针对汉语语料库的标注工作,迄今为止可利用的汉语语料库资源又很有限。不仅 如此,不同的工作目标需要的标注集又是互不相同的。 2 ) 标记集:通常标记集越大,潜在歧义就会越多,标注任务就越困难。 3 ) 训练语料库及词典与应用语料库之间的差别:如果训练文本和应用文本来自同 一个语料源,那么准确率就会很高。研究论文中展示的结果都来自这种情况。如果应 用文本来自不同的时期,或者不同的语源,甚至来自与训练文本不同类型的文本,那 么性能就会很差。 4 ) 未登录词:最后一点的特殊情况是词典的覆盖率。大量未登录词的出现会大大 降低标注算法的性能。在标注一些专门的技术领域中的材料时没有出现在词典中的词 的百分比会很高。 长春1 = 业大学硕十学位论文 第三章最大熵模型 3 1 机器学习理论 基于语料库的建模过程就是对语言模型的参数进行求解的过程,也可以认为是一 个机器学习的过程。机器学习研究的目的是使机器如何具有自主学习的能力,从而像 人类一样具有智能。其定义如下:对于某个任务t 和性能度量p ,如果一个计算机程 序在t 上以p 衡量的性能随着经验e 而自我完善,那么,我们称这个计算机程序在从 e 中学习l l “。 目前我们还不知道怎样使计算机具备和人类一样强大的学习能力,但一些针对 特定学习任务的算法已经产生,关于机器学习的理论认识已开始逐步形成。如:对于 语音识别这样的课题,迄今为止,基于机器学习的算法明显胜过其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省宁波市海曙区七年级下学期英语期末试卷(含答案)
- 浙江省宁波市江北区2025-2026学年七年级上学期语文期末考试试卷(含答案)
- 萤石尾矿综合利用生产免烧砖项目可行性研究报告模板-立项备案
- 宜春八年级语文词语运用卷2025年
- 2025年房地产估价师考试《房地产估价原理与方法》真题预测卷试题与答
- 文书模板-资金用途证明
- 护理健康学习平台
- 2026年电子元器件委托开发合同二篇
- 护理研究项目规划与管理
- 护理指控中的伦理困境与应对
- 高级政工师考试题库及答案
- 超声波清洗机使用方法
- 2024北京海淀七年级(下)期末数学试卷
- 2025年广东省高考生物试题(含答案解析)
- TCHSA-019-2023-口腔印模清洗消毒技术规范
- DZ∕T 0270-2014 地下水监测井建设规范
- 三年级数学下册《暑假作业》(共50套)
- 水利工程施工课程设计
- DB14∕T 1925-2019 流通领域供应链标准体系
- 2022年中考语文12本名著导读考点梳理
- GB/T 30791-2014色漆和清漆T弯试验
评论
0/150
提交评论