(计算机应用技术专业论文)基于最大熵模型的汉语词性标注研究.pdf_第1页
(计算机应用技术专业论文)基于最大熵模型的汉语词性标注研究.pdf_第2页
(计算机应用技术专业论文)基于最大熵模型的汉语词性标注研究.pdf_第3页
(计算机应用技术专业论文)基于最大熵模型的汉语词性标注研究.pdf_第4页
(计算机应用技术专业论文)基于最大熵模型的汉语词性标注研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)基于最大熵模型的汉语词性标注研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人连理l :人学硕+ 学位论文 摘要 词性标注是为文本中的每个词语标上正确词性的过程。它作为自然语言处理的一项 基础性工作,是后续句法分析、组块分析等任务的必要准备。词性标注中出现的错误会 在后续处理中被放大,影响后续处理的效果,正确的词性标注对于自然语言处理有着非 常重要的意义。本文的目的是在分词的基础上,研究提高汉语词性标注准确率的方法, 为后期词法分析和其它自然语言处理任务服务。 最大熵模型是一种使用灵活、精确率高的统计模型。最大熵模型的一般使用方法是 利用模型直接获得结果,但是通过实验发现,大约9 4 的词语的正确标注是最大熵模型 给出的最优标注,大约3 的词语的正确标注是最大熵模型给出的次优标注。直接舍弃 次优标注,就舍弃了通过最大熵模型获得的一些信息。因此可以通过一些改进手段,把 这些信息也加以利用,从而提高标注精度。 本文通过结合使用最大熵模型和隐马尔可夫模型、融合多个最大熵模型的标注结 果、结合使用最大熵模型和c r f s 构建了三个词性标注器。使用的三种词性标注方法的 核心就是同时考虑最大熵模型的最优标注和次优标注。 实验结果表明,通过同时考虑最大熵模型的最优标注和次优标注来改善中文词词性 标注方法是有效的:三种词性标注方法相对于只使用最大熵模型,精确率分别提高 0 4 5 、0 3 2 、1 5 3 。其中,最大熵模型结合c r f s 的标注效果是最理想的。 词性标注是自然语言处理过程中的一个环节,本文的研究成果可以为诸如组块识 别、命名实体识别等其它自然语言处理环节服务,也可以作为实现词性标注的具体方法 加入实用系统中去。 关键词:词性标注;最大熵;自然语言处理 人连理i :人学硕十学伊论文 s t u d yo fc h i n e s ep o st a g g i n gb a s e do nm a x i m u me n t r o p y a b s tr a c t p o s ( p a r t - o f - s p e e c h ) t a g g i n gi sap r o c e s s t ot a ge v e r yw o r di nt e x tw i t ha p r o p e rp o s a s ab a s i ct a s ki nn a t u r a ll a n g u a g ep r o c e s s i n g , p o st a g g i n gi san e c e s s a r yp r e p a r a t i o nf o rn e x t s y n t a xa n a l y s i s o rc h u n ka n a l y s i s t h ee r r o r si np o st a g g i n gm a yb ce n l a r g e di nn e x t p r o c e s s i n gc h a i na n dr e d u c et h ep r e c i s i o nr a t i os ot h a tah i g hp r e c i s i o nr a t i oi np o st a g g i n gi s v e r yi m p o r t a n tf o rn a t u r a ll a n g u a g ep r o c e s s i n g 。t h ep u r p o s eo ft h i sp a p e ri st or e s e a r c ha n d f i n dn e wm e t h o d st oi m p r o v et h ew a yi nc h i n e s ep o st a g g i n g , s oa st os e r v et h en e x ts y n t a x a n a l y s i so ro t h e rp r o c e s s i n g t a s k s m 觚i m u me n t r o p ym o d e li sas t a t i s t i cm o d e le a s yt ou s ea n dh a sag o o dp r e c i s i o nr a t i o t h ec o m m o nw a yt ou s em a x i m u me n t r o p ym o d e li sg e t t i n gr e s u l td i r e c t l y b u ta f t e rt h e e x p e r i m e n t s ,i tc a nb ef o u n dt h a tt h e r ei sa b o u t9 4 o f a l lw o r d so fw h i c ht h er i g h tt a gi st h e m o s tp r o p e rt a g , a b o u t3 o fa nw o r d so fw h i c ht h er i g h tt a gi st h es e c o n dp r o p e rt a g n e g l e c t i n gt h es e c o n dp r o p e rt a g se q u a l st on e 醇e c ts o m eu s e f u li n f o r m a t i o n f o rt h i sr e a s o n , t h et a g g i n gp r e c i s i o nr a t i oc a nb er a i s e db ys o m ei m p r o v e m e n tw h i c hc a nm a k eu s eo ft h e i n f o r m a t i o n t h i sp a p e rp r o p o s et h r e et a g g i n g m e t h o d s :u s i n gh i d d e nm a r k o vm o d e la f t e rm 勰i m u m e n t r o p ym o d e l ,f u s i n gs e v e r a lr e s u l t so fd i f f e r e n tm a x i m u me n t r o p ym o d e l s ,u s i n gc r f s a f t e rm 觚i m u me n t r o p ym o d e l t h ec o n s o l eo ft h et h r e em e t h o d si st op u tt h em o s tp r o p e r a n ds e c o n dp r o p e r t a g si nc o n s i d e r a t i o na tt h es a m e t i m e t h er e s u l t so ft h ee x p e r i m e n t ss h o wt h a tt h em e t h o d sa r ee f f e c t i v e :t h et h r e em e t h o d s c a nr a i s et h ep r e c i s i o nr a t i ob y0 4 5 、0 3 2 a n d1 5 3 s e p a r a t e l yc o m p a r ew i t ht h er e s u l to f as i n g l em a x i m u me n t r o p ym o d e l a m o n gt h et h r e em e t h o d s , t h er e s u l to fu s i n gc r f sa f t e r m a x i m u me n t r o p ym o d e li st h eb e s t p o st a g g i n gi sab a s i ct a s ko fn a t u r a ll a n g u a g ep r o c e s s i n g t h er e s e a r c hr e s u l t si nt h i s p a p e rc a nn o to n l ys e r v eo t h e rt a s k si nn a t u r a ll a n g u a g ep r o c e s s i n gs u c ha sc h u n kp a r s i n ga n d n a m e de n t i t yr e c o g n i t i o n ,b u ta l s ob ec o n t a i n e di np r a c t i c a ls y s t e m sa sas p e c i f i cw a yo fp o s t a g g i n g k e yw o r d s :p a r t o f - s p e e c ht a g g i n g :m a x i m u me n t r o p y :n a t u r a ll a n g u a g ep r o c e s s i n g 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不宴之钋,本人愿意承担相关津绰责任。 学位论文题目: 耋量孟厶蝎基望鱼邀亟习! 匿抠逢堑宝、 作者签名:亟磊日期:丝年坠月j l 日 人迮理i :人学硕十研究生学伊论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 薹童盘盘瘟煎垫鱼这盗塑! 建越选生免 作者签名: 丞矗 导师签名: 耄匠盈址 日期:垄堕年生月坠日 日期:碰年丝月丝日 人近理i :人学硕十学伊论文 1绪论 1 1词性标注任务简介 语言中的所有词根据词汇意义和语法特点进行分类,所得结果叫做词类,如名词、 动词、形容词等。每个词具体所在的词类就是这个词的词性。词性是词汇的一个重要属 性,句法分析往往需要从词性已经确定的句子开始。 词性标注即为语言中的每一个词语赋予合适的词性标记,也就是说要确定每个词是 名词、动词、形容词或其他词性,为以后的分析提供词的基本信息【。词性标注是自然 语言处理领域的一个基本处理步骤,是实现机器翻译的一个中间环节。对于汉语,由于 语言中词与词之间没有间隔标记,所以词性标注需要使用分词任务的结果;在为每个词 语标上正确的词性后,再交由下面环节如句法分析、组块分析等一来处理。 机器翻译是随着计算机、网络的普及和发展产生的,是自然语言处理研究领域的一 个分支。机器翻译的目的是借助计算机解决语言交流方面的障碍,这在人类社会步入信 息化时代的今天是十分有价值的。对于机器翻译来说,词性标注为后续句法分析奠定了 基础。在词性标注中出现的早期错误,会在后续处理中被放大,影响后续处理的效果。 有时,一个错误的词性判断会导致错误理解整个句子,故高准确率的词性标注对于自然 语言处理有着非常重要的意义。 大连理工大学计算机系自然语言处理实验室对机器翻译已进行了多年研究,并且研 制了软件产品“孙悟空 。在“孙悟空 不断升级增强功能的同时,实验室对于自然语 言处理的研究也在不断前行。实验室在自然语言处理中的许多基础性研究如分词、词性 标注、命名实体识别等都是有着密切的联系的,本文的研究成果可以为实验室正在进行 的其它自然语言处理任务服务,也可以在未来作为实现词性标注的方法之一加入实用系 统中去。 1 2 词性标注相关研究 1 2 1词性标注的方法 对于词性标注的研究,有许多相关的技术和文献。到目前为止,词性标注的处理手 段出现过很多种。如基于规则的方法、基于转换的错误驱动方法【1 、基于统计的方法等。 目自订主流是基于统计的方法,将统计模型应用到词性标注任务中,如隐马尔可夫模型 ( h m m ) 1 3 l 、最大熵模型( m e ) 1 4 , 5 1 、最大熵马尔可夫模型( m e m m ) 1 6 l 、条件随机域模型 基丁最人熵模型的汉语词性际注研究 ( c r f s ) 等等,也有使用这些方法的混合如投票法l 们:此外,基于神经网络的算法、遗 传算法等也被用来进行词性标注。 ( 1 ) 基于规则的方法 基于规则的方法1 8 j 力图找到一套合适的标注规则,使待标注语料通过这些规则后获 得正确标注。基于规则的方法一般有两个步骤:先利用已生成的词典对语料进行静态标 注,并对如数字、专有名词、度量单位等特殊词语进行处理:再让语料通过总结出的上 下文规则,进行词语的歧义消除。 1 9 7 1 年,g r e e n e 和r u b m 开发的t a g g r f 词性标注系统是典型的基于规则的词性 标注系统。它采用了含有8 6 个标记的标记集,用来标注b r o w n 语料库。标注过程分 为两部分。首先,利用3 0 0 0 个词条左右的词典,对语料库进行静态标注( 可能含有歧义) , 还对一些特殊词进行处理,并且使用4 5 0 个串的后缀对词进行分析:其次是歧义消除。 整个系统使用了3 3 0 0 多条上下文结构有关的规则。规则左部由首尾两个词类唯一的词 定界,中间由一到三个兼类词组成的模式,右部是在左部模式限制下可能产生的标记串 集。t a g g i t 利用这种方法对百万词次的语料进行标注,正确率大约为7 7 。 由于自然语言本身的复杂性,需要的规则数量往往非常巨大。而人工总结这些规则 时,无论规则的数量多么大,规则的组成多么复杂,也难以满足实际的需要。主要表现 在: 规则刻画的信息颗粒度太大,数量有限的规则难以覆盖复杂多变的语言现象; 随着规则数量的增加,规则之间常常发生矛盾和冲突; 制定有效的规则系统非常困难。 基于转换的错误驱动方法则解决了这些问题。 ( 2 ) 基于转换的错误驱动方法 e b f i l l 于1 9 9 5 年提出了基于转换的错误驱动方法【2 l 来进行词性标注处理,方法的核 心是利用训练语料自动获取转换规则,代替了人工制定规则的繁琐,并且使规则刻画的 语言信息更加真实细致。它的基本处理步骤是:先为每个句子赋以初始词性序列,然后 将这些句子与训练语料中带有正确词性标注的句子进行比较,这个过程中可以通过自动 学习获得一系列转换规则。标注时,先为待标注语料赋予初始词性,再将训练时获取的 规则按次序作用于待标注语料,通过这些规则的转换作用,词语的初始词性会转换为更 加合适的词性,逐步得到正确的词性标注。实验结果显示,此方法可以用较小的训练集 达到较高的准确度。 基于转换的错误驱动方法也可以看做是一种基于规则的方法。但规则的制定是从语 料中自动学习到的。因此这种方法获耿的语言信息颗粒度较小,可以获得比人i n 定规 人迩理i :人学硕十学伊论文 则更好的标泣效果。但是在较大的训练语料中,转换规则的学习过程很漫长。后来周明 提出了一种改进的算法不改变训练与标注的过程同时缩短了转换规则的学习时间p j 。 ( 3 ) 基于统计的方法 基于统计的方法需要利用数学知识收集训练语料中的语言信息,再将这些信息应用 于测试语料以获取正确的词性标注。使用基于统计的方法首先需要准备大量的训练语 料,通过机器学习方法,利用某种算法或统计模型获得训练语料中包含的语言信息。训 练语料的规模越大,语言信息就越接近实际情况。标注时,使用已经获取的语言信息根 据算法或是统计模型进行运算,获得词语的合适标注。 8 0 年代初期,l o b 语料库的研究人员利用统计方法设计了一个词性标注系统 ( c ia w s ) 。在此系统中,采用了1 3 0 个标记的标记集,标注词典的7 0 0 0 多个词条是从 b r o w n 语料库中提取的,另外还建立了有7 0 0 多个词缀的词缀表。具体做法是首先对 部分语料进行手工标注,然后对标注的语料进行统计,得到标记与标记同现的频率,产 生一个标记同现的同现频率矩阵。在标注时,从文本中取出一个两端由两个没有词性歧 义的词限制的词串,然后利用标记同现频率的乘积计算这些词串所有可能的标记组成的 标记串的权值,选择权值最大的标记串作为输出结果。c l a w s 还采用了对短语进行标 注的方法作一些修正。对整个l o b 语料库的标注正确率在9 6 左右,其算法的时间空 间复杂度是指数级的。 d e r o s e 1 0 1 等人设计了一个标注系统( v o l s u n g 砧,对统计方法作了一些改进,主 要是在标记选择过程中利用了动态规划算法,并考虑了语料库中词和词性之间存在的统 计关系,在没有使用任何规则的情况下总的正确率也达到9 6 以上。其主要特征是二元 语法模型下采用动态规划算法的词性自动标注算法,它的时间空间复杂度是线性的。这 些统计方法的共同特点是利用词性与词性之间的同现概率和马尔可夫语言模型来消除 歧义。 此外,w e i s c h e d e ! 1 1 】采了用隐马尔科夫模型( h m m ) 进行词性标注。j c l i n e k 1 z j 和 m a g e r m a n 1 3 】采用统计决策树( s d t ) 技术进行了词性标注。a d w a i t 1 4 l 采用最大熵模型来 作为统计学习词性标注模型。具体步骤是:利用上下文的语言环境,确定特征空间选择 特征模板,通过i i s 算法训练选择对英语词性标注有用的特征,构造最大熵模型用于指 导英语词性标注。对p e n n t r c e b a n k 语料测试f 确率达到9 6 6 。 1 2 2 词性标注研究现状 对于词性标注的研究已经进行了很长时间,在各种方法上都有人不断尝试并且取得 了一些成果。从最近的研究及标注效果来看,主流方法依然是基于统计的方法。 基丁最人熵模型的汉语词性标注研究 在隐马尔可夫模型方面,有入对于隐马尔科夫模型在词性标注中的使用进行了扩 展使其更加适合词性标注任务。如扩展后的完全二阶隐马尔可夫模型。隐马尔可夫模 型简单有效,但是m c c a l l u m 曾指出隐马尔可夫模型的两个缺点:一是隐马尔可夫模型 m 不恰当地运用产生式复合模型来解决给出一个观察序列下的条件概率;二是隐马尔可 夫模型不能利用多样化的长距离信息和重叠特征【1 5 1 。 另外,将在序列标注中效果很好的c r f s 加入到词性标注中来。c r f s 有着先进的 算法理论基础,它解决了隐马尔可夫模型的独立性问题和最大熵马尔可夫模型的“标记 偏置一问题,洪铭材和姜维分别使用c r f s 做过词性标注,在3 9 种词性的语料上进行测 试,正确率都可以达到9 6 以上。 近几年,最大熵成为研究热点,并在自然语言处理领域得到了广泛应用,包括机器 翻译、语言建模及文本分类。最大熵是由a d w a i t 率先用于英语词性标注,他将该模型 与其他英语词性标注方法对比后得出结论:最大熵是针对语言建模来说极其灵活的技 术。用它进行英语词性标注,正确率达9 6 6 。z h a o 1 6 悃这个模型构建了汉语词性标注 器。最大熵模型比隐马尔可夫模型能更好地利用多种信息,因而得到了较为广泛的应用。 使用最大熵模型时需要提供特征模板,模板中给出了需要使用的语言特征,模型根 据这些特征来选择使用的语言信息旧。在绝大多数的应用中,语言信息使用的是词形及 词性。x i a oj i n g h u i 等则在词性标注中加入了词语在句子中的位置信息,把这一信息也 作为特征加入到算法中,构造了一个新颖的最大熵马尔可夫模型【6 】。词语在句子中的位 置信息用词语在句子中所处的部分表示,如首部、中部、中前部、尾部等等。在算法中 对这种信息有更加具体的量化表示。加入新特征后,在9 8 版的人民日报语料测试,精 确率超过了9 5 。 也有人使用投票法【7 】,即各个统计模型的综合和扩展。投票法一般需要使用多个统 计模型,各个统计模型的计算过程不一,因而给出的标注结果也不是完全相同的。投票 法让每个模型为词语的合适词性投票,也可以在投票过程中根据模型的特点附加权重, 最后得票最多的词性即为最终标注。投票法一般可以保证精度的提高,但是由于计算过 程复杂,有时需要多个计算过程,速度稍慢。 近期也出现了使用基于实例方法进行的词性标注【1 7 l ,但是由于缺乏专名识别模块, 系统在封闭测试中效果很好,在开放测试中则效果不佳。该方法目前仍处于初步研究中。 人近理i :人学硕十学伊论文 1 3 研究的难点 1 3 1兼类词的词性选择 兼类词与单类词相对,指具有的词性超过一种的词。在汉语中,一个词具有多种词性 是非常常见的,也是词性标注中较难解决的核心问题。对兼类词的词性标注一直是词性 标注的关键所在。 汉语词的兼类现象错综复杂,其主要构成如下: ( 1 ) 形同音不同,如:乐o e ( 四声、动词) 、y u c ( 四声、名词) ) 。 ( 2 ) 同音同形但意义上毫无联系,如:会( 开会( 名词) 、会( 动词) 唱歌) 。 ( 3 ) 具有典型意义的兼类词,如:研究( 名词、动词) 。 ( 4 ) 上述的组合,如:行( 动词、形词、名词、量词) 。 由以上情况构成的兼类词,在汉语中是普遍存在的。为了从数字上直观表达这个问 题,也为了大体估算一下兼类词在汉语中所占的比重,有人研究过兼类现象的静态和动 态分布特征【1 9 1 。对一个标注用词典和一个已标记好的1 3 万词语料库进行统计结果如表 1 1 、1 2 。 表1 1 兼类现象的静态分布特征 t a b 1 1s t a t i cd i s t r i b u t i o nf e a t u r eo fs y n t a c t i cc a t e g o r y ( s t a t i s t i c a lr e s u l tf o rd i c t i o n a r y ) 表1 2 兼类现象的动态分布特征 t a b 1 2 d y n a m i cd i s t r i b u t i o nf e a t u r eo fs y n t a c t i cc a t e g o r y 总词次 1 3 1 2 3 0 总词条 兼类词词次 兼类词词条 兼类词种类 8 7 6 1 3 0 9 7 2 ( 2 3 6 ) 5 2 7 7 8 基丁最人熵模掣的汉语词性标注研究 从表1 1 、表1 2 可看出汉语兼类词的静态和动态分布特征差别很大。兼类词条数 虽然不是很多,但在语料中出现的己不可忽视。另外,不同的兼类现象和不同的兼类词 分靠差别很大。例如,在1 1 3 种兼类现象中,“名动”和“形容词”兼类就占6 2 。5 ; 在语料中,兼类词次达3 0 9 7 2 次,却只出现5 2 7 个不同的兼类词条。这说明在真实语料 中,某些词出现的频度极高( 如过、好、得、没有等词) ,常用词兼类现象严重。据统计, 现代汉语八百词中兼类词所占比例高达2 2 5 。往往越是常用的词,不同的用法就 越多,兼类现象也就越多。所以,尽管兼类现象只占了词汇的很小一部分,但兼类词使 用的频繁程度却不低。 在某些语言中,词语的形态变化往往是词性判断的重要依据。如英文中i n g 、c d 的 后缀等。但是汉语是缺乏词的形态变化的语言,词的类别不能直接从词的形态变化上来 判别。由此更提高了汉语词性标注的难度。汉语的兼类词主要集中在名词、动词、形容 词、副词这几类词上。 1 3 2 数据稀疏问题的解决 使用基于统计的词性标注方法时,必须首先统计训练语料库的信息,从中获得语言 特征信息后,根据获得的语言特征信息来进行标注。如果训练语料库中的语言信息不能 够正确反映真实的语言信息,那么统计模型所获取的语言特征信息就是有偏差的。根据 有偏差的语言特征信息进行的标注必然不会有高精确率。 但是由于自然语言的复杂性,训练语料库不可能包含所有的语言现象,因此从中获 得的语言特征信息必然有一定的偏差,这就是“数据稀疏 的问题。对于这个问题,一 方面可以扩大训练语料库,或在较小的语料库上采取交叉测试的方法;另一方面,加入 数据平滑技术,降低由于数据稀疏现象带来的统计误差,使统计模型中的概率分布更加 趋向合理和均匀。使用参数平滑技术,一方面要尽量选择与统计模型相适应的算法,另 一方面也要对算法进行适当改进,使之更适合词性标注系统。 1 3 3 未登录词的词性判断 所谓未登录词,指的是词性标注中使用的词典不包含,但是在标注新语料时出现的 词。由于词典往往不可能包含所有可能出现的词与词性,并且新的词汇出现的速度也越 来越快,在对文本进行标注时,会遭遇相当数量的未登录词。当在某些专业领域进行词 性标注时,出于文本内容较为专业,含有大量特殊的专有词汇,如果没有针对性地制作 词典,会出现相当一部分的未登录词。对于未登录词,出于没有词典提供的信息利用, 会大大提高出现标注错误的机会从而严重影响整体的标注准确率。因此,确定未登录 词的词性是词性标注中必须解决的一个问题。 人连理l :人学硕十学伊论文 由于汉语中未登录词的种类很多,如中国人名、外国人名、中国地名、重叠词、派 生词、缩略语、数词等等,它们的构词规律各异,不可能有通用的识别资源和算法。国 内的学者也针对未登录词的识别作了较大量的工作,方法是用词频确定未登录词的大概 位置,再用上下文信息确定未登录词的边界。 本文实现未登录词标注的方法是:利用已有的针对不同类别的未登录词的特征信 息,使用简单的基于规则的方法进行筛选判断。对于规则筛选完成后依然不能得到标注 的未登录词,为它们赋予在未登录词中出现频率总和超过9 0 的几种词性,再利用最大 熵模型标注。赋予的这几种词性是根据大量统计结果获取的。 1 4 本文的工作 本文的主要目的是在实验室已有研究成果的基础之上,继续深入对基于最大熵模型 的词性标注的研究。 实验室参加了第一届中国中文信息学会汉语处理评测( c i p s c l p e ) 暨第四届国际 中文自然语言处理b a k c o f f 的汉语词性标注竞赛,并且取得了优异的成绩。本文在前面 章节将介绍一个最大熵模型的词性标注系统,以这个标注系统中使用的方法作为基础,。, 后续章节将继续对最大熵模型在词性标注中的适用性、应用性进行研究以及探索进一步 提高标注精确率的途径,实现更加有效的汉语词性标注器。 本文主要做了以下几点工作: ( 1 ) 分析最大熵模型不同模板的特征,从实验中抽取各种信息来研究这些特征 构建多种特征模板,从训练语料中抽取词、词性信息,建立词典;然后根据不同特 征模板分别对训练语料进行特征抽取、对测试语料进行标注。标注过程中收集中间数据, 分析了最大熵模型标注的特点。 ( 2 ) 提出了“潜在精确率 的概念 潜在精确率是本文提出的一种模糊的精确率,指的是当标注过程可以在一定范围内 选择标注结果时,最高可以达到的精确率。比如为每个词语选择两个词性作为候选标注, 潜在精确率就是假设标注器能够无误地从这两个候选标注中找出正确标注结果时达到 的精确率。利用潜在精确率可以更多保留最大熵模型计算的结果信息供后续处理使用, 而不是单纯使用最大熵模型来完成整个标注过程。潜在精确率的涉及的候选标注数量可 以自由控制,但是在最大熵模型的条件下,随着候选标注数量的增加,潜在精确率的增 长幅度下降非常快,因此本文的潜在精确率候选只取两个。 墓丁最人熵模型的汉语词性标注研究 ( 3 ) 根据“潜在精确率”的概念及对最大熵模型标注特征的分析,得出了在最大熵 模型基础之上进一步提高精确率的途径:在最大熵模型标注时保留多个候选标注,再由 后面的步骤处理。 从这个途径出发,提出了三种后续步骤的处理方法,构成三种词性标注方法,它们 分别是: 结合使用最大熵模型和隐马尔可夫模型的词性标注方法。 融合多个最大熵模型标注结果的词性标注方法。 结合使用最大熵模型和c r f s 的词性标注方法。 并且通过实验分析,这三种方法都能够提高最大熵模型的标注精确率。 一8 一 人迮理i :人学硕十学位论文 2 统计模型介绍 2 1 最大熵模型 最大熵模型在自然语言处理方面的应用非常广泛。d e l l ap i e t r a 等人于1 9 9 2 年首次 将它应用于自然语言的处理中来建立语言模型。最大熵模型重要优点是将各种不同来源 的信息的知识聚集到一个框架下,可以解决一些较复杂的问题。因此,很多学者已经应 用最大熵模型来解决自然语言处理中的文本分类、词性标注、短语识别等问题,取得令 人满意的结果。由于最大熵模型的简洁、通用和易于移植,经常采用该技术处理分类标 注问题。最大熵方法在自然语言处理方面有广泛的应用前景,特别是随着其基本算法速 度和性能的改进将会得到更多的应用。 2 1 1 熵的定义 熵( e n t r o p y ) 是描述事物无序性的参数,本来是物理学中的一个概念,熵越大则无序 性越强。熵有下面的定义: 在宏观上:热力学定律一体系的熵变等于可逆过程吸收或耗散的热量除以它的绝 对温度( 克劳修斯,1 8 6 5 ) 在微观上:熵是大量微观粒子的位置和速度的分布概率的函数,是描述系统中大量 微观粒子的无序性的宏观参数( 波尔兹曼,1 8 7 2 ) 。 信息论是由香农( c l a u d es h a n n o n ) 在2 0 世纪4 0 年代建立的理论体系,解决了对信息 的量化度量问题。这里熵表示的是信息熵,香农认为信息是人们对事物了解的不确定性 的消除或减少,并把不确定的程度称为信息熵。一个系统越是有序,信息熵就越低;反 之,一个系统越是混乱,信息熵就越高。所以,信息熵是系统有序化程度的一个度量。 下面介绍随机事件的信息熵:设有随机变量毛,它有0 1 4 2 疗) 共玎种可能的结局, 每个结局出现的概率分别为( p 1 誓7 2 砧,则其不确定程度,即信息熵为公式( 2 1 ) : h ( 宇) 一一罗只l o g p i ( 2 1 ) 筒 信息熵是数学方法和语言文字学的结合。一个系统的熵就是它的无组织程度的度 量。 熵越大,事件越不确定,熵等于0 时,事件是确定的。 举例来说:当我们抛一枚硬币时,它出现币面或背面的几率是一样的,这时候也是 事件最不确定的时候。当正面和背面几率一样时,容易知道它们的出现概率都为5 0 。 基丁最人熵模型的汉语词性标注研究 p ( h e a d ) = 0 5 ,p ( t a i l ) = 0 5 也就是这时熵值达到最大 h ( t a i l ) = 一0 5l og20 5 + ( 一0 51 0g :0 5 ) = 2 ( 一0 5 ) ( - 1 ) = 2 x 0 5 = 1 自然界总是向着无序方向发展,这反映了熵在自然界的变化规律熵增原理: ( 1 ) 在无外力作用下,事物总是朝着最混乱的方向发展。 ( 2 ) 事物是约束和自由的统一体。 ( 3 ) 事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则。 ( 4 ) 在已知条件下,熵最大的事物,最可能接近它的真实状态。一个孤立系统的熵, 自发性地趋于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发地产生新 的有序结构。 在日常生活中,很多事情的发生表现出一定的随机性,结果往往是不确定的。而且 不知道这个随机现象所服从的概率分布,所有的只有一些样本或样本特征。这时需要解 决的一个问题,是这种情况下如何对分布作出一个合理的推断。应该根据样本信息对某 个未知分布做出推断,最大熵就是这样一个方法。 2 1 2 一个简单的例子 这里通过一个简单的例子将最大熵思想引入词性标注中,可以对最大熵有一个直观 的认识。 为例旬“把这篇报道编辑一下 中的“下 进行标注: 把q - p v - n 这位篇p 报道v n 编辑v n 一i i l 吒下f - q v ( 每个词后面的字母代表它可能具有的词性) “下乃在这里有三种可能词性f 、q 、v ,这三种词性分别用t 1 、t 2 、t 3 表示。 t l = f ,t 2 = q ,t 3 = v 在例子当中,可能的词性标记只有f ,q ,v 。为了满足这个信息,得到最大熵模型 的第一个约束: e ( t 1 ) + 尸( t 2 ) + p ( t 3 ) = 1 这个等式是标注过程的第一个约束,有了这个约束之后,可以丌始寻找遵循这个等 式的合适的模型。这样的模型可以有无限多个:比如,满足上面等式的模型可以是 p ( t 2 ) = l ,p ( t 1 ) = o ,p ( t 3 ) = o ,也可能是p ( t 2 ) = 0 5 ,p ( t 1 ) = o 5 ,p ( t 3 ) = o 。 那么我们如何来评价这两个模型的优劣? 这两个模型都只做了粗略的假设,没有用 任何经验判断:但是这两个模型其实都做了过多的假设。如果当自订词性标记只包括3 个 候选,当然所有假设当中最直观的一个就是p ( t 2 ) = 1 3 ,p ( t 1 ) = l 3 ,p ( t 3 ) = l 3 。 人连理l :人学硕十学伊论文 其实从样例中还可以观察到其他的一些迹象。假设我们注意到,9 0 的“一下”中 的“下”的词性是t 2 。使用这条信息柬更新模型,要求模型p 同时满足下列两个约束条 件: p ( t 2 ) = 0 9 p ( t 1 ) + p ( t 2 ) + p ( t 3 ) = 1 同样,还是有很多概率分布能同时满足这两个约束。如果没有其他知识,那么模型 p 的一个合理的选择应该是最均匀的那个,也就是那个既满足约束条件,同时又尽可能 平均地分配它的概率的那个分布: p ( t 2 ) = 0 9p ( t 1 ) = o 0 5p ( t 3 ) = 0 0 5 这是个简单的例子,很容易就能找到一个最均匀的模型来同时满足约束条件,但是 实际的任务是很复杂的,有两个问题需要解决:第一个问题是“均匀”的确切含义是什 么以及如何来衡量一个模型的均匀性:第二个问题是如何找到一个满足所有约束的最均 匀的模型。 最大熵方法回答和解决了这两个问题。原理即是对所有已知的建模并且对未知的不 做任何假设。换句话说,给定一组事实,挑选一个与所有事实一致,但是尽可能均匀的 模型。这就是在上面的例子中,选择模型p 所采用的方法。 2 1 3 最大熵模型的数学表示 所谓最大熵方法就是遵循最大熵原则建模,也就是选择这样的一个统计概率模型: 在满足约束的模型中选择熵最大的那个。这是因为基于部分信息作推断的时候,符合已 知条件并且熵最大的那个概率分布是唯一没有偏见的论断。这个论断满足所有已知的事 实,对未知的事实不做任何假设。符合最简单者最可取这一哲学原则【2 0 】。 进行汉语处理时经常遇到的问题有:分词、词性标注、语法和语义分析等等。这些 自然语言中的问题都可以形式化为分类问题,估计某一类y 在其上下文工中发生的概率。 在汉语中上下文工的内容可以包括汉字、词、词性等,对于不同的任务,上下文的选择 也不同。这类问题可以采用统计建模的方法去处理1 2 1 彩l 。首先是采集大量样本进行训练, 样本代表了该任务的知识和信息,选取样本的好坏确定了知识完整性的程度。然后建立 一个统计模型,并把样本知识结合到模型中,来预测随即过程将来的行为。 下面对最大熵模型进行形式化描述1 4 , 2 0 l 。 最大熵模型是用来进行概率估计的。假设a 是某个事件,b 是事件a 发生的环境( 或 称上下文) ,则p ( a ,b ) 表示a 和b 的联合概率。在自然语言处理的领域,对于汉语词 性标注问题,一个候选词标注为某个词性类别可以对应看成一个事件,语料中该词的上 基丁最人熵模璎的汉语词性标注研究 下文可以对应看成这个事件发生的环境。在一个训练语料中使用a = 口。,口:,a , 表示 类别的集合,b = 6 。,b :,b , 表示上下文环境的集合一h 朋( 协) 是在语料中出现的次数, 那么可以使用式( 2 2 ) 进行概率估计: p ( 口f ,) 。竽堂止 善磊一心,) ( 2 2 ) 他b ) 是一个二元组,表示在b 的环境下发生了事件a 。在词性标注中,即表示上下 文环境b 的条件下进行了a 标注。若伍b ) 这个二元组在训练语料中没有出现过,使用式 ( 2 2 ) 会得到零值。这是不可取的,因为总有训练语料中没有出现过的情况,将它们武 断地得到零值是不符合实际情况的。 针对这种“稀疏 问题,最大熵模型是这样来解决的:它使未知事件的概率分布总 是尽可能均匀,即倾向于得到最大熵。而非将未知事件直接置零。 熵的计算公式如式( 2 3 ) : 日( p ) t 一罗p ( x ) l o g p ( x ) ( 2 3 ) 7 最大熵原则要求熵达到最大值,就是寻找满足下面条件的概率分布: p 一a r g m a x h ( p ) 根据熵的性质,式( 2 3 ) 得到最大值的条件如式( 2 4 ) : p ( 口ib ) 一南 q 4 ) 因为罗p ( aib ) = 1 。 危t 但是,尽管训练语料中不能给出所有二元组( a h b j ) 的概率值,但能够给出部分二元 组的概率值,或某些概率需要满足的条件。即问题变成求部分信息下的最大熵,或满足 一定约束的最优解。 下面介绍特征函数的概念。特征函数一般情况下是一个二值函数,即函数值只能有 1 或者o 两种情况。特征函数在满足特征的情况下取1 ,否则取0 。 f ( x , y ) 一 毛釜满足耥恸作 使用特征函数可以很容易地表示出部分信息。 人连理l :人学硕十学位论文 f ( a , b ) - :) 姜薏硇n 外 特征函数的经验概率分布的期望为: 应( 五) a 五 ,y ) p ( x ,y ) x , y 特征函数的期望概率分布的期望为: ( 2 5 ) e ( 六) 一兀( 工,y ) p ( x ) p ( y iz ) ( 2 6 ) 限制在训练集中,使两个期望值相等: 应( ) 一e ( ,j ) ( 2 7 ) ,f ( z ,y ) p ( x ,y ) 一f l ( x ,y ) p ( x ) p ( yix ) ( 2 8 ) 等式( 2 7 ) 称为约束,每个约束都反映了已知的一些信息。可以定义很多互不相关 的这样的特征函数,甚至描述问题的角度也可以是完全不同的,刻画问题的粒度也可大 可小。 特征函数可以很灵活地将分散、零碎的知识组合在一起完成同一个任务。给定一组 特征函数,通过等式( 2 7 ) 得到所求概率分布的一组约束之后,问题就变成了求解满足 一组约束条件的最优解问题,即: 0 一 p ( ylz ) :e ( 兀) 一应( 兀) ,1s is 以) ( 2 9 ) 求解这个最优解,可以使用经典的拉格朗同乘子算法,详细过程不再叙述。这个最 优解要求的p ( yi x ) 最终具有式( 2 1 0 ) 的形式: p ( ) ,i 曲牙告e x p 善 五o ,) ,) 2 1 0 其中,z 俐= 唧n 五伍y ) 。五是参数,可以看作是特征函数的权值。z 6 c ) 确定时为归一范化常数,用来控制所有概率总和为1 。这样,模型出求概率值转化为估 计参数值九。 基丁最人熵模型的汉语词性标注研究 通过对于训练集上的学习,可以知道五的值就得到了概率分布函数完成了最大 熵模型的构造。设陋l 是事件集的大小,k 是特征函数的数目,从式( 2 1 0 ) 可以看到,最 大熵模型的时间复杂度是o ( k l 彳1 ) 。 2 2 隐马尔可夫模型 2 2 1隐马尔可夫模型介绍 隐马尔可夫模型是b a u m 在1 9 7 2 年提出的,用于解决比马尔可夫链模型更为复杂 的事件与状态的对应例。隐马尔可夫模型是在马尔可夫链的基础上发展起来的,后来被 广泛应用于语言处理特别是词性标注、语音识别领域。 一个隐马尔可夫模型有着一组有限的状态,除去终止状态,其中的状态可以以一定 概率转移到另外的状态并在转移时产生输出。能产生的输出是有限的,输出以一定的概 率依赖状态产生。这样的隐马尔可夫模型可以用一个五元组 来表示i 硎。 :表示模型中的状态的数目。 m :表示每个状态对应的观察值数目。 么:a - 口盯 表示状态转移概率矩阵。a 0 表示从状态墨转移到状态s ,的概率。 曰:b p 雎) 州表示观察值概率分布矩阵。其中表示在s ,状态下,t 时刻出现屹 的概率。 口:日= 巧) 表示初始状态概率分布,其中珥一尸“一吼) ,1 七s 。即在t = 1 时刻 处于状态墨的概率。羁满足:y 珥一1 。 乍 在隐马尔可夫模型中存在三个假设: 马尔可夫假设:一个状态的产生仅仅与其前一个状态有关。 不动性假设:任意两状态之间的转移与具体时间是无关的。 输出独立性假设:观察值的产生仅仅与当前状态有关。 隐马尔可夫模型是一个双重随机过程,其中之一是马尔可夫链,各个状态之间的转 移是随机的,这是基本的随机过程;另一个随机过程是观察值和状态之间的对应关系。 在观察者的角度,只能看到观察值,不能直接看到状态。观察者只能通过这个随机过程 的输出去感知状态及其转移特性1 2 6 1 ,因此是隐的马尔可夫过程,即隐马尔可夫。 在隐马尔可夫模型中有三个基本问题l 强2 7 1 : ( 1 ) 评估问题: 给定模型参数,怎样有效计算某一观测序列的概率 人迎理i :人学硕十学伊论文 ( 2 ) 解码问题 给定观测序列和模型参数,怎样寻找最优的状态_ l 字列 ( 3 ) 学习问题 给定观测序列,怎样调整模型,才能让这个模型最好地解释观测序列 针对以上三个问题,人们提出了相应的算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论