基于隐马尔科夫的词性标注讲稿_By于江德.ppt_第1页
基于隐马尔科夫的词性标注讲稿_By于江德.ppt_第2页
基于隐马尔科夫的词性标注讲稿_By于江德.ppt_第3页
基于隐马尔科夫的词性标注讲稿_By于江德.ppt_第4页
基于隐马尔科夫的词性标注讲稿_By于江德.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于隐马尔科夫模型的词性标注,2009年4月7日,广告伞http:/www.su-,内容提要,词性标注,基于HMM的词性标注基于规则的词性标注,后面经常用到的公式,词性标注的任务,自然语言中一词多类的现象把这篇报道编辑一下把/q-p-v-n这/r篇/q报道/v-n编辑/v-n一/m-c下/f-q-vTimeflieslikeanarrowTime/n-vflies/v-nlike/p-van/Detarrow/n所谓词性标注就是用计算机来自动地给文本中的词标注词类(如:名词、动词)。意义为更高层次的自然语言文本加工提供素材为语言学的研究,提供翔实的资料从加工过的文本中获取词类及频度的词性标注知识,词性标注的实质:寻找最优路径,411222396种可能性,哪种可能性最大?,隐马尔可夫模型简要回顾,隐马尔可夫模型是在马尔可夫链的基础之上发展起来的。由于实际问题比马尔可夫模型所描述的更为复杂,观察到的事件并不是与状态一一对应,而是通过一组概率分布相联系,这样的模型就称为隐马尔可夫模型(HMM)。HMM是一个双重随机过程,其中之一是马尔可夫链,这是基本随机过程,它描述状态的转移。另一个随机过程描述状态和观察值之间的统计对应关系。这样,站在观察者的角度,只能看到观察值,不像马尔可夫链模型中的观察值和状态一一对应,因此不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性。因而称之为“隐”马尔可夫模型。,HMM的形式描述,对于一个随机事件,有一个观察值序列:O1,.,OT该事件隐含着一个状态序列:X1,.,XT一个隐马尔可夫模型(HMM)是一个五元组:(X,O,A,B,)其中:X=q1,.qN:状态的有限集合O=v1,.,vM:观察值的有限集合A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率B=bik,bik=p(Ot=vk|Xt=qi):输出概率=i,i=p(X1=qi):初始状态分布(初始概率),HMM的三个基本问题,令=A,B,为给定HMM的参数,令=O1,.,OT为观察值序列,隐马尔可夫模型(HMM)的三个基本问题:评估问题:对于给定模型,求某个观察值序列的概率p(|);解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;(对应词性标注问题)学习问题:对于给定的一个观察值序列,调整参数,使得观察值出现的概率p(|)最大。,词性标注和HMM,如何建模?单词序列、词性序列?三个概率如何得到?两个随机过程?问题的实质?,基于HMM进行词性标注(1),两个随机过程1、选择罐子:上帝按照一定的转移概率随机地选择罐子2、选择彩球:上帝按照一定的概率随机地从一个罐子中选择一个彩球输出人只能看到彩球序列(词序列,记作Ww1w2wn),需要去猜测罐子序列(隐藏在幕后的词性标注序列,记作T=t1t2tn)已知词序列W(观测序列)和模型的情况下,求使得条件概率p(T|W,)值最大的那个T,一般记作:T=argmaxP(T|W,),基于HMM进行词性标注(2),首先,构造如下的统计计算模型:令W=w1w2wn为一多词类词串,C=c1c2cn为可能的词类标注结果串。P(C|W)为给定条件下出现的概率。如果不考虑更大的上下文,我们可以认为使得P(C|W)的值取得最大时的出现的可能性最大。这样就把词类标注问题转化为寻找一组标记串,使得:=argmaxP(C|W)(1),基于HMM进行词性标注(3),根据贝叶斯定律,可以得到:(2)其中P(W)为常量,不需要考虑,关键在于对P(C)和P(W|C)的计算。由于两者的参数估计极为复杂,在实际应用中,往往需进行简化。对于P(C),我们使用了二元语法Bigram近似,得到:(3),基于HMM进行词性标注(4),而对P(W|C),只考虑每个词依赖于它本身的词类的情况,可以得到:(4)综合(1),(2),(3),(4),最终得到:(5)其中此模型的两组参数可以从对正确标注词类的语料的参数训练中得到,基于HMM进行词性标注(5),其中最简单的参数估计法为最大似然估计MLE(MaximumLikelihoodEstimation),即令:(6)(7)其中f(ci,cj)是语料库中ci和cj相邻出现的频度,f(w,c)是语料库中词取词类的频度,f(c)为语料库中词类标记出现的次数,为语料库词总数。,基于HMM进行词性标注(6),词性之间的转移概率可以从语料库中统计得到:已知词性标注下输出词义的概率可以从语料库中统计得到:,计算所分词系统基本思想,InstituteofComputingTech.,ChineseLexicalAnalysisSystem.(ICTCLAS)中科院计算所词语分析系统特点:此分词系统实现了分词和词性标注一体化,未登录词与普通词处理的一体化;评估体系一体化基本思想:采取HMM(隐式马尔可夫模型),建立切分词图。词语粗分阶段(N最短路径法),先得出N个概率最大的切分结果。然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视它为普通词处理,最终进行动态规划优选出N个最大概率切分标注结果。,计算所分词系统功能模块图,计算所分词系统程序流程,基于规则的词性标注基本思想,EricBrill(1995)Transformation-basederror-drivenpartofspeechtagging基本思想:(1)正确结果是通过不断修正错误得到的(2)修正错误的过程是有迹可循的(3)让计算机学习修正错误的过程,这个过程可以用转换规则(transformation)形式记录下来,然后用学习得到转换规则进行词性标注,基于规则的词性标注转换规则的形式,转换规则由两部分组成改写规则(rewritingrule)激活环境(triggeringenvironment)一个例子:转换规则T1改写规则:将一个词的词性从动词(v)改为名词(n);激活环境:该词左边第一个紧邻词的词性是量词(q),第二个词的词性是数词(m)S0:他/r做/v了/u一/m个/q报告/vS1:他/r做/v了/u一/m个/q报告/n,参考文献,翁富良,王野翊.计算语言学导论.北京:中国社会科学出版社,1998苑春法等(译).统计自然语言处理基础.北京:电子工业出版社,2005冯志伟.计算语言学基础.北京:商务印书馆,2001姚天顺.自然语言理解.北京

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论