南京大学模板_第1页
南京大学模板_第2页
南京大学模板_第3页
南京大学模板_第4页
南京大学模板_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、隐马尔可夫模型(HMM)在中文词性标注中的应用研究答辩人: 指导老师: 8/14/20221词性标注概述隐马尔可夫模型概述实验介绍实验结果和分析总结 提 纲8/14/20222词性标注概述词性标注的目标和过程目标:为句子中的每个词都标上一个合适的词性过程: 原文: 这件事情在理论界、经济界引起了很大反响。分词后: 这 件 事情 在 理论界 、 经济界 引起 了 很 大 反响 。词性标注: 这/r 件/q 事情/n 在/p 理论界/n 、/w 经济界/n 引起/v 了/u 很/d 大/a 反响/n 。/w词性标注中的信息源邻接词的词性信息词本身提供的信息8/14/20223词性标注概述(cont

2、.)词性标注的主要方法基于规则的方法(Rule-based)基于统计的方法(Statistics-based)基于转换的方法(Transformation-based)词性标注准确率训练数据量 标注集合 语料库差别 未登录词8/14/20224隐马尔可夫模型(HMM)概述HMM的两个假设:有限视野假设 P(Ot+1=Sk|O1,Ot)=P(Ot+1=Sk| Ot) 时间不变性假设 P(Ot+1=Sk|Ot) = P(O2=Sk|O1) 8/14/20225隐马尔可夫模型概述(cont.)HMM模型:=(A,B,)S是状态集:S=(S1,S2,SN)V是观察集:V=(V1,V2,VM)状态序列:

3、Q = q1q2qT (隐藏),观察序列:O=o1o2oT(可见) A是状态转移概率分布:A=aij, aij=P(qt=sj|qt-1=si) (满足假设1)B是观察值生成概率分布:B=bj(vk), bj(vk)=P(ot=vk|qt=si) (满足假设2)初始观察值概率分布:= i, i =P(q1=si)8/14/20226隐马尔可夫模型概述(cont.)隐马尔可夫模型的基本问题给定一个模型=(A,B,),怎样有效的计算某个观测序列发生的概率,即P(O|)。(模型拟合程度)给定观测序列O和模型,怎样选择一个状态序列q1q2qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标

4、注过程)给定观测序列O,以及通过改变模型=(A,B,)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程)8/14/20227隐马尔可夫模型概述(cont.)Viterbi算法:s1s2sisNs1s2sisNs1s2sjsNs1s2sisNa1ja2jaijaNj8/14/20228实验介绍实验语料库简介人民日报标注语料库 199801199806共含有标注42个,单词130274个实验建模S:预先定义的词性标注集(42个标注)V:文本中的词汇(130274个词)A:词性之间的转移概率B:某个词性生成某个词的概率 例,P(我|“代词”) :初始概率8/14/

5、20229实验介绍(cont.)模型训练最大似然估计法 实验相关问题数据稀疏问题稀疏矩阵未登录词和概率平滑留出相应的概率空间8/14/202210实验结果和分析整体实验用199801199805作为训练语料库,标注199806的结果如下:待标注总数:1,244,415正确标注数:1,167,314错误标注数:77,101标注正确率:未登录词数: 17,071部分标注的结果: 标注 正确数 错误数 标注准确率8/14/202211实验结果和分析(cont.)结论:训练库中标注出现次数对结果有很大影响小样本实验然而/c ,/w 由于/c 历史/n 的/u 原因/n ,/w 其/r 在/p 机制/n

6、 方面/n 的/u 种种/q 弊端/n 日益/d 显露/v ,/w 已/d 越来越/d 不/d 适应/v 社会主义/n 市场经济/n 的/u 要求/n 。/w 8/14/202212实验结果和分析(cont.)错误:“由于”的介词词性p错误标成了连词词性c。分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下: p-由于:-5.3571 c-由于:-4.6158 d-由于结论:遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。 8/14/202213总 结总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持。长距离依赖问题和偏置问题。目前在研究中的最大熵隐马模型(MEMMs

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论