南京大学PPT模板.ppt.ppt_第1页
南京大学PPT模板.ppt.ppt_第2页
南京大学PPT模板.ppt.ppt_第3页
南京大学PPT模板.ppt.ppt_第4页
南京大学PPT模板.ppt.ppt_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019 12 20 1 隐马尔可夫模型 hmm 在中文词性标注中的应用研究 答辩人 指导老师 2019 12 20 2 词性标注概述隐马尔可夫模型概述实验介绍实验结果和分析总结 提纲 2019 12 20 3 词性标注概述 词性标注的目标和过程目标 为句子中的每个词都标上一个合适的词性过程 原文 这件事情在理论界 经济界引起了很大反响 分词后 这件事情在理论界 经济界引起了很大反响 词性标注 这 r件 q事情 n在 p理论界 n w经济界 n引起 v了 u很 d大 a反响 n w词性标注中的信息源邻接词的词性信息词本身提供的信息 2019 12 20 4 词性标注概述 cont 词性标注的主要方法基于规则的方法 rule based 基于统计的方法 statistics based 基于转换的方法 transformation based 词性标注准确率训练数据量标注集合语料库差别未登录词 2019 12 20 5 隐马尔可夫模型 hmm 概述 hmm的两个假设 有限视野假设p ot 1 sk o1 ot p ot 1 sk ot 时间不变性假设p ot 1 sk ot p o2 sk o1 2019 12 20 6 隐马尔可夫模型概述 cont hmm模型 a b s是状态集 s s1 s2 sn v是观察集 v v1 v2 vm 状态序列 q q1q2 qt 隐藏 观察序列 o o1o2 ot 可见 a是状态转移概率分布 a aij aij p qt sj qt 1 si 满足假设1 b是观察值生成概率分布 b bj vk bj vk p ot vk qt si 满足假设2 初始观察值概率分布 i i p q1 si 2019 12 20 7 隐马尔可夫模型概述 cont 隐马尔可夫模型的基本问题给定一个模型 a b 怎样有效的计算某个观测序列发生的概率 即p o 模型拟合程度 给定观测序列o和模型 怎样选择一个状态序列q1q2 qt 以便能够最好的解释观测序列 这个过程通常也被称为译码 标注过程 给定观测序列o 以及通过改变模型 a b 的参数而得到的模型空间 怎样才能找到一个最好的解释这个观测序列的模型 模型训练过程 2019 12 20 8 隐马尔可夫模型概述 cont viterbi算法 2019 12 20 9 实验介绍 实验语料库简介人民日报标注语料库199801 199806共含有标注42个 单词130274个实验建模s 预先定义的词性标注集 42个标注 v 文本中的词汇 130274个词 a 词性之间的转移概率b 某个词性生成某个词的概率例 p 我 代词 初始概率 2019 12 20 10 实验介绍 cont 模型训练最大似然估计法实验相关问题数据稀疏问题稀疏矩阵未登录词和概率平滑留出相应的概率空间 2019 12 20 11 实验结果和分析 整体实验用199801 199805作为训练语料库 标注199806的结果如下 待标注总数 1 244 415正确标注数 1 167 314错误标注数 77 101标注正确率 0 938042未登录词数 17 071部分标注的结果 标注正确数错误数标注准确率b85686750 92697c2753017830 93917d5174430480 94437 2019 12 20 12 实验结果和分析 cont ag2461580 60891an222211420 66052dg50520 49020e1880 69231结论 训练库中标注出现次数对结果有很大影响小样本实验然而 c w由于 c历史 n的 u原因 n w其 r在 p机制 n方面 n的 u种种 q弊端 n日益 d显露 v w已 d越来越 d不 d适应 v社会主义 n市场经济 n的 u要求 n w 2019 12 20 13 实验结果和分析 cont 错误 由于 的介词词性p错误标成了连词词性c 分析 跟踪发现 由于 的前一个词 只能被标为w 根据viterbi算法 下面将计算由w到下一词性并发射单词 由于 的概率 由于 的可能词性有三个 分别是p c d 相关概率的对数值如下 w 11 3986w p 2 5839w c 2 8842w d 2 6353p 由于 5 3571c 由于 4 6158d 由于 11 7821p 19 3397c 18 8987d 25 8160结论 遇到概率差小于某个常数临界值的时候 可以考虑用一些其它的方法 如简单规则等 进行判定 2019 12 20 14 总结 总体来讲 隐马尔可夫模型词性标注器可以达到较好的效果 但是对词性标注任务来说 任何一点性能的提升都是对后续工作的大力支持 长距离依赖问题和偏置问题 目前在研究中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论