已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于隐马尔科夫模型的词性标注 于江德安阳师范学院自然语言处理小组2009年4月7日 广告伞http www su 内容提要 词性标注 基于HMM的词性标注基于规则的词性标注 后面经常用到的公式 词性标注的任务 自然语言中一词多类的现象把这篇报道编辑一下把 q p v n这 r篇 q报道 v n编辑 v n一 m c下 f q vTimeflieslikeanarrowTime n vflies v nlike p van Detarrow n所谓词性标注就是用计算机来自动地给文本中的词标注词类 如 名词 动词 意义为更高层次的自然语言文本加工提供素材为语言学的研究 提供翔实的资料从加工过的文本中获取词类及频度的词性标注知识 词性标注的实质 寻找最优路径 4 1 1 2 2 2 3 96种可能性 哪种可能性最大 隐马尔可夫模型简要回顾 隐马尔可夫模型是在马尔可夫链的基础之上发展起来的 由于实际问题比马尔可夫模型所描述的更为复杂 观察到的事件并不是与状态一一对应 而是通过一组概率分布相联系 这样的模型就称为隐马尔可夫模型 HMM HMM是一个双重随机过程 其中之一是马尔可夫链 这是基本随机过程 它描述状态的转移 另一个随机过程描述状态和观察值之间的统计对应关系 这样 站在观察者的角度 只能看到观察值 不像马尔可夫链模型中的观察值和状态一一对应 因此不能直接看到状态 而是通过一个随机过程去感知状态的存在及其特性 因而称之为 隐 马尔可夫模型 HMM的形式描述 对于一个随机事件 有一个观察值序列 O1 OT该事件隐含着一个状态序列 X1 XT一个隐马尔可夫模型 HMM 是一个五元组 X O A B 其中 X q1 qN 状态的有限集合 O v1 vM 观察值的有限集合A aij aij p Xt 1 qj Xt qi 转移概率B bik bik p Ot vk Xt qi 输出概率 i i p X1 qi 初始状态分布 初始概率 HMM的三个基本问题 令 A B 为给定HMM的参数 令 O1 OT为观察值序列 隐马尔可夫模型 HMM 的三个基本问题 评估问题 对于给定模型 求某个观察值序列的概率p 解码问题 对于给定模型和观察值序列 求可能性最大的状态序列 对应词性标注问题 学习问题 对于给定的一个观察值序列 调整参数 使得观察值出现的概率p 最大 词性标注和HMM 如何建模 单词序列 词性序列 三个概率如何得到 两个随机过程 问题的实质 基于HMM进行词性标注 1 两个随机过程1 选择罐子 上帝按照一定的转移概率随机地选择罐子2 选择彩球 上帝按照一定的概率随机地从一个罐子中选择一个彩球输出人只能看到彩球序列 词序列 记作W w1w2 wn 需要去猜测罐子序列 隐藏在幕后的词性标注序列 记作T t1t2 tn 已知词序列W 观测序列 和模型 的情况下 求使得条件概率p T W 值最大的那个T 一般记作 T argmaxP T W 基于HMM进行词性标注 2 首先 构造如下的统计计算模型 令W w1w2 wn为一多词类词串 C c1c2 cn为可能的词类标注结果串 P C W 为给定 条件下 出现的概率 如果不考虑更大的上下文 我们可以认为使得P C W 的值取得最大时的 出现的可能性最大 这样就把词类标注问题转化为寻找一组标记串 使得 argmaxP C W 1 基于HMM进行词性标注 3 根据贝叶斯定律 可以得到 2 其中P W 为常量 不需要考虑 关键在于对P C 和P W C 的计算 由于两者的参数估计极为复杂 在实际应用中 往往需进行简化 对于P C 我们使用了二元语法Bigram近似 得到 3 基于HMM进行词性标注 4 而对P W C 只考虑每个词依赖于它本身的词类的情况 可以得到 4 综合 1 2 3 4 最终得到 5 其中此模型的两组参数可以从对正确标注词类的语料的参数训练中得到 基于HMM进行词性标注 5 其中最简单的参数估计法为最大似然估计MLE MaximumLikelihoodEstimation 即令 6 7 其中f ci cj 是语料库中ci和cj相邻出现的频度 f w c 是语料库中词 取词类 的频度 f c 为语料库中词类标记 出现的次数 为语料库词总数 基于HMM进行词性标注 6 词性之间的转移概率可以从语料库中统计得到 已知词性标注下输出词义的概率可以从语料库中统计得到 计算所分词系统基本思想 InstituteofComputingTech ChineseLexicalAnalysisSystem ICTCLAS 中科院计算所词语分析系统特点 此分词系统实现了分词和词性标注一体化 未登录词与普通词处理的一体化 评估体系一体化基本思想 采取HMM 隐式马尔可夫模型 建立切分词图 词语粗分阶段 N最短路径法 先得出N个概率最大的切分结果 然后 利用角色标注方法识别未登录词 并计算其概率 将未登录词加入到切分词图中 之后视它为普通词处理 最终进行动态规划优选出N个最大概率切分标注结果 计算所分词系统功能模块图 计算所分词系统程序流程 基于规则的词性标注基本思想 EricBrill 1995 Transformation basederror drivenpartofspeechtagging基本思想 1 正确结果是通过不断修正错误得到的 2 修正错误的过程是有迹可循的 3 让计算机学习修正错误的过程 这个过程可以用转换规则 transformation 形式记录下来 然后用学习得到转换规则进行词性标注 基于规则的词性标注转换规则的形式 转换规则由两部分组成改写规则 rewritingrule 激活环境 triggeringenvironment 一个例子 转换规则T1改写规则 将一个词的词性从动词 v 改为名词 n 激活环境 该词左边第一个紧邻词的词性是量词 q 第二个词的词性是数词 m S0 他 r做 v了 u一 m个 q报告 vS1 他 r做 v了 u一 m个 q报告 n 参考文献 翁富良 王野翊 计算语言学导论 北京 中国社会科学出版社 1998苑春法等 译 统计自然语言处理基础 北京 电子工业出版社 2005冯志伟 计算语言学基础 北京 商务印书馆 2001姚天顺 自然语言理解 北
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- FTA原理VSFID原理在可燃气LEL监测领域的应用
- 小学英语单词释义练习题及答案
- 北京市通州区2025届高三语文一模试题【含答案】
- 注册林业工程师森林培育学题库及解析
- 初级美容师皮肤护理试题及答案
- 大学物理牛顿定律题目及分析
- 普通车工题库及答案
- DB15-T 4169-2025 奶绵羊常规及性控冷冻精液生产技术规程
- 新生儿败血症专项考核试题及答案解析
- 肺炎患者护理试题及答案解析(护理专业必考)
- 2025年广东省高考政治试卷真题(含答案解析)
- 良肢位摆放叙试题及答案
- T/CCMA 0168-2023土方机械电控手柄技术要求及试验方法
- 商业购物中心广告氛围形象管理规范课件分享
- 2025年统计学期末考试题库:时间序列分析核心考点解析
- DG-TJ08-2177-2023建筑工程消防施工质量验收标准
- 2024版股份合资企业运营管理及风险控制合同3篇
- 磷石膏固废资源化利用技术及应用前景
- 【MOOC】声乐教学与舞台实践-江西财经大学 中国大学慕课MOOC答案
- 试卷保密工作流程
- 中药塌渍的护理
评论
0/150
提交评论