




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4讲词法分析 2 词性标注 pos tagging 词性标注探讨内容 问题1 词性标注是什么意思 问题2 为什么要词性标注 问题3 用何算法来实现词性标注 1词性标注的定义及研究 为什么要词性标注 汉语由于缺乏语法形态变化 词的应用非常灵活 词类兼类现象特别多 也特别复杂因此需要做词性标注 为什么要词性标注 自然语言中普遍存在词类兼类现象词类兼类 一个词可做多个词性的现象 例1 他是总编辑 名词 他正在编辑这本书 动词 例2 大家对工资问题都比较关心 副词 比较这两支笔 蓝色要长些 动词 例3 我发现过马路是不可能的 动词 我看过这篇小说 助词 正因为存在词类兼类的问题 所以在对词切分时必然要注明词的词性 于是就出现了 词性标注 一词多类现象 Timeflieslikeanarrow Time n v aflies v nlike p van detarrow n把这篇报道编辑一下把 q p v n这 r篇 q报道 v n编辑 v n一 m c下 f q v 词的兼类现象 词的兼类现象 兼类词在实际语料中分布实例 英语词的兼类现象 数据来源brown语料库 词性标注的定义 即判定给定句子中每个词的语法范畴 确定其词性并加以标注的过程 词性标注歧义 如果词w存在两个或两个以上的词性 则词w具有词性标注歧义 汉语词性标注集 北京大学 人民日报 语料库标记集北大计算语言学研究所俞士汶教授主持的北京大学语料库 北大 富士通 人民日报社共同开发100万字切分及词性 注音标注完整的词语切分和词性标注信息 例 汉语词性标注集 清华大学 汉语树库 词性表记集语用所 信息处理用现代汉语词类及词性标记集规范 宾州树库规范计算所词性标记集 V3 0 演示 词性标注的研究 词性标注是一个比较活跃的研究领域 应用广泛 如 口语识别与生成 机器翻译 信息检索和词典编撰等 词性标注上取得的进展对词汇和结构歧义消歧都将起到很大的作用 词性标注的国内外研究进展 60年代美国TAGGIT系统采用86种词类标记 利用3300条上下文框架规则对现代美国英语的布朗语料进行词类自动标注 正确率达77 1993年提出LOB语料库的标注算法CLAWS 将概率统计模型用于词类的自动标注 正确率达97 词性标注的国内外研究进展 以后DeRose又在CLAWS基础上提出了VOLSUNGA算法 使得英语语料库词类的自动标注趋于实用 词性标注在国内的研究 应用CLAWS算法和VOLSUNGA算法机及其变形算法对汉语语料库进行词类自动标注 准确率达90 词性标注方法回顾 2词性标注的研究方法 词性标注的研究方法 基于规则方法进行标注首先用词典对语料库进行静态标注 然后利用规则消除歧义 如TAGGIT标注系统统计方法进行标注先对部分进行手工标注 然后对新的语料使用统计方法进行自动标注 如CLAWS VOLSUNGA系统规则与统计方法结合进行标注基于转换的错误驱动学习该方法可达98 准确率 词性标注算法 基于规则的方法 原理 利用事先制定好的规则对具有多个词性的词进行消歧 最后保留一个正确的词性 步骤 1对词性歧义建立单独的标注规则库 2标注时 查词典 如果某个词具有多个词性 则查找规则库 对具有相同模式的歧义进行排歧 否则保留 3程序和规则库是独立的两个部分 举例 一把青菜 量词 我把书放在冰箱上 动词 要求 要对这两句话进行切分并标注词性 实现步骤 1已建词典中有 把v l2已建规则库中有 规则1 如果当前词的前相邻词的词性为s 则该词的词性为l如果当前词的前相邻词的词性为n 则该词的词性为v3算法 用MM方法来切分句子 边切边标注词性 词性标注时 当切分到 把 时 有两个词性 怎么办 到规则库中去寻找相同模式的规则 如这里的规则1恰好满足 所以这里的 把 取q词性 规则方法词性标注例1 v a If LeftNeihour yx 很 太 最 极 非常 挺 怪 至 这么 那么 十分 特别 thenaIf LeftNeibour ccat q RightNeibour ccat nthenaIf LeftNeibour ccat v RightNeibour ccat u nthena规则解释 任何词性为形容词和动词的词 如果这个词的左相邻词为副词 很 太 最 极 非常 挺 怪 至 这么 那么 十分 特别 则这个词应该形容词如果这个词的左相邻词为量词 右相邻词为名词 则这个词为形容词如果这个词的左相邻词为动词 右相邻词为助词或名词 则这个词为形容词 规则方法词性标注例2 句子1 切分后 一把青菜 一 把 青菜 词性标注后 一 把 青菜 一 s把 l青菜 n 句子2 切分后 我把书放在冰箱上 我 把 书 放 在 冰箱 上 词性标注后 我 把 书 放 在 冰箱 上 我 n把 v书 n放 v在 v冰箱 n上 f 程序演示 切分标注例 基于统计的词性标注方法 语言模型 languagemodel 语言模型在NLP中占有重要的地位 语言模型在语音识别 机器翻译 句法分析 短语识别 词性标注 手写体识别和拼音纠错等相关研究中得到了广泛应用 目前主要采用的是n元语法模型 n grammodel 这种模型构建简单 直接 但同时也因为数据缺乏而必须采取平滑 smoothing 算法 语言模型 languagemodel 广义说 语言模型可以用来模拟语言生成和处理的任何技术方法 语言与信息量语言的功能是在人与人之间实现信息传输 信息传输中信息量是一个十分重要的指标 如何衡量一个句子包含了多少信息 一个语言句子的信息衡量 假定一个句子s w1w2 wn 或者说某个字符流消息 则其信息量可以用熵来表示 H p w1 w2 wn logp w1 w2 wn 这说明一个词串s w1w2 wn的信息量是由组成该词串的各个单词w1 w2 wn的联合概率p w1 w2 wn 即p s 来决定 概率的大小反映了这个词串在该语言中的使用情况 大的概率表明该词串经常一起使用 小的概率表明该词串不常在一起使用 例 在口语语言模型中 如果一个人所说的话中每100个句子大约有依据是Okay 则认为p Okay 0 01而句子 猫把人打到了 可以几乎认为概率为0 n元语法模型 我们知道 现在我们需要的是计算句子s的概率p s 即p w1 w2 wn 依据乘法概率公式 通过公式知道 某个词如w3 它出现的概率是由它前面的2个词w1 w2来决定的 也即词wi的出现概率是由它的前i 1个词w1 w2 wi 1来决定的 n元语法模型 假定L为词汇集的大小 如果历史长度为i 1 则有Li 1种不同的历史 这样就必须考虑在所有Li 1种不同的历史情况下 产生第i个词的概率 假设L 5000 i 3 模型中需要考虑1250亿种不同情况下的概率 事实上绝大多数历史根本不可能在训练数据中出现 为此 可以通过划分等价类的方法降低历史的数目等价划分降低参数后的语言模型称为n元语法或n元文法 n gram 通常n不会太大 否则等价类太多 无法具体实现 n元语法模型 一般比较常见的有一元语法 二元语法和三元语法n 1 一元语法unigram wi的出现独立于历史n 2 二元语法bigram wi的出现决定于wi 1n 3 三元语法tri gram wi的出现决定于wi 1 wi 2 n元语法模型 统计预测 在已知前面若干词的基础上预测下一个词可能是什么 假设 某一个词出现的概率只依赖它之前出现的i 1个单词 这个假设为马尔可夫假设满足这个假设的模型称为i 1阶马尔科夫模型 这个模型在语言模型中称为i元模型 n元语法模型 例 我吃了一个红 词红后面可能是什么词呢 n元语法模型 i元模型中 如果最后一个词出现的概率与前面的单词无关 称为1元模型 即单词是独立的 如果最后一个词出现的概率依赖前一个词 称为二元模型 如果最后一个词出现的概率依赖前面的2个词 称为3元模型 n元语法模型 例 以2元语法模型 2 grammodel 为例 其中 这里 N wi 1wi 表示二元语法wi 1wi在给定文本中的出现次数 n元语法模型 例 假设训练语料由下面3个句子构成 Brownreadholybible Markreadatextbook HereadabookbyDavid 下面计算p Brownreadabook n元语法模型 例 为了使得p wi wi 1 对i 1有意义 一般在句子开头加上一个句首标记 句子结尾加上一个句尾标记 数据平滑 datasmoothing 考虑计算句子 Davidreadabook 的概率 即p Davidreadabook 0 这个结果不够准确 虽然有稀疏的问题 但概率应该大于0 平滑技术就是用来解决0概率问题 其基本思想是 劫富济贫 提高低概率 降低高概率 尽量使得概率分布趋于均匀 数据平滑 datasmoothing 使用简单的Laplace法则来处理其中 V 是词汇表单词的个数下面利用数据平滑后 计算 p Davidreadabook p Brownreadabook 结果相对更加合理 基于统计的词性标注方法 基于统计的词性标注方法 利用统计方法来选择最终的标记方法CLAWS算法VOLSUNGA算法 词性标注模型 令W w1w2 wn是由n个词组成的词串 T t1t2 tn是词串W对应的标注串 其中tk是wk的词性标注根据HMM模型 即计算使得条件概率p T W 值最大的那个T T argmaxp T W T 词性标注模型 根据贝叶斯公式 p T W p T p W T p W 由于词串不变 p W 不影响总的概率值 因此继续简化为 p T W p T p W T 其中 p T p t1 t0 p t2 t1 t0 p ti ti 1 根据一阶HMM独立性假设 可得 p T p t1 t0 p t2 t1 p ti ti 1 P ti ti 1 训练语料中ti出现在ti 1之后的次数 训练语料中ti 1出现的总次数 词性标注模型 根据贝叶斯公式 p W T p w1 t1 p w2 t2 t1 p wi ti ti 1 t1 根据一阶HMM独立性假设 可得 p W T p w1 t1 p w2 t2 p wi ti P wi ti 训练语料中wi的词性被标记为ti的次数 训练语料中ti出现的总次数 CLAWS算法 一个句子由N个词组成 这N个词 首先查词典 标上所有可能的词类 N个相邻的词每一种词类的排列叫做一条路径 path 求出具有最大似然估计值的那条路径 即最佳路径最佳路径上所对应的标注为这N个词的标注例 一把青菜snnvl CLAWS算法 讲解一把青菜的CLAWS标注方法路径1 s n n 的概率路径2 s v n 的概率路径3 s l n 的概率取概率最大的那条路径为结果 VOLSUNGA算法 对CLAWS算法进行改进后得到CLAWS算法中最佳路径的定义为N个可能的排列中概率乘积最大的那条路径VOLSUNGA算法从左往右 对于当前考虑的词 只保留通往该词的每个词类的最佳路径 然后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品品质检验及优化方案框架
- (正式版)DB15∕T 3207.2-2023 《秋播大葱生产技术规程 第2部分:栽培》
- 居家养老服务保障承诺函(5篇)
- 机械基础 第2版 习题答案
- 采购与供应商信息管理及操作指引平台
- 宋代词牌赏析:大三语文辅导教案
- 客户关系管理策略与案例分析模板
- 质量控制流程及检测记录模板
- 守秘责任下知识产权保护承诺书(8篇)
- 医疗安全培训教学课件
- 视网膜中央动脉阻塞的急救和护理
- 国际金融学 第一章 国际收支 南京大学商学院
- HY/T 087-2005近岸海洋生态健康评价指南
- GB/T 5563-2013橡胶和塑料软管及软管组合件静液压试验方法
- GB/T 3600-2000肥料中氨态氮含量的测定甲醛法
- GB 2715-2005粮食卫生标准
- OA流程表单案例
- 医师多点执业注册申请表
- 《边坡稳定性分析》课件
- 刮板输送机-课件
- 深信服防火墙技术方案
评论
0/150
提交评论