中文词语分析一体化系统.ppt

上传人：B*** IP属地：四川上传时间：2019-01-15 格式：PPT 页数：30 大小：566.31KB 积分：15 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

张华平刘群中科院计算技术研究所 2002-5-28 2 纲要问题背景与难点分析主要研究方法与相关系统我们的研究思路基于多层HMM的一体化方法基于N-最短路径的词语粗分基于角色标注的未登录词识别计算所中文词语一体化分析系统 ICTCLAS 结论 3 问题背景与难点分析问题背景 v汉语的书面语是按句分开的,词与词之间没有明确的分隔标记。 v词是最小的能够独立活动的有意义的语言成分。 v中文信息处理只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位。句法分析、语句理解、自动文摘、自动分类和机器翻译等，更是少不了词的详细信息。 4 问题背景与难点分析 II 分词的必要性物理学 physics products price image body theory barber science understand reason school study credit student subject 物理学 physics physicist evidence 6 5 5 = 150 : 2 5 问题背景与难点分析 III 中文词语分析的主要难点歧义交叉歧义(86%): 结合成分子时组合歧义(14%): 这个人手上有痣；我们缺人手全局歧义与局部歧义: 乒乓球拍/卖/完了；乒乓球/拍卖/完了；我很/难过 6 问题背景与难点分析 IV 未登录词问题干扰作用克林顿对内塔尼亚胡说龚学平等领导最终识别多样性复杂性上下文干扰 7 主要研究方法与相关系统当前主要的研究方法基于规则的方法最大匹配法（Maximum Matching）正向、逆向、双向最优路径（+词频选择）法（最少分词法）基于统计的方法 (N元语法，HMM) 基于规则和基于统计相结合其他的一些方法 (压缩，自监督，基于转移的错误驱动方法等) 8 主要研究方法与相关系统II 当前主要的中文词语分析系统哈工大统计分词系统自动化所三元统计模型清华大学SEGTAG系统词典中的每一个重要的词都加上了切分标志无条件切出qk类词；完全切分ck类词；其他无交叉歧义的切之，否则全切分。 “动态规划“和“全切分搜索+叶子评价“ 9 主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin 中的中文词语分析词系统双向的Chart Parsing，使用了语法规则并以概率模型作导向切词-句法分析一体化北大计算语言所分词和词类标注系统分词和词类标注结合起来基于规则的标注排歧与基于语料库统计模型的排歧结合处理过程包括了自动切分和初始词性标记、切分歧义字段识别、组词和标注预处理、词性标记排歧、切分和词性标注后处理 10 主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨)：规则与统计的结合，更大意义上是一种组合，两种处理出现在系统中相对独立的两个不同阶段。排歧、识别未登录词更多的是利用规则，难以量化。即使量化，也很难和普通词实现真正量值上的比较。歧义字段、未登录词作为特殊情况处理，后期处理中没有与普通词统一。没有相对统一的处理模型和评估体系。最终导致：准确率、召回率在开放测试的条件下并不像宣称的那样理想，尤其是在未登录词、歧义字段存在的情况里。 11 我们的研究思路基于多层HMM的一体化方法目标：分词、词性标注的一体化；未登录词与普通词处理的一体化；评估体系一体化。基本思想：采取HMM模型，建立切分词图。词语粗分阶段，先得出N 个概率最大的切分结果。然后，利用角色标注方法识别未登录词，并计算其概率，将未登录词加入到切分词图中，之后视它为普通词处理，最终进行动态规划优选出N个最大概率切分标注结果。 12 基于多层HMM的一体化方法II 利用噪声-信道模型,建立目标评估函数其中 C:原始字串；W:切分的词串；T:词性标注序列 P(C|W)=1P(CW)=P(W) P(W,T)|C)=P(T|CW)P(W|C)=P(T|W)P(W|C) =P(T)P(W|T)/P(W) P(W)/P(C) = P(T)P(W|T)/P(C) (字串C出现的概率P(C)为一常数,不影响结果，可以忽略) (W,T)*= .(0) 13 基于多层HMM的一体化方法III 利用隐马模型展开P(T)P(W|T),并引入共现概率 P(W,T)|C) =P(ti|ti-1)P(wi|ti).(1) P*(W,T)=lnP(W,T) =ln P(wi|ti) = ln P(ti|ti-1) + ln P(wi|ti) .(2) 评价函数或者决策函数如下： (W,T)*= ln P(ti|ti-1) + ln P(wi|ti) 14 基于多层HMM的一体化方法IV 一体化需要解决的主要问题排歧问题未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)? 15 基于N-最短路径的词语粗分基本思想根据词典，建立字串词语切分有向无环图。每个词对应图中的一条有向边，并赋给相应的边长（权值）。然后针对该切分图，在起点到终点的所有路径中，求出长度值按严格升序排列（任何两个不同位置上的值一定不等，下同）依次为第1，第2，第i，第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等，那么他们的长度并列第i，都要列入粗分结果集，而且不影响其他路径的排列序号，最后的粗分结果集合大小大于或等于N。 16 基于N-最短路径的词语粗分II 出发点实际上是最短路径方法和全切分的有机结合。一方面避免了最短路径分词方法大量舍弃正确结果的可能，另一方面又大大解决了全切分搜索空间过大，运行效率差的弊端。 “求同存异，保留争端”。即：解决在切词阶段能解决的大部分问题；而对歧义、未登录词等问题尽量保留下来，留给后续过程处理。统计与非统计方法 17 基于N-最短路径的词语粗分III 测试结果说明：统计N-最短路径句子总数为： 185,192 N 句子召回率 193.50% 298.42% 399.26% 499.61% 599.76% 699.83% 899.89% 1099.94% 18 基于N-最短路径的词语粗分IV -对比测试实验召回率/结果数 19 基于角色标注的未登录词识别现有未登录词识别方法的不足大部分只针对切分碎片进行识别。 “单点激活”：必须遇到具明显特征的上下文或者未登录词用字时，才会触发未登录词的识别过程。对识别出来的很难给出实际意义上的概率值歧义排除乏力吕梁的特点是贫困人口占全省的左右。格威特等高水准的竞争对手也是促使李宁牌不断创新突破的一个诱因周鹏和同学 20 未登录词识别II 基于角色的未登录词识别方法采用Viterbi算法，确定句子概率最大的角色序列，在角色序列的基础上，进行模式匹配。未登录词的角色内部组成：首部、中部、尾部、内部成词上下文上下文与内部组成交叉成词句子中其他成分 21 未登录词识别 III 编码编码意义义例子 B姓氏张华平先生；欧阳修 C双名的首字张华平先生 G后缀王总、刘老、肖氏 K人名的上文又来到于洪洋的家。 U人名的上文和姓成词现任主席为何鲁丽 Y姓与单名成词高峰、汪洋 Z双名本身成词张朝阳 A以上之外其他的角色全军和武警官兵汉族人名的角色表（示例，有省略） 22 未登录词识别 IV 具体实现 R# 角色标注过程类似于词性标注，也是一层 HMM 示例：馆内陈列周恩来和邓颖超生前使用过的物品馆/内/陈列/周/恩/来/和/邓/颖/超生/前/使用/过/ 的/物品/ 馆/A内/A 陈列/K周/B恩/C来/D和/M邓/B颖/C超生/V 前/A使用/A过/A的/A物品/A V需要拆分，最终匹配人名模板，得到“周恩来”“ 邓颖超” 23 未登录词识别 V 未登录词概率的计算 P(wi|ti) wi= c1 c2 cn 角色序列 Ri= r1 r2 rn P(wi|ti)=P(wi|Ri) P(ti|Ri) = P(ti|Ri) P(ti|Ri)可以由语料统计得到；例如单姓+单名生成姓名的概率等于单姓单名除以总的人名数目；其结果大约为12% 24 未登录词识别 VI 汉族人名测试结果类别封闭测试语料1 封闭测试语料2 开放测试语料来源98年1月2月1日-20日2月20日-28日语料库大小8,621K6,185K2,605K 实际人名数1372275343149 识别出的人名数17167106464130 正确数1337674892886 准确率77.92%70.35%69.88% 召回率97.48%99.29%91.65% F值 86.61%82.35%79.30% 25 计算所中文词语一体化分析系统ICTCLAS Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) 设计的基本原则一体化结果不唯一 “当断则断，不留后患” “求同存异，保留争端” 26 ICTCLAS系统处理流程语料库原始字串切分词图概率词典识别词典语料库训练粗切分未登录词识别切分标注选择N优输出结果原子切分 27 ICTCLAS功能模块 ICTCLAS N-最短路径切分（概率统计）未登录词识别隐马标注人名地名译名其他结果生成重叠词规范其他 28 ICTCLAS初评结果评测语料库为人民日报1998年1月1 日-1月15日（12000行）的新闻语料总共词数：601646 切分正确率（按词统计）98.38%；按句子统计93.15% 一级标注正确率（按词统计）：97.16% ；按句子统计78.44% 29 结论汉语词语分析是中文信息处理的基础，无论是理论上，还是实际应用上都极其重要。其难点主要在于排歧和未登录词的识别。目前常用的研究方法及

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

中文词语分析一体化系统.ppt

文档简介

温馨提示

最新文档

评论

中文词语分析一体化系统.ppt

文档简介

温馨提示

最新文档

评论

相关文档