




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
张华平 刘 群 中科院计算技术研究所 2002-5-28 2 纲要 问题 背景与难点分析 主要研究方法与相关系统 我们的研究思路基于多层HMM的一体 化方法 基于N-最短路径的词语 粗分 基于角色标注的未登录词识别 计算所中文词语 一体化分析系统 ICTCLAS 结论 3 问题背景与难点分析 问题背景 v汉语的书面语是按句分开的,词与词之间没有 明确的分隔标记。 v词是最小的能够独立活动的有意义的语言成分 。 v中文信息处理只要涉及句法、语义(如检索、 翻译、文摘、校对等应用),就需要以词为基本 单位。句法分析、语句理解、自动文摘、自动 分类和机器翻译等,更是少不了词的详细信息 。 4 问题背景与难点分析 II 分词的必要性 物 理 学 physics products price image body theory barber science understand reason school study credit student subject 物理学 physics physicist evidence 6 5 5 = 150 : 2 5 问题背景与难点分析 III 中文词语分析的主要难点 歧义 交叉歧义(86%): 结合成分子时 组合歧义(14%): 这个人手上有痣; 我们缺人手 全局歧义与局部歧义: 乒乓球拍/卖/完了; 乒乓球/拍卖/完了; 我很/难过 6 问题背景与难点分析 IV 未登录词问题 干扰作用 克林顿对内塔尼亚胡说 龚学平等领导 最终识别 多样性 复杂性 上下文干扰 7 主要研究方法与相关系统 当前主要的研究方法 基于规则的方法 最大匹配法(Maximum Matching)正向、逆向 、双向 最优路径(+词频选择)法(最少分词法) 基于统计的方法 (N元语法,HMM) 基于规则和基于统计相结合 其他的一些方法 (压缩,自监督,基于转移的错误 驱动方法等) 8 主要研究方法与相关系统II 当前主要的中文词语分析系统 哈工大统计分词系统 自动化所三元统计模型 清华大学SEGTAG系统 词典中的每一个重要的词都加上了切分标志 无条件切出qk类词;完全切分ck类词;其他无交 叉歧义的切之,否则全切分。 “动态规划“和“全切分搜索+叶子评价“ 9 主要研究方法与相关系统III Microsoft Research多国语言处理平台NLPWin 中的中文词语分析词系统 双向的Chart Parsing,使用了语法规则并以概率模 型作导向 切词-句法分析一体化 北大计算语言所分词和词类标注系统 分词和词类标注结合起来 基于规则的标注排歧与基于语料库统计模型的排歧 结合 处理过程包括了自动切分和初始词性标记、切分歧 义字段识别、组词和标注预处理、词性标记排歧、 切分和词性标注后处理 10 主要研究方法与相关系统IV 现有方法的一些潜在不足(待探讨): 规则与统计的结合,更大意义上是一种组合,两种处理 出现在系统中相对独立的两个不同阶段。 排歧、识别未登录词更多的是利用规则,难以量化。即 使量化,也很难和普通词实现真正量值上的比较。 歧义字段、未登录词作为特殊情况处理,后期处理中没 有与普通词统一。 没有相对统一的处理模型和评估体系。 最终导致:准确率、召回率在开放测试的条件下并不像宣 称的那样理想,尤其是在未登录词、歧义字段存在的情 况里。 11 我们的研究思路 基于多层HMM的一体化方法 目标: 分词、词性标注的一体化;未登录词与普通词处理的 一体化;评估体系一体化。 基本思想: 采取HMM模型,建立切分词图。词语粗分阶段,先得出N 个概率最大的切分结果。然后,利用角色标注方法识别未登 录词,并计算其概率,将未登录词加入到切分词图中,之后 视它为普通词处理,最终进行动态规划优选出N个最大概率 切分标注结果。 12 基于多层HMM的一体化方法II 利用噪声-信道模型,建立目标评估函数 其中 C:原始字串;W:切分的词串;T:词性标注序列 P(C|W)=1P(CW)=P(W) P(W,T)|C)=P(T|CW)P(W|C)=P(T|W)P(W|C) =P(T)P(W|T)/P(W) P(W)/P(C) = P(T)P(W|T)/P(C) (字串C出现的概率P(C)为一常数,不影响结果,可以忽略) (W,T)*= .(0) 13 基于多层HMM的一体化方法III 利用隐马模型展开P(T)P(W|T),并引入共现概率 P(W,T)|C) =P(ti|ti-1)P(wi|ti).(1) P*(W,T)=lnP(W,T) =ln P(wi|ti) = ln P(ti|ti-1) + ln P(wi|ti) .(2) 评价函数或者决策函数如下: (W,T)*= ln P(ti|ti-1) + ln P(wi|ti) 14 基于多层HMM的一体化方法IV 一体化需要解决的主要问题 排歧问题 未登录词的概率问题P(wi|ti) P(张华平|nr)? P(奥斯特罗夫斯基|nr)? P(大石头村|ns)? 15 基于N-最短路径的词语粗分 基本思想 根据词典,建立字串词语切分有向无环图。 每个词对应图中的一条有向边,并赋给相应的边 长(权值)。然后针对该切分图,在起点到终点 的所有路径中,求出长度值按严格升序排列(任 何两个不同位置上的值一定不等,下同)依次为 第1, 第2,第i,第N的路径集合作为 相应的粗分结果集。如果两条或两条以上路径长 度相等,那么他们的长度并列第i,都要列入粗 分结果集,而且不影响其他路径的排列序号,最 后的粗分结果集合大小大于或等于N。 16 基于N-最短路径的词语粗分II 出发点 实际上是最短路径方法和全切分的有机结合 。一方面避免了最短路径分词方法大量舍弃 正确结果的可能,另一方面又大大解决了全 切分搜索空间过大,运行效率差的弊端。 “求同存异,保留争端”。即:解决在切词 阶段能解决的大部分问题;而对歧义、未登 录词等问题尽量保留下来,留给后续过程处 理。 统计与非统计方法 17 基于N-最短路径的词语粗分III 测试结果 说明: 统计N-最短 路径 句子总数为 : 185,192 N 句子召回率 193.50% 298.42% 399.26% 499.61% 599.76% 699.83% 899.89% 1099.94% 18 基于N-最短路径的词语粗分IV -对比测试实验召回率/结果数 19 基于角色标注的未登录词识别 现有未登录词识别方法的不足 大部分只针对切分碎片进行识别。 “单点激活”: 必须遇到具明显特征的上下文或 者未登录词用字时,才会触发未登录词的识别过 程。 对识别出来的很难给出实际意义上的概率值 歧义排除乏力 吕梁的特点是贫困人口占全省的左右。 格威特等高水准的竞争对手也是促使李宁牌不断创新突 破的一个诱因 周鹏和同学 20 未登录词识别II 基于角色的未登录词识别方法 采用Viterbi算法,确定句子概率最大的角色序 列,在角色序列的基础上,进行模式匹配。 未登录词的角色 内部组成:首部、中部、尾部、内部成词 上下文 上下文与内部组成交叉成词 句子中其他成分 21 未登录词识别 III 编码编码意义义例子 B姓氏张华平先生;欧阳修 C双名的首字张华平先生 G后缀王总、刘老、肖氏 K人名的上文又来到于洪洋的家。 U人名的上文和姓成词现任主席为何鲁丽 Y姓与单名成词高峰、汪洋 Z双名本身成词 张朝阳 A以上之外其他的角色 全军 和 武警 官兵 汉族人名的角色表(示例,有省略) 22 未登录词识别 IV 具体实现 R# 角色标注过程类似于词性标注,也是一层 HMM 示例: 馆内陈列周恩来和邓颖超生前使用过的物品 馆/内/陈列/周/恩/来/和/邓/颖/超生/前/使用/过/ 的/物品/ 馆/A内/A 陈列/K周/B恩/C来/D和/M邓/B颖/C超生/V 前/A使用/A过/A的/A物品/A V需要拆分,最终匹配人名模板,得到“周恩来”“ 邓颖超” 23 未登录词识别 V 未登录词概率的计算 P(wi|ti) wi= c1 c2 cn 角色序列 Ri= r1 r2 rn P(wi|ti)=P(wi|Ri) P(ti|Ri) = P(ti|Ri) P(ti|Ri)可以由语料统计得到;例如单姓+单 名生成姓名的概率等于单姓单名除以总 的人名数目;其结果大约为12% 24 未登录词识别 VI 汉族人名测试结果 类别封闭测试 语料1 封闭测试语 料2 开放测试语 料 来源98年1月2月1日-20日2月20日-28日 语料库大小8,621K6,185K2,605K 实际人名数1372275343149 识别出的人名数17167106464130 正确数1337674892886 准确率77.92%70.35%69.88% 召回率97.48%99.29%91.65% F值 86.61%82.35%79.30% 25 计算所中文词语一体化分析系 统ICTCLAS Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) 设计的基本原则 一体化 结果不唯一 “当断则断,不留后患” “求同存异,保留争端” 26 ICTCLAS系统处理流程 语料 库 原始字串 切分词图 概率词典 识别词 典 语料库 训练 粗切分 未登录 词识别 切分标注 选择N优 输出结果 原子切分 27 ICTCLAS功能模块 ICTCLAS N-最短路径切分 (概率统计) 未登录词 识别 隐马标注 人名地名译名其他 结果生成 重叠词规范其他 28 ICTCLAS初评结果 评测语料库为人民日报1998年1月1 日-1月15日(12000行)的新闻语料 总共词数:601646 切分正确率(按词统 计)98.38%;按句子统计93.15% 一级标注正确率(按词统计):97.16% ;按句子统计78.44% 29 结论 汉语词语分析是中文信息处理的基础,无论是理论 上,还是实际应用上都极其重要。 其难点主要在于 排歧和未登录词的识别。 目前常用的研究方法及
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水表基础知识培训总结课件
- 混凝土施工中水泥质量控制方案
- 水管管件基础知识培训课件
- 输电线路传输能力评估方案
- 建筑施工现场的健康安全检查与监督方案
- 鸡舍清洁与消毒技术
- 水的基本知识培训内容课件
- 二零二五顶账城市核心区住宅买卖合同协议
- 二零二五年软件系统集成与维护合同详细实施条款
- 2025版电力系统电料研发、生产与销售合同
- 疲劳恢复物理手段-洞察及研究
- 2025至2030年中国PA10T行业市场竞争态势及未来前景分析报告
- CJ/T 328-2010球墨铸铁复合树脂水箅
- 人教版(2024)七年级下册英语期末复习:主题阅读理解 刷题练习题20篇(含答案解析)
- 运营管理核心知识点
- 2025至2030年中国程控线路板市场分析及竞争策略研究报告
- 设计院管理规章制度手册及实施指南
- 电力工程施工安全风险管理措施
- 新课标解读丨《义务教育道德与法治课程标准(2022年版)》解读课件
- 三防培训课件
- 舆论学复习测试卷附答案
评论
0/150
提交评论