词汇语义关系评测研讨会.ppt_第1页
词汇语义关系评测研讨会.ppt_第2页
词汇语义关系评测研讨会.ppt_第3页
词汇语义关系评测研讨会.ppt_第4页
词汇语义关系评测研讨会.ppt_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

词汇语义关系评测,吴云芳 万富强 周蜜 北京大学计算语言学研究所 2012-12-2,纲要,任务描述 评测数据的准备 评测数据的标注 参赛系统的结果 存在问题 进一步工作展望,缘起,词汇语义信息是自然语言处理中很重要的资源,是进一步进行句法和语义分析的基础。 在信息检索中的查询扩展、机器翻译中的模块识别等方面,相似词都是不可或缺的知识资源; 在句法分析、词义消歧等信息处理任务中,词语相似度也发挥着重要的作用。 而相似度词典的手工构建是一项费时费力的浩大工程,存在着不易更新、覆盖度不全等诸多缺陷。,任务描述,任务一:同义词发现 文件 文书 文本 文牍 公文 文献 档案 文档 任务二:下位词发现 算法 分治法 动态规划法 贪心法 回溯法,同义词词语的选词范围,去重之后得到 9464 个同义词词语。,下位词词语的选词范围,去重之后得到 9354 个上下位词词语。,评测数据的准备,综合各家结果,求并集; 对同义词集/下位词集结果进行简单的统计: 结果数据.xlsx 选取评测的目标同义词; 人工标注: 北京大学中文系语言学专业硕士研究生 同义词集投入了更多的时间,同义词目标词的选择,去重之后得到 3129个目标词,作为人工标注的对象词语。,人工标注后,删除没有同义词的目标词,最终得到778个评价词。,尽量涵盖不同来源、不同类型的词语。,下位词语目标词的选择,然后再选择下位词数在2, 99之间的目标词1076个,作为人工标注的对象。,人工标注后,删除没有下位词的目标词,最终得到256个评价词。,尽量选择有潜在下位词的目标词。,参赛系统,报名:23个队伍 参赛:同义词8队10组结果 上下位词4队5组结果,参赛系统的结果同义词,参赛系统的结果下位词,存在问题,自动获取的准确率不高 人工标注的时间花费大 人工标注的难度大: 同义词如何来定义? 标注的一致性如何来把握?,进一步工作展望,同义词是非常重要的基础资源 各位老师同学都有较大的兴趣和爱好 是否有可能联合构建大规模的同义词资源?,谢 谢!,中文同义词自动抽取研究,南京师范大学计算机学院 自然语言处理小组 曹冉 孙玉霞 狄颖 指导老师: 曲维光 周俊生,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,同义词词林(扩展版),在同义词词林(扩展版)中,编码末尾为 = 的词语集合表示的是同一个语义。 因此,目标词的同义词即为包含目标词的编码末尾为 = 的词语集合。,目标词 “规则”对应的同义词集合:,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,中文概念词典 CCD,CCD中使用Synset字段来描述概念。 但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。 一个词语也可能出现在多个Synset中 。,如目标词“爱好”:,基于中文概念词典,本文提出基于典型同义词的过滤方法。 基本思想: 在包含目标词的Synset中统计出典型同义词。 使用典型同义词按照一定规则在Synset中过滤出同义词。,典型同义词统计方法,典型同义词统计方法,基于典型同义词的过滤算法,最终“爱好”的同义词为 嗜好,喜好,业余爱好, 偏好,偏爱,偏袒, 喜欢 。,基于语义词典-实验结果,基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。 基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。 基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,基于模式匹配方法-基本思想,在互联网上抓取目标词的百度百科词条 在百科词条概述中,利用人工提取的“目标词+模式词+候选同义词”模式取得高质量同义词。 利用高质量同义词在百科全文中获取限定语料,自动提取出上下文环境模式。 利用目标词和上下文环境模式提取同义词。,基于模式匹配的方法,人工模式提取 基于770个词条百科,手动进行模式提取,这里的模式是指同义词提示词。,基于模式匹配的方法,自动模式获取 基于百科全文获取包含同义词词对的句子。在获得的句子集合上,提取左右词语列表、左三元组列表,并根据获得的列表进行同义词穷尽自动抽取。如下表所示:,基于模式匹配的方法-规则过滤,由于网络资源存在不规范性,需要对获取到的同义词进行筛选。 筛选方法: 首先对获取到的同义词进行分词, 然后使用如下规则进行筛选: 规则1 若候选同义词是一个完整的分词结果,同义词有效。 规则2 若候选同义词分词结果中包含 共和国,市,州,镇,县,郡,帝国 中任一后缀,同义词有效。 规则3 若候选同义词分词结果是两个字数词性一致的词语,同义词有效。 规则4 若候选同义词分词结果包含目标词语,同义词无效。 上述四个规则,优先度依次递减。,基于模式匹配的方法-实验结果,对于给定的9455个目标词,其中有8268个词语能够获取到对应的词条百科。 基于词条概述能够获取到同义词的有815个目标词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,基于并列结构的方法-基本思想,并列结构包含的两个词语一般有共同的形态,语义相似或相关,中间使用 “和,或,逗号,顿号”等并列连词进行连接。 假设并列结构包含的两个词语中一个是目标词,则另一个可以作为该目标词的候选同义词。 采用基于词素和知网的方法进行过滤,提高同义词抽取的正确性。,“责任感”与“责任心” “责任感”与“事业心”则不是。相同数为0。 文档 - 文件 - 档案 - 案例,基于并列结构的方法,基于并列结构的方法,基于并列结构的方法-实验结果,对于给定的9455个目标词,其中有2026个能够通过并列结构的方法获取到对应的同义词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,同义词传递性扩充,对于获取到的同义词,可能有交叉现象。 例如: 然而并不是所有含有相同同义词的两个目标词都应该合并。 例如:,传递性验证规则,测评结果,谢谢!,刘江鸣 徐金安 吴培昊 张玉洁 北京交通大学自然语言处理小组,基于网络资源的词语语义关系自动抽取,基于网络资源的词语语义关系自动抽取,Page 44,面临的问题,流行词汇、网络用语等新词不断涌现 一词多义,老词新义 歧义性,Page 45,传统方法,统计方法 模板方法 知识库,Page 46,同义关系自动识别,模板匹配 词集处理 相关词条 超链词汇,Page 47,模板匹配,模板1: A(简称|简称为|中文简称|又称|又称为|亦称|亦叫|亦作|又 叫|也称|也称为|俗称|又译|又译作|全称为|全称是) 左引号|冒号B右引号 例如:杠杆原理: 亦称“杠杆平衡条件”,模板2: A是|即B(的简称|的全称|的对称|的缩写) 例如:马哲: 是马克思主义哲学的简称,Page 48,模板匹配,模板3: A:|【 】|: B 例如:何首乌:中文别名: 首乌、夜交藤、赤首乌、铁秤砣,模板4: A(和)B(是同义词) 例如:万维网和www是同义词,已合并,Page 49,词集处理,A的关键词集,B的关键词集,B词描述,A词描述,B引用A,A引用B,Page 50,同义关系,网络资源,模板库,词描述,关键词集,同义关系,搜索队列,Crawler,词集处理,模板匹配,Page 51,上下位关系自动识别,开放分类 词汇细化 领域分类 模板匹配,Page 52,开放分类,百度百科 直接上位词 间接上位词,Page 53,词汇细化,词语的构成 例如 勋章、大紫荊勳章、铜十字英勇勋章,Page 54,领域分类,不同领域专业术语 生物领域、军事机械等,Page 55,模板匹配,WordNet IS-A结构 词信息的获取 区分冗余信息 词典,Page 56,模板匹配,IS-A结构定义 词典 例如 由于石油是一种不可再生原料,? 阅读是一种信仰 ? 思念是一种病,Page 57

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论