词汇语义关系评测PPT课件_第1页
词汇语义关系评测PPT课件_第2页
词汇语义关系评测PPT课件_第3页
词汇语义关系评测PPT课件_第4页
词汇语义关系评测PPT课件_第5页
已阅读5页,还剩10页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、词汇语义关系评测词汇语义关系评测吴云芳吴云芳 万富强万富强 周蜜周蜜北京大学计算语言学研究所北京大学计算语言学研究所2012-12-2纲要纲要1. 任务描述任务描述2. 评测数据的准备评测数据的准备3. 评测数据的标注评测数据的标注4. 参赛系统的结果参赛系统的结果5. 存在问题存在问题6. 进一步工作展望进一步工作展望缘起缘起l词汇语义信息是自然语言处理中很重要的资源,词汇语义信息是自然语言处理中很重要的资源,是进一步进行句法和语义分析的基础是进一步进行句法和语义分析的基础。1. 在在信息检索中的查询扩展、机器翻译中的模信息检索中的查询扩展、机器翻译中的模块识别等方面,相似词都是不可或缺的知

2、识块识别等方面,相似词都是不可或缺的知识资源资源;2. 在在句法分析、词义消歧等信息处理任务中,句法分析、词义消歧等信息处理任务中,词语相似度也发挥着重要的作用词语相似度也发挥着重要的作用。3. 而而相似度词典的手工构建是一项费时费力的相似度词典的手工构建是一项费时费力的浩大工程,存在着不易更新、覆盖度不全等浩大工程,存在着不易更新、覆盖度不全等诸多缺陷诸多缺陷。任务描述任务描述1. 任务一:同义词发现任务一:同义词发现文件文件文书文书 文本文本 文牍文牍 公文公文 文献文献 档案档案 文档文档2. 任务二:下位词发现任务二:下位词发现 算法算法分治分治法法 动态规划法动态规划法 贪心法贪心法

3、 回溯法回溯法同义词词语的选词范围同义词词语的选词范围来源来源类型类型目标词数目标词数QQ 聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词5000Gigaword动词2000Gigaword形容词1000Gigaword成语50人民日报语料组织机构名50人民日报语料地名50维基百科人名50去重之后得到去重之后得到 9464 个同义词词语。个同义词词语。下位词词语的选词范围下位词词语的选词范围来源来源类型类型目标词数目标词数现代汉语语义词典语义类标签44现代汉语词典上位词 (“是一种”模式)61知网语义类标签49人民日报语料上位词 (“一种”模式)412维基

4、百科分词后加筛选规则4327领域同义词库常用的名词150Gigaword名词5000去重之后得到去重之后得到 9354 个上下位词词语。个上下位词词语。评测数据的准备评测数据的准备1. 综合各家结果,求并集;综合各家结果,求并集;2. 对同义词集对同义词集/下位词集结果进行简单的统计:下位词集结果进行简单的统计: 结果数据结果数据.xlsx3. 选取评测的目标同义词;选取评测的目标同义词;4. 人工标注:人工标注: 北京大学中文系语言学专业硕士研究生北京大学中文系语言学专业硕士研究生 同义词集投入了更多的时间同义词集投入了更多的时间同义词目标词的选择同义词目标词的选择来源来源类型类型目标词数目

5、标词数QQ 聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词800Gigaword动词300Gigaword形容词100Gigaword成语140人民日报和维基百科专有名词50去重之后得到去重之后得到 3129个目标词,作为人工标注的对象词语。个目标词,作为人工标注的对象词语。人工标注后,删除没有同义词的目标词,最终得到人工标注后,删除没有同义词的目标词,最终得到778个评个评价词。价词。尽量涵盖不同来源、不同类型的词语。下位词语目标词的选择下位词语目标词的选择来源来源类型类型目标词数目标词数现代汉语语义词典语义类标签44现代汉语词典上位词 (“是一种”模式

6、) 61知网语义类标签49人民日报语料上位词 (“一种”模式)412维基百科等其他名词1100然后再选择下位词数在然后再选择下位词数在2, 99之间的目标词之间的目标词1076个,作为人个,作为人工标注的对象。工标注的对象。人工标注后,删除没有下位词的目标词,最终得到人工标注后,删除没有下位词的目标词,最终得到256个评个评价词。价词。尽量选择有潜在下位词的目标词。参赛系统参赛系统l报名:报名:23个队伍个队伍l参赛:同义词参赛:同义词8队队10组结果组结果 上下位词上下位词4队队5组结果组结果参赛系统的结果参赛系统的结果同义词同义词 宏平均宏平均准确率准确率宏平均宏平均召回率召回率宏平均宏平

7、均F1值值微平均微平均准确率准确率微平均微平均召回率召回率微平均微平均F1值值中科院中科院声学所声学所0.1271 0.1011 0.099 0.4422 0.0644 0.1124 北京理工大学北京理工大学0.1992 0.2464 0.1878 0.2112 0.2306 0.2205 北京交通大学北京交通大学0.2876 0.3406 0.2737 0.3088 0.3753 0.3389华为华为1 0.3639 0.5207 0.3671 0.2754 0.5854 0.3746 华为华为2 0.3300 0.5534 0.3638 0.2615 0.6129 0.3666 华侨大学华

8、侨大学0.0378 0.0105 0.0148 0.2996 0.0115 0.0222 南京师范大学南京师范大学0.3588 0.6075 0.3984 0.3025 0.6386 0.4106 哈尔滨工业大学哈尔滨工业大学0.3230 0.3905 0.2852 0.2303 0.3692 0.2837 郑州大学郑州大学1 0.2971 0.6419 0.3594 0.2530 0.6792 0.3687 郑州大学郑州大学2 0.3252 0.6953 0.3922 0.2541 0.7072 0.3738 参赛系统的结果参赛系统的结果下位词下位词 宏平均宏平均准确率准确率宏平均宏平均召回

9、率召回率宏平均宏平均F1值值微平均微平均准确率准确率微平均微平均召回率召回率微平均微平均F1值值中科院中科院声学所声学所0.2429 0.0872 0.1156 0.7827 0.1221 0.2113 北京理工大学北京理工大学0.3077 0.0886 0.1163 0.6383 0.0896 0.1572 北京交通大学北京交通大学0.6612 0.3776 0.4185 0.7043 0.4642 0.5596 郑州大学郑州大学1 0.5391 0.3318 0.3737 0.6492 0.3518 0.4563 郑州大学郑州大学2 0.6119 0.5988 0.5605 0.6233 0.5045 0.5576 存在问题存在问题1. 自动获取的准确率不高自动获取的准确率不高2. 人工标注的时间花费大人工标注的时间花费大3. 人工标注的难度大:人工标注的难度大: 同义词如何来定义?同义词如何来定义?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论