词汇语义关系评测研讨会_第1页
词汇语义关系评测研讨会_第2页
词汇语义关系评测研讨会_第3页
词汇语义关系评测研讨会_第4页
词汇语义关系评测研讨会_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

词汇语义关系评测吴云芳万富强周蜜北京大学计算语言学研究所wuyf@2012-12-2纲要任务描述评测数据的准备评测数据的标注参赛系统的结果存在问题进一步工作展望缘起词汇语义信息是自然语言处理中很重要的资源,是进一步进行句法和语义分析的基础。在信息检索中的查询扩展、机器翻译中的模块识别等方面,相似词都是不可或缺的知识资源;在句法分析、词义消歧等信息处理任务中,词语相似度也发挥着重要的作用。而相似度词典的手工构建是一项费时费力的浩大工程,存在着不易更新、覆盖度不全等诸多缺陷。任务描述任务一:同义词发现

文件 文书 文本 文牍 公文 文献 档案 文档

任务二:下位词发现算法

分治法动态规划法贪心法回溯法同义词词语的选词范围来源类型目标词数QQ聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词5000Gigaword动词2000Gigaword形容词1000Gigaword成语50人民日报语料组织机构名50人民日报语料地名50维基百科人名50去重之后得到9464个同义词词语。下位词词语的选词范围来源类型目标词数《现代汉语语义词典》语义类标签44《现代汉语词典》上位词(“是一种”模式)61《知网》语义类标签49人民日报语料上位词(“一种”模式)412维基百科分词后加筛选规则4327领域同义词库常用的名词150Gigaword名词5000去重之后得到9354个上下位词词语。评测数据的准备综合各家结果,求并集;对同义词集/下位词集结果进行简单的统计:

结果数据.xlsx选取评测的目标同义词;人工标注:

北京大学中文系语言学专业硕士研究生

同义词集投入了更多的时间同义词目标词的选择来源类型目标词数QQ聊天语料口语词语173领域同义词库常用词语1585微博新词语73Gigaword名词800Gigaword动词300Gigaword形容词100Gigaword成语140人民日报和维基百科专有名词50去重之后得到3129个目标词,作为人工标注的对象词语。人工标注后,删除没有同义词的目标词,最终得到778个评价词。尽量涵盖不同来源、不同类型的词语。下位词语目标词的选择来源类型目标词数《现代汉语语义词典》语义类标签44《现代汉语词典》上位词(“是一种”模式)61《知网》语义类标签49人民日报语料上位词(“一种”模式)412维基百科等其他名词1100然后再选择下位词数在[2,99]之间的目标词1076个,作为人工标注的对象。人工标注后,删除没有下位词的目标词,最终得到256个评价词。尽量选择有潜在下位词的目标词。参赛系统报名:23个队伍参赛:同义词8队10组结果

上下位词4队5组结果参赛系统的结果—同义词

宏平均准确率宏平均

召回率宏平均

F1值微平均

准确率微平均

召回率微平均

F1值中科院声学所0.1271

0.10110.099

0.4422

0.0644

0.1124

北京理工大学0.1992

0.2464

0.1878

0.2112

0.2306

0.2205

北京交通大学0.28760.3406

0.2737

0.3088

0.3753

0.3389华为1

0.3639

0.5207

0.3671

0.2754

0.5854

0.3746

华为2

0.3300

0.5534

0.3638

0.2615

0.6129

0.3666

华侨大学0.0378

0.0105

0.0148

0.2996

0.0115

0.0222

南京师范大学0.3588

0.6075

0.3984

0.3025

0.6386

0.4106

哈尔滨工业大学0.3230

0.3905

0.2852

0.2303

0.3692

0.2837

郑州大学1

0.2971

0.6419

0.3594

0.2530

0.6792

0.3687

郑州大学2

0.3252

0.6953

0.3922

0.2541

0.7072

0.3738

参赛系统的结果—下位词

宏平均

准确率宏平均

召回率宏平均

F1值微平均

准确率微平均

召回率微平均

F1值中科院声学所0.2429

0.0872

0.1156

0.7827

0.1221

0.2113

北京理工大学0.3077

0.0886

0.1163

0.6383

0.0896

0.1572

北京交通大学0.6612

0.3776

0.4185

0.7043

0.4642

0.5596

郑州大学1

0.5391

0.3318

0.3737

0.6492

0.3518

0.4563

郑州大学2

0.6119

0.5988

0.5605

0.6233

0.5045

0.5576

存在问题自动获取的准确率不高人工标注的时间花费大人工标注的难度大:

同义词如何来定义?

标注的一致性如何来把握?

进一步工作展望同义词是非常重要的基础资源各位老师同学都有较大的兴趣和爱好是否有可能联合构建大规模的同义词资源?

谢谢!中文同义词自动抽取研究南京师范大学计算机学院自然语言处理小组曹冉孙玉霞狄颖指导老师:曲维光周俊生目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法《同义词词林(扩展版)》在《同义词词林(扩展版)》中,编码末尾为=的词语集合表示的是同一个语义。因此,目标词的同义词即为包含目标词的编码末尾为=

的词语集合。目标词“规则”对应的同义词集合:Di24A01=

规则守则准则则规律章法轨道清规戒律规例规约目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法中文概念词典CCDCCD中使用Synset字段来描述概念。但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。一个词语也可能出现在多个Synset中。如目标词“爱好”:概念编号定义Synset01745360吸引普通大众喜好流行爱好盛行风行00273902一种附属的活动嗜好爱好业余爱好基于中文概念词典本文提出基于典型同义词的过滤方法。基本思想:在包含目标词的Synset中统计出典型同义词。使用典型同义词按照一定规则在Synset中过滤出同义词。典型同义词统计方法

典型同义词统计方法

基于典型同义词的过滤算法

最终“爱好”的同义词为{嗜好,喜好,业余爱好,

偏好,偏爱,偏袒,喜欢}。概念编号i

017453600.4002739021.0044633250.25

047001750.75055650690.125056084830.125055732850.75基于语义词典-实验结果基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。宏平均准确率宏平均召回率宏平均F1值微平均准确率微平均召回率微平均F1值TYCL0.29470.34470.27640.32250.41830.3642CCD0.22360.22980.19550.31170.21180.2522Final0.35880.60410.39680.30250.63580.4100目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法基于模式匹配方法-基本思想在互联网上抓取目标词的百度百科词条在百科词条概述中,利用人工提取的“目标词+模式词+候选同义词”模式取得高质量同义词。利用高质量同义词在百科全文中获取限定语料,自动提取出上下文环境模式。利用目标词和上下文环境模式提取同义词。基于模式匹配的方法人工模式提取基于770个词条百科,手动进行模式提取,这里的模式是指同义词提示词。模式类型模式数量实例前置名词模式

39模式:昵称例:周笔畅的昵称是笔笔。前置动词模式64模式:又名例:栀子花又名栀子。后置模式

8模式:美称例:杭州素有人间天堂的美称。基于模式匹配的方法自动模式获取基于百科全文获取包含同义词词对的句子。在获得的句子集合上,提取左右词语列表、左三元组列表,并根据获得的列表进行同义词穷尽自动抽取。如下表所示:模式类型左词语列表右词语列表左三元组列表排名前5、,称和又、,。;等、「同义词」、,「同义词」,,又称称「同义词」、”、“总计7424131基于模式匹配的方法-规则过滤由于网络资源存在不规范性,需要对获取到的同义词进行筛选。筛选方法:首先对获取到的同义词进行分词,然后使用如下规则进行筛选:规则1若候选同义词是一个完整的分词结果,同义词有效。规则2若候选同义词分词结果中包含{共和国,市,州,镇,县,郡,帝国}中任一后缀,同义词有效。规则3若候选同义词分词结果是两个字数词性一致的词语,同义词有效。规则4若候选同义词分词结果包含目标词语,同义词无效。上述四个规则,优先度依次递减。基于模式匹配的方法-实验结果对于给定的9455个目标词,其中有8268个词语能够获取到对应的词条百科。基于词条概述能够获取到同义词的有815个目标词。目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法基于并列结构的方法-基本思想并列结构包含的两个词语一般有共同的形态,语义相似或相关,中间使用“和,或,逗号,顿号”等并列连词进行连接。假设并列结构包含的两个词语中一个是目标词,则另一个可以作为该目标词的候选同义词。采用基于词素和知网的方法进行过滤,提高同义词抽取的正确性。例4:浅谈责任感与责任心。例5:可贵的责任感与事业心。“责任感”与“责任心”“责任感”与“事业心”则不是。相同数为0。文档

->文件->档案->案例基于并列结构的方法

基于并列结构的方法

基于并列结构的方法-实验结果对于给定的9455个目标词,其中有2026个能够通过并列结构的方法获取到对应的同义词。目录基于语义词典的方法基于《同义词词林(扩展版)》基于中文概念词典CCD基于网络资源的方法基于模式匹配的方法基于并列结构的方法同义词传递性扩充的方法同义词传递性扩充对于获取到的同义词,可能有交叉现象。例如:然而并不是所有含有相同同义词的两个目标词都应该合并。例如:北京北京市京北京市京巴黎灯城

花都花都花都区

花县传递性验证规则

测评结果

谢谢!刘江鸣徐金安吴培昊张玉洁北京交通大学自然语言处理小组基于网络资源的词语语义关系自动抽取基于网络资源的词语语义关系自动抽取Page

44面临的问题流行词汇、网络用语等新词不断涌现一词多义,老词新义歧义性Page

45传统方法统计方法模板方法知识库Page

46同义关系自动识别模板匹配词集处理相关词条超链词汇Page

47模板匹配模板1:A(简称|简称为|中文简称|又称|又称为|亦称|亦叫|亦作|又

叫|也称|也称为|俗称|又译|又译作|全称为|全称是){左引号|冒号}B{右引号}例如:杠杆原理:亦称“杠杆平衡条件”模板2:A{是|即}B(的简称|的全称|的对称|的缩写)例如:马哲:是马克思主义哲学的简称Page

48模板匹配模板3:A{:|【}<中文别名|通用名称>{】|:}B例如:何首乌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论