基于词典和WEB资源的词汇关系抽取_第1页
基于词典和WEB资源的词汇关系抽取_第2页
基于词典和WEB资源的词汇关系抽取_第3页
基于词典和WEB资源的词汇关系抽取_第4页
基于词典和WEB资源的词汇关系抽取_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于词典和WEB资源的词汇关系抽取/sundae_meng词汇关系大纲引言同义词抽取资源中文概念词典(CCD)哈工大同义词词林(扩展版)百度百科百度翻译+有道翻译同义词抽取流程下位词抽取资源中文概念词典(CCD)百度百科互动百科维基百科百度相关搜索下位词抽取流程实验结果/sundae_meng引言

同义词和下位词的发现在自然语言处理领域中对信息检索,机器翻译等领域的研究有重要的意义。

传统的同义词和下位词的发现是基于词典知识库,如中文概念词典,同义词词林等知识库。

随着Web的发展,网络上出现了大量的资源知识库。例如“百度百科”、“有道翻译”、“维基百科”等Web资源。

把传统的词典和Web资源各自优势进行结合,将会更加有效的抽取词汇关系。/sundae_meng1同义词抽取资源中文概念词典(CCD)哈工大同义词词林(扩展版)百度百科百度翻译+有道翻译/sundae_meng1.1中文概念词典(CCD) CCD是一个WordNet类型的汉英双语语义词典,从关系语义学的观点出发,以同义词集(Synset)定义概念(concept),在概念之间定义关系(relation)来描述语义/sundae_meng1.2哈工大同义词词林《同义词词林(扩展版)》在原有的三层分类体系上增加两层,得到最终过的五层分类体系,唯一的代表词典中出现词语的编码如:

Ba01A02=物质质素

Cb02A01=东南西北四方

Ba01A03@万物

Cb06E09@民间

Ba01B08#固体液体气体流体半流体

Ba01B10#导体半导体超导体

以上词语编码中第八位编码的标记“=”、“@”、“#”,“=”代表“相等”、“同义”,“@”代表“自我封闭”,“#”代表“不等”、“同类”。

/sundae_meng1.3百度百科(1/4)

根据特征词进行模式识别,其中查询词用W(w),特征词用S(w)表示,其在百科中的同义词用T(w)表示,抽取的模式有:1W(w)+S(w)+T(w)

例如:“埃菲尔铁塔”百科中内容:

埃菲尔铁塔(又译“艾菲尔铁塔”)是法国巴黎著名铁塔,坐落在塞纳河南岸马尔斯广场的北端。

以上内容中查询词W(w):“埃菲尔铁塔”,特征词S(w):“又译”,同义词T(w):“艾菲尔铁塔”

/sundae_meng1.3百度百科(2/4)2T(w)+S(w)+W(w)

例如:“澳大利亚”的百科内容中:

澳大利亚联邦(TheCommonwealthofAustralia)简称澳大利亚(Australia)。

以上内容中T(w):澳大利亚联邦,S(w):简称,W(w):澳大利亚/sundae_meng1.3百度百科(3/4)3W(w)+T(w)+S(w)

例如:“牦牛”的百科内容中:

牦牛....有“高原之舟”之称。

以上内容中W(w):牦牛,T(w):高原之舟,S(w):之称。/sundae_meng1.3百度百科(4/4)4W(w)和T(W)是同义词,已合并。

例如:“奥林匹克村”百度百科中内容:

奥林匹克村和奥运村是同义词,已合并。

以上内容中W(w):奥林匹克村,T(w):奥运村。/sundae_meng1.4百度翻译+有道翻译

通过百度翻译将同义词词汇进行翻译,如图1:

图1百度翻译词汇/sundae_meng1.5有道翻译有道在线翻译将同义词词汇的英语进行翻译,如图2:图2有道在线翻译/sundae_meng2同义词流程图/sundae_meng2同义词流程图/sundae_meng例如:“安睡”在CCD中的CSynset字段为“安睡熟睡睡着睡觉酣睡”2同义词流程图/sundae_meng例如:“安慰”在同义词词林中对应编码为“Ga07A01”和“Hi35A01”对应的内容2同义词流程图/sundae_meng例如:澳大利亚联邦(TheCommonwealthofAustralia)简称澳大利亚(Australia)。2同义词流程图/sundae_meng例如:奥林匹克村和奥运村是同义词,已合并。2同义词流程图/sundae_meng例如:“阿肯色州”对应的英语为“Arkansas”,通过有道翻译之后的结果为:-阿肯色州+阿肯色+阿肯色大学+美国阿肯色州3下位词抽取资源中文概念词典(CCD)百度百科互动百科维基百科百度相关搜索/sundae_meng3.1中文概念词典(CCD) CCD主要的语义关系有同义关系、反义关系、下位关系、整体部分关系等。在进行下位词的抽取中主要使用CCD的下位关系对下位词的抽取。/sundae_meng3.2百度百科百度百科中分类的获取通过“tag:同义词词汇”,如图3:图3“安全软件”百度百科标签分类/sundae_meng3.3互动百科互动百科分类标签,如图4:图4“安全软件”互动百科分类/sundae_meng3.4维基百科维基百科分类标签,如图5:图5“安全软件”维基百科分类/sundae_meng3.5百度搜索百度搜索相关搜索内容,如图6:图6“安全软件”相关搜索/sundae_meng4下位词流程图/sundae_meng5实验结果5.1同义词结果/sundae_meng宏平均准确率宏平均召回率宏平均F1值微平均准确率微平均召回率微平均F1值ZZU10.29750.64230.35980.25300.67920.3687ZZU20.32560.69610.39270.25410.70720.3738MAX0.35880.69610.39840.30250.70720.41065实验结果5.2下位词结果/sundae_meng宏平均准确率宏平均召回率宏平均F1值微平均准确率微平均召回率微平均F1值ZZU10.56

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论