使用维基百科的查询扩展及概念库的跨语言信息检索.docx_第1页
使用维基百科的查询扩展及概念库的跨语言信息检索.docx_第2页
使用维基百科的查询扩展及概念库的跨语言信息检索.docx_第3页
使用维基百科的查询扩展及概念库的跨语言信息检索.docx_第4页
使用维基百科的查询扩展及概念库的跨语言信息检索.docx_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

使用维基百科的查询扩展及概念库的跨语言信息检索(文献自主翻译)摘要:本文阐述在跨语言信息检索过程中,在线免费语言资源在翻译和拓展查询方面的使用。在近期的一次研究中,我们提出了一种查询方法,首先将查询内容在语言网络中用两种机器翻译系统进行翻译,再使用线上辞典进行拓展,以此来翻译复合词或词组。一个概念库用来比对返回的翻译与原始的查询词汇,以消除错误翻译。为了评估上述方法我们建立了一个跨语言信息检索系统,并且使用了NTCIR1数据集中的科技文献。结果上述方法实现了高精度。然而在科技文献中专有名词(人名、地名)出现频率较低,而在信息检索中,专有名词显示出了特殊的难题。考虑到专有名词通常为未知词汇,它们在单语言辞典中都很难找到,更不用说双语辞典了。此外,初次用户的查询通常都不能准确地描述他们所要的信息。为了解决这个问题,提供更好的查询反馈,常用的方法是查询扩展。维基百科除了被用来翻译复合词或词组外,也被用来结合概念库进行查询扩展。我们用NTCIR1数据集和NTCIR6数据集对上述方法进行了评估,结果是这套方案实现了高精度的跨语言信息检索系统,层次要高于包含NTCIR1和NTCIR6的系统。关键词:跨语言信息检索,CLIR,语言资源,概念库,语言网络,维基百科(一)简介:网络中电子文档数目的迅猛增加,导致包含用户所需信息的文档不再局限于用户母语所撰写的文档。因此,以一种语言查询找到另一种语言的文档的信息检索跨语言信息检索系统,成为了一项热门研究课题。借助NTCIR,有多个组织对跨语言信息检索进行了详细的研究。为了获取以其他语言撰写的文档,检索词会被机器翻译系统进行翻译。由此可见,在跨语言翻译系统中,除却检索模型之外,语言资源和语言处理功能也是极为重要的组成部分。检索模型包括Sparck Joe提出的概率检索模型,以及Salton、McGill共同提出的向量空间检索模型。这两种模型在跨语言信息检索中均已被采用。语言资源包括辞典,叙词表,以及双语对照。语言处理包括语构分析和机器翻译等。为了提高跨语言翻译的性能,利用现有的各种翻译系统,优化检索模型,一个具有更高准确性的检索词翻译系统诞生了。辞典的局限性和词语的多义性是检索词翻译的两大障碍,虽然大量的研究已经将语句级翻译和多义性辞典应用于关键词翻译中,但上述问题仍旧存在。应用户需求,在之前的一篇文章中我们已经提出了一个检索词翻译系统的改进方案。这个改进后的系统在跨语言信息检索系统中有较高的准确度。我们使用了两种机器翻译系统,以及一个双语辞典用于翻译复合词及词组。此外还利用概念库,增加了一个过滤步骤,这一点在之前的文章中也有所提及。我们提交了针对科技文献的测试报告,这些科技文献仅包含有限的专有名词,结果准确度较高,但是随着检索词中专有名词的出现,其准确率会相应降低。这种情况之所以出现,可能是因为人名地名等专有名词在翻译时会被作为未知词汇,而建立包含这些词的辞典又具有相当答的难度。在信息检索中,专有名词可以说是一个特殊的难题。为了解决这一问题,在本文中我们将使用一片报纸文章的标题作为检索目标来评估当前的系统,这篇文章涉及到一系列的专有名词,在此之后将给出利用维基百科来翻译大量专有名词的方法。除此之外,初次用户的查询通常都不能准确地描述他们所要的信息,例如用户使用了文献中不经常使用的词汇,或者仅输入了对所需信息的部分描述。为了解决这个问题,提供更好的查询反馈,常用的方法是查询扩展。问题是,跨语言信息检索中的检索词扩展经常会发生错译,为了避免出错,我们引入了使用维基百科页面链接文本的方法,因为每个页面的标题都有用其他语言表示的链接。但是,现有的链接可能与维基页面并无关联,例如在“网球”页面上,就并不能找到“法国”的链接来作为拓展。因此我们规定了一个类似于维基百科用概念库过滤检索词的方法来进行拓展,以提高准确度。(二)背景:这一部分介绍跨语言处理领域的现有研究以及一些仍待解决的问题,此外将阐述本文中所使用的技术方法。2.1相关性研究跨语言信息检索分为两大模块:翻译模块与信息查询模块。在查询词翻译方面,很多研究都专注于语句级翻译和双语辞典的使用。基于辞典的翻译简单易用,但对两大关键词翻译问题无能为力。Aitao Chen曾实践过用两部翻译辞典将汉语短语与英语相对应,但是,所有这些方案都有局限性。如果只有一部双语辞典供翻译参考,那么歧义性问题肯定会存在且不容忽视。机器翻译是检索词翻译所使用的另一种直接的方法。Huang 曾经提出机器翻译法,机器翻译法是基于语境的翻译,将输入的句子转化为输出句,如果翻译器错译了某个关键词,这个错误就会在输出中显现,造成错误的检索结果。 另一种方法是查询扩展,有三种常见的实现方法:全局查询扩展使用语料库统计法,在语料库中添加同义词或概念相近的词构成词网。但是如果查询词并不存在于当前使用的语料库中,那么全局查询扩展法就起不到任何作用。局部查询扩展使用关键词频率统计法,假设排名最高的结果相关性最大。这种方法返回排名第一位的拓展词进行二次拓展的结果。由于这种方法是通过第一次的扩展词来决定第二次的拓展词,所以当用户的查询结果不存在于任意文档中时,局部查询就没有任何意义。查询扩展使用查询日志,通过计算日志中用户交互情况的记录,导出扩展后的查询词。这项技术已经被证明在网页信息检索中是有效的,但是仅适用于包含用户频繁交互数据的环境。在跨语言信息检索中,以上扩展查询的方法都会造成错译。应用户需求,我们在此推出基于语言网络上丰富语言资源的查询翻译。除此之外,我们使用了一个概念库来剔除查询中被错译的单词,查询扩展则是应用了维基百科页面上的关联词条。此方案中所有的语言资源均可以在跨语言信息检索系统中被使用。2.2语言网络若要改进跨语言信息检索的性能,必须从查询翻译的准确性和信息检索两方面着手。语言网络是因特网上的一个新的基础设施,为跨文化合作而设。自由集结网络上的语言资源以及语言处理功能,就形成了语言网络。通过整合语言网络上的语言资源,就有希望得到准确的翻译结果。此方案结合了多样化的机器翻译系统和语言网络上大量的公共双语辞典,实现了准确的跨语言信息检索。为了满足用户的需求,语言网络允许用户利用现有的语言服务轻松的开发新的语言服务。语义的发展。网络技术实现了不同语言的语言资源和语言处理功能之间的合作。语言资源包括双语辞典,词表和语际过滤。语言处理功能包括机器翻译,语态计算和释义。简单对象访问协议(SOAP)已经被用于在语言网络中获取资源。SOAP指定了计算机网络服务中所交换的信息的格式。网络服务描述语言(WSDL)是一个描述网络中基于XML服务的标准,它为服务提供方提供了一种简单的方法来描述系统命令的基本格式,而无视下层的SOAP协议。语言网络的层次包括P2P基础网络,语言资源,语言服务以及跨文化合作工具。我们所的研究的跨语言信息检索服务是建立在语言资源和P2P网络基础上的。尽管有很多语言可以通过语言网络进行翻译,我们的数据集只用到日语和英语,所以也仅需要这两种语言的资源。2.3概念库我们使用概念库作为筛选手段,目的是剔除错译的单词,并进行查询扩展。Schuetze和Pedson实现的概念库是一种自动利用全文建立辞典,并用多维空间来表示文中出现的单词之间关联的方法。目前概念库的组成大多都是词语矩阵。首先,在传统的概念库构造中,出现频率最高的N个词语被挑选出来,依次相邻构成共生矩阵。在这个矩阵中i行j列的元素Wij是单词i和j同时出现的频率(参照图一),在建立共生矩阵之前,作为预处理,必须先进行统计并且移除掉一些终止符。终止符包括句点或者其他特殊的对文档没有什么意义的符号。创建出来的共生矩阵可以看做单词的向量,它的词语共存情况随着矩阵的维度变化。问题在于,当全集的规模增大时,矩阵维度会急剧增加,因为矩阵维度取决于全文中单词的数量。而且,每个轴上都是一个单词,很难想象它们是相互垂直的。于是,为了创建出共生矩阵,SVD法应运而生共生矩阵被划分为三个维度:转置矩阵,对角线矩阵,以及行列垂直的矩阵。行、列介于100和200个维度之间的被从行列垂直矩阵中提取出来,成为概念库(如图2)。2.4维基百科维基百科是一部跨语言的网上百科全书,由全世界的志愿者们编辑而成。而且,维基百科包含的信息是随时更新变化的,因为它随时都能被更新。因此,维基百科的数据涵盖了人类大部分的知识,例如文化、历史、科学、社会以及学术等方面的信息。维基百科的每个词条都有通向其他语言词条的链接,只要他们描述的是同样的主题。只要有对应语言的词条链接,那么该词条的翻译可以直接轻松地通过该链接获取。因此,维基百科可以被看做是一个诸多语言的活字典。 除此之外,维基页面上也会显示相关的词条,既然被编辑者所选择的相关链接与本页面的词条具有相似性,那么这条链接就可以被用于查询扩展。我们使用维基百科翻译专有名词和名词短语,并用页面上的相关链接进行查询词的扩展。 我们在本系统中使用了语言网,维基百科以及概念库,之前研究所用的跨语言信息检索系统将在第三节中介绍。(三)我们研究的跨语言信息检索系统本节将介绍我们研究的使用了语言资源和概念库的跨语言信息检索系统。该系统的整体设计如图3,用于评估NTCIR6数据集中的报纸数据。首先词素分析器S提交了语言资源文件(Doc in S),而词素分析器T提交了目标语言文件(Doc in T)。如果此文件是英语版,那么将开始进行树形分析和终止符号的丢弃。而日语文档将通过ChaSen分析器被隔离成词汇单元,终止符被丢弃。概念库就由这些词素分析器的输出产生。在翻译器中,通过使用语言资源,将源语言的查询词(S中的查询词)进行翻译。翻译查询短语用到了两种翻译器,还有一个辞典被用于复合词及词组的翻译。之后,在错译词过滤器中,使用概念库来剔除错译单词。最后,信息检索引擎将根据检索词和文档的相关性降序输出前100个文档,结果收集器将两种不同的信息检索引擎的结果综合在一起。第一种引擎按照文档引用搜索词或词组频率的倒序排列(TF-IDF模型),第二种引擎是模糊概率模型。(四)实验数据与评价为了评估该系统,我们的评估手段结合了NTCR。在这一节中,我们介绍评估方案,NTCR以及实验环境。4.1实验数据我们从NTCIR中选了两个测试集,其中一个包含了在NTCIR1 CLIR中使用的日语-英语科技文献(日语文献:330,000,英语文献:190,000,日语检索词:39)在此条件下,查询词为日语,而目标检索文档为英语;另一个测试集包含了NTCIR16 CLIR中使用的的2000年到2001年之间的日语新闻文章(日语新闻文章:858,400,检索词:50),在此条件下,查询词为英语而目标检索文档为日语。为了检索到信息,一个日语英语文档集被放入树形分析器和ChaSen结构分析器,这些文档统一使用一个关键词作为TF-IDF排序的参考。NTCIR中日语查询信息的结构如下:表一所示为实验环境:4.2评估方法使用TREC测评系统计算所有相关文档的替换回溯精度,平均精度(不回溯),计算出精度为50,100,200,400,600,1000的文档。平均精度的计算公式如下:公式中的D是检索结果中所有文献的数量,N是最后一个标号对应的关联文档,precision(k)是标号为k时的精度。4.3评估结果表2所示为第三届中所叙述的系统以及包含NTCIR1和NTCIR6的系统对CLIR的评估结果。在使用NTCIR1数据集的科技文献时平均精度为0.2142,包含NTCIR1的系统的最高平均精度为0.2109。可见我们的系统再次实现了高性能。对于NTCIR6系统中的新闻报刊数据,该系统MAP低于NTCIR6的系统。包含各种专有名词的新闻报刊信息用字典不能很好地翻译,而且用户的需求与按查询词得到的结果可能并不相符,为了得到好的结果,需要对查询词进行扩展,下面一节介绍的是扩展方案。(五)扩展索引、扩展方法及其评价第三节描述的系统在第四节中已经被评估,在本节中我们给出第四节中结果的评估方案,以此来评定系统性能并发现问题。5.1分析结果对于NTCIR6系统中的新闻报刊数据,该系统性能则低于包含NTCIR6的系统。这是因为新闻文本中包含了各种不能背辞典准确翻译的专有名词,例如“Zhu Rong Ji:朱镕基”就不能被翻译,而日语中的此更是会被翻译器错译。除此之外,NTCIR6中的文章包含了许多以“为什么,何时,谁,怎样,如何”开头的问题格式的查询词。例如:“移动电话可以接收到哪些网络服务?”在这种环境下,正确的关键词就不能包含那些不能被检索的索引词了。为了提高检索性能,我们提供如图4所示的翻译系统。5.2使用语言资源与维基百科翻译检索词新闻文本中包含了各种不能背辞典准确翻译的专有名词。辞典的扩充非常缓慢,但维基百科却是全网实时更新的,而且维基百科还包含了复合词与词组,有很高的涵盖性和及时性,对于新概念的涵盖度尤为难得。在电子辞典中,一个词条有多个意义,但维基百科中的概念是单一信息源,此特点刚好解决了跨语言信息检索中的歧义性问题。我们的系统改进了翻译模块,而改进方法就是双翻译器机制,以及维基百科翻译复合词及词组,为了删除错译词语,也会将返回结果的关键字与查询关键字进行比对。这个改进后的系统与之前的系统的比较结果如表3。可以看到系统的平均精度有所提升,说明使用维基百科翻译复合词及词组是有效果的。正确的关键字不能包含那些不能被检索的检索词,因此对检索内容进行拓展是很有必要的。5.3利用维基百科相关词条的扩展检索在维基百科的页面上我们能找到所有的复合词和词组,我们可以在“相关词条”中提取词汇(如图4)。表4显示了此扩展检索系统与包含NTCIR6的系统进行评估的结果。本系统扩展查询的平均精度为0.283。包含NTCIR6的扩展查询系统的最好平均精度为0.307。扩展查询的平均精度得到了提升,但平均精度还是低于包含NTCIR6的扩展查询系统的最佳平均精度。考虑到相关词条是人来决定的,那么就存在了主观词条,而这些主观词条中并没有正确的检索词,因此我们需要检索词过滤器。5.4使用概念库过滤维基百科页面上的关联词为了拓展检索词,概念库仅选择与词条相关度最高的词。概念库被用于比对词条及相关词条之间的相似性,具有低相似性的关联词条将被移除。为了得到相似性,将进行相似性计算(图5)。相关词条单词的映射Wi和Wj是从概念库中获得的。他们的最终比对结果是由相似程度决定的。如果相似度大于0.5,概念库就会把该单词加入到拓展检索词中。表5展示了本系统与之前的NTCIR6系统的检索扩展比对结果。使用了维基百科的本系统的平均精度为0.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论