史上最专业的毕业论文!格式最专业!.doc_第1页
史上最专业的毕业论文!格式最专业!.doc_第2页
史上最专业的毕业论文!格式最专业!.doc_第3页
史上最专业的毕业论文!格式最专业!.doc_第4页
史上最专业的毕业论文!格式最专业!.doc_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工业大学毕业论文本体论和统计语言模型相结合的跨语言信息检索研究学 生 姓 名 X X X 指 导 教 师 均已陈教授 授予学位级别 工学博士 专 业 计算机应用技术 学 院 计算机学院 授 予 单 位 哈尔滨工业大学 2012.11.11哈尔滨工业大学毕业论文摘 要互联网时代的到来,使得高效的搜索引擎成为人们获取信息的最重要手段之一,信息的日益国际化及语言之间的障碍形成了人们对跨语言信息检索的需求,而普遍存在的目标语译词准确性和检索结果的精确度偏低问题成为制约跨语言信息检索研究大步向前发展的瓶颈。本体论和统计语言模型在自然语言信息处理领域分别取得的成功,为人们利用知识和统计方法实现跨语言检索问题在理论和实践方面指明了方向,对于信息检索及自然语言处理研究具有重要的理论意义和实用价值。本文以汉-英两种语言之间的跨语言信息检索为研究对象,提出了一种本体论和统计语言模型相结合的混合语言模型,给出跨语言信息检索的一整套解决方案。作为跨语言信息检索的重要环节,首先研究了混合语言模型的建模问题,该语言模型的结构由词义本体表示及语言本体知识组成,在此基础上,研究并实现了词义本体的构建、语言本体知识的自动获取等问题。通过对自然语言处理有关问题的应用评价,验证了所提出混合语言模型的有效性,进而将其应用于用户查询的目标语译词选择以及目标语言检索文档的排序,在该混合语言模型的指导下实现了一个跨语言信息检索的实验平台。具体地讲,本文从如下几个方面进行了研究:1. 研究了跨语言信息检索的模型建模技术。分析了目前困扰跨语言检索精确度偏低问题的主要原因,提出了一个本体论和统计语言模型相结合的混合语言模型,有效地解决了目前的检索模型表达和处理语义层面信息不完全,未能很好地适应主题多变的应用环境等相关问题。该语言模型的结构由词义本体表示及语言本体知识组成,综合考虑了自然语言句子中出现的特征项与其同现信息在语义、语用、词法、句法等方面的用法,力图在采用一种概率估计的前提下,引入本体知识库的支持,寻求有效提高跨语言信息检索精确度的改进方法。2. 研究了词义本体表示及语言本体知识的获取技术。探讨了词义本体的构建以及有效的语言本体知识表示方法,提出利用机器学习方法自动获取语言本体知识获取的策略,提出将从单语言语料中获得的语言本体知识应用于解决跨语言信息检索问题的方法。语言本体知识将通过机器学习方法从训练语料中自动获取,实现技术主要以语料处理为基础,获得特征项在上下文环境中的语义、语用、句法等方面的用法,以一种量化的形式保存,作为特征项的用法描述,对有关全部特征项的描述则构成了一个语言本体知识库。该问题的研究也避开了可利用的大规模双语语料不易获得的问题。3. 研究了源语言用户查询的目标语译词选择技术。对比了几种跨语言信息检索中比较实用的实现用户查询的译词选择方法,在此基础上,提出并实现了两种跨语言信息检索的解决方案:一种方法是目标语言译词选择技术与文档分类技术相结合,其中译词选择采用领域双语词典结合语料库的方法实现,分类器通过两种不同语言的语料分别训练得到。另一种方法是基于本文提出的混合语言模型选择用户查询的目标语译词,分别给出扩展查询译文的不同组合,然后根据获取的源语言本体知识,考察每种组合在语义、语用、句法等方面与所获得语言本体知识的匹配程度,重点解决词义消歧问题。4. 研究了跨语言信息检索结果文档的排序技术。提出了基于语言本体知识实现目标语文档排序的方法,主要技术是利用语言本体知识考查源语言用户查询与目标语检索文档的匹配相似度。在此基础上给出了跨语言信息检索系统的基本框架,构造了一个完整的跨语言信息检索的实验系统,最后通过对跨语言信息检索结果的评价及与其它方法的比较,验证了本文所提出方法的有效性和可行性。关键词 跨语言信息检索;本体论;统计语言模型;语言本体知识;文档排序AbstractSearch engine has become a crucial tool for information acquisition from the Internet. People need cross-language information retrieval (CLIR) system to treat increasing international information and cross language barriers. The precision of target language translation selection of user query and retrieval results is becoming the bottleneck of CLIR. The success of ontology and statistical language model guides people using language knowledge and statistical method in natural language processing field respectively, which provides us the theoretical significance and practicability for the research on CLIR and natural language processing. This thesis investigates and presents a hybrid language model based on a combination of ontology with statistical language model to realize Chinese-English CLIR system. As important step, it firstly studies methods for language modeling. This structure is comprised of ontology description framework for Chinese words and representation of linguistic Ontology knowledge. Subsequently, it studies the construction of word sense ontology and automatically determining acquired of a linguistic ontology knowledge bank, through evaluation on natural language processing application, the efficiency of the hybrid language model is validated. And then, the hybrid language model is applied in translation selection of user query and target language documents ranking. Finally, in the guide of the hybrid language model, an experimental platform for CLIR is created.This thesis is arranged as follows:1. A hybrid language modeling is studied for CLIR. The thesis analyzes the main reason why the precision is lower on CLIR, and proposes a hybrid language model based on a combination of ontology with statistical language model. It is effective in the expression and processing of semantic information, and it can adapt the changeful topics effectively. This structure of hybrid language model is comprised of word sense ontology representation and linguistic ontology knowledge, for each word and its co-occurrence will be considered in semantic, pragmatics, and syntactic information from the corpus. This thesis tries to make use of probability estimation and ontology knowledge bank to improve the precision of CLIR.2. Automatic linguistic ontology knowledge acquisition method is studied. This thesis discusses the construction of word sense ontology and the representation of linguistic ontology knowledge, then, it presents automatic acquisition method on linguistic ontology knowledge by machine learning from train corpus, and proposes the technique how to apply the linguistic ontology knowledge from single language to CLIR. The linguistic ontology knowledge will be acquired from corpus by machine learning method and be expressed by the quantitative format to act as the description on keyword usage. The usage constructs the linguistic ontology knowledge bank and this way avoids the question that it is difficult to acquire large-scale bilingual corpus.3. Target language translation selection of user query is studied. This thesis compares several methods of translation selection of user query, then, proposes two methods for realizing CLIR. One is based on a combination of translation selection with categorization technique, and translation selection combines a domain bilingual dictionary with corpus, classifier is respectively gotten by deference language training corpus. Another method is based on the proposed hybrid language model, in which the several association of expansion translations are given, and according to source linguistic ontology knowledge they will be examined weather they are matching with linguistic ontology knowledge to solve the word sense disambiguation.4. Retrieval documents ranking technique of CLIR is studied. The proposed method is based on linguistic ontology knowledge to examine the matching between user query of source language and target retrieval documents. Finally, this thesis gives a frame and constructs an experimental system for CLIR. Evaluation on the CLIR results of this system shows the efficiency of the proposed method, and the feasibility and significance of the proposed hybrid language model in this thesis is verified.Keywords cross-language information retrieval; ontology; statistical language model; linguistic ontology knowledge; document rankingII 目录摘 要IAbstractII1 绪 论1 1.1 研究背景1 1.2 研究的目的和意义21.2.1 研究目的21.2.2 研究意义2 1.3 相关研究综述31.3.1 单语言信息检索31.3.2 问答式信息检索3 1.3.3 跨语言信息检索.4 1.3.4 基于机器翻译系统的方法.5 1.3.4.1 基于中间语言的方法.5 1.3.4.2 基于双语语料库的方法.6 1.3.4.3 基于潜在语义标引的方法.6 1.3.4.4 基于双语词典的方法.7 1.3.4.4.1 跨语言信息检索的评测.7 1.3.4.4.2 多语言信息处理.71.4 本文研究的主要内容82 本体论和统计语言模型相结合的建模方法研究82.1 引言82.2 本体论及其构造92.2.1 本体论的概念92.2.2 本体描述语言92.2.3 本体论与语义网9 2.2.4 本体的构造方法.10 2.2.5 本体论的研究与应用.102.3 几种信息检索模型比较.10 2.3.1 传统信息检索模型.10 2.3.2 统计语言模型.11 2.3.2.1 N元模型.11 2.3.2.2 概率上下文无关文法(PCFG).11 2.3.2.4 风险最小化模型.12 2.3.3 几种主要模型之间的对比.12 2.3.4 统计语言模型的研究与应用.12 2.4 本体论和统计语言模型相结合的混合语言模型.12 2.4.1 混合语言模型的数学描述.12 2.4.2 混合语言模型建模的可行性分析.13 2.4.3 混合语言模型建模的关键技术分析.13 2.4.4 混合语言模型的建模方法.13 2.4.4.1 词义本体表示.14 2.4.4.2 语言本体知识的数学表示.14 2.4.5 混合语言模型的性能评价及实验分析. 19 2.5 本章小结.203 跨语言信息检索的语言本体知识获取研究. .20 3.1 引言.203.2 汉语词义本体的构建 213.3 共现信息的获取213.4 相关问题域的实验与分析23附 录.24哈尔滨工业大学博士学位论文原创性声明.29哈尔滨工业大学博士学位论文使用授权书.30致谢31哈尔滨商业大学毕业论文 1. 绪 论1.1 研究背景目前,人类社会已经进入了互联网时代,为了能够从Internet这个浩瀚无穷的知识海洋仓储中真正获取所需要的各种各样信息,高效的搜索引擎已经成为人们最重要的手段之一,这其中检索技术无疑将是人们从互联网上获取信息的钥匙。当前的信息检索(例如Google、百度等搜索引擎)是基于关键词进行查询的,用户向信息检索系统输入关键词序列或者关键词的布尔表达式,系统按照其得出的相关性由大到小的顺序返回与用户查询相关的网页链接,用户逐一访问这些链接,最终得到满足其信息需求的答案。伴随着Internet中各类信息不断爆炸性增长的同时,互联网中书写信息所使用的语言呈现日益的国际化,其中英文信息仍然占有一半以上的信息量,而用其它语种,如以中文(包括简体和繁体)、日文、朝文等为代表的东方语言;以俄文、德文、法文等为代表的西方语言,以及其它一些小语种等,所书写的各类信息也正加快其发展的步伐,因此,从上世纪90 年代末开始,人们对信息检索提出了更高的要求,即不再满足于在同一语种文档集中检索,而要求在检索结果中包含多语种信息。用户所面对的查询一个多语种文档集的情形变得越来越普遍,为了获得更多、更全面、更准确的信息,同时为了跨越语言障碍(Language Barrier),人们希望能够以自己最熟悉的一种语言(如汉语)描述用户查询,而同时将其它语言(如英语)书写的文档集在检索结果中呈现出来,即进行跨语言信息检索(Cross-Language Information Retrieval/ Cross-lingual information retrieval,CLIR)。在当今信息社会中,跨语言检索已经越来越成为世界范围内一个极需解决的关键问题,这也是Internet的全球信息基本结构造成了针对跨语言信息检索系统的迫切需要,从而使得国内外越来越多的研究团体深入研究跨语言检索问题,并探索实现跨语言信息检索的不同方法、技术路线等。人们越发对搜索引擎质量的关心,也为跨语言检索、搜索引擎方法和技术的研究提供了大量的用户需求。不仅在互联网中,在所有同时存在多语种的信息系统(如数字图书馆)中,这种语言障碍都限制了人们对信息的有效获取,影响了多语种信息价值的充分发挥。另一方面,面对这种多语的信息海洋,一些用户需要获得准确性高的信息,另一些用户可能需要获得更全面些的特定信息,而他们可能根本不清楚所查询的信息如何使用目标语进行准确的描述,尤其是一些生僻的词语或者自己不熟悉的一些专业词汇,更加不知道如何表达。这同样也决定了跨语言信息检索系统的研究与开发具有潜在的广阔市场应用前景和价值,如何在高效的检索技术和准确性、全面性方面进一步研究,更加成为世界范围内众多单位和团体的研究热点之一。在有关跨语言信息检索的研究方面,关于英语与其它语言之间的跨语言检索研究较普遍。如国内的复旦大学、微软亚洲研究院等学术团体先后开展英-汉跨语言信息检索的研究,并取得了很好的成绩,中科院软件所的研究者开展了汉-英双向跨语言信息检索的有关实验。随着在日本举行的针对英语及亚洲语言之间跨语言信息检索评测会议的成功举行(NTCIR),更加带动了在该方面研究的繁荣。在第三届评测会议上仅有中科院软件所1个研究组递交了3个汉-英跨语言信息检索的运行结果;第四届评测会议上共有7个研究组递交了24个汉-英跨语言信息检索的运行结果;第五届评测会议上有5个研究组递交了20个汉-英跨语言信息检索的运行结果。可见,关于汉-英跨语言信息检索的研究越来越受到国内外的广泛重视1.2 研究的目的和意义1.2.1 研究目的尽管许多国家都越来越重视并有效地利用国际互联网,不同语种的信息量在互联网中也在逐步增加,尤其是我国的上网人群及互联网上的中文信息的发展也极大地加快了步伐,但英文信息的数量(约占50%左右)目前还是远远多于中文信息的数量(不足10%),开展中英文跨语言信息检索可以使用户获得更加丰富的检索结果,跨语言信息检索系统的开发也将更加方便用户充分地利用互联网中的信息,同时有利于用户跨越语言障碍这道难关。跨语言信息检索的研究目前仍然处于它的初期阶段,基于国际互联网的跨语言信息检索使得机器翻译技术面临着巨大的挑战,而本课题的研究将能够满足上述各方面的需求1.2.2 研究意义尽管许多国家都越来越重视并有效地利用国际互联网,不同语种的信息量在互联网中也在逐步增加,尤其是我国的上网人群及互联网上的中文信息的发展也极大地加快了步伐,但英文信息的数量(约占50%左右)目前还是远远多于中文信息的数量(不足10%),开展中英文跨语言信息检索可以使用户获得更加丰富的检索结果,跨语言信息检索系统的开发也将更加方便用户充分地利用互联网中的信息,同时有利于用户跨越语言障碍这道难关。跨语言信息检索的研究目前仍然处于它的初期阶段,基于国际互联网的跨语言信息检索使得机器翻译技术面临着巨大的挑战,而本课题的研究将能够满足上述各方面的需求。在理论方面, 当前的信息检索技术在给人们日常生活中的信息查询带来巨大便利的同时,也逐渐暴露出一些不足之处,除了在易用性和信息检索效率等方面难以满足用户的信息需求之外,在技术层面上也存在着严重的缺陷。影响信息检索系统性能的因素有很多,其中最为关键的是信息检索模型,包括文档和查询条件的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的最终排序方法和用户进行相关反馈的机制等。经过科研人员近半个世纪的不懈努力,一些信息检索模型陆续被提出来,其中影响比较大的检索模型包括:布尔模型、向量空间模型、概率模型以及20世纪80年代后提出的语言模型1。前三种传统的信息检索模型为适应信息检索实时性的需要,仅靠经验来设计启发规则计算用户查询与检索文档的相似性,忽略了语义的多样性和语言结构分析,使得理论基础并不牢固,这是信息检索系统的精确性难以进一步提高的根本原因2。统计语言模型和信息检索的结合改进了传统检索模型的不足,语言模型检索方法以数理统计以及随机过程作为理论基础,利用概率统计方法来估计与检索有关的参数,同时可以通过对语言模型更准确的参数估计或者使用更加合理的语言模型来获得更好的检索性能,另外,在如何改善检索系统性能方面有了更加明确的指导方向。 综上所述,由于跨语言信息检索任务对信息检索的需求和精确性提出了更高的目标,使得传统的信息检索模型更加难以胜任,在语言模型的基础之上,提出一个比较完善的跨语言信息检索模型是目前信息检索技术中一个至关重要,亟待解决的问题。同时,本研究的开展,将提出一整套跨语言信息检索理论和方法的完整解决方案,在应用方面,随着计算机的普及和信息化程度的日益提高,人们对自然语言理解技术的需求也越来越大。由于跨语言信息检索的研究涉及到多个领域和方向,包括计算语言学、信息学以及计算机学科中的网络信息处理、信息检索、信息抽取、机器翻译、词义消歧、知识获取等相关语言处理技术,这些研究应用不仅带动相关语言处理技术发展,也对上述学科和研究方向提供重要的资源和技术支持。当前,网站正朝着小型化,专业化的方向发展,各类网站非常需要智能化搜索引擎的支持,这种集易用性和高效性于一身的跨语言信息检索技术必将会为各个门户或者专业网站所乐于接受,并成为其吸引广大网上用户的重要手段之一。因此,这项研究具有极其广阔的市场前景和实用价值,只要应用系统的综合性能达到要求,必然会受到信息检索服务提供者及最终用户的欢迎,极大地提高人们通过国际互联网获取信息的效率。同时,跨语言信息检索系统也是一项相关技术与系统集成的系统工程,这一研究的开展,必将为大型语言处理系统研发的工程方法积累宝贵的经验,为适用于自然语言处理领域的系统工程方法探索出一条实用化的新路。随着“2008北京奥运会”和“2010上海世博会”的申办成功,届时必将有大批外国政要、专家学者及旅游观光人员来华参观访问,在本研究开展的基础上,构建多语言信息检索平台,将极大地方便不同语言和不同国家人员及时检索盛会的情况、加深对我国的了解,同时也有助于检索外文信息、了解外国文化,因此本研究的开展将具有非同一般的应用价值和现实意义。1.3 相关研究综述1.3.1 单语言信息检索信息检索技术起源于人们为方便查询和访问文献资料而将它们重新整理与分类的手工劳动。现代信息检索技术则是在计算机技术和通信技术发展的基础上建立起来的,它产生于20世纪50年代,经过长期缓慢的发展阶段,从20世纪90年代开始至今,随着国际互联网技术的诞生和发展而进入了一个兴盛的时期。1950年,美国学者Calvin N. Mooers提出了“信息检索”这一术语;1958年,美国学者Luhn提出了统计信息检索的基本理论和方法;1960年,Marson和Kuhns提出了信息检索的概率模型;1965年,美国康奈尔大学的Gerard Salton 教授及其学生,创立了信息检索向量空间模型(Vector Space Model, VSM),他们也因此成为信息检索领域的世界顶尖学者。向量空间模型至今仍然是信息检索领域最为有效和广为应用的理论模型,Salton教授及其学生开发的基于向量空间模型的SMART信息检索系统也沿用至今3,成为信息检索系统的样板,甚至是一些信息检索商业或实验系统的重要组成部分。之后信息检索系统的评价方法、查询扩展方法等相继被提出。90年代初期国际互联网技术的诞生和随之而来的网络信息的爆炸式增长,更使信息检索技术进入了一个崭新的发展时期。在这一时期,具有代表性的理论成果包括潜在语义索引技术、贝叶斯网络和神经网技术等等。基于国际互联网的大型搜索引擎在这一时期大量涌现出来,如Google、infoseek、Lycos以及国内的百度等等。随着计算机技术的不断进步和网络信息量爆炸性增长,对信息检索技术提出了越来越高的要求。信息检索技术正在深度和广度上迅猛发展。在深度上,进一步提高信息自动管理和自动加工的能力,如探索自动信息抽取、自动索引、自动检索、自动文摘、自动分类、自动翻译等等;在广度方面,信息检索正由文本信息检索向全文文本、多媒体、跨语言等新型信息检索发展。1.3.2 问答式信息检索 问答式信息检索的研究起源于上个世纪50年代,最初仅限于一些专门的应用领域。直到90年代,在每年一度的TREC(Text Retrieval Conference)会议中引入了问答专题(Question Answering Track),才真正推动了开放域问答系统的研究。当前的问答系统的研究综合了自然语言处理技术中信息检索(Information Retrieval, IR)与信息抽取(Information Extraction, IE)的思想与技术。第一个面向数据库的问答系统的成功范例出现于1963年,是一个针对棒球运动的问答系统,用户可向系统提出与比赛结果、比赛地点及比赛时间有关的问题;1977年出现的LUNAR系统,可用于回答Apollo 11登月行动中采集到的岩石和土壤物质的有关内容;80年代初期开发的PHLIQA1主要用于回答与计算机安装有关的一些问题4。这些系统尽管运行效率很高,但它们受到各自领域的限制,其技术方法很难推广到其它领域。这类系统的主要技术难点有两个:一是实现自然查询语句到数据库查询语言的转换,通常的解决方案是为数据库系统提供一个自然语言接口;二是自动提取有关信息构建结构化的数据库,其解决方法一般是结合特定领域采用相应的信息抽取技术。近几年来,颇具影响的TREC会议于99年引入问答专题引起了新一轮的研究高潮。许多问答领域的新技术、新方法通过TREC得到了验证与应用。参加TREC的研究机构与组织针对标准问题集对各自的问答系统进行评价与比较。例如,微软的研究小组在使用专门的搜索引擎搜集到的网页数据中,利用简单的模式匹配、n-gram文法和计数等方法来搜索和确认问题的答案,该系统处理知识性文档显示了较高的性能;Waterloo大学的系统使用Web作为第二个文档集,用它来进一步确认由TREC文档集中直接获取的答案,这种方法使这一系统的性能提高了25%左右。目前基于Web的问答系统也已经出现,Mulder、Answerbus与NSIR系统都能够对Web搜索引擎返回的结果进行分析处理;Ionaut使用信息抽取技术从下载到本地的网页中抽取答案;FAQ Finder系统通过对Web上经常提出的问题进行统计,建立常用问题库,通过将用户问句与常用问题库中的问句进行比较的方法来获取答案。在问答式信息检索领域,2005年召开的NTCIR-5会议上推出了跨语言问答(CLQA)方面的研究,共有84个研究组递交94个运行结果,其中有7个研究组递交了8个汉-英跨语言问答的运行结果,也充分说明了跨语言信息处理研究的重要性和广泛应用。1.3.3 跨语言信息检索目前,关于跨语言信息检索的研究越来越集中在选择用户查询的目标语译词方面,因此,跨语言信息检索研究的任务可分为以下两个步骤:(1)将用户输入的查询需求在线描述成目标语言的表示形式;(2)在多语种文档集中实施信息检索,可根据需要既检索出源语言书写的文档集,又可以检索出目标语言书写的文档集。然而,由于机器翻译的性能、自然语言的歧义、未登录词的识别以及一些人名、地名、机构名等名实体的因素,译词选择的质量一直不能令人满意。目前,解决跨语言信息检索的核心问题采用的方法主要有:基于翻译系统的方法、基于翻译词典的方法、基于中间语言的方法以及基于语料库的方法等几种。1. 3. 4 基于机器翻译系统的方法机器翻译是随着计算机而诞生的,在过去的50多年的历史中,在国外先后受到美国国防部、日本第五代计算机、欧洲共同体等大型研究机构或计划的支持,不断地尝试基于规则的方法、基于实例的方法、基于模板的方法和基于统计的方法等,但其效果仍然不尽如人意。国内也有多家单位从事这方面的研究,并研发出了“译星”、“华建”等商业机器翻译软件。 面对曾经如火如荼的对于机器翻译方法和技术的研究,人们自然而然地认为将机器翻译系统嵌入到搜索引擎中,应该是解决跨语言信息检索问题的一个较好的解决方案。基于机器翻译系统的解决方案主要有以下几种:1. 3. 4. 1 基于中间语言的方法由于机器翻译系统所面临的种种困境,也出于多种语言信息之间相互检索的需要,一些研究者提出了一种利用中间语种表达的方式进行翻译的方法(Inter-lingual Representation Approach)。这种方法的思想是:可以把用不同语言所表示的相同概念的词语都映射到一个与语言无关的机制上,然后检索操作在这个所谓的“中间语言”上进行。可以说这种检索机制已经不再是两种语言之间的跨语言模式,而是将多种语言的检索问题统一在一个相同的框架下。Ruiz等人提出基于概念中间语言(Conceptual inter-lingual)17,18的方法解决多语言之间的信息检索问题,Collins、Kishida等人也提出了类似的利用被称为Triangulated translation、Pivot language的方法1921,Volk等人提出了利用Ontology作为中间构件的方法22。一般认为,选择的中间语言应该是计算机容易自动处理的语种(如英语),可以使用辞典分类或独立语种向量空间模型来实现中间语种翻译。特别是在跨语言信息检索中会遇到两种语言之间无法进行直接互译,即两者进行直接翻译的语言资源(如双语词典等)不存在时,只能借助于中间语言将源语言翻译成目标语言,或者将源语言和目标语言均翻译成这种“中间语言”。使用中间语种翻译方法实现跨语言信息检索将是一个不错的选择,尤其对于处理多语种的信息检索问题,在某种程度上能很好解决两种看似不太相关的语言之间的“语言鸿沟”问题。然而不足之处是,机器翻译系统所面临的“一词多义”以及“一义多词”现象可能会更加严重,在多种类语言的情况下,跨语言的方式会变得更加复杂,而且这种方法的造价太高,除了很多与语言相关的概念具有严重的不兼容性外,可能要开发出多个机器翻译系统,同时会导致检索精度的进一步下滑,不利于跨语言信息检索的发展。1. 3. 4. 2 基于双语语料库的方法语料库(Corpus)是将相同信息或相同主题的信息用两种或多种语言进行描述,并由人工或通过计算机建立不同语种间信息联系的集合。自20世纪80年代以来,语料库语言学(Corpus linguistics)的崛起和迅速发展令世人耳目一新。人们希望通过对大规模真实语料的处理来自动获取自然语言的各种语言事实及语法规律,世界各国也相继建立了数以百计的各种语料库,规模也跃升到词次数以亿计,如八十年代2000万词次的英国COBUILD语料库,九十年代10亿词次的美国计算语言学学会的ACL/DCI语料库和英国牛津文本档案库OTA等等。通过对这些语料库进行深层次加工、统计和学习,自然语言处理领域取得了许多令人瞩目的成果。例如,英国兰卡斯特大学采用基于语料库的方法实现了非受限文本的词性标注系统CLAWS,取得了极大的成功,向人们显示了语料库方法的巨大潜力23。美国宾州大学句法标注树库Penn TreeBank的建立,为基于统计的相关自然语言处理的研究提供了统一的训练和测试平台24,25。语料库方法的出现不仅为机器翻译的研究带来了新的希望,也为跨语言信息检索的实现注入了新的生机和活力。1. 3. 4. 3基于潜在语义标引的方法 潜在语义标引(Latent Semantic Indexing, LSI)技术形成于1990年,是Deer wester等人在单语言信息检索研究中提出来的,它是一种基于内容概念的检索技术。在P. G. Young的论文中论述了这种方法42,Dumais等人进一步把这种方法引入到跨语言信息检索中43,它提供了一种不需要翻译就能使一种语言的文本片段与具有相似内容概念的另一种语言的文本片段进行匹配的方法,可以不对用户查询的语种或目标语种进行翻译来实现跨语言信息检索。潜在语义标引方法使用了一种向量空间模型(Vector Space Model, VSM),在该模型中文档和查询都由K维的词语向量表述。这种方法的前提是需要双语语料作为训练文档建立一个词语矩阵,矩阵中包括了每个词在每篇文档中的出现次数,理想情况是同一语义的词在一对双语文献中的出现次数是一样的。以此矩阵为基础利用数学公式SVD(Singular Value Decomposition)导出K维的语义向量空间,实际上是从许多不同的词和文档中抽取出的相同语义成分。基本的语义向量空间建成后,新的文档可以不断加入,新文档在向量空间中的位置通过计算它所包含的词语向量的平均值而确定。用户查询也作为文档以同样的方法来处理,检索时查询与文档的相似性通过计算它们向量的余弦值来测量。相比较而言,潜在语义标引方法的优点有:一方面,该方法不需要对用户查询或查询文档进行翻译,因而不需要双语词典、词表、机器翻译系统等这些昂贵的资源,从而避免了其中如消歧等一系列技术难题;另一方面,该方法应用于新的语言比较方便,只要有相应的双语语料作为训练文档。1. 3. 4. 4 基于双语词典的方法研究的主上述提及的基于机器翻译系统方法、基于中间语言方法、基于双语语料库以及基于潜在语义标引方法均具有一定的复杂性和不确定性,近些年,由于机器可读双语词典特有的简单、易用、处理速度快以及易于得到和维护的特性,这种方法被普遍应用于跨语言信息检索的研究,通过双语词典选择用户查询的目标语言的译词48。基于双语词典方法的中心思想是:基于双语字典或词典,找出用户查询的每个检索单词所对应的全部目标语言的译词候选,生成目标语言的用户查询,然后进行目标语言的单语言信息检索。如果用户查询的检索单词在目标语言中有不止一个单词与之对应,就会形成不同的由目标语言描述的查询组合。对于查询组合的选择通常有两种解决方案:1. 3. 4. 4. 1跨语言信息检索的评测目前,在跨语言信息检索领域,有4个与之相关的重要的国际会议,它们全面反映了当今跨语言信息检索的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论