(计算机应用技术专业论文)跨汉蒙语文信息检索中的查询项翻译方法研究.pdf_第1页
(计算机应用技术专业论文)跨汉蒙语文信息检索中的查询项翻译方法研究.pdf_第2页
(计算机应用技术专业论文)跨汉蒙语文信息检索中的查询项翻译方法研究.pdf_第3页
(计算机应用技术专业论文)跨汉蒙语文信息检索中的查询项翻译方法研究.pdf_第4页
(计算机应用技术专业论文)跨汉蒙语文信息检索中的查询项翻译方法研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)跨汉蒙语文信息检索中的查询项翻译方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下独立进行研究所耳) ( 得的成 果。除本文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写 过的科研成果。对论文的研究做出过重要贡献的个人和集体,均已在文宇以明确方式标明。 本声明的法律责任由本人承担。 学位论文作者签名: 日 强:训九占t : 指导教师签名: 日期 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权 将学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘, 允许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论 文。为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者 今后使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意; 若用于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论姗者签名:季磊 指导粼虢 沙l f 内蒙占大学硕上学位论文 跨汉蒙语言信息检索中的查询项翻译方法研究 摘要 随着计算机网络技术的发展,全球互联网用户快速增长,网络信 息资源语种也日益多样化,跨语言信息检索已成为越来越重要的研究 课题。 在汉英等语言的跨语言检索方面已经有很多研究成果。但是,在 蒙古语相关的检索方面所进行的研究工作还比较少。蒙古文是世界上 很有影响力的语言文字,因此蒙古文信息检索的研究具有非常重要的 意义。 由于汉语查询项翻译的好坏直接影响到检索的效果,因此我们结 合知识和统计的方法,解决汉语查询项到蒙古语查询项的翻译。在本 文中,我们采用中科院i c t c l a s 工具对汉语查询项中音译的外来语借 词和人名、地名等专有名词的进行识别;提出了新的短语切分方法, 将短语切分概率化,并将生成的概率模型和句子长度全部引入到翻译 模型中,最后进行解码。 实验结果表明,引入短语切分模型,加上命名实体和借词的识别, 使翻译质量有明显提高,实现了查询项的翻译。 关键词:跨汉蒙语言信息检索,短语切分,蒙语借词 跨汉蒙语言信息检索中的查询项翻译方法研究 r e s e a r c ho nt r a n s l a t i o nm e t h o d so fq u e r yi t e m si n c h i n e s e - - m o n g o l i a nc r o s s - - l a n g u a g ei n f o r m a t i o nr e t r i e v a l a b s t r a c t w i t ht h ed e v e l o p m e n to ft h en e t w o r k ,t h en u m b e ro fi n t e r n e tu s e ri nt h ew o r l d h a si n c r e a s e dr a p i d l y ,a tt h es a m et i m e ,t h em u l t i l i n g u a ls t a t eo ft h ei n t e m e tr e s o u r c e s h a v eb e c o m eo b v i o u s ,c r o s sl a n g u a g ei n f o r m a t i o nr e t r i e v a lh a sb e e nag r e a ti m p o r t a n t r e s e a r c hf i e l d t h e r ea r ea l r e a d ym a n yr e s e a r c hr e s u l t si n c h i n e s e e n g l i s hc r o s s - - l a n g u a g e i n f o r m a t i o nr e t r i e v a lo ro t h e rl a n g u a g e s h o w e v e r , r e l a t e dr e s e a r c hw o r ki nt h e m o n g o l i a ni n f o r m a t i o nr e t r i e v a li ss t i l lr e l a t i v e l ys m a l l m o n g o l i a ni so n eo ft h em o s t i m p o r t a n tl a n g u a g e si nt h ew o r l d s ot h er e s e a r c ho fm o n g o l i a ni n f o r m a t i o nr e t r i e v a l b e c o m e sm o r e a n d m o r ei m p o r t a n t a st r a n s l a t i o ni nc h i n e s ei n q u i r e sd i r e c ti n f l u e n c eo nt h er e t r i e v a lp e r f o r m a n c e , w ec o m b i n ew i t hk n o w l e d g ea n ds t a t i s t i c a lm e t h o dt ot r a n s l a t ec h i n e s eq u e r yi t e mt o m o n g o l i a nq u e r yi t e m i nt h i sp a p e r , w eu s ei c t c l a so ft h ec h i n e s es c i e n c e s a c a d e m yt oi d e n t i f yp r o p e rn o u n sf r o mt r a n s l i t e r a t i o nl o a nw o r d s ,p e r s o nn a m e s , p l a c en a m ei nt h ec h i n e s eq u e r yi t e m s w ei n t r o d u c ean e wp h r a s es e g m e n t a t i o n m e t h o do fp h r a s e ss e g m e n t a t i o np r o b a b i l i t ya sw e l la san e wt r a n s l a t i o nm o d e l w h i c h i n c l u d e sp r o b a b i l i t ym o d e la n ds e n t e n c el e n g t h e x p e r i m e n tr e s u l t ss h o wt h a ti n t r o d u c i n gt h ep h r a s es e g m e n t a t i o nm o d e l ,n a m e d e n t i t ya n dl o a n w o r d sr e c o g n i t i o nh a si m p r o v e ds i g n i f i c a n t l yt r a n s l a t i o nq u a l i t y k e y w o r d s :c h i n e s e - m o n g o l i a nc l i r ,p h r a s es e g m e n t a t i o n , m o n g o l i a n - l o a n w o r d 内蒙古大学硕上学位论文 目录 摘要i a b s t r a c t i i 目录i i i 图表目录v 第1 章绪论1 1 1 研究背景及意义1 1 2 跨语言信息检索的研究现状1 1 3 论文的组织结构3 第2 章跨语言信息检索与查询项翻译综述4 2 1 基本概念4 2 1 1 什么是跨语言信息检索4 2 1 2 跨语言信息检索的实现方法4 2 1 3 跨语言信息检索的研究重点5 2 1 4 检索的性能评价5 2 2 信息检索模型7 2 2 1 布尔模型7 2 2 2 向量空间模型8 2 2 - 3 概率模型1 0 2 2 4 统计语言模型1 2 2 2 5 神经网络模型1 2 2 2 6 基于本体论的信息检索模型1 4 2 3 查询项的翻译方法1 5 2 3 1 基于机器翻译的查询翻译方法1 5 2 3 2 基于知识的查询翻译方法1 5 2 3 3 基于语料库的查询翻译方法一1 6 第3 章汉蒙命名实体与借词识别1 8 3 1 基本知识l8 3 1 1 汉语中的蒙语借词。1 8 i i i 跨汉蒙语言信息检索中的查询项翻泽方法研究 3 1 2 命名实体的任务。1 8 3 1 3 命名实体识别的难点。1 9 3 2 相关方法概述2 0 3 2 1 基于规则的方法2 0 3 2 2 基于统计的方法。2 1 3 2 3 规则与统计相结合的方法。2 2 3 3 基于i c t c l a s 的命名实体和借词识别2 3 3 3 1 命名实体识别一2 3 3 3 2 蒙语借词库2 4 第4 章知识和统计相结合的查询项翻译2 6 4 1 短语切分的方法2 6 4 1 1 短语查找2 7 4 1 2 短语概率计算。2 8 4 2 翻译模型与解码2 9 第5 章实验3 0 5 1 系统的总体思路及实验环境3 0 5 2 实验语料说明31 5 2 1 训练语料31 5 2 2 评价语料。3 2 5 2 3 测试语料。3 3 5 3 翻译结果的评价标准3 3 5 3 1b l e u 评价标准3 3 5 4 实验结果及其分析3 4 第6 章结论与未来研究方向3 6 6 1 总结3 6 6 2 进一步的研究工作3 6 致谢3 8 参考文献3 9 w 内蒙占大学硕上学位论文 图表目录 图2 1 查询实例6 图2 2d i 和q 的向量表示一9 图2 3 神经网络模型1 4 图3 1 借词库程序界面2 5 图4 1 短语切分有向无环图2 7 图5 1 实验流程图3 0 图5 2 汉蒙双语语料库中部分语料3 2 表3 1 计算所二级标注中的名词分类标记2 4 表4 1 短语切分模型训练算法2 8 表5 1 训练语料资源列表3 1 表5 2 评价语料的规模3 2 表5 3 查询项为短句子时的评测结果3 4 表5 4 查询项为长句子时的评测结果3 5 v 内蒙占大学硕士学位论文 1 1 研究背景及意义 第1 章绪论 随着互联网在全世界范围内的普及,网上的信息数量呈指数级增长,与此同 时网上信息和网络用户的来源也日益广泛多样。为解决从海量信息中查找所需信 息的问题,人们发展了信息检索技术。但随着不同母语的人们交往日益密切信息, 获取需求呈现国际化的特点,即人们迫切希望只需提交用一种语言构造的查询就 能获得与此相关的多种语言的信息。因此跨语言信息检索的研究应运而生并正在 受到越来越多的关注。 蒙古语言是中国蒙古族自治地方的通用语言之一,是一个跨多国、多地区的 语言,是一个在全世界有近千万人使用的语言。随着信息技术的快速发展,用不 同的系统建立的各种文件和资源越来越多。这些资源是非常宝贵的,如何很好地 共享和利用这些资源是非常重要的。 我国是一个多民族国家,各民族都有着悠久的历史和灿烂的文化。蒙古文化 是中华文化重要组成部分之一,蒙古语言文字是中华语言文字宝库中的瑰宝,是 人类共同的资源和财富。因此,蒙古语言文字信息化是信息时代的必然选择,它 直接关系到我国信息技术与产品的完整性及国家的信息化进程,影响我国的国家 安全竞争力水平。只有加快蒙古语言文字信息化,尽快完成蒙古文的信息检索技 术的研究,促进蒙占文信息资源的共享利用、加强网络信息的安全,向世界( 特 别是周边国家) 宣传党的民族政策、民族团结、各民族的共同繁荣进步,改革开 放和社会主义的伟大成果,才能有效地抵御和战胜外来的信息渗透和各种宣传, 保证国家和民族地区的长治久安。 1 2 跨语言信息检索的研究现状 跨语言信息检索的研究始于2 0 世纪6 0 年代。为了提高国际联机检索的质量, 使人们能够利用和理解国外的文献信息资源,跨语言信息检索技术开始被关注并 应用到国际联机检索中。1 9 7 3 年,美国康乃尔大学的g s a l t o n 教授首次提出 了跨语言信息检索的问题【。当时对跨语言信息检索的研究主要是针对国际联机 跨汉蒙语言信息检索中的查询项翻泽方法研究 检索进行的。他利用手工编制的英语德语双语种词表,进行了跨语言信息检索 的尝试;1 9 7 3 年,他又编制了英语一法语词表,并对跨语言信息检索的效率进行 了评价。由此可知,c l i r 是受传统文献检索的启发,始于双语受控词表( c o n t r o l l e d v o c a b u l a r y ) 的编制与利用。引入受控词表的目的在于,通过规范检索用词界定其 内涵与外延,明确检索词语之间的层次结构和逻辑关系,使信息检索基于语义层 次而非字面组配,从而提高信息检索的精度和广度。 之后2 0 多年的发展,基于受控词表的跨语言信息检索理论日趋成熟,但是 却无法取得突破性进展,这主要是由受控词表本身的局限性带来的。首先是受控 词标引多语种文档,完全人工完成,成本高,速度慢,而且质量受标引员水平影 响大,从而限制了系统的规模;其次是受控词表的更新比较慢,不能及时反映新 出现的主题和术语;最后由于用户不熟悉受控词表的用法,尤其是不同系统所编 制的受控词表往往不一致。鉴于受控词表跨语言检索本身难以克服的局限性,以 及自然语言检索技术的发展,目前对跨语言信息检索的研究多侧重于自然语言的 检索,并且经过相关领域研究人员好几十年的不懈努力,跨语言信息检索领域已 经取得了很大的进展。 近年来,国内外先后有许多相关论文发表以及一些关于跨语言信息检索技术 的会议召开。这些国际会议全面反映了当今跨语言信息检索的研究热点和趋势。 国内对跨语言信息检索的研究起步比较晚,检索到的资料都在2 0 0 1 年以后,国 际上从2 0 世纪9 0 年代开始,有关跨语言信息检索研究空前繁荣,也是从那时候 起,国际上每年都会举行定期和不定期的针对跨语言信息检索的会议,比较重要 的会议有文本检索会议( t r e c ) 、跨语言评价论坛( c l e f ) 、日本国家科学信息系 统中心信息检索系统测试集会议f n t c l r ) 、美国计算机协会信息检索特殊兴趣小 组会议( a c ms i g i r ) t 2j 等。 在汉英等语言的跨语言检索方面已经有很多研究成果。例如,基于词典的查 询项翻译、名词短语的翻译。在检索方面的向量模型、t f i d f 模型、语言模型等 方法。在用于跨语言检索的机器翻译方法方面的短语识别与翻译模型。这些模型 在汉语、英语等语言的检索和跨语言检索方面能够取得较好的效果。但是,在蒙 古语相关的检索方面所进行的研究工作还比较少。 目前涉及到汉语、英语等语言的跨语言检索是研究的热点,而蒙古语言方面 内蒙古大学硕上学位论文 的检索研究还处在起步阶段。蒙古语言文字是属于阿尔泰语系的语言文字,是书 写方式极为特殊的复杂文字。它虽然是拼音文字,但是与西方文字和汉字大不相 同,她存在着一音多形,多音同形的现象。蒙古文构词词缀的特点和其它语言也 有较大差异。这些特点给蒙占文相关的信息检索带来了许多麻烦和困难,造成蒙 古文的检索比英文和汉文复杂得多。因此,蒙占文的信息检索问题不仅需要借鉴 已有的其它语言的信息检索技术,同时也需要在蒙古文信息检索技术方面有所创 新,还能推动蒙古语信息处理进一步走向深化。 1 3 论文的组织结构 本文共六部分内容,具体组织如下: 第一章首先论述了本文的研究背景,接着介绍了跨汉蒙语言信息检索系统的 研究现状、实现方法,最后总结了本文的研究内容和结构安排。 第二章详细介绍了跨语言信息检索的基本概念、信息检索的模型和查询项的 翻译方法。 第三章详细介绍了汉蒙命名实体与借词的翻译。 第四章详细介绍了本系统中查询项的翻译方法知识和统计相结合的查 询项翻译。 第五章通过测试集对试验结果进行分析,并对系统各部分性能进行评估。 第六章对本文的主要工作做了总结,指出了下一步的研究方向。 跨汉蒙语言信息检索中的查询项翻译方法研究 第2 章跨语言信息检索与查询项翻译综述 2 1 基本概念 2 1 1 什么是跨语言信息检索 随着计算机网络技术的发展,网络的普及应用使人们摆脱了地域的限制,可 以自由穿行于信息世界中,但网络信息用户的数量不断增长以及语言的多样性不 仅影响了网络信息价值的充分发挥,而且使这种自由受到了一定限制。因此人们 迫切的希望能用自己的母语以及熟悉的第二语言来构造查询检索式,获取另外一 种或几种语言表达的检索结果,为了解决以上的问题,跨语言信息检索技术应运 而生。 跨语言信息检索( c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l ,以下简称c l i r ) 3 1 , 是指用户以自己熟悉的语言来构建和提交检索提问式,计算机根据用户的检索要 求在其他不同语种的信息( 包括文本、语音、图像等) 中进行自动搜索,检索出符 合用户需求的包含多个语种的相关信息,得到的检索结果甚至可以翻译成用户指 定的语种。例如,用户用中文表示的检索条件,检索出来的文档集不仅有中文, 而且有英文、俄文、日文、蒙占文等,检索结果用描述检索条件的语言( 即中文) 表示。 用户查询提问式所使用的语言,一般为母语或熟悉的第二外语,称之为源语 言( s o u r c el a n g u a g e ) ,而系统检索到的信息所包涵的语种,称之为目标语种( t a r g e t l a n g u a g e ) 。如何在源语言与目标语言之间建立沟通桥梁,是目前跨语言信息检索 研究的核心问题。跨语言信息检索结合了传统文本信息检索技术和机器翻译技术, 不仅可以使检索更加容易,还可以提高查全率。 2 1 2 跨语言信息检索的实现方法 跨语言信息检索技术是传统计算机信息检索技术和语言自动处理技术的有 机结合,因此跨语言信息检索一般可以分为三个步骤:第一,多语种信息的搜集 以及多语种信息数据库的建立;第二,应用语言自动处理技术实现提问语种和信 息语种的之间的统一;第三,应用单语种信息检索技术实现提问式与数据库信息 的匹配。其中语种的统一是实现跨语言信息检索的关键技术,主要通过四种方式 4 内蒙古大学硕上学位论文 实现,即提问式翻译、文献翻译、中间语种转换及非翻译方法。 2 1 3 跨语言信息检索的研究重点 跨语言信息检索需要解决如下几个主要的问题: ( 1 ) 提问与文献分属于不同语言的问题。这是跨语言信息检索中的最主要 特征之一,由于提问与文献分属不同的语言的特性,因此在两者之间需要通过词 典等方式建立匹配的对应关系。 ( 2 ) 词的歧义和多义性的问题。由于原始提问中有些词义的不确定性,系 统中需要借助歧义性、多义性分析机制,将原始提问排除歧义后转换成最终提问。 ( 3 ) 提问中词的切分问题。一些语言( o h 中文、日文、韩文等) 由于词与词 之间没有明显的分隔符号,因此词的切分问题成为此类语言的跨语言检索研究要 点之一。 ( 4 ) 文献的多语言性问题。在跨语言检索系统中,由于原始文献是用不同 的语言书写的,因此语种识别是检索的基本工作,此类情况常出现在自动标引的 系统中。 ( 5 ) 输出结果的排序方式问题。检索结果中,不同语种的文献如何排序, 如何对不同语种的文献进行相关度的计算,也是跨语言资讯检索系统必须研究的 问题。 2 1 4 检索的性能评价 信息检索系统是为了向用户提供信息而产生的,但是由于用户查询请求具有 模糊性和不准确性,系统检索出的文档往往不一定是用户想要的结果,因此需要 将检索结果按结果集中的文档与查询之间的相关程度进行排序,通常排在最前面 的文档就是最符合用户需求的结果,因此,信息检索系统需要对检索结果的准确 程度进行评价,这种评价一般是建立在某个测试集的基础上。测试集应当包括一 个文档库,一组用户查询以及由专家指定的对应于每个查询的一组相关文档。 目前信息检索的性能评价主要有以下几个指标:查全率( r e c a l l ,也称作召 回率) 、查准率( p r e c i s i o n ,也称作准确率) 和f 一度量( f m e a s u r e ) 。 对于某个测试集,设查询句为q 对应的相关文档集合为r ,用r a 表示该集 合中的文档数目。假设用给定的( 将要评价的) 检索策略对查询句进行查询,并 跨汉蒙语言信息检索中的查询项翻译方法研究 生成一个文档集a ,用a 表示该集合中的文档数目。另外,设如表示集合r 与 集合a 的交集中的文档数量,如图2 1 所示。 文档集是中的 相关文档 图2 1 查询实例 f i g u r e2 1q u e r yi n s t a n c e s 查全率和查准率的定义如下: 查全率:检索出的相关文档数如与相关文档总数r 的比值。 眦洲= 哥 协, 查准率:检索出的相关文档数如与检索出的文档总数a 的比值。 1 尺口i 鲫册孔= 可 ( 2 2 ) 一般认为,对于一个具体的检索系统,响应时间越短,占用的空间越小,查 全率和查准率越高,系统越有效。查准率描述了检索系统的查询开销,查全率是 检索系统查找用户所需信息能力的标志,速度是检索系统响应用户要求的时间度 量。这三者相互制约,速度随着查全率的增加而减慢,查准率随查全率的增加而 减少。查准率和查全率是两个相互矛盾的衡量指标,在同一运行环境下,一方面 性能提高,另一方面性能一般就会有所下降,它们评价的是检索出的文档的不同 方面,究竟采用哪种评价指标取决于用户所侧重的目标。在某些情况下想要兼顾 查准率和查全率,则可使用常用的f 度量( f m e a s u r e ) ,其定义如下: 2 + 1 ) p r 吻27 万f ( 2 3 ) 其中是一个调整参数,用于以不同权重综合查准率和查全率。当卢等于l 6 内蒙占大学硕士学位论文 时,表示查准率和查全率被平等地对待,此时f 一度量( f m e a s u r e ) 又被称为f l , 定义如下: r = 罴 ( 2 - 4 ) 上面关于查全率和查准率的定义是以假设用户检查了系统检索的所有结果 文档为前提的。实际上,系统一般不会一次性地将检索结果中的所有文档提供给 用户,而是先要对这个结果集中的所有文档进行相关排序,然后用户对这个排序 结果进行检查,或者系统实现时人工确定一个阈值,相关度大于阈值的检索文档 才提供给用户,或者人为确定返回的相关文档数。在这些情况下,查全率和查准 率指标会随着用户对检索结果的检查进程的变化而变化,也会随返回文档数的变 化而变化,如果想要得到更为准确的评价,就应当绘制查准率查全率曲线。 2 2 信息检索模型 信息检索模型是指如何对查询和文档进行表示,然后对它们进行相关度计算 的框架和方法,其本质是对相关度的建模。信息检索模型是信息检索中的核心内 容之一。 下面介绍几种具有代表性的信息检索模型。 2 2 1 布尔模型 布尔模型【4 】是基于集合理论和布尔代数的一种简单的检索模型。它定义了一 个二值变量集合来表示文档。这些变量对应文档中的特征项,一般是由训练文档 集中的词或词组组成,如果对文档内容有贡献则赋予t r u e ,否则为f a l s e 。检索 过程中,查询被表示成有明确语义的布尔表达式,根据用户提交的检索条件是否 满足文档表示中的逻辑关系,可以将检索文档分为两个集合:匹配集和非匹配集。 文档用一组有代表性的关键词即标引词集合来描述,用m 表示系统中标引 词的数目,t i 表示标引词,t = t 1 ,t 2 ,t m 是所有标引词的集合,d j 表示文档,w i , j 是文档d i 中标引词t i 的权值。 用布尔表达式表示用户的查询句,查询句通常以语义精确的布尔表达式的方 式输入,如q = t l ( t 2 - - 、t 3 ) ,通过对文档标识与查询句的逻辑比较获取文档信息。 布尔模型定义关键词只有两种状态,出现或不出现在某一篇文档中,即关键词权 跨汉蒙语言信息检索中的查询项翻译方法研究 重都表现为二元性:w i , j 0 ,1 。查询句q 是一个传统的布尔表达式,文档与q 的相关度定义如下: s t m ( d ,q ) = 三三主三;) 。2 5 , 如果s i m ( d j ,q ) = l 表示查询句q 与文档d j 相关,否则表示两者不相关。 布尔模型的优点如下: ( 1 ) 简单,计算的代价相对较小。现代很多搜索引擎中仍然包含布尔模型 的基本思想,例如g o o g l e 的高级检索功能。 ( 2 ) 易于表达一定程度的结构化信息。 布尔模型的缺点如下: ( 1 ) 由于布尔模型获取文档的机制是基于二进制的,当一篇文档满足查询 时则认为这篇文档与查询的相关度为l ,不满足时则认为相关度为0 ,难以将文 档按照与查询句的相关度来排序,而且检索返回的相关文档数量要么相当庞大要 么几乎没有。 ( 2 ) 布尔模型的查询句中没有说明索引项的相对重要性,即查询句中的索 引项的权重是相等的。 ( 3 ) 布尔模型中的逻辑操作符号,a n d 、o r 和n o t 的含义难以用自然语 言表述。与此同时,对于用户而言,很难将一个查询公式化,熟练掌握布尔操作 符的使用方法是比较困难的,从而影响检索性能。 2 2 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) t s l 克服了布尔模型中二元权值过 于严格的缺点,采用非二元权值来表示关键词在用户查询和文档中的权重。在 v s m 中,将文本包括文档、查询、或文章的一段等看作是由一组索引词( t l ,t 2 , t n ) 构成,对于每一个索引词t i 根据其在文档中的重要程度赋以一定的权值w i , 将其转换成一个n 维标系,w i , w 2 ,w n 为对应的坐标值。将文档d j ,映射为向量 空间的一点,用1 1 维向量表示,即d j = ( w l j ,w 2 j ,w 。j ) ,查询q 也用1 1 维 向量表示,即q = ( w l q ,w 2 q ,w n ,q ) ,这样查询q 与文档d j 的匹配问题就转 化成了向量空间中的矢量匹配问题。两者的相关度可以用向量之间的余弦夹角来 内蒙古大学硕上学位论文 度量,如图2 2 所示。 计算公式如下: 图2 2d j 和q 的向量表示 f i g u r e2 2v e c t o rb e t w e e nd ja n dq s i m ( d j ,q ) = c o s 百) = ( 2 6 ) 其中,w i j 表示索引词t i 在文档d j 中的权重,w i ,q 表示索引词t i 在查询q 中的 权重。 目前最常用的权重估计公式是著名的t f i d f 公式: w i d = 吮,f 嘶 1 d f i21 。g 面( 2 - 7 ) 其中觚为索引词t i 的文档频,n 为文档总数,t 毛为索引词t i 在文档d j 中的 词频,i d f i 为索引词t i 的反文档频。 i f i d f 公式有一个缺点,即词频t ,j 的计算未考虑文档的长度,例如,某个 查询词在长度为1 0 0 0 的文档a 中出现5 次,而在长度为1 0 0 的文档b 中出现3 次,则该查询词在文档b 中的比重较高,因此文档b 应该排在文档a 的前面, 但因为t j 计算的是次数,结果文档a 反而会排在前面,造成检索的误差。 为了降低这种误差,改进检索性能,r o b e r t s o na n dw a l k e r 提出了著名的b m 2 5 9 q ww nm 跨汉蒙语言信息检索中的查询项翻译方法研究 检索模型【6 1 ,该模型把词频对文档长度进行了归一化处理,其计算式如下: t d f i - 6l o g 帮 c 岛垒确t f i , j 娘j 七肴 w i ,= t j ; j f d s i m ( 4 ,q ) = c ix f d 7 ( 2 8 ) 其中f d ,亡五0 ,蜕j ,分别是对v s m 中的锄,蚴,w j 的修正,弓代表编 号为,的文档,q 为查询句,t 为查询句中关键词的个数,c f 为查询关键词i 在查 询句q 中的出现次数,行为文档总数,彩为查询关键词的文档频,粝为文档j 的 文档长度( 文档中词的个数) ,西为所有文档的平均长度。 向量空间模型的优点如下: ( 1 ) 向量空间模型使得对查询向量中索引项权重的赋值成为可能,从而改 善了检索性能。 ( 2 ) 利用计算得到的相关度可以对获取的文档按照相关度大小排序,使得 与查询相关程度高的文档排在前面,从而有利于用户查找。 ( 3 ) 向量空间模型的部分匹配策略使得文档的检索可以部分匹配查询,从 而能够检索到更多的文档。 向量空间模型的缺点如下: ( 1 ) 向量空间模型中,索引项之间是被假设为相互独立的,而实际上一篇 文档中的索引项间可能存在着一定的联系,从而会影响检索性能。 ( 2 ) 在查询中的缺点是不能像布尔模型一样使用索引项之间的逻辑关系。 2 2 3 概率模型 布尔模型和向量空间模型都将文档标引词视为相互独立的项,忽略了标引词 间的关联性,概率模型f 7 1 考虑了标引词、文档间的内在联系,利用标引词之间以 l o 内蒙卉大学硕上学位论文 及标引词与文档间的概率相依性进行信息检索。 概率模型试图在概率论的框架下解决信息检索问题。其基本思想是:给定一 个用户查询,存在一个文档集合,该集合只包含完全相关的文档而不包含其他不 相关的文档,这个文档集合称之为理想文档集。把构造查询的过程看成是详细描 述理想文档集属性的过程。在开始描述理想文档集之前就需要进行猜测,得到文 档集之后由用户查阅,并判定哪些文档相关,哪些不相关。然后,系统利用这些 信息来改进理想文档集的描述。多次重复这一过程,使得这个描述逐步接近理想 文档集的真实描述。 对概率模型而言,标引词权值都是二值的,即w i j 0 ,1 ,w i ,q 0 ,l ,查询 q 是标引词的一个子集,用r 表示己知的相关文档集( 或最初的猜想集) ,用r 表 示r 的补集,即不相关的文档集,条件概率p ( r i d j ) 表示文档d j 与查询q 不相关 的概率。文档d j 与查询q 的不相关度s i m ( d j ,q ) 可以定义为两者的比值: s 啡q ) = 粼 ( 2 _ 9 ) 根据贝叶斯定理: ( 咖) = ( 2 - 1 0 ) p ( d j l r ) 表示从相关文档集r 中随机选择文档d j 的概率,p ( r ) 表示从整个集 合中随机选择的文档是相关的概率,p ( d j l r ) 表示从不相关的文档集中选择的文档 d j 的概率,p o r ) 表示从整个集合中随机选择的文档是不相关的概率。 概率模型的优点是:从理论上来说,文档能够根据它们与查询相关的概率 按递减的顺序排列。 概率模型的缺点是: ( 1 ) 需要预先将文档分成相关和不相关的集合,在查询信息不足的时候, 分类的精度不高,可能造成检索性能f 降。 ( 2 ) 查询和文档中每个索引词的权重都是二值的,没有考虑它们出现的频 率信息。 跨汉蒙语言信息检索中的查询项翻译方法研究 2 2 4 统计语言模型 统计语言模型【8 】,简称语言模型,最初来自于基于统计方法的自然语言处理 系统的研究,如语音识别系统、字符识别系统和机器翻译等。语言模型就是表示 语言的基本单位( 词、词组或句子等) 的分布函数,它描述了该语言的基于统计的 生成规则,常用的语言模型有n g r a m s 模型【9 】、决策树语言模型( d e c i s i o nt r e e m o d e l ) t l o l 和最大熵模型( m a x i m u me n t r o p ym o d e l ) 1 。 1 9 9 8 年,p o n t e 和c r o f t 首次将语言模型应用到文档检索中,认为文档的相 关性可以通过文档“产生 查询的可能性来衡量。该模型假设用户头脑中有一个 能够满足他所需要的理想文档,用户从这个理想文档中抽取词汇作为查询条件, 用户所选择的查询条件词汇能够将这个理想文档同文档集合中的其他文档区分 开。这样的查询条件可以看作是由理想文档生成的能够表达理想文档的文本序列。 p o n t e 的研究思路是:首先估计每篇文档的词汇概率分布,然后计算从这个分布 抽样得到的查询条件的概率,并按照查询条件生成概率来对文档进行排序。 语言模型和传统的概率模型可以看作是同一个概率框架下不同的推导结果, 但两者却存在以下两个不同点: ( 1 ) 基本思想完全不同。在传统的概率模型中,文档d 和查询q 的相关性 排序函数定义为事件r ( 文档是否满足检索要求) 的概率,即s i m ( q ,d j = p 俾id ) , 这里的相关度排序函数定义虽然比较直观,但是相关性是一个抽象的概念,该定 义本身没有也无法具体给出r 的定义,所以该模型在理论上有很大的模糊性; 而在语言模型中,相关度排序函数则定义为由文档的语言模型生成检索的概率, 即了f ( q ,d ) = p ( q l 矽,它是建立在语言模型理论的基础上,定义明确,便于操作。 ( 2 ) 具体实施方法不同。传统的概率模型由于没有也无法对相关性做出明 确的定义,因此一般需要在检索中,首先给出带有相关性标记的文档作为建立模 型的基础,在实际中,要针对每个检索给定学习数据,几乎不可能;而语言模型 可以基于每个文档直接计算出相关性排序函数,从而有效的解决上述问题,同时 语言模型还可以为传统的概率模型形成初始检索。 2 2 5 神经网络模型 在信息检索系统中,通过对文档向量与查询向量的比较来计算排序。因此文 档与查询的标引词必须进行匹配和加权才能计算排序。由于神经网络是一种很好 1 2 内蒙古大学硕上学位论文 的匹配模式,人们很自然地想到把它作为信息检索的一种可供选择的模型。 人类的大脑由几十亿个神经元所组成,每个神经元都可以看成是一个基本处 理单元,当受到输入信号的刺激时,就会生成输出信号作为反馈。一个神经元发 出的信号通过突触链接反馈到其他神经元中,这些神经元自身又能发出新的输出 信号。这一过程可以在神经元的若干层之间来回反复,通常将其称为传递激活过 程。对输入信号的处理( 如分析、解释) 可能导致大脑作出物理反应( 如电动机效应) 来回应。 神经网络1 1 2 1 是大脑中相互连接的神经元网络结构的一种简单化的图形表示, 图形中的节点表示处理单元,边表示突触链接。为了模拟突触链接在大脑中随时 间不断变化的强度,为神经网络的每一条边分配一定的权值。起初,结点的状态 根据它的活跃值( 该值是一个关于初状态和接收信号的函数) 来定义,根据结点的 活跃值,结点a 可能向邻近的结点b 发送一个信号。结点b 的强度取决于结点 a 和结点b 之间的连接边的权值。 用于信息检索的神经网络模型可以用图2 3 来描述,该模型由三层所组成: 输入层表示由用户输入的查询,中间层表示文档中的关键词语,输出层表示文档 本身。查询结点通过向文档词语结点发出信号来开始推理过程,文档词语结点也 可以向文档结点发出信号。信号从查询词语结点到文档结点就完成了第一个阶段。 神经网络在信号传递的第一个阶段之后并没有停顿下来,文档结点依次直接 向文档词语结点返回新的信号。接到信号后,文档词语结点再次直接向文档结点 发出新的信号并重复这一过程。信号在每一次反复中会逐渐衰减,传递激活过程 最终会停顿下来。即使文档d i 不包含任何的查询词语,也有可能在这一过程中被 激活。这一过程可以解释为内置词典的激活。 为了改进检索效果,在第一个传播阶段之后,神经网络继续传递激活过程在 这一过程中,更改了初始的向量排序,这有点类似于用户相关反馈循环。为了使 这种处理更加有效,可以定义一个最小激活阈值,处于该阈值之下的文档结点不 发出信号。 跨汉蒙语言信息检索中的查询项翻译方法研究 图2 3 神经网络模型 f i g u r e2 3n e u r a ln e t w o r km o d e l 2 2 6 基于本体论的信息检索模型 随着自然语言语义研究的深入以及w o r d n e t 等字典工具的日益成熟,近年来 提出了基于本体论的信息检索模型【1 3 】【1 4 】【1 5 】。在这个模型中首先需要建立领域本 体,它提供了某个专业学科领域中概念的词表以及概念间的关系,是某一领域的 知识表示。 基于本体的检索过程为: ( 1 ) 用户向信息检索系统提出检索申请; ( 2 ) 信息检索系统产生一个界面和用户交互,界面接受用户提出的查询关 键字后,系统查询本体库,从中找出该关键字的各个领域,然后将其领域以及在 该领域下的关键字的含义罗列给用户; ( 3 ) 用户此时根据自己的意图,在界面上确定所需查找的领域及含义; ( 4 ) 系统将经过本体规范后的请求交给全文搜索引擎进行检索; ( 5 ) 全文搜索引擎返回检索信息给用户。 该模型解决了从查询语言到检索语言之间转换过程中出现的语义损失和曲 解等问题,保证在检索过程中能够有效地确定用户的查询意图,获得预期的检索 信息。 1 4 内蒙古大学硕上学位论文 2 3 查询项的翻译方法 2 3 1 基于机器翻译的查询翻译方法 利用机器翻译系统进行查询翻译的优势就在于可以利用机器翻译系统的词 法、句法、语义分析得到更为准确的翻译结果。但是将机器翻译系统应用在查询 翻译中并没有取得很好的效果【l 酬,其主要原因包括:( 1 ) 机器翻译系统的翻译质 量不高;( 2 ) 查询式长度通常很短,甚至只是一个词从而影响了机器翻译的效果 【1 7 】;( 3 ) 多数商用的机器翻译系统只返回一个最优翻译结果,不提供可供选择的 翻译列表。但随着机器翻译技术的发展,很多学者选择使用机器翻译系统进行查 询翻译,如在第五届n t c i r 会议上,几乎所有的双语和多语跨语言信息检索的 参与者都利用机器翻译系统或者是机读字典作为翻译资源【1 8 】。 2 3 2 基于知识的查询翻译方法 此种方法主要利用人类专家总结的知识,例如机读字典、本体、主题词表、 百科全书等完成对查询式的翻译。 ( 1 ) 基于机读字典的查询 翻译基于字典的查询翻译方法是最常用的查询翻译方法之一,是指从机读双 语字典中抽取查询式中每个词或者词组的合适的翻译进行替换的方法。常用的从 字典中选择词语的方法主要有:全部选择、选择前n 个或是选择最合适的n 个。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论