(计算机应用技术专业论文)基于潜在中间语义的多语言信息检索研究.pdf_第1页
(计算机应用技术专业论文)基于潜在中间语义的多语言信息检索研究.pdf_第2页
(计算机应用技术专业论文)基于潜在中间语义的多语言信息检索研究.pdf_第3页
(计算机应用技术专业论文)基于潜在中间语义的多语言信息检索研究.pdf_第4页
(计算机应用技术专业论文)基于潜在中间语义的多语言信息检索研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于潜在中间语义的多语言信息检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着因特网的发展,由于网络资源语种的多样性和网络用户所掌握语言的 差异性,不可避免地给人们利用网络检索信息带来了语言障碍。例如,一个中国 用户可能希望找到英语信息,而他的英语水平又不足以使他能用英语准确地表达 自己的需求。多语言信息检索( m u l t i l i n g u a li n f o r m a t i o nr e t r i e v a l ,m l i r ) 正是 为了满足这种需要而产生的,它是指用户用母语提交查询,搜索引擎在多种语言 的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。其主要的 困难在于语言之间在表达方式和语义对应上的不确定性。 基于辞典的模式和机器系统翻译的技术一度成为人们进行多语言信息检索 的热点研究技术。然而仅用翻译模型进行多语言信息检索,难以处理词汇翻译的 多对多问题和未登录词问题。通过使用平行语料库,从语义( 概念) 层面上来构 建多语言信息检索模型,是当今多语言信息检索研究的新趋势。 利用语言之间的潜在中间语义对应关系,把词空间映射到一个抽象的概念空 间,可避免直接翻译到目标语言而导致的语义偏离,能部分解决词汇歧义和未登 录词问题。据此,本文应用扩展的偏最小二乘理论提出了一种基于潜在中间语义 的多语言信息检索模型:在统一框架下对双语语料库的平行文档进行分析建模, 提取语言之间的潜在中间语义对应关系,在潜在中间语义空间中进行检索,从而 实现多语言信息检索。 本文主要工作: 1 、分析并深入研究了基于辞典翻译进行多语言信息检索存在的翻译歧义问 题,针对该问题,应用扩展的偏最小二乘理论,提出了一种同时考虑双语平行文 档的语义对应模型; 2 、在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上, 对平行文档进行分析建模,建立了中英、英法跨语言信息检索模型,并利用英语 作为过渡语言,建立了中法跨语言信息检索模型; 3 、在t r e c 5 & 9 和t r e c 3 的a p & s d a 数据集上进行了中、英、法三种语言的 跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本 文提出的模型表现了较好的性能。 关键词:偏最d , - 乘;多语言信息检索;平行语料库;潜在中间语义;潜在中间 语义空问 a b s t r a c t w i t ht h er a p i dd e v e l o p m e mo ft h ei n t e r n e t ,t h ed i v e r s i t yo fn e t w o r kr e s o u r c e s l a n g u a g e sa n dt h ed i f f e r e n c e so fl a n g u a g e sw h m ht h ei n t e r n e tu s e r su s ei n e v i t a b l y r e s u l ti nl a n g u a g eb a r r i e rw h e nt h eu s e r sr e t r i e v ei n f o r m a t i o nf r o mt h ei n t e r n e t f o r e x a m p l e ,ac h i n e s eu s e rm a y w a n tt of i n di n f o r m a t i o ni ne n g l i s h ,b u th i sp r o f i c i e n c y o fe n g l i s hc a n tm e e tt h er e q u i r e m e n tt om a k eh i m s e l fu n d e r s t o o d a i m i n gt os o l v e t h ep r o b l e m ,m u l t i l i n g u a li n f o r m a t i o nr e t r i e v a l ( m l i r ) m a k eu s e r ss u b m i tq u e r i e s i nm o t h e rl a n g u a g e ,a n ds e a r c h i n ge n g i n er e t r i e v e si n f o r m a t i o nf r o mm u l t i l i n g u a l d a t a b a s e s ,t h e ni tc a nr e n d e rd o c u m e n t si na l ll a n g u a g e st h a tc a na n s w e rt h eu s e r s q u e s t i o n s w h i l et h em a i nd i f f i c u l t yo fm l i r l i e si nt h eu n c e r t a i n t yo ft h el a n g u a g e e x p r e s s i o na n dt h es e m a n t i cc o r r e s p o n d e n c e sa m o n gl a n g u a g e s t h et e c h n o l o g yb a s e do nt h ep a t t e r no fd i c t i o n a r ya n dt h em a c h i n et r a n s l a t i o n s y s t e mw a so n c et h ef o c u so fr e s e a r c h i n gt e c h n o l o g yo fm u l t i l i n g u a li n f o r m a t i o n r e t r i e v a l h o w e v e r , o n l yv i at r a n s l a t i o nm o d e lt op e r f o r mm u l t i l i n g u a li n f o r m a t i o n r e t r i e v a l ,i ti sd i f f i c u l tt os o l v et h ep r o b l e m so fl e x i c a lt r a n s l a t i o n :p o l y s e m ya n d u n k n o w nw o r d s n o w a d a y s ,an e wt r e n di nt h er e s e a r c ho nm u l t i l i n g u a li n f o r m a t i o n r e t r i e v a li st oc o n s t r u c tam u l t i l i n g u a li n f o r m a t i o nr e t r i e v a lm o d e la tt h es e m a n t i c ( c o n c e p t ) l e v e lb yu s i n gp a r a l l e lc o r p u s m a k i n gu s eo ft h e l a t e n ti n t e r l i n g u as e m a n t i cc o r r e s p o n d e n c e sb e t w e e n l a n g u a g e s ,t h ew o r ds p a c ec a nb em a p p e dt oa na b s t r a c tc o n c e p ts p a c e ,s oi t c a l l a v o i dt h es e m a n t i cd e v i a t i o nf r o mad i r e c tt r a n s l a t i o nt ot h et a r g e tl a n g u a g e ,a n di t c a l ls o l v et h ep r o b l e mo fw o r dp o l y s e m ya n du n k n o w nw o r d sp a r t i a l l y t h e r e f o r e , i nt h i sp a p e r , w ep r o p o s eam u l t i l i n g u a li n f o r m a t i o nr e t r i e v a lm o d e lb a s e do nl a t e n t i n t e r l i n g u as e m a n t i c sb ya p p l y i n gt h et h e o r yo f e x t e n d e dp a r t i a ll e a s ts q u a r e s :w e e x p l o i tp a r a l l e ld o c u m e n t si nt h eb i l i n g u a lc o r p u si nt h eu n i f i e df r a m e w o r k , s o a st o e x t r a c tt h el a t e n ti n t e r l i n g u as e m a n t i cc o r r e s p o n d e n c e sb e t w e e nl a n g u a g e s ,a n dt o r e t r i e v ei n f o r m a t i o ni nar e n d e r e dl a t e n ti n t e r l i n g u as e m a n t i cs p a c e m u l t i l i n g u a l i n f o r m a t i o nc a nb er e t r i e v e du s i n gs u c has p a c e t h em a i nw o r k si nt h i sp a p e ra r ea sf o l l o w s : f i r s t l y , w eh a v ea n a l y z e da n di n - d e p t hs t u d i e dt h ep r o b l e mo f t r a n s l a t i o n a m b i g u i t y f r o mt h e m u l t i l i n g u a l i n f o r m a t i o nr e t r i e v a lb a s e do nd i c t i o n a r y t r a n s l a t i o n i nv i e wo ft h ep r o b l e mo ft r a n s l a t i o na m b i g u i t y ,w et a k et h ep a r a l l e l b i l i n g u a lc o r p u si n t oa c c o u n tt op r o p o s eas e m a n t i cc o r r e s p o n d i n gm o d e lb ya p p l y i n g u t h et h e o r yo fe x t e n d e dp a r t i a ll e a s ts q u a r e s ; s e c o n d l y , b a s e do nac h i n e s e e n g l i s hp a r a l l e lc o r p u sb u i l tb yo u r s e l y e sa n d a n e n g l i s h - f r e n c hp a r a l l e lc o r p u sf r o mt h eu n i v e r s i t yo fm o n t r e a l ,e x p l o i t i n g p a r a l l e ld o c u m e n t s ,w eh a v ec o n s t r u c t e dac h i n e s e e n g l i s ha n da l le n g l i s h f r e n c h c r o s s - l a n g u a g ei n f o r m a t i o nr e t r i e v a lm o d e l ,t h e nt a k i n ge n g l i s ha sat r a n s i t i o n l a n g u a g e ,w eh a v ec o n s t r u c t e dac h i n e s e - f r e n c h c r o s s 1 a n g u a g ei n f o r m a t i o n r e t r i e v a lm o d e l ; t h i r d l y , w eh a v ec a r r i e do u te x p e r i m e n t so ft r i l i n g u a l c r o s s 1 a n g u a g e i n f o r m a t i o nr e t r i e v a l ( n a m e l y c h i n e s e ,e n g l i s ha n df r e n c h ) o nt r e c 5 & 9a n d t r e c 3 sa p & s d ad a t as e t s a f t e r m a k i n gc o m p a r i s o nw i t hm o n o 1 i n g u a l i n f o r m a t i o nr e t r i e v a l ,i tt u r n so u tt h a to u rr e t r i e v a lm o d e l p e r f o r m sb e t t e r k e yw o r d s :p a r t i a ll e a s ts q u a r e s ,m u l t i l i n g u a li n f o r m a t i o nr e t r i e v a l ,p a r a l l e l c o r p u s ,l a t e n ti n t e r l i n g u as e m a n t i c s ,l a t e n ti n t e r l i n g u as e m a n t i c s p a c e i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。 学位论文作者签名:签字日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 签字日期:年 月 日 导师签名: 签字日期:年月 日 基丁满任中间语义的多语言信息检索研究 1 1 研究背景 第一章引言 在当今的信息时代,随着计算机和网络的迅速发展,网络上每天都有海量的 数字化信息在生成、存储、传播和转换。人们也越来越关注如何从浩如烟海的信 息海洋中迅速而准确地获取所需信息。但网络上的信息纷繁芜杂,给人们获取信 息带来了一定的困难。 在因特网发展的初期,英语信息占据着主要地位。伴随着因特网的国际化, 网络上各种语言的信息都逐渐丰富,英语资源所占比例已经开始明显下降。目前 网络上有1 6 0 多种语言的信息。随着信息交流的国际化,用户有时往往同时处理 几种语言的信息。如果让用户同时在几种语言之间切换查询词,必定加大了用户 搜索的困难。因特网的普及使人们摆脱了地域限制,可以自如地进行信息交流, 但语言的多样性使这种自由受到了一定的限制。语言障碍在信息交流过程中一直 存在,而网络的快速发展拓展了信息交流的空间,使得这个问题变得更加突出。 这样,对多语言信息检索( m u l t i l i n g u a li n f o r m a t i o nr e t r i e v a l ,m l i r ) 的研究便 应运而生。 多语言信息检索是指用户用一种语言的查询来检索其它语言的信息。目前研 究最多的是多语言文本检索和多语言语音检索。多语言信息检索主要涉及信息检 索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。多语言信息检 索系统的检索功能,可以利用现有的检索系统来实现,也可以重新构造新的检索 系统或检索功能模块来实现。 6 0 年代末7 0 年代初,康奈尔大学的s a l t o n 教授利用手工编制的英语一德语双语 种词表,最先对多语言信息检索的效率进行了评价。根据实验结果,s a l t o n 得出 这样一个结论,应用严格意义上构建的多语种词表,多语言信息检索系统能够达 到单语种信息检索系统的检索效果。1 9 7 3 年,s a l t o n 又利用一个英语一法语双语种 词表,进行跨语言信息检索实验,同年发表了题为 e x p e r i m e n t si nm u l t i l i n g u a l i n f o r m a t i o nr e t r i e v a l ) ) 的论文,这是多语言信息检索这一术语首次出现在文献标 题中。同时,加州大学计算机系p e v z n e r 教授使用一个布尔精确匹配受控词表文 本检索系统进行了英语一俄语跨语言信息检索实验,p e v z n e r 的实验再次证实了 s a l t o n 的结论。在此之后,受控词表多语言信息检索系统很快得到了应用。 但是针对受控词表多语言信息检索的自身局限,尤其是用户利用方便程度等 诸多方面的问题。进入9 0 年代,人们开始探讨多语言自由文本信息检索的可能性。 l a n d a u e r 、l i t t m a n 和d u m a i s 在1 9 9 0 1 9 9 1 年研究出了种基于语料库的跨语言自 硕十学位论文 由文本检索技术,这种技术被称为“跨语言潜在语义索引”( c r o s s l a n g u a g el a t e n t s e m a n t i ci n d e x i n g ,简称c l - l s i ) 【。1 9 9 1 年,r a d w a n 和f l u h r 等提出了一种使用 人工编码的翻译知识,通过查询翻译策略跨越语言障碍的多语言信息检索技术 1 2 j 。1 9 9 9 年,n i ej i a n y u n 教授等人1 1 3 j 利用万维网资源构建了平行语料库,并开发 了一种使用从力维网自动抽取的平行文本评估翻译概率的方法。目前对多语言信 息检索的研究,多侧重于自然语言的检索,并且经过相关领域研究人员几十年的 不懈探索,多语言信息检索领域已经取得了很大的进展。 1 2 多语言信息检索的研究现状 i n t e m e t 的蓬勃发展使人们摆脱了地域限制,可以自由穿行于信息世界。然 而,语言的多样性却使这种自由受到了一定限制,同时也影响了网络信息价值的 充分发挥。针对这种语言障碍,人们提出了相应的解决方案,如在线词典、在线 翻译、机器翻译、多语言信息检索和多语言搜索引擎等。 其中,针对多语言信息检索研究的人员和机构开始急剧增加,并且己经成为 国内外检索领域研究的热点问题之一,每年定期召开4 次国际会议:t r e c 、c l e f 、 n t c i r 和a c ms i g i r 。 1 文本检索会议( t e x tr e t r i e v a lc o n f c r e n c e ,1 i 通c ) ,是国际信息检索领域最 具权威的年度测评活动。它是由美国国家标准技术研究所( n i s t ) 和国防部高级 研究计划局( d a r p a ) 共同发起和主办的,始于1 9 9 2 年,是t i p s t e r 文本计划的 一部分。多语言信息检索是t r e c 中比较重要的议题之一,t r e c 6 1 1 六次会议 对于多语言信息检索问题给予了极大的关注,但每一次的侧重点有所不同。 t r e c 6 、7 、8 这三次会议主要对欧洲语言( 英语、法语、德语以及意大利语) 的跨语言检索问题进行了研究;在t r e c 9 会议上,对中英文的跨语言检索问题 进行了研究;在t r e c i o 、1 1 两次会议上,对于阿拉伯语、英语和法语之间的跨 语言检索问题进行了研究;从t r e c l 2 会议起不设该项目的测评。t r e c 中c l i r 专题的主要目标是:第一,通过创建一个大规模的多语种测试集以及一个通用的 评价体系,为测试多语言信息检索技术创建基础结构;第二,调查某个多语种语 境中的有效评价程序;第三,提供一个交流研究观点的论坛。可以从t r e c 的主 页h t t p :t r e c n i s t g o v 上获取大量有关多语言信息检索的文献资料和测试文档。 2 跨语言评价论坛( c r o s s l a n g u a g e e v a l u a t i o nf o r u m ,c l e f ) 。它于2 0 0 0 年9 月起每年举办一次,至今已有九届。该论坛侧重于欧洲范围内跨语言检索问题的 评价,其目标是加强多语言和多模式检索系统的设计研究,其测试项目包括欧洲 语言的单语言检索、跨语言与多语言检索、受限领域检索以及交互检索,涉及的 欧洲语种有十多种。它的主页是h t t p :c l e f i s t i c n r i t ,目前己经有三本会议论文集 公开发表并可以检索到。分别是针对跨语言信息检索的评价( c r o s s l a n g u a g e 2 基丁潜在中间语义的多语言信息检索研究 i n f o r m a t i o nr e t r i e v a la n de v a l u a t i o n ) 、跨语言信息检索系统的评价( e v a l u a t i o no f c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a ls y s t e m ) 和跨语言信息检索的进展( a d v a n c e s i nc r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l ) 为主题的学术会议论文集。 3 日本国家科学信息系统中心信息检索系统测试集会议( n 1 1 n a c s i st e s t c o l l e c t i o nf o ri rs y s t e m s ,n t c i r ) ,这是由日本国立信息研究所n i i 主办的信息 技术测试集测评会议,从1 9 9 9 年起,每年举办一次。该会议主要侧重于亚洲语 言( 如中文、日语和朝鲜语) 的跨语言信息检索问题的研究,会议还包括其他一 些研究项目,如专利检索、问答系统和网络检索等。n t c i r l 、2 主要处理的是 日英科学文摘问题,n t c i r 3 处理基于多语言环境的单一语言信息检索对比技术 等。该研究组织的目标是:通过为实验提供大规模可重用语料和允许跨系统比较 的通用评测基础结构,以促进信息检索及相关技术的研究;给对跨系统比较感兴 趣的研究团体提供研讨会以分享各自的想法与意见;研究用于信息检索和文本处 理技术的评测方法,研究用于构建大规模可重用语料的方法。 4 美国计算机协会信息检索特殊兴趣小组会议( a s s o c i a t i o nf o rc o m p u t i n g m a c h i n e r ys p e c i a li n t e r e s tg r o u po ni n f o r m a t i o nr e t r i e v a l ,a c ms i g i r ) ,s i g i r 只是a c m 多个特殊兴趣小组中的一个,该小组致力于信息的存储、检索和传播 研究,包括研究策略、输出方案和系统评价。2 0 0 2 年s i g i r 在芬兰举行了第2 5 次会议,跨语言检索、多语言检索和机器翻译是其感兴趣的领域之一。此外,还有 数据挖掘、机器学习和文本分类等研究领域。但是,我们只能在s i g i r 的网页上 查找到有关多语言信息检索的论文题名和摘要,无法获取原文,原文只是面向授 权用户的。 在多语言信息检索方面,目前国内外绝大多数的研究重点放在对用户查询 ( q u e r y ) 的自动翻译上,然后再借助传统的搜索引擎( 如g o o g l e ) 进行相应的 关键字检索,以达到多语言信息检索的目的。例如在中英文跨语言检索方面,微 软亚洲研究院做了大量的研究工作,他们的工作包括两方面:寻找中文信息检索 和英汉翻译的有效方法。在中文信息检索里,他们探讨了字和词等不同索引单元 对中文信息检索的影响;在英汉翻译中,他们将重点放在查询的翻译方法上。他 们的改进包括:1 、用同现来进行词语排歧;2 、用统计语言模型来进行词组识别 和翻译;3 、用统计翻译模型来提高翻译的覆盖面。在t r e c l 0 里他们的工作包 括:用链接信息来做网上检索和伪反馈。 国内高校中,复旦大学计算机学院是较早接触多语言信息检索的,并且参 加了2 0 0 0 年的t r e c 第九次会议,基于机器翻译实现跨语言信息检索的论 文就是在该会议上发表的1 3 l 。该论文针对基于机器翻译系统实现跨语言信息检索 进行研究,但主要针对英文查询到中文文献的单方向跨语言信息检索。北京大学 信息管理系赖茂生教授在情报学进展( 第五卷) 和二十世纪图书馆学和情报 3 硕十学位论文 学中对多语言信息检索的理论和技术做了分析和阐述1 4 l 。陆宝益等以m u l i n e x 系统为例,阐述了多语言网络信息检索技术系统的功能、结构和工作原理【5 1 。 m u l i n e x 系统是由德国语言技术实验室开发的一个成功运用语言自动翻译技术, 使得人们可以利用本国语言有效检索网络上其它语言信息的多语言信息检索系 统。中国科技大学计算机科学技术系王进等发表了基于本体的跨语言信息检索 模型,对跨语言信息检索系统模型进行了分析和阐述【6 j 。但是,针对基于潜在 中间语义的多语言信息检索模型的研究,笔者通过对专著、期刊和学位论文进行 查询,没有查询到涉及这个主题的专著和论文。 1 3 本文的研究方法 目前,多语言信息检索领域比较通用的技术有查询翻译、文档翻译和中间语 言翻译 7 11 8 】1 9 】【1 0 】【1 1 1 。但是机器翻译【1 2 1 技术并不尽如人意,往往只能在某一个领 域产生较高质量的翻译,仅用翻译模型进行多语言信息检索,难以处理词汇翻译 的多对多问题和未登录词问题;并且,机器翻译所需耗费的时间较长,很难满足 在线信息查询的需求。利用平行语料进行机器辅助翻译是当今多语言信息检索研 究的新趋势,这也是可以在一些应用中取代或辅助机器翻译的一种手段,蒙特利 尔大学的聂建云教授在这方面已经做了大量的工作 1 3 】【1 4 】【1 5 】,并取得了显著 的成效。 本文试图应用统计相关理论和方法,建立基于潜在中间语义的多语言信息检 索模型。对于有双语平行语料库的跨语言信息检索,首先在统一框架下分别构造 双语平行语料库的特征矩阵,然后对特征矩阵运用偏最小二乘( p a r t i a ll e a s t s q u a r e s ,p i _ s ) 方法【1 6 。7 j 提取潜在中间语义对,并利用潜在中间语义对构造潜在 中间语义空间,最终通过将文档和查询映射至该语义空间来实现跨语言信息检 索。对于有间接双语平行语料库的跨语言信息检索,由于没有直接平行语料库, 可以在两个双语平行语料库( 如中英和英法平行语料库,即两语料库要共有一种 语言) 基础上,运用同样的方法构造潜在中间语义空间,然后通过共有的这一种 语言( 如英语) 作为过渡语言,最终通过将文档和查询映射至相应的语义空间来 实现跨语言信息检索( 如中法跨语言检索) 。 利用语言之间的潜在中间语义对应关系,把词空间映射到一个抽象的概念空 间,可避免直接翻译到目标语言而导致的语义偏离【1 7 l 【1 8 l1 1 引,能部分解决词汇歧 义和未登录词问题。在统一的框架下对双语语料库的平行文档进行分析建模,并 通过提取语言之间的潜在中间语义对应关系,达到多语言信息检索的目的,可以 避免通常的机器翻译过程,从而能较大地降低检索的复杂度,能够在保证检索精 度的前提下有效地提高多语言信息检索的效率。笔者的团队实验室在这方面已经 做了大量的工作 2 0 】【2 1 】【2 2 】,并取得了一定的成效。 4 基丁- 潜在中间语义的多语言信息检索研究 具体来说,本文的工作主要包括以下几点: 1 、分析并深入研究了基于辞典翻译进行多语言信息检索存在的翻译歧义问 题,针对该问题,应用扩展的偏最d x - 乘理论,提出了一种同时考虑双语平行文 档的语义对应模型; 2 、经一年多在互联网上下载中英平行网页构建了中英平行语料库,并得到 了蒙特利尔大学提供的加拿大议会会议录英法平行语料库( h a n s a r dc a n a d i a n e n g l i s h f r e n c hp a r a l l e lc o r p u s ) ; 3 、在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上, 对平行文档进行分析建模,建立了中英、英法跨语言信息检索模型,并利用英语 作为过渡语言,建立了中法跨语言信息检索模型; 4 、构建了一个完整的多语言信息检索平台,能够完成中英法三种语言之间 的跨语言信息检索实验; 5 、在相同的文本数据预处理下,在t r e c 5 & 9 和t r e c 3 的a p & s d a 数据 集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索 模型进行了比较,实验结果显示本文提出的模型表现了较好的性能。 1 4 本文的组织结构 本文的具体安排如下: 第一章:前言,简单介绍了多语言信息检索课题的研究背景以及目的和意义, 介绍了本文的研究工作,并列出了各个章节的安排: 第二章:多语言信息检索理论与技术,首先按照一般信息检索系统的实现步 骤,介绍了信息检索的基本流程、信息检索的评价指标、测试文档集和常见的信 息检索模型;之后介绍了多语言信息检索的基本构架、相关技术和现有的多语言 信息检索模型; 第三章:介绍了偏最小二乘回归方法,给出了计算方法的推导过程,并介绍 了成分数确定的方法; 第四章:提出了基于潜在中间语义的多语言信息检索模型,并给出了提取潜 在中间语义对的实现算法; 第五章:给出了以上研究内容的实验过程及结果。根据实验结果,我们进行 了分析和总结; 第六章:总结全文,并展望了下一步的研究工作。 5 硕十学位论文 第二章多语言信息检索理论与技术 2 1 信息检索 信息检索( i n f o r m a t i o nr e t r i e v a l ,m ) 是指信息按一定的方式组织起来,并根 据信息用户的需要找出相关信息的过程和技术。狭义的信息检索就是信息检索过 程的后半部分,即从信息集合中找出所需信息的过程,也就是我们常说的信息查 寻( i n f o r m a t i o ns e a r c h 或i n f o r m a t i o ns e e k ) 。网络信息检索,也即网络信息搜索, 是指互联网用户在网络终端,通过特定的网络搜索工具或通过浏览的方式,查找 并获取信息的行为。信息检索系统是指为满足信息用户的信息需求而建立的、存 贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定 存贮与检索方法及检索服务功能的一种相对独立的服务实体( 包括人和检索工作 单位) ,统称为信息检索系统( i n f o r m a t i o n r e t r i e v a ls y s t e m ,i r s ) 。 2 1 1 信息检索的基本流程 信息检索的流程是大致相同的。首先通过人工标引、半自动标引或自动标引 方式对检索系统文献库中的文献进行处理,得到文献特征数据作为文献表示;然 后用户对某一特定主题的文献( 例如文摘、段落、文章和w e b 页面等) 产生需求; 用户对这一主题进行描述,构造检索查询,并提交给检索系统;检索系统对用户 提交的查询进行处理,系统的匹配模块将处理后的查询与反应文献特征的文献表 示进行比较;根据比较,将与查询具有一定相似度的文献作为检索结果,并按照 某种顺序返回给用户。 信息检索的基本流程如图2 1 所示。 图2 - 1 信息检索的基本流程图 6 基丁满在中间语义的多语言信息检索研究 首先,用户提出检索需求,系统为用户的需求生成查询表达式,并对查询表 达式进行分析处理,产生检索系统的查询语言;在后台,通过搜索引擎对文档集 建立索引,并生成文档表示;最后,通过查询语言和文档表示的匹配产生检索结 果。但是经常会出现这样的情况,仅通过一次检索并不能满足用户的信息需求, 这时,用户会主动或指定系统自动根据用户对先前检索结果的评价修改查询表达 式,再次进行检索,直至信息需求得到适度满足为止。即通过相关反馈机制【矧, 调整查询表达式,从而使检索结果更加符合用户的需求。 我们一般将信息检索分为三个重要过程:文档集的逻辑表示、用户的信息需 求表示即查询的表示、相似匹配及匹配结果的排序1 2 4 】。 文档集的逻辑表示即是文档集的索引过程。从理论上看,信息检索非常简单。 例如有一堆文件和一个想利用这些文件中的信息解决问题的用户。计算机可以把 所有文件都遍历一遍,留下有用的,去掉其余无助于解决问题的文件,这就完成 了一次信息检索。但是,这个方案时间复杂度非常高,效率低下,显然是不可行 的。给定某个查询词,我们与其去了解某一篇文档中含有哪些词,不如去利用哪 些文档含有某个词的信息。文档集都是由若干词所组成,在逻辑上,每个文档就 可看成由这些词索引表示,即倒排文件表示。如果文档集用倒排文件表示,文档 集的索引过程可以方便检索的执行。 用户的信息需求大多用自然语言描述,通过与文档集预处理相似的过程,把 用户需求转变成查询表达式,这样便生成了信息检索系统可以处理的查询。 文档和查询的相似匹配及匹配结果的排序,能使用户比较文档和查询的相关 程度并且获取相关文档,这是信息检索中最重要的过程。查询和文档进行相似匹 配,查询结果按文档和查询相关性大小返回给用户,可以认为排在越前的文档和 查询越相关,更加符合用户的信息需求。 2 1 2 信息检索评价 信息检索效果最根本的评价,应该是信息对需求者的满足程度。它是因人、 因时、因环境而变的,但是因为用户已有的知识无法衡量,因此在信息检索这一 技术领域,通常用检索的实际效果来评价检索的质量。最基本常用的评价指标包 括陋】:检索精度( 又称为查准率,p r e c i s i o n ,p ) ,召回率( 又称为查全率,r e c a l l , r ) ,前n 选精度( t o pnp r e c i s i o n ,p n ) ,1 1 点平均精度( 1 1 一p o i n ta v e r a g ep r e c i s i o n ) , 3 点平均精度( 3 p o i n ta v e r a g ep r e c i s i o n ) ,f 度量值( f m e a s u r e ) 以及p r 等。 1 、检索精度和召回率 对于某测试文档集,假定给定用户查询口,查询对应的相关文档总数为尺。 在检索系统返回的结果集中,总文档数为彳,结果集和相关文档集的交集中总 7 硕十学位论文 文档数为b 。那么,召回率是指结果集中相关文档个数和相关文档总数的比值, 精确率是指结果集中相关文档个数和结果集的文档总数的比值,公式如下: 召回率: ,:一b 尺 精确率:p = 三 我们可用图2 2 表示上述几个集合之间的关系: 图2 - 2 召回率和精确率的文档关系图 召回率和精确率是一对互逆关系的指标,伴随着召回率的增大,精确率减小, 因此检索时要权衡这两个检索性能指标。单纯追求精确率,召回率会降低,用户 所获得的信息可能不全面,也就不能满足用户的信息需求。如果只考虑提高召回 率,会检索出较多与用户的信息需求不相关的文档,同样用户的信息需求不能得 到很好地满足。总之,我们要综合考虑召回率和精确率,使检索结果尽量满足用 户的信息需求。 2 、前n 选精度 在检索返回的结果中,用户往往对排在前面的结果最感兴趣,而一般不会浏 览后面的结果。因此,排在前面的结果的质量会直接影响用户对检索的满意程度, 于是前n 选精度也是信息检索中一个有用且常用的指标。这里n 通常取5 、1 0 、 2 0 或者1 0 0 。 3 、1 l 点平均精度和3 点平均精度 假设用户可以一次检查检索结果集合a 中的所有文档,用上面定义的 p r e c i s i o n 和r e c a l l 就足够了。但是,实际情况是a 中的文档首先根据相似程度 被排序,其次是用户从前向后依次查看文档。在这种情况下,p r e c i s i o n 和r e c a l l 会随着用户查看的进度而变化。于是就有了用p r e c i s i o n 和r e c a l l 的曲线图来评 价检索系统性能的方法:1 1 点平均精度和3 点平均精度。 8 基丁潜住中间语义的多语言信息检索研究 把r e c a l l 分为0 ,1 0 ,2 0 ,1 0 0 这1 1 个等级,分别计算它们对应 的p r e c i s i o n ,无法直接计算的点则可以用插值法确定。这样绘制出来的曲线可以 直观地反映对一个查询的检索效果。如果我们需要衡量检索算法在检索多个不同 查询时的总检索性能,则可以对所有查询,在同一个r e c a l l 等级上对各个 p r e c i s i o n 值取平均。而1 1 点平均精度就是对1 1 个r e c a l l 等级上对应的p r e c i s i o n 值取平均,这也是目前最常用的标准评价方法之一。同样,3 点平均精度就是对 3 个r e c a l l 等级上对应的p r e c i s i o n 值取平均。 4 、f m e a s u r e 指标 检索精度和召回率是两个相互关联的评价标准。通常随着系统检索精度的提 高,其召回率往往会下降,因此只用任何一个进行评价都可能失之偏颇。除了 1 1 点平均精度以外,f m e a s u r e 也是对检索精度和召回率综合考察的指标。它的 定义为: 9 f ( 1 = - = l 一 ( 2 1 ) 、。7 1 r ( j ) + i p ( j ) 其中j 是指在有序的结果列表中的前个文档,p 仂和j r 们分别为前j 篇文档 的检索精度和召回率。 5 、p xr 指标 对于较精确的查询,有时系统返回的结果比较少( 例如几十个左右) ,如果用 1 1 点平均精度衡量,大多数r e c a l l 点上的值都无法直接得到,这种评价方法便 失去了意义。另外,对于不同的用户查询,检索的质量可能有很大差别。对于某 个查询,检索结果列表中有可能没有用户需要的信息,即检索精度和召回率均为 o 。对于这种情况,f - m e a s u r e 就无法进行度量了。因而人们提出了用pxr 作为 一种补充指标来评价检索的综合性能。 2 1 3 测试文档集 在前面提到的评价方法中,对于召回率的评价有一个前提,就是已知对于用 户查询,在整个文档集合中相对应的相关文档都己经确定了。而这一点经常无法 满足,尤其是在w e b 环境下,相关文档的完整集合不可能找到。另外,不同的查 询使用相同的检索方法效果也可能相差很大,因此有必要通过一个标准的测试 集,来对不同的系统不同的检索方法进行公平的评价。如何构造测试集合,也是 一个重要的问题。 测试文档集为信息检索的研究提供统一的实验平台,测试文档集是伴随着信 息检索的研究而发展起来的,现已建立了很多常用的测试文档集。c a c m 等小 的测试集是比较常用的实验数据,相对来说更容易开展实验。t r e c 文档集是文 9 硕十学位论文 本检索会议中使用的测试文档集,它提供大规模的、统一的训练语料和测试语料, 而且有对检索模型的统一评分方法和评测软件,它也是现在信息检索研究常用的 测试集。 此外,各研究机构也建立了一些其他的测试文档集。c w t ( c h i n e s ew e bt e s t c o l l e c t i o n ) 是由北大网络实验室构建的中文网页的w e b 钡t j 试文档集。c l e f ( c r o s s l a n g u a g ee v a l u a t i o nf o r u m ) 是欧洲委员会资助的数字图书馆研究中的一部分,它 的评测语料库用来进行跨语言检索的研究。n t c ( n a c s i st e s tc o l l e c t i o n ) 是由日 本国立信息研究所( n l i ) 建立的亚洲语种跨语言检索的测试文档集。 这些测试文档集的建立在一定程度上促进了信息检索的研究,为检索模型的 研究提供了统一的测试平台。 本文多语言信息检索实验所使用的测试文档集是t r e c 5 & 9 ( i nc h i n e s e ) 以及 t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论