(计算机软件与理论专业论文)跨语言信息检索中消歧算法的研究.pdf_第1页
(计算机软件与理论专业论文)跨语言信息检索中消歧算法的研究.pdf_第2页
(计算机软件与理论专业论文)跨语言信息检索中消歧算法的研究.pdf_第3页
(计算机软件与理论专业论文)跨语言信息检索中消歧算法的研究.pdf_第4页
(计算机软件与理论专业论文)跨语言信息检索中消歧算法的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:趣垒e l 期:三竺堡:! :3 广 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:靠杈一导师签名 e t 期:尘,8 ,3 切 一卜海大学硕十学位论文 摘要 跨语言信息检索是指用户用某种语言从另外一种或多种语言表达的文献信 息集中检索出所需文献信息的方式或技术。研究目的是希望在信息时代,克服 语言壁垒,提供跨语言的文献信息检索服务。查询翻译是跨语言信息检索的主 流方法,但由于查询的语义结构松散,并且语境狭小,因此,伴随翻译不可避 免地产生的歧义性问题较为突出。针对这个问题,提出了相当多的消歧方法, 包括基于平行语料库的翻译技术、基于词的共现技术的消歧方法、查询扩展、 词组翻译等。 基于共现技术的消歧方法通过统计提问词的各个译文与查询中其他词在语 料库中的共现频率,并进行比较,将共现频率高的译文可代替该提问词以便翻 译成目标查询。由于该方法实现方便并且通用性很高,因此成为一个重要的研 究课题。 本文的丰要工作包括:( 1 ) 通过对几个具有典型性的基于词共现技术的消 歧方法的分析和研究,总结出了一些具有启发意义的原则和经验,其中包括采 用概率化方法和兼顾全局性问题。( 2 ) 然后,通过一个从贪心算法衍生出的算 法研究最大相关性原则,指出它与概率化方法的矛盾性。为了更好地发挥概率 化方法的作用,本文提出了“概率加权平均原则”,并在此基础上设计了新的算 法且详细给出了求解的方法。( 3 ) 通过实验,验证了“概率加权平均原则”的 有效性,并且与其他方法相比,准确性有较为明显的提高。( 4 ) 另外本文也探 讨了其他翻译技术与新算法相结合后的效果,实验结果表明采用查询扩展技术 可以一定程度上改进新算法的准确性。 关键词:跨语言信息检索,翻译歧义性,查询翻译,共现统计,概率加权 平均分布原则 上海大学硕十学位论文 a b s t r a c t c r o s s 1 a n g u a g ei n f o r m a t i o nr e t r i e v a li s at e c h n o l o g yt or e t r i e v ei nt w oo rm o r e l a n g u a g e s i t sa i mi st op r o v i d es e a m l e s sr e t r i e v a lb e t w e e nd i f f e r e n tl a n g u a g e s q u e r y t r a n s l a t i o ni st h em a i n s t r e a mi nc r o s s - l a n g u a g ei n f o r m a t i o nr e t r i e v a l ,b u ti tc o n f r o n t s t h ep r o b l e mo fa m b i g u i t yi nt r a n s l a t i o n t os o l v et h ep r o b l e m ,m a n yd i s a m b i g u a t i o n m e t h o d sa r es u g g e s t e d ,s u c ha sp a r a l l e lc o r p u sm e t h o d ,c o o c c u r r e n c eb a s e d t r a n s l a t i o n ,q u e r ye x p a n s i o na n dp h r a s et r a n s l a t i o ne t c i nc o o c c u r r e n c eb a s e dt r a n s l a t i o n ,t h ed i f f e r e n tc o o c c u r r e n c e sb e t w e e n t r a n s l a t i o n so fq u e r yt e r m sa r ec o m p a r e dw i t h e a c ho t h e r ,a n dt h et r a n s l a t i o n c a n d i d a t eh a v i n gt h eh i g h e s ts c o r ei sr e g a r d e da st h eb e s to n e b e c a u s eo fi t s s i m p l i c i t ya n du n i v e r s a l i t y ,i tb e c o m e sa ni m p o r t a n ts u b j e c ta n d i so u rw h i l e t h em a i nw o r ko ft h i sd i s s e r t a t i o nb e g i n sw i t h :( 1 ) a n a l y z i n gs e v e r a lt y p i c a l c o o c c u r r e n c eb a s e dm e t h o d si nr e c e n ty e a r s s o m ep r i n c i p l e sa n dc o n c l u s i o n sa r e d r a w nf r o mt h ea n a l y s i s ,w h i c hi n c l u d eu s i n gp r o b a b i l i t ys t y l e dm e t h o da n dt h e p r i n c i p l eo fe n t i r e t y ( 2 ) t h e n ,ac a r e f u le x a m i n a t i o no fap r i n c i p l ec a l l e d m a x i m u m c o h e r e n c ep r i n c i p l e i sc o n d u c t e db yi n t r o d u c i n gan e wa l g o r i t h mw h i c hd e r i v e sf r o m t h eg r e e d ym e t h o d ,a n di t si n c o n s i s t e n c yw i t hp r o b a b i l i t ys t y l el e a d st oan e w p r i n c i p l ec a l l e d p r i n c i p l eo fw e i g h t e d a v e r a g ed i s t r i b u t i o n ”s u g g e s t e db yu s an e w a l g o r i t h mi sd e s i g n e d ,a n dh o wt os o l v ei t i si l l u s t r a t e d ( 3 ) i tc a nb es e e ni nt h e e x p e r i m e n t st h a to u rm e t h o dp e r f o r m so b v i o u s l yb e t t e rt h a no t h e rf o u rm e t h o d s , w h i c hv e r i f i e st h ea v a i l a b i l i t yo fo u rp r i n c i p l e ( 4 ) m o r e o v e r ,s o m ee x p e r i m e n t sa r e a l s od o n eo nc o m b i n i n go u rm e t h o dw i t hq u e r ye x p a n s i o n t h er e s u l ts h o w st h a tt h e n e wc o m b i n e dm e t h o dc a ne n h a n c et h ed i s a m b i g u a t i o ne f f e c ts o m e h o w k e y w o r d s :c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l ,a m b i g u i t y i nt r a n s l a t i o n , q u e r yt r a n s l a t i o n ,c o - o c c u r r e n c em e a s u r e s ,p r i n c i p l e o fw e i g h t e d a v e r a g e d i s t r i b u t i o n 6 上海大学硕l 学位论文 1 1 研究背景及意义 第一章绪论 网上信息以其信息来源广泛、信息数量庞大、媒体与格式多样、检索浏览 方式快速、易传播共享等特点,越来越受到人们的重视和使用。然而随着查询 需求的提高,单一语种检索的局限性越来越明显,用户已经不能满足于仅仅在 同一语种中进行检索,而是希望能够查询到更多的其它语种中的相关信息,特 别是自身语种的信息较少的用户这种需求就更为迫切。然而,语言障碍是一个 无法回避的问题,于是跨语言信息检索( c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l , 简称c l i r ) 应运而生。 跨语言信息检索是指用户用某种语言从另外一种或多种语言表达的文献信 息集中检索出所需文献信息的方式或技术。研究目的是希望在信息时代,克服 语言壁垒,提供跨语言的文献信息检索服务。显然,不同语言之间的翻译是跨 语言信息检索的重中之重,而信息翻译随着语境的不同因而与传统的机器翻译 ( m a c h i n et r a n s l a t i o n ) 有所区别,这种区别主要体现在两个方面: ( 1 ) 由于是信息检索,因此强调对检索词的翻译的正确性,一般不要求实 现对整句话的精确翻译,翻译的目的是只要能实现有效的检索即可。 ( 2 ) 需要尽可能快的翻译处理速度,这是由于跨语言信息检索扩大了文档 的检索范围,使本来的检索过程变慢,如果翻译再很慢的话,那整个过程就让 人无法忍受了。 由此产生一大批不太严格但非常灵活高效的翻译技术,以适应各种不同的 对翻译的要求。需要一提的是,随着翻译不可避免地产生的歧义性( a m b i g u i t y ) 问题,是影响跨语言信息检索效果的主要因素之一。因此,消除这种歧义,提 高检索结果的相关度,是跨语言信息检索各种翻译方法和技术要解决的一个关 键问题,它也是跨语言信息检索研究的热点之一和最具挑战性的问题之一。 此外语言的差异也会对翻译的难度有所影响,西方的语言之间( 如英语和 德语) 语法和用法习惯差别不大,有些词仅仅是拼法不同,因此只要对词根稍 9 上海大学硕士学位论文 做变化后就能翻译,这就绕过了消除歧义这个难关。但像中文和英语这样差别 很大的语言,就不能不面对这个问题。因此,中英文跨语言检索就成为一个非 常重要的研究课题。 从国内外的研究状况来看,目前对中英跨语言检索的研究主要集中在国外, 国内的较少,这一部分原因是国内缺乏交流的平台。国外的研究起步是在上世 纪9 0 年代末,主要是随着搜索引擎的诞生和普及而发展起来的,成果已有不少, 但技术仍不够成熟,这体现在还没有哪个著名搜索引擎提供跨语言检索服务。 中英跨语言检索需要牵涉到两个方向的翻译,国外的研究侧重于中英的翻 译,英中的较少。不过这样的不平衡影响不大,因为无论是英中翻译还是中英 翻译,方法原理都一样,因此只研究一个方向的翻译也就够了。 除基本的双语文献检索外,更为丰富的检索要求也相继被提出,这些要求 包括 1 】: ( 1 ) 多语言信息检索( m u l t i l i n g u a li n f o r m a t i o nr e t r i e v a l ) :指用户用中文 从三种以上的语言表达的文献信息集中检索出所需文献信息的方式。 ( 2 ) 特定领域的跨语言信息检索( d o m a i n s p e c i f i ci n f o r m a t i o nr e t r i e v a l ) : 指检索对象设定为某一学科或某一主题领域的跨语言信息检索。 ( 3 ) 跨语言的多媒体信息检索:如跨语言的语音信息( s p o k e n d o c u m e n t r e t r i e v a l ) 检索,其内容不仅包括文献信息检索技术,跨语言翻译技术,还有 语音识别技术。 1 2 本文所要解决的问题 基于以上背景,本文的主要研究内容是在分析目前已有算法的基础上,设 计出一种更为合理的基于词共现技术的翻译消歧方法,并通过实验验证它的有 效性。之所以选择这样一个课题的原因是: ( 1 ) 鉴于目前的消歧技术仍不够完善,准确率仍是评价一个算法的首要因 素。 ( 2 ) 基于词共现技术的消歧方法已发展出不少新颖的算法,通过结合这些 算法各自的优点,或引入新的原则,能够得到更高的准确率。 i o 上海大学硕 :学位论文 ( 3 ) 通过与其他一些翻译技术( 比如查询扩展) 结合使用,或许能进一步 加强消歧效果。 1 3 术语解释 以下列出与跨语言信息检索相关的一些常用术语。 源语种( s o u r c el a n g u a g e ) 和目标语种( t a r g e tl a n g u a g e ) 源语种, 是用户查询提问式所属语种,一般为查询用户母语;目标语种,是被检索对象 信息( 如文档或语音) 所使用的语种,信息系统中所有存在的语种都有可能成 为信息语种。 查询( q u e r y ) 和文献( d o c u m e n t ) :查询,用户使用信息系统提供的 输入语言和规则对自己信息需求的一种表达。常用的输入语言包含关键词规范 和一些布尔连接符;文献,被检索对象信息,检索的结果返回给用户。 多语言语料库( m u l t i l i n g u a lc o r p u s ) :多语言语料库是将同一信息或同 一主题的信息用两种或多种语言进行描述,并由人工或计算机建立不同语种间 信息联系的集合,来源于对单词用法的统计。 单词( t e r m ) :指构成查询的实词单位,在翻译过程中通常是最小的翻 译单位,可由双语词典直接翻译。 上下文( c o n t e x t ) :指单词的语境信息,对单词的涵义有约束限定作用。 双语词典( b i l i n g u a ld i c t i o n a r y ) :将源语种词汇翻译为目标语种词汇的 翻译系统,也包括一些词组的翻译,但不包括语法结构的翻译。它通常返回一 组条目( e n t r y ) ,表示该源语种词汇所有可能的翻译。 查准率( p r e c i s i o n ) 和查全率( r e c a l l ) :查准率,判断检索系统质量的 一种度量。系统所检索到的与查询相关的文档数占检索出的所有文档数的百分 比,即反映检索结果“正确性”的度量;查全率,判断检索系统质量的一种度 量,表示系统所检索到的与查询相关的文档数占与查询相关的总文档数的百分 比。 信息检索模型( i rm o d e l ) :依照用户查询,对文献集合进行相关排序 的一组前提假设和算法。瓜模型可形式地表示为一个四元组 , 上海大学硕上学位论文 其中d 是一个文档集合,q 是一个查询集合,f 是一个对文献和查询建模的框 架,r ( q i ,d j ) 是一个排序函数,它给查询q i 和文献d j 之间的相关度赋予一个排序 值。常用的信息检索模型有:集合论模型、代数模型、概率模型等 2 。 1 4 论文的结构和章节安排 第二章介绍了翻译的两种主要策略:文献翻译和查询翻译;造成歧义的原 因,需要解决问题的清楚描述;以及完整的跨语言信息检索流程。并回顾一下 各种针对查询翻译而提出的方法和技术。 第三章分析了几种具体的基于词的共现技术的翻译方法,并通过总结这些 方法的特点而得到一些结论,为下一章做准备。 第四章探讨了最大相关模型所根据的最大相关性原则,在此基础上提出了 一个典型算法,并指出最大相关性原则的缺点;然后提出一个改进的原则,即 加权平均原则,并提出一个新算法,该算法实际上是求解一个非线性的多元方 程组,可直接通过牛顿法求解。 第五章描述了检索模型的实现,并通过英中检索实验将上一章的加权平均 方法与其他方法相比较,说明它的优势。另外介绍了各种用来表示词对间共现 关系的度量值,和用于计算查询与文献相关度的检索模型。最后通过将加权平 均方法与查询扩展相结合的方法说明两种方法的联合使用可能获得更好的效 果。 第六章对本文的工作做了总结,对未来的研究方向和重点作了展望。 1 2 上海大学硕士学位论文 第二章两种翻译策略 基于翻译的对象的不同,翻译可分为两种 3 】:文献翻译( d o c u m e n t t r a n s l a t i o n ) 和查询翻译( q u e r yt r a n s l a t i o n ) 。下面就两个方面分别予以介绍。 2 1 文献翻译 文献翻译是指先将多语言的文献信息集转换成与查询相同的语言,然后按 照单语言文献信息进行检索。 对文献信息集的翻译通常由机器翻译系统来做,基本方法有 4 :基于规则 的方法、基于统计的方法、基于实例的方法、基于模板的方法、基于有限状态 自动机的方法和多引擎的方法。其中基于统计和实例的机器翻译方法都是使用 语料库作为翻译知识的来源。 文献翻译的缺点是执行效率问题,根据一项分析,如果尝试翻译4 0 亿篇网 页,用一部高速的个人计算机,需要3 0 0 年,而用3 6 0 0 部个人计算机一起进行 翻译,需要1 个月 4 】。考虑到执行效率,文献翻译是有必要才做,例如已经确 定要浏览某一网页。 文献翻译相对于查询翻译的优点是:由于文献的长度通常比查询长,对于 翻译的容错度比查询高,语境宽松,歧义性分析所能用的线索较多。所以,跨 语言信息检索的品质一般而言翻译文献再检索要比翻译查询再检索好。但由于 作为检索对象的文献信息集的量非常大,特别是网络信息资源,更新频率也非 常高,使用者无法忍受过慢的速度,所以,翻译所有的文献信息集在实践上是 有困难的,目前所研究的跨语言检索系统以查询翻译方式为主。 2 2 查询翻译 查询式翻译方法是指将用户的查询翻译成检索对象所使用的信息语种,然 后对不同语种的文献信息集检索。由于查询的结构通常是由若干单词或词组( 偶 上海大学硕士学位论文 尔也有一些简单的语法结构) 通过布尔关系符连接起来的,因此语法的信息是 相当贫乏的,而翻译的重点是在对实词( 也就是单个单词或词组) 的正确翻译 上,对语法结构的翻译则可以忽视。与文献翻译相比,查询式翻译工作量较小, 可以很容易地和传统单语种信息检索技术紧密结合,但是由于查询较短,缺少 上下文信息,因此它的歧义性问题较为突出。事实上,目前对翻译歧义性问题 的研究也主要是针对查询式翻译方法而言的。下面就歧义( a m b i g u i t y ) 问题详 细讨论一下。 2 2 1 歧义的概念和原因 翻译中碰到的歧义问题可以简单理解为对一段原文( 可以是一个单词、一 个简单的语法结构或是整句句子) 存在两种或两种以上的翻译方式,查询翻译 主要考虑的是单词或词组的歧义。造成单词歧义的原因可大致分为两种:一是 一个源语种单词在源语种中的涵义就不只一种,例如中文“最近的新闻”和“最 近的车站中的“最近这词,前者是指时间上的靠近,而后者指的是空间上 的靠近,因而就有“l a t e s t 和“n e a r e s t ”两种翻译;二是源语种单词在源语种 中的涵义比较确定,但在翻译后出现了多种涵义,例如“书本翻译到英文是 “b o o k ”一词,但“b o o k ”一词本身还有“预订”的意思,此种现象可视为目 标语种中单词的多义性,若用“b o o k 作为检索词,肯定会有不相关的文献被 检索出来。第一种歧义的现象很普遍,一般中英文词典中每个单词的条目都在 三四条以上,即使像英语和德语这样相近的西方语言,也存在着大量的歧义现 象,图2 1 展示了d i n gd i c t i o n a r y ( 一本用于英德机器翻译的双语词典) 中的词 条数目分布统计 5 。上面讲到的第二种歧义现象比较难以处理,通常只能依靠 翻译后的上下文或者通过词汇扩展限制它的语义。 下面举一个例子说明歧义问题在查询翻译中带来的麻烦。假设有一个英文 的查询,“c o u n t r y + m u s i c ”。“c o u n t r y ”的译文集t l 有两个选择,分别是 国家, 乡村) ;“m u s i c ”的译文集t 2 也有两个选择,分别是( 音乐,乐谱) 。这样两个 译文集组合一下的话,一共可得到4 个不同的翻译组合,分别是: c l = 国家,音乐 1 4 上海大学硕士学位论文 c 2 = 国家,乐谱) c 3 = 乡村,音乐) c 4 = ( 乡村,乐谱) 消歧技术( d i s a m b i g u a t i o n ) 的实质就是想方设法排除可能的组合,从中选 出一组最正确的译文来。在实际的应用中,每个单词的译文集可能有不止两个 的选择,另外查询的长度也可能由十几个乃至数十个单词组成,这样所有组合 的数目就非常大了,如果令每个单词平均有,z 种译文,查询的平均长度由后个 单词组成,那么翻译组合的数目就是矿,每一种组合的可能性都要被计算,计 算量将非常大。另外,查询能提供的上下文信息比较有限和模糊,这也增加了 消歧的难度。因此,每种查询翻译技术都要面对减少计算量和充分利用上下文 信息这两个问题,下一章将介绍多种翻译技术,以及它们各自的优缺点,不过 在此之前,我们还要简略地讨论一下跨语言信息检索的一般流程。 口 r - i岛。 一一一 45678口1 0 n u m b o ro ft r a n s l a t i o n s 图2 1 英德机器翻译词典词条数目分布图 j :海大学硕士学位论文 2 3 跨语言信息检索一般流程 跨语言信息检索可看成是一个从输入得到输出的过程,源语种的查询即是 输入,通过检索被认为与查询匹配的目标语种文献则是输出。由于文献翻译实 践困难,这里讨论的还是查询翻译。整个过程大致可分为两大步:1 ) 将源语种 的查询翻译为目标语言的查询:2 ) 通过翻译后的查询在目标文献集中进行检索。 一个典型的过程见图2 2 1 6 1 。 w e bd i r e c t o r y ( q u e r yl a n g u a g e w e bd ir e c t o r y it a r g e tl a n g u a g e 赢患 f e a 七u r et e r m e x t r a c ti o nm o d u l e r e t r i e v a l d o c u m e n ts e t l r e t r i e v a l 8 y 8 七e m 迎! ! 图2 2 一个典型的跨语言信息检索过程图 图中虚线框部分代表翻译模块,“r e t r i e v a ls y s t o n ”代表检索模块。翻译模 块主要用到了两个工具:机器翻译词典和特征词库( f e a t u r et e r md b ) 。特征词 库主要记录词的特征信息,主要为消歧技术提供参考信息。这些信息来源于对 1 6 i :海大学硕上学位论文 源语言和目标语言网页的信息抽取( f e a t u r et e r me x t r a c t i o nm o d u l e ) 。信息抽取 模块工作量浩大,因此是与其他模块独立开来的,所有的特征信息都是在用户 提交查询前计算完成的,翻译时只需从数据库中提取所需信息。 完整的检索过程 7 十分复杂,这里列出的是一个简化版本,仪有四部分组 成,见图2 3 。四部分分别为:预处理,从被检索文献中提取有用信息,具体的 功能有切词,过滤停用词等,对于英语文献的操作还要复杂,因为一个英语单 词可能有很多的变化形式,这就需要像p o r t e r 算法 8 这样的方法来提取词根; 通过计算模型计算文献与查询的匹配值,每个文献都得到一个评价值,表示该 文献与查询的相关程度;排序,根据匹配值对所有文献进行排序,将排名靠前 的文献留下,其他则舍弃;抽取摘要返回给用户。 图2 3 简化的信息检索过程 常用的检索信息计算模型有布尔、向量、概率三种,布尔模型 7 是最为基 础的一种,实现也非常简单,但由于后两种突破了布尔模型的局限,因此也受 到普遍的使用,下面分别予以简单介绍。 布尔模型:当我们讨论用户提交查询的时候,指的是为形成最终查询结 果集合,由一个查询的各个成分对查询结果子集之间所要求的一种运算关系; 而在讨论文献比较的向量空间模型中,布尔模型指的是构成一个文档向量的各 1 7 上海大学硕l 学位论文 个分量只取1 和o 两个值,分别代表对应特征项的出现与否。 向量模型:按照共有词汇假设,一组文档有一个总词语集合,一篇文 档可以用一个向量表示,其元素是对应词语在该文档中出现情况的一种定量描 述,一组文档就可以看成是一个向量空间中的若干元素,于是可以应用向量空 间中距离的概念来考察两篇文档之间的相似程度等。 概率模型:通过计算查询与被检索文献之间的概率相关性决定文献是否 被选用。概率相关性由一系列的概率公式计算而得,这些公式所使用的最底层 的数据是词汇之间的相似度( s i m i l a r i t y ) 。概率模型的检索效率要明显优于布尔 模型,但稍逊于向量模型。 2 4 翻译工具 翻译工具的分类主要有机器翻译系统 3 7 、双语词典、双语语料库三种。 机器翻译系统设计复杂,代价高昂,另外它主要适用于对整个段落的文字进行 翻译,对像查询这样松散的结构并不有效,因此平时很少用到。词典翻译是最 常用的翻译工具,实现较容易,但会遇到两个严重问题:一是词典本身的覆盖 度问题,对于许多专有名词和词组,词典就无法识别,另外网络的信息日新月 异,会有大量新出现的词汇,这就给词典的更新问题提出了挑战;第二个就是 歧义问题,一个单词在词典中的条目一般很多,因此这个问题特别严重。双语 语料库翻译是通过对照两种语言的相似内容进行翻译,这种方法由于将翻译限 定在一个很小的范围内因而效果良好,但它的缺点也显而易见:双语语料库不 容易取得,即使有,量也不会很大,包含的主题也不够多,而且检索效能与队 列的品质有极密切的关系。双语语料库根据两种语言内容的相关性可分为三类 1 】t ( 1 ) 平行语料库( p a r a l l e lc o r p u s ) 。平行语料库是由若干包含一篇文献及 其对应的一种或几种语种的译文的集合所构成的,库内含有很多翻译知识。 ( 2 ) 比较语料库( c o m p a r a b l ec o r p u s ) 。比较语料库通常是由多种语言写成 的具有相似主题的文献所构成,其中的文献按照所论述的主题进行对齐。它只 能在文献一级实现对齐,但获得它要容易得多,因为它不需要包含文献译文。 上海大学硕上学位论文 ( 3 ) 未对齐的语料库( n o a l i g n m e n tc o r p u s ) 。它不需要将语料库中的文献 以任何方式对齐,而是利用伪相关反馈技术来改进提问式翻译质量,使之与集 合中的文献更相似。 词典与双语语料库两种方法都各有千秋,但其实两者是互补的,词典提供 较广( 一般) 、较浅的覆盖度,而语料库提供较窄( 领域相关) 、较深( 实时反 应现在用语) 的覆盖度。已经出现过将这两种模式结合起来的方法,如p i c c h i 9 描述了一种间接使用词典为查询选择译文的方法。在该方法中,仍然有双语词 典但不直接使用,而是利用特定领域的语料库( 不要求是双语语料库) 为查询 中的每个单词建立一个源语言的语境向量( ac o n t e x tv e c t o r :是一组赋予权重的 词,它们经常出现在该词的上下文) ,然后把该语境向量中的单词用双语词典翻 译成目标语言的语境向量,最后在目标语言的相似领域的语料库中找到具有相 似语境向量空间的词作为源查询中单词的译文。对于查询中双语词典没有覆盖 的单词可以采用这种间接的翻译方法。 除了将词典与双语语料库结合使用外,将词典与单语语料库( m o n o l i n g u a l c o r p u s ) 结合使用的方法也经常使用 5 ,1 0 ,1 1 】,而且在近几年特别多见。单语语 料库其实就是同种语言的文献集,这是非常容易获得的资源。这种方法的特点 是所需工具的代价不高,非常容易实现,扩展性良好。虽然仍然无法克服词典 的词汇量覆盖度不够的问题,但它的灵活性使它成为一种应用面很广的方法, 事实上本文所提出的方法也属于这一类。 2 5 翻译方法分类 前文已提到,歧义问题是查询翻译中最关键的问题,当发生歧义的时候, 最简单的消歧策略是选择每个单词的第一个翻译选项或者在语料库中出现频度 最高的选项。然而,这些简单的方法对消除歧义是远远不够的,尤其是对那些 基本意义就有多种的词。下面介绍五种使用最广泛的消歧方法。 词性标注 1 2 】:自然语言中一个词往往具有多个词性,词性标注的目的就 是通过词语的上下文将句子中兼类词的词性唯一地确定下来。使用词性标注技 术消除翻译歧义的基本思想是:仅选择与源提问式的词具有相同词性标注的译 1 9 上海大学硕十学位论文 文形式。目前,英文词性标注的正确率已能达到9 7 以上,但在中文领域,这 方面的成果不大,主要原因是标注软件缺乏。 基于平行语料库的方法:平行语料库 1 3 】中含有很多翻译知识,有效利用 这些知识就能达到消歧目的。比如,根据平行语料库搜索的结果,从词典列出 的一组译文中为每个源提问词选择一个译文,从而确定最佳译文或译文集合 3 5 , 3 6 。具体过程如下:( 1 ) 从词典中为源语种查询中的每个词挑选一组译文;( 2 ) 分别用每种译文搜索平行语料库的目标语种部分,保存得到的每组目标语种文 献;( 3 ) 用源查询检索平行语料库的源语种部分;( 4 ) 选择与用源查询检索得 到的源语种文献最接近的那组目标语种文献的那个译文形式。对每个源语种单 词都重复这套程序,这样最终将得到一组最佳的译文。这种方法去掉了一些不 合适的译文,一定程度上达到了消歧的目的。 基于词的共现消歧 1 4 ,1 5 :词的共现( c o o c c u r r e n c e ) 技术,就是若两个 有一定关联的词共同出现在某一篇文献或者文献的某一个部分,就可以非常容 易确定其含义的技术。b a l l e s t e r o s 和c r o s f t 1 2 曾指出“查询中各个单词的合适 的译文形式应该共现在目标语种文献中,而不合适的译文则应该往往不会共现 在目标语种文献中”。假如源语种是英文的查询中含有两个词“m e r c u r y 和 “p l a n e t ,虽然“m e r c u r y ”具有多重意思,如水银、墨丘利神、水星等,但因 为查询中“p l a n e t ”( 行星) 的存在,“m e r c u r y ”明显与神话和化学不相关。因 此,预期“m e r c u r y 的合适的译文往往会和“p l a n e t ”的合适的译文共现在目 标文献集中是合理的。 该方法的具体办法是统计提问词的各个词义与查询中其他词在语料库中的 共现频率,并进行比较,共现频率高的词义可代替该提问词以便翻译成目标查 询。该方法的优点是只需要利用单语种的语料库进行共现频率的比较。但必须 有多个词汇构成源提问式,否则无法进行共现频率的比较,当然通过下面的查 询扩展技术比较容易做到这一点。 查询扩展:用户输人的查询一般非常简短,这增加了翻译的难度,进而影 响检索的品质,适度的查询扩展( q u e r ye x p a n s i o n ) 1 6 是解决该问题的一个方 向,即根据用户的语义自动给查询增加更多的限制信息,从而增强其翻译的可 上海大学硕一i 二学位论文 靠性。从本质上说,查询扩展也是解决提问式中词的歧义的方法。扩展的词汇 应该是基于源语种单词的同义词词典以及相关词词典。查询扩展可分别在查询 翻译前或翻译后进行,也可在查询翻译前和翻译后都进行 1 7 】。翻译前扩展可 以通过增加语词来强调查询中的概念,翻译后扩展可以通过增加语义信息来减 少查询中不相关词的影响。 词组翻译 1 6 :无疑对跨语言信息检索具有重要意义。解决这一问题的基 本技术是建立包含词组或复合词作标题词的双语词典或词汇表,本质上是对词 典翻译的扩展。如果能有效识别词组的话,歧义发生的可能性无疑会大大降低 2 0 】。然而,我们不可避免地会遇到所用词汇资源覆盖率不足的问题。当在源 语种查询中遇到难以翻译的词组时,我们不得不进行逐词翻译,这样还得借助 其他方法的帮忙。此外,如何从语料库中自动识别词组,并由此自动生成词组 词典,是一个相当困难的问题,目前这方面的技术远不够成熟。 除了以上这些方法外,还有一些其他方法,比如查询构造方法 1 8 ,双向 翻译 1 9 1 ,基于本体的方法 3 8 】,基于语言相关模型的方法 3 9 ,4 0 等。所有这些 方法中的几种是可以混合使用的,而且在许多相关研究中也都是采用的混合方 法取得了良好的效果。不过,为了更为准确地评价各方法的有效性,还是把这 些方法分开研究的好。所有方法中最基础的应该说是词的共现方法,因为当其 他方法都不能适用时,这个方法还是能够适用的,并且其他方法也会遇到面对 多个选择的问题,这时可以套用共现方法的计算原理,因此可以说共现方法为 其他方法提供了计算框架。此外,这个方法几乎可以和任何其他方法混用,因 此有极高的健壮性。关于这个方法的进一步介绍和讨论将在下一章中进行。 2 1 上海大学硕- l :学位论文 第三章利用词的共现消歧 3 1 基本前提和流程 上文已提到过,基于词的共现技术是以“查询中各个单词的合适的译文形 式应该共现在目标语种文献中,而不合适的译文则应该往往不会共现在目标语 种文献中为前提的,但是不能排除不相关的单词的译文也可能一起出现在目 标语种文献中。因此,这个前提应该说是经验性质的,并不保证这样得出的选 择具有百分之百的正确性,所以合理地运用这个前提尤为重要,并且要以实验 来验证方法的有效性。另外,单有这个基础前提还不够,所有基于词的共现技 术的翻译方法都或多或少增加了其他的经验假设,这主要是因为在第二章中提 到的两个问题,即减少计算量和尽可能利用有限的上下文。虽然每种方法的假 设不尽相同,但有一个原则是它们共同采用的。 以第二章的“c o u n t r y + m u s i c 为例,这个查询有四个可能的翻译组合c l , c 2 ,c 3 ,c 4 ,如果按照基础前提的话,就应该分别计算四种组合在目标语种文 献中出现的频率,用h ( c 1 ) , ( c 2 ) ,h ( c 3 ) ,h ( c 4 ) 表示。但是一旦像在第二章中 说到的,翻译组合的数目达到n 七时,计算量就不可忍受了。这里主要的原因是 组合的空间是k 维的,如果把它降到2 维,就完全可以接受了。因此,对于一 个有k 个单词组成的查询 c l , c 2 ,c 3 ,c a ,一般用词对的频率h ( c f ,动去近似 h ( c l , c 2 ,o ,c a ) 。这样一方面计算量减小了,另一方面,由于词汇总量是可以估 计的,所有词对在目标语种文献中出现的频率可以预先计算,并储存在跨语言 信息检索系统中,以便直接使用。因此,基本上所有的词共现方法翻译都采用 的是词对( p a i r - w i s e ) 共现,而不是全组合共现。此外,用词对的共现频率去 近似全组合的共现频率不是一件容易的事,大多数研究都抛弃了这样的想法, 而仪把词对的共现频率h ( c i ,c ,) 看成是两个词c i 和c ,的关联程度,这样h 的含义 也从共现频率扩展到相关度( c o h e s i o n ) ,因而出现了各种不同的度量值 ( m e a s u r e ) ,如m i 2 1 ,2 2 ,2 3 ,l l r 2 4 等。 上海大学硕士学位论文 除了上述的共同点外,各种方法都在翻译过程中用到词典和语料库( 单语 或双语) ,过程基本步骤也相似。一个典型的流程可见图3 1 2 5 。从图中可以 看到,翻译分为查询单词组织,逐词翻译,翻译消歧三步。查询单词组织包括 对单词结构的整理、分词、扩展、排序等,这一步有时不是必须的;逐词翻译 使用的是词典翻译,词典会将所有可能的翻译选择都返回给翻译模块,图中的 系统使用一个不断自动收集新词汇的词库来为词典更新;最后是翻译消歧,主 要用到的参考数据就是词对的共现频率或相关度( 通过语料库计算得到,通常 是事先就计算好的) 。 噼l q u e r yt r a n s l a t i o n d i s e m b i g u a t i o nm o d u l e - 。- - 。 t r a n s l a t i o n s l d i s a m b i g u a t i o n q u e r yt e r m s o r g a n i z a t i o n 图3 1 典型的翻译过程 ;r e t r i e v e d d o c u m e n t s 下面的三小节将分别介绍三种方法,每一节的末尾会讨论一下这些方法的 启示和不足,在本章的末尾会对这些方法的特点做一个总结。 3 2 贪心算法 一个具有典型性的比较简单的翻译消歧方法是j i a n f e n gg a o ( 2 0 0 1 ) 2 2 等 人提出的贪心算法。这个方法由于结合了名词词组翻译而变得更为有效,但它 的基础仍是基于词的共现技术,也就是说,当不能识别词组时,就只能依靠共 现技术解决。 假设源查询有,1 个单词组成,记为 s i ,加) ,每个单词s i 的译文集为乃, 上海大学硕十学位论文 由一个或多个目标语种单词组成。首先定义两个目标语种单词z 和y 的近似度 ( s i m i l a r i t y ) - s i m ( x ,y ) = p ( 石,y ) l 。g z ( 揣) - k xl 0 9 2d i s ( x ,y ) ( 3 1 ) 另: p 加掣c t x ) + 等 ( 3 2 ) c l 少j m ) 2 嚣 ( 3 3 ) 上式中c 似纠表示工和y 在语料库中的共现频数( 以两个词共同出现在一句 句子中为一次) ,c 似表示单词x 在语料库中出现的频数,d i s ( x , y ) 表示x 和y 在 一句句子中的平均距离( 以单词为单位) ,k 为常数。这样,s i m ( x , y ) 反映了x 和y 在目标语言中字面上相接近的程度。下面依照蝴纠定义一个目标语种 单词x 与另一个目标语种单词集x 的相关度: c o h e s i o n ( x ,x ) = m a x 。x s i m ( x ,y ) ( 3 4 ) 具体的算法如图3 2 : f o re a c h5 0 u i c eq u e r yw o r d 函0 = 1t o 1 ) ,r e t r i e v eas e to f t r a n s l a t i o n s 瓦f r o mt h el e x i c o n ; f o re a c hs e t 五( i = 1 t o ”) d o f o re a c ht e m l 岛i n 瓦d o f o re a c hs e t 珏( 七= 1t o 玎& 楮) c o m p u t et h ec o h e s i o n c o h e s i o n ( t g 助; c o m p u t et h es c 0 1 eo ft a st h es u m o f c o h e s i o n ( t 0 珀( k = 1 t of & 梢) : s e l e c tt h et e h 1 lf :f i n 正w i t ht h eh i g h e s ts c o r e ,a n da d dt h e s e l e c t e ds e l l s eh a 。t ot h es e tr 图3 2 贪心算法 简单说起来,贪心算法就是在s f 的译文集乃中选择与其他译文集相关度之 和最高的t i 作为最佳翻译选择。 2 4 上海大学硕士学位论文 3 2 1 启示与不足 虽然这个算法看上去十分简单,但这其中有不少非常具有启发性的想法。 首先,通过计算每个翻译候选与其他源语种单词的相关度决定选择哪一个作为 译文,这种做法意味着一个单词的翻译仅取决于上下文的影响。其次,这种上 下文的影响可以表示成一个单词的翻译候选和其余查询单词组成的集合的度量 值,即h ( t 仍锄,加) ) ,进一步地,这个度量值又可分解为多个单独的度量值之 和,即: h ( t m ,s 。) ) = 讹。,s ,) ( 3 5 ) 这就意味着上下文的影响可根据单词的数量累加的,这样对计算显然很方 便。第三点,选择相关度最高的翻译候选,意味着消歧问题可以被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论