




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于双语翻译搜索引擎的智能用户接口的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
捅要 随着国际交流的日益频繁,翻译学学科地位不断提升,互联网搜索引擎辅 助翻译得到不断的发展。传统的搜索引擎是基于关键词匹配的方式来进行信息 检索,但是各个国家的自然语言中都存在着一词多义或多词一义的现象,传统 的搜索引擎并不能分辨出信息之间的语义信息,同时,用户在检索过程中输入 的查询词有时并不能准确无误地表达用户的检索用意,从而导致搜索引擎的查 准率或者查全率不高,表现出搜索引擎的机械性,因此,不能为用户提供良好 的翻译效果。建立一个智能性的搜索引擎用户接口,提高系统的查全率,成为 急需解决的问题。 本论文的研究内容是建立在个双语翻译搜索引擎的背景之上,针对当前 搜索引擎的用户接口现状,通过建立同义词词典对查询关键词进行扩展,并为 用户输入提供输入提示,实现良好的用户体验,以提高搜索引擎用户接口的智 能性。 本文所作的主要工作如下: 首先对搜索引擎的工作原理、分词技术以及用户接口部分存在的缺点进行 分析,并对查询扩展的各种方法进行分析和对比,局部分析的效果取决于由原 始查询得来的文档的相关性,对日志中搜索结果的点击分析可以得出此结果与 原始查询关键词之间的相关性。 然后利用概念检索的思想,建立同义词词典,对查询关键词进行扩展,讨 论了潜在语义分析对双语语料进行分析从而进行自动查询扩展,将索引项和文 档映射在多维语义空间内,不仅保持原始数据中的主要信息,也捕捉到隐含的 潜在语义信息,解决了检索过程中出现的多义和同义的问题;也讨论了手工建 立中、英文同义词词典,对查询关键词进行扩展的过程。分析了搜索结果中用 户的点击行为,并依此建立相关查询列表,方便用户进行查询修正或查询扩展。 最后利用a j a x 技术,当用户在搜索引擎页面上的文本输入框中输入查询词 时,根据用户的输入状况,给用户当前输入提供智能的提示信息,方便用户输 入,将用户操作与服务器响应异步化,提升用户体验。在检索时,利用中、英 文同义词词典对查询关键词进行扩展,使用户得到更加全面的辅助翻译信息。 关键字:搜索引擎,用户接口,查询扩展 a b s t r a c t w i t hi n t e r n a t i o n a lc o m m u n i c a t i o nb e c o m i n gm o r ea n dm o r e f r e q u e n t , t h e p o s i t i o no ft r a n s l a t i o nh a sp r o m o t e du n c e a s i n g l y , t h ei n t e r n e ts e a r c he n g i n e a s s i s t e d t r a n s l a t i o no b t a i n st h eu n c e a s i n gd e v e l o p m e n t t r a d i t i o n a ls e a r c he n g i n ei sb a s e do n t h ew o r d sm a t c h i n ga p p r o a c ht or e t r i e v ei n f o r m a t i o n ,b u tt h e r ei sp o l y s e m a n ta n d t h e s a u r u si nt h en a t u r a ll a n g u a g eo fe a c hc o b n t r y , s ot r a d i t i o n a ls e a r c he n g i n ec a n t d i f f e r e n t i a t et h es e m a n t i ci n f o r m a t i o nb e t w e e ni n f o r m a t i o n , a tt h es a m et i m e ,t h e w o r d st h a tu s e ri n p u tc a l l te x p r e s s a c c u r a t e l yt h el a s e r ss e a r c hi n t e n t i o n ,r e s u l t i n gi n p r e c i s i o no fr e c a l lo fs e a r c he n g i n ei sn o th i g h ,a n dd i s p l a y ss e a r c he n g i n e s m e c h a n i c a l n e s s ,s oi tc a l l t p r o v i d e su s e r sw i t hg o o dt r a n s l a t i o ne f f e c t s t h e e s t a b l i s h m e n t so fa ni n t e l l i g e n ts e a r c he n g i n eu s e ri n t e r f a c ea n di m p r o v et h er e c a l l r a t eb e c o m eu r g e n tp r o b l e m s i nt h i st h e s i s ,t h es t u d yi sb a s e do nab i l i n g u a lt r a n s l a t i o ns e a r c he n g i n e ,i nv i e w o fc u r r e n ts e a r c he n g i n e su s e ri n t e r f a c e ,t h r o u g he s t a b l i s ha s y n o n y md i c t i o n a r yt o e x p a n dq u e r yw o r d s ,p r o v i d ei n p u tp r o m p tf o ru s e rt oa c h i e v eg o o du s e re x p e r i e n c e , e n h a n c et h ei n t e l l i g e n to fs e a r c he n g i n eu $ e ri n t e r f a c e t h em a j o ro n e so ft h i st h e s i sa r ea sf o l l o w s : f i r s t , w ea n a l y s i st h ep r i n c i p l eo fs e a r c h e n g i n e ,l e x i c a la n a l y s i s ,t h e d i s a d v a n t a g e so ft i g e ri n t e r f a c ea n dt h em e t h o d so fq u e r ye x p a n s i o n t h ee f f e c to f l o c a la n a l y s i si sb a s e do nt h er e l e v a n c eo ft h ed o c u m e n t st h a to b t a i n e db yo r i g i n a l q u e r y , a n a l y s i so fc l i c ko nt h es e a r c hr e s u l t sm a yo b t a i nt h er e l e v a n c eo ft h er e s u l t a n do r i g i n a lq u e r yw o r d s t h e n ,u s i n gt h et h o u g h to fc o n c e p tr e t r i e v a l ,e s t a b l i s has y n o n y md i c t i o n a r yt o e x p a n dq u e r yw o r d s ,d i s c u s sl a t e n ts e m a n t i ca n a l y s i st ob i l i n g u a lc o r p u si no r d e rt o c a r r y o u ta u t o m a t i c q u e r ye x p a n s i o n , m a pt h ei n d e xa n dd o c u m e n ti n m u l t i d i m e n s i o n a ls e m a n t i cs p a c e ,n o to n l yt om a i n t a i nt h em a i n m e s s a g eo fo r i g i n a l d a t a ,b u ta l s oc a t c ht h ei m p l i e dp o t e n t i a ls e m a n t i ci n f o r m a t i o n , r e s o l v et h e p o l y s e m a n ta n dt h e s a u r u sp r o b l e m s w ea l s od i s c u s st h ee s t a b l i s h m e n to fac h i n e s e a n de n g l i s hs y n o n y md i c t i o n a r ya n dt h ep r o c e s so fe x p a n s i o nt h eq u e r yw o r d s a n a l y s i st h eu s e r sc l i c kb e h a v i o r , e s t a b l i s hal i s to fr e l a t e dq u e r i e sa c c o r d i n gt ot h i s i i f e a t u r e ,i t sc o n v e n i e n tf o ru s e rt oa d a p tq u e r y o rq u e r ye x p a 璐1 0 n f i n a l l y ,w eu s ea j a xt e c h n o l o g y , p r o v i d ei n t e l l i g e n ti n f o r m a t i o nt of a c i l i t a t e u 8 e r i n p u ta c c o r d i n gt ou s e r si n p u tw h e n u s e ri n p u tq u e r yw o r di nt e x te n t r yb o x ,m a k e m eu s e r ,so p e r a t i o na n dt h es e r v e r sr e s p o n s ea s y n c h r o n o u s ,a n de n h a n c et h e u s e r e x p e r i e n c e w h e nw er e t r i e v a l ,w ee x p a n dq u e r yw o r d sm a k eu s eo f c h i n e s ea n d e n g l i s hs y n o n y md i c t i o n a r y , e n a b l e u s e r st oo b t a i nm o r ec o m p r e h e n s i v ei n t o 咖a t l o n t ot r a n s l a t i o n k e yw o r d s :s e a r c he n g i n e ,u s e ri n t e r f a c e ,q u e r ye x p a l l s l o n i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名: 芝垒日期:塑1 2 :! :兰 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 武汉理工大学硕士学位论文 1 1 课题研究的背景 第1 章绪论 随着经济、科技、文化的发展以及国际交流的日益频繁,翻译学学科地位 不断提升,社会需求的翻译量与日俱增,翻译手段和工具日新月异,翻译研究 的视角和途径也不断得到拓宽。最近几年,计算机辅助翻译工具的开发得到了 迅速的发展。互联网搜索引擎辅助翻译是计算机辅助翻译的一种形式,通过利 用搜索引擎为译者在海量的网络资源中寻找到适用的语句或语句成分,方便译 者查找资源并帮助译者提高翻译的准确性和效率。 目前,主流搜索引擎系统一般都采用基于关键词匹配的方式来进行信息检 索,这种方式往往不能提示信息之间的语义信息,导致系统的查全率不是很高, 或者查不准【l 】。对用户的一个查询请求,搜索引擎系统一般都会返回大量无关 的匹配信息,用户需要在这个返回结果中进行二次查找,负担比较重。因此, 如何更好地理解用户查询,改善查询关键词与网页的相关性,使搜索引擎更加 智能化,是搜索引擎技术发展的一个主要方向。 搜索引擎在智能性问题上存在的主要问题有【2 】:( 1 ) 用户不能准确地用关键 词或关键词串来忠实地表达自己真正需要检索内容的检索,例如:用户想查询 数值分析,可是误输为数字分析,搜索出的结果会与用户的期望相差很多。( 2 ) 在人类的自然语言中,随着时间、地域或领域的改变,同一概念可以用不同的 语言表现形式来表达。例如:查询“计算机 ,有些用户会习惯性地输入“电脑” 来进行查询,但是这两个词所表达的意思是一样的。( 3 ) 不同的用户由于不同 专业、生活环境对同一关键词的检索,可能会要求检索出不同的信息。例如: 检索“苹果一词,究竟是指水果还是电脑品牌,搜索引擎无法分辨。 基于大规模网络语料库和双语网页搜索的辅助翻译系统也是采用基于关键 词匹配的方式进行检索的,在进行中英文检索时也会遇到上面的问题。例如:用 户输入检索词a ,那么只返回包含a 词的网页;用户输入检索词b ,同样只返 回包含b 词的网页;用户同时输入a 、b 两个关键词时,那么返回同时包含a 、 b 两个词的网页,当不存在这样的网页时,那么要么返回包含a 词的网页,要 武汉理工大学硕士学位论文 么返回包含b 词的网页。这种模式一方面使得搜索引擎系统返回大量与用户真 实需求无关的匹配信息,用户需要在这些返回结果中进行二次查找,负担比较 重;另一方面用户输入a 词,可能他想要的结果中并不包含a 词,而只是跟a 词语义相关。目前主流搜索引擎系统往往不能很好地处理中、英文语言中存在 的同义、近义,特别是一词多义、多词一义现象。 因此,搜索引擎智能性的好坏在一定程度上会影响到用户检索的效果。所以 根据现有的智能检索的方法,研究、设计出一种适合双语翻译搜索引擎的智能 检索方法,为用户提供良好的查询提示,高效、准确地反馈给用户最需要的信 息,对于双语搜索引擎的进一步研究具有积极的意义。 1 2 国内外现状 网络数据以飞快的速度增加并且信息内容丰富多彩。但是在信息检索的过 程中存在着一个普遍的问题,那就是用户提交的用来检索特定信息的查询语句 往往只是由少数几个关键词组成,这种情况的出现是因为用户提交的用来检索 相关主题的词汇相对于相关文档中作者使用的多样的词汇来说是非常有限的, 在多数情况下,用户很难简单地用关键词或关键词串来忠实地表达自己所真正 需要检索的内容,由于输入的查询语句非常短,利用这些语句并不能充分的检 索到相关的文档。在人类的自然语言中,随着时间、地域或领域的改变,同一 个概念可以用不同的语言表现形式来表达,不同的用户可能使用不同的关键词 来查询,导致返回大量无关的信息,用户需要从结果中进行筛选才能得到有用 的信息。 在生成搜索推荐词的时候,主流搜索引擎系统大都是在搜索关键词基础而 上加入前缀、后缀字符串作为新的搜索推荐词1 6 】,比如说在百度中搜索“武汉 理工大学 这个关键词,那么它给出的搜索推荐词为“武汉大学、“武汉理 工大学研究生院 等,这主要是根据数据库中历史查询记录得到关键词对应的 推荐词,手工的成分很多,对用户的查询请求一般采用纯关键词匹配模式,只 考虑网页的链接关系、关键词在网页中出现的次数、关键词在网页中位置信息 来判断搜索关键词对网页的相关性,只停留在表面的一些特征分析上,没有深 入到语义理解层次【_ 7 1 ,因此不能很好地反映用户真正意图,智能化程度较低。 针对以上各种情况,国内外很多人员进行了相关的研究。杨柳【8 】等人在搜 2 武汉理工大学硕士学位论文 索引擎智能用户接口一文中提出对搜索引擎系统加上智能用户接口,在智能 接口处实现搜索结果的自动分类,并根据用户兴趣习惯等对搜索结果进一步优 化和排序,根据用户模型对用户输入的查询词进行细化,使查询词更能体现用 户的兴趣从而提高查询结果的准确率。欧美有许多用户接口项目的研究,主要 致力于多媒体和高级多通道人机界面两部分,语言内容通过视觉、听觉、触觉 和手势来访问期间、表示和产生多媒体信息的多通道交互的各个方面,在用户 接口的人机交互形式方面进行了研究。王冲1 9 】在语义搜索用户接e l 研究一 文中对如何支持自然语言和关键字查询的语义搜索接口进行了研究,采用将用 户查询转换为三元组中间结构再转换为形式化查询的方式,在语法信息利用上, 提出了基于基本名词短语的分析方法,在关键字查询的转换过程中,重点考虑 歧义的问题,并提出了对转换结果进行排序的方法,通过这些方法使得通过自 然语言和关键字进行的语义搜索更加有效。刘占平【l o 】等人针对数字图书馆的用 户查询界面中存在的问题,提出了并行数字图书馆系统中基于结构和内容查询 界面的设计方法,设计并实现了新的基于结构和内容查询的用户界面,允许用 户在查询界面上选择查询类别,并且查询界面上的查询类别随着系统中存放的 文本类别的变化而动态变化。 著名搜索引擎g o o g l e 为了方便使用中文的用户在网上搜索,允许用户直接 用键盘输入汉语拼音来检索相关事物,例如:输入s h a n g h a i s h i k e b i a o 。检索结 果提示:您是不是要找:上海时刻表,这正是我们需要查找的关键词,用户可 以据此浏览相关结果,这包括上海地区的各种交通工具的时刻表。如果需要查 找更详细的资料“上海飞机航班时刻表 ,则只要在原来的检索结果“上海时刻 表 中间输入f e i j i h a n g b a n ,例如:上海f e i j i h a n g b a n 时刻表。g o o g l e 的这项新 功能,可以免除用户在中文和拼音输入方面的互相转换。用户在输入拼音时, 不要留有空格,否则g o o g l e 会误认为英文。g o o g l e 把拼音与常用的字或者词 组一一对应,因此,过于生僻的字或词组不适合于用这个方法查找。另外,g o o g l e 也提供了一个中英文字典,用户可以按照下列方法查找词义,查找英文的中文词 义则输f yc o m p u t e r ,查找中文的英文词义则输入翻译计算机。 同时,g o o g l e 还提供了工具栏,在搜索框中键入查询内容时,可以利用即 时建议提示来加快搜索速度,并能通过新的个性化标签页直接访问最喜爱的网 站。在主页加入了使用偏好的设置,用户可以在这里设置搜索的语言、输出结 果每面显示的数量、中文简体和繁体文本之间的翻译转换等,经过这一系列的 3 武汉理工大学硕士学位论文 设置,搜索引擎能够更好的理解用户的查询需求,以减少输出多余的结果。 在同类的翻译搜索引擎中,由中美翻译界和学术界合作组建的英汉对照的 双语搜索网站“雅士”开放词典还没有考虑以上有关智能性的问题。 1 3 课题研究的内容与目标 对于现有的基于网络语料库和双语网页搜索的辅助翻译系统在用户接口智 能性方面的不足,分析搜索引擎的工作原理,对双语翻译搜索引擎的用户接口 进行研究,对检索词进行一定的智能扩展,在一定程度上实现双语翻译搜索引 擎的智能性和扩展性,以提高双语翻译搜索引擎的查全率和查准率。 ( 1 ) 查询扩展是解决“信息迷向 、“信息过载 和“词不匹配等问题的 一个方法,根据扩展词来源的不同,查询扩展可以分为很多种类,找到合适的 扩展词来源,对检索词进行扩展,当用户查询一个检索词时,可以得到与这个 检索词同义或者意思相近的中、英文的结果。 ( 2 ) a j 弧技术使w e b 中的界面与应用分离,通过异步模式,在不更新整 个页面的前提下维护数据。使用这一技术,当用户在文本输入框中输入查询词 时,给用户一定的智能提示,方便用户输入,从而高效、准确地反馈给用户最 需要的信息,帮助用户获得最佳的检索效果。 1 4 论文各章安排 第l 章为绪论,主要介绍论文课题研究的背景知识以及国内处的研究现状, 介绍本课题研究的价值和意义。 第2 章为搜索引擎相关理论知识介绍,包括搜索引擎的工作原理、分类、 分词技术以及搜索引擎的评测标准。 第3 章为查询扩展和a j a n 技术的研究,分析几种查询扩展的方法,对这些 方法进行一定的比较,分析a j a x 技术的工作原理以及使用此技术的优势。 第4 章为智能化用户接口的设计,提出利用查询扩展、人机交互以及输入 提示来实现双语翻译搜索引擎用户接口的智能化,主要对查询扩展的过程进行 详细说明。 第5 章为智能用户接口的实现,主要是在原来的双语翻译搜索引擎的基础 4 武汉理工大学硕士学位论文 上,对用户接口利用a j a x 技术进行改进。 第6 章为总结与展望,对本文所做的工作做出总结,并对如何提高系统的 查准率和a j a x 的安全性进行讨论。 5 武汉理工大学硕士学位论文 2 1 概述 第2 章搜索引擎有关理论 随着信息科学技术的不断发展,网络已经成为人们生活中的重要组成部分, 互联网作为信息交流的中心与枢纽,作用愈显重要。互联网上有众多却杂乱无 章的信息,而且各种信息以几何级数的方式增长,大量信息扑面而来,怎样快 速、准确、简单地获取人们需要的信息,成为人们迫切需要解决的问题。在此 情况下,搜索引擎诞生了,经过数十年的发展,目前已经成为人们日常生活中 必不可少的工具。搜索引擎( s e a r c he n g i n e ) 是指根据一定的策略、运用特定的 计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检 索服务的系统j 。 2 2 工作原理 搜索引擎的组成非常复杂,它一般由搜索器( s p i d e r ) 、索引器( i n d e x e r ) 、 检索器( s e a r c h e r ) 和用户接口( u s e ri n t e r f a c e ) 四个部分组成,各个部分进行 特殊的操作,完成一定的功能。如图2 1 所示。 图2 1 搜索引擎的基本结构 6 武汉理工大学硕士学位论文 每个独立的搜索引擎都有自己的网页抓取程序( 元搜索引擎没有) 。网页抓 取程序顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快 照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就 能搜集到绝大多数的网页。搜索引擎抓到网页后,还要做大量的预处理工作, 才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还 包括去除重复网页、分析超链接、计算网页的重要度。用户输入关键词进行检 索,搜索引擎从索引数据库中找到匹配该关键词的网页:为了用户便于判断, 除了网页标题和u r l 外,还会提供一段来自网页的摘要以及其他信息。综上所 述,搜索引擎系统一般由抓取网页、加工整理、查询服务三个阶段构成。搜索 引擎工作的流程图如图2 2 所示。 2 2 1 搜索器 搜索器是一个被称为网络爬虫( s p i d e r ) 的自动提取网页的程序,它为搜索 引擎从互联网上下载网页,是搜索引擎的重要组成部分。网络爬虫从一个或若 干初始网页的u r l 开始,获得初始网页上的u r l ,在抓取网页的过程中,不 断从当前页面上抽取新的u r l 放入队列,然后再根据策略爬行这些新发现的 u r l ,直到满足系统的一定停止条件,如图2 3 所示。 所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立 索引,以便之后的查询和检索。一般的爬虫都会自己建立d n s ( d o m a i n n a m e s e r v e r ,域名服务器) 缓冲,建立d n s 缓冲能够加快u r l 解析成i p 地址的速 度。 网页的抓取策略可以分为这样三种:深度优先、广度优先和最佳优先。目 前常见的是广度优先和最佳优先方法【1 3 】。广度优先是指在抓取过程中,在完成 当前层次的搜索后,才进行下一层次的搜索。最佳优先是按照一定的网页分析 算法,预测候选u r l 与目标网页的相似度,或与主题的相关性,并选取评价最 好的一个或几个u r l 进行抓取。目前,为覆盖尽可能多的网页,一般使用广度 优先搜索方法。 7 武汉理工大学硕士学位论文 网 页 抓 取 阶 段 一一一g 图2 2 搜索引擎工作流程酬1 2 l 8 加 工 整 理 阶 段 武汉理工大学硕士学位论文 2 2 2 索引器 图2 3 爬虫的运行过程 索引器的功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表 示文档以及生成文档库的索引表。由于搜索器抓取的页面是不同组织形式的数 据信息,所以首先必须对它们进行分析处理,文档分析处理技术一般包括分词 处理、网页过滤和净化、网页内容转换等,经过分析处理以后,不同格式的文 档都被统一转换为文本文档。然后从这些文档中抽出文档,对它进行分词处理, 即将文档中的句子转化为不连续的词,即索引项,再利用一些策略用这些索引 项把文档表示成一种便于检索的方式,生成文档库的索引表并存储在索引数据 库中【1 4 】。搜索引擎的索引一般是一个倒排表,即由索引项查找相应的所在文档 的形式。索引器是搜索引擎的核心技术之一,它的策略在很大的程度上影响了 搜索引擎系统的效率和准确性。 9 武汉理工大学硕士学位论文 2 2 3 检索器 搜索引擎的检索器所做的工作是根据用户输入的查询语句在索引数据库当 中快速检索文档,并计算相关度,对将要输出的结果进行排序,并能够按照用 户的查询需求来合理的反馈结果。检索器常用的信息检索模型有集合理论模型、 代数模型、概率模型和混合模型四种1 5 1 。为了达到最好的检索效果,大多数的 搜索引擎系统采用将上面的各种模型揉合在一起的方式来进行检索。 2 2 4 用户接口 用户接口是搜索引擎系统中与用户密切相关的一个部分,它的主要作用是 接收用户输入的查询内容、显示查询结果、提供用户相关性反馈机制,即为用 户提供一个操作界面,以方便用户通过搜索引擎来快速、多方式地获取有用的 信息。 用户接口可以分为简单接口和复杂接口两种【1 6 1 。简单接口是仅仅提供用户 输入查询关键字的文本框;复杂接口允许让用户对查询进行一定的限制,例如 可以限制进行如a n d 、o r 、n o t 、- t - 、等逻辑运算、相近关系( n e a r ) 、域 名范围( 如e d u 、c o r n ) 、出现的位置( 如标题、摘要、内容) 、信息更新时间、 长度等。 通过分析,我们发现传统的搜索引擎对查询仅仅采用机械的关键词匹配的 形式,这种搜索方法缺乏一定的知识理解能力,同时也无法考虑到各个用户之 间的差异,因此查询结果往往会出现查全率和查准率不高的问题,由此可见传 统的基于关键词匹配模式的搜索引擎已经无法满足用户越来越高的需求,因此, 将用户接口进行一定程度的改进,让它对知识具有一定的理解能力,例如能够 实现自动分词技术、同义词技术、短语识别、概念搜索等等一些效果,将目前 的基于关键词匹配层面的搜索提高到基于知识或概念层面,使搜索引擎具有一 定的人性化和智能性。通过对用户输入的查询关键词进行优化从而来获得更加 准确的用户需求,使搜索结果的相关度更高。 本文将对双语翻译搜索引擎的用户接口进行智能性的改进,对查询内容进 行语义上的扩展,并且挖掘用户的信息,在用户界面上进行适当的改进,给用 户输入一定的提示,以提高搜索引擎对用户需求的理解,从而提高搜索引擎的 1 0 武汉理工大学硕士学位论文 查全率和查准率。 2 3 搜索引擎的分类 经过数十年的发展,出现了多种以不同的方式工作的搜索引擎,根据工作 方式的不同,搜索引擎主要可分为三种【1 7 】,分别是:全文搜索引擎( f u l lt e x t s e a r c he n g i n e ) 、目录索引类搜索引擎( s e a r c hi n d e x d i r e c t o r y ) 和元搜索引擎 ( m e t as e a r c he n g i n e ) 。 2 3 1 全文搜索引擎 全文搜索引擎是目前流行的大型搜索引擎普遍采用的形式【l 引。它通常是由 网络蜘蛛( s p i d e r ) ( 也称为网络机器人( r o b o t ) 或网络爬虫( w e bc r a w l e r ) ) 以特定的策略自动地在互联网中搜集信息,然后由索引器将搜集到的信息建立 索引形成索引库。当用户输入检索字或检索词进行查询时,检索器根据已经建 立好的索引进行查找,并将查找到的结果按照一定的排列顺序显示出来反馈给 用户。这类搜索引擎的优点是不需要人工干预,更新很及时,并且反馈的信息 量很大,它的缺点是返回的信息过多,其中有很多无关的信息,因此用户必须 从结果中进行筛选。国内外具有代表性的全文搜索引擎有:g o o g l e 、b a i d u 、a l i a v i s t a 等。 2 3 2 目录索引类搜索引擎 目录式搜索引擎并不是严格意义上的搜索引擎,它是以人工方式或半自动 方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事 先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。 如果想要找一个网站,那么就顺着分类一直找下去,直到找到所需要的信息。 这类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要 人工介入、维护量大、信息量少、信息更新不及时。y a h o o 便是目录式搜索引 擎的鼻祖。 2 3 3 元搜索引擎 武汉理工大学硕士学位论文 元搜索引擎是一种调用其他搜索引擎的引擎,也被称为集成式搜索引擎。 它通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的搜 索引擎来实现检索,是对分布于网络的多种检索工具的全局控制机制。 每一个搜索引擎都有它预期的用户群,所以也具有特定的数据库索引范围, 一种搜索引擎不可能满足所有人或一个人所有的检索需求。通常人们需要使用 多个搜索引擎,通过对搜索结果进行比较、筛选来获取最佳的信息,元搜索引 擎就是一种调用其它独立搜索引擎的引擎,其操作流程如图2 4 。 图2 4 元搜索引擎操作流程副1 9 】 在检索时,元搜索引擎调用别的搜索引擎进行搜索,把搜索到的结果进行 一系列的处理后,以统一的格式在界面中显示给用户。元搜索引擎分为并行处 理式和串行处理式两大类【2 叭。并行处理式元搜索引擎是将用户的查询请求同时 转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引 擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询 处理。 元搜索引擎虽然没有自己的网页搜寻机制,也没有独立的索引数据库,但 是它集中了别的搜索引擎的结果,使得返回结果的信息量更大、更全,即查全 率比较高;但是它也不能够充分使用所使用源搜索引擎的功能,对于多个独立 的搜索引擎返回的结果,用户需要做更多的筛选才能得到合适的结果。比较有 代表性的元搜索引擎有v i v i s i m o 、i n f o s p a c e 等。 1 2 武汉理工大学硕士学位论文 2 4 分词技术 分词技术就是搜索引擎针对用户提交查询的语句进行的查询处理后根据用 户的关键词串用各种匹配方法进行的一种技术。 英文是以单词为单位,单词和单词之间以空格分开,所以很容易能分辨出 每个单词,但是中文是以字为单位,句子中所有的字连起来才能描述一个意思。 计算机很容易把一个英文句子分成一个一个的单词,但是中文句子中的一个一 个字分开就失去了它原来的意思。把中文的汉字序列切分成有意义的词的技术, 即称为中文分词技术,下面我们着重讨论一下中文分词技术。现有的分词算法 可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计 的分词方法。 2 4 1 基于字符串匹配的分词方法 基于字符串匹配的分词方法是将待分析的汉字串与机器词典中的词条进行 匹配,如果在词典中找到某个字符串在这个汉字串中也有,则匹配成功,即识 别出这个汉字串中的一个词。按照扫描方向的不同,基于字符串匹配的分词方 法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最 大匹配和最小匹配:按照是否与词性标注过程相结合,又可以分为单纯分词方 法和分词与标注相结合的一体化方法【2 1 1 。具体的机械分词方法有:最大匹配法、 逆向最大匹配法、逐词遍历匹配法、双向扫描法、最佳匹配法、设立切分标记 法和有穷多级列举法等。 2 4 2 基于理解的分词方法 通常的分析系都统,都力图在分词阶段消除所有歧义切分的现象,而有些 系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程 的一个小部分,基于理解的分词方法的基本思想就是在分词的同时也进行句法、 语义分析,利用句法信息和语义信息来处理歧义现象。基于理解的分词方法包 括分词子系统、句法语义子系统、总控部分这三个部分。总控部分协调整个系 统,分词子系统模拟人对句子的理解过程,通过获得有关词、句子等的句法和 语义信息来对分词歧义进行判断来实现。目前基于理解的分词系统还处在试验 1 3 武汉理工大学硕士学位论文 阶段,联想回溯法就是其中的一种方法。 2 4 3 基于统计的分词方法 对于中文,从外在形式上来看,词是由字组合而成的,具有一定的稳定性, 所有同时出现次数越多的相邻的字越有可能构成一个词。因此,我们可以用字 与字相邻共现的频率或概率来反映成词的可信度。通过对语料中相邻共现的各 个字的组合频度进行统计,计算它们的互现信息。这种方法不需要切分词典, 但它会经常抽出一些共现频度高、但并不是词的常用字组,并且对常用词的识 别精度差,时空开销大。常用的基于统计的分词方法有基于词频统计的切词法 和基于期望的切词法,其中前者利用词频统计的结果帮助在切词过程中处理歧 义切分字段,后者认为一个词的出现,它后面紧随的词就会有一种期望,据这 种期望,在辞典中找出所有的词从而完成切分。 2 5 搜索引擎的评测标准 要衡量一个搜索引擎系统的好坏,我们用查全率( r e c a l lr a t i o ) 、查准率 ( p r e c i s i o nr a t i o ) 和响应时间( r e s p o n s et i m e ) 这三个技术指标来评判。一个 好的搜索引擎系统要求具有较短的响应时间和高查全率、查准率等,这些指标 决定了搜索引擎的最终效果和用户的使用体验【2 2 1 。 l 、查全率 查全率是指一次检索结果集中符合用户要求的检索数目与用户查询相关的 所有信息总数之比。该指标保证了用户查询结果的全面性,给用户提供尽量多 的辅助参考信息。 2 、查准率 查准率是指一次检索结果集中符合用户要求的数目与本次检索结果的信息 总数之比。它是一个复杂的概念,一方面表示了检索系统对检索结果的排序能 力,另一方面又体现了检索系统对垃圾信息的抗干扰能力。较高的准确率为用 户提供了高质量的参考信息。 3 、响应时间 响应时间指的是从用户提交检索请求到系统返回检索结果的整个过程中所 经历的时间。该指标对用户体验是非常重要的。在网络环境下,响应时间在相 1 4 武汉理工大学硕士学位论文 当大的程度上取决于检索主机的硬件配置、用户使用的通讯设备、网络的拥挤 程度等外部因素,即使同一检索工具,在不同时间检索同一内容,其响应时间 也会不一样。因此,这些指标更多地受客观因素的影响而不同。 对于一个信息检索系统来讲,查全率和查准率是不可能两全其美的:查全 率高时,查准率相对较低,查准率高时,查全率就会降低。针对双语翻译搜索 引擎的特点,本文所做的工作主要基于对系统查全率的考虑。 2 6 本章小结 本章主要对搜索引擎的工作原理、分类、评测标准以及分词技术进行描述, 分析搜索引擎的工作流程,为进一步的研究打下理论基础。 1 5 武汉理工大学硕士学位论文 第3 章查询扩展和a j a x 技术研究 3 1 查询扩展 由于在自然语言中存在大量的同义词和多义词,而且目前大部分搜索引擎 是基于传统的倒排索引、布尔查询技术和基于关键词的机械式的符号匹配,在 使用搜索引擎时用户提交的查询词不够规范等等一系列的问题使得用户在查询 时出现许多难以克服的问题,使得系统的查全率和查准率很低。针对这种情况, 学者v a nr i j s b e r g e n 指出,必须对初始查询进行一定的修改,因为仅仅依靠用户 输入的初始查询词来提高系统的检索性能是非常有限的。v a nm j s b e r g e n 提出的 对初始查询的修改即为查询扩展,主要涉及对初始查询关键词的权重修改和加 入与初始查询词相关的词。 利用计算机语言学、信息学、控制论等多种技术,把与初始查询相关的词 或者与初始查询语义相关联的概念添加到初始查询中,得到比初始查询更长的 新查询,然后再进行检索,从而来改善和提高信息检索的查全率和查准率,这 就是查询扩展1 2 引。查询扩展要解决的核心问题是如何设计和利用扩展词。我们 可以通过三种方式得到扩展词:一是初检结果中我们认为与检索词相关的文档: 二是用如聚类、文本挖掘等技术从文档集或者查询日志中找出与原始查询相关 的词语作为扩展词;三是某种包含词与词之间的相关关系的信息资源,这种资 源可以利用大规模语料通过统计的方法自动生成,也可以是人工生成的。 w o r d n e t 2 4 , 2 5 和h o w n e t 是两个有名的人工生成资源的例子。 查询扩展这种解决方案引起了国内外很多学者的关注,提出了许多可行性 的研究方法。目前关于查询扩展的研究热点大体上有基于全局语料集分析的方 法( 简称全局分析方法) 、基于局部文档集分析的方法( 简称局部分析方法) 、 基于局部上下文分析的方法和基于用户日志的查询扩展等【2 6 l 。 3 1 1 基于全局语料集分析的方法 基于全局语料集分析的方法,即全局分析( g l o b a la n a l y s i s ) 是首先相关性 分析全部文档中的词或词组,计算每对词或词组间的相关程度。当用户提交一 1 6 武汉理工大学硕士学位论文 个新的查询时,系统根据相关矩阵自动的选择与查询语句最相关的词或词组加 入原查询从而生成新的查询。主要的全局分析法有:检索词聚类( t e r m c l u s t e r i n g ) 、潜在语义索引( l a t e n ts e m a n t i ci n d e x ) 、相似性叙词表( s i m i l a r i t y t h e s a u r i ) 等【2 刀。 3 1 1 1 检索词聚类 检索词聚类算法的基本思想是根据词的共现( c o o c c u r r e n c e ) 来对整个文档 集的全部文档词进行聚类生成不同的簇,由这些簇组成全局叙词表或者对每个 簇构造相应的局部叙词表,然后来对查询进行扩展。它的前提是假设如果文档 集中的两个词是相关的,那么它们在集合中共现的概率就大。如果一个查询有 多个意思,依照这个算法会把词分配到不同的聚类中,因此这种方法对于词的 歧义性不能处理,反而会使查询的结果更含糊,导致查询的性能下降。 3 1 1 2 潜在语义索引 假设高维空间中的关联词能够使用低维空间相应的表示,潜在语义索引利 用一些数学方法【2 8 】来把高维空间降为低维空间,它使用了矩阵理论中奇异值分 解( s i n g u l a rv a l u ed e c o m p o s i t i o n ,s v d ) 这个著名的技术,即给定t 个词和d 个文档的词频矩阵t * d ,使用奇异值分解删除一些行和列,删除的过程中只忽 略频率矩阵中意义最小的部分,这样才能使信息丢失最小化,使矩阵减少为 k * k 。通过奇异值分解和多维索引,变换后的文档可用于比较两文档的相似度 或找出与查询最匹配的前面n 个结果。该技术与标准的矢量空间检索系统相比, 没有提供更好的效果,对低维空间的选择仍然是比较困难的问题。 3 1 1 3 相似性叙词表 为了解决检索词聚类在查询扩展中的缺陷,有人提出了相似性叙词表的方 法,它在一定程度上解决了查询词歧义的问题。这种方法将查询作为一个概念 来处理,扩展词的选择是通过考虑与所有的查询词共现来计算获得的,因为用 多个查询词同时共现的歧义消除效果比仅仅考虑用单个查询词的共现更好。先 构造相似性叙词表,在此基础上,再计算每个候选扩展词与整个查询的相似度, 对该相似度值降序排列,把位于前面的n 个候选扩展词用于查询扩展。这种方 法需要计算每一对词的共现率来产生概念,生成文档,所以计算开销较大,导 致查询效率有所下降。 1 7 武汉理工大学硕士学位论文 3 1 2 基于局部文档集分析的方法 基于局部文档集分析的方法,即局部分析(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 品酒师基础知识考核试卷及答案
- 华医网医院感染预防与控制知识考试题及答案
- 2025年医务人员院感防控知识培训-医院感染管理规范培训试题及答案
- 热塑性弹性体装置操作工理论知识考核试卷及答案
- 2025年危重症专科小组理论考核试卷含答案
- 农发行连云港市灌云县2025秋招笔试英语题专练及答案
- 2025年农村信用社考试试题及答案
- 2025年钳工理论考试题及答案
- 方言分类考试真题及答案
- 采油平台水手工艺创新考核试卷及答案
- 日本日经225指数历史行情(1987年04月21日-2025年3月31日)
- 教育对文化的影响
- 2020海湾青鸟消防 GST-LD-8327H 环型总线接口
- 物流及物流辅助服务合同
- 《智能制造基础与应用》课件 第五章 智能制造柔性系统
- 征信修复的标准和流程
- 网上不良信息的侵害及预防
- 有线基础知识
- 2025年芳香理疗师理论参考试题库(含答案)
- 互联网广告投放与代理合同
- 电梯维保服务投标方案
评论
0/150
提交评论