(计算机应用技术专业论文)基于元搜索的双语智能翻译搜索引擎的研究.pdf_第1页
(计算机应用技术专业论文)基于元搜索的双语智能翻译搜索引擎的研究.pdf_第2页
(计算机应用技术专业论文)基于元搜索的双语智能翻译搜索引擎的研究.pdf_第3页
(计算机应用技术专业论文)基于元搜索的双语智能翻译搜索引擎的研究.pdf_第4页
(计算机应用技术专业论文)基于元搜索的双语智能翻译搜索引擎的研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于元搜索的双语智能翻译搜索引擎的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着网络信息技术的飞速发展,搜索引擎作为互联网上获取信息最重要的工 具已在各个行业得到广泛应用。然而当今网络信息的增长速度已经远远超过搜索 引擎的发展速度,搜索引擎的发展已难以满足日益增长的用户需求,为了满足用 户在专业化特定领域信息检索的需要,出现了一些个性化的专业搜索引擎,双语 智能翻译搜索引擎也是一种为用户在双语领域提供检索的专业搜索引擎,它为用 户提供双语翻译领域的检索服务,实现对中英文双语页面的检索。 为了提高双语智能翻译搜索引擎的查全率与查准率,元搜索技术的融入至关 重要,元搜索引擎是一种建立在独立搜索引擎之上的搜索引擎。他由多个成员搜 索引擎组成,能够将用户提交的检索需求在各成员搜索引擎上分别进行检索,然 后对从各成员搜索引擎中分别获取的结果进行融合处理后以统一的方式提交给 用户。此过程最重要的是对结果的处理,也是本文研究的重点和难点。 本文的主要工作如下: ( 1 ) 对目前的搜索引擎现状和双语智能翻译搜索引擎的含义、工作原理、 工作流程和现状进行了简单的描述。并对元搜索技术在工作原理、技术特点和应 用中存在的不足进行了分析。 ( 2 ) 针对现有元搜索技术的不足与双语智能翻译搜索引擎的特点,重点对 元搜索引擎在结果提取、结果去重和结果融合方面进行了深入研究。 ( 3 ) 由于各成员搜索引擎来源不同,各成员搜索引擎的检索方式各不相同, 因此在对元搜索引擎结果处理方式进行设计时,充分考虑双语智能翻译搜索引擎 在个性化和智能化上的需要,并结合用户的使用特点对各页面进行了相关度分 析,在结果排序上面采用了优化的排序算法,提高了用户对搜索引擎的满意度。 关键字:元搜索,双语,结果融合,结果排序 a b s t r a c t w i t l lt h eh i g h l yd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,t h ei n t e m e ts e a r c h e n g i n eh a sb e e nw i d e l yu s e da s t h em o s ti m p o r t a n tt o o lt oo b t a i ni n f o r m a t i o ni n v a r i o u si n d u s t r i e s h o w e v e r ,n o w a d a y st h eg r o w t ho ft h en e t w o r ki n f o r m a t i o nh a sf a r e x c e e d e dt h ed e v e l o p m e n to fs e a r c he n g i n e s i no r d e rt os a t i s f yc l i e n t s d e m a n d ,t h e r e c o m e ss o m ec u s t o m b u i l ts e a r c he n g i n e s u c ha sb i l i n g u a ls e a r c he n g i n e t h eb i l i n g u a l s e a r c he n g i n ei sap r o f e s s i o n a ls e a r c he n g i n et h a tc a no f f e rt h ec u s t o mt h es e r v i c eo f i n d e xi nt h eb i l i n g u a la r e a , w h i c hc a np r o v i d es e a r c hr e s u l ti nb o t he n g l i s ha n d c h i n e s e t h em e t a - s e a r c ht e c h n o l o g yi si n t r o d u c e di no r d e rt oi m p r o v et h er a t eo f i n t e g r a l i t y a n dv e r a c i t y d e g r e e o ft h e b i l i n g u a li n t e l l i g e n t t r a n s l a t es e a r c h e n g i n e t h em e t a - s e a r c ht e c h n o l o g yi s as e a r c he n g i n ew h i c hi sb a s e do na l l i n d e p e n d e n ts e a r c he n g i n e i tc a ns e a r c ht h ec l i e n t s ”k e yw o r d ”r e s p e c t i v e l ya n d t h e n c o m b i n ea l lt h er e s u l t st o g e t h e rt og e tau n i f o r m e df o r m ,w h i c hw i l lb em a n a g e dl a t e r t os u b m i tt o t h ec l i e n t 强er e s u l tp r o c e s s i n gi st h em o s ti m p o r t a n tt h i n gi nt h i s p r o c e s s ,a n di ti sa l s ot h ef o c u so f t h i st h e s i s t h em a i nw o r ki sa sf o l l o w s : ( 1 ) i n t r o d u c et h em e a n i n g ,w o r k i n gp r i n c i p l e ,w o r k f l o wa n dt h ec u r r e n ts t a t u so f t h es e a r c he n g i n e ,m e t a - s e a r c he n g i n ea n db i l i n g u a li n t e l l i g e n tt r a n s l a t es e a r c h e n g i n e a n a l y s i st h ed e f i c i e n c yi na p p l i c a t i o no ft h em e t a - s e a r c h 2 ) r e s e a r c ho nt h ee x t r a c t i o n ,s i m i l a rr e s u l t sd e l e t i n ga n di n t e g r a t i o nf o rt h er e s u l t t h a tc o m e sf r o mt h em e t a - s e a r c he n g i n ei na l l u s i o nt ot h ee x i s t i n gm e t a - s e a r c h t e c h n o l o g ya n dt h el a c ko fb i l i n g u a lt r a n s l a t i o ni n t e l l i g e n ts e a r c he n g i n e ( 3 ) a n a l y s i st h er e l e v a n c eo ft h ew e bp a g e s ,o p t i m i z et h ec o m p o s i t o ra l g o r i t h mi n a r r a n g et h el a s tw e bp a g e s ,c o n s i d e r i n gt h ed e m a n d i n go ft h ei n d i v i d u a t i o na n d i n t e l l i g e n t i z ei nt h er e s e a r c ho ft h em e t a - s e a r c he n g i n e ,t h ed i f f e r e n c eo fs o u r c ea n d i n d e xp a t ho ft h es e a r c he n g i n e e n h a n c i n gt h es a t i s f a c t i o no fu s e r s k e y w o r d s : m e t a - s e a r c h ,b i l i n g u a l ,r e s u l t si n t e g r a t i o n ,r e s u l ts e q u e n c e 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检 索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武 汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会 公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 签名:茎:堑导师签名:垃日 武汉理工大学硕士学位论文 1 1 选题背景及意义 第1 章绪论 随着i n t e m e t 技术的飞速发展,网络资源成几何倍数增长,截至2 0 0 8 年底, 全球网民数量达到了1 3 2 亿,互联网普及率达到了2 1 9 ,我国的网民人数也达 到了2 9 8 亿,在互联网普及率上以2 2 6 的比例首次超过全球平均水平l l j 。如此 庞大的数据给人们带来了无尽的知识和极大的便利,人们不出门即可阅万卷、知 天下,但是,与此同时也暴露出一些亟待解决的问题,其中,最主要的问题就是 由于信息增长的速度已经大大超越了人们目前能够做到的处理信息的能力,庞大 的信息量也让用户在对知识进行获取的时候显得无所适从和难以驾驭。普通的网 络用户想要在互联网上找到自己所需的资料如同大海捞针,这时为满足网民对信 息检索的需求,出现了专业搜索网划2 1 。 在人们浩瀚的网络生活中,搜索引擎作为人们获取信息的主要方式,所扮演 的角色也越来越重要。人们要在互联网上查找各种资料几乎都要通过搜索引擎 ( s e a r c he n g i n e ) ,搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统p j 。用 户在使用搜索引擎的时候只需要在搜索框内出入与主要信息相关的关键字或关 键词,通过浏览器提交给搜索引擎后,搜索引擎就能够根据用户输入的关键字或 关键词在互联网上进行检索,然后将检索获取的相关结果返回给用户【4 】。因此搜 索引擎技术的发展依托与用户的检索需求,能够为用户提供需要的准确信息的搜 索引擎才是好的搜索引擎,因此搜索引擎在发展过程中必须从各个角度去满足用 户的需求。据2 0 0 9 年中国互联网络发展状况统计报告显示中国目前搜索引擎的 使用率为6 8 0 ,在各互联网应用中位列第四位。2 0 0 8 年全年搜索引擎用户增长 了5 1 0 0 万人,年增长率达到3 3 6 。另外在对网民进行对互联网的各项行为重 要性的调查中,有6 3 的网民认同搜索引擎的重要性地位,在各项重要性调查指 标中名列第一位。 搜索引擎技术的长足进步大大提高了用户的搜索效率和搜索质量,但是在查 全率和差准率上面还有所欠缺,不能满足日益增长的用户需求。特别是在庞大的 互联网资源面前搜索引擎更显得力不从心。于是,部分搜索引擎改变了原来收集 全部信息的方式,而改为集中收集某一领域的专业信息,以此为搜索用户提供专 业领域内的获取精准信息的服务。 随着中国经济的飞速发展,对外交流的进一步加深,人们对外界事物的求知 武汉理工大学硕士学位论文 欲望进一步加强,互联网首当其冲成了中国了解世界、认知世界、感受世界最主 要的方式和途径,但是目前互联网上7 0 以上的信息都是英文信息,语言自然成 了中国人获取信息的最大障碍,尽管目前国内正涌现着一股外语学习热,但是目 前学习者的外语水平仍处于中低级阶段,距离能够准确实现对英语信息进行准确 翻译的标准仍有一定得差距。随着翻译产业化进程的加快,中国翻译事业的发展 一定会突飞猛进1 5 1 。 双语智能翻译搜索引擎( b i l i n g u a li n t e l l i g e n tt r a n s l a t es e a r c he n g i n e ,b i t s e ) 也正是扮演着这样的角色,它为检索用户在双语翻译领域提供检索服务。双语智 能翻译搜索引擎通过对网络搜索引、自动积累平行语料库、机器翻译的研究,利 用网络机器人技术、网页噪音过滤技术、语句匹配入库算法、数据挖掘、分词技 术、双语对齐技术、全文检索技术以及k j a v a 无线应用等多项技术,实现了基 于网络大规模语料库和双语网页搜索的辅助翻译搜索引擎系统【6 j 。 作为为双语智能翻译搜索引擎提供结果处理机制的元搜索引擎( m e t a s e a r c h e n g i n e ) ,在双语智能翻译搜索引擎中也扮演着重要的角色。本课题研究的目的 就是为双语智能翻译搜索引擎提供一种结果处理应用模型【7 j 。衡量一个搜索引擎 最直接的标准就是能不能以最快的速度、最准确信息的为用户提供所需要的关键 信息。因此对于双语智能翻译搜索引擎中的元搜索引擎来说,其研究的重要性不 言而喻。 1 2 课题研究的目标及内容 搜索引擎虽然经过几十年的发展,但是在网络信息扩张的今天,已经跟不上 搜索用户对检索结果的要求。包括搜索引擎信息库更新的速度、信息的多样性等 方面,但是最重要的是检索结果的查全率和查准率强1 。 目前一个搜索引擎平均能够覆盖到的范围只有5 2 0 ,即使是g o o g l e 和 百度的覆盖范围也不超过4 0 ,显然,没有一个搜索引擎能够覆盖大部分的互联 网络信息,也正因为这样,部分搜索引擎厂商已经认识到自身的技术不能实现对 互联网络整体信息的覆盖,转而致力于为用户提供准确的、专业的专业性搜索引 擎。比如专注于电影的专业搜索引擎:m o v i e 3 4 ( h t t p :w w w m o v i e 3 4 c o m ) 和 狗狗搜索( h t t p :w w w g o u g o u c o r n ) 等,专注于音乐搜索的专业搜索引擎:百 度m p 3 ( h t t p :m p 3 b a i d u c o r n ) 和雅虎音乐( h t t p m u s i c c a y a h o o c o r n ) 等, 专注于人物搜索的专业搜索引擎:雅虎人物搜索( h t t p :p e o p l e c a y a h o o c o r n ) 和微软人立方关系搜索( h t t p :r e n l i f a n g m s r a c n ) 等1 9 1 ,使用这些专业的搜索 引擎能够有效地提高在各专业领域检索的查全率与查准率b o 。双语智能翻译搜 索引擎为用户提供专业的双语搜索,属于翻译搜索领域的专业搜索引擎。 2 武汉理工大学硕士学位论文 尽管各种专业搜索引擎只专注于各自的专业领域,但还是不能实现对该领域 大部分网络信息的覆盖,如果有一种搜索引擎能够集合多种专业搜索引擎的覆盖 范围,那么就能够大幅提高专业搜索引擎的检索范围,进而提高搜索引擎的查全 率。 即使能够利用各搜索引擎进行检索,但是由于不同的搜索引擎运用的算法和 检索范围不同,要得到相对全面、准确的检索结果,必须整合网络资源,实现信 息共享【l 。因此只有在检索的时候同时调用多个搜索引擎,通过集成系统以汇集 多个搜索引擎的检索结果,主动帮用户获取各大成员搜索引擎的最佳结果,并按 重要性和热门程度等进行有序排列,才能保障结果精准而全面。为了实现这个目 标,检索工具开发者设计了元搜索引擎。 元搜索技术近年来获得了广泛的应用,它为用户提供了非常好的检索帮助, 在一定程度上提高了检索结果的准确度【1 2 】。在双语智能翻译搜索引擎中,采用 了元搜索引擎技术,提高查全率与查准率。 在双语智能翻译搜索引擎中,尽管元搜索引擎能够实现对多种搜索引擎在功 能和信息资源方面的集成,在查全率方面具有非常明显的优势,但是据调查显示, 元搜索的使用率非常低,其主要的原因是元搜索技术与普通搜索引擎相比还还存 在一定的差距,最主要就是在检索结果上。在元搜索中,需要将从各成员搜索引 擎中获取的结果以统一的格式提供给用户,而这些提交给用户的信息来自不同的 搜索引擎,各成员搜索引擎在检索机制具有很大的差异性,响应时间和检索结果 的数量也不一样,结果顺序排序的方式也各不相同,有的按相关度排序,有的按 响应时间排序等等,这就制约了元搜索引擎的发展【1 3 】。因此要想有效的利用元 搜索引擎,就必须在结果处理上制定合理的机制,以保证融合的结果能够满足用 户的需要,因此双语智能翻译搜索引擎的元搜索研究的重点是对从各成员搜索引 擎中获取的检索结果进行融合与排序。 在结果融合的研究中,采用了权值与定量结合的优化方法来对各成员搜索引 擎的检索结果进行提取,并对提取的页面进行净化处理与去重处理,除去由于各 成员搜索引擎覆盖面的交叉等原因产生的重复网页和类似网页,在结果排序方 面,运用了基于优化的网页r a n k 值的相关度排序算法,保证了双语智能翻译搜 索引擎结果排序的人性化与智能化。 1 3 论文的组织结构 本论文内容结构具体如下: 第1 章:绪论,介绍了选题的背景及意义及研究的主要内容。 第2 章:介绍了双语智能翻译搜索引擎的原理、设计思想、基本结构和工作 武汉理工大学硕士学位论文 流程。 第3 章:元搜索引擎的原理与特点,元搜索技术的总体设计。 第4 章:介绍了双语智能翻译搜索引擎中元搜索引擎的结果融合技术,并对 各个模块进行了阐述。 第5 章:介绍了双语智能翻译搜索引擎中元搜索引擎的结果排序方法,并对 各个模块进行了阐述。 第6 章:对论文进行了总结,并对双语智能翻译搜索引擎中元搜索技术的未 来发展进行了展望 4 武汉理工大学硕十学位论文 第2 章双语智能翻译搜索引擎概述 2 1 搜索引擎 2 1 1 搜索引擎概述 搜索引擎( s e a r c he n g i n e ) 是指根据一定的策略、运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。 1 9 9 0 年m o n t r e a lm c g i l lu n i v e r s i t y 的三名学生( a l a ne m t a g e 、p e t e rd e u t s c h 、 b i l lw h e e l a n ) 想到通过开发一个系统来实现通过检索文件名的方式来对文件进 行查找,于是出现了a r c h i e 。a r c h i e 能定期搜集并分析f t p 服务器上的文件名 信息,提供查找分别在各个f t p 主机中的文件。用户必须输入精确的文件名进 行搜索,a r c h i e 能够告诉用户能下载该文件的f t p 服务器。虽然a r c h i e 搜集的 信息资源不是网页( h t m l 文件) ,但和搜索引擎的基本工作方式是一样的:自 动搜集信息资源、建立索引、提供检索服纠1 4 j 。 a r c h i e 是第一个自动索引互联网上匿名f t p 网站文件的程序,尽管它还不是 真正的搜索引擎【1 5 1 。但是在a r c h i e 深受欢迎的背景下,受其启发,n e v a d as y s t e m c o m p u t i n gs e r v i c e s 大学于19 9 3 年开发了一个g o p h e r ( g o p h e rf a q ) 搜索工具 v e r o n i c a ( v e r o n i c af a q ) 。j u g h e a d 是后来另一个g o p h e r 搜索工具。 十几年来,随着i n t e r n e t 以及相关技术的发展与成熟,人们已经进入了信息 量极大丰富的时代。 据中国互联网络信息中心( c h i n ai n t e m e tn e t w o r ki n f o r m a t i o nc e n t e r , c n n i c ) 的最新调查报告显示:截至2 0 0 8 年底,中国的网站数,即域名注册者 在中国境内的网站数( 包括在境内接入和境外接入) 达到2 8 7 8 万个,较2 0 0 7 年增长9 1 4 ,中国网页总数超过1 6 0 亿个,较2 0 0 7 年增长9 0 ,如图2 - l 所 示。 武汉理i 大学顼十学位论文 l 蚪 卜h 斗斗 坩 oo口口。 口口 昌曷目曷曷呙 曷 l _ 阿页数十增长率 图2 12 0 0 2 - 2 0 0 8 年中国网页规模变化 搜索引擎是网民在互联网中获取所需信息的基础应用,2 0 0 7 2 0 0 8 年信息检 索类应用用户对比见表2 - 2 。 表2 22 0 0 7 2 0 0 8 年信息检索类应用用户对比 2 0 0 7 年底 2 0 0 8 年底变化 使脾:嚣旧率l 鬻? i 黼| 增解 搜索引擎l 7 24 1 5 ,2 0 0 6 8o i2 0 ,3 0 0 5 ,1 0 0 】”6 网络求职l 】o4 2 2 0 0 1 86 l 5 ,5 0 0 3 ,3 0 0 1 5 0 0 表2 - 2 中显示,目前搜索引擎的使用率为6 8o ,;e r r s 联网应用中位列第四。 2 0 0 8 年全年搜索引擎用户增长了5 1 0 0 万人,年增长率达到3 36 。搜索引擎在 不同的群体中的普及率也有所不同,不同群体的普及率也直接决定了搜索引擎未 来的发展方向。具体如表2 - 3 所示 表2 - 3 各互联网应用在重点群体中的普及率 中小学生i 大学生l 驾箸裂爻il 总体 搜索引擎 6 35 l8 44 l7 19 5 6 6 i ! ! ! 墅 表2 - 3 中显示,搜索引擎的使用存在明显的城乡、年龄、学历、收入差异: 城镇网民搜索引擎使用率明显高于农村:2 0 4 0 岁网民搜索引擎使用率明显高于 其他人群;学历越高,搜索引擎使用率越高;收入越高,搜索引擎使用率越高。 搜索引擎应用人群的特点决定了它在互联网领域的高商业价值。 亿加 ” j , 武汉理工大学硕士学位论文 2 1 2 搜索引擎分类 搜索引擎可以分为以下几大类: ( 1 ) 全文索引 全文搜索引擎是名副其实的搜索引擎,国外代表有g o o g l e 、y a h o o 等,国内 则有著名的百度搜索。它们从互联网中提取各种信息( 以网页文字为主) ,建立 数据库,能对与用户查询条件相匹配的记录进行检索,并按照一定的排列顺序将 结果提交给用户。 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索 程序( i n d e x e r ) ,俗称“蜘蛛”( s p i d e r ) 程序或“机器人”( r o b o t ) 程序,能独 立建立网页数据库,搜索结果直接从自身的数据库中调用,上述提到的g o o g l e 和百度就属于此类;另一类则是租用其他搜索引擎的数据库,按自定的格式排列 搜索结果,如l y c o s 搜索引擎。 ( 2 ) 目录索引 目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按 目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息, 不依靠关键词进行查询。目录索引中最具代表性的莫过于y a h o o 和新浪分类目录 搜索等。 ( 3 ) 元搜索引擎 元搜索引擎( m e t a - s e a r c he n g i n e ) 接受用户查询请求后,同时在多个搜索 引擎上搜索,并将结果返回给用户。著名的元搜索引擎有i n f o s p a c e 、d o g p i l e 、 v i v i s i m o 等【1 6 】。在搜索结果排列方面,有的直接按来源于排列搜索结果,如 d o g p i l e ;有的则按自定的规则将结果重新排列组合,如v i v i s i m o 。 其他非主流搜索引擎形式: ( 1 ) 集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它在使用的 时候并不是同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎 中选择,如h o t b o t 在2 0 0 2 年底推出的搜索引擎。 ( 2 ) 门户搜索引擎:a o ls e a r c h 、m s ns e a r c h 等虽然提供搜索服务,但自 身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。 ( 3 ) 免费链接列表( f r e ef o r a l ll i n k s 简称f f a ) :一般只简单地滚动链接 条目,少部分有简单的分类目录,不过规模要比y a h o o 等目录索引小很多。 2 1 3 搜索引擎的工作原理 在数百亿甚至更多的网页中找到用户需要的网页是一件非常困难的事情,因 为在搜索过程中,如果对每一个网页中的每一个文字进行检索需要耗费大量的资 7 武汉理工大学硕士学位论文 源,也是几乎不可能的。 特别要说明的是,用户在使用搜索引擎进行检索的时候,并不是在互联网上 搜索,它搜索的实际上是预先整理好的网页索引数据库,而且搜索引擎只能与网 页上的文字进行机械的匹配,而不能智能化的对文字进行理解和扩展【1 7 1 。在搜 索过程中,用户首先需要打开搜索引擎,然后在对话框中输入关键词,这时搜索 引擎会对关键词进行分析、处理,然后在索引库中对文档列表进行扫描,与处理 后的关键词进行匹配,将包含了关键词的网页信息作为搜索结果提取出来,并按 照既定的相关度算法将搜索结果按照一定的顺序提交给用户。 搜索引擎的工作原理具体可以包括以下几个方面: 1 ) 抓取网页 每个独立的搜索引擎都有自己的网页抓取程序( s p i d e r ) 。s p i d e r 能顺着网页 中的超链接,连续地抓取与之相关的其他网页。被抓取的网页被称为网页快照。 由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集 到绝大多数的网页。 2 ) 处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中, 最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链 接、计算网页的相关度等。 3 ) 提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网 页;为了方便用户对网页进行判断,除了返回网页标题和u r l 外,还会提供一 段来自网页的摘要或者其他相关信息。 2 1 4 搜索引擎的工作过程 一个搜索引擎由搜索器、分析器、索引器、检索器和用户接口等五个部分组 成。 在使用搜索引擎的时候,搜索引擎首先对用户输入的关键字或关键词进行分 析,然后再在索引库中获取与之相对应的文档列表,然后再对文档列表进行扫描, 并与处理后的关键字进行匹配,提取满足条件的网页,然后计算网页和关键词的 相关度,根据相关度算法或其他排序方式将前k 篇结果返回给用户。如果用户 查看下一页结果,重新进行搜索,把排序结果中在第k + i 到2 * k 的网页组织返 回给用户,依此类推。 其工作流程图如图2 4 所示。 8 武汉理工大学硕十学位论文 图2 4 搜索引擎工作流程图 图2 4 中,搜索器通常是网络蜘蛛( s p i d e r ) 这样一个计算机网络爬虫程序 日夜不停地、尽可能多、尽可能快地在互联网中漫游、发现和搜集各种信息,更 新新的信息,同时还要定时对陈旧信息进行清理,以避免出现无效链接 1 8 1 1 9 l 。 在工作时从一个预先定好的初始u r l 列表出发,按照一定的u r l 爬行和信息搜 集策略以宽度优先、深度优先或启发式方式发现并搜集互联网中的w e b 页面信 息。它爬行到某个网页时,就将该网页信息抓取下来,供分析器分析处理;在抓 取的时候,还可以按照域名、i p 地址或国家域名将w e b 空间进行划分,每个搜 索器只负责一个子空间的穷尽搜索,将搜集的信息按照h t m l 、x m l 、f t p 文 件、字处理文档、多媒体信息等进行分布式并行处理,以提高发现和更新的速度。 分析器的功能是对搜索器抓取的网页信息进行文档分析处理,再保存到本地 页面存储库中,在分析器中,搜索引擎对抓取到的数据库、文件系统、w e b 页面 等不同形式的数据信息进行分析处理,然后将这些不同格式的文档转换为统一的 文本文档格式。 索引器的功能是理解从搜索器中所搜索到的信息,经过分析处理后存入页面 存储库后的文档,从中抽取出索引项,将文档表示成一种方便检索的方式,生成 9 武汉理工大学硕士学位论文 文档库的索引表,并存储在索引数据库中,由于搜索引擎具有时效性而且拥有庞 大的待处理数据量,因此一个搜索引擎的有效性在很大程度上取决于索引的质 量。 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询 的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四 种。 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、 及时的信息。 2 2 双语智能翻译搜索引擎 2 2 1 双语智能翻译搜索引擎的设计思想 在国内经济、政治不断发展、壮大的今天,作为了解国外最新动态和国外最 新技术发展形势的语言英语越来越受到人们的重视,学习英语和以英语作为 工作、交流语言的人越来越多,国内翻译市场规模也因此迅速扩大,但目前翻译 软件的翻译效果还不能令用户完全满意【2 0 1 。互联网络作为获取知识的最大平台, 能够快速实现对信息获取和知识积累的搜索引擎成为用户不可或缺的检索工具, 尽管搜索引擎市场日趋成剃2 1 1 。但是目前在互联网上得到应用的机器翻译领域 仍是传统的基于规则的方法和基于语料库( c o r p u s b a s e d ) 的方法,虽然国内香港 中文大学有自动积累语料库的研究,在国外也有对基于w e b 的语料累积系统 s t r a n d 的研究,但是这些研究都没有将翻译和搜索引擎技术相结合【2 2 j 。因此 还不能直接为互联网用户提供网页翻译信息的检索服务,双语智能翻译搜索引擎 的出现正是为了帮助用户进行辅助翻译,满足翻译市场的需要犯列l z 4 j 。 通过对网络搜索引擎,自动积累平行语料库,机器翻译的研究,利用网络机 器人技术、网页噪音过滤技术、语句匹配入库算法、数据挖掘、分词技术、双语 对齐技术、全文检索技术等多项技术,实现了基于网络大规模语料库的双语智能 翻译搜索引擎1 2 引。 双语网页存在两类情况:一类是中文信息和对应英文翻译信息存在于同一个 页面内的网页,例如双语新闻、双语阅读等,称为单页双语页面;另一类是中文 信息和对应英文翻译信息存在于两个不同页面的网页,但这两个页面网页通常在 u r l 上是相关联,并且是一一对应的,例如在一个网站里存在于中文版和英文 版中的对应中英文两个页面,称为双页双语页面。 1 0 武汉理工大学硕士学位论文 双语智能翻译搜索引擎将探索搜索技术和翻译技术进行有机结合的新模式, 将互联网上的中英文双语网页信息汇集起来提供给用户进行翻译检索,再将结果 提交给用户,同时给出中英文双语信息的源链接1 2 6 j 。 双语智能翻译搜索引擎采用基于互联网语料库搜索的辅助翻译模式,与 g o o g l e 、b a i d u 等搜索引擎相比,该搜索引擎专门为语言翻译而设计,针对性更 强,与翻译记忆的辅助翻译软件( 如t r a d o s ) 相比,此系统的语料库来自于 整个互联网,能够不停地自动增长。该系统自动积累的大规模语料库在语言对比 研究、翻译转换、翻译文体和自动翻译研究、翻译教学、双语词典编撰等方面也 有重要用途。 它还可以为用户提供高质量的辅助翻译,避免翻译的重复劳动,提高翻译质 量,在促进专有名词翻译的标准化和规范化方面,具有很好的市场价值和社会效 益。 元搜索技术可以同时对多个成员搜索引擎进行查询,在双语智能翻译搜索引 擎中加入元搜索技术。可以将搜索到的多个双语结果进行综合处理,在一定程度 提高了双语搜索的查全率和查准率,提高了双语搜索结果的质量,而且该技术无 需建立庞大的索引数据库和复杂的检索机制,维护起来比较容易。是目前解决通 用搜索引擎存在问题的最佳方案,元搜索技术也越来越成为计算机界研究的热点 2 2 2 双语智能翻译搜索引擎的基本结构 双语智能翻译搜索引擎系统的基本结构关系如图2 5 所示。 武汉理工大学硕士学位论文 图2 5 双语智能翻译搜索引擎系统的基本结构图 如图2 5 所示,整个双语智能翻译搜索引擎系统由一下几个部分组成:主动 搜索、元搜索、信息过滤、信息收集、信息检索、数据库管理、用户、界面、学 习、系统管理、数据库、共享池等组成。每类还可以由多个执行单项任务的组成。 整个系统的描述如下: ( 1 ) 主动搜索:根据用户的不同检索需求选派与之相适应的不同类型的称 为s p i d e r 的计算机网络机器人程序,对政府网站、学术论文库、新闻等网络站 点进行固定范围的主动搜索,发现并搜集这些站点上的中英文双语网页信息,同 时沿着任何网页中的u r l 爬到其它存在中英文双语网页信息的网络站点,重复 这个迭代过程。同时还要对所派出的s p i d e r 进行管理和监控。 ( 2 ) 元搜索:依据用户个性化数据库对用户提交查询的词条进行扩充,合 理调用互联网上的独立搜索引擎,再把扩充后的用户查询请求转换为符合所对应 的独立搜索引擎语法的查询请求并发送出去。 ( 3 ) 信息过滤:将由主动搜索抓取的中英文双语网页内容和由元搜索返回 的中英文双语页面结果所组成的动态信息流进行信息过滤,仅把满足用户需求的 1 2 武汉理工大学硕士学位论文 中英文对照信息内容归并后存入页面存储库中留待作进一步处理。 ( 4 ) 信息收集:将过滤后并存于页面存储库中的中英文对照信息内容收集 起来,对齐语句,建立索引并初步进行排序处理,结果返回给用户并保存到索引 数据库中。 ( 5 ) 信息检索:根据用户提交的查询在索引数据库中快速检索出中英文双 语信息内容,进行信息与查询的相关度评价并据此进行排序后将查询返回给用 户。 ( 6 ) 数据库管理:管理系统中的本地和服务器数据库,完成各种数据的存 储、历史记录的维护,以及各种文档信息的统计处理、报表生成等工作。 ( 7 ) 界面:是用户与系统交互、进行人机对话的窗口,主要功能是接受用 户的查询请求,主动帮助用户细化查询请求,并把查询结果显示出来,同时还显 示本地信息库中的内容。 ( 8 ) 用户:负责接收用户的注册信息并据此形成用户个性化数据库信息; 接收并验证用户的登录信息;通过保持对话记录、发掘用户的文档、操作习惯和 评价反馈等,多方面收集用户的其它个性信息,维护和完善用户个性化数据库; 传递用户的个性化信息以智能地协调完成任务。 ( 9 ) 学习:负责把用户返回的结果按某种学习机制作进一步的分析学习, 并在特定领域内进行有效的概念发掘,获取用户在该领域的文档信息。并能根据 用户新的特征信息和反馈意见,进一步修正并完善用户个性化数据库,及时修正 检索模式。 ( 1 0 ) 系统管理:是整个双语智能搜索引擎系统的运转枢纽,协调并监督系 统,使其能稳定、高效地工作。具体负责对各类的管理,接受服务请求,选择合 适的类与请求协作以共同完成任务,监控任务的完成情况,把众多类集成为一体, 进行系统的整体协调与管理,监控并管理共享池中的信息发布情况,合理分配和 利用本地的系统资源。 ( 1 1 ) 数据库:用于存储各个用户的个性化数据、主动搜索所获取的各种网 络信息、用户使用的历史记录、保证系统正常工作的规则和参数等数据。页面存 储库、索引数据库、用户个性化数据库是在系统数据库中比较重要的三部分。 ( 1 2 ) 共享池:是系统中进行交互和协作的工具,用于系统内各个部分之间 的数据通信和任务分配,以协调任务进度,共享工作成果,避免重检和死锁,提 高系统整体的工作效率。它在物理上可以是共享的数据库、数据文件、内存数据 结构、w e b 页面等,从内容上划分成几个分区,每个分区存放不同的内容信息。 1 3 武汉理工大学硕十学位论文 2 2 3 双语智能翻译搜索引擎的工作流程 用户在使用使用双语智能翻译搜索引擎的时候,只需要在搜索栏输入与获取 内容相关的关键词,点击搜索按钮即可。其具体工作流程描述如下: ( 1 ) 用户打开网页,在搜索栏输入需要查询的关键词,点击搜索按钮。 ( 2 ) 界面接收用户提交的查询请求,通过数据库信息主动细化查询。而后 依据用户的实际需求将细化后的查询请求有选择性地传递给元搜索,同时也传递 给信息检索。 ( 3 ) 信息检索根据界面提交的查询请求在索引数据库中快速检索出中英文 双语信息内容文档,进行文档与查询的相关度评价并据此进行排序,再将结果返 回给界面。 ( 4 ) 元搜索对界面提交的查询请求进行分析处理,根据数据库对查询词条 进行扩充,并选择所调用的独立搜索引擎。与此同时,数据库管理还将查询词条 保存在本地数据库当中的历史文档里。 ( 5 ) 依据分析结果进行元搜索,元搜索将根据所选择调用的独立搜索引擎 把用户的查询请求转化成符合所对应的语法的查询请求,并将这些查询请求分别 发送给所选择调用的独立搜索引擎进行检索。 ( 6 ) 信息过滤将接收到由元搜索返回的中英文双语页面结果所组成的动态 信息流,先进行分类识别、净化,再根据用户对信息的需求进行归并,消除其中 的冗余信息,仅把满足用户需求的中英文对照信息内容传递给数据库管理。数据 库管理一方面将信息内容存入页面存储库中,另一方面记录下主动搜索的网址和 各独立搜索引擎的信息返回情况用于用户个性化数据库的维护。 ( 7 ) 信息收集再将过滤后并存于页面存储库中的中英文对照信息内容收集 起来,对齐语句,建立索引并初步进行排序处理,结果返回给界面并由数据库管 理保存到索引数据库中 ( 8 ) 界面将从信息检索、信息搜集返回来查询结果进行归并、排序,再生 成h t m l 页面提交给用户,并记录下用户的链接点击和网页停留情况,以及用 户对搜索结果的评价反馈等信息传送给用户。 ( 9 ) 学习是把从用户处得到的各种信息进行汇总,抽取出新的用户特定信 息、新的语义概念、新特定领域词语的语义,作进一步的分析学习。根据新的用 户特定信息及用户反馈修正并完善用户个性化数据库;根据新的语义概念比对原 有词语进行关联扩展;根据特定领域词语的语义区分不同领域的词义差别,并在 特定领域内进行有效的概念发掘,获取用户在该领域的文档信息。所有信息交由 数据库管理保存到用户个性化数据库中。 1 4 武汉理工大学硕士学位论文 第3 章元搜索技术研究 3 1 元搜索引擎概述 互联网资源膨胀的同时,也产生了大量重复的和杂乱无章的冗余信息,网民 在互联网上搜索到真正需要的信息变得更加困难,普通的搜索引擎无法将这浩瀚 的资源有效的组织起来以满足用户的需求【27 。而且不同用户使用搜索引擎的检 索习惯、不同搜索引擎的技术和搜索范围的不同也给搜索增加了难度,没有一个 搜索引擎能够覆盖整个互联网,同一个关键词在不同的搜索引擎上进行检索时都 可能得到不同的返回结果【2 8 】【2 9 1 。因此有些用户在查找自己需要信息的时候就不 得不使用多个搜索引擎,费时费力【3 们。1 9 9 5 年,w a s h i n g t o n 大学硕士生e r i c s e l b e r g 和o r e ne t z i o n i 的m e t a c r a w l e r 设计出了一种新的搜索引擎形式元搜 索引擎( m e t a s e a r c he n g i n e ) 1 3 1 】。用户只需提交一次搜索请求,由元搜索引擎 负责转换处理后再提交给多个预先选定的成员搜索引擎,并将从各成员搜索引擎 返回的所有查询结果,集中起来处理后提交给用户。它的出现,从一定程度上解 决了上述问题【j 引。 3 2 元搜索引擎的分类及特点 从检索原理和结合方式来看,元搜索引擎大致可以分为如下几类: ( 1 ) 集成式搜索引擎 集成式搜索引擎,是指元搜索引擎以任意的顺序或分类来对多个搜索引擎进 行排列,并提供多个搜索引擎的介绍信息和物理链接供用户在检索前对需要的成 员搜索引擎进行选择,这类元搜索引擎没有统一的用户外部接口,对结果也不做 二次处理,以各搜索引擎的检索模式和数据格式直接提交给用户【3 3 】。这类元搜 索引擎只是多个成员搜索引擎的简单集合,是元搜索引擎的初级形态,并不是真 正意义上的元搜索引擎。 ( 2 ) 多线索式元搜索引擎 多线索式元搜索引擎,通过统一的检索界面对多个独立搜索引擎发送检索要 求,将获取的结果以统一的既定格式提交给用户。在检索时,用户通过浏览器即 可实现对元搜索引擎的直接访问,具有方便、快捷的优点。 ( 3 ) 在线搜索引擎 在线搜索引擎主要w e b 方式为用户提供元搜索服务。这使用时,用户的查询 请求通过浏览器传送到w e b 服务器,w e b 服务器端将查询请求分发到在线搜索 1 5 武汉理工大学硕士学位论文 引擎调用的独立搜索引擎,在进行检索后,独立搜索引擎的搜索结果由服务器端 统一处理后再提交给用户。 ( 4 ) 桌面搜索引擎 桌面搜索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论