已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于双语翻译的个性化搜索引擎的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 i n t e r n e t 已经成为人们获取信息资源和进行信息交流的一个重要途径,随着 w e b 信息的日益增长,要想在信息量浩如烟海的互联网上搜索浏览自己需要的信 息,成为了一项极具挑战的工作。虽然传统的搜索引擎的出现极大地提高了人们 对网络信息的检索速度,在一定程度上解决了信息资源的定位问题,但还是无法 满足人们日益增长的对信息服务个性化的需求,特别是不能对网络上现有的中英 双语翻译的对照页面信息进行充分的利用。因此,个性化搜索引擎与双语辅助翻 译的结合成为了当前一个重要的研究课题。 本文针对现有的基于大规模网络语料库和双语网页搜索的辅助翻译系统在 用户接口个性化方面的缺陷,利用显式和隐式两种方式获取用户兴趣爱好信息, 对用户需求进行扩展,达到因时因人因地的不同,得到用户真正想得到的查询结 果,更深层次上实现双语翻译搜索引擎的查全率、查准率。 本文的主要工作如下: ( 1 ) 对个性化搜索引擎的含义、基本类型、体系架构、工作流程以及目前 存在的不足进行简要综述。 ( 2 ) 用户兴趣个性化信息的获取。分析用户兴趣个性化信息的收集方法和 更新方式,重点从用户需求扩展、特征选择,以及文本聚类分析三个方面来进行 分析,实现主动推荐和隐式发掘的一种个性化服务。 ( 3 ) 对系统模块实现的相关技术进行了相关的分析与研究,例如网络爬虫 的改进、分词处理等。 ( 4 ) 对基于双语翻译的个性化搜索引擎进行了系统设计与实现,分析了模 型中各模块的功能与实现技术。 本文的研究与探索将为进一步研究基于大规模语料库和双语页面搜索的辅 助翻译系统在用户接口个性化性能优化上,提供了一个良好的理论平台和开端。 关键字:双语翻译;个性化查询;搜索引擎; a b s t r a c t i n t e r n e th a sa l r e a d yb e c o m e 粕i m p o r t a n tw a yt og a i na n de x c h a n g ei n f o r m a t i o n r e s o u r c e s w i t ht h er a p i di n c r e a s eo fw e bi n f o r m a t i o n i ti sa ne x t r e m e l yc h a l l e n g i n g w o r kt os e a r c ht h es a t i s f i e di n f o r m a t i o ni nag r e a td e a lo fi n f o r m a t i o ni n i n t e r n e t a l t h o u g ht h ea p p e a r a n c eo ft r a d i t i o n a ls e a r c he n g i n ee n h a n c e dt h en e t w o r k i n f o r m a t i o nr e t r i e v a ls p e e de n o r m o u s l ya n da l s os o l v et h ep r o b l e mo fi n f o r m a t i o n r e s o u r c e so r i e n t a t i o nt os o m ee x t e n t ,b u tt h e ya r es t i l lu n a b l et os a t i s f yt h ep e o p l e s i n c r e a s i n gp e r s o n a l i z e dd e m a n do fi n f o r m a t i o ns e r v i c e e s p e c i a l l yt h e yc a n tm a k ef u l l u s eo fb i l i n g u a lt r a n s l a t i o nc o m p a r i s o np a g e s i n f o r m a t i o ni ni n t e m e t t h e r e f o r e t h e c o m b i n eo fp e r s o n a l i z e ds e a r c he n g i n ea n dt h eb i l i n g u a la u x i l i a r yt r a n s l a t i o nb e c o m e 卸i m p o r t a n tr e s e a r c hs u b j e c ta tp r e s e n t t h i sp a p e ri nv i e wo ft h ef l a wo fu s e ri n t e r f a c ep e r s o n a l i z a t i o na s p e c tw h i c h b a s e do nl a r g e - s c a l en e t w o r k c o r p u sa n db i l i n g u a lh o m e p a g es e a r c ha u x i l i a r y t r a n s l a t i n gs y s t e m ,u t i l i z e s e x p l i c i ta n di m p l i c i tt w ow a y st og a i nu s e ri n t e r e s th o b b y i n f o r m a t i o n c a r r i e so nt h ee x p a n s i o nt ot h eu s e r sn e e d sa n da c h i e v e st h ei n q u i r y r e s u l tw h i c ht h eu s e rw a n t st oo b t a i nt r u l ya c c o r d i n gt od i f f e r e n tt i m e ,d i f f e r e n tp e o p l e a n dd i f f e r e n tp l a c e s i tw i l lr e a l i z et h eb i l i n g u a lt r a n s l a t i o ns e a r c he n g i n e sr e c a l l t h e a c c u r a c yr a t i o i nad e e p e rl e v e l 。砀em a i nc o n t r i b u t i o n sa n di n n o v a t i o n so ft h i s d i s s e r t a t i o na r ea sf o l l o w s : ( 1 ) t h ep e r s o n a l i z e ds e a r c he n g i n ec o n c e p ta n dt h eb a s i ca s p e c t s ( m e a n i n g ,b a s i c t y p e ,s y s t e ma r c h i t e c t u r e ,w o r k i n gf l o w , t h ei n s u f f i c i e n c y ) ( 2 ) t h eg a i no fu s e ri n t e r e s tp e r s o n a l i z e di n f o r m a t i o n 。t h ea n a l y s i so fu s e r i n t e r e s tp e r s o n a l i z e di n f o r m a t i o n 。sc o l l e c t i o nm e t h o d sa n dt h eu p d a t em o d e s f o c u s i n g o nt h ee x p a n s i o no fd e m a n df r o mt h eu s e r , f e a t u r es e l e c t i o n 嬲w e l l 髂t h ea n a l y s i so f t e x tc l u s t e r r e a l i z et h ep e r s o n a l i z e ds e r v i c eb yt h ei n i t i a t i v eo f f e ra n dt h ei m p l i c i t e x c a v a t i o n ( 3 ) t h er e l a t e da n a l y s i sa n dr e s e a r c ht ot h ec o r r e l a t i o nr e a l i z a t i o nt e c h n i q u eo f s y s t e mm o d u l e s ,s u c ha ss p i d e ri m p r o v i n g ,w o r d sp r o c e s s i n ga n ds oo n ( 4 ) t h es y s t e mm o d e ld e s i g na n dr e a l i z a t i o no ft h ep e r s o n a l i z e ds e a r c he n g i n e w h i c hb a s e do nb i l i n g u a l t r a n s l a t i o n ,a n a l y s i st h e f u n c t i o na n dt h e a p p l i c a t i o n t e c h n o l o g yo f v a r i o u sm o d u l e s t h er e s e a r c ho fe x p l o r a t i o no ft h i sp a p e ri sag o o dt h e o r yp l a t f o r ma n db e g i n n i n g f o rt h ef u r t h e rr e s e a r c ho ft h ep e r f o r m a n c e o p t i m i z a t i o no ft h eu s e ri n t e r f a c e p e r s o n a l i z a t i o ni nt h ea u x i l i a r yt r a n s l a t i n gs y s t e m w h i c hb a s e do nt h el a r g e - s c a l e c o r p u sa n dt h eb i l i n g u a lp a g e ss e a r c h k e y w o r d s :b i l i n g u a lt r a n s l a t i o n ;p e r s o n a l i z e dq u e r y ;s e a r c he n g i n e 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检 索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武 汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会 公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 签名魈坦新躲啦嗍芈 武汉理工大学硕士学位论文 1 1 课题研究的背景 第1 章绪论 随着因特网i n t e m e t 的迅速发展与普及,网络已发展成为我们经济、社会、 文化、教育以及娱乐等几乎各个方面的重要组成部分。同时,网络的应用也越来 越广泛,根据中国互联网络信息中心( c n n i c ) 在2 0 0 8 年7 月发表的统计资料 显示l l j ,目前排名前十位的网络应用是:网络音乐、网络新闻、即时通信、网络 视频、搜索引擎、电子邮件、网络游戏、博客个人空间、论坛b b s 和网络购物。 所以说,万维网包含了从技术资料、商业信息、通信应用到新闻报道、视频音频、 娱乐信息等多种类别和形式的信息,为用户提供了一个极具价值的信息源。因为 它具有直观、方便的使用方式和丰富的表达能力,所以w e b 逐渐成为人们获取 信息资源的一个非常重要途径,给人们带来了巨大的便利,使得人们可以跨越时 间和空间的界限来共享大量的信息资源。万维网其自身作为一个庞大的分布式异 构超文本文档库,从1 9 9 1 年发展至今,其信息容量呈爆炸性的增长【2 1 。根据有 关报告得知i i l ,目前中国网页数为8 4 7 亿,年增长率达到8 9 4 ,网上信息资源 的增长速度非常迅猛。其中静态页面数量己达到4 0 6 b i l l i o n ,动态页面数已经达 到了4 4 1 b i l l i o n ,而且还将在相当长的一段时间内快速地增长。报告还显示,截 至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿,网民规模跃居世界第一位。但是 普及率只有1 9 1 ,仍然低于全球平均水平( 2 1 1 ) ,而且中国网民规模继续呈 现持续快速发展的趋势。可见,互联网基础应用已经日益深入人们的工作、生产 和生活中,随着时间的推移,将会有更多的网络用户体会到网络带给他们的便利, 网络也将变得越来越重要。 随着w e b 信息的爆炸性增长,如何快速、准确地从浩瀚的信息资源中寻找 到所需信息已经成为困扰人们的一大难题【2 j 。随着传统搜索引擎的出现,例如 b a i d u ,g o o g l e ,s i n a ! 等,辅助了人们对w e b 信息的检索,它基本满足了人们一 定的需要,使得用户获取自己所需的信息变得相对容易些。根据c n n i c 截止在 2 0 0 8 年7 月的发布的第2 1 次报告统计表明,搜索引擎是网民在互联网中获取所 需信息的重要工具,是互联网中的基础应用。目前搜索引擎的使用率为6 9 2 , 为中国第五大网络应用,高于电子信箱服务。 传统的搜索引擎由于其通用性,目前仍然不能满足不同背景、不同目的和不 同时期的用户个性化的需求。首先,在使用搜索引擎时,只要使用相同的关键词 检索,返回的结果就是相同的,它并不考虑不同用户的信息偏好和不同兴趣,使 得每个用户面对同样的信息空间。比如,医生想了解关于“生物学病毒方面的 武汉理工大学硕士学位论文 知识,在用户界面输入关键字“病毒后,系统却推荐给用户却是“计算机病毒 , 这显然是没有理解用户的个性化需求,不符合用户的期待。另外,随着我国改革 开放的不断深入,无论是在对外经济、文化领域,还是在对外交流方面都取得了 惊人的进展,国内翻译市场( 主要是指中英文对照翻译) 规模迅速扩大,翻译人 才需求量的快速增大,但目前翻译软件的翻译效果还不能令用户非常满意。我们 用b a i d u 检索一下“在线词典,可以找到像“i c i b a 爱词霸,“d i e t e n 海词 , “1 3 词库”等翻译词典,但这些词典都有一个共同的明显缺陷就是词库的更新速 度较慢。同样,我们也可以通过检索“在线翻译 ,找到像“g o o g l e 在线翻译”, “y a h o o 在线翻译”,“金桥在线翻译”等等翻译网站,但大多都是直译,难以保 证语法上的正确。目前网络上存在海量的中英文对照网页,蕴含着巨大的中英文 对照语料资源,或者说是人类已有的翻译成果,我们可以利用个性化搜索引擎, 检索得到自己所需的网络上现存的中英文对照网页,这些网页往往翻译的准确性 高,避免浪费重复的翻译工作,这样既可以满足用户翻译的需求,也可以满足不 同用户个性化方面的要求。本课题正是在这一实际需求背景下提出的。 1 2 个性化信息检索系统国内外现状 在互联网发展的最初阶段,网站的数量相对较少,信息的查找比较容易。随 着w e b 的流行和网上信息爆炸性的增长,整个网络正在堆积成一个前所未有的 超级大型数据库。如何在浩瀚如海的信息空间里,快速查找并获取人们所需的信 息已经成为时代最根本的问题之一。搜索引擎在网络信息资源检索中起到了非常 重要的作用,它可以帮助用户从数以亿计的网络信息中找到自己所需要的信息。 搜索引擎就是利用信息挖掘系统在网际空间寻找和挖掘相关或者有用信息。在此 基础上建立检索数据库,并通过提供简单友好的查询界面帮助用户进行网络信息 检索的信息服务系统或工具。搜索引擎的发展经历过一个相对比较快速过程,在 这个过程中,萌芽期搜索引擎的代表有最初的a r c h i e 和g o p h e r ,前者是1 9 9 0 年 加拿大蒙特利尔的麦吉尔大学的一位叫a l a ne m t a g c 的学生制作了一个主动索引 互联网上匿名f t p 网站文件的程序,后者是1 9 9 1 年美国明尼苏达大学一个叫 m a r km c c a h i l l 发明的一种搜索协议,它既能够索引网络上的文件,也可以对网 页进行检索1 3 j 。在搜索引擎发展的历程中,r o b o t 网络机器人以及s p i d e r 网络爬 虫的出现,是其起步阶段的标志性成果。随着网络机器人理论的逐渐成熟,一些 基于此原理的搜索引擎开始纷纷涌现,形成一种百花齐放的感觉,其中典型的搜 索引擎有:e x c i t e 、g a l a x y 、y a h o o 。目前搜索引擎家族新添加的成员不断,市 场一片繁荣,特别是g o o g l e 和b a i d u 的问世,再一次改变了搜索引擎的定义。 就目前的状况来看,搜索引擎显示什么样的信息内容,排列什么样的搜索结 2 武汉理工大学硕士学位论文 果,个人无权选择,“缺乏个性化导致原本是方便网民浏览的工具成为拖沓,冗 余的信息搜罗工具。”问题主要表现在:第一,一次普通的查询,传统的搜索引 擎动辄就返回几十万、几百万条结果,且返回的结果并不都是用户关心的,用户 真正关心的是检索结果是否符合自己的需求;第二,不同的人使用相同的检索词, 得到的结果是相同的。用户的地域、兴趣、知识背景、目的各不相同,对搜索结 果的期待有很大差异。不过搜索引擎服务商们已经意识到,细分信息类型与网民 需求,提高检索效率,满足用户个性化的需求。协助用户从海量信息中找到自己 所需的信息,将是他们赢得市场竞争的关键。目前各搜索引擎服务商所采用的网 页搜索技术都相差不大,真正要想留住用户,必需的手段就是为用户提供个性化 的、与众不同的服务,提高搜索引擎服务的附加值,个性化成为搜索技术的新战 场,y a h o o 、g o o g l e 、微软等都在加紧开发个性化的搜索引擎技术。 个性化搜索是搜索引擎的一个未来发展的重要特征和必然趋势之一:一种通 过搜索引擎的社区化产品( 即对注册用户提供服务) 的方式来组织个人信息,然 后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的 搜索结果。自2 0 0 4 年1 0 月y a h o o 推出m y w c b 测试版,到1 1 月a 9 推出个性化 功能,到2 0 0 5 年g o o g l es e a r c hh i s t o r y 基本上都沿着一条路子走,分析特定用户 的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站 给出最相关的结果。另外一种是针对大众化的,g o o g l e 个性化搜索引擎,或者 y a h o o m i n d s e ,或者我们都知道的前台聚类的v i v i s i m o ,但无论是其中的哪一种 实现方式:g o o g l e 的主动选择搜索范围,还是y a h o o ,v i v i s i m o 的在结果中重新 组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎 应用产品【4 1 。 从国内外个性化搜索引擎的发展来看,其个性化主要表现在两个方面:一是 指搜索引擎所提供的信息符合用户的个性化需要。个性化搜索服务能够为用户提 供更准确的搜索结果,使用户能够存储、评估、共享他们的搜索结果,阻止用户 认为不相关的搜索结果出现。个性化的搜索引擎通过跟踪分析用户的搜索行为, 再根据这些资料来搜索信息,从而为用户提供更为准确的个性化的搜索结果,这 就是隐式获取用户兴趣的方法。个性化搜索引擎还能够根据用户的需求变化和网 络信息的动态变化实时更新,为用户提供尽可能符合其真正需求的准确信息。个 性化还包括专业化、本地化。专业搜索是针对专门需要而开发的对特定专业信息 进行功能强大的搜集与检索方式,用户的划分越细,对搜索结果的要求就越精, 就越需要专业的搜索引擎,更多的垂直内容将会由专业搜索引擎提供,如音乐搜 索、产品搜索、人名搜索等。本地化是指随着搜索行为不断扩大,搜索引擎逐渐 应用到家庭生活,诸如商场购物和旅游交通等方面。随着搜索地方信息的需求不 武汉理工大学硕士学位论文 断增加,综合性的搜索引擎不能满足许多非本国、非当地用户的信息需求。2 0 0 0 年以来,y a h o o 、t , y c o s 等陆续推出适合不同国家、不同地区的本地搜索网站, 搜索的本地化已经势不可挡。二是搜索引擎所提供的功能和服务有特色,与其他 搜索引擎不同。为了取得竞争优势,各搜索引擎不断推出新的功能和服务,因此 就有以搜索为核心衍生出的各种服务,如关键词新闻订阅、搜索工具栏、桌面搜 索等服务。 随着搜索引擎的发展,目前国内外搜索引擎提供的个性化服务越来越多,对 其也越来越重视。在过去的几年里以g o o g l e 、y a h o o 为代表的搜索引擎不断推出 新技术,增加新的功能,开发新的市场,寻找新的用户,它们在个性化方面所下 的功夫是显而易见的,满足用户的需求是搜索引擎当前扩大用户的一个最有效的 手段。越来越多的搜索引擎注重提供个性化的服务。个性化服务首先表现在个性 化的搜索,即在搜索时考虑个人偏好,只返回与用户需求相关的搜索结果。g o o g l e 于2 0 0 4 年3 月底推出了个性化搜索引擎测试版( g o o g l ep e r s o n a l i z e d ) ,用户可以 设置自己感兴趣的领域,然后让g o o g l e 只返回与该领域相关的搜索链接。现阶 段g o o g l e 提供2 1 6 个门类搜索,用户可从中选取一个或多个门类进行搜索。此 外在搜索结果页面,用还可以通过拖动页面顶端的滑动条,来实时降低或提高搜 索结果的精确度。y a h o o 也正在推出一种旨在帮助人们在网络上发现相关性更高 的内容的新搜索服务的测试版,y a h o o 提供的这一上下文搜索服务,可使对正在 看的网页进行分析并给出一个与所看内容相关的搜索结果清单。这一新的搜索服 务代替了用户在搜索时必须在一个文本框中输入搜索关键字的步骤,使用户在浏 览一个网页时就可以进行搜索。中国搜索的个性化搜索功能与g o o g l e 类似,用 户需要先添加兴趣类别,即设置类目。目前中国搜索提供1 2 个一级类目,1 0 2 个二级类目。可喜的是这样的个性化智能化的搜索引擎已经在杭州一家叫杭州经 合易智腔股有限公司中实现了,并正逐步投向市场。 1 3 课题研究的目的及意义 本文所研究的课题来源于湖北省第五届“挑战杯 弘博大学生课外学术科技 作品竞赛武汉理工大学中国翻译搜索“译吧 工作组的作品基于大规模网络语 料库和双语网页搜索的辅助翻译系统,是对该翻译系统的一种个性化方向的扩 展。该翻译系统的名字叫“译吧 ,“译吧 是国内自主研发的第一个“翻译搜索 系统,是一种全新的概念。它采用新的基于互联网语料库搜索的辅助翻译模式, 与g o o g l e 、b a i d u 相比,这种系统专门为语言翻译而设计,针对性更强。与传统 的基于翻译记忆技术( t m ) 的辅助翻译软件( 如t r a d o s ) 相比,此系统的语 料库来自于整个互联网,且能不停地自动增长,突破了人工添加语料库的瓶颈, 4 武汉理工大学硕士学位论文 网聚了互联网上的千万智慧。同时,“译吧 支持双语内嵌的网页搜索,可以搜 索出在网络中包含该关键词( 或句) 双语表达方式的绝大部分网页,为翻译提供 最大可能的参考。 众所周知,翻译是一项重复性很强的劳动,研究表吲5 j 【3 纠,在内容或句型句 式上,个人的翻译重复率是3 0 ,如果相对于整个互联网,重复率高达7 0 以 上。在互联网中,蕴含着巨大的中英文对照语料资源,或者说是人类已有的翻译 成果,通过个性化搜索引擎搜索这些已有的翻译成果可以有效避免重复的翻译劳 动,并为双语学习和写作提供参考;同时因时因人因地而异,满足不同用户的所 需要不同的返回结果。总之,本文所研究的目的是集成辅助翻译和个性化搜索引 擎,设计一个基于双语翻译的个性化搜索引擎系统。该系统既可以为用户提供高 质量的辅助翻译,避免翻译的重复劳动,提高翻译质量,促进专有名词翻译的标 准化和规范化,同时又能使用户能够快速、准确地从浩瀚的网络信息资源汇总挖 掘出适合自己的有价值的信息。根据查新资料表明,在计算机辅助翻译和个性化 搜索领域,本文所阐述的技术实现思想新颖,具备技术上的可行性和先进性,同 时翻译模式和个性化搜索引擎结合实现上具有创新性,具有很好的市场价值和社 会效益。 1 4 论文的工作与组织结构 本文针对上面一节提出的辅助翻译和搜索引擎存在的问题,并结合“译吧 作品,作者主要承担并完成了以下工作:对辅助翻译和个性化搜索引擎相关技术 进行了研究,并给出了一些相应的解决方法,其主要工作是构建基于双语翻译的 个性化搜索引擎系统,主要对用户兴趣个性化信息的获取进行了分析与设计。 本文根据作者所做的研究进行组织安排,具体的组织方式概括如下: 第一章说明了课题研究的背景、目的及意义,并介绍了个性化信息检索系 统国内外现状及作者的工作内容和论文的组织。 第二章对个性化搜索引擎的相关理论( 含义、基本类型、系统架构以及不 足之处) 进行了简单综述。 第三章对用户兴趣个性化信息的获取的收集方法、更新方式进行了分析, 并重点研究了用户需求扩展、不同特征选择方法、不同文本聚类三种方法。 第四章对基于双语翻译的个性化搜索引擎的系统进行了设计和实现,对各 功能模块及其实现技术进行了改进与实现。 第五章对本文的工作的总结,说明不足之处,并探讨进一步的研究方向。 武汉理工大学硕士学位论文 2 1 引言 第2 章个性化搜索引擎的概述 在二十一世纪这个信息迅速膨胀的社会,怎样从i n t e r a c t 网络上及时、准确 而又全面地获取自己所需要的信息资源,已成为了当前大部分熟练掌握互联网技 术的用户所追求的一种网络生活品质。面对互联网这样庞大、复杂而又多变的信 息来源渠道,搜索引擎的出现成为了网络发展历程上一个划时代的进步,网络用 户可以更快捷有效地获取自己所需要的各类资源,这中间包括文本、图形图像、 音频视频等等,搜索引擎给人们带来了极大的便利,同时也对其自身的发展提出 了更高的要求。当前,搜索引擎的发展正朝着个性化、智能化以及专业化等方向 稳步发展。 根据中国互联网信息中心于2 0 0 9 年2 月发布的( ( 2 0 0 8 年中国搜索引擎用户 行为研究报告得知,搜索引擎用户规模庞大,发展迅猛。截至2 0 0 8 年底,中 国搜索引擎用户规模达到2 0 3 亿人,与2 0 0 7 年底相比,搜索引擎的用户增长了 5 1 0 0 万人,年增长率达到3 3 6 。目前,搜索引擎在全国网民中的使用率为6 8 , 在各种互联网应用中位列第四。也正是由于这样一个潜在的、庞大的而且正在迅 速发展的国内国外市场所在,作为当前用户最满意的四家搜索引擎公司百度、 g o o g l e 、雅虎、搜狐搜狗,都在怎样把搜索引擎做到更加完美、更具竞争力上花 足了功夫【6 1 。 当前,由于搜索引擎用户选择搜索品牌的认知不一,不同的用户追求的使用 感受和目的有所不同,从总体来看,搜索用户选择搜索品牌时,信息是否全面和 链接速度的快慢是用户决定选择使用哪种搜索品牌的重要因素。用户目前对搜索 引擎的要求很多,也很现实,比如他们要求查询返回的结果要信息全面性高、连 接速度快、信息丰富、工具易使用、信息返回及时、信息准确性高、结果易区分、 搜索安全性高。作为搜索用户的体验之一的搜索结果准确率,也就是查准率,排 在了“使用方便、搜索结果全面、速度较快”三个用户体验之后,有着其重要地 位,也是目前很多搜索引擎公司正在突破或者需要完善的方向之一。 i n t e r a c t 是一个高度开放、异构、分布式的信息空间,没有统一的管理,信 息杂乱地散布在全球的各个站点上,而且每天以极快的速度更新。在传统的搜索 引擎中,当用户输入关键词后,搜索引擎返回的结果往往成百上千,其中包括大 量与用户兴趣不相关、重复、甚至是过时的信息。由于每一个用户的兴趣有所差 异,对应所关注的信息子空间就不尽相同。然而传统的搜索引擎服务没有考虑到 用户的差异,使每一个用户面对相同的信息空间,因此从中找出真正感兴趣的信 6 武汉理工大学硕士学位论文 息有时是一个既耗时又耗力的过程。在未来的信息搜索领域,人们越来越希望系 统能够知道用户的兴趣倾向,根据用户的特点自动组织和调整信息搜索模式,这 也是个性化搜索服务应运而生的原因1 7 j 。 通过上面的分析我们知道,目前国内外搜索引擎的市场广阔,潜力巨大:其 次用户层次不一,用户需求各样,对信息的查准率的需求越来越苛刻。正是由于 网络用户的性别、年龄、职业、地域、收入以及受教育水平等方面的不同,每个 人对搜索引擎所追求的检索结果有所不同。基于这种考虑,个性化搜索引擎的研 究成为了当前搜索引擎研究的一个热点和重点。 2 2 个性化搜索引擎的含义 个性化搜索引擎主要是指按照用户个性化需求,将w e b 网络上获取的相关 信息主动地推送给用户。具体来说,应该对用户的个性化特征进行识别,得到用 户的个性化模式,然后利用已有的w e b 信息资源和它进行匹配,最后提供给用 户满足其个性化要求的信息内容。个性化搜索引擎既是指界面的个性化,也是指 内容的个性化。所谓界面的个性化是指提供用户一种定制搜索引擎界面风格和布 局能力,并根据不同用户提供其预先定制过的界面:所谓内容的个性化是指提供 用户一种定制搜索引擎检索结果的能力,具有不同信息检索需求的用户在使用即 便是相同的搜索词时,也会得到不同的结果。显然,我们的研究强调的主要是内 容的个性化,实际意义较界面个性化更大。 个性化搜索是一种个性化w e b 信息服务,旨在帮助用户更快、更准确地找 到所需要的信息,同时避免无关信息的干扰。通过长期观察用户的搜索行为,从 中识别用户的信息需求偏好,并且能够根据用户对搜索结果的评价,自觉调整搜 索策略,使得对于同一检索的检索请求,不同用户能够得到各自所需要的信息。 个性化最理想的状态是为每一个用户定制一个搜索引擎,让它专门定向抓取用户 感兴趣的内容。个性化搜索主要体现在两个方面:一方面是用户可以使用比关键 字表达方式更加方便灵活、符合用户个性习惯的描述方式来表达自己的信息需 求。另外一方面是用户能够从搜索引擎中获得最贴近自己需要的信息,即对于同 一用户查询,不同的用户能得到不同的搜索结果【7 j 。例如,要查询关键词“病毒 , 目前大多数搜索引擎返回结果数是与计算机病毒相关的内容,查询情况如下表 1 1 ( 当然不同的网络环境和计算机硬件,查询的结果不同,但这里查询的结果 不是比较其返回的结果速率和全面性,而是比较其返回结果的偏向性) 。由下表 可以看出,如果用户是个医生,他( 她) 关注的是生物学上的病毒,那么返回的 大部分结果对此用户来说是无用的。个性化搜索能够根据用户平时的检索兴趣, 武汉理工大学硕士学位论文 来自动进行检索意图识别,比如假设用户以前曾大量访问过计算机病毒方面的相 关信息,那么在个性化搜索时过程中,与计算机病毒相关的结果将首先返回给用 户,而不是与生物学病毒相关的结果。 在百度、g o o g l e 、雅虎、搜狐s o g o u 里输入关键字“病毒进行网页查询的 情况( 时间2 0 0 9 年3 月2 7 日) : 表1 1 各搜索引擎查询结果比较表 返回帕结僳中 - 返回的同页致目搜索平均用时前十条结果的相关情况搜索引擎 9 个网页与计算机病毒相关 百度4 8 ,5 0 0 ,0 0 0 篇 0 0 0 l s 1 个与生物学上的病毒相关 8 个网页与计算机病毒相关 c o o o e 5 4 0 0 8 8 0 0 篇 0 0 5 s 只有2 条与生物学上的病毒 9 个网页指的是与计算机病 雅虎 4 3 1 1 3 ,5 0 6 篇 0 0 3 s 毒相关只有一条返回结果 为生物学上的病毒 搜孤s o g o u1 5 ,5 4 6 ,7 7 3 篇 0 0 6 s 同上 目前个性化搜索已经称为搜索引擎产业研究的焦点,而且个性化技术的使用 已经广泛地应用于现代搜索引擎系统中。例如:g o o g l e 推出的新服务可以让用 户建立自己的个性化g o o g l e 主页,记录用户个性化的搜索结果。它在用户界面 提供了“高级搜索 和“使用偏好”,有效地提高了查准率。b a i d u 也有个性设 置这一功能,但大部分搜索引擎中很多还是测试版或是对个性化搜索的尝试,但 搜索引擎服务提供商已经意识到个性化搜索将成为搜索技术的新战场,这也将是 最迫切的一次技术变革。 2 3 个性化搜索引擎的基本类型 针对w e b 搜索引擎的特点,设计适用的个性化推荐方式,就成为了一个急 需解决的课题。经过长时间的不断研究,现在人们已经掌握了一些具有适用价值 的w e b 搜索引擎的个性化技术,其中最为主要的几个技术内容分别是查询改进、 个性化网页权重、个性化多元搜索引擎和个性化信息采集等。 8 武汉理工大学硕士学位论文 2 3 1 基于个性化信息采集的个性化搜索引擎 此处所说的信息采集主要是指在w e b 网络上,通过分析w e b 页面之间的链 接关系,自动地获取页面信息,并且随着链接不断地向所需要的w e b 页面拓展 的过程,实现这一过程主要由w e b 信息采集器来完成。目前常用的个性化信息 采集方式主要有两个:一个是基于主题爬虫的方式;另一个是基于多元搜索引擎 的方式。 通过引入用户兴趣制导机制等手段就可以采集到反映用户个性化要求的 w e b 信息,这种用户兴趣制导机制需要先行得到用户的个性化信息,而个性化信 息的一般来源于两个主要地方:一个是用户手工在系统提供的个性化设置界面里 设置;另一个是通过跟踪用户的浏览习惯和兴趣等方法由系统自动获取。 在基于主题爬虫的个性化搜索引擎中,个性化信息采集主要是依赖于主题爬 虫实现的,主题爬虫建立在普通爬虫基础之上,通过在网页的整个处理过程中增 加模块实现个性化信息获取,这些模块包括主题确立模块、优化初始种子模块、 主题相关度模块和排序模块等。其中整体确立模块主要用于确立爬虫面向的主 题;主题相关度分析模块用来进行网页主题相关度的计算:初始种子模块用于生 成面向特定主题且较好的种子站点,以使爬虫模块能够顺利展开爬行工作;主题 相关度分析模块是主题爬虫的核心模块,它决定网页的取舍:排序模块是对网页 的最终处理,给予主题相关网页价值一个较为全面的评价和排序。基于主题爬虫 的个性化信息采集模型阳1 如图2 1 所示。 图2 1 基于主题爬虫的个性化信息采集模型 基于多元搜索引擎的个性化搜索引擎的出现,解决了单一搜索引擎较低的覆 盖率问题,改进了查询效果,提高了返回结果的准确率。该系统往往采用改进的 方法,一般的典型做法是直接利用用户模式信息对用户的查询进行修改,一些系 9 武汉理工大学硕士学位论文 统可以进一步地由用户按照个人兴趣来指定提交的搜索引擎。当然,系统也可以 强调合并过程的个性化。理论上,通过联合不同搜索引擎的排序结果合并为一个 最终的排序列表,多元搜索引擎能够提高查询的覆盖率。同时,由于自身依赖于 其他搜索引擎,在商业问题和技术问题上限制了它的发展,其应用形式主要体现 在为某些网站提供局部信息的搜索应用。基于多元搜索引擎的个性化搜索引擎模 型哺1 如图2 2 所示。 图2 2 个性化多元搜索引擎模型 2 3 2 基于查询改进的个性化搜索引擎 所谓查询改进,是指利用某种算法来动态调整用户的查询式,以期更为准确 地获取到用户所需的个性化信息内容。基于查询改进的个性化搜索引擎模型阻1 如图2 3 所示。 图2 3 基于查询改进的个性化搜索引擎模型 这种方式主要包含三个主要步骤:第一个步骤是获得用户的模式特征。用户 的模式特征可以利用用户主动提交来获取,也可以从用户访问信息中通过机器学 习来获取。w e b 服务器将所获得用户个性化信息保存下来。第二个步骤是查询修 改。系统可以根据用户的模式特征来调整用户的查询,然后再把修改过的查询提 l o 武汉理工大学硕士学位论文 交给搜索引擎。最后一个步骤是结果提炼。在获取查询结果之后,系统可以进一 步对结果进行提炼。例如,去除无关网页,对结果进行个性化排序等,甚至可以 由用户进行正反馈和负反馈调整。总体而言,单纯利用查询改进的搜索引擎系统 具有较高的维护成本,且难保持较高的运算性能,同时计算耗时与用户模型文件 的大小成正比。所以在现阶段仍然是一种适用面较广的w 曲信息检索系统的个 性化技术。 2 3 3 基于个性化网页权重的个性化搜索引擎 个性化网页权重的常见形式就是个性化p a g e r a n k 。现代搜索引擎对结果网 页的排序依据除了使用传统的文本匹配技术以外,也广泛使用网页权重值来进 行。例如g o o g l e 的p a g e r a n k 技术,就是利用w e b 结构链接关系,p a g e r a n k 可 以计算每个网页的权重值,并据此对结果网页进行排序。所以,如果利用用户的 偏好来修改p a g e r a n k 权重值的计算,据此就产生表达特定用户个性化信息需求 的搜索引擎排序结果。从效果上来看,把和用户需求联系最为密切的网页放于搜 索结果的前面,必然更易于用户访问。 现在,人们提出的个性化p a g e r a n k 方法很多,主要分为两大类:一类是直 接修改基于链接关系得到的网页权重值;另一类是在传统的p a g e r a n k 公式上添 加修正参数来反映用户的个性化要求。基于个性化网页权重的个性化搜索引擎模 型哺1 如图2 - 4 所示。 图2 4 基于个性化网页权重的个性化搜索引擎模型 2 4 个性化搜索引擎的体系架构 个性化搜索引擎主要是针对传统搜索引擎的不足,在现有的搜索引擎的基础 和技术上,充分考虑用户个性化需求所构成的新型网络信息搜索工具。个性化搜 索引擎的体系架构如图2 5 所示。 武汉理工大学硕士学位论文 图2 5 个性化搜索引擎的体系架构 由图可知,个性化搜索引擎由通用搜索引擎、查询接口、个性化客户端三部 分组成。通用搜索引擎部分与传统搜索引擎的功能与结构一样,包括网络爬虫、 索引器、索引数据库、检索器等模块,负责网络w e b 信息资源的搜索,完成对信 息资源的连接、传输和分析,能够根据其中的超链继续处理其它资源,并将分析结 果存入索引库,供检索模块使用。查询接口是我们用户唯一能看到的部分,通过向 用户提供友好的输入、输出界面,供用户进行信息检索。个性化客户端这一部分 是最为关键,也是区别于通用搜索引擎系统的重要部分。一般包括查询优化器、 中英文词典、个性化信息库更新与维护以及机器自学习等几个重要模块。在用户 使用过程中,机器自动进行查询优化,并通过用户的浏览行为自动学习知识,动态 更新用户的个性化信息,从而为用户提高了查询质量。 2 5 目前个性化搜索引擎的不足 目前,从国家互联网信息中心的数据中,我们可以知道搜索引擎是最广泛的 网络应用之一。但使用过搜索引擎的用户都知道,即使是g o o g l e 和b a i d u 占据 市场前两位的巨头,在个性化方面做的还远远不够。我们可以说,现代搜索引擎 还不能广泛地提供个性化搜索结果,对不同用户的一个相同查询的搜索结果总是 相同的,它与提交查询的用户无关。因为在检索阶段忽略了用户的个性化需求特 征,所以对特定用户而言,搜索引擎返回大量无关甚至是无用的信息。造成这种 现象的主要原因具体如下。 首先,用户的需求难以得到有效表达。这主要有两个方面的因素:一方面由 于用户的知识水平或者表达能力的不同,他们缺乏需求表达的训练,因此不能有 1 2 武汉理工大学硕士学位论文 效理解和表达自己的信息需求,产生的后果是用户的主观理解往往就并不明确。 这种现象就用户无法描述他要找什么,除非让他看到想找的东西。当然,g o o g l e 和b a i d u 这方面有了改进,在你输入检索词的时候,会有相关提示,使得用户最 需求的表达能够更准确些。另一方面,来自系统无法正确获取相关用户个性化信 息,这主要是网络信息检索系统通常不具有主动获取相关用户个性化相关信息, 同时也没有要求用户必须提交个性化信息才能使用的限制。当然后者需要用户的 配合,对不同层次的用户也应当有所不同。正是上述两个方面的因素导致系统无 法有效获取用户个性化特征信息的现象。 其次,检索结果准确化和检索快速化之间存在矛盾。在处理搜索引擎的海量 数据时,很多传统的个性化推荐技术通常会产生严重的性能问题,这些主要适用 于传统小型商务网站中的个性化算法和技术往往缺乏良好的缩放性。当然,如果 采用维数约减、聚类分析和贝叶斯网络等方法,在一定程度上能够解决缩放性问 题,然而这些技术也有局限性,因为它们是通过在离线阶段抽取出原始数据中的 模式信息,并于在线阶段适用这些模式来得到推荐集合,所以这些方法虽然可以 减少在线的处理开销,但是经常产生推荐结果不准确的情况,同时在线计算复杂 度也会随着模式的增多而增加。 再次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年血糖仪软件服务合同协议
- 2025年广东省常用非金属材料检测技术培训考核考前冲刺必会500题-含答案
- 2025年保定安国市教师招聘笔试参考试题及答案解析
- 2025年修水县中小学教师招聘笔试参考试题及答案解析
- 2025年虚拟助手兼职协议
- 2025年那坡县中小学教师招聘笔试备考试题及答案解析
- 2025年容城县中小学教师招聘笔试参考题库及答案解析
- 2025年天祝藏族自治县中小学教师招聘笔试参考题库及答案解析
- 2025年小学教师资格证考试(科目二:教育教学知识与能力)易错真题集训卷(附详解)
- 2025年造价工程师考试(建设工程技术与计量-安装)模拟卷后附答案
- 酒店电工基础培训
- 洁净车间管理培训
- 2025工程管理专业论文题目选题参考
- 2026届新高考数学冲刺突破复习 解析几何
- 有线通信基础课件
- 2025年数据合规专员招聘面试参考题库及答案
- 银行系统风险防控案例分析
- 护理部信息化管理方案
- YY/T 0648-2025测量、控制和实验室用电气设备的安全要求第2-101部分:体外诊断(IVD)医用设备的专用要求
- 雨课堂在线学堂《信息素养-学术研究的必修课》作业单元考核答案
- 2025年10月江苏省农业融资担保有限责任公司招聘11人考试笔试备考试题及答案解析
评论
0/150
提交评论