(计算机应用技术专业论文)元搜索引擎中域语义映射问题研究.pdf_第1页
(计算机应用技术专业论文)元搜索引擎中域语义映射问题研究.pdf_第2页
(计算机应用技术专业论文)元搜索引擎中域语义映射问题研究.pdf_第3页
(计算机应用技术专业论文)元搜索引擎中域语义映射问题研究.pdf_第4页
(计算机应用技术专业论文)元搜索引擎中域语义映射问题研究.pdf_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 元搜索引擎是现代搜索引擎一个重要的发展方向,它为用户提供一个统一的查询 接口,避免同一查询向多个搜索引擎的重复提交,并且能够提高信息的查全率。电子 商务元搜索引擎将属于相同域的电子商务搜索引擎的界面集成,形成一个统一的搜索 界面,使用户能够一次查询实现在多个电子商务搜索引擎站点的产品比较。当不同域 的电子商务元搜索引擎数目较多时,由用户选择所需的元搜索引擎就比较困难。域映 射研究的问题就是如何将用户的查询映射到所需域的元搜索引擎。本文采用本体作为 信息的组织形式,实现了语义映射,对于用户的查询映射,具有较高的映射成功率。 在使用过程中,不断将新的概念纳入本体库中,对本体进行扩充。另外,对查询输入 词的映射结果采用“与”或者“或 的布尔运算进行处理。为了提高系统的映射效率, 特别添加了一个记忆模块,来模拟人脑的记忆提取,并在映射过程中自动学习用户的 查询兴趣,通过用户兴趣来决定域实例表的查询顺序。实验表明这些方法不但降低了 平均映射时间,而且使信息查询更为智能化。 关键词电子商务元搜索引擎;域映射;本体;记忆模块 a b s t r a c t a b s t r a c t m e t a s e a r c he n g i n ei so n eo ft h ed e v e l o p i n gt r e n d so fs e a r c he n g i n e i tp r o v i d e sa u n i f o r mq u e r yi n t e r f a c ef o ru s e r st oa v o i dr e p e t i t i o u ss u b m i s s i o nf o ro n eq u e r yt os e v e r a l s e a r c he n g i n e sa n dc a ne n l a r g et h ei n f o r m a t i o nr e c a l l e - c o m m e r c em e t a s e a r c he n g i n e ( e m s e ) i n t e g r a t e ss e a r c hi n t e r f a c e so fa l lt h ee c o m m e r c es e a r c he n g i n e s ( e s e ) i nt h e s a m ed o m a i ni n t oau n i f o r mi n t e r f a c e i tc a na c h i e v et h ep r o d u c t sc o m p a r ef r o m m u l t i e s es i t e sb yo n c eq u e r y w h e nt h en u m b e ro fd i f f e r e n td o m a i n se m s er e a c h e s h u n d r e d so ft h o u s a n d s ,i ti sd i f f i c u l tf o ru s e rt os e l e c tt h en e e d e de m s e t h ep r o b l e mo f w h a td o m a i nm a p p i n gs t u d i e si sh o wt om a pu s e r s q u e r i e st ot h en e e d e de m s e t h i s p a p e ru s e so n t o l o g ya st h eo r g a n i z a t i o nf o r mo fi n f o r m a t i o nw h i c hi m p l e m e n t ss e m a n t i c m a p p i n g ,a n dm a k e st h es y s t e mh a v eh i g h e rs u c c e s sr a t eo fm a p p i n gf o rt h eq u e r y m a p p i n g d u r i n gu s i n go f t h es y s t e m ,n e wc o n c e p t sa r ec o n t i n u a l l ya d d e dt oo n t o l o g yt o i m p l e m e n to n t o l o g ye x p a n s i o n i na d d i t i o n ,t h em a p p i n gr e s u l t so fq u e r yi n p u t sa d o p t “o r o r “a n d ”b o o l e a no p e r a t i o n s i no r d e rt oi m p r o v et h em a p p i n gs p e e do fs y s t e m s p e c i a l l ya d d i n gam e m o r ym o d u l et os i m u l a t et h em e m o r yo fh u m a nb r a i n a n d a u t o m a t i c a l l yl e a r n i n gu s e r sq u e r yi n t e r e s td u r i n gt h em a p p i n g ,t h e nu s i n gt h eu s e r s i n t e r e s tt od e t e r m i n et h eq u e r yo r d e ro fd o m a i ni n s t a n c et a b l e s e x p e r i m e n t sp r o v et h a t t h e s em e a s u r e sn o to n l yr e d u c et h ea v e r a g em a p p i n gt i m eb u tm a k et h eq u e r yi n t e l l i g e n t k e y w o r d se c o m m e r c em e t a s e a r c he n g i n e ;d o m a i nm a p p i n g ;o n t o l o g y ;m e m o r y m o d u l e i i 河北大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学 位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示了致谢。 作者签名:蚴趋 日期: 垒2年l 月兰 同 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校 可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 本学位论文属于 l 、保密口,在年月同解密后适用本授权声明。 2 、不保密a 。 ( 请在以上相应方格内打“4 ” ) 作者签名:幽圈 导师签名:型芝: 日期:全2 年j 厶月止同 日期:孕年上月也l 日 第l 章绪论 1 。1 研究目的和意义 第1 章绪论 随着网络的发展和成熟,社会逐渐进入信息极大丰富时代。网络成了人们获取资源 和交流信息的平台,因此出现了许多帮助人们获取资源的搜索引擎,如g o o g l e ,y a h o o , e x c i t e 等。虽然这些搜索引擎方便了用户,加快了查询信息的速度,但据统计,单一搜 索引擎平均只能覆盖整个网络资源的5 - 2 0 i 。为了更加符合用户的需求,搜索引擎 分别向专业化和集成化方向发展,元搜索引擎是搜索引擎集成化发展的产物,它的出现 在一定程度上弥补了单个搜索引擎的缺陷。 元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界 面,用户的查询请求由元搜索引擎根据知识库中的信息,转化为多个搜索引擎所能识别 的格式,然后分别发送给各个搜索引擎,由这些搜索引擎完成实际的信息检索,最后元 搜索引擎再将各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,并以 一定的格式返回给用户。 元搜索引擎以多个独立的搜索引擎作为支持,因此可以大大提高查询的查全率和查 准率。但现有的元搜索引擎主要采用通用的成员搜索引擎作为支持,为了减小网络的负 担,缩短查询响应时间,以及与成员搜索引擎间信息的格式转化与显示,往往只采用部 分搜索引擎的部分信息提供给用户,显示的结果虽然比单个搜索引擎的结果全面,但仍 不够全面,而且含有一些不相关的信息,所以不厶匕1 6 徊1 1 v 好的满足需要。目前,针对具体领 域的专业搜索引擎是搜索引擎研究的一个方向,它符合互联网的发展趋势:互联网将更 专业化、分工更细。专业搜索引擎面向某一特定领域,为领域内的查询提供更全面更及 时的信息。 电子商务搜索引擎( e c o m m e r c es e a r c he n g i n e ,简称e s e ) 属于专业搜索引擎,多 数e s e 是基于w e b 数据库的搜索引擎。将e s e 按w e b 数据库涉及的域( 如书、车等) 进行分组,以统一的方式给每一组内的e s e 提供一个元搜索引擎,该元搜索引擎即为电 子商务元搜索引擎( e c o m m e r c em e t a s e a r c he n g i n e ,简称e m s e ) 。当供用户选择的域 太多时,可添加一个域映射模块,将用户的常规查询映射到正确的域上,也就是,根据 河北大学t 学硕士学位论文 用户提供的简单查询,找到用户想要的元搜索引擎。这样做不但减少了用户查找相关域 元搜索引擎的时间,而且也符合用户的查询习惯。面对r 益增多的e s e 网站,为使用户 迅速全面地获得所需信息,电子商务元搜索引擎的研究和应用是有必要的。 1 2 国内外发展现状 元搜索引擎主要由三部分组成:调度、接口和显示f 2 1 。 各部分的主要功能如下: 调度:决定把一个特定的查询分配给哪些成员搜索引擎。 接口:将用户的查询格式转化为与目标搜索引擎相匹配的格式。 显示:集成目标搜索引擎返回的结果返回给用户。 目前的主要研究也是针对以上三个方面进行的。 如何选择成员搜索引擎进行查询是元搜索引擎实现过程中要解决的一个关键问题。 成员搜索引擎选择算法很多,如普通算法、定性算法、定量算法和基于学习的算法。普 通算法:用户的查询请求被送到每个成员搜索引擎上,适用于成员搜索引擎较少的元搜 索引擎。定性算法:根据一定的评分函数针对给定的查询预测每个成员搜索引擎的质量, 其评分或质量衡量往往不易理解。定量算法:根据较容易理解的标准来衡量成员搜索引 擎的有用性。基于学习的算法:根据以往成员搜索引擎的经验来预测各引擎对新查询的 有用性。 在接e l 处理上,有的研究针对查询的个性化服务,如基于智能a g e n t 3 j 和基于 o n t o l o g y 的个性化【4 】研究,通过学习建立用户的访问模型,为用户提供个性化服务。有 的研究针对查询提交给目标搜索引擎的方式,如采用w e b s e r v i c e 作为用户查询和目标 搜索引擎的接口【5 1 。还有的研究通过聚类的方法来构造同类多属性搜索引擎的元搜索引 擎接口【6 】实现查询的转化。 结果显示,是一个复杂的问题。因为不同的搜索引擎可能会返回相同的信息,或者 相同的信息以不同的方式提供,所以在将这些结果提供给用户时,最好能对这些信息进 行统一的处理,而且结果以何种方式排序都需要考虑。结果排序的方法有很多研究【7 】, 例如直接将不同搜索引擎的结果合并,然后将响应速度最快的搜索引擎的搜索结果最 先返回给用户。采用软计算的方法来计算搜索引擎的评分及排列次序【8 1 等。对于现有的 2 第t 章绪论 元搜索引擎,有的直接根据结果来源顺序提供给用户,不作排序处理,如d o g p i l e l g l ;有 的仅做排序处理,如m e t a s e a r c h i 】;对结果不但排序而且进行去重处理的有m a m m a , b y t e s e a r c h ,v i v i s i m o i 】【l o 】等;而z a p m e t a 1 1 对结果提供快照的方式也方便了用户的使用。 现有的研究主要针对如何使元搜索引擎的性能更加优化,对探索元搜索引擎性能的 提高和实现起到了积极的推动作用。 目前,多数电子商务搜索引擎是基于w e b 数据库的搜索引擎,与通用搜索引擎相 比,其用户查询界面比较复杂,需要用户输入的项目也较多,如售书搜索引擎的查询界 面,会有书名、作者、出版社等信息。对于出售同类产品的搜索引擎,其界面基本属性 往往很相似。为了方便用户,使得用户的一次查询能够实现在多个同类搜索引擎上的同 时查找,并将查找的结果以一种统一的格式提供给用户,美国纽约州立大学孟卫一等人 构建了一个电子商务元搜索引擎系统。该系统实现了对属于同类产品域搜索引擎的聚 类,文献 1 2 对已经获取的电子商务搜索引擎,按链接或图片的数量、价格、表单项等 信息,进行特征抽取,形成表示该搜索引擎的特征向量,通过计算两个搜索引擎特征向 量的相似度来进行聚类。采用的聚类算法是单趟聚类算法,为了调整单趟聚类算法对聚 类顺序的依赖程度,特别添加了一个加工步骤,通过计算类中各搜索引擎与该类平均相 似度的相似度来实现。对于已聚类的搜索引擎,抽取该类搜索引擎的基本属性,集成该 类搜索引擎的特征,来构造其元搜索引擎。文献 1 3 和 1 4 在接口集成方面的工作,是 实现了模式集成、属性值合并、格式集成和全局属性的排列。并且采用聚类和基于权重 的两步方法来识别不同搜索接口中的匹配属性,该方法还可以自动地为集成接口上的属 性找到一个合适的名字。这些研究都取得了较好的实验结果。 当不同类别电子商务搜索引擎的数量过多时,相应集成的电子商务元搜索引擎的数 量也会很多,让用户记住各种产品的元搜索引擎的域名不但不可能而且没必要,我们只 需要提供一个类似通用搜索引擎的查询界面,根据用户输入的查询信息,提供给用户想 要的元搜索引擎即可。但如何实现从查询到相关元搜索引擎域的映射却是个难题,因为 用户并不知道他所查询的产品被元搜索引擎的设计者划为哪个域,而且语言的多样性和 多义性,也使得映射只能在语义层次上进行。目前针对这个问题的研究还不曾见到相关 文献,但是解决这个问题不但对电子商务元搜索引擎系统有至关重要的作用,而且对于 类似的专业化搜索引擎也有重要的参考和借鉴价值。 河北人学j r 学硕士学何论文 1 3 本文研究的主要内容 本文主要致力于元搜索引擎中域语义映射问题的研究。为了能将用户的查询映射到 所需的元搜索引擎,采用本体作为信息的组织形式,并引入记忆模块和用户兴趣模型来 提高系统的查询效率,取得了较为满意的实验结果。 第1 章主要介绍了该课题研究的目的与意义及国内外的发展现状。 第2 章分别介绍了独立搜索引擎和元搜索引擎的现状和优缺点,及元搜索引擎的核 心问题。 第3 章主要介绍了域语义映射的相关理论基础,包括本体的定义、组成、分类和构 造等,为系统的信息组织提供理论基础。 第4 章具体介绍了元搜索引擎域语义映射的系统结构,本体的构建和存储,以及用 户接口模块、记忆模块和个性化模块。实验数据表明,记忆模块和个性化模块提高了系 统的效率,而且系统具有较好的映射准确性。 第5 章是结论与展望,分析了本文所做的研究成果以及不足和进一步研究的内容。 4 第2 章搜索引擎概述 曼曼皇曼nn n _ 一一i i p 毫曼曼! ! ! 曼詈詈皇曼詈鼍皇! 鼍曼! 苎! 曼! 皇! 曼皇曼 2 1 搜索引擎 第2 章搜索引擎概述 2 1 1独立搜索引擎概述 搜索引擎( s e a r c he n g i n e ) 是指能够自动对w w w 资源进行分析处理,并通过查询 为用户返回匹配资源的系统。它一般是i n t e m e t 上的一个网站,它的主要任务是在互连 网上主动搜索w e b 服务信息并将其自动索引,其索引内容存储于可供查询的大型数据 库中。当用户输入关键字( k e yw o r d ) 查询时,搜索引擎依据此关键字,在索引数据库 中查找相关信息,若索引数据库中有这方面的信息,则将信息反馈给用户;若没有则调 用搜索方法进行搜索,并在一定时间界限内向用户反馈信息。 搜索引擎一般包括信息收集程序、索引数据库和查询接口三部分。搜索引擎首先利 用爬虫软件按照某种遍历搜索算法来对w e b 进行遍历访问,并取回访问到的每个文档, 这些文档以及它们的位置信息被放入搜索引擎的索引数据库。索引系统首先对文档内容 进行分析,进步转换文档的表示形式,然后决定根据文档的某个元素建立索引,再参 考文档的各种属性,根据搜索引擎自己的计算模型得出这些索引元素的权值,并把这个 结果加入到索引数据库中。查询接口通过检索索引数据库,把恰当的结果返回给用户。 图2 1 给出了搜索引擎的工作示意图。 图2 1 搜索引擎一r 作示意图 5 河北大学- 】二学硕十学位论文 2 1 2 独立搜索引擎现状 独立搜索引擎是i n t e r n e t 上使用最广泛的搜索引擎,尤其是其中的专业搜索引擎对 于专业性较强的查询,往往能获得相对精确的结果,很受用户青睐。在搜索引擎的发展 过程中,研究人员不断提出和应用新技术,不断为搜索引擎的发展注入新的活力。下面 介绍搜索引擎常用的技术和一些优秀的搜索引擎。 信息采集策略:理论上搜索引擎对网络资源的覆盖越全面越好,但是,对于一个搜 索引擎来说,必需考虑其实际情况。显然没有一个搜索引擎能为整个w e b 的页面建立 索引,搜索引擎只能根据自身软硬件系统的处理能力确定其索引数据库的规模,然后在 此前提下进行文档采集。在确定了其采集规模之后,搜索引擎在进行采集时需要有所取 舍,以提高其索引文档的质量。关于这一点,m a r t i nc o s t e d ”】提出了一个编写爬虫程序 时遵循的若干建议,避免采集无用的文档。w e b c r a w l e r 提出的一个基本策略是:采集的 文档要来自尽可能多的站点。w e b c r a w l e r l l 6 】采用一个经过修改的宽度优先遍历算法进行 采集,保证每个站点至少有一个文档被建立索引。 索引建立技术:不同的搜索引擎采用不同的索引策略建立索引。就建立索引的内容 来说,有的对文档里出现的每个词建立索引,即全文索引:有的利用超链接文字建立索 引,如j u m p s t a t i o n ;有的只对标题建立索引,如w w w ;w r e b c r a w l e r f l 6 】是采用向量空 间模型,对内容和标题都进行索引。只对链接文字或者标题中出现的词建立索引具有较 高的价值,这种索引检索出来的信息一般有较好的可用性。但是标题并不能包含文档的 所有主题词,因此会有很多相关的文档不能被检索出来。而且有相当一部分h t m l 文 档没有标题,这给索引造成了一定的困难。因此有必要建立全文索引。全文索引简单易 行,检索时不会错过每个包含检索关键词的文档,但是每个文档都有许多与文档主题没 有关系的词,以这些词作为关键词进行检索时,这篇文档就会出现在检索结果中,大量 不相关文档的出现会湮没真j f 有用的信息,导致整个搜索质量的下降。 结果排序策略:搜索引擎返回的查询结果往往非常庞大,而用户由于时间和精力的 限制,往往只关注检索结果中前面的部分。为了将最接近用户需求的结果放在返回列表 的前面,搜索引擎一般依据某种检索模型来判断文档与用户需求的相关度,然后根据相 6 第2 章搜索引擎概述 关度对检索结果进行排序。以下介绍几种主要的检索模型f 2 】: l 、布尔逻辑模型 标准布尔逻辑模型为二元逻辑,用逻辑符号“与”、“或”、“非来组织查询关键词 的表达式。它的优点是实现简单,检索速度快,但由于匹配结果的二值性,使之不具有 相关性排序能力,也无法区分特征项对文档内容贡献的权重。 2 、向量空间模型 向量空蒯模型将文档看作由相互独立的词条组( tj ,t 2 ,t n ) 构成,对于每一 词条t i ,都根据其在文档中的重要程度赋以一定的权值w i ,并将t l ,t 2 ,t 。看成一 个n 维坐标中的坐标轴,w l ,w 2 ,w 。为对应的坐标值。这样由( t l ,t 2 ,t 。) 分解 而得到的j 下交词条矢量就构成了个文档向量空间,文档则映射成空问中的一个点。 如果将所有文档和用户查询都映射到此文档向量空间,用词条矢量( t l ,w l t 。, w 。) 来表示,就可将文档信息的匹配问题转化成向量空问中的矢量匹配问题。假设用户 查询为q ,被检索文档为d ,两者的相似程度可用向量之间的夹角余弦值来度量,夹角 越小,说明相似度越高。相似度的计算公式如下: 其中 w q 。k 正m ( q d ) - c o s ( q d ) = 钢 = 。形= ( 2 1 ) 3 、概率模型 概率模型可以克服布尔逻辑模型和向量空问模型忽略词条关联性,视文档中词条互 为独立的缺点,该模型利用词条间及词条与文档间的概率相依性进行信息检索。主要算 法思想为: 设文档d 与用户查询q 都可用词条向量组( 。【i ,a :,0 【。) 表示,当特征项t ig d 时有 1 2 i = 1 ,否则为0 ,其相关公式1 1 8 1 为: s i m ( q ,d ) = l o g p ,( 1 一q i ) q i 0 - p j ) 】 ( 2 2 ) 其中 7 f f j l 大学工学硕士学位论文 p i _ r l r ,q i = ( f i r i ) ( f - r ) f 表示训练文档集中文档的总数,r 为文档集中与用户查询有关的文档数,表示训练文 档集中包含词条t i 的文档数,r i 表示r 个相关文档中包含词条t i 的文档数。 目f i i j i n t e m e t 上的搜索引擎很多,以下介绍几个有代表性的搜索引擎: a l t a v i s t a 是一种快速、强有力的关键词搜索引擎,其标引的网页数量成为目前w e b 上最大的检索工具之一。用户界面友好,在线帮助文件完整,搜索速度快,能够识别大 小写和专用名词,检索功能丰富,提供基于概念扩展的自然语言检索技术。a l t a v i s t a 支 持各种逻辑查询语法。“+ ”“一”分别表示查询词必须出现和不出现在结果中,另外还可 使用a n d 、o r 、n o t 、n e a r 等查询关键词,还支持带权值检索关键词i l 9 】。 e x c i t e 的一个重要特点是个性化检索,在检索时能自动检索同义词以及相关词,检 索页面支持用户的定制,用户可以设置自己喜欢或经常访问的内容。提供分类浏览功能 和若干专题检索功能,并且支持各种逻辑检索语法。 i n f o s e e k 实时性强,更新速度快,重要的新闻和消息每1 分钟左右会更新1 次。提供 多种检索,其建立的索引包括:w e b 页面、u s e n e t 新闻、新闻在线( n e w sw i r e s ) 、邮件 地址、公司、f a q s 以及图像检索。i n f o s e e k 支持两种逻辑语法:“+ ”保证查询词一定包 含在结果里,而“一”则是查询词不出现在结果里。 g o o g l e 是美国s t a n f o r d 大学的s e r g e yb r i n 矛ll a w r e n c ep a g e d x 组研发的搜索引擎模 型。g o o g l e 在p a g e r a n k 、动态摘要、网页快照、d a i l y r e f r e s h 、多文档格式支持、图像 搜索、多语言支持用户界面等方面进行革新,它以检索功能强大、搜索信息的准确性而 倍受用户青睐。现在其索引量已达6 0 多亿条,成为因特网上最大的搜索引擎。正因为 g o o g l e 采用了这些比较先进的技术,它的检索结果具有较高的质量。现在g o o g l e 已经成 为二家很有影响的搜索引擎服务提供商。 g o o g l e 允许用户进行以下设定以供每次检索时使用:如界面指令语言、查询语言、 每页显示结果数目、是否在新窗口中查看结果。g o o g l e 的高级检索功能可以支持逻辑语 法( 与、或、非) ,可以进行短语和句子查询,可以指定检索词出现的位置,指定在什 么网域( 如o r g ) 内进行查询,搜索和某个网页类似的网页,对某个网页进行链接的 网页。 百度( b a i d u ) 是由两位北大校友、超链接分析专利发明人、f i i n f o s e e k 资深工程师 8 第2 章搜索引军概述 李彦宏与好友徐勇创办。2 0 0 1 年8 月发稚b a i d u c o i t i 搜索引擎b e t a 版,2 0 0 1 年l o 月2 2 同j 下 式发布b a i d u 搜索引擎,专注于中文搜索。百度为多家网站提供搜索引擎服务,是目前 全球最优秀的中文信息检索与传递技术供应商之一。 百度搜索引擎采用了中文语言处理技术,可以较好地处理中文检索条件,如百度为 c h i n a r e n 推出的“孙悟空搜索 可以用自然语言进行查询。百度建立索引是同时基于字 和词的,有效地处理了汉语的独特性。 百度的s p i d e r 程序覆盖面比较广,基本包括了世界上的华语地区。目前百度已经拥 有了世界上最大的中文信息库,包括了4 5 0 0 多万个页面,而且在以每天超过2 0 万页的速 度增长。 悠游是第一个智能搜索引擎,它除了具备一般搜索引擎的优点外,还融入了计算机 人工智能技术,可自动对请示做分词及断句的处理,更可以关键词的方式进行对网页内 容的理解与存储,因而在很大程度上降低了系统的开销,并进一步提高了人机对话的互 动能力。收录的网站资源比较丰富,能进行类目搜索、网站检索、全文检索以及站内新 闻搜索。悠游具有较好的查询结果查准率,能转换国标码和大五码,还提供个人书签服 务【1 9 】。 2 1 3 独立搜索引擎的缺点 1 、信息覆盖率低 随着i n t e m e t 快速发展,内容急剧膨胀,其上的信息资源呈指数级增长。据统计【2 0 1 , 独立搜索引擎最多只能索引3 8 3 的网站,能访问的公开页面的估计量最多也爿1 6 , 即使把被调查的1 1 个搜索引擎加在一起,覆盖面也只增加到4 2 。美国新泽西州n e c 研 究所s t e v el a w r e n c e 博士和c l e eg i l e s 博士研究表明,现在搜索引擎漏掉大约8 4 的内 容。用户往往为了寻找目的数据和资源,而不断的在多个搜索引擎检索返回的信息间切 换,这常常令用户事倍功半。 2 、结果冗余、噪声信息多 搜索引擎的索引和以前相比已经有了极大的增长,一般检索都会返回大量的结果, 其中大部分结果是无用的,没有哪个独立搜索引擎可以返回相关结果的4 5 以上【2 l 】,真 f 有用的结果却被湮没在其中不容易被发现。用户需要亲自从大量的反馈信息中提取真 9 河北大学工学硕十学位论文 正有用的信息。通常用户只会注意最前面的反馈结果,因此,搜索引擎的“精度”,尤 其是检索结果排在前面的部分对于用户的有用性,是非常重要的。 3 、搜索引擎兼容性不强 现有传统搜索引擎各自使用不同的索引技术、信息收集技术和关键字查询语法技 术,使得它们在各自搜索的信息资源的内容上、搜索范围上有相当大差异,水平参差不 齐。个检索请求在不同搜索引擎中的查询结果的重复率不足3 4 。这种情况给用户查 询带来很大的不便。 4 、无个性化 现有传统搜索引擎基本上都采用“一个搜索适用于所有用户”的搜索模型( 不同的 用户提交相同的关键字查询请求时,搜索引擎返回相同的搜索结果) ,然而,用户层次 不一,需求深度不同,信息查询是一项个性化的活动,检索系统需要针对不同的用户提供 相应的信息服务。传统的搜索引擎无法满足用户的个性化需求。 2 1 4 独立搜索引擎发展方向 l 、集成化 所谓集成化搜索,就是用户在搜索时只需输入一次查询目标,即可在同一界面得到 各种有关联的查询结果。这种搜索可以节省搜索时间,提高搜索效率,搜索的结果全面、 准确。因而集成搜索是搜索引擎发展的一个重要方向。 2 、智能化 准确的搜索应建立在对收录信息和搜索请求的理解之上,即必须处理语义信息。基 于自然语言理解技术的搜索引擎,可以同用户使用自然语言交谈,并深刻理解用户的搜 索请求,因此查询的结果也会更加准确。 3 、专业化 由于社会分工的不同,用户从事的职业的不同,不同用户对信息搜索也往往有自己 的专业需求。而专业搜索引擎只针对某领域,可保证此领域信息的收录齐全与更新及时。 4 、个性化 将搜索建立在个性化的搜索环境之下,可以大大提高搜索精确度。通过对用户使用 1 0 第2 苹搜索引擎概述 情况的不断了解、学习和分析,使得个性化搜索不仅准确,而且更符合每个用户的需求。 5 、本土化 世界上许多著名的搜索引擎都在美国,他们以英语为基础,完全按他们的思维方式 和观点搜集和检索资料,这对于全球不同国家的用户来说显然是不适合的。由于各国在 文化传统、思维方式和生活习惯上的不同,对网站内容的搜索要求上也存在差异。搜索 结果要符合当地用户的要求,搜索引擎就必须本土化。国内的搜索引擎技术与国外相比 依然差距较大,因此要大力发展中文搜索引擎,使得它迸一步完善与提高,以加速网络 技术的发展。 2 2 元搜索引擎 2 2 1 元搜索引擎概述 元搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界 面,元搜索引擎将用户的查询请求转换为多个搜索引擎能识别的格式,然后分别发送给 各个搜索引擎,由这些搜索引擎完成实际的信息检索,最后元搜索引擎再把从各个搜索 引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定的格 式返回给用户。 元搜索引擎克服独立搜索引擎的弊端,使用户二下子就可以得到多个搜索引擎针对 某一查询返回的结果,而不用单个的去查询。它主要由三部分组成:检索请求提交模块、 检索接1 3 代理模块和检索结果显示模块。检索请求提交模块,实现用户的个性化检索设 置的要求、成员搜索引擎的调度方案、检索时间的限制、返回结果量的限制等功能;检 索接口代理模块,把用户的查询格式改编为与实际使用的搜索引擎相匹配的格式。检索 结果显示模块,将目标源搜索引擎返回的原始结果去重、合并、排序并按一定的格式返 回给用户。元搜索引擎工作示意图如图2 - 2 所示: 河北大学:r = 学硕十学何论文 2 2 2 元搜索引擎现状 h j ,i | 图2 - 2 元搜索引擎工作示意图 d o g p i l e ( h t t p :w w w d o g p i l e c o m ) 是1 9 9 6 年1 月创建,采用并行式查询方式的元搜索 引擎,曾被s e a r c he n g i n ew a t c h 评为2 0 0 0 年度最佳元搜索引擎。提供综合式的检索服务, 主要有w e bs e a r c h ,y e l l o ws e a r c h ,w h i t es e a r c h 。其检索内容包含w e bp a g e s ,i m a g e s , a u d i o ,m u l t i m e d i a ,n e w s ,s h o p p i n g 。可以调用1 4 个w w w 引擎( 包括主题目录) 和1 1 个m a i l i n gl i s t s ,f t p 等引擎,共计2 5 个搜索引擎。d o g p i l e 采用独特的并行和串行结合的 查询方式:首先并行地调用3 个搜索引擎,如果没有得到】o 个以上的结果则并行地调用 另外三个搜索引擎,如此反复。它还允许设定最大搜索等待时间,使用户能在指定的时 间内获得查询的结果。可以选择使用哪些独立的搜索引擎,可使用模糊和布尔检索,对 每个搜索引擎能返回l o 个查询结果,但对查询结果不再进行排序,而以来源顺序显示给 用户,结果可能存在重复。 m a m m a ( h t t p :w w w m a m m a c o r n ) 是在1 9 9 6 年建立的并行元搜索引擎,是首批元搜 索引擎之一。自称为“搜索引擎之母”,可同时调用1 2 个独立搜索引擎,而且有一个自 1 2 第2 章搜索引擎概述 己的小型数据库,可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点 是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短 语检索功能、设定检索时间、设定每页可显示的记录数等。另外,m a m m a 支持常用检 索语法在不同搜索引擎中转换,还提供了专门检索页面文件标题的特殊检索服务,以及 通过e m a i l 传输检索结果的特色功能。检索结果以相关性排序。 m e t a c r a w l e r ( h t t p :w w w m e t a c r a w l e r c o m ) 于1 9 9 4 年由华盛顿大学的e r i ks e l b e r g 和 o r e ne t z i o n i 仓j 建,次年开始提供w e b 服务。曾两次被p c mm a g a z i n e ) ) 评为最好的搜索 引擎。除支持调用1 2 个独立搜索引擎外,本身还提供了涵盖近2 0 个主题的目录检索服务。 其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等 检索服务模式。m e t a c r a w l e r 是一种利用关键词进行检索的搜索引擎。它的查询语法支持 “a n yw o r d s ”,“a l lw o r d s ”和“a sap h r a s e ”等。为了提高查询结果的专指度,可以 用布尔逻辑运算符“+ ”、“一”,对查询结果范围加以限定。查询的结果包括文档的标题、 相关系数、摘要、文档的地址( u r l ) 以及发送查询结果的独立搜索引擎的名称。 v i v i s i m o ( h t t p :w w w v i v i s i m o c o r n ) 2 0 0 0 年1 月由卡耐基梅隆大学的几个科技人员 创立,2 0 0 1 年与2 0 0 2 年连续两年被s e a r c he n g i n ew a t c h 评为年度最佳元搜索引擎, v i v i s i m o 特别擅长于文本组织和文本自动聚类技术,自称为“c l u s t e r i n g e n g i n e ”,并且 由于返回结果受竞价排名等商业因素影响非常小而深受好评。 p r o f u s i o n ( h t t p :、孙w p r o f u s i o n c o m ) 是肯萨斯大学电子工程与计算机科学系的研 究项目,是一个优秀的智能型多元搜索引擎。在其检索界面上提供了尽可能多的检索选 项,包括:检索类型、结果显示、摘要选项、链接检查、搜索引擎选择。搜索资源的范 围涵盖娱乐、健康、体育、m p 3 、u s e n e t 等,并支持个性化设置,自动实现符合特殊检 索语法要求的转换。它的特色是能根据对用户查询关键词的分析,找出要查询的主题, 然后选择最适合的搜索引擎进行检索。 i x q u i c k ( h t t p :w w w i x q u i c k c o r n ) 创立于1 9 9 9 年,并于2 0 0 0 年与d o g p il e 一起 被s e a r c he n g i n ew a t c h 评为年度最佳元搜索引擎。根据不同的搜索内容调用将近2 0 个独立搜索引擎;能够将用户的检索形式准确翻译成独立搜索引擎能够理解的句式,以 更好地支持各种高级检索;独创了“星级 排序体系,大大提高了返回结果的准确率。 河北大学i = 学硕士学位论文 2 2 3 元搜索引擎的优势和不足 元搜索引擎是由多个分布的、具有独立功能的搜索引擎构成的一个虚拟整体,用户 通过元搜索引擎实现对这个虚拟整体中各独立搜索引擎数据库的查询、显示等操作。元 搜索引擎中各独立搜索引擎保持其原来的局部数据模式和检索指令,由元搜索引擎提供 一个全局外部模式,用以接受用户检索输入和结果输出。这造就了元搜索引擎的以下优 势: 1 、单个搜索引擎至多只能处理网上总信息量的1 6 ,据b a r k e r 统计,用不同的搜 索引擎进行类似查询,结果大约4 0 为完全不同的内容1 1 。元搜索引擎集成多个单个成 员搜索引擎,可以一次在多个独立的搜索引擎中并发查询,增加了检索的范围,扩大了 信息覆盖率,因而能够获得较高的查全率。 2 、元搜索引擎对目标搜索引擎返回的信息进行过滤、分析、比较、归类,删除不 合适或重复的网页并对结果按关联度高低进行排序等,查准率会得到较大的提高。 3 、元搜索引擎不需要直接维护庞大的索引数据库,使开发者可以将重点放在查询 请求的发送和查询结果的处理上。 4 、元搜索引擎能保持各成员搜索引擎原来的局部数据模式和检索指令,有利于充 分发挥它们各自的功能优势;其集成界面实现了用户选择和利用合适的若干个搜索引擎 进行信息检索的愿望,可以根据用户个性化需求进行灵活的结果输出。 元搜索引擎对独立搜索引擎的集成,虽然具有一定的优势,却很难将高效地发挥各 独立搜索引擎的功能,它仅仅集成了各目标源搜索引擎都具有的那部分最简单的功能机 制,所以目前元搜索引擎的一个突出问题是,即“最低常用分母”现象。它的局限性主 要体现在以下几方面上【2 】: 1 、现存元搜索引擎实现检索语法转换的能力是有限的,而且高级检索模式常常只 是注册或定制检索中的一部分,更适用于单用户计算机环境。另外,由于元搜索引擎不 支持目标源搜索引擎包含的特殊检索特性,因此不能发挥各独立搜索引擎的高级检索特 色,影响了检索效果和质量。 1 4 第2 章搜索引擎概述 2 、大部分元搜索引擎只支持调用a 1 t a y i s t a ,e x c i t e ,g o t o c o m ,y a h o o ,i n f o s e e k , l y c o s 等主要的搜索引擎,有许多大型搜索引擎被排除在外,影响了信息搜索的覆盖面。 3 、由于现存元搜索引擎往往将一个查询传递到每个目标源搜索引擎,必然占用大 量的检索时问。但为了不影响检索速度,目标源搜索引擎往往只检索少量最符合要求的 记录,这显然也影响了检索结果的全面性。 2 2 4 元搜索引擎的核心问题 元搜索引擎和独立搜索引擎的工作模式完全不同,它没有自己的索引数据库,通过 调用其成员搜索引擎进行检索并处理其检索结果,因此元搜索引擎的核- i i , 问题是: 1 、搜索引擎的选择选择好的搜索引擎能获得高质量的原始检索结果,从而提高 最终检索结果的质量。使搜索引擎的选择比较困难的几个因素是:w e b 是由别的搜索引 擎建立索引的,文档集不可得;这些搜索引擎既有通用搜索引擎也有专业搜索引擎,其 专门技术变化很大;这些搜索引擎经常发生变化,尤其是其索引:作为i n t e r n e t 的一员, 元搜索引擎应该在搜索结果质量和网络资源消耗之间作个权衡。 2 、检索条件的转化元搜索引擎需要将接收到的用户查询请求转化成各个成员搜 索引擎能够处理的格式,因为各成员搜索引擎的查询请求中变量参数设置不同。在此可 以考虑针对不同的搜索引擎进行请求扩充处理。在电子商务元搜索引擎系统中,域语义 映射是通过用户的简单查询提供给用户想要的元搜索引擎,这种查询映射不但使查询界 面友好,而且可以方便用户,加快查询速度,使服务更加人性化。 3 、结果的合并实际进行检索的每个成员搜索引擎都会向元搜索引擎返回一个检 索结果列表,由于它们的检索标准和排序算法各不相同,如何将所有搜索引擎返回的结 果合并成一个单一的列表,是元搜索引擎最核心的问题。这里需要参考各搜索引擎对结 果的相关性和重要性评价。 河北大学_ - 1 :学硕十学位论文 第3 章域语义映射相关理论基础 域语义映射是将表示相同概念的不同词汇映射到同一域,为了实现电子商务元搜索 引擎系统中域语义映射,本文采用本体作为信息的组织形式。本章专门对本体的相关理 论知识做简单的介绍。 3 1 本体的定义 本体( o n t o l o g y ) 原来是一个哲学的概念,被哲学家用来描述事物的本质。后来知 识工程学者借用了这个概念,在开发知识系统时用于领域知识的获取。 在计算机界,明确本体的定义经历了一个过程。1 9 9 3 年,6 r u b e r 给出了本体的一 个最流行的定义,即“本体是概念模型的形式化规范说明”心刳。该定义包含四层含义: 概念化、明确、形式化和共享。“概念化”指通过抽象出客观世界中一些现象的相关概 念而得到概念模型,概念模型所表现的含义独立于具体的环境状念,可以用一个简单的 例子来说明:假定用a ,b 代表两块木板,用0 n 来抽象它们之问的关系,0 n ( a ,b ) 表示 a 在b 上,0 n ( b ,a ) 表示b 在a 上。无论是o n ( a ,b ) 还是o n ( b ,a ) ,概念o n 的意思保 持不变。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化” 指本体是计算机可处理的。“共享指本体中体现的是共同认可的知识,反映的是相关 领域中公认的概念集。总之,本体的目标是获取、描述和表示相关领域的知识,提供对 该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上 给出这些词汇和词汇间相互关系的明确定义雎3 | 。 3 2 本体的组成 p e r e z 等人认为本体可以按分类法来组织【2 4 】,他归纳出本体包含5 个基本的建模元 语( m o d e l i n gp r i m i t i v e )

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论