(计算机软件与理论专业论文)基于神经网络的元搜索引擎.pdf_第1页
(计算机软件与理论专业论文)基于神经网络的元搜索引擎.pdf_第2页
(计算机软件与理论专业论文)基于神经网络的元搜索引擎.pdf_第3页
(计算机软件与理论专业论文)基于神经网络的元搜索引擎.pdf_第4页
(计算机软件与理论专业论文)基于神经网络的元搜索引擎.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)基于神经网络的元搜索引擎.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于神经网络的元搜索引擎 摘要 2 1 世纪是信息时代,也是网络时代。随着信息科学的进步和互联网络的发 展,网络信息资源越来越丰富,网上信息呈爆炸性增长。面对无序、极其庞大的 信息世界和成千上万的超级链接,要在如此浩瀚的信息网络空间里快速、准确、 经济地查找到所需要的信息,就像“大海捞针”一样困难。搜索引擎则是解决这 一难题的最佳途径。 搜索引擎经历了从简单的机器人搜索软件( r o b o ts e a r c hs o f t w a r e ) 、独立 搜索引擎( s i n g l es e a r c he n g i n e ) 到专业搜索引擎( s p e c i a l i z e ds e a r c he n g i n e ) 元搜索引擎( m e t as e a r c he n g i n e ) 的发展历程,成为人们在w e b 上寻找信息不可 或缺的工具。 本文将元搜索引擎作为研究对象,在详细分析了独立搜索引擎和元搜索引擎 各自优缺点的基础上指出了元搜索引擎存在的必要性以及发展中文元搜索引擎 的迫切性。文章介绍了元搜索引擎的发展现状,就目前元搜索引擎所采用的几种 排序算法进行了分析,指出了其中的局限和不足:由于元搜索引擎只能从标准搜 索引擎那里获取返回的查询结果,无法获得其他与之相关的信息,所以元搜索引 擎在对返回结果进行排序时可用的信息是非常少的。为了提高中文元搜索引擎的 查全率和查准率,需要进一步挖掘返回结果中除了位黉信息以外的其他信息。本 文提出了一种在对返回结果进行中文分词,充分挖掘其语意信息基础上的基于神 经网络的网页排序算法。文章详细介绍了该算法的工作原理,并在此基础上设计 实现了一个基于神经网络的中文元搜索引擎,详细介绍了元搜索引擎从提交用户 请求、获取返回结果到对结果进行的二次处理的实现过程。基于神经网络的元搜 索引擎利用了神经网络的模式判别能力对网页的相关性进行判断,为中文元搜索 引擎的实现开辟了新的思路。 关键词:万维网:搜索引擎;元搜索引擎;神经网络;中文分词;信息检索 基于神经网络的元搜索引擎 a b s t l ? a c t t 1 l el a s t2 0y e a r sh a v ew i t n e s s e dt h eg r c a ts u o c e s so ft h ei i l t e m c ta l l dt h ew b r l d w i d ew e b ,n ec a p a c i t yo fj l l f o 咖a t i o ni s i n c r e a s i l l gi n t h ew a yo fi n d c x ,ni s e s t i m a t e dt h a tn o wt h e r ea r ea tl e a s t8 0 0m i l l i o np a g e so nt l l ew 曲,t 0h e l pu s e r sm i i l e t h ew 曲e f f i c i e n t l y ,w 曲s e a r c hc n g i n e sh a v eb e e nd e v e l o p e d s e a i c he n 舀n ei sb e c o m i n ga i li n d e p e n d e mt 0 0 1n o wa f t e rd e v e l 叩e df r o ms i m p l e r o b o ts e a r c hs o 脚a f e ,s i l l 百es e a r c he n 舀n et os p e c i a l i z e ds e a r c ha dm e t as e a r c h e n 酹n e ,s i i l c ei tc a l i l ei n t ob e i n gt op l a yu pt 0p e o p l c sf e q u i f e m e n t s i nt l l i sp a p e r t h es e a r c he g i n ep 血c i p l c s 柚di t sc u r r c n td e v e l o p m e n ts t a t u s 、e r ef i r s yd i s c u s s e d ,n 屺a ( t v 勰诅g c s 瓶dd i s a d v a n t a 露鹪o fm e t as e a r c he n 醇c r d a t i v et 0 e x i s t i n gt t a d i t i o n a ls e a r c h 锄g i n e sw c r ea l s oa n a l y z e d ,b a s e d 叻m e p r e c e d i n ga n a l y s i s ,w eh a v ep r o p o s c dt h en e c e s s i t yo fi i l t r o d u d n gm c t as e a i c he n g i n e a l l dt h cf u t i l r er e s e 盯c hd i 咒c i i o s i nt h i sp a p c r ip f c s e n tan e 删n e t 、o r kb 髂e d a l g o r i t l l mt oc l a s s i f yt h ef e l e v a n c yo fs c a r c hr c s u l t so nam e t as e 砌e n g i n e 1 1 l cf a s t l e a r n i l l g c l l f a ln e t 、】i r o r kt e c l i l o g ye n a b l e st h em e t as e a r c he n g i n ct 0h a n d i eaq u e r y t e 哪i nar e a s 彻a b l ys 胁t i m ea n dr e t 啪协es e 缸c hi e s u l t sw i mh i g ha o c u r a q b a s c do nt l i ea l g o r i m m ,id c v e l 叩am e t as e a r c he n g 血e 删d e m s 仃a t ch o wc a na m e t as e a r c he n 百n es u b i i l i t sq u e r yt e 珊sj n p u t t c db yu s c r st os t 锄d a r d a r c hc n g i n c s 锄dc a p t u r c st l l eu s c f l l li 面咖a t i 叻r c t l i m c db ys t 蛐d a 柑s e a r c he n g i e sa l i dh o wc 柚 am e t as e a r c he n 西n c 猢g e st h cf e s u l tl i s ta p p m p r i a t d y _ 1 1 1 en e u r a ln e 懈o r kb a s c d a l g o m 啪w h i c hu t i l i z e st h ep a t t 啪i d c n 龋c a t i o nc a p a b i l i t yo ft h eo c 4n 咖o f kt o d a s s i f yt h er e l c v 柚c yo fs 黜hr c s u l t sp r o v i d e san e wp o i n to fv i e wo ft h ef a i l k a l g 喇岫o f am e t as e 盯c he n g i n e k e y w o r d s :w h r dw l d ew 曲;s e 矗r 噍e n g 妯e ;m e 组s 晴r c he n g i n e ;n 伽嘲n 哪r o r k ; c h l n e 蹄s p m l e r ;l n 如r m _ t 量o nr n r k v 岫 i l 基于神经网络的元搜索引擎 第一章绪论 1 1 引言 搜索引擎是网络信息时代为满足人们对日益激增的网络信息搜索的需求应 运而生的网络工具,是互联网信息查询的向导和沟通用户与网络信息的重要桥 梁。 在“信息时代”,信息膨胀的速度远远超过了搜索引擎检索范围的扩张速度, 1 9 9 7 年的统计数字表明,最大的搜索引擎对网络信息覆盖面接近3 0 ,而到了 1 9 9 9 年这一数字已降至1 6 ,据统计,当前任何一个独立搜索引擎对网络信息的 覆盖率都小于l 3 ,检索范围相对狭小的问题日益凸显。定位于解决独立搜索引 擎信息覆盖率的不足,元搜索引擎产生于上世纪9 0 年代中期。由于元搜索引擎 可以调用多个独立搜索引擎进行检索,所以人们把对更大范围网络资源进行检索 的期望落在元搜索引擎上,这基本上就是元搜索引擎产生的初衷。 元搜索引擎是在独立搜索引擎的基础上建立起来的可以同时或分时查询多 个搜索引擎( 含独立搜索引擎或其他元搜索引擎) 的网络信息查询系统。其英文 m e t as e a r c he n g i n e 意为普通搜索引擎之后或之上的搜索引擎。 自从第一个元搜索引擎于上世纪9 0 年代诞生以来,这一新型的网络检索工 具在短短十年左右的时间里发展异常迅速,目前国内外可用的元搜索引擎已达百 种之多。本文将元搜索引擎和另种迅速发展的技术:人工神经网络技术有机地 接合起来,提出了一种基于神经网络的排序算法,为中文元搜索引擎的实现提供 了新的思路。 1 2 背景知识 1 2 1 搜索引擎 搜索引擎是指因特网上专门提供查询服务的一类网站,是一种利用网络自动 搜索技术,对因特网各种信息资源分门别类地进行标引建库,能够对检索者提出 的各种检索查询做出响应的强有力的检索工具。它是为满足人们对网络信息搜索 需求应运而生的网络信息检索工具,既是互联网信息查询的导航针,也是沟通用 户与网络信息的重要桥梁。 搜索引擎一般由搜索软件、索引软件和检索软件3 部分组成,各部分软件的 工作过程主要包括信息集中、信息分类整理、信息利用3 个环节。搜索软件通常 称为机器人( r o b o t ) 、爬虫( c r 神1 e r ) 或蜘蛛( s p i d e r ) ,能够自动从一个网页 基于神经网络的元搜索引擎 上的链接跳到另一个网页的链接,当网页搜索软件发现一些新的网站后,将信息 反馈给要做索引的主站点,并记录它们的网址,创建一个详尽的网络目录。 图1 1 独立搜索引擎的模块划分图 任何搜索引擎都会依赖一个机器人模块来完成它的信息获取工作。机器人实 际上就是一个可以浏览网页的程序,它很像真人浏览网页的过程,首先打开一个 网页,然后再通过网页上的链接去浏览其它不同的网页,如此往复。机器人模块 工作的时候,把初始确定的一组网页链接作为浏览的起始地址,在获取了相关网 页并抽取页面中出现的链接之后,通过一定算法决定下一步要访问哪些链接;同 时,机器人将已经访问的页面存储到自己的页面数据库里去。之后,机器人则继 续重复这个访问过程,直至结束。在决定访问链接顺序的过程中,最常见算法有: 深度优先、广度优先、有限深度广度策略。 当机器人访问完网页并将其内容和地址存入网页数据库以后,就要对网页数 据建立索引。索引模块总的来说是通过分析获取的网页,去除网页h t 肌文档中 的干扰信息( 如h t m l 等语言的标志符号等) ,将文档中包含的有用信息抽取出来, 并记录每个字词的出现网址及相应位置,最后将结果存入索引数据库。索引数据 库实际上就是一个很大的信息查询表,上面记录某个特定字词在互联网上出现的 一组位置信息。对于英文是以单词为语言的基本单位,因此英文搜索引擎建立索 引一般采用的都是词表法,即首先建立一个词表,然后将对应单词的出现位置记 录下来。而在检索的时候,就是以这些词语作为检索入口,并通过位置匹配可以 实现多个词语的组合检索。但对于中文搜索引擎来说,由于中文的基本单位是汉 字,因此在最底层往往采用的是字表法。和词表法相似,首先需要建立一个汉字 字表( 一般采用g b 2 3 1 2 汉字集) ,然后对于网页中出现的汉字均记录在相应的字 表项内。当检索的时候,采取字索引之间的位置匹配完成词语的检索。为了提高 检索速度,一般还会在字索引的基础上建立一些词索引,词索引的建立通常是根 2 基于神经网络的元搜索弓l 擎 据用户的提阀动态生成的,或者是建立一个常用词表,然后生成这些词的索引。 此外,无论是在英文环境下还是在中文环境下,搜索引擎的索引模块都会建立 个停用词表,以节省存储空间和提高检索效率。 作为检索模块,首先分析用户检索时给出的提问式,再访问搜索引擎已经建 立的索引,并通过一定的匹配算法,获得相应的检索结果并对对检索结果进行排 序,按照相关性的高低将结果有序地返回给用户。用户进行检索的时候,一般使 用的是纯自然语言词汇或者是自然语言词汇组成的布尔逻辑式。对于前者,可以 直接利用检索算法查询索引数据库中的词索引,或者是利用单字索引进行位置匹 配,以获得检索结果。而对于后者,则首先要分析检索式的逻辑关系,分别对检 索式中的各个检索词进行检索,最后再通过逻辑运算获得最终结果。 1 2 2 元搜索引擎 元搜索引擎( m e t as e a r c he n g i n e ) ,是一种调用其它独立搜索引擎的引擎, 亦称“搜索引擎之母( t h em o t h e ro fs e a r c he n g i n e s ) ”。在这里“元”( m e t a ) 为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、 控制和优化利用。 元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将 用户的查询请求同时转发给多个独立型搜索引擎进行查询处理,串行处理式元搜 索引擎将用户的查询请求依次转送给它调用的每一个独立型搜索引擎进行查询 处理。元搜索引擎是用户同时使用多个搜索引擎进行网络搜索的中介。检索时, 元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进 行汇集、筛选、删并等优化处理后,再以某种算法对独立搜索引擎的返回结果进 行排序,最后再以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻 机制,亦无独立的索引数据库,但在用户检索请求提交、检索接口代理和对独立 搜索引擎返回结果进行二次排序以及检索结果显示等方面,均需要有自己的技术 支持。例如提交检索请求时,根据源搜索引擎的特点和技术参数,指定优先顺序, 并对检索时间、检索结果数量进行控制;作为源搜索引擎的检索接口代理,元搜 索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点 的不同的源搜索引擎所认知和接受。 从结构讲,元搜索引擎主要包括w e b 服务器、结果数据库、检索式处理、w e b 处理接口、结果生成等几个部分,其中用户通过w e b 服务器访阀元搜索引擎,而 元搜索引擎则通过w e b 处理接口访问其它外部的搜索引擎。 基于神经网络的元搜索引擎 寥圈 黧“。、由e 一童刍 口 。j j j j 、圈 1 2 3 人工神经网络 人工神经网络是通过计算机技术来模拟生物体中神经网络的某些结构与功 能,并反过来用于工程或其它的领域的一种技术。 人工神经网络又叫连接模型或者并行分布式处理模型。模拟神经网络处理信 息的方式,称为人工神经网络方法。人工神经网络方法是现在模拟大脑智能所采 用得主要手段。人们在对许多人类智能问题采用人工神经网络方法进行模拟时, 出于对不同问题的考虑,提出了许多针对某类问题有效解决的人共神经网络模 型。这些模型虽不尽相同,但其基本结构都是类似的。 任何一个神经网络模型都有许多处理单元( p r o c e s s i n gu n i t s ,又叫节点) 组成。每个处理单元都是生物神经元的抽象,它所具备的处理能力也很简单。在 信息处理中,每个处理单元可能表示某类模式的很小的类特征信息。每个处理单 元都从模型中其他单元接收输入信号( 只从外界接收输入信号的单元除外) ,并 对这些信号直行简单的处理,然后计算出一个输出信号值,这也正是一个处理单 元所具备的三个基本的处理功能:接收输入、对输入值进行处理、计算输出。神 4 基于神经网络的元搜索引擎 经网络模型的处理功能都是由这些简单的处理单元完成的。 x l 曩 x ! 勺、 、毗、 x 。 妒输 圈1 3 人工神经元示意图 一个处理单元的输入等于其他与之相连接的处理单元旌加于它的输入乘以 相应的权重之和,即有: n e t i = w i i o i 其中:n e t t 是处理单元u ,的输入;w 。,是处理单元u 。与u 之间连接的权重; o j 是单元u ,的输出,也是施加于处理单元u ;的输入值。 神经元的活跃规则可以用一个函数r 表示,也就是说以该处理单元当前的 活跃状态a ,( t ) 和输入n e t t 为自变量,通过函数f i 求得该处理单元u i 一个新的 活跃值a ,( t + 1 ) ,即有: t + 1 ) = f a j ( t ) ,n e t i ) 每个处理单元u ,都有一个输出函数f ;,该函数以处理单元u ;当前活跃值a 。( t ) 作为自变量,将其映射成一输出值o 。( t ) ,即有: o j ( t ) = ( a i ( t ) ) 把大量的神经元通过一定的拓扑结构连接起来就形成了人工神经网络。人 工神经网络是对生物神经系统的模拟,其信息处理功能是由网络的单元( 神经元) 的输入输出特性( 激活特性) ,网络的拓扑结构( 神经元的连接方式) 所决定的。 1 3 本文的主要工作 本文在比对了独立搜索引擎和元搜索引擎各自的优缺点的基础上,提出了元 搜索引擎存在的必要性。文章介绍了元搜索引擎的发展现状,并对目前元搜索引 擎采用的几种排序算法进行了分析,指出了其中的局限和不足:由于元搜索引擎 矿, x 基于神经网络的元搜索引擎 只能从标准搜索引擎那里获取返回的查询结果,无法获得其他与之相关的信息, 所以元搜索引擎在对返回结果进行排序时可用的信息是非常少的。为了提高中文 元搜索引擎的查全率和查准率,需要进一步挖掘返回结果中除了位置信息以外的 其他信息。在对返回结果进行中文分词,充分挖掘其语意信息基础上,本文提出 了一种基于神经网络的网页排序算法。该算法利用神经网络具有的模式识别能 力,使用神经网络对网页的相关性进行判断。文章详细介绍了该算法的原理及其 实现过程,并就在实现过程中出现的若干问题有针对性地提出了改进的方案。 目前国内对于元搜索引擎技术还处在研究阶段,至今为止还没有一种开放源 代码的中文搜索引擎。所以本文的附录部分列出了一些在开发基于神经网络的元 搜索引擎过程中实现的主要接口,其中有一部分接口是实现元搜索引擎的通用接 口,希望对有兴趣开发中文元搜索引擎的开发人员有一些借鉴和参考的价值。 1 4 本文的章节组织 第一章绪论的主要介绍了本文涉及到的基本概念及相关背景知识。 第二章首先介绍了独立搜索引擎在发展过程中面临的一些困难,并由此引出 了元搜索引擎存在和发展的意义。之后分析了元搜索引擎的发展现状,并就目前 元搜索引擎普遍采用的位置排序算法的局限性展开了讨论,指出了挖掘返回结果 除位置信息以外其他信息的必要性; 第三章提出了一种建立在中文分词,充分挖掘查询结果语意信息基础上的基 于神经网络的网页排序算法; 第四章介绍了基于该种算法的中文元搜索引擎系统的设计与实现,详细介绍 了基于神经网络的元搜索引擎从提交用户请求、获取返回结果到对结果进行的二 次处理的实现过程。 第五章总结了本文所作的工作并对中文元搜索引擎的发展前景做出了展望。 文章的附录部分列出了在开发基于神经网络元搜索引擎过程中实现的一些 主要接口,有一部分接口是开发元搜索引擎的通用接口,有一定的参考价值。 6 基于神经网络的元搜索引擎 第二章独立搜索引擎与元搜索引擎 在信息时代,网络信息膨胀的速度远远超过了搜索引擎检索范围的扩张速 度。在这样的背景下独立搜索引擎在发展的过程中难以避免地出现了信息覆盖 率低下以及网页数据库信息难以及时更新维护等瓶颈,定位于解决独立搜索引擎 的不足,元搜索引擎诞生于上世纪9 0 年代中期,元搜索引擎的出现在一定程度 上缓解了独立搜索引擎发展所面临的困境。 2 1 独立搜索引擎发展过程中出现的一些问题 2 l 1 信息覆盖率 用户都希望只使用一个搜索引擎就能够访问到网络上所有的信息,而不用为 得到更为全面的检索结果在不同的搜索引擎之间切换。但在信息时代,信息膨胀 的速度远远超过了搜索引擎检索范围的扩张速度。表2 一l 1 显示的是2 0 0 2 年2 月2 5 2 8 日期间对几个主要的搜索引擎1 0 5 0 条查询返回结果的信息覆盖率和有 效信息覆盖率的统计。从该表中可以看出最好的搜索引擎对于有效信息的覆盖率 也只有1 6 ,随着互联网的飞速发展这个问题将变得越来越突出,这基本上便是 元搜索引擎产生的初衷。从理论上讲,元搜索引擎能从根本上解决独立搜索引擎 信息覆盖率低的问题。元搜索引擎由于其可以同时调用多个独立搜索引擎以及能 够处理、利用独立搜索引擎返回的结果,所以人们把对更大范围网络资源进行检 索的期望落在元搜索引擎上。 表2 1 对一些主要搜索引擎信息覆盖率的统计 搜索引擎信息覆盖率有效信息覆盖率 n o r t h m i j g h t 3 8 31 6 0 s n 婶 3 7 11 5 5 a 1 t a v i s t a3 7 1 1 5 5 h o 嘲2 7 11 1 3 m i c 矗2 0 3& 5 l n f o e k1 9 28 0 g o o g l c 1 8 67 8 y a l i 1 7 67 4 e m i i e1 3 55 6 基于神经网络的元搜索引擎 l y s 5 9 2 5 e q m s c c k 5 22 2 单个搜索引擎的搜索能力将受到其覆盖网页的数量的限制。那些不能建立索 引的w e b 网页( 有时也称为“隐藏w e b ”,“深度w e b ”,“不可见w e b ”) 大概有 五千亿张,这个数量据估计是当前搜索引擎数据库所能够记录的网页数量的5 0 0 多倍,i n t e r n e t 的巨大容量和w e b 网页快速变化的内容是导致许多搜索失败的 主要原因。 2 1 2 搜索精度 独立搜索引擎返回的大量查询结果中有相当比例相关性不高。虽然所有的搜 索引擎都会根据查询结果和查询字符字符串的相关性高低来对查询结果进行排 序,但这些排序算法通常都是建立在向量空间模型( v e c t o rs p a c em o d e l ) ,概 率模型( p r o b a b i l i t ym o d e l ) ,模糊逻辑模型( f u z z yl o g i c a lm o d e l ) 等信息 查询模型的基础上的,这些信息查询模型根据文档中查询字符串关键字的出现次 数来决定返回结果和查询字符串相似程度,然而查询字符串关键字的出现次数只 能大概的反应出查询结果和查询字符串的相关程度,关键字出现频率高并不一定 意味着对应的查询结果相关性就高。而且各独立搜索引擎在通常情况下更注重的 是如何尽可能快得处理用户的查询请求,所以会倾向于使用相对简单的排序算 法。所有这些都有可能导致查询结果的准确性不高以及对于查询结果排序的不合 理。 下图显示了使用g 0 0 9 l e 搜索“浙江大学”得到的查询结果,请注意图中标 示出的第六条和第八条结果:第六条查询结果实际上是浙江工业大学主页的链 接;而第八条查询结果仅仅是因为该链接的u r l 和浙江大学主页比较相似就被排 在了第一页。这样的查询结果显然是很难令人满意的。 8 基于神经网络的元搜索引擎 糕漂毫蒜掌蜮 舳螂开蝴榭押群牲蛐拳坩中共,酗,a 哺曲啊憎掌弗竞具丈皇雌召开- 囊召井莓慢护曩肇 业。雌事i 潍。 糟垤哪同i 畚诚默粕加碑鞲- 卿i 青蝌茸中心和,从- 晴茧i 瞄 工作岳议日蕾 召升- 漕蛐巨擎擎习中,叫蛔嗍沪鼍牲旺康事生羹习一 w m q 6c ,- m - 墨蔓幽一裳避 勰毁掣坠繇蔷:篇薏焉练蒸器器雾结果g l 工为主,文、理、法,蝇菥、髓、工- 哪、艺术、曩辩的蜱冒性薯l 嘣大学 ”w w 目“r d u a ,* lu 噬媳目- 爨嬲玉 貉醋端罄器蒜垒嫩煳导删,暑撕瞻饕睦学生i ;t 窭l 埘佴。l新江大学嚆台阿曼巴巴瞄资讯推出丈学生# 生指导安 i 一,幸蔓能黻学生i ;t 赛掰i 导o * 千盘f l 设为t 互i 联幂疵仉i n 舭n _ ”d 埽- 渐江丈苹t 业撑导埔鼻中心( 象 谴学生活动中一b b l ) 电骶幕方洼f f 真旧i 删i 警l 一 一h e “ue 血州盯# 疆舌辟熙- 毒点i 匦至 麴坠地女雾g 0 0 9 1 c 搜索。浙江大学的第八条结果 b n 融吲拍一函n 鼬埠f n d 舄叫嘶b d 鼬蝌h e n 1 1 w 蛐帆口n 黜埠。肿- 扯日血咖b n m 喀呻豳扣坤m 毗r i 吣 址d 越c i ,b “ 黜蜉。埘- 矗p 嘶曲。雠衅d 岫一 w 帆q 。如耐ul 磕一矗要妊嚣- 妻如互 溉配蚓黜 一 浙江太擘匠举甓的蕾一是由1 9 i 均冲童人自己倒扛的缸畦拳,门拳髓和1 珀龟月剖设的田立 沥扛太荦蔗擎嘲所擘控1 睥4 月升幡为黼舞科太荦l 蚋睥,晨籽丈学、抗卅太 学、新江农业大擎淑旺科大学台彝塌哪f t 量为新江大学臣学院一 u 札c “一1 8 k - 凹量蝗理型旦鲢 图2 1 使用g o o 翊e 搜索“浙江大学”得到的结果 2 1 3 信息的有效性 随着搜索引擎的搜索范围不断扩大和数据库体积的日益膨胀,网页数据库的 维护及更新难度越来越大,目前大多数的搜索引擎只能采用循环更新的方式对部 分索引进行页面重访和索引重建。网页数据库中的内容越多,循环更新一次所需 的时间就越长,也就会有更大比例的索引信息处于“无效”状态。 2 1 。4 网络机器人的限制 网络机器人是搜索引擎获取信息的主要工具。由于每个机器人线程都要消耗 一定的本地资源,因此并行的机器人数量就会受到限制。机器人要在很短的时间 里对w e b 服务器进行频繁访问,而服务器在一定时间内可以响应的请求数目是有 限的,因此机器人获取页面的速度也是有限制的。其次,机器人爬行过程中还会 因为无效链接或者相对链接组合有误等原因访问不到一些页面。此外,机器人在 对w e b 站点搜索的时候,还应该遵守机器人排斥标准( s t a n d a r do fr o b o t s e x c l u s i o n ) 。该标准是1 9 9 4 年由些机器人作者和热衷者指定的标准,规定了 机器人爬行w e b 站点时应该遵循的规则。以上这些因素都会使机器人的信息获取 能力受到定程度的限制。 2 2 元搜索的产生与发展 9 蕊于襻羟耀终瓣嚣搜索;l 摹 2 2 1 元搜索引擎的产生 当用户在阙上查找信息的时候,往往题使用一个捡索词在多个搜索引擎中重 复查我,激j 遨聚黎斡蚤夸狻立羧索弓l 擎戆镶惑覆盖率不麓鹁袋终。蒙然这样懿王 作完全可以由用户自己完成,但用户显然鼹希望能够只进行一次查询就可以获得 多个搜索引擎的查询结果,而不是枯燥繁琐的重复劳动,这就是元搜索引擎产生 瓣簸主要原因。它霹戳诖露簧诱阏多令狻立搜索弓| 擎煞粪谗一次完成,投丈提裹 了检索效率,节省了用户斡辩间。 目前元搜繁引擎发展势汰非常迅猛,仪在y a h o o 的“a 1 l i n 一0 n es e ”c h ” 列寝中就收跤了超过1 2 s 个元搜索弓 擎。目蘸姻扑主要的元搜索引 寄:耩e t a c r 鼎l e r ,p r o f u s i o 氇s a v v y s e a r e k 醚醐糖等,磷鬻蠹翡元攘褰弓l 擎瑟| l 较 少。此外中文元搜索引擎在检索功能、检索结果的排序、运行速度等方面较国外 咒搜索引擎尚肖定的差距。 国癸元搜索学| 擎一般郝蠢较寒戆套全攀秘查难事,倦是对孛文燃菠熬覆蔓率 弗不是很高,麟而在查准率上也受到很大的限制。影响遮些搜索弓l 擎凌准率的另 一个因素是国晦的许多网页制作和维护不规范,时常裔无用链接,像g o 0 9 1 e 这 类使用链接数来确定弼页优毙缀的搜索引擎往往得不到缀有用的结聚。强兹中文 元疆索弓l 擎一般都采臻篱荦瓣位置捧序冀法,透过提取羧索弓| 擎运髓维栗熬位置 信息进行排序,没有充分利用这些搜索引擎所包含的篡您信息,很难找到有用的 储息,但是剔爨效果不错,錾本上消除了激复项。由予诧搜索引擎需隳在记录的 翊关覆塞较少瓣壤嚣下透露搂序王终,滋攒:嚣援索霉l 蘩虽然爱够壤辍躞素魏蓬 阐,但是其性熊也受到了定的限制。 2 2 2 发震现状 自姨玛9 5 年华盛顿大学磺士生e r i cs e l b e r g 帮0 r e ne t z i 。n i 推出第一个 元搜索引擎m e t a c r 甜1 e r 以来,这一颓激的网络检索工具在短短十年左右的时 悯攫发展异常溅速,日翦国内秘可用的元援索弓l 擎已迭西神之多。 元蓬素弓l 蘩秘独立攘索霉l 擎最主要辩逸剃是元攘索孳l 擎逶豢没骞鸯己懿索 弓i 数据库。用户通过元搜索引擎提供的统界面实现对备独立搜索引擎数据库的 套询操作。元搜索引擎的这种层次结构使其具有以下优热; 1 ) 元搜索警l 擎毒班诖多令妥蠡嚣搜索等| 擎弱薅巍行粪溺撵终,鞭筵扩大了 信意检索的范圈,使得返回缩聚的信息覆簸率更高,为提高搜索引擎的查全率和 霞准率打下了良好基础; ( 2 ) 不同的源搜索引擎对予藏徉信息静籀关性判断裕崧着较丈的黩捌,元搜 索等l 擎可戳对它稻运霞熬缭巢送行分辑、院较、羯类黻满足用户酶黎求; 1 0 基于神经网络的元搜索引擎 ( 3 ) 元搜索引擎不需要直接维护庞大的索引数据库,这使开发者可以将重点 放在对查询结果的二次处理上; ( 4 ) 由于元搜索引擎处在用户与目标源搜索引擎之间,因此它可以跟踪用户 的查询需求,利用合适的缓冲策略提高用户的检索速度: ( 5 ) 元搜索引擎能够提高检索的准确率,并且可以对目标源搜索引擎进行评 估,以便选择最适合查询要求的目标源搜索引擎。 当然,元搜索引擎作为新兴出现的搜索引擎,其作为整体与独立搜索引擎相 比依然处于劣势,当前国外的元搜索引擎都努力地尝试延伸到不同的领域( 例如 d o g p il e 的w h i t ep a g e 和y e l1 0 wp a g e ) ,无论结果成功与否,只有通过这样不 断的尝试,不断地进行重新定位和调整,元搜索引擎才能找到较好的定位。 元搜索引擎是搜索引擎之后在信息检索方面的又一个研究热点。元搜索引擎 以其能涵盖较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检 索结果等诸多优异功能,从而越来越受到用户的青睐,它是以比较成熟的搜索引 擎技术为基础,并且对其进行了扩展和综合,己渐成为一种不可或缺的极具潜力 的网络检索工具。元搜索引擎在将来也会和搜索引擎相辅相成,共同发展,共同 为用户的信息检索服务。 2 3 面临的问题 2 3 1 返回结果的数量 在同样检索请求下,元搜索引擎检索返回的结果数量比独立搜索引擎少得 多,以下是一组对当前一些著名元搜索引擎与独立搜索引擎的对比研究得出的数 据: 表2 - 2 元擅童剐擎和独立搜囊弓i 擎;医园结果羲的对比 查询字符串 表格 搜索引擎 i n f o “n a 吐o n s r c h 衄0 b 加p i c l n 蛳抛6 a l 名称 g e s 曲a n g e m 柚站c m c n im p 舡1 鲫n 元搜索 d 唧c 1 1 8 9 09 48 9 引擎 m c 协c r a w 】h1 3 39 79 98 8 独立搜索g 咄1 3 1 ,0 2 ,s 9 0 o2 ,9 2 0 o 3 ,8 7 0 0 引擎 b a i d u7 5 ,6 呻1 8 9 0l ,9 1 0 04 。6 3 0 洼:表格中的数字是各搜索引擎的返回结果数 纂予捧经疆缝瓣嚣搜索;| 擎 从上表中可以发现以下阿个事实:第一,经元搜索引擎检索得出的结果数量 远远小于独立搜索引擎:第二,对应于不湖的检索请求,独立搜索引擎结果数量 鼹变动禳废远大于元擅索萼 擎( 通过魄较络柒数薰静方麓可褥) ,舔:元援索弓l 擎 的返回结果数凝较为稳定。 造成这样结果的原因怒元搜索引擎对予从各独立搜索弓l 擎孛遮潮朗结果避 荦j 严格斡数量隈翻,由手露援索弓| 擎包含瓣源独立羧索譬 擎数嚣圈定,医诧返霞 结果的数量较少,而且变化幅度也不大。对多个元搜潦弓i 擎的实证研究表明:元 搜索引擎只从镣个源独立搜索引擎接收数攫很小的返溺结果,从两释皴最终检索 络莱数量远运繇予独立搜索弓l 擎,镪秘,孙g p i l e 器接受5 i o 条扶各独立援索 引擎中返回的结果。 出现上述馈况并不难理解:一方西,装不严格限制从各独立搜索萼l 擎中返回 瓣数量,由予获各独立搜索弓l 擎返回的雏莱中有缀多鬟复的鼹页,加总后数量更 越极其庞大,那么在后处理( 去重、排序、聚类等等) 时,系统将面临麓大的负担, 域加了检索时阍:另一方面,若是采用限制从独立弓| 擎巾返回魏数黧驰方法,由 予鹾前元搜索羧为切实行的撞取方式簸是秩各独立搜索孳l 擎检索结采的前尼 祭抽取( 因为经过独立搜索弓l 擎的排序,前几条往往相必性比较高) ,而如果各独 立搜索弓l 擎技术魄较成熟的话,那么对予麓一个用户输入的检索表达式,其蘸凡 条返回结果应该有缀多是褥黼的,荐经逡元搜索弓f 擎酌去重,结果所剩无凡。最 终,元搜索必须对这两种情况进行权衡,但其最终数掇终将远远低于独立搜索引 擎的结果数,范围也往往较小( 因为普遍来说只是覆羲了各独立搜索萼| 擎戆兹几 条绪栗的范溺) 。 由于元搜索的返回结果数远远少于独立搜索引擎的返回结果数,躁此有人提 出了元搜索引紫鲍发最饽论说。认为元搜索萼| 擎产生驰翘衷便是为了弥毒 独立 搜索弓l 擎信怠覆盖率不商的不足,可是元搜索弓| 擎的遨闰结果如l l :之少,信息覆 藏率又怎么会躏? 如此一束岂不是和最初产生和发展元搜索引擎的平刀衷背道而 驰了吗,元搜索弓 擎存在的意义又俺在昵? 持这静鼹煮瓣入将信息骥覆率窝寄效 信息覆盖率混为谈,搜索弓l 擎固然是掰来搜索信怠的,但更重要的憝要能帮助 用户找到有用的信息。根据统计,用户通常只会关注搜索引擎返回的前二十条查 逡结果,戈其熬嚣卡条。在送释情况f 独立援索号l 擎成予上万豹返黧缜巢泰盛就 蕊予神经鼹终耱元搜索 l 擎 怒优势。事实上在返回结果数目相同的情况下元搜索引擎对于有用俗息的覆盖率 楚要高于独立搜索引擎的, 2 3 2 位置排序算法的局限性 由于元搜索引擎只能从标准搜索引擎服务器端获取返回的查询缡果,而无法 获褥箕经与之鞠关懿露怠,溺魏元霾索零l 擎在对返霾缭栗送行簿露辩溺静菇惑 怒非常少的。遮也是为什么目前国内外的滗搜索引擎一般都采用简单的位置排序 算法的原因。豳前比较常见的元搜索引擎二次排序算法有三种,最简单的一种是 将麸茎捶准搜索弓l 擎返强戆粪谗结果菝次撼捌,焉不皴 壬 蓦其它浆懿理汹1 。 r e 沁 圈 r 粕k r 稍埘k + 罔。 r 螂 h r i 峪l ,、 ij“| r 器q - m 巨丑一i l r 螂吣 - n _ _ - _ - _ _ w - _ _ - * 一 黜k 目一; r 俐l l t 酗2 2d 岍e 辱元搜索弓l 擎的捧序算法 这种排序策略的缺点是驻而易晃韵:由于前一个标准搜索弓l 擎的搜索结果整 髂舞 在器一个柩凑霾索孳| 擎黪羧索蘩表之蘸,莲筵藜一令独立莛索孳| 攀豹搜索结 聚列表中不相激或者相关憔不高的查询缔果会出现在聪个标准搜索引擎高度 相关的前几条搜索结果之前( 局部有序,撼体无序) 。注懑到用户通常只会浏览搜 索弓| 擎返回豹兹2 0 鞠条搜索结果,薮鼗这秘萎 痔繁酶缀毒哥瞧会使瘸产速潺 撺一些非常熏髅的信怠。这种处理方法严格意义上说殿能算是信慧的收集藉箩 1 3 蕊予褥经穗终鹊元搜索孳l 擎 列,并没有对备源搜索引擎的返回结果谶行二次排序。 另一种排序算法是建立敬对返回结果出现次数统计的基础上的。谯各源搜索 萼l 擎运瑟蘩采审窭瑗次数多翡记录藏被撩嶷瑟瑟,绞少滋凌翡整然簸褥在焘覆。 遗种排序算法的优点是去除干扰信息的能力非常强,因为如果一两条凭关信息被 菜个独立搜索弓l 擎放在了比较靠前的位鬣,另外一个搜索引擎也有可然把其他一 溅条无关售惠教在了攘靠藩豹位置,毽这逶令接素弓| 擎酃凳霹释不秘荚纪录捧在 了靠前位置的儿率是很小的,换句话说,这种排序策略将单个搜索引擎犯错误的 檄率降低为若干标准搜索引擎同时犯错误井且犯同样镄误的概率。缀驻然,后一 耱祷凝发生瓣懿会要枣褥多。毽是这耱捺痔葬法熬跌聚瞧是攫臻显瓣,当若干记 录的出现次数榴同时应当如何排序? 此外两条记录的出现次数相同也并不意味 麓这两条记录的相关性就一样。例如一条记录出现在各标准搜索引繁返回结果很 豢翡豹霞置,瓣舅一条记录粼壅瑗在比较霾螽虢位餮,缀然这嚣条记蒙出现懿次 数有可能相同,但相关性还怒有高低之分的。这种算法的描述如下: 设o c c u r r e n c e i 为第i 祭搜索结果的o c c u r r e n c e 麟性值,用于保存该条搜 索络巢静密瑰次数。嬲有o c c u r r e n c e ;= x 。,( j = l ,2 。,啦,其中n 为标准 搜索引擎的个数; 两= l ,懿莱i 条搜索绻暴东第i 令标准搜索 l 肇豹返嚣黎祭串; o ,如聚i 条搜索结果不在第j 个标准搜索引擎的返阐结果 注意裂x “瓣取壤嚣存魏静隽浼:竣豢等手l 或卷等予0 。爨戮x 。瓣篷设 便趄对第i 条搜索结果是否出现在第j 个标准搜索引擎邋回结果中的个定性的 判断,而定性俊通常是不具有可加性的。 嚣藜餮蠢鲣元搜索萼l 擎魄较霉禹魏二次撵痔冀法楚楚薹子提取逐鼙结暴在 结渠列表中所触位置信息的摊序算法,简称位置排序辣法。由于搜索引擎的返回 结果是按照相关性的商低排序的,所以仅仅考虑是否出现次数并没礴充分挖掘标 壤攘索雩l 擎熬返疆售惑。夔鬟撵痔冀法稷攒每条记录爨魑夔笾萋荧每袋返鏊缝栗 赋个权值。位鼍靠前的权假就高,位置熊后的权值自然就低。对记泶出现次数 的加权求和就相当于是该条记录在不同搜索引擎相关性驹叠加,显然这比仅仅统 嚣斑凌次鼗燹憨爱浃舀运霹续莱熬褪关彀瓣离繇。 1 4 厂j 、l 基于神经网络的元搜索引擎 当然,位置排序算法也是有问题的。因为一条返回结果的相关性不仅仅取决 于它所在的位置,同样也取标准搜索引擎的排序算法以及用户输入的查询字符串 s e a r c hq u e r y 。不同的搜索引擎采用的排序算法不同,返回结果的相关性分布自 然也不尽相同。对相关性分布影响最大的还是用户输入的查询字符串,例如当用 户输入的是热门词汇时,与之相关的网页会非常多,搜索引擎返回的高相关性查 询结果也会很密集;反之,倘若用户要查询的是很生僻的信息,那么与之相关的 网页就会很少,返回结果中可能只有前几条是与之相关的。总之返回结果的相关 性分布不仅是所在位置的函数,更取决于不同搜索引擎的排序算法和用户输入的 查询字符串,而通常情况下位置排序算法中记录所在的位置和权值之间的映射关 系是固定的,并不能适应动态变化的查询情况,这也正是位置排序算法的局限性。 综上所述,位置排序算法通过提取搜索引擎返回结果的位置信息进行排序, 并没有充分利用这些返回结果所包含的其它信息。为了提高中文元搜索引擎的查 全率和查准率,有必要迸一步挖掘返回结果除了位置信息以外的其他信息。本文 提出基于神经网络的网页排序算法正是为了解决目前元搜索引擎在进行排序时 可用信息不足的问题。该算法对返回结果进行了中文分词,充分挖掘其语意信息, 为之后的排序操作拓展了空间。 2 4 发展趋势 元搜索引擎虽然可以实现多个搜索引擎的并行检索,但由于它吸纳了不同搜 索引擎的共性,而忽略了其个性,因此在检索功能上元搜索引擎没有单一的搜索 引擎那么灵活,一些搜索引擎可以实现的特色检索功能( 如g o o g l e 的网页定位检 索) 却无法在元搜索引擎中再现。但不能因此而忽视了元搜索引擎存在的价值, 元搜索引擎通过统一的检索框和检索策略转换方式实现对不同地域、不同国家的 搜索引擎的集成和组织,为万维网信息资源的整合提供了一个比较成功的模式。 可以预见中文元搜索引擎的发展将呈现以下趋势:元搜索引擎作为网络资源整合 的重要方式将在数字图书馆建设和异构数据库的跨库一体化检索方面发挥重要 作用:中文元搜索引擎也将朝多语种、搜索功能更全面的方向发展:一条龙式的网 络信息检索服务将成为中文元搜索引擎与数字图书馆对接、合作的重要形式:此 外,中文元搜索引擎在分类主题一体化、专业元搜索引擎和专题元搜索引擎发展 方面以及如何通过元搜索引擎的服务提升经济效益和社会效益方面将有广阔的 发展空间和前景。 蕊予神经网络的嫁搜索号l 擎 第三章基予神经网络的网页排序算法 由于元搜索引擎只能从标准搜索引繁服务器端获墩返回的查询结柒,无法获 得矮他与之相关的信息,所以冗搜索引擎程对返回结果进行二次排序时可用的信 息楚j # 常少豹。为了提高中文元搜索弓| 擎懿奁全率和鸯准率,有必要避步挖掘 邋滔结采除了簸鹫信息豉箨的其德信惫。本章提出了一种罄子神经弼络的瘸页簿 序算法。该算法对从各标准搜索引擎返回的查询结果进行中文分词,究分挖掘其 诱懑信息,并襁此基础上利用神经网络的模式识别能力判断网页的棚关性。 3 1c c 4 神经网络 本章讨论的算法将使用种名为c c 4 m ”1 的神经网络对返回结果进行分类。 美手稿经阚络鹣鏊疆知莰毫缀奁篱一耄串分绍遥了,下鬻耱篱单奔缨一下e 醴 神经网络的襁必知识。c c 4 神经两络把一个= 元输入向濑j 映射为输出向量只 网络结构图如下: y l y 2 醮3 ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论