(计算机应用技术专业论文)基于lucene的数码产品垂直搜索引擎的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于lucene的数码产品垂直搜索引擎的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于lucene的数码产品垂直搜索引擎的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于lucene的数码产品垂直搜索引擎的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于lucene的数码产品垂直搜索引擎的设计与实现.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于lucene的数码产品垂直搜索引擎的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于l u c e n e 数码产品垂直搜索引擎设计与实现中文摘要 基于l u c e n e 的数码产品垂直搜索引擎的设计与实现 中文摘要 互联网作为人类最重要的信息来源,“信息迷航和“信息过载 已经成为日益 严重的问题。基于i m e m e t 的各类搜索引擎应运而生,并得到了迅速发展。传统的通 用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定的专业信息时,通用 搜索引擎系统有时就显得力不从心。面向主题的搜索引擎是一种分类细致精确、更新 及时的搜索引擎,正成为信息搜索技术研究中的研究热点与发展趋势。 本文以用户对数码产品搜索需求为研究背景,采用垂直搜索理念和技术,将国内 互联网上的数码产品网站中的数码产品信息内容作为采集对象,在开源的全文检索工 具软件包l u c e n e 的基础上,研究和实现了对数码产品信息具有专业化搜索功能的搜 索引擎。主要工作如下: 1 在对数码产品搜索业务分析的基础上,分析并确定了系统的基本功能需求和 最终目标,运用u m l 分析设计技术和系统三层架构思想,详细论述了系统的功能设 计和数据库设计以及系统数据备份策略。 2 对基于j a v a 的l u c e n e 全文搜索引擎所提供的索引功能和检索功能进行了深入 分析,以此为基础建立搜索引擎的索引器和检索器。 3 在设计的采集器中加入了主题预测算法,使其适合于主题搜索引擎。 4 对l u c e n e 中的原排序算法进行了改进,提高检索结果的质量。 5 以w n d o w s x p + t o m c a t + j s p + m y s q l 为开发环境,设计和实现了数码产品垂 直搜索引擎核心模块。 实践表明,本文设计和实现的数码产品垂直搜索引擎的方案是切实可行的,系统 基本达到了预期的设计目标。 关键词;搜索引擎垂直搜索排序算法采集器l u c e n e 作者:殷卫霞 指导老师:龚声蓉 a b s t r a c t1 1 1 el u c e n e b a s e dd i g i t a lp m d u c tv e r t i c a ls e a r c he n g i n e t h e d e s i g na n di m p l e m e n t a t i o no f l u c e n e b a s e dd i g i t a l p r o d u c tv e r t i c a ls e a r c he n g i n e a b s t r a c t n o w a d a y s , i n t 咖e th a sb e c o m ea ni m p o r t a n ti i l f 0 肋a t i o nr e s o u r c e h o 、e v e r , i n f 0 珊a t i o nf o n r c s s 锄di i l f o 锄a t i o no v e r l o a dh a v eb e c o m e 锄i n c r e a s i n g l ys e r i o u s p r o b l e m v 撕o u s h t e m e t b a s e di i l f o 肋a t i o ns e a r c he n g i n ee m e 玛e d 锄dh 嬲b e e n d e v e l o p i n gr a p i d l y a l t l l o u g hg o o g l e ,b a i d u 锄do t h e rs e 甜c he n g i n e sa r ev e d rp o w e r 如l , w h e n 也e yl l s e 也ei n f b m a t i o nt 0 s e 黜c hf o rc e r t a i np r o f e s s i o n a l ,g e n e r a ls e a r c h e n g i n e s ,t l l e yh a v es o m ei i l a d e q 珑l c i e s t h et o p i c s p e c i f i cs e a r c he n g i n ei sa l ( i n do fp r e c i s e c l a s s i f i c a t i o 玛r e n e 删p r o m p t a r c he n g i n e a n dt l l et o p i c - s p e c i f i cs e a r c he n g i n ei s b e c o m i n gt l l er e s e a r c hh o ts p o ta n dn l e 订e n do fd e v e l o p m e n t t h ep 印e rt a k e st l l e u s e 瑙d i g i t a lp r o d u c ts e a r c hd e m a i l d 勰t l l er e s e a r c l l i n g b a c k g r o u i l d ,o n l yt 1 1 e nu s e sm ev e n i c a ls e 删1i d e a 锄dt e c l l i l o l o g y ,s h a r e st h ew e b s i t e c o n t e n tb y 蛐gn l ed o m e s t i cd i g i t a lp r o d u c t 弱t l l ed i g i t a lp r o d u c ti n f o n n a t i o ns p e c i f i c a u t o m a t i c g 砒e r i n go b j e c t ,a n dr e a l i z e st 1 1 en 咖r kv i d e os e a r c h 丘m c t i o n i i lo r d e rt 0 r e a l i z em ed i g i t a lp r o d u c ti i l f o m a t i o n 如l lt e x tr e t r i e v a l ,t 1 1 es y s t e ma l s o a _ b s o r b st l l e l u c e n e 旬l l t e x ts e a r c he n g i n et or e a l i z ct l l es y s t e m 如l l t e x ts e a r c h a i l dt h em a i l lw o r ki s 嬲 f o l l o w s f i r 鸭o nt l l ef o u i l d a t i o no f t n es y s i e mm n c i l o nq e m 锄q 踟g o 龇,m ep 印e r 唧儿z e sm e u m l 锄a l y s i sd e s i 印t e c h n o l o g y 锄ds y s t e mt l l 】僦:o v e f h e a ds y s t e ma r c l l i t e c t u r c ,a i l dm e s y s t e m 缸1 c t i o n a ld e s i 皿a n dc 删e so nt l l ed e t a i l e de l a b o r a t i o nt 0t l l e 幽:油勰ed e s i 口粥 、e u 嬲t l l es y s t e md a t ab a c i a j p 蛐嘣e g y s e c o n d ,t 1 1 ep a p e r e s t a b l i s l l s 廿1 et o p i c - s p e c i f i cs e a r c he n g i n ei n d e x i i l g 锄dr e t r i e v a l d e v i d e ,o nt h eb 嬲i so fa i li n d e p t ha l l a l y s i so ft h el u c 黜l e 向l l - t e x ts e a r c he n g i n ep r o “d e d b yi n d e x i n ga n ds e a r c l l i n gf e a _ t i l r e s 删r d ,t h ep 印e ra d d st l l et h e m eo ft l l ef o r e c a s ta l g o r i t h mi nt h ed e s i g no ft h ec o l l e c t o r , a 1 1 dm a k e si ts u i t a b l ef o rt l l et o p i c - s p e c i f i cs e a r c he n g i n e f o u n h ,i m p r o v i n gm eo r i g i n a ls o r t i n g 柏g 耐t l l i i lt 0e 1 1 1 1 觚c em eq u a l n yo fs e a r c h r e s u l t s f i n a l l y ,t h es y s t e md e v e l o p m e n te n v i r o n m e n ti sw i n d o w s x p + t o m c a t + t 0 m c a t + j s p + n 1 1 1 el u c e n e b a s e dd i g i t a lp r o d u c tv e n i c a is e a r c he n g i n e a b s 廿a c t m y s q l , t h ep 印e r g i v e st h ec o r em o d u l ed e s i g n 锄dr e a l i z a t i o no fn l ed i g i t a lp r o d u c t s v e r t i c a ls e a r c he n g i n e p r a c t i c es h o w st 1 1 a t ,t 1 1 ed e s 咖a 1 1 dr e a l i 嬲i o no ft h ev e n i c a ls e a r c he n g i n ef o rd i g i t a l p r o d u c t si nt h i sp 印e ri sf e a s i b l e ,t h es y s t e mh a dm e tt h eb a s i cd e s i 缈g o a l k e yw o r d s :s e a r c he n g i n e v e r t i c a l s e a r c h r 卸k i n ga l g o t l l i n c r a w l e rl u c e n e l l i w r i t t e n b y y i n w e ix i a s u p e r v i s e db yg 0 n gs h e n g r o n g 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:隘 日期:硼、2 、 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:理塾兰燧日 翩签名:虹日期:迎u 型: 基于l u c e n e 数码产品垂直搜索引擎设计与实现 第一章绪论 第一章绪论 1 1 选题背景 随着网络技术的迅猛发展,互联网上的信息资源呈指数增加趋势,如何在海量信 息中及时、准确地搜索到所需信息,成为人们必须要解决的问题。针对于此,搜索引 擎技术应运而生。搜索引擎是一种用于帮助用户查询信息的搜索工具,它以一定的策 略在互联网上搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供 检索服务,从而起到信息导航的目的。 然而,随着信息急剧膨胀以及信息多元化的发展,使得传统搜索引擎需要采集、 索引、查询的内容不断扩大。因此,常常出现不得不在大量的无关信息中费力寻找所 需信息的情况。目前,对搜索引擎的首要关注点已经从如何找到更多的信息转向如何 快速找到准确、有用的信息。人们对获取信息的时效性、针对性、准确性等方面有了 更高的要求。针对于此,垂直搜索引擎技术应运而生。 垂直搜索引擎也称专业搜索引擎、专用搜索引擎或主题搜索引擎等,是搜索引擎 发展史上的一块里程碑。垂直搜索引擎具备有效的信息采集策略,索引更新周期大大 缩短,通常能在1 2 天内提供更新的网上专业领域信息查询,甚至能在数小时内更新 查询信息口5 1 。垂直搜索引擎面向某一特定的专业领域,专注于自己的特长和核心技术, 避免了通用搜索引擎搜索出的大量无关信息,提高了查询效率,使用户能够更迅速地 查询到自己所需的信息。垂直搜索引擎保证了对某一领域信息的完全收录与及时更 新,使用更有效的信息采集策略,索引的更新周期大大缩短,通常能在一天甚至数小 时内更新专业领域的查询信息。因此,垂直搜索引擎在提供专业信息方面有着通用搜 索引擎无法比拟的优势。此外,通过垂直搜索引擎,还能够把具有相同兴趣点的人们 集中在一个“社区”内,及时集中提供各种专业资源的查询。同时垂直搜索引擎站点 也提供了一个相互交流、共享经验和教训、展望行业发展前景的机会和平台,双向交 流和互动性明显,因此受到越来越多的用户的欢迎。 1 2 研究意义 搜索引擎为在具有海量信息的互联网上查找信息资源提供了方便。但是,随着信 第一章绪论基于l u c e n e 数码产品垂直搜索引擎设计与实现 息多元化的发生和用户对搜索引擎提出的个性需求,面向所有用户的通用搜索引擎已 经不能满足特定用户的更深入、快速、及时的查询需求。而且,通用搜索引擎对于硬 件的需求也使得要及时更新互联网上全面的信息是非常困难的。 针对这种情况,需要一个专注于特定领域的、对硬件要求较低、数据全面深入、 更新及时的垂直搜索引擎。面向特定领域的搜索技术已经成为近几年来搜索技术研究 中较热的方向,针对某一领域、某一特定人群或某一特定需求建立的搜索引擎称为垂 直搜索引擎,因其针对性强、目标明确和查准率高而成为获取专业信息的重要工具。 目前常见的垂直搜索研究包括面向科学研究专业领域的、面向图片和音乐下载的等 等。 当前,数码产品的应用越来越广泛,品种越来越多样化,已成为人们生活中重要 的组成部分。通常所说的数码产品包括手机、数码相机、m p 3 、数码随身听等。数码 产品的特点是种类、品牌、系列繁多,很多数码产品之间存在着不是很明显但人们很 关心的差异。比如功能、性能、价格等方面的差异,而且普通用户在选购时往往不了 解产品的详细信息。虽然当前存在着很多的数码产品网站,但没有一家网站能够做到 对数码产品信息收录足够完全、详细。使用通用搜索引擎以品牌、系列等为关键字搜 索数码产品时,会出现大量的无用信息,难以帮助用户进行了解与选择。针对这一实 际问题,本文在分析各种搜索引擎的基础上,根据用户搜索数码产品相关信息的需求, 提出了一个基于l u c e n e 的面向数码产品的垂直搜索引擎方案,并把该方案付诸于实 现。 1 3 本文的研究内容 本文针对数码产品信息搜索领域,以数码产品网站的页面为采集对象,分析设计 并实现了基于l u c e n e 的数码产品垂直搜索引擎系统,专门为用户提供对数码产品的 信息搜索服务。本文的主要研究内容包括: ( 1 ) 面向特定领域的网络爬虫程序设计 垂直搜索引擎的页面采集不同于通用搜索引擎,本文面向数码产品领域,依照垂 直搜索引擎的特点,设计了垂直搜索引擎的网络爬虫程序。 ( 2 ) 对l u c e n e 检索结果的排序算法进行改进 由于检索结果的排序对搜索引擎来说十分重要,用户往往只对最前面的几条结果 2 基于l u c e n e 数码产品垂直搜索引擎设计与实现第一章绪论 感兴趣,如何在众多的结果中将重要的结果排在前面,是搜索引擎研究的重点之一。 改进后的排序方案除了原l u c e n e 考虑到的词频因素还考虑了:网页文档的链接情况、 网页的响应时间、正文大小及用户查询关键词在文档特殊位置的情况等。 ( 3 ) 面向数码产品垂直搜索引擎系统设计 在深入分析面向数码产品的垂直搜索引擎系统所需要的关键技术,包括网页信息 的发现与搜集、对信息进行提取和组织、建立索引库和用户检索后,通过面向对象的 设计与建模语言u m l ,给出了系统的总体结构及各功能模块的具体划分。 ( 4 ) 面向数码产品垂直搜索引擎系统开发 探讨了基于l u c e n e 的面向数码产品垂直搜索引擎系统的开发方法,在 w m d o w s ) o + t o m c a t + j s p + m y s q l 的开发环境下实现系统设计的功能。 1 4 本文的结构安排 本文各章节结构安排如下: 第一章简要介绍搜索引擎基本情况和其研究现状,并阐述本文的研究内容和各章 节的安排。 第二章全面介绍了搜索引擎的发展现状、分类及性能评价指标,深入分析了搜索 引擎的工作原理,详细介绍了垂直搜索引擎研究中的关键技术,重点对网络爬虫技术 和结果排序技术进行了分析。 第三章介绍了开源全文检索引擎l u c e n e 的基本概念、实现机制及其检索结果排 序算法的不足之处,提出了一种改进的检索结果排序算法。 第四章分析了面向数码产品的垂直搜索引擎的功能需求,给出了基于l u c e n e 垂 直搜索引擎系统的总体结构、数据库设计、主要功能模块的设计等。 第五章在前面设计的基础上,选定系统开发环境和开发工具,使用j a v a 语言编 程实现系统中的相关算法和模块具体功能。 第六章对本论文的研究工作进行了总结,对未来的研究工作进行了展望。 第二章数码产品垂直搜索引擎相关技术基于l u c e n e 数码产品垂直搜索引擎设计与实现 第二章搜索引擎相关技术 垂直搜索引擎在通用搜索引擎的基础上由用户的新的需求发展而来,其基本工作 原理相同,主要不同点在于原始网页信息的采集过程。本章主要介绍搜索引擎的基础 知识和相关技术。 2 1 搜索引擎概述 2 1 1 历史及发展趋势 搜索引擎【2 8 1 【2 9 1 是一种用于帮助i n t e m e t 用户查询信息的搜索工具,它以一定的策 略在i n t e m e t 中搜索、发现信息,对信息进行理解、提取、组织和处理,并为用户提 供检索服务,从而起到信息导航的目的。 历时1 0 余年,当前使用的搜索引擎经过三代的更新发展【l 】: 1 9 9 3 年2 月,6 个s t a i l f i o r d ( 斯坦福) 大学生想通过分析字词关系,对互联网上 的大量信息做更有效的检索,这就是e x c i t e ,后来曾以概念搜索闻名。1 9 9 4 年1 月, 第一个既可搜索又可浏览的分类目录m i n e tg m a ) 【y ( t r a d e w a v eg a l a x y ) 诞生,代表了 第一代搜索引擎的出现。这一代搜索引擎索引的网页数目一般少于l ,0 0 0 ,0 0 0 个,并 且极少重新搜集网页和刷新索引。限于技术和硬件条件,其检索速度也非常慢,一般 要等待1 0 秒甚至更长的时间。在技术上基本采用较为成熟的i r ( i n f o m a t i o nr e t r i e v a l ) 等,相当于利用一些已有技术实现的一个w 曲应用。1 9 9 6 年,出现了采用分布式方 案的搜索引擎,依靠网络爬虫抓取网页信息,网页搜索建立在超级链接分析技术基础 之上,大大提高了网页采集数量、索引规模和查询响应速度。第三代搜索引擎把“智 能化”、“人机交互 等技术融入其中,在网页相关检索、模糊查询、语音查询技术等 方面具备了较高水准,特定领域的垂直搜索才得以发展和应用。但搜索引擎的发展是 一个渐进的过程,很难将一个搜索引擎准备的定位为第几代搜索引擎。下面介绍几个 在发展史上有影响的搜索引擎: ( 1 ) 觚l l i e :1 9 9 0 年加拿大蒙特利尔m c g i l lu i l i v e r s 埘大学学生a l 锄e n n a g e 发明 的a r c l l i e 是所有搜索引擎的鼻祖【3 2 1 。当时万维网尚未出现,大量的文件散布在世界 各地的f t p 服务器中,查询起来非常不便,因此a l a l le m t a g e 想到了开发一个可以 4 基于l u c e n e 数码产品垂直搜索引擎设计与实现第二章数码产品垂直搜索引擎相关技术 用文件名查找文件的信息检索工具觚l l i e 。心e 1 1 i e 的工作原理与现在的搜索引擎已经 很接近,它依靠脚本程序自动搜索f t p 服务器上的文件,然后对有关信息进行索引, 供使用者以一定的表达式进行查询。用户必须输入精确的文件名搜索,然后心c l l i e 会告诉用户哪一个f 1 1 p 地址可以下载该文件。 ( 2 ) m o o :目录型搜索引擎的典型代表。1 9 9 4 年4 月,斯坦福大学杨致远和d a v i d f i l o 共同创办了m o o 。y 址0 0 属于目录型搜索引擎,其数据是依靠人工筛选、手工 输入的,且评判标准十分严格。用户可以通过两种方式在呦o o 上面查找信息,一是 通常的关键词搜索,一是按分类目录逐层查找。以关键词搜索时,网站排列基于分类 目录及网站信息与关键字串的相关程度,包含关键词的目录及该目录下的匹配网站排 在最前面。以目录检索时,网站排列则按字母顺序。 ( 3 ) g o o g l c :g o o g l e 源自于斯坦福大学的一个小项目b a c k r u b 。1 9 9 5 年岫p a g e 开始学习搜索引擎设计,于1 9 9 7 年9 月1 5 日注册了g o o g i e e o m 的域名,1 9 9 7 年底, 在s e r g e yb 血和s e o t th a s s a l l 、a l a i l s t e r e i n b e 玛的共同参与下,b a c h r u b 开始提供演 示版。1 9 9 9 年2 月,g 0 0 西e 完成了从a l p h a 版到b e t a 版的蜕变。g o o g l e 公司则把 1 9 9 8 年9 月2 7 日认作自己的生日。g o o g l e 提供常规及高级搜索功能。在高级搜索中, 用户可限制某一搜索必须包含或排除特定的关键词或短语。该引擎允许用户定制搜索 结果网页所含信息条目数量,可从1 0 到1 0 0 条任选,提供网站内部查询和横向相关 查询。g o o 硝e 还提供特别主题搜索。 随着信息量的急剧增加和新的应用模式的出现,现有的搜索引擎也面临着新的挑 战。总的看来,搜索引擎技术的未来发展趋势将主要体现在以下几个方面【2 j : 挖掘与检索的结合:数据挖掘技术用来发现数据中隐含的规律和趋势,以帮助 制定决策、预测趋势。发展面向互联网的数据挖掘技术,把它与检索技术相结合,将 会提供一个全新的、方便的、内容丰富知识的学习和问题求解的途径。 多种信息类型的搜索:虽然网络上同时并存着多种格式的文件,但搜索引擎仅仅 采集其中主要的几种,搜索的范围有限。人们期待着基于内容的多种格式文件的搜索 技术的成熟。 与用户的交互:与用户充分交互的目的是为了能给出更精确的搜索结果。系统应 能够根据某种规则来区分用户群体,确定其基本需求特征,从而将用户的需求更多地 融入到系统的开发和训练中。用户对搜索结果的反应也可以作为反馈由系统收集起 第二章 数码产品垂直搜索引擎相关技术 基于l u c e n e 数码产品垂直搜索引擎设计与实现 来。 个性化的支持:提供个性化服务是市场发展的必然趋势。搜索引擎需要提供既方 便又安全的用户信息获取和保密机制,实现针对用户搜索和用户反馈的学习算法,使 用户可以对服务和资源进行裁剪,以更贴近于需求,最终能够向用户提供完善的个性 化服务。 自然语言查询:自然语言处理长期以来一直是人工智能研究中的一个核心研究领 域。对自然语言的正确理解是实现搜索的准确描述和保证搜索结果高度相关性最重要 的解决途径,同时也是建立基于互联网知识库的最关键技术之一。 本地化搜索:目前世界上著名的搜索引擎大多都在美国,是以英语为基础的,完 全按照他们的思维方式和观点来搜集和检索资料,这对于全球不同国家的用户来说显 然是不适合的。各国的文化传统、思维方式和生活习惯不同,在对网站内容的搜索要 求上也就存在差异。因此,搜索引擎必须实现本地化,使搜索结果符合当地用户的要 求。 2 1 2 搜索引擎分类 根据搜索引擎所采用的基本工作原理的不同,从技术的角度大致可把它们分为 三类【3 】: ( 1 ) 目录式搜索引擎 目录式搜索引擎首先通过人工将因特网中资源服务器的地址收集起来,按资源 的类型分成不同的目录,再一层层地进行分类。查询信息时按照分类目录层层查找, 直到找到所需信息。由于其索引库的构建是由人工完成的,信息分类明确,导航质 量高,方便用户检索,搜索结果有较高的参考价值。目录式搜索引擎一般提供目录 浏览服务和直接检索服务。但由于采用人工的方式抓取、辨别网上信息,依靠建库人 员的知识建立分层目录,并将采集、筛选后的信息分门别类,因此,索引库的更新和 维护主要依赖于人工,维护工作量大,难以及时更新。 ( 2 ) 基于网络爬虫的搜索引擎 网络爬虫( s p i d e r 、r o b o t 或c r a w l e r ) 是专门用来搜集因特网上各种文档信息的 智能程序,具有独立工作和决策的能力,能自动地在因特网上搜索爬行,并将搜集的 信息返回给服务器。c r a w l c r 往往从某个初始u i 也地址出发,根据u u 中指向其它 6 基于l u c e n e 数码产品垂直搜索引擎设计与实现第二章数码产品垂直搜索引擎相关技术 u r l 地址的超链接而跳到其它的网页,进而不断地深入和扩展,基本上遍历整个网 络。索引器将服务器获得的信息建立索引以备用户查询。检索器对用户的查询请求在 索引中查找相关内容,按照某种排序规则给出检索结果。基于网络爬虫的搜索引擎一 般要定期访问大多数阻前搜集的网页,刷新索引,以反映出网页的更新情况,去除过 期的死链接,及时将网页内容变化情况反映到索引中使用户能够获取最新信息。所以 基于网络爬虫的搜索引擎可以建立并维持较大规模的索引库,具有信息量大、更新及 时、无需人工干预等优点。但由于它自动从互联网上收集数据并返回到本地服务器中, 容易使索引数据库过于庞大,也会加重网络和被访问的w 曲服务器的负担。此外, 此种搜索引擎的检索结果会返回大量的相关信息,查全率较高但查准率较低。信息搜 寻算法的选取和设计会直接影响到搜索引擎的工作效率。索引数据库的不断膨胀也会 产生很多技术难题。 ( 3 ) 元搜索引擎 元搜索引擎又叫集合型搜索引擎,是将现有的多个搜索引擎作为一个整体,为用 户提供一个统一的查询界面,用户的查询请求由元搜索引擎根据知识库中的信息,转 换为多个搜索引擎所能识别的格式,然后分别发送给各个搜索引擎,由这些搜索引擎 完成实际的信息检索,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,进 行比较分析,合并冗余信息,以一定的格式返回给用户【2 6 】。因此,严格来说元搜索引 擎并不是真正的搜索引擎。元搜索引擎本身并没有存放网页信息的数据库。元搜索引 擎的最大优点是能同时查询多个搜索引擎的数据库,查全率高。但由于元搜索引擎中 各个搜索引擎的检索机制和支持技术不同,因此各独立搜索引擎的检索结果可能相差 很大,检索结果的准确率较低。 2 1 3 性能评价指标 对搜索引擎的性能评价有很多指标,其中最主要的是查全率、查准率、响应时间、 更新速度和死链比率【4 】。 ( 1 ) 查全率 搜索引擎查全率是指检索结果中的相关信息和搜索引擎数据库中相关信息的比 值。若某个搜索引擎的查全率太低,则该搜索引擎的使用价值就不大。因为用户使用 它难以得到真正需要的信息,或者得到的信息面过于狭窄。 第二章 数码产品垂直搜索引擎相关技术 基于l u c e n e 数码产品垂直搜索引擎设计与实现 ( 2 ) 查准率 搜索引擎查准率即检索结果中相关信息与检索总结果的比值。查全率与查准率达 到一定比值时,查全率升高必然降低查准率,反之亦然。在对搜索引擎进行评价时, 应以该搜索引擎所服务的主要用户的需求为标准。一般来说,用户往往更强调查准率 的提高。但无论是强调查全率还是查准率,搜索引擎都不能忽视网络上较有价值的相 关内容。 ( 3 ) 响应时间 响应时间是指从用户提交检索请求到搜索引擎返回检索结果的时间间隔,包括进 入搜索引擎的等待时间和得到查询结果的等待时间。它对用户是否选择使用某个搜索 引擎起着重要作用。响应时间不仅取决于搜索引擎本身的响应速度,在很大程度上还 取决于用户的网络设备、网络状况等外部因素。因此,对各种搜索引擎的响应时间做 比较必须在相同的时间、相同的软硬件环境、相同条件的检索请求下进行才有意义。 ( 4 ) 更新频率 因为用户通过搜索引擎得到的检索结果并非直接从网页上实时获取,而是从搜索 引擎的索引库中获取的,所以搜索引擎索引库的更新频率直接影响到用户所获取的信 息是否较新。由于各网页的更新不是同步进行的,使得搜索引擎索引数据库的更新更 加复杂,过时的信息要及时删除,但对于具有较长时间的使用价值且没有相应的新内 容补充进来的信息应做适当保留。 ( 5 ) 死链比率 死链比率即搜索引擎检索结果中无效链接所占的比例。因为人们通常是使用搜索 引擎找到所需的网络资源,之后通过搜索引擎列出的链接来访问此项资源,因此死链 比率成为评价搜索引擎性能的一个重要指标。显然,死链比率在很大程度上取决于索 引库的更新频率,并在一定程度上影响到查准率。 2 2 搜索引擎工作原理 2 2 1 基本结构及原理 搜索引擎主要是指那些使用网页爬行程序,按照一定的策略将w r e b 文档信息采 集到本地数据库,然后对这些网页进行自动分析并建立索引数据库,进而对用户提出 的检索请求在数据库中进行搜索,找出匹配的文档和链接,返回给用户的网络软件f 5 1 。 8 基于l u c e n e 数码产品垂直搜索引擎设计与实现第二章数码产品垂直搜索引擎相关技术 搜索引擎一般由信息采集、建立索引库和查询接口三部分组成,工作流程如图 2 1 所示,包括网页信息的发现与搜集过程、对信息进行提取和组织、建立索引库过 程和用户检索过程。 图2 1 搜索引擎基本组成 ( 1 ) 信息采集 信息采集包括人工采集和自动采集两种方式。人工采集由专门信息人员选用和跟 踪有用的w r e b 站点或页面,并按照规范方式进行分类标引并组建索引数据库。它的 缺点是w r e b 覆盖率比较低,同时不能保证及时更新信息。自动采集是通过网络爬虫 按照一定规则对网站和网页自动搜索、采集和标引网络上众多站点和页面,从而实现 对丰富和迅速变化的网络资源的跟踪与检索。因为人工采集方式是基于专业性的资源 选择和分析标引,所以保证了所收集的资源质量和标引质量。但是它的缺点是成本高、 搜集的信息量少、不够全面。目前,很多搜索引擎采取了自动方式和人工方式相结合 的形式,以自动采集方式为主,既保证了信息的准确性又保证了信息的全面性。一个 典型的网络爬虫工作的方式,是查看一个页面,并从中找到相关信息,然后再从该页 面里的所有链接出发,继续寻找相关的信息,以此类推,直至遍历完整个网络。 ( 2 ) 索引库建立 索引库的质量直接关系到用户能否迅速、准确、全面地找到所需信息。同时,索 引库的建立和更新也必须迅速,对网络爬虫抓取的网页信息尽快地建立索引,保证用 户所能搜索到的信息的及时性。对网页采用基于网页内容分析和基于超链接分析相结 合的方法进行相关度评价,能够客观地对网页进行排序,从而尽可能地保证搜索出的 9 第二章数码产品垂直搜索引擎相关技术基于l u c e n e 数码产品垂直搜索引擎设计与实现 结果与用户的查询相一致。 ( 3 ) 用户接口 用户接口是用户与搜索引擎进行人机交互的接口,提供了检索功能和用户相关性 反馈机制。在查询输入界面中,用户按照搜索引擎的查询语法指定各种简单或者高级 的检索条件,在输出界面中,搜索引擎将检索结果展现为一个结构化的文档列表。主 要目的是方便用户使用搜索引擎,高效率的从搜索引擎中得到全面、有效、及时、准 确的信息。 2 2 2 采集器 当前的网页信息采集技术,主要依赖自动采集软件,即网络爬虫( c r a w l e r ) ,也 称网络机器人( r o b o t ) 、网络蜘蛛( s p i d e r ) ,利用w r e b 文档内的超级链接递归地访问 l o 基于l u c e n e 数码产品垂直搜索引擎设计与实现第二章数码产品垂直搜索引擎相关技术 图2 2 网络爬虫运行方式 新网页m 。其主要功能是自动从i n t e m e t 上的各w 曲站点抓取w 曲文档并从w 曲 文档中提取一些信息来描述该w 曲文档,为搜索引擎的数据库服务器追加和更新数 据,这些数据包括h 喇l 、标题、长度、文件建立时间、h t m l 文件中的各种链接 等。 网络爬虫的运行方式如图2 2 所示,从一组初始的u i 也集开始遍历,首先将一 个u r l 放入队列中,队列中记录所有将被访问的u i u 及访问顺序。网络爬虫从队列 中抽取一个u i 也,下载页面,记录该u r l 所指h 踟l 文件中所有新的也,并将 这些新的u r l 加入队列中。然后再以这些新的u i 也为起始点重复上述过程,直到没 有满足条件的新i j i 也为止。在遍历w 曲的过程中,通常将w ,e b 作为一个有向图来处 第二章数码产品垂直搜索引擎相关技术基于l u c e n e 数码产品垂直搜索引擎设计与实现 理,将每一个页面看作图的一个节点,将页面中的超级链接看作图中的有向边。因此, 可以使用有向图的遍历算法来对w e b 进行遍历。 2 2 3 索引器 w 曲页面被抓取回来后需要暂时地存储起来,进行索引分析,一般由页面存储器 和索引器来完成这些功能。具体说,页面存储器执行的是双重接口的功能:一是提供 接口供网络爬虫存储抓取到的页面,二是提供应用程序接口供索引器和分析器获取页 面。页面存储器的设计中需要考虑存储规模、访问模式和页面数据更新以及过期页面 的删除等问题。本文在这里只重点分析索引数据库的建立和标引技术: 网络爬虫将页面从w 曲上抓取回来并存储于页面存储器中后,分析索引软件对 这些信息进行自动分析和标引,建立可供查询的索引数据库。标引方法因不同的系统 而异,但大多数均采用自动标引技术。有的建立w w w 页面内容的全文索引,即对 w r e b 页面中的每一个单词进行标引;有的则从页面中按分类或特征对信息进行抽取。 这些分类或特征包括:网页标题、网址、链接、人名、机构名、地名和网页的前 2 5 或1 0 0 个词等。从查询的角度出发,可以将索引分为三类: ( 1 ) 词索引( 也称文本索引,t 僦i n d e 心 词索引即为w 曲页中的词建立倒排档索引。倒排档索引是在各种文本检索系统 中广为应用的方法,索引中的一条记录由一个词( 或称标引款目) 和它的地址信息构 成。但在w e b 环境下,词的地址信息往往不仅包括页标识符和词在页中的位置,还 包括关于词在页面中出现的其他信息,如是否以黑体出现( 带有 标识) ,是否作为 段落标题词( 带有 或 标识) ,是否出现在锚链文本( 锄c h o rt e x t ) 中等,因为词 的这些信息将影响排序算法中对词的权重的计算。 除了倒排档外,很多词索引还维护一个词典文件,其中列出索引中出现的所有词 以及词一级的统计信息,如一个词出现在多少个文档当中。这些信息也将在排序算法 中使用。 ( 2 ) 链接索引( 或称结构索引,l i l l ko r 咖c t u r ei 1 1 d e x ) 为了建立链接索引,所有采集软件访问过的w r e b 页被看作一张由节点和边组成 的有向图。图中的每个节点是一个w e b 页,节点a 到节点b 的一条有向边表示页面 a 指向页面b 的一个超级链接。链接索引就是对这张图的表示。 基于l u c e n e 数码产品垂直搜索引擎设计与实现第二章数码产品垂直搜索引擎相关技术 搜索算法中使用最多的结构信息是邻接信息( n e i g h b o r h 0 0 di n f o 咖a t i o n ) ,也就是 给定页面p ,检索出p 所指和指向p 的页面集。这些信息储存在邻接列表( a 由a c e n c y l i s t ) 中。当要查找与一个页面相关的页面时,则可以以邻接列表中存储的“姊妹页面 ( s i b l i n gp a g e s ) 信息为基础。 ( 3 ) 功能索引( u t i l i t ) ri 1 1 d e x ) 分析索引器构建的功能索引的数量和类型取决于查询器的特点和排序模块使用 的信息类型。比如说,如果查询器允许将查询限定于一个特定的站点或者一类站点, 那么在功能中需建立站点索引( s i t ei n d e x ) ,在域名和属于这个域的一组页面之间建立 映射。, 在建立索引之前,分析索引器通常还需要对页面进行一些预处理。预处理的主要 工作包括对词的处理、生成页面摘要和对页面的分类与聚类等。对词的处理主要是运 用自然语言处理的方法对页面进行词切分( 特别是在中文等无明显词分隔标志的语言 中) 、词性标注和功能分析等。生成页面摘要的目的是当一个页面作为检索结果返回 给用户时,同时提供页面摘要供用户对页面内容进行判断。页面的分类与聚类的目的 在于确定页面的主题范围,便于在词具有歧义时进行歧义消解。 2 2 4 检索器 检索器的功能是根据用户的查询条件在索引库中进行查询,进行文档与提问的相 关性评价,并对将要输出的结果进行排序。 在查询之前,查询器需要首先对用户提问进行特征化表示,抽取其中的主题概念 或其他属性,并利用与索引库相同的标识系统来表示提问中所包含的这些概念和属 性,将用户提问转化为一组提问词及其之间的关系表示,如形成布尔提问式,或者形 成由词及其权重构成的提问向量。在提问的处理过程中通常也需要运用自然语言处理 的方法对词进行切分、标注和消歧。 在完成了提问的转换后,查询器依据所采用的数学模型进行提问与文档的相关性 计算,并依据相关性计算的结果以及其他排序算法对输出结果进行排序。具体的数学 模型和排序算法根据系统设计思想不同而有所差异。 2 2 5 用户接口 用户接口的作用是提供用户与搜索引擎之间的界面,帮助用户更方便、更高效地 第二章数码产品垂直搜索引擎相关技术基于l u c e n e 数码产品垂直搜索引擎设计与实现 使用搜索引擎查找信息。具体而言,用户接口实现的功能有;接收用户输入的提问; 将查询结果返回给用户。与这些功能相对应,在用户接口的设计中主要涉及两种技 术:第一是搜索请求的提交技术,包括同时支持简单查询和复杂查询、支持多语种查 询、提供完善的用户帮助系统、设计友好的用户查询界面等。第二是搜索结果的表现 技术,包括结果返回的形式( 网页显示还是e m a i l 返回) 、结果显示界面的设计( 格式、 色彩等) 、是否能自动将查询结果转化为用户提问使用的语种等。 2 3 垂直搜索引擎技术分析 垂直搜索引擎与通用搜索引擎在原理和系统结构方面基本相同,两者的主要区别 在于网络爬虫的爬行范围和网页信息处理深度两个方面。垂直搜索引擎的网络爬虫抓 取的信息主要来源于专业领域的行业站点,相对通用搜索引擎而言,采集的网页深度 较深。 垂直搜索技术主要分为两个层次:模板级和网页库级【6 1 。模板级是以针对网页进 行模板设定或者自动生成模板的方式来抽取数据,对网页的采集也是有针对性的采 集,适合规模比较小、信息源少且稳定的需求。模板级的优点是实施快速、成本低、 灵活性强,缺点是后期维护成本较高,且信息源窄、信息量小。网页库级信息抽取采 用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。它在信息源数 量、数据容量、检索容量、稳定性、可靠性上都是网页库搜索引擎级别的要求,和模 板级方式最大的区别是对具体网页不依赖,可针对任意正常的网页进行信息采集和信 息抽取。完全自动化,不用对具体网站事先生成模板,这就导致这种方式在数据容量 上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方 式不是对立的,这两者对于垂直搜索引擎来说是相互补充的。本文采用的技术主要是 模板级别垂直搜索引擎技术。 2 3 1 系统结构 垂直搜索引擎整体系统结构与通用搜素引擎基本相同,但其专业网络爬虫的实现 不同于通用搜索引擎。垂直搜索引擎系统结构如图2 3 所示: 1 4 基于l u c e n e 数码产品垂直搜索引擎设计与实现 第二章数码产品垂直搜索引擎相关技术 :图2 3 垂直搜索引孥系统结构 2 3 2 垂直搜索引擎的网络爬虫 垂直搜索引擎与通用搜索引擎的网页爬行策略存在一个本质的区别,通用搜索引 擎采取有较大深度限制的逐页爬行的原则,对网站上深度小于某个给定值的所有的网 页进行分析,然后对网页建立索引放入数据库【8 】。垂直搜索引擎则根据系统对网页与 主题相关性的计算,采取一定的策略预测相关网页的位置,动态的调整网页爬行方向 使系统尽可能的在与专业相关的网页集中的地方爬行,对与专业相关度高的网站的搜 索深度较深,对此时采集到的网页进行分析。这一点是垂直搜索引擎的优势所在,它 节约了系统运行的硬件资源和网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论