(计算机科学与技术专业论文)旅游信息垂直搜索系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)旅游信息垂直搜索系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)旅游信息垂直搜索系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)旅游信息垂直搜索系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)旅游信息垂直搜索系统的设计与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机科学与技术专业论文)旅游信息垂直搜索系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士论文旅游信息垂直搜索系统的设计与实现 旅游信息垂直搜索系统的设计与实现 摘要 随着i n t e r n e t 的迅速发展,网络资源日益丰富,传统的搜索引擎技术不加区 分的从网络上收集网页,产生了大量用户不需要的无关信息,大大影响了用户的 使用,为了更精确更迅速的获得用户关心的相关领域的信息,垂直搜索引擎技术 应运而生。垂直搜索引擎仅仅采集用户指定的、与某一特定主题相关的页面。 n u t c h 是一个刚刚诞生开放源代码( o p e n - s o u r c e ) 的w e b 搜索引擎。它使用 l u c e n e 作为索引和检索的模块,其工作流程包括网页搜集,预处理和检索模块, 具有与商用搜索引擎相同的工作流程,且其各功能模块相对独立,通过改造n u t c h 的相关功能模块,可以迅速搭建一个垂直搜索引擎。 本文的工作目标是构建一个基于垂直搜索引擎技术的旅游信息搜索网站,搜 索引擎部分是一个中文主题搜索引擎,因此,中文处理的问题与主题相关性的问 题是首要解决的重要问题。本文采用n u t c h 来构建基本搜索引擎架构,并修改了 n u t c h 的两个重要模块,网页搜集模块和中文分词模块,使其能够适应垂直搜索 的使用。 在此基础上,本文首先介绍了通用搜索引擎与垂直搜索引擎的不同,讨论了 通用搜索引擎的核心技术,以及垂直搜索引擎的技术特点,接着介绍了n u t c h 的 工作原理,在搜索模块中,本文采用了s h a r ks e a r c h 算法实现主题相关网页的抓 取;网页抓取下来后,使用向量空间模型进行主题相关度判定,将相关度低于一 定阈值的u r l 去除;使用在中文分词模块中,本文改进了n u t c h 基于单字切分 的分词方式,设计了一种新的词典机制,并将一种新的分词算法引入到分词模块 中。 随后,本文讨论了旅游信息搜索引擎的总体设计过程,包括手机客户端和 w e b 搜索引擎的实现过程。设计过程重点论述了需求分析、手机客户端和网站的 功能规划和总体结构、数据库设计等内容。 最后,对本文工作进行了总结,提出了今后的工作方向,并对垂直搜索引擎 的技术发展方向做出了展望。 关键字:垂直搜索引擎,n u t c h ,中文分词,主题相关度,爬虫 北京邮电大学网络与交换国家重点实验室 北京邮电大学硕十论文 旅游信息垂直搜索系统的设计0 实现 t h er e s e a r c ha n dr e a l i z a t i o no ft o u r g u i d ei n f o r 削u i o nv e r t i c a ls e a r c hs y s t e m a b s t r a c t w i t ht h eg r e a ti n c r e a s eo fi n t e r n e ti n f o r m a t i o n ,u s i n gt h et r a d i t i o n a ls e a r c he n 舀n e w i l lg e n e r a t eal o to fu s e l e s si n f o r m a t i o nt ob s e r $ b e c a u s ei tc o l l e c t sw e bp a g e s r e g a r d l e s so ft h e i rd i f f e r e n c e s i no r d e rt og e tt h ea r e a r e l a t e di n f o r m a t i o nt h a tp e o p l e c a r e dm o r ep r e c i s e l ya n dm o r eq u i c k l y t h et e c h n o l o g yo fv e r t i c a ls e a r c he n g i n ei s d e v e l o p e d t h ev e r t i c a ls e a r c he n g i n ej u s tc o l l e c t st h ep a g e st h a tp e o p l ea s s i g n e da n d s p e c i a lt h e m er e l a t e d n u t c hi san e w l yd e v e l o p e do p e n - r e s o u r c ew e bs e a r c he n g i n e i tu s e sl u c e n ef o r t h ei n d e xa n ds e a r c hm o d u l e t h ew o r kf l o wi n c l u d e sn e t w o r kp a g e sc o l l e c t i o n , p r e t r e a t m e n ta n ds e a r c hm o d u l e s i th a st h es a m ew o r kf l o wa sc o m m e r c i a ls e a r c h e n g i n ea n di n d e p e n d e n tf u n c t i o nm o d u l e s w ec a l lm a k eav e r t i c a ls e a r c he n g i n e q u i c k l yb yr e c o n s t r u c tt h er e l a t e df u n c t i o nm o d u l e s t h i sp a p e ra i m sa tb u i l dat o u rg u i d es e a r c ha n dm a n a g e m e n tw e bs i t eb a s e do n v e r t i c a ls e a r c he n g i n et e c h n o l o g y t h em o s tc r i t i c a li s s u e sa r ec h i n e s es e g m e n t a l g o r i s ma n dt h e m er e l a t i v i t y t h i sp a p e ru s e sn u t c ht ob u i l dt h eb a s i cs e a r c he n g i n e a n da l t e r n a t e st w oi m p o r t a n tm o d u l e so fn u t c h :t h ep a g e sc o l l e c t i o nm o d u l ea n dt h e c h i n e s ep a r s i n gm o d u l e o nt h i sb a s i s ,t h i sp a p e rf i r s t l yd i s c u s s e st h ed e f e r e n c eb e t w e e ng e n e r a ls e a r c h e n g i n e ,a n dt h e nt h ec o r et e c h n o l o g i e so fg e n e r a ls e a r c he n g i n ea n dd e e ps t u d yo f v e r t i c a ls e a r c he n g i n e ,a n dt h e nt h ep r i n c i p l eo fn u t c h t h ep a p e ru s e ss h a r k - s e a r c h a l g o r i s mf o rt h ew e b p a g ec o l l e c t i o n , t h e nt h et h e m ej u d g m e n t i nt h ec h i n e s e s e g m e n tt h i sp a p e ru s i n gan 删d i c t i o n a r ym e c h a n i s ma n dan e wc h i n e s es e g m e n t a l g o r i s m l a t e r , t h i sp a p e rd i s c u s s e si nd e t a i lt h eo v e r a l ld e s i g np r o c e d u r eo ft o u rg u i d e i n f o r m a t i o ns e a r c he n g i n ei n c l u d i n gt h ef u n c t i o n so ft h ew e b s i t e ,t h ea r c h i t e c t u r e , t h e d a t a b a s ed e s i g na n dr e a l i z a t i o no fa l lt h ea l g o r i s m sa n df u n c t i o n s l a s ta l et h es u m m a r ya n ds o m ea d v i c e si nt h ef u t u r e k e yw o r d s :v e r t i c a ls e a r c he n g i n e ,n u t c h ,c h i n e s es e 舯e n t ,t h e m er e l a t i v i t y , s p i d e r 北京邮电大学网络与交换国家重点实验室i l 北京邮电大学硕士论文旅游信息垂直搜索引擎系统的设计与实现 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:一矩:日期:h 缉:2 :2 墨 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学 本人签名: 导师签名: 北京邮电大学网络与交换国家重点实验室 围,适用本授权书。 日期:2 卑越l 一 醐。晕严 北京邮电大学硕士论文旅游信息垂直搜索引擎系统的设计与实现 1 1 研究背景及意义 第一章绪论 伴随着互联网的普及,互联网已经成为人们获取信息的重要途径,而搜索引 擎则成为人们在互联网获取信息的重要工具。随着网络信息内容的爆炸性增长, 传统的以覆盖所有网页为目标的搜索引擎正面临着前所未有的挑战。 一是网页数量呈现出指数级的爆炸性增长趋势,搜索引擎无法索引所有的页 面,即使是目前全球最大的搜索引擎g o o g l e ,其索引的页面数量也仅占w e b 总 量的4 0 左右【1 】 二是传统搜索引擎的搜索结果是海量的,而其中真正符合人们需要的信息只 占其中很小一部分,可谓“冰山一角 。据有关资料研究显示,超过8 0 的使用 者会在看完前三页之前就停止阅读搜索结果。 在讲第三条之前,必须澄清一个概念。首先,用户提交查询信息后,搜索引 擎并不是立刻在w e b 上搜索一遍,发现相关的网页并以一定的顺序显示给用户 【2 】,而是提i j 已经搜集了一批网页,并以某种形式存储在系统中,当用户提交查 询后,搜索引擎只是在内部系统中检索而已。而当用户发现某个u r l 比较相关 进行点击获得网页全文的时候,此时访问的则是网页的原始出处。所以,从理论 上讲搜索引擎并不保证用户在返回结果列表上看到的标题和摘要内容与他点击 u r l 所看到的内容一致,甚至不能保证那个网页还存在。并且像g o o g l e 这样的 搜索引擎,为了维护其庞大的数据库,网页信息的平均更新周期要长达一个月左 右【3 4 】,这就是我们用搜索引擎搜索到的网页经常过时甚至打不开的原因,也是 通用搜索引擎面临的第三大挑战。 除了互联网信息量激增以外,信息的种类也在不断增加,除了有网页和文件 以外,还有新闻组,论坛,专业数据库等。通用搜素引擎对互联网信息不加区分 的进行搜索,容易产生大量的冗余信息。基于前面所述的传统搜索引擎的各种弊 端,专注于一个特定主题,特定领域的垂直搜索引擎应运而生。 垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提 出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特 定需求提供的有一定价值的信息和相关服务【5 】。其特点就是“专、精、深”,且 具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更 加专注、具体和深入【6 】。目前已经有很多商用的垂直搜索引擎,具有强烈的专业 色彩,有专门搜索饭店的,音乐影视的,房产汽车等的搜索引擎。 北京邮电大学网络与交换国家重点实验室 北京邮电大学硕:b 论文旅游信息垂直搜索引擎系统的设计与实现 虽然目前垂直搜索引擎还没有实现如通用搜索引擎那样的大规模应用,但随 着互联网的发展,他们的应用会越来越广泛。另外,即使通用搜索引擎的运行现 在也开始出现分工协作,有了专业的搜索引擎技术和搜索数据库服务提供商【j 7 1 。 例如美国的k t o m i ,它本身并不是直接面向用户的搜索引擎,但向包括o v e r t u r e ( 原 g o t o ) 、l o o k s m a r t 、m s n 、h o t b o t 等在内的其他搜索引擎提供全文网页搜集服 务。从这个意义上说,它是搜索引擎数据的来源。 本文的目标在于构造一个面向旅游信息搜索的网站,旅游行业一直被认为是 朝阳产业,具有巨大的发展空间。随着互联网技术的发展和应用的进一步广泛, 以及像携程( c t r i p c o m ) 、e 龙( e l o n g c o m ) 的成功,网络旅游服务成为旅游行 业的热点。然而,在美国的在线旅游市场中,最大份额者却不是携程、e 龙这类 旅游电子商务网站,反而是以搜索为核心的g o o g l e 、y a h o o 。面对当今国内以搜 索引擎为主要发展特征的新一轮互联网发展热潮,国内的网络旅游服务市场中悄 然诞生出一批新生力量一旅游搜索引擎。 据有关媒体报道,在国家旅游局发布的2 0 0 4 年旅游市场年度报告中,我国 在2 0 0 4 年旅游行业全面恢复振兴并取得了突破性发展,2 0 0 4 年全年旅游的总收 入达到了6 8 4 0 亿元人民币,占全国g d p 的5 0 1 。显而易见,旅游行业在国民 经济中的地位得到了显著的提耐8 1 。与此同时,网络旅游服务行业也取得了突破 性的发展。根据财务报告,国内网络旅游服务行业的领先者携程和e 龙2 0 0 4 年 收入分别达到了3 5 4 亿和1 3 8 5 亿元人民币。2 0 0 4 年,国内网络旅游服务行业 的交易额已经达到了5 0 亿元人民币,百度、酷讯等也都发起了旅游信息领域的 进攻。除了最核心的旅游攻略信息搜索功能,这些网站的功能和发展方向也都各 不相同。 本文分析了国内几家主流旅游网站的主要功能及运营模式。携程以机票、酒 店和度假产品为主要赢利模式,途牛以丰富的度假产品为主要盈利模式,而游鱼 功能分布比较均匀,引入了社区、博客等元素。本论文设计的垂直搜索引擎,主 要针对以年轻人为主的自助游群体,针对现在旅游攻略信息散落在各个b b s 和 网站,信息纷繁芜杂,且不能完全匹配用户出行时间计划,旅游攻略信息不全, 如没有住宿预定电话,费用信息或紧急情况应急方法等缺点,能够提供给用户尽 量丰富的信息,为其节省了大量寻找合适的旅游攻略信息的时间。因此,本论文 的研究具有很强的实用性,同时也具有较深的研究价值。 1 2 垂直搜索引擎国内外研究现状 目前在国外,垂直搜索引擎的研究正在成为一个热点,并在近年取得了蓬勃 发展。许多专门领域都有自己的垂直搜索引擎。下面介绍一些较有代表性的系统。 北京邮电大学嗍络与交换国家蕈点实验室 2 北京邮电大学硕士论文旅游信息垂直搜索引擎系统的设计与实现 ( 1 ) w a l l s t r e e tr e s e a r c hn e t w o r k w a l l s t r c e tr e s e a r c hn e t w o r k 是由美国w s r n 公司开发建立的经济与财经类 的专业搜索引擎,专门检索经济研究、共同基金、市场新闻、工商企业、投资中 介商和经济研究出版物等各类信息。 ( 2 ) e l s e v i e r 的s c i r u s 系统 s c i r u s 科学搜索引擎【9 】是一种专为搜索高度相关的科学信息而设计的搜索引 擎,是目前互联网上最全面、综合性最强的科技文献门户网站之一。它的信息源 主要包括网页和期刊两部分,如大学和作者个人主页以及e l s e v i e r 自己的数据库。 首先它对网络中搜索到的结果进行过滤,只列出包含有科学信息的成分,方便了 科研人员的使用。 ( 3 ) 美国国家科学数字图书馆的c o l l e c t i o nb u i l d i n gp r o g r a m ( c b p ) 这个项目【1 0 】旨在为科学、数学、工程和技术创建大规模的在线数字图书馆, 试图研究在某一个主题上资源自动建设的可能性。c b p 的特点是:由于其只面 向教育和教学,因此主题精确度高;不存储资源原文,只提供u r l ;只需要少 量输入,系统就可以全自动将有关该主体的最相关的有限数量u r l 返回给用户_ o ( 4 ) 基于概念搜索的a s k j e e v e s 搜索引擎 它将用户提问转化为系统已知的问题,在对提问进行结构和内容分析之后, 或直接给出问题的答案,或引导用户从几个可选择的问题中进行再选择【1 1 1 。用户 只需输入简单的疑问句,如“h o wc a nid 0 ? 、“w h e r ec a nif i n d ? 等句式就 能直接获得结果。 在国内,垂直搜索引擎近年来得到了很大的发展。根据c n n l c 的调查结果, 2 0 0 5 年使用百度和g o o g l e 的用户达到总量的9 0 ,而2 0 0 6 年随着垂直搜索的兴 起,这一数值下降到8 7 4 。未来搜索引擎将从单一化走向多样化,从水平化走 向垂直化,从大众化走向行业化【1 2 1 。垂直搜索将成为未来的市场增长点,并对 综合搜索引擎产生巨大的威胁。目前国内的垂直搜索引擎主要有酷讯,它由提供 搜索火车票起家,现在的搜索范围又扩大到租房信息,旅游信息等板块,另外还 有以奇虎( w w w q i h o o t x ) m ) 为代表的论坛搜索垂直搜索引擎;以去哪儿 ( w w w q u n a r c o m ) 为代表的旅游搜索;以中华英才网( w w w c h i n a h r c o m ) 为代 表的招聘搜索;以顶九( w w w d i n 9 9 c o m ) 为代表的比价搜索;以优酷 ( w w w y o u k u e o m ) 为代表的视频搜索。可以看出,搜索己经不再只是单纯地搜 索网站页面,而是越来越细化,越来越有针对性专业搜索服务越来越受到大家 的追捧,成为各大搜索引擎公司的发展重点。 但是,垂直搜索引擎的构建不但有较高的技术门槛,而且还需要大量专家领 域的知识,需要行业经验的积累。不同于g o o g l e 等综合性搜索引擎,使用垂直 北京邮电大学网络与交换国家重点实验室 北京邮电大学硕1 :论文旅游信息垂直搜索引擎系统的设计与实现 搜索引擎的用户一般对所需求信息的领域具备相当的了解和经验,因此,要满足 这些人士的查询需求,除了要在专业领域具备相当的了解以外,更要深入了解这 个行业的政策环境以及从业人员的习惯偏好等。目前国内的垂直搜索引擎在技术 层面和从业经验上都存在诸多不足之处,正是由于这些不足,大大限制了垂直搜 索引擎的发展,使得专业化搜索服务还无法在社会的各个领域得到广泛发展,这 在一定程度上也反映了我国垂直搜索引擎尚不成熟的现状。 1 3 论文主要工作 本文分析了通用搜索引擎和垂直搜索引擎的原理及差异,在研究了搜索引擎 网页采集技术、检索技术、中文分词技术的基础上,参考了网络搜索引擎的实现 原理,采用开源的n u t c h 搜索引擎技术,设计并实现了一个基于自动分词的中文 搜索引擎。该搜索引擎以各大旅游门户为网页采集来源,同时采用人工模板采集 数据的形式,满足用户搜索旅游信息的需求。 论文第一章主要介绍了本论文的研究背景、国内外现状以及本论文的主要工 作;第二章介绍了搜索引擎的相关技术包括:网页信息采集模块、预处理模块及 查询模块的相关技术;之后又介绍了垂直搜索引擎的关键技术。主要包括垂直搜 索与通用引擎的区别,垂直搜索引擎网页采集策略、主题相关度的判定、中文分 词技术的介绍;接下来介绍了开源搜索引擎n u t c h 的特点、基本组成与工作原理。 第三章到第五章是本文的重点,其中第三章重点讨论了中文分词模块的设计与实 现,改进了n m c h 基于单字切分的分词方式,采用了一种新的词典机制,并将一 种新的分词算法引入到分词模块中。第四章重点讨论了旅游信息搜索引擎的总体 设计过程,包括手机客户端和w e b 搜索引擎的实现过程。设计过程重点论述了 需求分析、手机客户端和网站的功能规划和总体结构、数据库设计等内容。第五 章则重点讨论了整个系统的核心w e b 垂直搜索引擎的实现过程,改进了信息 采集模块和索引模块检索模块的算法,。以达到垂直搜索的技术要求。并对信息采 集模块进行了性能测试,对实验结果进行了分析,最后是系统的运行界面展示。 最后一章对整个论文的工作进行总结,指出了不足之处和下一步的工作展望。 北京邮电大学嘲络与交换国家重点实验室 4 北京邮电大学硕十论文旅游信息垂直搜索引擎系统的设计与实现 第二章搜索引擎相关技术研究 2 1 垂直搜索与主题搜索的区别 主题搜索引擎与通用搜索引擎还是有很大区别的。 ( 1 ) 面向的服务对象不同 通用搜索引擎顾名思义,它可以提供任何用户对其提交的任何网页信息的查 询,内容覆盖整个因特网,努力做到查询到更多的信息以反馈给用户,然后由用 户自己判断搜索结果中的信息哪些是用户需要的,哪些是不需要的。同时,通用 搜索引擎一般对用户的要求相对较高,在搜索的过程中,需要有用户对自己需求 的不断调整关键字【l3 1 ,要求用户对自己需要查询的信息很明确,并且能在搜索 栏中准确、完整的表达出来。 而垂直搜索引擎则专注于专业领域,它的用户通常具有明确的信息需求,同 时这种信息需求也可以界定在一个特定专业范围内,并且满足这些信息需求的信 息源是特定形式的结构化的,搜索出来的结果都是与用户需求相关的,不需要用 户自己再进行分析和判断。而且垂直搜索引擎对用户的要求较低,一般直接输入 用户关心的内容,比如产品名称即可。 ( 2 ) 对硬件和网络的要求不同 通用搜索引擎内容覆盖整个因特网,需要大型的索引数据库,而垂直搜索引 擎由于没有遍历整个w e b 节约了大量的网络资源,而且没有自己的大型索引数 据库,所以硬件需求相对通用搜索引擎也比较低。 ( 3 ) 搜索方式及结果不同 通用搜索引擎逐页爬行网络,试图遍历整个w e b ,查询结果数量巨大,覆盖 面比较广,准确率不高。并且其搜索结果一般只是网页链接和对该网页进行的简 单描述,而其中匹配的原则是网页描述与关键字的相关度。并且通用搜索引擎是 按照系统设定的排序算法,根据网页相关性自动将网页排列,用户只能被动的接 受搜索引擎的排列顺序而没有自主选择的机会。 而垂直搜索引擎则采用一定的策略预测相关网页的所处的位置【1 4 1 ,动态地 调整网页爬行方向,使系统尽可能在与主题相关的网页比较集中的地方爬行,节 约了大量的网络资源,它的检索结果的数量也不多,维持在几百个左右。但是, 垂直搜索引擎的准确率很高,几乎可以达到9 0 以上。它所提供的搜索结果往往 是结构化的数据,用户几乎不需要打开网页就可以断定是否是自己需要的结果。 垂直搜索引擎为用户提供多种网页检索结果排序方式,用户可以根据相关度的高 北京邮电人学网络与交换国家重点实验室 5 北京邮电大学硕:匕论文旅游信息垂直搜索引擎系统的设计与实现 低、价格的高低、价格范围等多种方式进行排序,可以帮助用户更快的找到需要 查找的内容。 由于垂直搜索引擎业务特征不同于通用搜索引擎,因此在技术实现上也有很 多不同之处,通过比较,其不同之处主要体现在四个方面。 ( 1 ) 网页采集技术 通用搜索引擎面向整个因特网,采集的范围广、数量大,采集的深度比较浅。 通用搜索引擎通常以被动方式进行信息采集,搜索引擎和被采集的网页没有事先 的约定、也没有标准的格式,通常采用广度优先的网页爬行策略。而垂直搜索引 擎带有专业性或行业性的需求,所以只对局部来源的网页进行采集,采集的网页 数量适中。但采集页面深度较深,采集动态网页的优先级也相对较高。垂直搜索 引擎的网页采集技术能够按需要控制采集的目标和范围,并且支持深度采集以及 复杂的动态网页采集。 ( 2 ) 网页解析技术 通用搜索引擎仅能解析和提取网页的标题和正文,但不能对网页的时间、来 源、作者及其他元数据进行解析和提取。但是由于垂直搜索引擎服务的特殊性, 往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容 的提取。例如在生活服务、论坛搜索、订票服务、求职服务、风险信用、竞争情 报、行业供需、产品比较等特定垂直搜索服务中,要求对于作者、主题、地区、 机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜 索服务。 ( 3 ) 索引和检索技术 响应速度是通用搜索引擎所追求的最重要因素,通用搜索引擎并不能提供精 确和完整的检索结果,只能给出预估的数量和排在前面部分的结果信息【1 5 】;在 文本索引方面,它也不是对精确的网页正文全文进行索引,而只是索引部分网页 中特定位置的文本,因而通用搜索引擎最终的检索结果是不完全的。而垂直搜索 引擎由于在信息的专业性和使用价值方面有更高的要求,因此它能够支持全文检 索和精确检索,并按需提供多种结果排序方式,比如按内容相关度排序或按时间、 来源排序。另外,一些垂直搜索引擎还要求支持结构化和菲结构化数据联合检索, 比如结合作者、内容、分类进行组合检索等。 ( 4 ) 文本挖掘技术 垂直搜索引擎与通用搜索引擎的最大区别是它对网页信息进行了结构化信 息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比 网页搜索是以网页为最小单位,垂直搜索引擎是以结构化数据为最小单位。这些 数据随后被存储刽数据库中,进行进一步的加工处理。如:去重、分类、聚类、 北京邮电大学网络与交换国家重点实验室 6 北京邮电犬学硕士论文旅游信息垂直搜索引擎系统的设计与实现 标引等,最后分词、索引再以检索的方式满足用户的需求。整个结构化信息过程 贯穿从网页解析到网页加工处理,数据由非结构化数据抽取成结构化数据,经过 深度加工处理后以非结构化的方式或结构化的方式返回给用户。 综上所述,垂直搜索引擎可以针对行业特定的领域进行专业和深入的分析挖 掘,精细分类,过滤筛选,信息定位,更精准的提供有一定价值的信息和相关服 务,有效地弥补了通用搜索引擎对专门领域及特定主题信息覆盖率过低的问题。 同时,能够把具有相同兴趣点的人们集中在一个“主题社区”内,不仅集中提供 各种专业资源,而且给大家提供了一个相互交流、共享经验和教训、展望行业发 展前景的机会和场合。相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则 显得更加专注、具体和深入【1 6 1 。 2 2 搜索引擎工作原理 搜索引擎的工作原理基本都是一样的,它是一个技术含量很高的网络应用系 统,其中包括网络技术、数据库技术、检索技术、语言处理技术及智能技术等各 项技术。搜索引擎工作时并不是接收用户查询后再实时地到网络上去搜索网页, 搜索完毕后将结果返回展示给用户,而是事先已经“收集 好了一批网页和其它 类型的信息,并按照一定的格式将网页内容存放在数据库系统中,用户提交查询 后,系统在内部数据库中进行查询并将结果以一定的排序规则展示给用户,为了 保持信息的时效性,搜索引擎会定期地重新爬行因特网,抓取数据更新数据库。 搜索引擎的基本构造通常都可分为四部分f 1 7 】:信息采集模块( c r a w l e r ) 、索引模块 ( i n d e x e r ) 、信息检索模块( s e a r c h e r ) 和用户接口( u s e ri n t e r f a c e ) 。 图2 - 1 搜索引擎工作流程图 搜索引擎的主要工作流程是:首先它利用一个称为网络爬虫c r a w l e r 的程序 ( 也叫做网络蜘蛛s p i d e r 或网络机器人r o b o t ) ,采用多线程并发搜索技术,网 络爬虫程序每隔一定的时间自动启动后,读取网页u r l 服务器上的u r l 列表, 按深度优先或广度优先算法,根据u r l 到指定网站上搜索信息,抓取网页,系 北京邮电大学网络与交换国家重点实验室 7 北京邮电上学碳十论文旅游信息垂直搜索引擎系统的啦计与实现 统将抓取到的每个网页分配一个唯一文档1 d ( d o c l d ) ,进行一定的压缩处理后存 入文档数据库,同时提取当前网页上的所有超链接,并存入到u r l 服务器中。 在进行网页抓取的同时,索引模块的分词器和索引器将已经抓耿的网页文档进行 分词处理,并按词在网页中出现的位置和频率计算权值,建立倒捧索引,然后将 分词结果存入索引数据库。整个抓取工作和索引工作完成后更新整个索引数据库 和文档数据库。这样用户就可以查询最新的网页信息。检索模块首先对用户接口 处得到的信息进行分词处理并检索出所有包含检索词的记录,通过计算网页权 重和级别对查询记录进行排序和集合运算,最后从文档数据库中提取各网页的摘 要信息反馈给查询用户。 下图是一个典型的搜索引擎系统架构图l i 目,搜索引擎的各部分都会相互交 错相依赖。 互联刚爬虫乎制+ u r l 数据库+ l 十刚络爬虫+ u r l 提取o 上 图2 - 2 搜索引擎系统颦构图 信息采集模块主要由网络爬虫、爬虫控制、网页数据库、链接数据库以及其 他一些管理子模块构成索引模块主要由文本索引,中文分词构成检索模块由 查询服务器、网页评级等构成,用户接口即系统提供给用户提交查询请求的接口。 下面将分节具体介绍一下各个模块的功能。 221 信息采集模块的工作原理 信息采集模块是一个搜索引擎的核心功能模块,它利用一个称为网络爬虫 c r a w l e r 的程序,也叫做网络蜘蛛s p i d e r 或网络机器人r o b e r t ,采用多线程并发 北京岬电大学络与立接目家t 点实# i 北京邮电大学硕:e 论文旅游信息垂直搜索引擎系统的设计与实现 搜索技术,定期自动从一个初始网页集出发遍历w e b ,自动采集网上信息。当 c r a w l e r 进入某个超文本页面时,它利用h t m l 语言的标记结构来搜索信息和获取 指向其他超文本的u r l 链接,通过一定的算法选择下个要访问的站点,继而 转向另一个站点继续采集信息,并对网页进行分析,提取关键词和u r l 等信息。 具体工作流程如下: ( 1 ) 网络爬虫从初始u r l 列表中读取出一个u r l ,读取该网页内容; ( 2 ) 从网页文档中提取某些信息并放入索引数据库中; ( 3 ) 根据某些相关度算法从文档中提取指向其它文档的u r l ,并加入到u r l 列表中; ( 4 ) 重复上述3 个步骤,直到再没有新的u r l 发现或超出了某些限制( 这 些限制包括时间、磁盘空间或者算法限制) ; ( 5 ) 为索引数据库提供查询接口,向网上用户发布。 网络爬虫的搜索策略一般会依据深度优先和广度优先两种基本策略【1 9 】。如 图2 3 所示。 图2 - 3 深度优先和广度优先示意图 广度优先是指网络蜘蛛会先抓耿起始网页中链接的所有网页,然后再选择其 中的一个链接网页,继续抓取在此网页中链接的所有网页,直到最底层为止这 是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度,保 证一个服务器上至少有一篇文档加入到索引数据库,能降低同一服务器被访问的 频度,缺点是时间复杂性和空间复杂性较大,很难深入到服务器中去。 深度优先是指网络蜘蛛会从起始页开始,一个链接接着一个链接跟踪下去, 处理完这条线路之后再转入下一个起始页,继续跟踪链接。访问结束的标志是不 再有其他超级链接可以搜索。这种算法的优点是在理论上能够遍历一个w e b 站 北京邮电大学网络与交换国家垂点实验室 9 北京邮电大学硕七论文旅游信息垂直搜索一l 擎系统的设计与实现 点下所有深层嵌套的页面,但如果遇到深度很大的搜索树,有陷入一个分支当中 或者进入循环状态的危险,因而不具有完备性和最优性。 由于不可能抓取到所有的网页,对于一些不太重要的网站以及一些垃圾网 站,搜索引擎对这些网站设置了访问层数。例如在上图中,a 为起始网页,属于 o 层,b 、c 、d 、e 、f 属于第1 层,g 、h 属于第2 层,i 属于第3 层。如果网 络蜘蛛设置的访问层数为2 的话,网页l 是不会被访问到的。 2 2 2 预处理模块的工作原理 网页采集模块采集来的网页,需要经过索引模块的分析,根据一定的相关度 算法计算得到倒排索引,才能添加到索引数据库中。数据的索引分为三个步骤: 网页内容的提取、词的识别、标引库的建立。网络蜘蛛抓取下来网页包括各种格 式,包括h t m l 、图片、d o c 、p d f 、多媒体、动态网页及其它格式等。索引只 能处理文本文件,因此需要把网页文件中的文本信息提取出来,过滤掉一些脚本 标示符和其他一些无用的信息,同时记录文本的版面格式信息。准确提取这些文 档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛 正确跟踪其它链接有一定影响。 中文分词是索引模块非常关键的一部分。中文不同英文,英文每个单词是用 空格分开,计算机程序非常容易区分每个单词,而中文一个句子往往是一些词的 连结,没有分割符,而且几乎没有时态的变化,计算机很难看懂每个句子。因此, 中文分词对于搜索引擎、数据挖掘、信息处理等非常重要【2 0 1 。目前中文分词方 法很多采用机械分词方法,配备有自己的中文词典,分词时去词典匹配,分词的 好坏,和词典关系很大。通过中文分词识别出网页中的每个词,并分配唯一的 w o r d i d 号,用于为数据索引中的标引模块服务。 标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引: 文档标引和关键词标引。“文档标引 即是分配每个网页一个唯一的d o c i d 号, 根据d o c i d 标引出在这个网页中出现过多少个w o r d i d ,每个w o r d i d 出现的次数、 位置、大写d , 写格式等,形成d o c l d 对应w o r d i d 的数据列表;“关键词标引 其实是对文档标引的逆标引,根据w o r d i d 标引出这个词出现在哪些网页( d o c i d ) , 出现在每个网页的次数、位置、大写小写格式等,形成w o r d i d 对应d o c l d 的列 表。这里就牵涉到倒排索引的概念了,下面详细介绍一下倒排索引。什么是倒排 索引昵,为什么要使用倒排索引呢,请看下面的例子: 设有两篇文章a 和b : 文章a :j o e yw o r k si nn e w y o r k 1w o r ki nn e wy o r kt o o ; 文章b :r o s sw o r k e di nt e x a s 北京邮电大学网络与交换国家霞点实验室 l o 北京邮电大学硕士论文 旅游信息垂直搜索引擎系统的设计与实现 在做索引之前首先找出文章中的关键词,通过分词找出文章中所有的单词。 英文单词是由空格分隔的,比较好处理,中文词语之间不是通过空格来区分,需 要专门的中文分词。在英文文章中“i n ,“o n e “t o o 等词没有什么实际意义, 中文中的“的 “是 等字通常也无具体含义,标点符号及这些不代表意义的词 通常可以过滤掉。 一般情况下,系统在处理单词时,一般会把动词的过去式,现在式等还原成 动词原形。比如,在上述例子中, w o r k s ”和“w o r k e d 被还原为w o r k 。经过 上面处理后: 文章a 的所有关键词为:【j o e y , w o r k , n e wy o r k , 1 1 , w o r k , n e wy o r k 文章b 的所有关键词为:【r o s s , w o r k ,【t e x a s 这样描述的对应关系是:“文章号对“文章中所有关键词”。而所谓的倒排 索引把这个关系倒过来,变成:“关键词对“拥有该关键词的所有文章号 。 即文章a ,b 经过倒排后变成: i 关键字 j o e y r o s s蹄白r kt e x a sn e w y o r ki i 文章号 1l 1 , 2 2ll 当建好了上述倒排索引后,如果我们要查找哪些文章中含有某个关键字时, 只需取出该关键词所对应的文章号就行了。比如我们查找j o e y ,返回文章号l ; 查找w o r k ,返回文章号1 ,2 。通常情况下,仅仅知道关键词在哪些文章中出现还 不够,还需要知道关键词在文章中出现的次数和出现的位置,通常有两种位置: 第一种是字符位置,记录该词是文章中第几个字符( 优点是定位快速) ;第二种关 键词位置,即记录该词是文章第几个关键词( 优点是节约索引空间、词组( p h a s e ) 查询较快) 。 因此倒排索引被设计成一个两级结构。第一级是所有文本中出现的所有不同 的词,我们称之为索引词,第二级是倒排链表,第一级的一个索引词对应第二级 的一个倒排链表。倒排链表中的每一个元素是一个三元组,形如 ,d 是包含词t 的文本标识,词t 在文本d 中出现的次数是f 【d ,t 】, y i n 表示词t 在文本d 中第i 次出现的位置。下图是一个含有6 个词的文本集 的倒排索引。 北京邮电大学网络与交换国家莺点实验室 北京邮电大学硕士论文旅游信息垂直搜索引擎系统的设计与实现 i nm e m o r y o nd i s kv e c t o r s v o c a b u l a r y 微型机3 ,( , , ) 磁盘l ,( ) 共享 1 9 ,( , ,) 协议2 ,( , ) 扩展 3 5 5 ,( , ,) 存储2 ,( , ) 图2 4 含有6 个词的文本集的倒排索引 说明:v e c t o r s 部分中的2 ,( , ) 其中2 表示有两篇文章 中出现了存储这个词。文章标识号是9 和1 3 ,在该文章9 中出现的次数是1 ,位 置是4 2 1 ,在文章1 3 中出现的次数是1 ,位置是7 1 。 经过上面的解释,相信大家已经对倒排索引有了一个比较清楚的了解了,那 么为什么要使用倒排索引呢? 全文检索不是匹配关键字,假设要查询某个单词, l u c e n e 先对词典进行查找、找到该词,根据索引关键词列表中的关键词与文章 编号的映射关系,通过指向频率文件的指针读出所有文章号,然后返回结果。词 典通常非常小,因而,整个过程的时间是毫秒级的。但是如果采用普通的顺序匹 配算法,不建索弓l ,而是对所有文章的内容进行字符串匹配,这种搜索方式其过 程就变成类似于一页页翻书的遍历过程了,这样在响应时间、搜索的准确度等方 面都远远不能满足用户的需要。所以,采用哪种较好的中文分词算法,尽可能减 少冗余索引文件的产生,是一个比较重要的技术,本文将单独分出一个章节来介 绍中文分词算法。 2 2 3 查询模块的工作原理 查询模块包括检索器和用户接口。用户接口接收用户提交的搜索请求,并将 满足条件的搜索结果展示给用户,检索的处理过程就是检索出符合用户搜索条件 的结果。是用户输入搜索关键字,检索服务器对照关键词字典,把关键词转化为 w o r d l d ,然后在索引库中得到d o c t d 列表,对d o c l d 列表进行扫描和w o r d l d 的 匹配,提取满足条件的网页,然后计算网页和关键词的相关度,根据相关度的数 值返回前k 篇结果( 不同的搜索引擎每页的搜索结果数不同) 给用户【2 。如果 用户继续查看第二页或者第n 页,则重新进行搜索,把排序结果中在第k + i 到 2 * k 的网页返回给用户。该模块的工作原理可以分为三个方面: 北京邮电大学网络与交换国家重点实验室 北京邮电大学硕士论文旅游信息垂直搜索引擎系统的设计与实现 ( 1 ) 查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。一般情况下,用户提交查询 的形式是输入与查询内容相关的短语,例如用户在输入框中输入“我爱和平 , 关键词提取后得到 我,爱,和平) ,每一个元素都对应倒排文件中的一个倒排表, 它们的交集即为对应查询的结果文档集合,从而实现了查询和文档的匹配。 ( 2 ) 结果排序 得到了和用户查询相关的文档集合以后,需要做的就是以一个怎样的顺序将 这些结果展示给用户,文档和查询关键字之间的相关性是形成这种顺序的基本因 素。有效地定义相关性是很困难的,从原理上讲它不仅和查询词有关,而且还和 用户的背景,以及用户的查询历史有关。早期的排序是基于词汇出现频度法,它 是根据在一篇文档中包含的查询短语中的那些关键词越多,则该文档就排在越前 面的思想,虽然很容易实现但是由于网页编写的自发性、随意性较强,在w e b 上使用该方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论