(计算机软件与理论专业论文)基于查询扩展的主题搜索引擎系统的设计与实现.pdf_第1页
(计算机软件与理论专业论文)基于查询扩展的主题搜索引擎系统的设计与实现.pdf_第2页
(计算机软件与理论专业论文)基于查询扩展的主题搜索引擎系统的设计与实现.pdf_第3页
(计算机软件与理论专业论文)基于查询扩展的主题搜索引擎系统的设计与实现.pdf_第4页
(计算机软件与理论专业论文)基于查询扩展的主题搜索引擎系统的设计与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 为了解决搜索引擎中的语义不匹配问题,本文在总结信息检索中奔询扩展技术基础上, 将基丁词表的查询扩展技术引入剑主题搜索引擎中。由于主题搜索引擎处理的是w e b 页面 集,主题词库的人,t :构建菲常困难,本文采用w e b 挖掘技术自动构建选定的主题领域的词 序并使_ l j 构建出来的主题词序进行查询扩展。 要构建主题词库,就需要挖掘出网站中蕴含的层次结构信息。为此本文提出了二种网站 层次化方法来完成此项f :作。三种方法分别是基于域名分类体系的网站层次化方法、基丁网 站文件目录体系的网站层次化方法和基丁二语义块识别和模板提取与过滤技术的网站层次化 方法。第二种方法的实现过程要利用前两种方法,该方法能够获得网站中各w e b 页面的语 义块之间的层次结构表示。此外,本文设计了一个专用爬虫自动完成对网站的层次化,然后 从网站的层次结构中抽取出主题检索词之间的上下层次关系和共现关系,构建山主题词库, 以供夯洵扩展使用。 主题爬虫模块是整个主题搜索引擎系统的核心。为了提高主题搜索引擎系统的卉全率汞i 夯准率,本文对现有的主题爬虫模块进行了如下改进:( 1 ) 采用元搜索技术来提高种子选择 的质肇承l 数鼙;( 2 ) 在进行页面中u p d 主题相关性判断时,对s h a r k f i s h 算法进行了改进, 引入了语义块提取和网页模板过滤等技术米预测u r l 的主题相关性;( 3 ) 在对w e b 文本进 行表示时,采_ h j 了带标签权重的向量空间模型:( 4 ) 提供了主题搜索系统中的隧道穿越问题 的解决方法。 本文使_ l j 了开源的l u c e n e 系统作为格式化w e b 页面数据的索引器和检索器,在没计主 题搜索引擎系统时,为用户查询代理模块添加了查询扩展功能。为了检验本文方法的有效性, 本文设计了一个主题爬虫效果实验和一个主题搜索引擎系统仿真实验并完成了这两个实验。 实验结果表明本文的主题爬虫相对于基于s h a r k f i s h 算法的主题爬虫在性能上获得了一定 的提高;基于本文构建词库的查询扩展的主题搜索引擎,在赉全率和查准率方面总体上要优 r 使h i 其它夯询扩展技术或不使用查询扩展技术的主题搜索引擎。 总体来说,本文所设计的系统基本达到了预期的设计目标。 关键词:主题搜索引擎查询扩展主题词库构建网站层次化 a b s t r a c t i no r d e rt os o l v et h ep r o b l e mo ft e r mm i s m a t c hb e t w e e nq u e r i e sa n dw e bd o c u m e n t si n s e a r c h e n g i n e ,v o c a b u l a r y - b a s e dq u e r y e x p a n s i o nt e c h n o l o g yh a sb e e ni n t r o d u c e di n t o t h e t o p i c s p e c i f i cs e a r c he n g i n eo nt h eb a s i so fs t u d y i n gt h eq u e r ye x p a n s i o nt e c h n o l o g y i n i n f o r m a t i o nr e t r i v a l b e c a u s es e a l e he n g i n ed e a l sw i t hw e bp a g e s , i ti sv e r yd i f f i c u l tt ob u i l da t o p i c s p e c i f i cv o c a b u l a r ym a n u a l l y w ec o n s t r u c tat o p i c - s p e c i f i cv o c a b u l a r yw i t hw e bm i n i n g t e c h n o l o g ya n du i ta st h ed a t as o u r c a ! o f q u e r ye x p a n s i o n i no r d e rt oc o n s t r u c tt h et o p i c - s p e c i f i cv o c a b u l a r y , w es h o u l dg e tt h eh i e r a r c h i c a ls t r u c t u r eo f t h ew e bs i t e su s i n gw e bm i n i n gt e c h n o l o g y t h r e em e t h o d st oc o n s t r u c tt h eh i e r a r c h i c a ls t r u c t u r e o f t h ew e bs i t e sh a v eb e e np u tf o r w a r di nt h i sp a p e r , t h e r ea l eb a s e d - o nt h eh i e r a r c h i c a ls t r u c t u r e o ft h ed o m a i n - n a m em e t h o d , b a s e d - o nt h ef i l ed i r e c t o r ys t r u c u t r em e t h o da n db a s e d - o nt h e i d e n t i f i c a t i o no f t h es e m a n t i cb l o c ko f w e bp a g e sa n df i l t r a t i o no f t h ew e bt e m p l a t e sm e t h o d t h e t h i r dm e t h o di st h ek e yp o i n to f t h ep a p e r , a n di ti sc o m b i m e dw i t ht h ef r o n tt w om e t h o d sw h i l ei t i sr e a l i z e d w ec a l lg e tt h eh i e r a l c h i c a ls t r u c t u r eb e t w e e nt i l eb l o c k so f t l ew e bp a g e si nt h ew e b s i t e s as p e c i a ls p i d e ri sd e s i g n e dt oc o m p l e t et h et a s k t h e nw ec a l l & a t r a c tt h et o p i ck e y w o r d s f r o mt h eh i e r a r c h i c a ls t r u c t u r eo f t h ew e bs i t e st ob u i l dat o p i c - s p e c i f i cv o c a b u l a r y t o p i cs p i d e rm o d e li st h ec o r eo f t h es e a r c he l l g i n es y s t e m i no r d e r t oi m p r o v et h er e c a l la n d p r e c i s eo fs e a r c he n g i n es y s t e m ,w eh a v ei m p r o v e d i ta sf o l l o w s :( 1 ) w ea d o p tm u t i - s e a r c h t e c h n o l o g yt oi n c r e a s et h eq u a n t i t ya n di m p r o v et h e i rq u a l i t yo f t h eu r l s e e d sa n dt o p i c s p e c i f i c k e y w o r ds e e d s ( 2 ) w h i l ej u d g i n gt h eu r li sr e l a t e dt ot h et o p i co rn o t , w ei m p r o v et h e s h a r k f i s ha l g o r i t h mt h r o u g hi n t r o d u c i n gt h ei d e n t i f i c a t i o no ft h es e m a n t i cb l o c ko fw e bp a g e s a n df i l t r a t i o no ft h ew e bt e m p l a t e st e c h n o l o g i e sa n d5 0o n ( 3 ) w ea d o p tt h ew e i g h to ft a g st o r e p r e s e n tt h ew e bt e x tw i t hv e c t o rs p a c em o d e l ( 4 ) w ep u tf u r w a r dam e t h o dt or e s o l v et h e t u n n e l p r o b l e mi nt o p i c s p e c i f i cs e a r c he n g i n e w ea d o p tl u c e n es y s t e ma si n d e x e ra n ds e a r c h e ro f t h ef o r m a t t e dw e bd a t a w h i l ed e s i g n i n g t h et o p i c s p e c i f i cs e a r c he n g i n es y s t e m ,w ea d dt h ef u n c t i o no fq u e r ye x p a n s i o ni n t ot h eq u e r y p r o x ym o d e l f o re x a m i n gt h ev a l i d i t yt h em e t h o d sp u tf o r w a r di nt h i s 球l p c w ed e s i g na n d c o m p l e t et w oe x p e r i m e n t s , o n ei st h ee f f e c to f t h et o p i c - s p e c i f i cs e a r c he n g i n ea n dt h eo t h e ri st h e s i m u l a t i o no f t o p i c s p e c i f i cs e a r c he n g i n e 1 1 陀r e s u l to f t h ee x p e r i m e n t ss h o wt h a tt h ep e r f o r m a c e o f o u rs p i d e rj sb e t t e rt h a nt h es p i d e rb a s e d - o nt h es h a r k - f i s ha l g o r i t h ma n do n rs e a r c he n g i n ei s b e t t e rt h a nt h es e a l e he n g i n eu s i n go t h e rq u e r ye x p a n s i o nt e c h n o l o g yo rw i t h o u tu s i n gq u e r y e x p a n s i o ni nt h er e c a l la n dt h ea n c u r a e yr a t i o i ns u m m a r y , w e g e tt l er e s u l ta sw eh a v ee x p e c t e d k e yw o r d s :t o p i c - s p e c i f i cs e a r c he n g i n e , q u e r ye x p a n s i o n ,c o n s t r u c t i o no ft h et o p i c - s p e c i f i c v o c a b u l a r y , h i e r a r c h i c a lw e bs i t e l i 东南大学学位论文 独创性声明及使用授权说明 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:垄堡望日期:至i ! j i 二、关于学位论文使用授权说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保 存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的 保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部 或部分内容论文的公布( 包括刊登) 授权东南大学研究生院办理。 签名: 第一章引言 1 1 研究背景和意义 第一章引言 随着i n t e r n e t 的高速发展,网上信息迅速膨胀。目前,世界上绝人多数国家和地区已 经开通了i n t e r a c t ,它已成为在全球范围内传播和交流科技信息,教育信息、商业乘l 社会信 息的展主要的渠道,成为人们i :作、学习和生活中不可缺少的信息获取f :具。 另一方面,i n t e r a c t 上的府川服务( 如:w e b 服务、远拜登录、文俐:传输、电子m 5 彳,| 。等) 也越来越丰富,而且很多i n t e r n e t 服务都采_ i j 了幽形化界面并予以集成,以方便_ l l j 户的使 j l j 。而w e b ( 全称万维网,w w w - w o r l d w i d e w e b ) 服务在二十世纪九十年代中期以后得 剑迅速发展,i n t e m e t 上的w c b 服务器以每年翻儿番的速度增加i l 】。w e b 服务是目前麻 j 展为j “泛的i n t e r a c t 服务,它能够在i n l c r n e t 上方便快捷地浏览和传递分布于网络各处的文 字、图像、卢音和i 超文本信息,由于其直观,简单、高效的使用方式和丰富的表达能力, 已逐渐成为i n t e r a c t 上最重要的信息发布和交互方式。 从_ i j 户的观点看,w e b 是一个容纳各种类型信息的集合,这些信息土要以h t m l 诰言 编写的文本形式,分布在世界各地的w e b 服务器上,通过超链接将它f fj 联系起来。 l j 户使 用专fj 的软件来浏览和解释w e b 文本,经浏览器解释后的w e b 文本以页面的形式显示在 屏幕上。本文研究的l e 是对i n t e m e t 上的这些w e b 超文本资源的处理。 w e b 在中国的发展速度也十分惊人。根据c n n i c ( 中国互联网络信息中心) 2 0 0 7 年1 月2 3 日在北京发布的最新的中国互联网络发展状况统计报告,统计报告显示:中国互 联网行业继续2 0 0 6 年上半年快速发展的态势。其中网民人数、上网计算机数达剑了1 3 7 0 0 万人、5 9 4 0 万台,与去年同期相比分别增长了2 3 4 和2 0 o ;中国域名总数达剑4 ,1 0 9 ,0 2 0 个,其中c n 卜- 注册的域名达到1 , 8 0 3 。3 9 3 个,与去年同期相比,增长了6 4 4 ;中国嘲站 总数达剑了8 4 3 ,0 0 0 个,网页总数达剑4 4 7 亿个,网页字节总数为1 2 2 。3 0 6 g b 。 目前,各类机构和个人纷纷建立w e b 网站,向社会发布大鼙信息,各种服务都 现山 网络化的趋势。_ l j 户可以通过它们去了解各个公司的产品、营销促销活动、崩户手册和参 加虚拟户培i l l h 可以进入政府机构去查找它们的设计与功能、文件报告、统计资料、法 规条例、研究或投资项目;可以进入大专院校的网站去了解专业与课程、教师学生名单、 招生就业信息、科研项目和成果介绍;可以检索图书情报机构的服务功能、目录索引、电 子幽l 期刊、数字化幽片和音像数据、接受联网咨询服务和联网借阅服务等。可以说,w e b 为人f j 建立了一个新的生活环境,人们可以从中了解剑所需的几乎任何信息,井可以方便 地获取所需的多数信息。w e b 已经发展成信息资源机器极其丰富,网站遍布全球的海鼙信 息库。 但是i n t e m e t , :没有一个权威机构对其进行统管理。它不像图书馆那样,可以向刖 户提供经过选择的、有序的、系统的信息;也不像商增联机检索系统,提供的信息有一定 的格式,并按类型或学科进行分类,便于检索、便于利用。i n t e r n e t 上的网络信息具有以f 儿个特点1 2 1 。 1 信息内容覆盖社会各个领域,涉及范同广,数量惊人; 2 信息分散、无序、组织松散; 3 信息的动态性强,信息的增加、更新、删除及链接地址的转换,每时每刻在进行; 4 信息的利用价值差异丈,既有有用的信息,也有无用的信息、甚至还有有害的信 东南人学硕i :学位论文 息,而且相互混杂交织在一起。 5 | n t e m e t 上的信息早几何级数增长,而这些信息又是极其无序的。 由丁上述网络信息的特点,要想在这个浩瀚无垠,瞬息多变的信息海洋中迅速、准确 地我剑1 3 己所需要的信息无异于。大海捞针”,网络信息的易检性和易利用性筹,成为信息 利_ i j 的障碍。在此情况f ,人们长期以来习惯的信息获取方式已不再适h ,所需信息的组 织、整理、优化还需上网者自己来做。用户常常被淹没在沽繁的信息海洋中,难以获得对 白己有埘的信息。 面对浩瀚的信息资源,如何有效地检索w e b 信息,以帮助用户从大餐的w e b 页面集 合中找到与给定查询请求相关的w e b 页面子集。这一需求极大促进了互联网信息检索技术 的快速发展,搜索引擎应运而生,新的信息检索服务不断被推出。如1 9 9 3 年英国n e x o r 公司的m a r t i nk o s t e r 开发出最早的网上检索i :具a l i w e b 。1 9 9 4 年y a h o o 公司推出了基丁 日录的信息检索服务等。然而,这种服务还不完全具备通常意义上搜索引擎的功能。直剑 m i c h a e lm a u l d i n 将j o n el e a v i t t 的网络爬虫( 义称s p i d e r 、w e br o b o t 、c r a w l e r 、w o r m 、 w e b a n t s ,以f 简称爬虫) 程序植入到索引程序中,并研制成功了l y c o s 系统之后,才有 了第一个真止意义上的搜索引擎。 中国且联网络信息中心 a 州l c ) 2 0 0 7 年1 月发布的第1 9 次中国互联网络发展状况统 计报告1 3 1 表明:在对。网比平时主要浏览的网站”的调杏统计中,搜索引擎排列第二,仅 次丁人犁门户网站,占5 3 ;在对“网民经常使用的网络服务功能”的调布统计中,搜 索引擎排列第三 i 5 1 5 ,排在前两位的是收发邮件和浏览新闻,分删i f l5 6 1 和5 3 5 。 冈此,搜索引擎研究对于网络信息资源的有效开发和利用具有重要的意义,从而成为 计算机界竞相研究与开发的热点。各大j 户网站也纷纷转向对搜索引擎的研究,其中包括 s i n a 、搜狐、阿里巴巴等大型门户网站。 搜索引擎以一定的策略在i n t e r n e t 中搜集、发现信息,对信息进行理解、提取、组织 和处理,并为用户提供检索服务,从而起到信息导航的目的1 ”。搜索引擎是网络信息织织 的重要方式,也是网络信息检索的首选 具,它所提供的导航服务已经成为i n t e r n e t 上非 常重要的网络服务。随着w e b 的迅速增长,出现了许多国际、国内著名的搜索引擎,如: g o o g l e 、l i v e 、y a h o o 、a i r a v i s t a 、e x c i t e ,l y o o s 、i n f o s e e k ,a s k 、d o g p i l e 以及卣度、搜 狐s o g o u 、新浪i a s k 、网易y o d a o 、北大天网、中搜等。 由y - w e b 信息资源譬指数级增长且处在不断的变化之中,如果人j :地去检索和分类整 个w e b 信息资源将是一项艰巨而几乎不可能完成的1 :作。而网络爬虫由于它不需要人l :干 预,可以自动地在网络中穿梭,其信息采集速度、覆盖面和及时性较之人i :采集人人提高, 闪此当前绝大多数搜索引擎都是基于爬虫的搜索引擎。作为基于爬虫的搜索引擎的后台部 分,爬虫的爬行过程对于使h j 搜索引擎的_ i j 户而言是不可见的,其采集的结果通常在搜索 引擎的索引库覆盖范同、索引库容量和更新频率中得以体现。由于获取w e b 信息是建立搜 索引擎系统的第一步,网络爬虫的性能将直接影响剑使用网络爬虫的搜索引擎的性能。 主题搜索引擎是种只提供关于某主题或者领域的网页信息的搜索引擎,是基丁爬 虫的搜索引擎的一种新的发展形式,也是本论文的重点研究对象。由于主题搜索引擎只提 供主题领域内的信息奄询,这就要求主题爬虫在进行网上信息采集时,必须按照预先规定 的主题并采川相应的搜索策略去采集网上相关信息,过滤主题无关信息,从而减少被采集 的信息数繁,提高索引数据库中的信息质鼙。 为了提高主题爬虫获取主题信息的质颦,以及在给定_ i = | 户夯询的情况卜,主题搜索引 擎能够返【亓| 与j j 户查询更加相关的结果,我们有必要对主题搜索引擎进行深入的研究。 2 第一章弓f 言 1 2 国内外研究现状 如上 ,所述,搜索引擎是为解决网络信息获取困难而发展起来的一种信息检索j :具。它 人约经历了三代的更新发展,发展速度是非常迅猛。 第一代搜索引擎出现于1 9 9 4 年。这类搜索引擎索引一般都少于1 , 0 0 0 ,0 0 0 个网页,极 少重新搜集网页并更新索引。而且其检索速度非常慢,一般都要等待l o 秒甚至更k 的时间。 在实现技术上也基本沿增当时已较为成熟的信息检索( t n f o r m a t i o nr e t r i e v a l ,简称i r ) 、 网络、数据库等技术。它本质上相当予利用一些已有技术实现的一个w e b 上的应用。第一 代搜索引擎一般设计为综合性的门户网站,提供的服务种类多,内容j 泛,涉及的领域广, 通过分级目录浏览和关键词检索有找信息。冈其提供的是免费的人众化的综合性信息服务, 所涉及的范嗣广泛而不深入,故被称为水平犁f j 户网站。肖时的搜索引擎数据库容鼙小, 布洵算法简单,效率不高。但是,它改变了传统的检索方式,给用户带来了新鲜感,同时 对网络的发展起剑了极人的促进作j j 。 人约在1 9 9 6 年出现的第二二代搜索引擎系统丈多采j j 分布式方案( 多个微型计算机协同 i :作) 米提高数据规模、响麻速度和用户数鼍,它们一般都保持一个人约5 0 。0 0 0 ,0 0 0 网页 的索引数据库,每天能够响应1 0 , 0 0 0 , 0 0 0 次用户检索请求。1 9 9 7 年1 1 月,当时最先进的 儿个搜索引擎号称能建立从2 ,0 0 0 ,0 0 0 到1 0 0 ,0 0 0 ,0 0 0 的网页索引。a l t a v i s t a 搜索引擎声 称他f f 每天人概要承受2 0 ,0 0 0 ,0 0 0 次查询。中文搜索引擎虽然发展较晚,但是经常使州的 搜索引擎的网页数鼙也都在十万以上。然而匹配算法简单,用户满意度很低。 白1 9 9 8 年起到现在,出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索 引擎为第二代搜索引擎。以g o o g j e 和白- 度为代表的第三代搜索引擎有如f ) l 个特点i ”。 1 索引数据库的规模持续增人,一般的商业搜索引擎都保持在儿亿其至上卣亿张啊 页。 2 除一般意义上的搜索外,开始出现主题搜索、元搜索和地域搜索,很多小玳的乖 直门户网站即特定领域的门户网站开始使用该技术。 3 在检索内容方面,不仅能检索静态网页,而且能检索动态弼页以及d o e 、x l s 、p p t 、 p d f 等多种格式文档;并开始使h j 自动分类技术来组织网页。 4 检索结果相关度评价成为研究的焦点。其中最著名的是超链分析技术,在这方面 s t a n f o r d 人学的g o o g l e 系统 6 1 和i b m 的c l e v e r 系统在此方面作出了很人的贡献。 5 朝着智能化、个性化方向发展。随着海量信息检索技术的发展,基于搜索的席h j 越米越。泛。各大商业搜索引擎纷纷推出音乐搜索,图片搜索,电影搜索,新闻 搜索以及硬盘搜索等。人们逐渐把人i :智能、数据挖掘等技术引入剑信息检索领 域,使i n t e r n e t 上的搜索引擎朝着智能化、个性化的方向发展。 按照6 0 0 9 l e 公司总裁l a r r yp a g e 在2 0 0 0 年搜索引擎大会上的演讲,g o o g l e 当时止在 h j3 ,0 0 0 台运行l i n u x 系统的个人计算机在搜集w e b 上的网页,而且以每天3 0 台的速度向 这个微机集群里添加计算机,以保持与厨络的发展相同步。每台微机运行多个爬虫样序搜 集网页的峰值速度是每秒1 0 0 个网页,平均速度是每秒4 8 5 个网页,一天可以搜集超过4 0 0 0 ,0 0 0 个网页,i n t e m e t 在以每天一千万页的速度增长。现在搜索引擎成为人们学习生活 不可缺少的一部分,提供了对增譬信息进行搜索的有效手段。但是,现阶段搜索引擎仍存 在r 列一些缺陷。 1 搜索引擎的覆盖范丽降低。搜索引擎越来越以提供一个涵盖范围,“泛的信息了。 最人的搜索引擎如g o o g l e ,百度等也只可以索引静态网页的- - d , 部分。 2 访问的不平衡。搜索引擎主要i j 来检索主流网站。一般倾向1 :优先检索本国网站, 3 东南人学母il :学位论文 而其它地区的网站则非优先考虑( a l t a v i s m 是一个例外) ,他们更容易检索商业网 站而非教育网站;另外搜索引擎对检索结果没有采用一定的轮换机制。使得搜索 结果排在前面的几个网站在短时间内访问流量增加,面这些网站自身的硬件等设 备没有跟上用户获取信息的需求,所以对用户来说,获取信息的效果并不理想。 3 检索内容过时。返同的结果可能是几个尽之前的内容,缺乏时新性。 主题搜索引擎的引入有利丁解决通_ | j 搜索引擎所存在的问题。这种搜索引擎只提供戈 丁某一主题或者领域的网页信息,索引更小、更易于管理,而且对于专门领域有着较为强 人的功能。虽然通用搜索引擎对用户来说是当今在网络上寻找信息的屉重要的方法,但基 丁r 述理由我们仍然有必要来开发一些主题搜索引擎。 1 通心搜索引擎经常不能提供完整的信息。它们可能索引某个网站卜的一些页面, 但是每个网站的索引页面往往不可能超过定数量。这样,更深层次的内容就不 能从这样的通j l l j 搜索引擎中检索出来。面面向主题的搜索引擎可以检索所有的相 关网站。 2 通用搜索引擎的另一个薄弱之处是其往往不能维持最新的索引,冈为每大都会有 成千上万新的网页不断出现,而且人们并不知道这些网页在w e b 上的什么地方山 现,故有着庞大索引目录的通明搜索引擎很难及时更新其索引。而面向主题的搜 索引擎所维持的索引较小,因此索引更新相对比较容易。这样,用户就较易获得 最新信息。 3 面向主题的搜索引擎可以有更专业化的索引,可以根据主题的特点米创建领域柑 关的索引使其内容结构化更强,从而可以挖掘出更多的信息。 4 面向主题搜索引擎可以提供更多的专门化操作和奄询处理:当搜索引擎搜索某一 特定领域信息的时候,词汇的歧义将大大减少;同时也可以根据领域户的特点 来设计相应的检索接口。 5 面向主题的搜索引攀所提供的功能也可以方便地褴合到通用搜索引擎中。冈此它 也可以作为通用搜索引擎的一个补充。 由下面向主题的搜索引擎可以提供更高的精度以及更适合用户的功能,日前在国内外 都已经有了一定的发展。现今已经有了一些比较成功的面向主题的搜索系统,如;面向“计 算机相关论文”主题的c j t c s 嘟,面向“找工作”主题的f l i p d 0 9 ,g o 0 9 1 c 推出的论文搜糍 系统,卣度推出的幽片、m p 3 搜索系统等。 搜索引擎的出现在定群度上缓解了人们在w e b 上寻找信息的困难,但是却往往不能 得剑完全令用户满意的检索结果。另一方面,基于分类主题的搜索引擎通常要采川人i :方 式把网站上新出现的网页按照备主题进行分类,而目前网页数鼍的急刷增长使得人i :分类 方式难以应付。闪此,基了二分类主题的搜索引擎的索引页面的覆盖率目前仍然很低,从而 导致了h j 户的奄全率比较低。 此外,肖,咐户使j 【f 基于关键字查询的搜索引擎检索信息时,用户的商询表示往往与实 际的信息需求存在较大的差异。其主要原冈是:在信息检索的实际过程中,由_ 丁用户对 w e b 页面集和检索环境缺乏了解,以及自然语言的多义性和用户信息需求本身的随机性和 动态性( 用户可能并不完全准确的知道他们的信息需求是什么) ;用户的信息需求不能被充 分的表达,即便是经过专l j 检索训练的_ f j 户,也很难完全用基丁系统语青的提问米表达白 己的需求,这是由于大掇同义词和多义词的存在,使得用户提交的查询有一定的模糊性: 而且_ l j 户使_ l j 的词不规范,这些词与朋于文档索引的词和词组有很人差别。总而言之,在 进行信息夯询行为时,_ j 户的信息需求是模糊的,这给信息系统精确返同结果带米了巨人 的幽难。 再者,f u m a s 等人通过实验发现了所谓的词典问题( d i 州o n a r yp r o b l e m ) i :l :两个人使川 4 第一章引占 同样的关键词描述同一个事物的概率通常小于2 0 。另外,有研究表明网络_ l i j 户检索的壳 询中的8 5 是短查询( 即只包括3 个或更少数目单词的查询) 例。冈此,用户提交的南向 通常不能充分表达出检索相关文档所需的信息。目前,w e b 搜索引擎j “泛采j j 商洵扩展技 术米解决这个问题,并且取得了一定的成功。所谓“查询扩展”,就是在_ 【 j 户提交的原奄淘 的基础上加入与 j 户查询相关联的词组组成新的查询。该方法基丁二f 述的直觉假设:使 j 较多的词进行杏询可以获得比使熠较短的查询词更好的效果。 卉询扩展的研究一般基于特定的文献集,当把查询扩展技术运用剑搜索引擎中时,相 对于对文献的检索,搜索引擎中的检索系统除了可以使用来自w e b 页面本身中的信息之 外,还可以使用一些其它的附加信息,例如w e b 页面之间的超链接、锚文本、页面的标题、 w e b 页面的不同的布局风格等等。这些启发式的信息将影响等待添加的夯淘词的权重。布 询扩展技术与特定领域或者主题是紧密相关的。网站的信息组织方式中蕴含着人晕的芙丁: 该领域的知识,因此我们可以使用专_ j 爬虫对网站信息进行理解并形成主题词库来进行布 询扩展。 上e 是基丁上述的考虑,本文对查询扩展技术作了较为深入的研究,f = 提出了一种利用土 题专 爬虫所构建的词库来进行查询扩展的方法。该方法是基于查询扩展的信息检索的基 础上,主要利心基,网站理解的技术抽取主题网站的层次结构,来发现检索词之间存在的 犬系。通过面向领域进行检索词之间关系的发现来克服传统查询扩展方法的缺陷和不足, 从而能够提高信息检索系统的性能。 1 3 本论文的研究目标、内容及思路 本论文的研究目标是提高现有主题搜索引擎系统的查全率和查准率。为实现这个目标, 本文主要做了两方面的i :作:方面,本文将信息检索中的基于词库的查询扩展技术川丁 主题搜索引擎,在构建该主题词库时,本文使用了基于w e b 挖掘的方法构建土题网站的层 次化结构,然后从中抽取检索词之间的关系,从而获得主题词库。该词库将被州丁奄询扩 展。从而在一定程度上解决搜索引擎中存在的查询和文档表示不匹配的问题;另一方面 本文对土题搜索引擎中的核心模块主题爬虫进行了多种改进,如对主题词种子利u r l 种子 的扩充、解决主题搜索中的。穿越隧道”问题以及改进w e b 页面和u r l 主题相天性评价 器,以提高主题w e b 页面信息获取的质量和数域。 本文要展开的主要研究内容及其解决问题的思路如下。 1 如何设计并实现个主题搜索引擎。本文对主题搜索引擎的核心模块主题爬虫进行了 详细的设计,其中包括:采用元搜索等技术对种子进行扩充以获取更多的种子;提供 了主题爬行过程中的“隧道穿越”问题的一种解决方案;利用带标签权重的w e b 页面 表示方法,并使用基于语义块识别和模板过滤等技术来提高对u r l 和w e b 页面的士 题相笑性评价的效果。 2 如何设计一个专用爬虫来对网站进行层次化处理,从而抽取出主题检索词之间的荚系 井以此构建领域词库。通过w e b 页面语义块的识别、w e b 页面模板的过滤等技术,升 在其中加入域名之间的层次结构以及网站中网页文件的目录层次结构等启发式信息来 构建出主题网站的层次化结构,然后抽取出其中包含的检索词之间的相互关系。这些 关系包括位丁层次化结构中节点之间的包含和被包含关系,以及叶子节点的止文中的 检索词之间的共现关系。然后将抽取出来的检索词之间的关系存入到事先设计好的词 库结构中,供查询扩展使埘。 3 如何将构建的词库运用到设计实现的主题搜索引擎中。查询扩展的关键是,在_ l j 户的 商询请求中加入与查询相关的一些检索词,对其进行查询扩展。该步骤芙键在丁如何 5 东南大学碗t 学位论文 擞据构建的词库选择相应的检索词,包含商询检索的检索词选多少,查询检索词包含 的检索词选择多少、与查询检索词共现的检索词选择多少,等等。 4 实验与分析。对了:本文提出的方法进行实验,根据实验数据与其它查询扩展方法进行 比较,从而给出关于系统性能的分析。 1 4 本论文的章节安排 本论文共分为 章: 第一章为引言,介绍了论文研究的背景和意义,概述了当前搜索引擎技术发展的概况, 并介绍了本论文的研究目标、研究内容及解决问题的思路。 第一二章介绍了通用搜索引擎的分类以及性能评价方法,针对它的不足引出了主题搜索 引擎研究的必要性。本章还介绍并分析了主题搜索的发展现状、检索模璎、系统结构以及 主题爬虫模块中的一些关键技术。 第二章对查询扩展技术进行了介笤 和分析,包括全局方法、局部方法以及词表方法的 布询扩展技术。对w e b 挖掘技术,包括w e b 内容挖掘、w e b 结构挖掘、w e b 使川挖掘, 分别进行了讨论。 第四章是本论文的重点。作者在本章中提出了w e b 网站的三种层次化方法,其中晟重 要的方法是使_ h j 基于w e b 页面语义块识别等技术来构建网站的层次化结构,在该方法中, 作者提出了w e b 页面分块的新方法。并在此基础上进行w e b 页面模版的识别与过滤;然 后通过设计的专_ h j 爬虫完成层次化网站的构造,从中抽取出主题检索词之间的关系,存入 数据库中,供存询扩展使用。 第芤章在现有搜索引擎技术的基础上,提出了一个能够改善现有搜索引擎系统性能的 主题搜索引擎模型。本章对该搜索引擎的各个组成部分的功能及作用,涉及剑的核心模块 的设计进行了详细的说明。为了提高网页信息获取的质麓,本文重点对主题爬虫模块进行 了改进,包括种子扩充、隧道穿越、w e b 文本表示、评价器的设计等,从而设计并实现r 该主题搜索引擎。最后详细描述了实验的设计步骤,软硬件配置的情况以及最终的实验结 果雨f 对结果的评价。 第人章总结了论文的主要工作和研究成果,并对待完善的工作和未来的研究方向进行 了展望。 6 第一二章搜索引擎幕础 2 1 搜索引擎 第二章搜索引擎基础 随着信息时代的到来,w e b 上的信息正在飞速增长。然而,w e b 信息的急速增长,在 给人们提供丰富信息的同时,却在w e b 信息的高效便捷使j j 方砸给人们带了巨人的挑战: 方面w e b 上的信息种类繁多、丰富多彩,而另一方面却很难找到真止有埘的信息。 为了解决网上信息检索的难题,人们在信息检索领域进行了大鼙的研究,发展了以 w e b 搜索引擎为主的w e b 搜索服务,开发了各种搜索引擎。它们通常使_ h j 一个或多个网络 爬虫从i n t e m e t 上收集数据,然后在w e b 服务器上为这些数据创建索引,当_ 【 j 户搜索时根 据h | 户提交的卉询条件从索引库中迅速查找出所需的信息返回给_ l j 户。 2 1 1 搜索引擎分类 为了明确研究方向,研究者们往往根据所采用的技术手段和研究范嗣的不周,对搜索 引擎进行分类。目前使用最多的是两种分类方式。 、按照搜集信息的方法和提供服务的方式进行分类 按j 搜集信息的方法和提供服务的方式的不同,通常将搜索引擎分为三人类:基丁网 络爬虫的搜索引擎,目录式搜索引擎和元搜索引擎,分别介绍如f 。 i 基丁网络爬虫的搜索引擎 “搜索引擎”这个词的原义也仅指这种基于网络爬虫的狭义上的搜索引擎。该类搜索 引擎也叫全文搜索引擎或网页搜索引擎1 9 1 ,目前绝大多数的搜索引擎都属丁二这种类型。国 外典础代表有:g o o g l e ,a l t a v i s t a , e x c i t e ,l n f o s e e li n l a o m i ,f a s t , l y c o s ,a i i t h e w e b 和a s k j e e v e s 等;国内最具代表性的有:百度,天网,o p e n f i n d 等。 基丁j 网络爬虫的搜索引擎的基本工作原理,可以分为以下三个步骤。 ( 1 )从互联网上抓取网页 利h j 能够自动收集网页的网络爬虫,自动访问w e b ,并沿着网页中的所有u r l 获取 其它网页,重复该过程直到达到事先设定的条件为止 ( 2 ) 建立索引数据库 由索引系统样序对收集回来的网页进行分析,提取相关网页信息( 包括网页所在u r l 、 t i t l e 域、编码类型、网页内容包含的关键词、关键词位置、生成时间,大小、与其它网页 的链接关系等) ,然后 j 这些相关信息建立网页索引数据库。 ( 3 )在索引数据库中搜索并将返网结果捧序显示 当h j 户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的 所有相关网页。根据一定的相关度算法计算返同的结果网页与查询的相关度( 有螳结果已 经在建立索引数据库的时候已经建立好了,例如p a g e r a n k 值( 卸用户停留在w e b 页l f i i 上的 概牢它是与查询无关的全局值) 、检索词的词频等。相关度越高,排名越靠前。最厉,由 网页生成系统将搜索结果的链接地址和网页内容摘要等内容组织起来返同给h j 户。 由丁基丁网络爬虫的搜索引擎的优点是信息簧大、更新及时、不需人 干预。从理论 上讲,如果某网页中出现了_ i 户的秃询关键字,那么就将这一网页列入搜索结果,井将其 7 东南人学硕f :学位论文 返同给川户。其服务方式是面向网页的全文检索服务。虽然全文检索技术在w e b 搜索引擎 中取得了辉煌的成绩,但此类系统返同给用户的信息过多,而且很可能有许多无关信息, 且刚户没有足够的时间和精力来浏览搜索引擎查询到的每一页。 还有两个问题是与奄询关键词紧密相关的i l “。一是“忠实表达”问题:在很多情况f , j 4 j 户的需求很难简单地j j 关键词串来表达,表达的困难导致了检索的凼难。二是“表达筹 异”问题:同一概念可能使用不同的检索词米表达。因此对同一概念的检索,不同的h j 户 可能使t l j 不同的关键词来查询,例如:“计算机”和“电脑”表达的是同一个意忍。此外, 这类搜索引擎还存在着词汇的歧义问题,即同一词汇往往包含多个意思,被使州r 不同的 场合。上述这些问题都暴露了全文检索技术的一些缺陷。 2 目录式搜索引擎 目录式搜索引擎j ( d i r e c t o r ys e a r c he n g i n e ,也称为分类式搜索引擎) 与基丁网络爬 虫的搜索引擎的主要不同点在于,目录式搜索引擎的数据库是依靠专职编辑或忠愿人员建 立起来的,这些编辑人员在访问了某个w e b 网站后撰写一段对该网站的描述,井根据网站 的内容和性质将其归为一个预先分好的类别,把网站的u r l 和对网站的描述放在这个类别 中,从而形成分类目录。每个目录f 面还有更具体的子目录。信息的类别也由人剑小、由 粗剑细,整个搜索引擎形成一个层次型的类别目录。用户可以按分类目录逐层检索,一级 一级地向f 访问,直至找剑自己感兴趣的网站。 随着收录网站的增多,现在一般都是由网站管理者提交自己的网站信息剑某个分类目 录卜,然后由分类目录的编辑人员审核该网站的内容,以决定是否收录该网站。此类搜索 引擎的性能主要取决于所获取网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论