(地球探测与信息技术专业论文)主题搜索引擎的研究与应用.pdf_第1页
(地球探测与信息技术专业论文)主题搜索引擎的研究与应用.pdf_第2页
(地球探测与信息技术专业论文)主题搜索引擎的研究与应用.pdf_第3页
(地球探测与信息技术专业论文)主题搜索引擎的研究与应用.pdf_第4页
(地球探测与信息技术专业论文)主题搜索引擎的研究与应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(地球探测与信息技术专业论文)主题搜索引擎的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 主题搜索引擎的研究与应用 作者简介:黄波,男,1 9 8 1 年9 月出生,2 0 0 4 年9 月从师于成都理工大学苗放教授, 于2 0 0 7 年6 月毕业于成都理工大学地球探测与信息技术专业。 摘要 搜索技术的进步使得人类对数据、信息、知识进入了前所未有的共享模式。 搜索是虚拟的人类意识。搜索技术反映个体在特定时期和范围内的行为取向和信 息喜好,无数搜索的集合和综合信息最终可以用以推测人类作为整体的文化属 性。 随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满 足特定用户更深入的查询需求。因此我们需要一个分类细致精确、数据全面深入、 更新及时的面向主题的搜索引擎。主题搜索引擎是针对某一特定领域提供的有一 定价值的信息和相关服务。以构筑某一主题领域的i n t e r n e t 网络信息资源库为 目标,智能地在互联网上搜集符合此主题需要的信息资源。其特点就是“专、精、 深”,且具有行业色彩。 本文在基于l u c e n e 搜索引擎框架的研究和应用基础上,对它的设计原理和 特色以及评分体系进行深入的研究。n u t c h 是一个建立在l u c e n e 核心之上的w e b 搜索的实现。本文利用n u t c h 易于扩展的插件机制进行二次开发。研发一个第三 方工具把l u c e n e 特殊的数据格式转化为可视化的结构,以便研发人员对索引数 据进行分析查询。本文提出按主题行业分类信息,建立相关主题词库的观点,更 高效的快速建立主题搜索引擎,并结合改进的中文分词技术进行验证实现。论述 了主题搜索引擎对行业应用的可适用性。 关键词:搜索引擎,中文分词,知识共享,倒排索引,主题词库 成都理工大学硕士学位论文 t h er e s e a r c ha n da p p l i c a t i o no ft o p i c s p e c i f i cs e a r c he n g i n e i n t r o d u c t i o no ft h ea u t h o r :h u a n g b ow a sb o r no ns e p ,19 81 u n d e rt h e g u i d a n c eo f p r o f m i a of a n g ,h ew a sg r a d u a t e df r o mc o l l e g eo fi n f o r m a t i o n e n g i n e e r i n ga tc h e n g d uu n i v e r s i t yo ft e c h n o l o g y a b s t r a c t s e a r c ht e c h n o l o g yp r o g r e s sm a d eh u m a ns h a r i n gu n p r e c e d e n t e da c c e s so nd a t a , i n f o r m a t i o na n dk n o w l e d g e , s e a r c hi sav i r t u a lh u m a nc o n s c i o u s n e s s , s e a r c h t e c h n o l o g yr e f l e c t e dt h e b e h a v i o ra n di n f o r m a t i o np r e f e r e n c e si nt h ei n d i v i d u a l s p e c i f i cp e r i o d ,t h es e to f c o u n t l e s ss e a r c ha n dc o m p r e h e n s i v ei n f o r m a t i o ne v e n t u a l l y c a nb eu s e dt os p e c u l a t et h ed i r e c t i o no fm a n k i n da sa w h o l ec u l t u r a l w i t ht h eg r o w t ho fm u l t i - i n f o r m a t i o n ,p r o v i d i n ga l lu s e r sw i t ht h es a m ee n t r a n c e a p p a r e n t l yu n a b l et o m e e ts p e c i f i cu s e r sn e e d si n - d e p t hi n q u i r y s ow en e e da t o p i c o r i e n t e ds e a r c he n g i n ew h i c hc a nc l a s s i f ya c c u r a t e ,c o m p r e h e n s i v ea n di n d e p t h , u p d a t et i m e l yo nd a t a t o p i c s p e c i f i cs e a r c he n g i n ei st i e dt op r o v i d eas p e c i f i cf i e l d f o rac e r t a i nv a l u eo ft h ei n f o r m a t i o na n dr e l a t e ds e r v i c e s t h et a r g e ti st ob u i l d i n t e m e ti n f o r m a t i o nr e s o u r c e si ns o m ep a r t i c u l a rt o p i ca r e a ,i n t e l l i g e n tg a t h e r i n gt h e r e l a t e dt o p i ci n f o r m a t i o nr e s o u r c e so nt h ei n t e m e t i t sf e a t u r ei st h e ”s p e c i a l i z e d , s o p h i s t i c a t e d ,d e e p ”a n dt h ei n d u s t r yb a c k g r o u n d t h i sp a p e rb a s e do nl u c e n es e a r c he n g i n ef r a m e w o r kf o rt h er e s e a r c ha n d a p p l i c a t i o n ,i td e s c r i b e di nd e t a i lt h ed e s i g na n dc h a r a c t e r i s t i c s i ta l s os t u d i e sd e e p l y i nt h es c o r i n gs y s t e m n u t c hi saw e bs e a r c hi m p l e m e n t a t i o nw h i c hb u i l to nt h eb a s e o fl u c e n e n u t c hp r o v i d eac o m p l e t ep l u g i nm e c h a n i s mw h i c hc a nb ee a s i l ye x t e n d e d f o rs e c o n d a r yd e v e l o p m e n t t h i sp a p e rd e v e l o p sat h i r d - p a r t yt o o lt ov i s u a l i z et h e l u c e n es p e c i a ld a t af o r m a t ,i no r d e rt oc o n v e n i e n c et h ed e v e l o p e r st oa n a l y z ea n d s e a r c ht h ei n d e x i n gd a t a t h i sp a p e rr a i s eav i e wt oe s t a b l i s ha r e l a t e dt o p i c - d i c t i o n a r y f o ra l lk i n d so fd i f f e r e n tr e l a t e di n d u s t r y ,a n de s t a b l i s hat o p i cs e a r c he n g i n em o r e e f f i c i e n t l y ,a n dc e r t i f y i t b yt h eh e l p o fi m p r o v e dc h i n e s ew o r ds e g m e n t a t i o n t e c h n i q u e s t h e n d i s c u s s e dt h ea p p l i c a b i l i t y t h a tt h et o p i cs e a r c he n g i n ea p p l i e d t os o m ei n d u s t r y k e y w o r d s :s e a r c he n g i n e ,c h i n e s es e g m e n t a t i o n ,k n o w l e d g es h a r i n g ,i n v e r t e d i n d e x ,t o p i cd i c t i o n a r y i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得盛壑理王太堂或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 x - p 学位论文作者导师签名:勿饮 学位论文作者签名: 苍,胺 加7 年6 月 乙日 学位论文版权使用授权书 本学位论文作者完全了解盛都堡王太堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权盛壑理王太堂可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 事,波 乞滞 月1 日 第1 章引言 第1 章引言 1 1 搜索技术对人类的社会意义 最初搜索引擎技术和资本门槛本身并不高,但随着人性因素的彰显而进入深 度竞争阶段的互联网时代来临之后,搜索之争趋于深度竞争,深刻理解搜索对于 人类的社会意义将成为竞争战略和策略的研判前提。 一、搜索是社会化的信息处理 搜索技术的发展使得人类对数据、信息、知识的存取运动进入前所未有的共 享模式。在传统知识的整理层面,搜索技术的目标是重新建立人类传统知识的存 取秩序;在新知识的创新生产层面,搜索技术的目标是促进协同型知识机制的完 善,进而形成全面大众全面参与的知识社会;在社会公共生活层面,搜索技术的 目标是让自然界人类社会和思维的有用知识实现客观、公正、高效、完整的共享; 在个人化的网络生存层面,搜索技术的目标是方便个人无后顾之忧的获得最好的 信息。由上可知,搜索技术发展的目标是成为一种综合而客观的人类生存系统, 从个人和社会层面改变人类的生存状态。在不同层面,搜索的要求也会分别侧重 于客观、准确、及时、深入、创新、联系、思想、个性、娱乐、学习、教育等不 同的特性要求,人类社会生活有多么丰富多彩,搜索技术的未来空间就有多么宏 大无穷,搜索门类及其竞争领域就有多么复杂综合。在目前搜索发展阶段,大而 全的搜索巨头占据搜索舞台的主角地位,虽然未来多样化搜索竞争的战国时代必 然来临,但是当前搜索竞争的基本出发点还是必须建立在适度集中的搜索格局的 历史条件之上,g o o g l e 、百度等搜索巨头的方向,往往代表了人类搜索技术基于 现状的中期方向,其中最为核心的特征便是搜索竞争的深度化。 二、搜索是社会化的信息再生产 搜索技术进步使得个人、组织和社会面对全新的信息结构和知识模式,也使 得传统的、现实的、未来的信息面临全新的个人、组织和社会的需求特征,在两 者共同影响下,信息生产领域发生必然的变革,其典型标志便是搜索技术成为社 会化的信息生产的重要组成部分。搜索技术使得隐知识更深入快速的转化为显知 识,使得知识传播的范围空前扩大,使得社会性使用知识的权利空前平等,使得 个人的集合力量得以影响权威的形成、影响知识分享权力、影响知识生产过程, 在此基础上一种基于搜索的无界、高效、平等特性的全新的社会化信息再生产机 制应运而生,搜索的过程自身也因为其社会化属性而产生出人类前所未见的新信 息资源。 成都理丁大学硕+ 学位论文 三、搜索是虚拟的人类意识 人类的社会化特征是实现人类智能化的捷径,无数个体的关系集成、思维行 动及其综合形成的动态文化最终构成相对整体性的人类群体特征。进而指引全社 会进行人工智能似的思维和进步。以此角度看,搜索技术反映个体在特定时期和 范围内的行为取向和信息喜好,通过搜索我们获得了一条体现人类共同文化、时 尚、思维、偏好的新思路,无数搜索的集合和综合信息最终可以用以推测人类作 为拟人整体的文化属性,搜索信息流从某个角度完全可以视同人类社会的部分大 脑思维潜流,如果说过去因为搜索技术没有出现我们无法由信息集合的角度感受 人类虚拟大脑的思维流动,那么搜索技术的进步和成熟,搜索行为和信息的国民 性扩张,带领我们进入全新的人类自我意识的社会外化过程,通过搜索,人类个 体与人类整体之间可以实现空前畅通的对话。 四、搜索是全新的社会关系的大生产 搜索从面向信息的表层发展阶段必然向面向社会关系的深层发展阶段前进, 搜索的目的将不仅仅是对于信息的搜索,同时也是对于社会行为和社会关系的搜 索。从个体需求角度看,搜索满足对于信息的个性化需求;从组织需求的角度看, 搜索同时满足对于信息、社会行为特征和社会关系的个性化需求。一方面搜索技 术和服务的进步使得人类社会的共享型搜索数据库日益庞大,与此相对应人类知 识结构秩序的变革也必然日益深入,进一步与此相对应人类的基于知识的权力结 构的变革也必然日益深入。所以,未来社会性的强权来自庞大的搜索巨头并不是 杞人忧天。另外一方面,搜索技术和服务的进步使得人类社会行为特征和思维流 日益外化,历年积累的人类搜索进程的庞大数据成为搜索巨头的另外一大权力来 源,对这一权力源的监控和公开化必然在不远的将来列于网络最重要的议题之 一。由于搜索在社会关系变化中的外化和监控功能,搜索服务商在社会关系方面 可以发挥更大的影响力。从这个角度看,无论是否公开和共享搜索行为数据,搜 索技术本身都会自发的进行社会关系的大生产,只是其中存在是否公开流程、是 否大众参与、是否分享权力的不同情况而已【5 1 。 1 2 搜索引擎的发展历史 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆 炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大 众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a l a ne m t a g e 发明的a r c h i e 。虽然当时w o r l dw i d ew e b 还未出现,但网络中文件传输还是相 2 第1 章引言 当频繁的,而且由于大量的文件散布在各个分散的f t p 主机中,查询起来非常 不便,因此;k l a n e m t a g e 想到了开发一个可以以文件名查找文件的系统,于是便 有了a r c h i e 。 a r c h i e 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网 上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于a r c h i e 深受用户欢迎,受其启发,美国内华达s y s t e mc o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件 外,已能检索网页。 当时,“机器人”一词在编程者中十分流行。电脑“机器人”是指某个能以 人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息 的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人” 程序就被称为“蜘蛛”程序。 世界上第一个用于监测互联网发展规模的“机器人”程序是m a t t h e wg r a y 开发的w o r l dw i d ew e bw a n d e r e r 。刚开始它只用来统计互联网上的服务器数量, 后来则发展为能够检索网站域名。与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年l o 月创建了a l i w e b ,它是a r c h i e 的h t t p 版本。a l i w e b 不使用“机器人”程 序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的 y a h o o 。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此, 在m a t t h e wg r a y 的w a n d e r e r 基础上,一些编程者将传统的“蜘蛛”程序工作原 理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从 跟踪一个网站的链接开始,就有可能检索整个互联网。到1 9 9 3 年底,一些基于 此原理的搜索引擎开始纷纷涌现,其中以j u m p s t a t i o n 、t h ew o r l dw i d ew e b w o r m ,和r e p o s i t o r y b a s e ds o f t w a r ee n g i n e e r i n g ( r b s e ) s p i d e r 最负盛名。 然而j u m p s t a t i o n 和w 聊w o r m 只是以搜索工具在数据库中找到匹配信息的先后 次序排列搜索结果,因此毫无信息关联度可言。而r b s e 是第一个在搜索结果排 列中引入关键字串匹配程度概念的引擎。 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月。当时m i c h a e lm a u l d i n 将 j o h nl e a v i t t 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的l y c o s 。 同年4 月,斯坦福大学的两名博士生,d a v i df i l o 和美籍华人杨致远共同创办 了超级目录索引y a h o o ,并成功地使搜索引擎的概念深入人心。从此搜索引擎进 入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的 信息量也与从前不可同日而语。 随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目 成都理t 大学硕+ 学位论文 前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索 引擎技术和搜索数据库服务提供商。比如国外的i n k t o m i ,它本身并不是直接面 向用户的搜索引擎,而是向包括l o o k s m a r t 、m s n 、h o t b o t 等在内的其他搜索引 擎提供全文网页搜索服务。国内的百度也属于这一类,搜狐和新浪用的就是它的 技术。因此从这个意义上说,它们是搜索引擎中的搜索引擎。2 9 3 1 3 搜索引擎分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎、目录索弓1 类 搜索引擎和元搜索引擎。全文搜索引擎是最广泛也是用得最多的一种,一般所说 的搜索引擎都指的是全文搜索引擎。 全文搜索引擎是名副其实的搜索引擎,具代表性的有g o o g l e 、i n k t o m i 、百 度、中搜等。它们都是通过从互联网上提取的各个网站的信息而建立的数据库中, 检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用 户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的 检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则 是租用其他引擎的数据库,并按自定的格式排列搜索结果。 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅 是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分 类目录也可找到需要的信息。目录索引中最具代表性的是y a h o o 。国内的搜狐、 新浪、网易搜索也都属于这类。 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行查询,并将 结果返回给用户。著名的元搜索引擎有i n f o s p a c e 、v i v i s i m o 等,中文元搜索引 擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排 列搜索结果,如d o g p i l e ,有的则按自定的规则将结果重新排列组合,如 g i v i s i m o 。 除上述三大类引擎外,还有以下几种非主流形式: 1 、集合式搜索引擎:如h o t b o t 在2 0 0 2 年底推出的引擎。该引擎类似m e t a 搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4 个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。 2 、门户搜索引擎:如a o ls e a r c h 、8 s ns e a r c h 等虽然提供搜索服务,但自 身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 3 、免费链接列表:这类网站一般只简单地滚动排列链接条目,少部分有简 4 第1 章引言 单的分类目录,不过规模比起y a h o o 等目录索引来要小得多。 由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称 为搜索引擎。 1 4 搜索引擎组成及工作原理 搜索引擎主要由网络蜘蛛,索引器和查询器三部分组成。 ( 1 ) 网络蜘蛛( w e bs p i d e r ) 的主要功能是从指定的地址或网页出发遍历互联 网收集网页,并沿着任何网页中的所有u r l 爬到其它网页,重复这过程,并把爬 过的所有网页收集到页面存储库中。 ( 2 ) 索引器( i n d e x e r ) 对收集回来的网页进行分析,提取相关网页信息( 包括 网页所在u r l 、编码类型、页面内容包含的关键词、关键词位置、生成时间、大 小、与其它网页的链接关系等) ,根据一定的相关度算法进行大量复杂计算,得 到每一个网页( 针对页面内容) 及超链中每一个关键词的相关度( 或重要性) ,然后 用这些相关信息建立网页索引数据库。 ( 3 ) 当用户输入关键词搜索后,搜索请求经过分解,由查询器( s e a r c h e r ) 从 网页索引数据库中找到符合该关键词的所有相关网页。所有相关网页针对该关键 词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数 值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果 的链接地址和页面内容摘要等内容组织起来返回给用户。 搜索引擎的工作流程可以简化归结为以下四个步骤: ( 1 ) 网上抓取网页: ( 2 ) 建立索引数据库: ( 3 ) 在索引数据库中搜索: ( 4 ) 对搜索结果进行处理和排序。 网络蜘蛛从互联网上抓取网页,把网页送入页面存储库,从网页中提取u r l , 把u r l 送入u r l 数据库,网络蜘蛛控制得到网页的u r l ,控制网络蜘蛛抓取其它 网页,反复循环直到把所有链接的网页抓取完成。这其间也可以控制对网页索引 的深度和数目。 系统从页面存储库中得到文本信息,送入索引器模块建立索引,形成索引库。 同时进行链接信息提取,把链接信息( 包括锚文本、链接本身等信息) 送入链接数 据库,为网页评级提供依据。 5 成都理丁大学硕十学位论文 1 5 本文研究内容和成果 本文首先对搜索引擎的发展历史、现状、存在的问题及其未来发展趋势进行 了探讨,提出了基于行业主题词库的搜索引擎的研究思路,对主题词库进行优化 改进,并把计算所的提供的中文分词技术引进n u t c h 中。本文提出按主题行业分 类信息,建立相关主题词库的观点,更高效的快速建立主题搜索引擎。 本文对搜索引擎的研究成果如下: ( 1 ) 本文通过提出按主题行业分类信息,建立相关主题词库的观点,选择性 能好、效率高、经济合理的技术框架,从而更高效的快速建立主题搜索引擎。 ( 2 ) 对开源框架l u c e n e 的源码和结构进行了较为深入的研究,并在此基础上 进行二次开发,研发一个数据管理工具把l u c e n e 特殊的数据格式转化为可视化 的结构,以便研发人员对索引数据进行分析查询。 ( 3 ) 对某一主题网站建立索引库,并进行分析查询,把自己建立的主题搜索 引擎查询结果和网站现有的搜索结果进行比较分析,得出了较有意义的结果。 1 6 本文组织结构 本论文的总体结构是从理论的分析研究到实践尝试的过程,它由四个部分组 成: 第1 章:引言。主要通过阐述搜索引擎的社会意义,发展历史以及组成和工 作原理,进一步得出研究搜索引擎的必要性和发展意义。 第2 章:主题搜索引擎。讲述主题搜索引擎的研究内容,发展现状和突破创 新点,突出选择主题搜索引擎作为研究目标的可行性。 第3 章:l u c e n e 的实现原理及相关技术。通过对开源框架l u c e n e 进行详细 深入的研究,对实现源码加以改进,并引入相关增强用户体验的a j a x 技术和中 文分词技术来改进搜索引擎。 第4 章:主题搜索引擎的实现。通过建立一个实例搜索引擎来加以对比分析。 建立相关主题词库来优化索引内容,引入计算所的中文分词处理方式来改进主题 搜索引擎的查询结果。 6 第2 章主题搜索引擎 第2 章主题搜索引擎 2 1 主题搜索引擎研究的目的和意义 搜索是一种服务,外界对搜索引擎的评价体系形式多样,除了当前的竞价排 名,未来基于搜索的商业模式和业务模式会在网络广告、电子商务、付费信息服 务等方面有所突破,个性化搜索及搜索分析将占主导地位。 选择研究主题搜索而不是通用搜索引擎的原因:( 1 ) 搜索引擎的技术门槛 越来越高。g o o g l e 的创始人是超级名校s t a a f o r d 计算机系的p h i ) ,b a i d u 的r o b i n l i 也是领了多项搜索技术专利才敢切入搜索领域。可以说,没有3 年以上的搜 索技术积累,请不要涉及搜索领域。( 2 ) 搜索引擎的资金投入非常大,g o o g l e 光是爬虫服务器就数万之巨,再加上网络带宽的购买,相信这些投入非一般人可 以承受。可以说,没有千万级别的资金在手,请不要进入搜索引擎领域。( 3 ) 通用搜索引擎经过多年的发展已经非常成熟,各个巨头都已经各自占山为王,在 快鱼吃慢鱼的互联网里,落后就意味着无法生存。 随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满 足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下, 要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需 要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。由于主 题搜索运用了人工分类以及特征提取等智能化策略,因此它将更加有效和准确。 2 2 主题搜索引擎的发展 搜索引擎是上世纪9 0 年代兴起的信息检索技术,经过十多年的发展,它已 经渗透到了人们生活的各个领域。然而,传统的搜索引擎,也即通用搜索引擎, 考虑了所有人的需求,即不管用户是希望找计算机论文方面的信息还是要找篮球 运动的信息都一致对待,这样的搜索引擎需要耗费巨大的资源而速度较慢。并且, 由于通用搜索引擎所面向的领域太广泛,某些利于用户提高检索精度和查全率的 技术,比如自动分类,在其中的应用效果不理想。 所谓主题搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求提 供的有一定价值的信息和相关服务。以构筑某一专题或学科领域的i n t e r n e t 网络 信息资源库为目标,智能地在互联网上搜集符合这一专题或学科需要的信息资 源,能够为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、 7 成都理t 大学硕+ 学位论文 行业专家等等在内的信息用户,提供整套的网络信息资源解决方案。其特点就是 “专、精、深”,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。主 题搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内 容的深入,这个领域外的闲杂信息不收录。 2 3 主题搜索引擎的突破与创新 主题型搜索引擎与通用搜索引擎存在着很大的差别: ( 1 ) 服务目的不同 通用搜索引擎面向任何用户提供对任何信息的查询,而主题型搜索引擎则面 向专业用户向他们提供对特定专业的信息检索。 ( 2 ) 搜索方式不同 通用搜索引擎对网络进行逐页的爬行,试图遍历整个w e b 。而主题型搜索引 擎则采用一定的策略预测相关网页的位置,动态的调整网页爬行方向,使系统尽 可能的在与主题相关的网页集中的地方爬行,这节约了大量的网络资源。 ( 3 ) 对硬件和网络的要求不同 通用搜索引擎对硬件需求高,而主题型搜索引擎由于没有遍历整个w e b 节 约了大量的网络资源,而且没有自己的大型索引数据库,硬件需求也比较低。 主题搜索引擎的优势,将决定它在互联网的一席之地。主题搜索的突破点和 创新点在于: ( 1 ) 实时性 主题搜索引擎需要获取的信息来自于某一特定领域的,这比起通用搜索引擎 漫无边际的信息抓取,有一个非常大的优势,那就是信息的实时性。由于互联网 上的信息量非常巨大,通用搜索引擎的数据更新周期短则十几天,长则几个月, 而主题搜索引擎的数据更新完全可以以秒为单位。 ( 2 ) 数据挖掘分析,报表 行业的历史发展、最新动向、趋势都是行业从业人员非常关注的话题。主题 搜索引擎集中了行业海量的信息和数据,基于这些信息和数据的商务智能分析, 将为行业创造非常有价值的信息增值服务。 ( 3 ) 个性化,社会化 查询服务只是主题搜索引擎的一部分,主题搜索引擎在用户的个性化方向的 发展非常重要。主题搜索引擎不能只提供一个窗口,它应该是一个用户高度参与 交互的社会化平台。主题搜索引擎需要能够获取并且分析用户的偏好信息,从而 提供更加完善而且准确的数据服务。 ( 4 ) 智能化语义网 8 第2 章主题搜索引擎 语义网将有可能成为下一代互联网,这样网络上的数据和信息将被计算机程 序所理解。这将为主题搜索引擎提供一个巨大的机会,爬虫程序如果能理解网络 上的数据,将对信息的收集和整理更加准确和专业,搜索服务的查全率和查准率 将更高。 ( 5 ) 多元化查询 目前的搜索引擎,都只局限于关键字搜索,其中主要的原因是,对用户的查 询需求无法建模,无法模式化。而关键字搜索带来的问题是,搜索结果过多,并 且不准确。互联网信息量越大,这种情况越严重,甚至可以说是灾难。多元化查 询服务的提供,将会成为对抗竞争对手的杀手锏。 主题搜索引擎有着自己独特的架构( 如图2 1 ) ,有针对该相关主题领域的 主题词库,以供在建立索引时能够更加集中的把相关信息给予更高得评分。并随 时更新词库。 一查询k 一 查询,返回结果 l 接e li 查询日击 用户l 查询日志 到计算机专业词 , 兰警e 档集 i # 目甘口 自动 更新 计算机 主题词 血 爬虫 建立倒排 索引 文档过滤、 特征提取 索引信 息库 原始信 息库 图2 1 主题搜索引擎架构 f i g 2 - 1 f r a m e w o r ko ft o p i c - s p e c i f i cs e a r c he n g i n e 9 成都理。r 人学硕士学位论文 2 4 主题搜索引擎的国内外研究现状 主题搜索引擎大都处于研究和试验阶段,利用它搜索的结果再经过专业人士 的加工而形成的面向某一学科、领域的网络垂直门户网站己经出现。目前面向主 题的网络信息搜索主要有两种技术:i s 一是基于内容的搜索。这类搜索方式是传统的信息检索技术的延伸。它的主 要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其 内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相 同。现在这种词表的建设越来越多的引入了知识表示的方法。基于本体论 ( o n t o l o g y ) 的搜索引擎开始出现。一个本体强调相关领域的本质概念,同时也强 调这些概念间的本质联系。以o n t o l o g y 为基础建立的词表能更好的显示一个领域 主题中各个概念( 即搜索系统的检索词) 之间的关系,能更好的表现一个主题。在 w w w 的智能信息检索应用中,o n t o l o g y 通常作为用户感兴趣领域的领域模型, 同时还作为文档统一注释的知识表示语言。一些学者也提出了概念空间的理论, 用概念空间来实现语义索引。所谓概念空间是某个领域中一组抽象概念的集合, 并且这组概念之间存在一定的语义上的关联。基于概念空间的文本检索系统也较 好地解决了信息检索过程中的词汇不匹配的问题以及信息过载的问题,大大提高 了信息检索的效率和质量。 二是基于链接分析的检索。9 0 年代末期,国外信息检索界开始以s o c i a l n e t w o r k 为模型对互联网进行模拟。一些学者认为网页之间的链接指引关系同社 会网络中的关系有相似之处,尤其与传统的引文索引非常相似。通过对链接进行 分析,可以找出各个网页之间的引用关系,由于引用网页与被引用网页在内容上 一般都比较相关,所以就可以很容易地按照引用关系将大量网页分类。在美国, 很多基于这种超链分析的检索系统原形己经产生,应用于他们的数字图书馆系统 中。 下面介绍一些较具有代表性的系统。 ( 1 ) e l s e v i e r 的s c i r u s 系统 s c i r u s 科学搜索引擎是一种专为搜索高度相关的科学信息而设计的搜索引 擎,获得2 0 0 1 搜索引擎观察授予的“最佳专业搜索引擎”奖。s c i r u s 是目前 互联网上最全面、综合性最强的科技文献门户网站之一。它只面向包含有科学内 容的网站,如大学和作者个人主页以及e l s e v i e r 自己的数据库。 ( 2 ) b e r k e l e y 的f o c u s e dp r o j e c t 这个系统由一个印度裔的科学家s c h a r k r a b a r t i 带头从事,他是最早从事这 方面研究的人之一。该系统通过两个程序来指导爬行器:一个是分类器c l a s s i f i e r , l o 第2 章主题搜索引擎 用来计算下载文档与预订主题的相关度:另一个程序是净化器d i s t i l l e r ,用来筛选 那些指向很多相关资源的页面( 也称中心网页) 。 ( 3 ) n e c 研究院的c i t e s e e r c i t e s e e r 是个非常有名的针对计算机科学领域论文的检索系统。c i t e s e e r 的核心是a c i ( a u t o m a t i c a l l y c i t a t i o ni n d e x ) m ,它可以自动地对互联网上的电子 文件( p o s t s c r i p t 和p d f 等格式) 进行索引并分类。 ( 4 ) 美国国家科学数字图书馆的c o l l e c f i o nb u i l d i n gp r o g r a m ( c b p ) 这个项目旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试 图研究在某一主题上资源自动建设的可能性。c b p 具有自己的特点:第一,因为 c b p 是面向教育、面向教学的,所以主题精确度比覆盖度更重要;第二,c b p 不 存储资源原文,而只是提供u r l ;第三,c b p 只需要用户最少量的输入,如关键 词,系统就可以全自动的将有关该主题的最相关的有限数量u r l 返回给用户。 成都理工大学硕十学位论文 第3 章l u c e n e 的实现原理及相关技术 3 1l u c e n e 的框架结构 l u c e n e 是一个高性能、可伸缩的信息搜索库。它可以为自己的应用程序添 加索引和搜索能力。l u c e n e 是用j a v a 实现的成熟的、免费的开源项目,是著名 的a p a c h e 大家庭的一员,并且基于a p a c h c 软件许可。同时,l u c e n e 是当前与 近几年内非常流行的免费的j a v a 信息搜索库。其实现框架( 如图3 - 1 ) 图3 - 1l u o e n e 应用框架 f ;g 3 - 1a p p ii e df r a r ki nl u c e n e l u c e n e 是一个软件库,一个开发工具包,而不是一个具有完整特征的搜索 应用程序。它本身只关注文本的索引和搜索,并且这些功能完成的非常好。l u c e n e 使得应用程序只针对它的问题域来处理业务规则,而把复杂的索引和搜索实现隐 藏在一组简单易用的a p i 之后。可以把l u c e n e 认为成一层,而应用程序位于它 之上。 l u c e n e 并不关心数据的来源、格式、甚至它的语言,只要它能转换成文本。 这意味着能够利用l u c e n e 来索引和搜索以下格式的文件:远程w e b 服务器上 的w e b 页面,存放在本地文件系统中的文档,简单文本文件,m s w o r d 文档, h r m l 或p d f 文件,以至于其它任何能够抽取出文本信息的文件格式。同时 1 2 第3 章l u c e n e 的实现原理及相关技术 l u c e n t 能够索引存储在数据库中的数据,给予用户许多数据库都不能提供的全 文检索功能。l u c e n t 提供了一些核心类用于在应用程序中增加索引和搜索功能。 3 1 1l u c e n e 的详细结构分析 使用l u c e n t 提供的a p i 来做基础开发需要熟悉它的开发流程结构( 如图3 2 ) 图3 - 2l u c a n e 的流程图 f i g 3 - 2f i o wc h a r ti nl u c e n a l u c e n e 十分精练纯粹,仅一个j a r 包,可以直接引用到工程中,通过调用其 接口,就可以为应用增添全文检索功能。l u c c n e 使用起来很简单,与j d b c 有 些类似。l u c e n e 的结构很清晰,每个p a c k a g e 司职一项,且l u c c n e 的主要动作 都采用了抽象类,扩展起来十分方便。相对于一些商业化全文检索,l u c c n e 的 入库速度更快。因为它的存储采取分步合并的方法,先建立小索引,待时机成熟 才把小索引合并到大索引树上。l u c e n t 性能稳定,使用简单。因此,我们在操 作应用数据时可以同步进行全文检索库的操作而不会影响系统的效能。 l u c e n e 的组成结构分析:对于外部应用来说索引模块( i n d e x ) 和检索模块 ( s e a r c h ) 是主要的外部应用入口: 表3 - 1l u c e n ea p i 类包结构 t a be 3 - 1s t r u c t u r eo fiu c o l l 0a pi 成都理工大学硕十学位论文 o r g a p a c h e l u c e n e q u e r y p a r s e d 查询分析器 o r g a p a c h e l u c e n e d o c u m e n t 存储结构 o r g a p a c h e l u c e n e s t o r e 底层i o 存储结构 o r g a p a c h e l u c e n e u t i l 一些公用的数据结构 对文档进行索引,l u c e n e 提供了五个基础的类,他们分别是d o c u m e m ,f i e l d , i n d e x w r i t e r , a n a l y z e r ,d i r e c t o r y 。 d o c u m e n t :描述文档,文档可以是h t m l ,t x t 等等,它由f i e l d 组成。可以把 d o c u m e n t 看成记录,f i e l d 看成字段 f i e l d :文档的属性,比如文档的标题。 a n a l y z e r :在一个文档被索引之前,首先需要对文档内容进行分词处理,这 部分工作就是由a n a l y z e r 来完成的。a n a l y z e r 类是一个抽象类,它有多个实现。 针对不同的语言和应用需要选择适合的a n a l y z e r 。a n a l y z e r 把分词后的内容交 给i n d e x w r i t e r 来建立索引。 i n d e x w r i t e r :是l u e e n e 用来创建索引的一个核心的类,作用是把一个个的 d o c u m e n t 对象加到索引中来。 d i r e c t o r y :这是一个抽象类,它目前有两个实现,第一个是f s d i r e e t o r y , 它表示一个存储在文件系统中的索引的位置。第二个是r a m d i r e c t o r y ,它表示 一个存储在内存当中的索引的位置。 下面主要介绍l u c e n e 的各个文件包详细组成 1 、o r g a p a c h e 1 u c e n e d o c u m e n t 以下介绍两种主要的类: a ) o r g a p a c h e 1 u c e n e d o c u m e n t d o c u m e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论