（计算机应用技术专业论文）luder基于内容的文档搜索引擎.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：70 大小：2.19MB 积分：0 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

（计算机应用技术专业论文）luder基于内容的文档搜索引擎.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要 w e b 搜索技术的发展，加快了用户在海量信息的互联网上查找需要的信息的速度，极大地推动了网络资源的共享。与此同时，同等重要的本地文档资源被忽视了而且由于本地文档资源的特殊性，不可能与w e b 共享。用户在本地文件系统中查相关性质的文件内容时，需要不断地翻阅目录去阅读这些文件，严重地降低了文档查找效率，本地文档资源没有有效的利用。本文研究并实现基于全文检索的桌面文档搜索引擎，在l u c e n e 开源搜索框架基础上，重新封装核心功能，实现对多种格式的本地文档搜索功能，使用户在系统中全局地掌握桌面文档资源；构建基于s r l 图形界面库可移植的交互界面，让用户方便地与系统交互；运用中文分词理论实现支持中英文的 m a n d a r i n a n a y l z e r 、基于词典的分析、分词模块，最大可以支持5 个汉字词的模式匹配，解决了l u c e n e 对中文支持不好的问题；针对不同格式的文档，构建多种类型解析器( p a r s e r ) 抽取文档文本用于建立索引，支持多种流行的文档格式。本系统有效地解决了桌面应用中对于文档查询的问题，实现基于内容查找、提高查找效率与速度，更有效地利用桌面文档资源。关键词：搜索引擎、桌面搜索、全文检索、倒排索引，文档格式、l u c e n e 、中文分词 a b s t r a c t t h ed e v e l o p m e n to ft e c h n o l o g yi nw e bs e a r c h i n gq u i c k e nt h es p e e do fu s e r s s e a r c h i n gt h e i ru s e f u li n f o r m a t i o ni nh u g ei n t e r a c ta n dp r o m o t et h es h a r i n go fi n t e r n e t r e s o u r c e se x t r e m e l y m e a naw h i l e ，t h es a m ei m p o r t a n tn a t i v ed o c u m e n tr e s o u r c e sa s t h ew e bw e r fd e g l e c ta n dt h e s er e s o u r c e sc o u l d n tb es h a r e dw i t hw e bb e c a u s eo f t h e i rs p e c i a l i t y w h e nu s e rs e a r c hr e l a t e dd o c u m e n ti nn a t i v ef i l es y s t e m ，t h e yj u s t n e e db r o w s et h ed i r e c t o r yb a c ka n df o r t ht h e nr e a dt h e m , t h a tr e d u c et h es e a r c h i n g e f f i c i e n c yd r a m a t i c a l l ya n dt h en a t i v ed o c u m e n tr e s o u r c e s c a n tb eu s e de f f e c t i v e l y t 1 l i sp a p e rr e s e a r c ha n db u i l daf u l l t e x t - b a s e dd e s k t o pd o c u m e n ts e a r c he n g i n e i t w a sb a s e do n “l u c e n e o p e ns o u r c es e a r c h i n gf r a m e w o r ka n dr e s e a l e dt h e l u c e n e ” sk e m e lf u n c t i o n i tc a ns e a r c hm u l t i p l ef o r m a to fn a t i v ed o c u m e n ta n dg i v eu s e ra # o b a lv i e wo fd e s k t o pd o c u m e n tr e s o u r c e s c o n s t r u c t i n gt h et r a n s p l a n t a b l e u s e r i n t e r f a c eb a s e do ns w tg u i l i b r a r yt oi n t e r a c tw i t hu s e rc o n v e n i e n t l y as e g m e n t i n g m o d u l en a m e d “m a n d a r i n a n a l y z e r w a sb u i l ti n t ot h i ss y s t e mb a s e do nt h ed i c t i o n a r y i tb o t hc a ns u p p o r tc h i n e s ea n de n 掣i s hs e g m e n t i n ga n dc a nm a t c h 伽em a x i m a l c h i n e s ew o r d sp a t t e r nt os o l v et h ep r o b l e mo f “l u c e n e ”，sw e a ki nc h i n e s es u p p o r t i n g t os u p p o r tm o s to fd o c u m e n tf o r m a ti nf a s h i o n ，m u l t i p l e - f o r m a t s u p p o r t i n gp a r s e r m u s tb ea d d e di n t ot h es y s t e mt oe x t r a c tt h et e x tf r o mt h ed o c u m e n t t h i ss y s t e m s o l v e dt h ep r o b l e mo fd o c u m e n ts e a r c h i n gi nd e s k t o pa p p l i c a t i o ne f f e c t i v e l y , s u p p o r t e ds e a r c h i n go nc o n t e n t a n di n c r e a s e db o t ht h ee f f i c i e n c ya n ds p e e do f m a r c h i n gt om a k eu s e o ft h ed e s k t o pd o c u m e n tr e s o u r c e se f f e c t i v e l y k e y w o r d ：s e a r c he n g i n e , d c s k t o ps e a r c h i n g , f u l l - t e x tr e t r i e v a l ，i n v e r t e di n d e x ， d o c u m e n tf o r m a t , l u c e n e ，c h i n e s es e g m e n t i n g 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果，除了文中特别加以标注和致谢之处外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得丢洼王些太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。文作者躲绣谚签字日期炒7 年月纠日学位论文版权使用授权书本学位论文作者完全了解云洼王些太堂有关保留、使用学位论文的规定。特授权丞洼王些太堂可以将学位论文的全部或部分内容编入有关数据库进行检索，并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名：签字日期：呷年，月弓f e l 导师签名：触窬签字日期：刃年1 月多1 日哆门馁学位论文的主要创新点一、在开源搜索框架l u c e n e 之上构建本地文档搜索系统，实现基于j a v a h p p l i c a t i o n 的全文搜索。二、界面与内核分离，构建桌面文档搜索内核，内核可以单独使用( 命令行) ；使用s w t ( s t a n d a r dw i d g e tt o o l k i t ) 图形界面库构建界面，提供跨操作系统的移植性。三、实现基于词典的中文分词系统，支持中文( 简体、繁体) 、英文分词；最大可支持到5 个汉字词匹配；词典具有学习能力；使用序列化技术将词典转换成内存词典，提高切分速度。四、支持多种格式文档，如d o c 、p d f 、r t f 、t x t 、h t m l 、x m l 等，并可以扩展支持文档格式，系统中看不到非支持的文档文件。五、使用线程技术解决本地文档修改后索引不同步问题。第一章绪论第一章绪论 1 1 课题的研究现状与前景随着互联网规模的急剧膨胀，网络的信息量也在爆炸性增长，如何在海量信息中寻找有用的信息成了热门的研究课题。据统计w e b 上已经拥有1 0 0 亿左右的静态网页和5 5 0 亿左右的动态网页。在如此浩瀚的信息海洋里寻找信息，如同“大海捞针”，方便快捷的搜索引擎为快速查找提供了可能，这也是搜索引擎高据榜首的原因之一。目前人们从网上获得信息的主要工具是浏览器，而通过浏览器得到信息通常有三种方式。第一，直接向浏览器输入一个关心的网址，浏览器返回所请求的网页，根据该网页内容及其包含的超链接文字的引导，获得自己需要的内容；第二，登录到某个知名门户网站，例如w w w y a h o o c o m ，根据该网站提供的分类目录和相关链接，分类浏览：第三，登录到某个搜索引擎网站，例如w w g o o g l e c o m ，输入所需要信息的关键词或者短语，依据返回的相关信息列表、摘要和超链接引导，直接浏览含有需要内容的网页。这三种方式各自的特点，也有自己适合的应用场合。第一种方式的应用是最有针对性的，例如要了解天津工业大学研究生毕业相关信息，得知研究生部的网址为h t t p ：2 1 1 6 8 1 1 5 9 8 ，于是直接用其驱动浏览器就是最有效的方式。第二种方式的应用类似于看书，用户没有明确的目的，只是想看看网上有意思的消息；当然这其中也可能是关心某种主题，例如伊拉克战事，国际经济动态等。第三种方式适用于用户大致上知道自己需要的内容，例如“j a v a 技术动态”，但不清楚哪里能够找到相关信息( 即不知道哪些u r l 能给出这样的信息) 。在这种场合，搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表，由用户逐个点击浏览。现在看来，第三种方式有逐步取代前两种方式的趋势，因为人们工作生活节奏在加快，众多的网址是不可能一一记住的，而且对于门户网站眼花缭乱的界面，寻找自己需要的信息比较费时，用户倾向于直接定位到自己关心的网页的网址而不是去逐级查找。搜索引擎中具代表性的有g o o g l e ，a 1 t av i s t a ，l n k t o m i ，t e o m a ，w i s e n u t 等，国内著名的有b a i d u 、天网。它们都是通过从互联网上提取的各个网站的信息( 以网页文字为主) 而建立的数据库中，检索与用户查询条件匹配的相关i 己录，然后按一定的排列顺序将结果返回给用户。其中g o o g l e 与b a i d u 比较典型。g o o g l e 第一章绪论以其“p a g e r a n k ”、冲浪模型、分布式搜索系统等优秀技术占据了搜索市场的领导地位，但是在中文搜索方面，不如b a i d u 优秀。b a i d u 在中文处理方面具有世界尖端的中文处理技术，成为中文搜索引肇市场中的领军人物。目前，搜索引擎市场正在蒸蒸日上，搜索技术几乎在有网络的地方都会有搜索的需求。各大门户网站纷纷购买搜索引擎嵌入到网站中，提高自己网站的服务、各公司主页也积极参加各搜索网站的竟价排名，提高网站的点击率、不同用途的搜索引擎也被应用到不同的领域产生了相当的效率，节省了人力，为走出泡沫的互联网带来了它的第二个发展期。这一切正式搜索给其注入的崭新的力量，才得以实现。搜索技术正在融入其他领域应用中例如，机器翻译、语音搜索、图像搜索等。其中，机器翻译存在已久，但其翻译质量与速度都是无法忍受的，融入搜索技术的机器翻译已经达到了基本的翻译水平，有些甚至超出人工翻译水平，可以翻译俚语等。同时自然语言理解的方面的技术越来越被搜索所重视，搜索技术正向智能搜索方向前进。 1 1 1 搜索引擎发展历史搜索技术发展到今天是若干种搜索技术进化的结果，因此有岿要了解一下搜索技术的历史：在互联网发展初期，网站相对较少，信息查找比较容易。然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。最初的搜索引擎的研究都是在西方国家展开的，因此首先了解一下英文搜索引擎的发展历史。谈到搜索引擎不能不j 氓a r c h i e 说起，它是现代意义上的搜索引擎的鼻祖， 1 9 9 0 年由蒙特利尔大学学t k a l a ne m t a g e 发明。虽然当时w w w 还未出现，但网络中文件传输还是相当频繁的，而且由于大量的文件散布在各个分散的f t p 主机中，查询起来非常不便，因此a l a na r c h i e 工作原理与现在的搜索引擎已经很接近，它依靠脚本程序自动搜索网上的文件，然后对有关信息进行索引，供使用者以一定的表达式查询。由于a r c h i e 深受用户欢迎，受其启发，美国内华达s y s t e m c o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具，不过此时的搜索工具除了索引文件外，己能检索网页。当时，“机器人”一词在编程者中十分流行。电脑“机器人”( c o m p u t e r r o b o t ) 是指某个能以人类无法达到的速度不问断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去。因此，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是m a t t h e wg r a y 开发的w 孵w a n d e r e r 。刚开始它只 2 第一章绪论用来统计互联网上的服务器数量，后来则发展为能够检索网站域名。与w a n d e r e r 相对应，m a r t i nk o s t e r 于1 9 9 3 年l o 月创建了a l i w e b ，它是h r c h i e 的h t t p 版本。 a l i w e b 不使用“机器人”程序，而是靠网站主动提交信息来建立自己的链接索引，类似于现在著名的y a h o o 。随着互联网的迅速发展，使得检索所有新出现的网页变得越来越困难，因此，在m a t t h e wg r a y 的w a n d e r e r 基础上，一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是，既然所有网页都可能有连向其他网站的链接，那么从跟踪一个网站的链接开始，就有可能检索整个互联网。到1 9 9 3 年底，一些基于此原理的搜索引擎开始纷纷涌现，其中以j u m p s t a t i o n 、t h ew o r l dw i d ew e bw o r m ( g o t o 的前身，现在的o v e r t u r e ) ，和r e p o s i t o r y b a s e ds o f t w a r ee n g i n e e r i n g ( r b s e ) s p i d e r 最负盛名。然而j u m p s t a t i o n 和w e bw o r m 只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果，因此毫无信息关联度可言。而r b s e 是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。最早现代意义上的搜索引擎出现予1 9 9 4 年7 月。当时m i c h a e l i a u l d i n 将j o h n l e a v i t t 的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的l y c o s 。同年4 月，斯坦福( s t a n f o r d ) 大学的两名博士生，d a v i df ii o 和美籍华人杨致远( g e r r y y a n g ) 共同创办了超级目录索弓i y a h o o ，并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。比如最近风头正劲的g o o g l e ，其数据库中存放的网页已达3 0 亿之多。 i n f o s e e k 是另一个重要的搜索引擎。起初，i n f o s e e k 只是一个不起眼的搜索引擎。沿袭y a h o o 和l y c o s 的概念，并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明，起初第一个登台并不总是很重要。i n f o s e e k 友善的用户界面、大量附加服务使它点击率暴增。而1 9 9 5 年1 2 月与n e t s c a p e 的战略性协议，使它成为一个强势搜索引擎：当用户点击n e t s c a p e 浏览器上的搜索按钮时，弹出 i n f o s e e k 的搜索服务，而此前由y a h o o ! 提供该服务。 1 9 9 5 年，一种新的搜索引擎形式出现了于己搜索引擎( am e t as e a r c h e n g i n e ) 。用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。第一个元搜索引擎，是w a s h i n g t o n 大学硕士生e r i c s e l b e r g 和o r e f te t z i o n i 的m e t a c r a w l e r 。元搜索引擎概念上闻名，但搜索效果始终不理想，所以没有哪个元搜索引擎有过强势地位。 1 9 9 8 年l o 月之前，g o o g l e 只是s t a n f o r d 大学的一个小项目b a c k r u b 。1 9 9 5 年博士生l a r r yp a g e 开始学习搜索引擎设计，于1 9 9 7 年9j q l 5 同注册t g o o g l e c o m 3 第一章绪论的域名，1 9 9 7 年底，在s e r g e yb r i n 和s c o t th a s s a n 、a l a ns t e r e m b e r g 的共同参与下，b a c k r u b 开始提供d e m o 。1 9 9 9 年2 月，g o o g l e 完成了从a l p h a 版至o b e t a 版的蜕变。 g o o g l e 在p a g e r a n k 、动态摘要、网页快照，d a i l y r e f r e s h 、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新，像 a 1 t a v i s t a 一样，再一次永远改变了搜索引擎的定义。在2 0 0 0 年中以前，g o o g l e 虽然以搜索准确性备受赞誉，但因为数据库不如其它搜索引擎大，缺乏高级搜索语法，所以使用价值不是很高，推广并不快。直到2 0 0 0 年中数据库升级后，叉借被y a h o o 选作搜索引擎的东风，才一炮走红。随着互联网规模的急剧膨胀，一家搜索引擎单枪匹马已无法适应目前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。像国外的i n k t o m i ，它本身并不是直接面向用户的搜索引擎，但包括o v e r t u r e 、l o o k s m a r t 、m s n 、h o t b o t 等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类，搜狐和新浪就使用他的技术。因此从这个意义上说，它们是搜索引擎的搜索引擎。关于搜索引擎技术的研究，国外比我国要早近十年，从最早的a r c h i e ，到后来的e x c i t e ，以及a 1 t av i s t a 、o v e r t u r e 、g o o g l e 等搜索引擎面世，搜索引擎发展至今，已经有十几年的历史，而国内开始研究搜索引擎是在上个世纪末本世纪初。在许多领域，都是国外的产品和技术一统天下，特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等，但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究，但在国内还是陆续涌现出优秀的搜索引擎，像百度、中搜等。目前在中文搜索引擎领域，国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面，有一个重要的原因就在于中文和英文两种语言自身的书写方式不同，这其中对于计算机涉及的技术就是中文分词。中文搜索引擎的大概经历三个发展阶段：第一阶段为中文搜索引擎的引进阶段。互联网在大陆联通的前几年，国内各大门户网站基本上是从国外买来英文搜索软件的汉化版或台湾软件商的产品。在引进这些产品时，由于缺乏统一的规划和协调，存在重复引进的现象，如 2 6 3 与中华网使用的都是台湾“龙卷风”搜索软件。第二阶段为中文搜索引擎百家争鸣时期。由于引进的搜索引擎存在各种各样的缺陷，从1 9 9 7 年开始，一些颇有实力的公司、大学或机构开始设计中文搜索引擎。如搜狐由北京爱特信( i t c ) 公司开发；广州视窗由广州网易公司开发；天网由北京大学开发；北极星由中国科技信息所和万方数据( 集团) 公司共同研制 4 第一章绪论开发；若比邻由中国科学院计算机网络信息中心与中国互联网络信息中心( c n n i c ) 共同开发等。其中，“北大天网”是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果，由北大计算机系网络与分布式系统研究室开发，于1 9 9 7 年l o 月2 9 日正式在c e r n e t 上提供服务。2 0 0 0 年初成立天网搜索引擎新课题组，由国家9 7 3 重点基础研究发展规划项目基金资助开发，收录网页约6 0 0 0 万，利用教育网优势，有强大的f t p 搜索功能。第三阶段为中文搜索引擎两家争霸时期。进2 0 0 1 年以后，国内一些门户网站纷纷更换搜索引擎。2 0 0 1 年8 月发布b a i d u c o m 搜索引擎b e t a 版。同时，搜狐宣布与百度公司合作。2 0 0 1 年l o 月2 2 n 正式发布b a i d u 搜索引擎。b a i d u 虽然只提供中文搜索，但目前收录中文网页超过9 0 0 0 万，可能是最大的中文数据库。b a i d u 搜索引擎的其它特色包括：网页快照、网页预览预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、f l a s h 搜索、信息快递搜索。2 0 0 1 年1 1 月，新浪正式对外宣布与互联网技术提供商百度建立合作伙伴。我们从两家搜索引擎的检索结果中可以看到“p o w e r e db yb a i d u ”的字样。2 0 0 2 年3 月闪电计划开始后，技术升级明显加快。至今为止，百度公司开发的搜索引擎已分别被新浪、搜狐、广州视窗、中国入、硅谷动力等网站采用，约占中文搜索引擎市场份额的8 0 。而另外一家搜索引擎服务提供商是g o o g l e ，它主要提供给、y a h o o 和网易。 1 1 2 搜索引擎概念与分类搜索引擎是指因特网上专门提供查询服务的一类网站，它以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的作用。从使用者的角度看，这种软件系统提供一个网页界面，让他通过浏览器提交一个词语或者短语，然后很快返回一个可能和用户输入内容相关的信息列表( 常常会是很长一个列表，例如包含l 万个条目) 。搜索引肇系统按照索引方式分类可以分为：目录搜索引擎：将收集到的信息分门别类，用户可在目录的引导下，逐层的浏览主体和类别，直到找到所需要的目标。典型的基于目录的搜索引擎是 y a h o o 。这类搜索引擎常需要认为维护，虽然内容质量高，覆盖广，但建立和维护昂贵，信息量少，信息更新不及时，比较主观。而且更重要的是主题的选择与建立需要时间不断积累才能判断出。不过，现在的发展趋势正朝着自动目录搜索方向发展。机器搜索引擎：是指通过网络蜘蛛，或网站登录等方式，以某种策略自动地在互联网中搜集和发现信息，经过加工处理后建库，从而能够对用户提出的各种查询做出响应，提供用户所需的信息。该类搜索引擎的优点是信息量大，更第一章绪论新及时、无需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的代表是：a l t a v i s t a 、n o r t h e r nl i g h t 、e x c i t e 、 i n f o s e e k 、i n k t o m i 、f a s t 、l y c o s 、g o o g l e ；国内代表为：“百度”、“天网”等。目录式搜索引擎和机器人搜索引擎，各有优缺点，应用都很广泛。机器人搜索引擎的自动化程度比目录式搜索引擎高。网络信息量太大了，用计算机代替人去查找，可以节省大量的人力，现在流行的搜索引擎主要指的是机器搜索引擎。元搜索引擎：这类搜索引擎没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是不能够充分使用搜索引擎的功能，用户需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、i n f o m a r k e t 等。按照查询类型分类可以分为：目录检索( 主体型查询) ：将收集到的信息分门别类，用户可在目录的引导下，逐层的浏览主体和类别，直到找到所需要的目标。典型的基于目录的搜索引擎是y a h o o 。这类搜索引擎常需要认为维护，虽然内容质量高，覆盖广但建立和维护昂贵，比较主观。而且更主要的是主体的选择与建立需要时间不断积累才能判断出。不过，现在的发展趋势正朝着自动目录搜索方向发展。全文检索( 关键字查询) ：这类搜索引擎通常不需要分类，利用关键字来索引w e b 页面。在搜索结果中，相关性较强的页面一般排在清单前面。通常这类搜索引擎都是自动维护的，由软件完成分类，索引，存储，查询，定期更新维护的功能，建立与维护相对便宜，发展快，但过分依赖于分析算法，有时会返回无用页面，对程序的健壮性要求较高。按照应用类型分类可以分为：综合搜索引擎：内容可以涵盖各个专业与领域，适用面广，其应用最为广泛。这种类型的检索工具可以就任何一个专业，任何一组关键字进行检索，但返回的结果往往成千上万，而且正是由于综合搜索引擎信息种类繁多，这会导致一种局面那就是对于总体的信息检索范围广泛，而对于某一特定专业领域信息不全面，深度不够。特殊型搜索引擎：只涵盖特定的专业与领域，或针对特殊的信息类型，针对性强，虽然适用面窄，但信息的搜集比较完整。特殊型搜索引擎有细分为几类： 1 专业型搜索引擎( 垂直搜索) ：就某一特定专业的信息进行检索的搜索引擎。每个专业学科都有其自己专门的词汇和用语。这类搜索引擎使用与专业相应 6 第一章绪论的标引和检索语言，从而使关于本专业的查询效果优于综合搜索引擎。专业型搜索引擎为网上科技信息的有效利用、最新可以成果的共享提供了有力工具。例如，工程、数学、物理、哲学、医学等。但目前来讲，专业搜索引擎多数部是商业利益驱使，致使这类搜索引擎的数量远远不能满足社会需求，仍需投入更多的人力物力去研究。垂直搜索引擎在医学领域比较著名的有 h e a l t h g a t e 。 2 多媒体搜索引擎：目前有图像、语音、影视等媒体的搜索引擎。以图像搜索引擎为例，图像搜索与文本搜索不同，要能够进行图像分解和判断，为图像加注释，存储抽象出来的索引信息。g o o g l e 、微软正在进行有关声音搜索方面的研究，并取得了显著的进展，相信在不久的将来，更多的搜索领域将被挖掘出来，方便人类的生活。 3 其他专门信息搜索引擎：针对某一专门的信息类别，有专门的用途。例如，e m a i l 搜索、f t p 搜索等等。按照搜索资源范围不同，搜索引擎可以分为： w e b 搜索引擎：主要索引对象是互联网上的网页，然后根据一篇网页的超文本链接提取它指向的那篇文档，如此下去就提取全球的网页，然后将这些网页根据内容分类，排名建立索引。桌面搜索：顾名思义，就是针对本地计算机中资源进行类似w e b 搜索的行为。虽然同属于搜索引擎范畴、采用相同的核心技术，但搜索对象和搜索原理是不相同的。 1 1 3 桌面搜索引擎桌面搜索引擎不同于w e b 搜索引擎，虽然现在可以在数十亿的w e b 上快速查找一篇有用的网页，但是在本地硬盘中搜索一个有用的文档还不是一件简单的事情。尤其，今年来计算机硬盘的容量在不断增大，已经突破5 0 0 g 容量。假如在 5 0 0 g 容量的硬盘中查找一篇含有“核武器”内容的文档是一件难以想象的事情。这么数量庞大的资源的有效利用问题，是一个非常值得研究的课题。所以， g o o g l e 、微软等公司在看到了w e b 搜索的巨大成功后也察觉到了桌面资源的潜在市场，纷纷推出了自己的桌面搜索引擎，但没有给予足够的重视。桌面搜索虽然没有w e b 搜索所涉及的大规模，但是资源种类丰富，涉及的技术面广。现代计算机的发展使计算机应用到了社会的各个角落：文档编辑、视频、音频的编辑，软件设计、网页编辑等。这样在桌面上就遗留了大量的文件，其中有各种文本文档、音视频文件、源代码文件等，这些文件都可以作为桌面搜索的素材，对于这些文件在如此庞大的文件系统中的查找是一个值得研究的问题。桌 7 第一章绪论面搜索的任务就是帮助用户建立本地计算机资源的一个全局视图，让用户忽略它们存储结构，需要什么就可以快速地找到它们，跨越操作系统的文件系统结构。当然，桌面搜索系统是不能替代文件系统的，它只是建立在本地文件系统上层的搜索系统，将散落在各层目录中的文档的有关信息提取出来，建立成索引存放到一个文档数据库。供用户根据内容查找相应文件，其原理同w e b 搜索类似。本课题所实现的就是桌面搜索引肇的一种，针桌面应用中不同格式文档的搜索功能。 1 2 课题主要研究内容与目标搜索技术产生了巨大的经济效益与社会效益，目前主流的搜索引擎都是基于 w e b 上的，他们都是将w e b 上的所有信息整合成一个海量数据库( 可以是网页的索引也可以是网页的内容) ，供用户查询。此外，w e b 搜索有时也可以搜索到一些文档信息，但那些文档都是零星地发布在w e b 服务器上，实际上不可能将所有的本地文档全部暴露在互联网上。而且互联网其本身的b s 特性限制了文档的某些共享应用，还有很大部分资源存放在与外部隔绝的本地或本地局域网络中。例如，本地文档不可能传送到w e b 上使用，一些重要的文件、文献也不可能放到网络上以网页的形式察看。设想，当本地计算机文件系统中存有上万的文档，分别存放在不同层次的目录中。这时有一个用户需要查找所有与某类主题相关的文档时，如果他知道所有的相关文档的存放位置那就很方便；但如果他不知道所有相关文档的存放位置，那么他只能翻阅众多文件夹去阅读文档。这样查找的效率是非常低的，也降低了本地文档资源的利用率这就导致了本地文档搜索课题的产生，它的搜索原理与w e b 搜索原理基本相同，但使用的技术有相同点也有不同之处。例如，由于是文档搜索所以也就不存在“爬链”( 是指由一篇网页中的链接可以跳转到其他网页，进而可以访问到整个网络) 问题，但是同样需要“倒排索引” ( 与一般英文书籍后的索引表类似) 的支持等。此外需要对各种文件格式的研究，汉语分词技术，如何尽可能的将本地所有文件又快又多地搜索出，如何尽可能快地从文档中抽取文档文本，建立索引存放起来，如何以尽可能快地从索引中查找需要文档的相关信息，也就是所说的基于内容的全文搜索。对于桌面搜索的研究，有些公司已经推出了他们的产品，如：g o o g l e 推出了它的g o o g l e 桌面搜索引擎，能够快速对本地硬盘所有文件建立索引、搜索，但其以网页的形式提供服务，在后台自动执行不能控制进度，而且支持的格式有限，更重要的是它对中文的支持不够好。至于微软操作系统自带搜索系统，只能搜索 8 第一章绪论有限的格式文件，而且搜索时候是逐个文件的比较，速度上不能容忍。本课题的研究目标是：实现对本地桌面文档的全文搜索，更加方便地使用本地文档资源，提高文档的搜索速度( 能够快速的根据内容定位到文件中) ，让用户可以有选择地添加需要的文件到索引中。构建具有交互界面功能的搜索系统，方便用户进行添加文件、查询、高级查询、删除索引等操作。在l u c e n e 开源搜索框架系统上，重新封装l u c e n e 各功能模块，对其添加中文分词模块使其支持中文( 简体、繁体) 、英文。针对不同格式文档编写解释器可以抽取不同格式文档的内容以建立索引、搜索，支持格式有p 1 ) f ，i ) o c ，r i f ，t x t ，t t 1 3 k , ，) a 也等。提供无需安装、平台无关的j a v a 桌面应用。用户可以有针对性地添加自己今后需要搜索的文件或目录，临时搜索也可以将可能的文件夹直接加入系统中。解决索引与文档文件修改、删除等操作所带来的不同步的问题。提供可移植的系统，实现在如l i n u x ，s o l a r i s 等操作系统平台上文档搜索功能。 1 3 课题主要解决问题及研究意义本课题主要解决本地桌面文档的搜索问题，用户每次创建一些本地文档就可以添加到系统中，或者自行选定搜索范围。解决在层次庞大、复杂的本地文件系统中方便地查找出有用文档的相关信息，并可以直接打开该文档。建立索引后不会影响本地文件的存放，完全与本地文档无关，可以修改、移动不会影响到索引的有效性，索引定时更新与文档保持一致。桌面文档搜索首先涉及的问题就是对于文档格式的识别，本系统通过编写各种解析器( p a r s e r ) 可以自动识别文件类型并抽取文本交给“l u c e n e ”建立索引。其次的问题是“l u c e n e ”对于中文的支持性差，本系统在实现过程中，扩展 “l u c e n e ”的分词接口，实现了基于字典的m a n d a r i n a n a l y z e r 分词模块，使 “l u c e n e ”变成中文、英文全能的搜索框架。然后，本地文档数量众多、层次繁杂，需要对本地文件系统有一个良好的浏览界面，本系统通过使用j a v as w t 图形界面库实现了良好的本地文件浏览界面，使用户可以方便地实现浏览、查询、删除等操作。最后，“l u c e n e ”生成的索引是以文件的形式存放的，而且建立索引完毕后与原文档没有关系，所以对本地文档的修改不会影响到索引。但这就会导致不同步的问题，因此本系统中内建了索引探测器，定时索引中所存放信息对应 9 第一章绪论的实际文档的变化，决定是否更新该文档的索引。解决了以上诸多问题后，本系统基本可以实现对于文档的搜索工作，高效地利用本地文档资源。 1 0 第二章关键技术第二章关键技术 2 1 搜索引擎原理与体系结构 2 2 1w e b 搜索引擎原理用户访问w e b 搜索引擎总认为是在访问i n t e r n e t ，但事实上访问的只不过是搜索引擎网站预先处理好的整个互联网的索引数据库，流程可以用图2 一l 表示。口吼厶，l ：搜索引擎网页数据库图2 - 1 搜索引擎示意图它能够接受用户通过浏览器提交的查询词或者短语，记作q 。例如“非典”， “伊拉克战争”，“床前明月光”等等。在一个可以接受的时间段内返回一个和该用户查询匹配的网页信息列表，记作l 。 “可以接受的时间”，也就是指响应时间。对于在w e b 上面软件来说，这个时间不能太长，通常也就在“秒”这个量级。这是衡量w e b 搜索引擎可用性的一个基本指标，也是和传统信息检索系统的一个差别。更进一步的，这样的响应时间要求不仅要能满足单个用户查询，而且要能在系统设计负载的情况下满足所有的用户。也就是说，系统应该在额定吞吐率的情况下保证秒级响应时间。 “匹配”，指的是网页中以某种形式包含有q 的内容，其中最简单、最常见的形式就是q 在其中直接出现，不过这样的搜索引擎不会达到最好的效果。 “列表”，蕴含着一种“序”在绝大多数情况下，l 是相当长的，例如超过1 万个条目。这不仅是由于w e b 上的信息量大，也由于w e b 搜索引擎的查询方式简单。简单，意味着抽象；抽象，意味着有更多的具体事物可能是它的外在体现。对于一个长长的列表，很少有用户有耐心都审视一遍，不仅是因为长，还因为大多数使用w e b 搜索引警的用户通常都是“找到为止”，而不是“不全部找到不罢休”，加上这个列表中和一个用户关心的其实只占很少的比例。有分析统计表明，用户平均察看返回结果不超过2 页，而且就现在的w e b 搜索引擎的技术水平来讲，第二章关键技术有用的信息只有在前1 0 0 条。现代大规模高质量w e b 搜索引擎一般采用如图2 - 2 所示的称之为三段式的工作流程，即：网页搜集、预处理和查询服务。图2 - 2w e b 搜索引擎三段式工作流程 1 搜集阶段 w e b 搜索引擎工作在某个数据集合，它所操作的数据不仅包括内容不可预测的用户查询，还要包括在数量上动态变化的海量网页，并且这些网页不会主动送到系统来，而是需要由系统去抓取。大规w e b 模搜索引擎服务的基础是一批预先搜集好的网页( 直接或间接) 。这就牵扯到网页维护时机问题：定期搜集，每次搜集替换上一次的内容，称之为“批量搜集”。由于每次都是重新来一次，对于w e b 大规模搜索引擎来说，每次搜集的时间通常会花几周。而由于这样做开销比较大，通常两次搜集的间隔时间也不会很短( 例如， g o o g l e 在一段时间曾是每隔2 8 天更新一次) 。这样做的好处是系统实现比较简单，主要缺点是“时新性”( f r e s h n e s s ) 不高，还有重复搜集所带来的额外带宽的消耗。增量搜集，开始时搜集一批网页，以后只是( 1 ) 搜集新出现的网页，( 2 ) 搜集那些在上次搜集后有过改变的网页，( 3 ) 发现自从上次搜集后已经不再存在了的网页，并从库中删除。由于除新闻网站外，许多网页的内容变化并不是很频繁的( 研究表明有5 0 网页的平均生命周期大约为5 0 天，这样做每次搜集的网页量不会很大( 研究表明在2 0 0 3 年初估计中国每天有3 0 - 5 0 万变化了的网页) ，于是可以经常启动搜集过程。3 0 万网页，一台p c 机，在一般的网络条件下，半天可以完成搜集。这样的系统表现出来的信息时新性会比较高，主要缺点是系统实现比较复杂；这种复杂还不仅在于搜集过程，而是还在于建立索引的过程。前面提到了w e b 搜索引擎网页数据库维护的基本策略。其实在两种极端的情况之间也可能有一些折中的方案，j c h o 博士在这方面做过比较深入的研究，根据一种网页变化模型和系统所含内容时新性的定义，提出了相应优化的网页搜集策略。其中一个的结论是：在系统搜集能力一定的条件下，若有两类网页( 例第二章关键技术如“商业”和“教育”) ，它们的更新周期差别很大( 例如“商业”类网页平均更新周期是“天”，而“教育”类网页平均更新周期是“月”) ，则系统应该将注意力放在更新较慢的网页上，以使系统整体的时新性达到比较高的取值。具体搜集过程中，网页抓取策略有不同的方案。最常见的一种是所谓“爬取”：将w e b 上的网页集合看成是一个有向图，搜集过程从给定起始u r l 集合s 开始，沿着网页中的链接，按照先深、先宽、或者某种其他策略遍历，不停的从s 中移除u r l ，下载相应的网页，解析出网页中的超链接u r l ，看是否已经被访问过，将未访问过的那些u r l 加入集合s 。整个过程可以形象地想象为一只蜘蛛在蜘蛛网上爬行，这个也是著名的“冲浪模型”。其实，实际环境下单个蜘蛛是不能满足需求的，而实际系统一般都是多个“蜘蛛”同时在工作。这种方式的好处是实现起来难度小，而且可以通过一定的策略，使搜集到的网页相对比较“重要”。实际上，任何w e b 搜索引擎是不可能将w e b 上的网页搜集完全的，通常都是在其他条件的限制下决定搜集过程的结束( 例如磁盘已满，或者搜集时问过长) ，不过以现在w e b 搜索引擎的规模来看，大多数都是采用分布式存储，容量没有限制。这样停止的可能是时

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）luder基于内容的文档搜索引擎.pdf

文档简介

温馨提示

最新文档

评论