




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)luder基于内容的文档搜索引擎.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 w e b 搜索技术的发展,加快了用户在海量信息的互联网上查找需要的信息的 速度,极大地推动了网络资源的共享。与此同时,同等重要的本地文档资源被忽 视了而且由于本地文档资源的特殊性,不可能与w e b 共享。用户在本地文件系统 中查相关性质的文件内容时,需要不断地翻阅目录去阅读这些文件,严重地降低 了文档查找效率,本地文档资源没有有效的利用。 本文研究并实现基于全文检索的桌面文档搜索引擎,在l u c e n e 开源搜索框 架基础上,重新封装核心功能,实现对多种格式的本地文档搜索功能,使用户在 系统中全局地掌握桌面文档资源;构建基于s r l 图形界面库可移植的交互界面, 让用户方便地与系统交互;运用中文分词理论实现支持中英文的 m a n d a r i n a n a y l z e r 、基于词典的分析、分词模块,最大可以支持5 个汉字词的模 式匹配,解决了l u c e n e 对中文支持不好的问题;针对不同格式的文档,构建多 种类型解析器( p a r s e r ) 抽取文档文本用于建立索引,支持多种流行的文档格式。 本系统有效地解决了桌面应用中对于文档查询的问题,实现基于内容查找、提高 查找效率与速度,更有效地利用桌面文档资源。 关键词:搜索引擎、桌面搜索、全文检索、倒排索引,文档格式、l u c e n e 、中文 分词 a b s t r a c t t h ed e v e l o p m e n to ft e c h n o l o g yi nw e bs e a r c h i n gq u i c k e nt h es p e e do fu s e r s s e a r c h i n gt h e i ru s e f u li n f o r m a t i o ni nh u g ei n t e r a c ta n dp r o m o t et h es h a r i n go fi n t e r n e t r e s o u r c e se x t r e m e l y m e a naw h i l e ,t h es a m ei m p o r t a n tn a t i v ed o c u m e n tr e s o u r c e sa s t h ew e bw e r fd e g l e c ta n dt h e s er e s o u r c e sc o u l d n tb es h a r e dw i t hw e bb e c a u s eo f t h e i rs p e c i a l i t y w h e nu s e rs e a r c hr e l a t e dd o c u m e n ti nn a t i v ef i l es y s t e m ,t h e yj u s t n e e db r o w s et h ed i r e c t o r yb a c ka n df o r t ht h e nr e a dt h e m , t h a tr e d u c et h es e a r c h i n g e f f i c i e n c yd r a m a t i c a l l ya n dt h en a t i v ed o c u m e n tr e s o u r c e s c a n tb eu s e de f f e c t i v e l y t 1 l i sp a p e rr e s e a r c ha n db u i l daf u l l t e x t - b a s e dd e s k t o pd o c u m e n ts e a r c he n g i n e i t w a sb a s e do n “l u c e n e o p e ns o u r c es e a r c h i n gf r a m e w o r ka n dr e s e a l e dt h e l u c e n e ” sk e m e lf u n c t i o n i tc a ns e a r c hm u l t i p l ef o r m a to fn a t i v ed o c u m e n ta n dg i v eu s e ra # o b a lv i e wo fd e s k t o pd o c u m e n tr e s o u r c e s c o n s t r u c t i n gt h et r a n s p l a n t a b l e u s e r i n t e r f a c eb a s e do ns w tg u i l i b r a r yt oi n t e r a c tw i t hu s e rc o n v e n i e n t l y as e g m e n t i n g m o d u l en a m e d “m a n d a r i n a n a l y z e r w a sb u i l ti n t ot h i ss y s t e mb a s e do nt h ed i c t i o n a r y i tb o t hc a ns u p p o r tc h i n e s ea n de n 掣i s hs e g m e n t i n ga n dc a nm a t c h 伽em a x i m a l c h i n e s ew o r d sp a t t e r nt os o l v et h ep r o b l e mo f “l u c e n e ”,sw e a ki nc h i n e s es u p p o r t i n g t os u p p o r tm o s to fd o c u m e n tf o r m a ti nf a s h i o n ,m u l t i p l e - f o r m a t s u p p o r t i n gp a r s e r m u s tb ea d d e di n t ot h es y s t e mt oe x t r a c tt h et e x tf r o mt h ed o c u m e n t t h i ss y s t e m s o l v e dt h ep r o b l e mo fd o c u m e n ts e a r c h i n gi nd e s k t o pa p p l i c a t i o ne f f e c t i v e l y , s u p p o r t e ds e a r c h i n go nc o n t e n t a n di n c r e a s e db o t ht h ee f f i c i e n c ya n ds p e e do f m a r c h i n gt om a k eu s e o ft h ed e s k t o pd o c u m e n tr e s o u r c e se f f e c t i v e l y k e y w o r d :s e a r c he n g i n e , d c s k t o ps e a r c h i n g , f u l l - t e x tr e t r i e v a l ,i n v e r t e di n d e x , d o c u m e n tf o r m a t , l u c e n e ,c h i n e s es e g m e n t i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得丢洼王些太堂或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文 中作了明确的说明并表示了谢意。 文作者躲绣谚 签字日期炒7 年月纠日 学位论文版权使用授权书 本学位论文作者完全了解云洼王些太堂有关保留、使用学位论文的规定。 特授权丞洼王些太堂可以将学位论文的全部或部分内容编入有关数据库进行 检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字日期:呷年,月弓f e l 导师签名: 触窬 签字日期:刃年1 月多1 日 哆门馁 学位论文的主要创新点 一、在开源搜索框架l u c e n e 之上构建本地文档搜索系统,实现基于j a v a h p p l i c a t i o n 的全文搜索。 二、界面与内核分离,构建桌面文档搜索内核,内核可以单独使用( 命令行) ; 使用s w t ( s t a n d a r dw i d g e tt o o l k i t ) 图形界面库构建界面,提供跨操 作系统的移植性。 三、实现基于词典的中文分词系统,支持中文( 简体、繁体) 、英文分词;最 大可支持到5 个汉字词匹配;词典具有学习能力;使用序列化技术将词 典转换成内存词典,提高切分速度。 四、支持多种格式文档,如d o c 、p d f 、r t f 、t x t 、h t m l 、x m l 等,并可以扩 展支持文档格式,系统中看不到非支持的文档文件。 五、使用线程技术解决本地文档修改后索引不同步问题。 第一章绪论 第一章绪论 1 1 课题的研究现状与前景 随着互联网规模的急剧膨胀,网络的信息量也在爆炸性增长,如何在海量信 息中寻找有用的信息成了热门的研究课题。据统计w e b 上已经拥有1 0 0 亿左右的静 态网页和5 5 0 亿左右的动态网页。在如此浩瀚的信息海洋里寻找信息,如同“大 海捞针”,方便快捷的搜索引擎为快速查找提供了可能,这也是搜索引擎高据榜 首的原因之一。 目前人们从网上获得信息的主要工具是浏览器,而通过浏览器得到信息通常 有三种方式。第一,直接向浏览器输入一个关心的网址,浏览器返回所请求的网 页,根据该网页内容及其包含的超链接文字的引导,获得自己需要的内容;第二, 登录到某个知名门户网站,例如w w w y a h o o c o m ,根据该网站提供的分类目录和 相关链接,分类浏览:第三,登录到某个搜索引擎网站,例如w w g o o g l e c o m , 输入所需要信息的关键词或者短语,依据返回的相关信息列表、摘要和超链接引 导,直接浏览含有需要内容的网页。 这三种方式各自的特点,也有自己适合的应用场合。第一种方式的应用是最 有针对性的,例如要了解天津工业大学研究生毕业相关信息,得知研究生部的网 址为h t t p :2 1 1 6 8 1 1 5 9 8 ,于是直接用其驱动浏览器就是最有效的方式。第二 种方式的应用类似于看书,用户没有明确的目的,只是想看看网上有意思的消息; 当然这其中也可能是关心某种主题,例如伊拉克战事,国际经济动态等。第三种 方式适用于用户大致上知道自己需要的内容,例如“j a v a 技术动态”,但不清楚 哪里能够找到相关信息( 即不知道哪些u r l 能给出这样的信息) 。在这种场合, 搜索引擎能够为用户提供一个相关内容的网址及其摘要的列表,由用户逐个点击 浏览。 现在看来,第三种方式有逐步取代前两种方式的趋势,因为人们工作生活节 奏在加快,众多的网址是不可能一一记住的,而且对于门户网站眼花缭乱的界面, 寻找自己需要的信息比较费时,用户倾向于直接定位到自己关心的网页的网址而 不是去逐级查找。 搜索引擎中具代表性的有g o o g l e ,a 1 t av i s t a ,l n k t o m i ,t e o m a ,w i s e n u t 等,国内著名的有b a i d u 、天网。它们都是通过从互联网上提取的各个网站的信 息( 以网页文字为主) 而建立的数据库中,检索与用户查询条件匹配的相关i 己录, 然后按一定的排列顺序将结果返回给用户。其中g o o g l e 与b a i d u 比较典型。g o o g l e 第一章绪论 以其“p a g e r a n k ”、冲浪模型、分布式搜索系统等优秀技术占据了搜索市场的领 导地位,但是在中文搜索方面,不如b a i d u 优秀。b a i d u 在中文处理方面具有世界 尖端的中文处理技术,成为中文搜索引肇市场中的领军人物。 目前,搜索引擎市场正在蒸蒸日上,搜索技术几乎在有网络的地方都会有搜 索的需求。各大门户网站纷纷购买搜索引擎嵌入到网站中,提高自己网站的服务、 各公司主页也积极参加各搜索网站的竟价排名,提高网站的点击率、不同用途的 搜索引擎也被应用到不同的领域产生了相当的效率,节省了人力,为走出泡沫的 互联网带来了它的第二个发展期。这一切正式搜索给其注入的崭新的力量,才得 以实现。 搜索技术正在融入其他领域应用中例如,机器翻译、语音搜索、图像搜索 等。其中,机器翻译存在已久,但其翻译质量与速度都是无法忍受的,融入搜索 技术的机器翻译已经达到了基本的翻译水平,有些甚至超出人工翻译水平,可以 翻译俚语等。同时自然语言理解的方面的技术越来越被搜索所重视,搜索技术正 向智能搜索方向前进。 1 1 1 搜索引擎发展历史 搜索技术发展到今天是若干种搜索技术进化的结果,因此有岿要了解一下搜 索技术的历史:在互联网发展初期,网站相对较少,信息查找比较容易。然而伴 随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这 时为满足大众信息检索需求的专业搜索网站便应运而生了。最初的搜索引擎的研 究都是在西方国家展开的,因此首先了解一下英文搜索引擎的发展历史。 谈到搜索引擎不能不j 氓a r c h i e 说起,它是现代意义上的搜索引擎的鼻祖, 1 9 9 0 年由蒙特利尔大学学t k a l a ne m t a g e 发明。虽然当时w w w 还未出现,但网络中 文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的f t p 主机中, 查询起来非常不便,因此a l a na r c h i e 工作原理与现在的搜索引擎已经很接近, 它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一 定的表达式查询。由于a r c h i e 深受用户欢迎,受其启发,美国内华达s y s t e m c o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过 此时的搜索工具除了索引文件外,己能检索网页。 当时,“机器人”一词在编程者中十分流行。电脑“机器人”( c o m p u t e r r o b o t ) 是指某个能以人类无法达到的速度不问断地执行某项任务的软件程序。 由于专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去。因此, 搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联 网发展规模的“机器人”程序是m a t t h e wg r a y 开发的w 孵w a n d e r e r 。刚开始它只 2 第一章绪论 用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年l o 月创建了a l i w e b ,它是h r c h i e 的h t t p 版本。 a l i w e b 不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索 引,类似于现在著名的y a h o o 。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此, 在m a t t h e wg r a y 的w a n d e r e r 基础上,一些编程者将传统的“蜘蛛”程序工作原理 作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟 踪一个网站的链接开始,就有可能检索整个互联网。到1 9 9 3 年底,一些基于此原 理的搜索引擎开始纷纷涌现,其中以j u m p s t a t i o n 、t h ew o r l dw i d ew e bw o r m ( g o t o 的前身,现在的o v e r t u r e ) ,和r e p o s i t o r y b a s e ds o f t w a r ee n g i n e e r i n g ( r b s e ) s p i d e r 最负盛名。然而j u m p s t a t i o n 和w e bw o r m 只是以搜索工具在数据库 中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而r b s e 是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。 最早现代意义上的搜索引擎出现予1 9 9 4 年7 月。当时m i c h a e l i a u l d i n 将j o h n l e a v i t t 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的l y c o s 。同年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df ii o 和美籍华人杨致远( g e r r y y a n g ) 共同创办了超级目录索弓i y a h o o ,并成功地使搜索引擎的概念深入人心。 从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数 百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的g o o g l e ,其 数据库中存放的网页已达3 0 亿之多。 i n f o s e e k 是另一个重要的搜索引擎。起初,i n f o s e e k 只是一个不起眼的搜 索引擎。沿袭y a h o o 和l y c o s 的概念,并没有什么独特的革新。但是它的发展史和 后来受到的众口称赞证明,起初第一个登台并不总是很重要。i n f o s e e k 友善的用 户界面、大量附加服务使它点击率暴增。而1 9 9 5 年1 2 月与n e t s c a p e 的战略性协议, 使它成为一个强势搜索引擎:当用户点击n e t s c a p e 浏览器上的搜索按钮时,弹出 i n f o s e e k 的搜索服务,而此前由y a h o o ! 提供该服务。 1 9 9 5 年,一种新的搜索引擎形式出现了于己搜索引擎( am e t as e a r c h e n g i n e ) 。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多 个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中 起来处理后再返回给用户。第一个元搜索引擎,是w a s h i n g t o n 大学硕士生e r i c s e l b e r g 和o r e f te t z i o n i 的m e t a c r a w l e r 。元搜索引擎概念上闻名,但搜索效 果始终不理想,所以没有哪个元搜索引擎有过强势地位。 1 9 9 8 年l o 月之前,g o o g l e 只是s t a n f o r d 大学的一个小项目b a c k r u b 。1 9 9 5 年 博士生l a r r yp a g e 开始学习搜索引擎设计,于1 9 9 7 年9j q l 5 同注册t g o o g l e c o m 3 第一章绪论 的域名,1 9 9 7 年底,在s e r g e yb r i n 和s c o t th a s s a n 、a l a ns t e r e m b e r g 的共同参 与下,b a c k r u b 开始提供d e m o 。1 9 9 9 年2 月,g o o g l e 完成了从a l p h a 版至o b e t a 版的 蜕变。 g o o g l e 在p a g e r a n k 、动态摘要、网页快照,d a i l y r e f r e s h 、多文档格式支 持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,像 a 1 t a v i s t a 一样,再一次永远改变了搜索引擎的定义。 在2 0 0 0 年中以前,g o o g l e 虽然以搜索准确性备受赞誉,但因为数据库不如 其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直 到2 0 0 0 年中数据库升级后,叉借被y a h o o 选作搜索引擎的东风,才一炮走红。 随着互联网规模的急剧膨胀,一家搜索引擎单枪匹马已无法适应目前的市 场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技 术和搜索数据库服务提供商。像国外的i n k t o m i ,它本身并不是直接面向用户的 搜索引擎,但包括o v e r t u r e 、l o o k s m a r t 、m s n 、h o t b o t 等在内的其他搜索引擎提 供全文网页搜索服务。国内的百度也属于这一类,搜狐和新浪就使用他的技术。 因此从这个意义上说,它们是搜索引擎的搜索引擎。 关于搜索引擎技术的研究,国外比我国要早近十年,从最早的a r c h i e ,到后 来的e x c i t e ,以及a 1 t av i s t a 、o v e r t u r e 、g o o g l e 等搜索引擎面世,搜索引擎发 展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上个世纪末本世纪 初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研 究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜 索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续 涌现出优秀的搜索引擎,像百度、中搜等。目前在中文搜索引擎领域,国内的搜 索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一 个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算 机涉及的技术就是中文分词。 中文搜索引擎的大概经历三个发展阶段: 第一阶段为中文搜索引擎的引进阶段。互联网在大陆联通的前几年,国 内各大门户网站基本上是从国外买来英文搜索软件的汉化版或台湾软件商的产 品。在引进这些产品时,由于缺乏统一的规划和协调,存在重复引进的现象,如 2 6 3 与中华网使用的都是台湾“龙卷风”搜索软件。 第二阶段为中文搜索引擎百家争鸣时期。由于引进的搜索引擎存在各种 各样的缺陷,从1 9 9 7 年开始,一些颇有实力的公司、大学或机构开始设计中文 搜索引擎。如搜狐由北京爱特信( i t c ) 公司开发;广州视窗由广州网易公司开发; 天网由北京大学开发;北极星由中国科技信息所和万方数据( 集团) 公司共同研制 4 第一章绪论 开发;若比邻由中国科学院计算机网络信息中心与中国互联网络信息中心( c n n i c ) 共同开发等。其中,“北大天网”是国家“九五”重点科技攻关项目“中文编码 和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究 室开发,于1 9 9 7 年l o 月2 9 日正式在c e r n e t 上提供服务。2 0 0 0 年初成立天网 搜索引擎新课题组,由国家9 7 3 重点基础研究发展规划项目基金资助开发,收录 网页约6 0 0 0 万,利用教育网优势,有强大的f t p 搜索功能。 第三阶段为中文搜索引擎两家争霸时期。进2 0 0 1 年以后,国内一些门户 网站纷纷更换搜索引擎。2 0 0 1 年8 月发布b a i d u c o m 搜索引擎b e t a 版。同时,搜狐 宣布与百度公司合作。2 0 0 1 年l o 月2 2 n 正式发布b a i d u 搜索引擎。b a i d u 虽然只提 供中文搜索,但目前收录中文网页超过9 0 0 0 万,可能是最大的中文数据库。b a i d u 搜索引擎的其它特色包括:网页快照、网页预览预览全部网页、相关搜索词、 错别字纠正提示、新闻搜索、f l a s h 搜索、信息快递搜索。2 0 0 1 年1 1 月,新浪正 式对外宣布与互联网技术提供商百度建立合作伙伴。我们从两家搜索引擎的检索 结果中可以看到“p o w e r e db yb a i d u ”的字样。2 0 0 2 年3 月闪电计划开始后,技 术升级明显加快。至今为止,百度公司开发的搜索引擎已分别被新浪、搜狐、广 州视窗、中国入、硅谷动力等网站采用,约占中文搜索引擎市场份额的8 0 。而 另外一家搜索引擎服务提供商是g o o g l e ,它主要提供给、y a h o o 和网易。 1 1 2 搜索引擎概念与分类 搜索引擎是指因特网上专门提供查询服务的一类网站,它以一定的策略在互 联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检 索服务,从而起到信息导航的作用。从使用者的角度看,这种软件系统提供一个 网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用 户输入内容相关的信息列表( 常常会是很长一个列表,例如包含l 万个条目) 。 搜索引肇系统按照索引方式分类可以分为: 目录搜索引擎:将收集到的信息分门别类,用户可在目录的引导下,逐 层的浏览主体和类别,直到找到所需要的目标。典型的基于目录的搜索引擎是 y a h o o 。这类搜索引擎常需要认为维护,虽然内容质量高,覆盖广,但建立和维 护昂贵,信息量少,信息更新不及时,比较主观。而且更重要的是主题的选择与 建立需要时间不断积累才能判断出。不过,现在的发展趋势正朝着自动目录搜索 方向发展。 机器搜索引擎:是指通过网络蜘蛛,或网站登录等方式,以某种策略自 动地在互联网中搜集和发现信息,经过加工处理后建库,从而能够对用户提出的 各种查询做出响应,提供用户所需的信息。该类搜索引擎的优点是信息量大,更 第一章绪论 新及时、无需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结 果中进行筛选。这类搜索引擎的代表是:a l t a v i s t a 、n o r t h e r nl i g h t 、e x c i t e 、 i n f o s e e k 、i n k t o m i 、f a s t 、l y c o s 、g o o g l e ;国内代表为:“百度”、“天网”等。 目录式搜索引擎和机器人搜索引擎,各有优缺点,应用都很广泛。机器 人搜索引擎的自动化程度比目录式搜索引擎高。网络信息量太大了,用计算机代 替人去查找,可以节省大量的人力,现在流行的搜索引擎主要指的是机器搜索引 擎。 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同 时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为 自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点 是返回结果的信息量更大、更全,缺点是不能够充分使用搜索引擎的功能,用户 需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、i n f o m a r k e t 等。 按照查询类型分类可以分为: 目录检索( 主体型查询) :将收集到的信息分门别类,用户可在目录的引 导下,逐层的浏览主体和类别,直到找到所需要的目标。典型的基于目录的搜索 引擎是y a h o o 。这类搜索引擎常需要认为维护,虽然内容质量高,覆盖广但建立 和维护昂贵,比较主观。而且更主要的是主体的选择与建立需要时间不断积累才 能判断出。不过,现在的发展趋势正朝着自动目录搜索方向发展。 全文检索( 关键字查询) :这类搜索引擎通常不需要分类,利用关键字来 索引w e b 页面。在搜索结果中,相关性较强的页面一般排在清单前面。通常这类 搜索引擎都是自动维护的,由软件完成分类,索引,存储,查询,定期更新维护 的功能,建立与维护相对便宜,发展快,但过分依赖于分析算法,有时会返回无 用页面,对程序的健壮性要求较高。 按照应用类型分类可以分为: 综合搜索引擎:内容可以涵盖各个专业与领域,适用面广,其应用最为 广泛。这种类型的检索工具可以就任何一个专业,任何一组关键字进行检索,但 返回的结果往往成千上万,而且正是由于综合搜索引擎信息种类繁多,这会导致 一种局面那就是对于总体的信息检索范围广泛,而对于某一特定专业领域信息不 全面,深度不够。 特殊型搜索引擎:只涵盖特定的专业与领域,或针对特殊的信息类型, 针对性强,虽然适用面窄,但信息的搜集比较完整。 特殊型搜索引擎有细分为几类: 1 专业型搜索引擎( 垂直搜索) :就某一特定专业的信息进行检索的搜索引擎。 每个专业学科都有其自己专门的词汇和用语。这类搜索引擎使用与专业相应 6 第一章绪论 的标引和检索语言,从而使关于本专业的查询效果优于综合搜索引擎。专业 型搜索引擎为网上科技信息的有效利用、最新可以成果的共享提供了有力工 具。例如,工程、数学、物理、哲学、医学等。但目前来讲,专业搜索引擎 多数部是商业利益驱使,致使这类搜索引擎的数量远远不能满足社会需求, 仍需投入更多的人力物力去研究。垂直搜索引擎在医学领域比较著名的有 h e a l t h g a t e 。 2 多媒体搜索引擎:目前有图像、语音、影视等媒体的搜索引擎。以图像搜索 引擎为例,图像搜索与文本搜索不同,要能够进行图像分解和判断,为图像 加注释,存储抽象出来的索引信息。g o o g l e 、微软正在进行有关声音搜索方 面的研究,并取得了显著的进展,相信在不久的将来,更多的搜索领域将被 挖掘出来,方便人类的生活。 3 其他专门信息搜索引擎:针对某一专门的信息类别,有专门的用途。例 如,e m a i l 搜索、f t p 搜索等等。 按照搜索资源范围不同,搜索引擎可以分为: w e b 搜索引擎:主要索引对象是互联网上的网页,然后根据一篇网页的 超文本链接提取它指向的那篇文档,如此下去就提取全球的网页,然后将这些网 页根据内容分类,排名建立索引。 桌面搜索:顾名思义,就是针对本地计算机中资源进行类似w e b 搜索的 行为。虽然同属于搜索引擎范畴、采用相同的核心技术,但搜索对象和搜索原理 是不相同的。 1 1 3 桌面搜索引擎 桌面搜索引擎不同于w e b 搜索引擎,虽然现在可以在数十亿的w e b 上快速查 找一篇有用的网页,但是在本地硬盘中搜索一个有用的文档还不是一件简单的事 情。尤其,今年来计算机硬盘的容量在不断增大,已经突破5 0 0 g 容量。假如在 5 0 0 g 容量的硬盘中查找一篇含有“核武器”内容的文档是一件难以想象的事情。 这么数量庞大的资源的有效利用问题,是一个非常值得研究的课题。所以, g o o g l e 、微软等公司在看到了w e b 搜索的巨大成功后也察觉到了桌面资源的潜在 市场,纷纷推出了自己的桌面搜索引擎,但没有给予足够的重视。 桌面搜索虽然没有w e b 搜索所涉及的大规模,但是资源种类丰富,涉及的技 术面广。现代计算机的发展使计算机应用到了社会的各个角落:文档编辑、视频、 音频的编辑,软件设计、网页编辑等。这样在桌面上就遗留了大量的文件,其中 有各种文本文档、音视频文件、源代码文件等,这些文件都可以作为桌面搜索的 素材,对于这些文件在如此庞大的文件系统中的查找是一个值得研究的问题。桌 7 第一章绪论 面搜索的任务就是帮助用户建立本地计算机资源的一个全局视图,让用户忽略它 们存储结构,需要什么就可以快速地找到它们,跨越操作系统的文件系统结构。 当然,桌面搜索系统是不能替代文件系统的,它只是建立在本地文件系统上 层的搜索系统,将散落在各层目录中的文档的有关信息提取出来,建立成索引存 放到一个文档数据库。供用户根据内容查找相应文件,其原理同w e b 搜索类似。 本课题所实现的就是桌面搜索引肇的一种,针桌面应用中不同格式文档的搜 索功能。 1 2 课题主要研究内容与目标 搜索技术产生了巨大的经济效益与社会效益,目前主流的搜索引擎都是基于 w e b 上的,他们都是将w e b 上的所有信息整合成一个海量数据库( 可以是网页的索 引也可以是网页的内容) ,供用户查询。此外,w e b 搜索有时也可以搜索到一些 文档信息,但那些文档都是零星地发布在w e b 服务器上,实际上不可能将所有的 本地文档全部暴露在互联网上。而且互联网其本身的b s 特性限制了文档的某些 共享应用,还有很大部分资源存放在与外部隔绝的本地或本地局域网络中。例如, 本地文档不可能传送到w e b 上使用,一些重要的文件、文献也不可能放到网络上 以网页的形式察看。设想,当本地计算机文件系统中存有上万的文档,分别存放 在不同层次的目录中。这时有一个用户需要查找所有与某类主题相关的文档时, 如果他知道所有的相关文档的存放位置那就很方便;但如果他不知道所有相关文 档的存放位置,那么他只能翻阅众多文件夹去阅读文档。这样查找的效率是非常 低的,也降低了本地文档资源的利用率这就导致了本地文档搜索课题的产生, 它的搜索原理与w e b 搜索原理基本相同,但使用的技术有相同点也有不同之处。 例如,由于是文档搜索所以也就不存在“爬链”( 是指由一篇网页中的链接可以 跳转到其他网页,进而可以访问到整个网络) 问题,但是同样需要“倒排索引” ( 与一般英文书籍后的索引表类似) 的支持等。此外需要对各种文件格式的研究, 汉语分词技术,如何尽可能的将本地所有文件又快又多地搜索出,如何尽可能快 地从文档中抽取文档文本,建立索引存放起来,如何以尽可能快地从索引中查找 需要文档的相关信息,也就是所说的基于内容的全文搜索。 对于桌面搜索的研究,有些公司已经推出了他们的产品,如:g o o g l e 推出了 它的g o o g l e 桌面搜索引擎,能够快速对本地硬盘所有文件建立索引、搜索,但其 以网页的形式提供服务,在后台自动执行不能控制进度,而且支持的格式有限, 更重要的是它对中文的支持不够好。至于微软操作系统自带搜索系统,只能搜索 8 第一章绪论 有限的格式文件,而且搜索时候是逐个文件的比较,速度上不能容忍。 本课题的研究目标是:实现对本地桌面文档的全文搜索,更加方便地使用本 地文档资源,提高文档的搜索速度( 能够快速的根据内容定位到文件中) ,让用 户可以有选择地添加需要的文件到索引中。 构建具有交互界面功能的搜索系统,方便用户进行添加文件、查询、高级查 询、删除索引等操作。 在l u c e n e 开源搜索框架系统上,重新封装l u c e n e 各功能模块,对其添加中文 分词模块使其支持中文( 简体、繁体) 、英文。 针对不同格式文档编写解释器可以抽取不同格式文档的内容以建立索引、搜 索,支持格式有p 1 ) f ,i ) o c ,r i f ,t x t ,t t 1 3 k , ,) a 也等。 提供无需安装、平台无关的j a v a 桌面应用。用户可以有针对性地添加自己 今后需要搜索的文件或目录,临时搜索也可以将可能的文件夹直接加入系统 中。 解决索引与文档文件修改、删除等操作所带来的不同步的问题。 提供可移植的系统,实现在如l i n u x ,s o l a r i s 等操作系统平台上文档搜索功 能。 1 3 课题主要解决问题及研究意义 本课题主要解决本地桌面文档的搜索问题,用户每次创建一些本地文档就可 以添加到系统中,或者自行选定搜索范围。解决在层次庞大、复杂的本地文件系 统中方便地查找出有用文档的相关信息,并可以直接打开该文档。建立索引后不 会影响本地文件的存放,完全与本地文档无关,可以修改、移动不会影响到索引 的有效性,索引定时更新与文档保持一致。 桌面文档搜索首先涉及的问题就是对于文档格式的识别,本系统通过编写各 种解析器( p a r s e r ) 可以自动识别文件类型并抽取文本交给“l u c e n e ”建立索 引。其次的问题是“l u c e n e ”对于中文的支持性差,本系统在实现过程中,扩展 “l u c e n e ”的分词接口,实现了基于字典的m a n d a r i n a n a l y z e r 分词模块,使 “l u c e n e ”变成中文、英文全能的搜索框架。然后,本地文档数量众多、层次繁 杂,需要对本地文件系统有一个良好的浏览界面,本系统通过使用j a v as w t 图形 界面库实现了良好的本地文件浏览界面,使用户可以方便地实现浏览、查询、删 除等操作。最后,“l u c e n e ”生成的索引是以文件的形式存放的,而且建立索引 完毕后与原文档没有关系,所以对本地文档的修改不会影响到索引。但这就会导 致不同步的问题,因此本系统中内建了索引探测器,定时索引中所存放信息对应 9 第一章绪论 的实际文档的变化,决定是否更新该文档的索引。解决了以上诸多问题后,本系 统基本可以实现对于文档的搜索工作,高效地利用本地文档资源。 1 0 第二章关键技术 第二章关键技术 2 1 搜索引擎原理与体系结构 2 2 1w e b 搜索引擎原理 用户访问w e b 搜索引擎总认为是在访问i n t e r n e t ,但事实上访问的只不过是 搜索引擎网站预先处理好的整个互联网的索引数据库,流程可以用图2 一l 表示。 口吼厶,l : 搜索引擎 网页数据库 图2 - 1 搜索引擎示意图 它能够接受用户通过浏览器提交的查询词或者短语,记作q 。例如“非典”, “伊拉克战争”,“床前明月光”等等。在一个可以接受的时间段内返回一个 和该用户查询匹配的网页信息列表,记作l 。 “可以接受的时间”,也就是指响应时间。对于在w e b 上面软件来说,这个 时间不能太长,通常也就在“秒”这个量级。这是衡量w e b 搜索引擎可用性的一 个基本指标,也是和传统信息检索系统的一个差别。更进一步的,这样的响应时 间要求不仅要能满足单个用户查询,而且要能在系统设计负载的情况下满足所有 的用户。也就是说,系统应该在额定吞吐率的情况下保证秒级响应时间。 “匹配”,指的是网页中以某种形式包含有q 的内容,其中最简单、最常见 的形式就是q 在其中直接出现,不过这样的搜索引擎不会达到最好的效果。 “列表”,蕴含着一种“序”在绝大多数情况下,l 是相当长的,例如超 过1 万个条目。这不仅是由于w e b 上的信息量大,也由于w e b 搜索引擎的查询方式 简单。简单,意味着抽象;抽象,意味着有更多的具体事物可能是它的外在体现。 对于一个长长的列表,很少有用户有耐心都审视一遍,不仅是因为长,还因为大 多数使用w e b 搜索引警的用户通常都是“找到为止”,而不是“不全部找到不罢 休”,加上这个列表中和一个用户关心的其实只占很少的比例。有分析统计表明, 用户平均察看返回结果不超过2 页,而且就现在的w e b 搜索引擎的技术水平来讲, 第二章关键技术 有用的信息只有在前1 0 0 条。 现代大规模高质量w e b 搜索引擎一般采用如图2 - 2 所示的称之为三段式的工 作流程,即:网页搜集、预处理和查询服务。 图2 - 2w e b 搜索引擎三段式工作流程 1 搜集阶段 w e b 搜索引擎工作在某个数据集合,它所操作的数据不仅包括内容不可预测 的用户查询,还要包括在数量上动态变化的海量网页,并且这些网页不会主动送 到系统来,而是需要由系统去抓取。 大规w e b 模搜索引擎服务的基础是一批预先搜集好的网页( 直接或间接) 。 这就牵扯到网页维护时机问题: 定期搜集,每次搜集替换上一次的内容,称之为“批量搜集”。由于每 次都是重新来一次,对于w e b 大规模搜索引擎来说,每次搜集的时间通常会花几 周。而由于这样做开销比较大,通常两次搜集的间隔时间也不会很短( 例如, g o o g l e 在一段时间曾是每隔2 8 天更新一次) 。这样做的好处是系统实现比较简单, 主要缺点是“时新性”( f r e s h n e s s ) 不高,还有重复搜集所带来的额外带宽的 消耗。 增量搜集,开始时搜集一批网页,以后只是( 1 ) 搜集新出现的网页,( 2 ) 搜集那些在上次搜集后有过改变的网页,( 3 ) 发现自从上次搜集后已经不再存 在了的网页,并从库中删除。由于除新闻网站外,许多网页的内容变化并不是很 频繁的( 研究表明有5 0 网页的平均生命周期大约为5 0 天,这样做每次搜集的网 页量不会很大( 研究表明在2 0 0 3 年初估计中国每天有3 0 - 5 0 万变化了的网页) , 于是可以经常启动搜集过程。3 0 万网页,一台p c 机,在一般的网络条件下,半天 可以完成搜集。这样的系统表现出来的信息时新性会比较高,主要缺点是系统实 现比较复杂;这种复杂还不仅在于搜集过程,而是还在于建立索引的过程。 前面提到了w e b 搜索引擎网页数据库维护的基本策略。其实在两种极端的情 况之间也可能有一些折中的方案,j c h o 博士在这方面做过比较深入的研究, 根据一种网页变化模型和系统所含内容时新性的定义,提出了相应优化的网页搜 集策略。其中一个的结论是:在系统搜集能力一定的条件下,若有两类网页( 例 第二章关键技术 如“商业”和“教育”) ,它们的更新周期差别很大( 例如“商业”类网页平均 更新周期是“天”,而“教育”类网页平均更新周期是“月”) ,则系统应该将注 意力放在更新较慢的网页上,以使系统整体的时新性达到比较高的取值。 具体搜集过程中,网页抓取策略有不同的方案。最常见的一种是所谓“爬取”: 将w e b 上的网页集合看成是一个有向图,搜集过程从给定起始u r l 集合s 开始, 沿着网页中的链接,按照先深、先宽、或者某种其他策略遍历,不停的从s 中移 除u r l ,下载相应的网页,解析出网页中的超链接u r l ,看是否已经被访问过, 将未访问过的那些u r l 加入集合s 。整个过程可以形象地想象为一只蜘蛛在蜘蛛 网上爬行,这个也是著名的“冲浪模型”。其实,实际环境下单个蜘蛛是不能满 足需求的,而实际系统一般都是多个“蜘蛛”同时在工作。 这种方式的好处是实现起来难度小,而且可以通过一定的策略,使搜集到的 网页相对比较“重要”。实际上,任何w e b 搜索引擎是不可能将w e b 上的网页搜 集完全的,通常都是在其他条件的限制下决定搜集过程的结束( 例如磁盘已满, 或者搜集时问过长) ,不过以现在w e b 搜索引擎的规模来看,大多数都是采用分 布式存储,容量没有限制。这样停止的可能是时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 青岛旅游元宇宙项目可行性研究报告
- 钢水增氮技术项目可行性研究报告
- 防汛知识培训粮库课件
- 智慧城管数某省市管理系统建设方案
- 人教版(2024)八年级上册Unit 2 Home Sweet Home Section A (1a-pronunciation)课件(内嵌视频)
- 行业标准合作协议
- 金融证券行业发展前景预测
- 人力资源代理合同6篇
- 合同范本之牛羊肉销售合同7篇
- HR数据分析应用-洞察及研究
- 全球低空经济2025年技术规范与实施白皮书
- 贵阳市2026届高三年级摸底考试英语试卷(含答案)
- 2025年城市燃气储气罐采购安装与运营维护服务合同范本
- 病房消毒及卫生管理课件
- 2025年国家公务员考录《行测》真题及参考答案
- 2025年城市管理笔试高频考点
- 艾滋病科普宣传课件
- 水泵房巡检流程培训课件
- 吊装专项施工方案
- 基本药物制度补助资金管理办法
- 无人机培训招生宣讲
评论
0/150
提交评论