(微电子学与固体电子学专业论文)基于sphinx构建web站内全文搜索系统的研究.pdf_第1页
(微电子学与固体电子学专业论文)基于sphinx构建web站内全文搜索系统的研究.pdf_第2页
(微电子学与固体电子学专业论文)基于sphinx构建web站内全文搜索系统的研究.pdf_第3页
(微电子学与固体电子学专业论文)基于sphinx构建web站内全文搜索系统的研究.pdf_第4页
(微电子学与固体电子学专业论文)基于sphinx构建web站内全文搜索系统的研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(微电子学与固体电子学专业论文)基于sphinx构建web站内全文搜索系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于s p h i n x 构建w e b 站内全文搜索系统的研究 专业:微电子学与固体电子学 硕士生:刘清明 指导教师:彭自成 摘要 对传统的信息检索技术的研究反映了人们很早就开始注意对信息搜集与使 用的研究。随着人类社会进入信息时代,信息以爆炸般的速度增长,各种信息充 斥了人们的生活空间。在这种情况下,如何快速有效找到有用的信息成为一个重 要课题。 对于一个拥有大量数据的网站来说,定制自己的站内检索机制是克服通用搜 索引擎索引范围不全、更新周期慢、不能定制等缺点的最佳方法。随着网站内容 的不断丰富,站内搜索逐渐成为继通用搜索和行业搜索之后的又一个热点,其应 用价值日益引起i t 界的重视和关注。 本文在研究w e b 搜索引擎的基本原理、核心技术和处理流程的基础上,结合 站内搜索的个性化需求,设计并实现了一个高效的w e b 站内全文搜索系统。不 仅完成了整个站内搜索引擎框架的设计,而且给出了系统主要部分的实现。 本文论述了国内外搜索引擎的技术发展现状,并对目前常见的站内搜索技术 进行了分析比较。之后在对s p h i n x 全文检索软件包进行介绍的基础上,结合目 前很多网站的构建都是采用广为流行的基于开放源代码的l a m p ( l i n u x + a p a c h e + m y s q l + p h p ) 技术实现的现状,借助第三方的s p h i n x 软件包和 l i b m m s e g 软件包设计并实现了一个高效的w e b 站内全文搜索系统。这种通过 集成s p h i n x 来为基于l a m p 技术的网站提供站内搜索的方法具有很好的通用 性,借助该方法,我们不仅可以在网站构建时就直接实现站内搜索引擎,而且也 能在不对现有网站的原有架构进行修改的情况下便捷地为网站提供一个性能优 越的站内搜索引擎。 关键词:站内搜索全文检索数据库驱动中文分词 t h er e s e a r c ho nb u i l d i n gw e b s i t ei n t e r n a lf u l l - t e x ts e a r c hs y s t e m b a s e do ns p h i n x m a j o r :m i c r o e l e c t r o n i c sa n ds o l i de l e c t r o n i c s n a m e :l i uq i n g m i n g s u p e r v i s o r :p e n gz i c h e n g a b s t r a c t t h er e s e a r c ho nt r a d i t i o n a li n f o r m a t i o nr e t r i e v a lr e f l e c t st h a tp e o p l eh a v ep a y a t t e n t i o nt ot h er e s e a r c ho ni n f o r m a t i o nc a p t u r ea n du s e s i n f o r m a t i o ni n c r e a s i n g l y b l a s t ,a n da l lk i n d so fi n f o r m a t i o nf l o o di n t os p a c eo fp e o p l e sl i f e w h e np e o p l e e n t e r i n gi n f o r m a t i o na g e i nt h i sc a s e ,i ti si m p o r t a n tt of i n do u tt h eu s e f u li n f o r m a t i o n e f f e c t i v e l y i ti st h eb e s tm e t h o df o raw e b s i t ew h i c hh o l d sa na b u n d a n c ed a t at oc u s t o m i z e i t so w nw e b s i t es e a r c hm e c h a n i s mt oo v e r c o m et h ed e f e c t so ft h eg e n e r a ls e a r c h e n g i n e s w e b s i t ei n t e r n a ls e a r c hb e c o m e sa n o t h e rh o t - s p o ts t e pb ys t e pf o l l o w i n g t h e g e n e r a ls e a r c ha n dp r o f e s s i o n a ls e a r c hw i t ht h ec o n t e n t so ft h ew e b s i t ei n c r e a s i n g l y , a n di t sa p p l i c a t i o nv a l u e sa c q u i r em o r ea n dm o r ea t t e n t i o n s t h i sp a p e rd e s i g n e da n di m p l e m e n t e dah i g h - e f f i c i e n c yw e b s i t ei n t e r n a lf u l l - t e x t s e a r c he n g i n ec o m b i n i n gt h et h u m b p r i n to ft h ew e b s i t ei n t e r n a ls e a r c hb a s e do nt h e r e s e a r c ha b o u tt h ep r i n c i p l e sa n dc o r et e c h n o l o g i e sa n dp r o c e s s i n gf l o w so ft h ew e b s e a r c he n g i n e ,w en o to n l ya c c o m p l i s h e dt h ed e s i g no ft h ew h o l ew e b s i t ei n t e r n a l s e a r c he n g i n ea r c h i t e c t u r e s ,b u ta l s og a v et h ei m p l e m e n t so ft h ep r i m a r yp a r t so ft h e s y s t e m t h i sp a p e rr e n e w e dt h ea c t u a l i t yo fs e a r c he n g i n e so ft h ew o r l d ,m a d ea n a n a l y s i sa n dc o m p a r eo i lt h et h r e ek i n d so fd o m i n a t i n gw e b s i t ei n t e r n a l s e a r c h t e c h n o l o g i e s ,a n dt h e nd e s i g n e da n di m p l e m e n t e dah i g h e f f i c i e n c yw e b s i t ei n t e r n a l f u l l t e x ts e a r c he n g i n es y s t e me m p l o y i n gt h et h i r dp a r t yp r o g r a m s - - - s p h i n xa n d l i b m m s e g - - - - - c o n s i d e r i n gt h a tl o t so fw e b s i t e sa r eb u i l tw i t ht h ep o p u l a rl a m p o p e n s o u r c et e c h n o l o g i e sb a s e do nt h ei n t r o d u c t i o nt ot h ef u l l t e x ts e a r c hp r o g r a ms p h i n x i i i i ti sag e n e r a l l ym e t h o dt ob u i l dw e b - s i t ei n t e m a ls e a r c he n g i n ef o r t h el a m p b a s e d w e b s i t e sb yi n t e g r a t i n gs p h i n x b yt h i sm e a n ,w ec a l ln o to n l yi m p l e m e mi td i r e c t l y w h e nw eb u i l di t ,b u ta l s ow ec a nc r e a t eap e r f o r m a n c e e x c e l l e n tw e b s i t ei n t e r n a l s e a r c he n g i n ec o n v e n i e m l ya n df a s tf o rt h ew e b s i t ew i t h o u tc h a n g i n gi t sf o r m e r c o n f i g u r a t i o n s k e y w o r d s :w e b s i t ei n t e r n a ls e a r c h ,f u l l t e x ts e a r c h , d a t a b a s ed d v e n , c h i n e s ew o r ds e g m e n t a t i o n i v 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人 或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文使用授权声明 学位论文作者签名: 扣1 铆 日期:一7 年易月歹日 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留 学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学 位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查 阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、缩印或其 他方法保存学位论文。 h 学位论文作者签名:弓御翩签名:钐 醐川7 “膨日醐:1 年 知识产权保护声明 日 本人郑重声明:我所提交答辩的学位论文,是本人在导师指导下完成的成果, 该成果属于中山大学物理科学与工程技术学院,受国家知识产权法保护。在学期 间与毕业后以任何形式公开发表论文或申请专利,均须由导师作为通讯联系人, 未经导师的书面许可,本人不得以任何方式,以任何其它单位做全部和局部署名 公布学位论文成果。本人完全意识到本声明的法律责任由本人承担。 学位论文作者签名: 1 弓曹,7 佩 日期:r 17 年月矿日 第一章绪论 1 1 本研究课题的学术背景 i n t e m e t 和w e b 对我们的社会带来了深刻影响。w e b 信息系统已成为分布式 应用系统的主流形式之一,在公众计算、企业计算和行业信息化中发挥日益重要 的作用【1 1 。 在这种情况下,中国计算机学会暨电子政务与办公自动化专委会从2 0 0 4 起 开始主办“全国w e b 信息系统及其应用学术会议( w i s a ) ,该会议每年举办一 次,在w e b 信息系统核心技术、w e b 信息系统应用框架和体系结构、w e b 信息 系统应用等方面进行深入广泛的探讨和交流。搜索引擎技术作为“w e b 信息挖掘 与检索 这一大会重要主题之一的重要组成部分,有着极其重要的地位并受到参 会人员的广泛关注。 下面首先让我们来回顾一下与搜索引擎有关的重要历史事件。 1 9 9 1 年,欧洲粒子物理实验室( c e i ) 的英国科学家t i mb e m e r s 。l e e 和他 的比利时同事r o b e r tc a i l l i a u 发明了文档链接系统w o r l dw i d ew e b ,为浏览器的 发明带来可能。1 9 9 3 年,美国国家计算机安全协会n c s a 推出第一个基于h t m l 语言的图形浏览器m o s a i c ,使得普通用户可以轻松的使用互联网。1 9 9 4 年,美 国网景公司推出免费浏览器n e t s c a p e ,使得以h t m l 为格式的w e b 信息迅速膨 胀,w o r l dw i d ew e b 同时也将互联网变成了一个庞大的、从未有过的知识库。 同年,y a h o o 公司创立,提供基于目录的信息检索服务。 随着w e b 信息的迅速膨胀,用户试图通过浏览w e b 来发现信息逐渐变得非 常困难,往往花费了很多时间却收获甚少。在这种情况下,如何有效的检索w e b 信息,以帮助用户从大量文档信息集合中找到与给定查询请求相关的文档子集, 也就成为一项重要而迫切的研究课题。在这种情况下,w e b 搜索引擎应运而生。 第一个真正意义上的搜索引擎是创建于1 9 9 4 年春天的l y c o s ,随后陆续出现 的还有i n f o s e e k 、e x c i t e 、a l t a v i s t a 等,以及1 9 9 8 年9 月诞生的g o o g l e 。当然, 其他的搜索引擎还有很多,并不限于我们这里所提到的几个,此处就不再一一列 举。 以上我们提到的搜索引擎一般指的都是通用搜索引擎,通用搜索引擎的出现 从很大程度上适应了从迅速膨胀的w e b 信息中获取有用信息的需要。但是,通 用搜索引擎的目标是面向广泛的各种各样的领域提供信息搜索服务,考虑的更多 的是信息的广泛性和全面性,其提供的服务往往并不适合于某些特定的应用场 厶 口。 例如,通用搜索引擎的网络爬虫对于爬行和抓取静态网页的确很强大,但是 对于现在越来越流行的基于脚本语言和数据库技术构建的动态网站的内容的爬 行和抓取却不是很行之有效2 1 。基于脚本语言的动态网站大都采用某种数据库来 存放信息,搜索引擎的网络爬虫对这些后台数据库中的数据却无法访问,从而使 w e b 上很大部分的有用信息得不到应用的提供。通用搜索引擎固有的不足给垂直 搜索引擎( 又称为专业搜索引擎、主题搜索引擎、行业搜索引擎) 和站内搜索引 擎的发展带来了契机。 我们在利用动态网站技术构建自己的服务网站的时,有必要根据具体情况构 建自己的站内搜索引擎。简单的站内搜索实现可以通过使用脚本语言封装s q l 查询语句借助数据库本身提供的索引与查询服务来实现,但是这种方式却存在很 多不足。 首先,现在主流的关系数据库是设计为组织和管理结构化数据来构建的,如 果用数据库存放大量的非结构化文本信息,就无法对这些数据实现全文检索。其 次,在数据量比较小的情况下,这种检索也许不会存在明显的缺陷,但是当运行 中的动态网站的数据库中的非结构化文本数据记录日益增多时,数据库的索引和 查询功能就会逐渐不能满足性能要求。 基于以上分析和考虑,本人结合自己兴趣特点和本学期选修数据库高级技 术课程以及w i s a 会议的实际,提出本课题基于s p h i n x 构建w e b 站内全文 搜索系统的研究。 1 2 本研究课题的理论与实际意义 2 本课题旨在通过学习和探究搜索引擎的原理和关键实现技术,并使用一个称 为s p h i n x 的软件包来索引网站数据库中的数据并提供强大的查询功能来替代数 据库本身对非结构化数据功能有限的索引和查询,从而达到有效提供站内信息给 访问者的目的。 换言之,s p h i n x 是一个以现有数据源为驱动,能够提供类似搜索引擎强大索 引与查询功能的软件包( 官方描述为s p h i n x f r e eo p e n s o u r c es q l f u l l t e x ts e a r c h e n g i n e 【3 】) ,目前该软件包已经能很好支持m y s q l 和p o s t g r e s q l 数据库,并提 供了p h p 和p y t h o n 、p e r l 、r u b y 等a p i 接口支持,这对在p h p + m y s q l 构建 的动态网站中实现提供站内查询服务十分有利。 本课题在利用数据库高效管理非结构化数据方面是一个有益的尝试,同时也 为专注于提供内容和服务的网站提供了一种低成本高性能的站内搜索解决方案。 例如,对校园网这样的应用可以极大的方便访问者获取所需的相关信息,从而有 效的满足用户的需求;对于像以提供新闻内容为主的内容管理系统来说更是极大 的提高了其服务的质量,从而吸引和挽留更多的用户。 1 3 国内外文献综述 国外对搜索引擎的研究起步较早,在1 9 9 4 年春天第一个现代意义上的搜索 引擎l y c o s 出现以前,很多人就已经在这方面做过不少研究。m i t 的m a t t h e wg r a y 在1 9 9 3 年写出了第一个网络蜘蛛程序,并在后来用于l y c o s 中,之后更是陆续 产生了一大批丰硕的成果。 a l i s t a i rm o f f a t 等人在s e l f i n d e x i n gi n v e r t e df i l e sf o rf a s tr e t r i e v a l ) ) 【4 j 一文中 提出了现在搜索引擎中广泛使用的到排索引文件。a c ms i g i r 9 8 会议第一次把 国际上对w e b 信息检索和搜索引擎研究的人员聚集到一起,并在对以前研究成 果进行总结的基础上指出了下一步研究的方向,e r i cw b r o w n 和a l a nes m e a t o n 的( ( h y p e r t e x ti n f o r m a t i o nr e t r i e v a lf o rt h ew e b ) ) 5 1 文便是此次会议成果的结晶。 s e r g e yb r i n 和l a r r yp a g e 在1 1 1 ea n a t o m yo fal a r g e s c a l eh y p e r - t e x t u a lw e bs e a r c h e n g i n e 【6 】一文提出了著名的基于超链的网页排级算法,此算法作为g o o g l e 搜索 引擎的核心算法之一并使g o o g l e 在不久的将来取得了巨大的成功。i b m 的研究 3 人员a n d r e ib o r d e r 在at a x o n o m yo fw e bs e a r c h ) ) 【7 l 4 文在总结了2 0 0 2 年以前 研究成果的基础上提出了w e b 搜索的分类方法等。 信息检索模型是信息检索的核心【8 】。近几年来国外对于布尔模型的研究主要 表现在对布尔模型的改进及对扩展布尔模型的进一步优化;对向量空间模型的研 究,主要集中在对向量空间模型的扩展研究及对向量空间模型的应用方面;概率 模型的发展主要集中在继续对概率模型进一步的研究,与其它信息检索模型的结 合,以及语言模型的研究和发展。近年来对于新兴的基于本体的信息检索模型的 研究,主要集中在对基于本体的信息检索模型理论的研究,与其它检索模型的融 合,以及基于本体检索模型的应用。国外信息检索模型研究的最新成果,为国内 此方面的研究提供了前沿性的参考信息。 其他的成果还有很多,这里举出的只是几个有代表性的例子。这些研究涵盖 了很多与之相关的主题如自然语言处理、多语言交叉搜索处理、图像搜索、多媒 体搜索、语音搜索、个性化搜索引擎、智能搜索等各个方面。 国内对搜索引擎的研究相对国外来说起步要晚一些。 王继成等人在2 0 0 1 年2 月计算机研究与发展上发表的w 曲信息检索 研究进展【9 】一文中采用分层方法对w e b 检索系统进行了分类:“w e b 信息检索 系统作为用户层和w e b 信息层之间的中间层,可以进一步地划分为3 个层次, 包括:搜索引擎与目录、元搜索引擎、信息检索a g e n t 。在层次分类中,每一层 都建立在其下各层地基础之上,并向其上各层提供信息检索服务。 “搜索引擎是 一种最为常见的w e b 信息检索系统。” 4 图1 1w e b 信息检索系统层次分类 张卫丰等人在2 0 0 1 年9 月的计算机科学上发表的w r e b 搜索引擎综述 【l o j 一文中“介绍了搜索引擎的发展历史,讨论了搜索引擎的基本工作原理,分 析比较了搜索引擎的几个关键指标并给出了监测这些指标的方法”,并在此基础 上“分析了搜索引擎面临的问题和将来的发展趋势:未来的搜索引擎应该搜 索速度更快,搜索精度更高和能够满足用户个性化的需求。 印鉴等人在2 0 0 5 年7 月的计算机工程上发表的搜索引擎技术研究与 发展【l l 】一文中指出,“随着w e b 上用户群体的发展,搜索引擎技术是一个具有 极大潜力的研究方向。”该文“对搜索引擎技术做了系统的归纳和介绍,分析了 各部分的关键技术和研究情况,并对未来的发展方向做了展望。目前的搜所引 擎在检索结果的准确性方面仍有一定的不足 ,“如何提高搜索引擎的性 能表现将是未来搜索引擎技术的重要发展趋势。 何晓阳等人在2 0 0 5 年2 月现在情报杂志上发表的国内搜索引擎研究 现状分析【1 2 l 文中指出:“1 9 9 6 年国内就已经开始关注w e b 检索技术的发展, 整体上处于迅速上升的趋势 ,搜索引擎的研究“在1 9 9 9 年就已经成为学术界关 注的热点,而自2 0 0 1 年以来一直保持在较高的水平,达到讨论白热化程度。由 此可以认为,w e b 信息检索领域发展势头迅猛,目前该领域的研究还处于发展阶 段,仍然是学术界关注的热点。 “w e b 检索理论与算法研究、系统设计与实现技 术、信息组织与研究以及专题类研究是搜索引擎研究中的热点。 此外,由中国计算机学会主办的全国w e b 信息系统及其应用会议从2 0 0 4 年 起每年举办一届,最近一次是第5 届( w i s a 2 0 0 8 ) ,已于去年9 月在西安召开。 信息检索系统和搜索引擎作为信息系统的核心技术和应用,也是大会的主要议题 之一,该会议在很大程度上吸引和聚集了国内的研究人员对搜索引擎进行研究, 很多研究也已经逐步开始跟上国际潮流,并产生了若干比较有价值和影响的研究 成果。 通过对以上研究情况的分析我们可以看出,对于信息检索和搜索引擎的研究 基本是理论与实践并重,两者相辅相成、互为促进。理论研究更注重先进性、前 瞻性以及在现有研究成果上的突破和创新,实践研究更注重对理论研究成果的实 现和检验,以及对实际应用中碰到的问题根据具体情况给出可行的解决方案和对 已有实现的优化升级等,也就是所谓的系统设计与实现技术。 w e b 从1 9 9 1 年出现到现在不过十几年的时间,真正意义上的w e b 搜索引擎 更是到1 9 9 4 年才出现,尽管其相关的研究和应用已经取得了颇为丰硕的成果, 一些关键理论也已经慢慢成熟,但是其研究还远远没有结束,特别是基于应用的 研究永远没有止境,待解决的问题也还有很多。 理论方面比如自然语言处理,多媒体信息检索,智能搜索与个性化搜索等都 是目前研究的热点;实践方面,通用搜索引擎面向广泛各种各样的领域提供信息 搜索服务,考虑的是信息的广泛性和全面性,其提供的服务并不适合与所有的应 用场合,所以把通用搜索引擎研究中相对成熟的技术用在构建垂直搜索和站内搜 索中就有着重要的意义。这不仅使得已有研究成果发挥了更大的作用,而且也对 通用搜索构成了有益的补充,从而使更多的信息能够在网上得到有效的获取。 1 4 本研究课题的来源及主要研究内容 本研究课题来源于2 0 0 7 年9 月在北京举行的第4 届中国计算机学会全国w e b 信息系统及其应用会议( w i s a 2 0 0 7 ) 。 总体说来,本课题涉及了3 个方面的内容:第一是搜索引擎技术,这是提供 数据组织管理和提供查询服务的关键,也是本课题基于s p h i n x 构建w e b 站内 全文搜索系统的研究的主要工作;第二是数据库技术,我们用关系数据库来实 6 现对数据的存储,同时作为站内搜索引擎系统的驱动数据源;第三是w 曲技术, 特别是l i n u x 平台的系统服务管理技术和基于脚本语言p h p 编程的动态网站技 术。 s p h i n x 软件包提供了索引器和搜索器。要想在现有s q l 驱动数据源上提供 功能强大的查询搜索,对驱动数据源进行合理高效的索引是关键。对关系数据库 索引的研究本身就是一个很重要的问题,并且已经取得很多成熟可用的成果,我 们可以把数据库索引实现的现有研究成果和s p h i n x 索引器在文本非结构化数据 管理应用方面的优势有效结合,从而构建出高效实用的查询索引。 利用l i b m m s e 9 0 3 1 对s q l 数据源进行中文分词处理并用s p h i n xi n d e x e r 生成 索引也是最为关键的问题。所以,在工作过程中注重对中文分词技术的理论学习 和应用研究,充分理解s p h i n x 索引器的工作原理、了解其关键的核心技术,以 做到对s q l 数据源进行高效合理的索引并根据s q l 关系数据库特点把两者有效 结合也是本课题研究的一个工作重点。 1 5 建立研究的线索与思路 本课题在实施的过程中既离不开理论的学习,也离不开相关理论的应用和一 些探索性的实践,比如搜索引擎原理、搜索引擎关键实现技术,以及数据库技术、 w e b 技术、中文分词技术、非结构化文本数据的分析与索引处理等,且我们的工 作更多的侧重在系统的设计和实现方面。 根据目前实际情况和s p h i n x 软件包的特点,我们的基本工作环境平台采用 l i n u x + a p a c h e + p h p + m y s q l 组合搭建,这也是目前中小型网站普遍采用的主 流平台和配置;搜索功能采用s p h i n x + l i b m m s e g 的方式来实现。由于工作的实 验性特点,一台安装了l i n u x 操作系统的普通的个人电脑作为基本的硬件设施就 已经足够,所使用的软件包也都是基于g p l 许可协议的开源软件,均可以从网 络自由获取,且不用于商业用途也不会存在版权问题。 当然,课题在进行过程中也出现了一些意想之外的情况和问题。但是,互联 网为我们提供了一个学习和工作的广阔空间以及为这些情况和问题而寻找解决 方案的地方。我们充分利用互联网为我们带来的便利进行了有效的知识获取和更 7 新并进行了有效利用,从而使碰到的问题得到了合理的解决。 本课题的创新之处在于考虑实现利用有效管理结构化数据的数据库技术来 对非结构化数据进行管理并同时提供比数据库管理系统本身所能提供的功能更 加强大的查询应用。 1 6 论文章节安排 论文分为4 章。 第一章绪论,阐述了本课题的学术背景、理论和实际意义,对国内外的研究 文献做了综述,并说明了本研究课题的来源和主要研究内容,以及建立研究的线 索和思路等。 第二章是站内搜索技术分析。阐述了全文检索与搜索引擎两者之间的关系, 并指出全文检索不等同于搜索引擎,但搜索引擎却是全文检索技术最重要的应 用;接下来从国内外技术发展概况、特点和分类、发展趋势、工作原理和技术指 标等方面对搜索引擎技术进行了综述和回顾;最后给出了站内搜索的出现和研究 站内搜索的必要性,并对站内搜索技术进行了分类和比较。 第三章是对s p h i n x 全文检索引擎的介绍。首先简介了s p h i n x 项目出现的背 景并对s p h i n x 的特点进行了介绍。之后对s p h i n x 软件包中的两个主要工具索引 器和检索器的有关概念、原理和主要功能进行了比较详细的介绍。 第四章是对基于s p h i n x 的w e b 站内全文搜索系统的设计与实现。这也是本 文工作的重点。本章结合目前中小网站广泛采用l a m p 技术实现的实际,借助 第三方的s p h i n x 全文检索软件包和l i b m m s e g 中文分词软件包设计了一个站内 搜索引擎系统。首先给出了一个系统总体架构的设计方案,之后根据该架构对数 据源、中文分词、索引、检索和用户接口部分分别给出了详细的方案和说明。并 根据方案给出了该站内搜索引擎系统主要功能部分的一些实现,包括系统平台的 构建,驱动数据源的实现、中文分词与索引的实现、索引检索和用户接口的实现 世 守。 结语部分对本文的工作进行了总结,给出了该站内搜索引擎系统相对以往搜 索引擎所取得的进步和主要的成果,同时指出了本文工作的不足,并指出了下一 8 步工作和努力的方向。 9 第二章站内搜索技术分析 2 1 全文检索与搜索引擎 2 1 1 全文检索的概念与特点 在全文检索【1 4 】中,文档中所有的词都当作关键字。计算机索引程序通过扫描 文章中的每一个词,并对其建立一个索引指明该词在文章中出现的次数和位置, 用户查询时检索程序根据事先建立的索引进行查找,并将查找的结果反馈给用 户。这个过程类似于通过字典中的检索字表查字的过程。 全文检索的方法主要分为按字检索和按词检索两种: 按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组 合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上 是合一的,而中文中字与词有很大分别。 按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可 以处理同义项等。 英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同 义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关 于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。 全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软 件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现 代的全文检索系统还需要具有方便的用户接口。功能上,全文检索系统核心具有 建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能。结构上, 全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等。 图2 1 展示了上述全文检索系统的结构与功能。 1 0 图2 一l 全文检索系统结构 在上图中,我们可以看出:全文检索系统中最为关键的部分是全文检索引擎, 各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度,根本 上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索 应用的根本。 另一个方面,一个优异的全文检索引擎,在做到效率优化的同时,还需要具 有开放的体系结构,以方便程序员对整个系统进行优化改造,或者是添加原有系 统没有的功能。比如在当今多语言处理的环境下,有时需要给全文检索系统添加 处理某种语言或者文本格式的功能,比如在英文系统中添加中文处理功能,在纯 文本系统中添加x m l 或者h t m l 格式的文本处理功能,系统的开放性和扩充性 就十分的重要。 随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这 些信息大致可分为两类:结构化数据和非结构化数据。结构化数据指的是诸如企 业财务账目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数 据、图像声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的8 0 以上。 对于结构化数据,用关系数据库管理系统技术来管理是目前最好的一种方 式。但是由于关系数据库管理系统自身底层结构的缘故使得它管理大量非结构化 数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过 全文检索技术就能高效地管理这些非结构化数据。 经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文 本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵 和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全 文检索系统的基本指标【”】也逐渐形成规范。 首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料 量与系统资料库中相关资料总量的比率。 查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索 时,检索出的有用资料数量与检索出资料总量的比率。 检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到 查出资料结果所需的时间。 另外还有诸如收录范围、用户负担、输出形式等指标也是衡量全文检索系统 优劣的要素。 2 1 2 信息检索与搜索引擎 互联网的发展明显地促进了信息检索【1 6 】技术的发展和应用,一大批搜索引擎 诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索 等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索 技术,但互联网信息搜索和信息检索是不同的。 1 ) 数据量。传统信息检索系统面向的是内部数据或者和企业相关的数据, 一般索引库规模多在g b 级,数据量大的也只有几百万条;但互联网网页搜索需 要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集和分布 式计算技术,对大多数企业应用是不合适和不必要的,并不适用于企业应用。 2 ) 内容相关性。信息太多,查准和排序就特别重要,g o o g l e 等搜索引擎采 用网页链接分析技术,根据互联网上网页被链接次数作为重要性评判的依据;但 全文检索的数据源中相互链接的程度并不高,不能作为判别重要性的依据,只能 基于内容的相关性排序。就是说,和检索要求最相关的信息排在检索结果的前面, 链接分析技术此种排序基本不起作用。 1 2 3 ) 实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步 数据,大的搜索引擎的更新周期需要以周乃至月度量;而信息检索需要实时反映 内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要 求。 4 ) 安全性。互联网搜索引擎都基于文件系统,数据来源都是互联网上公开 的信息,而且除了文本正文以外,其它信息都不太重要;但全文检索的数据源都 是内部信息,有等级、权限等限制,对查询方式也有更严格的要求,因此其数据 一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。 5 ) 个性化和智能化。搜索引擎面向的是互联网访问者,由于其数据量和客 户数量的限制,相关反馈、自然语言处理技术、知识检索、知识挖掘等计算密集 的智能技术很难应用,这也是目前搜索引擎技术努力的方向;而全文检索数据量 小,检索需求明确,客户量少,在智能化和个性可走得更远。 2 2 搜索引擎技术综述 2 2 1 国内外技术发展概况 1 9 9 0 年以前,没有任何人能搜索互联网。 现代意义上的搜索引擎的祖先是1 9 9 0 年由蒙特利尔的麦吉尔大学学生a l a n e m t a g e 发明的a r c m e 【1 7 1 。a r c h i e 是第一个自动索引互联网上匿名f t p 网站文件 的程序,但它还不是真正的搜索引擎。 由于专门用于检索信息的r o b o t 程序像蜘蛛一样在网络间爬来爬去,因此, 搜索引擎的r o b o t 程序被称为s p i d e r 程序。世界上第一个s p i d e r 程序,是麻省 理工学院m a t t h e wg r a y 的w o r l dw i d ew e bw a n d e r e r ,用于追踪互联网发展规模。 刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址。 1 9 9 4 年4 月,斯坦福大学的两名博士生,d a v i df i l o 和美籍华人杨致远共同 创办了超级目录索引y a h o o ,并成功地使搜索引擎的概念深入人心,从此搜索引 擎进入了高速发展时期。 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月,l y c o s 是搜索引擎史上又一 个重要的进步。当时卡耐基梅隆大学的m i c h a e lm a u l d i n 将j o l l i ll e a v i t t 的s p i d e r 程序接入到其索引程序中,创建了大家现在熟知的l y c o s 。除了相关性排序外, l y c o s 还提供了前缀匹配和字符相近限制,l y c o s 第一个在搜索结果中使用了网 页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1 9 9 5 年,一种新的搜索引擎形式元搜索引擎出现了。第一个元搜索 引擎,是华盛顿大学的m e 协c r a w l e r 【1 8 】。元搜索引擎概念上好听,但搜索效果始 终不理想,所以没有哪个元搜索引擎有过强势地位。 d e c 的a l t a v i s t a 是一个迟到者,1 9 9 5 年1 2 月才登场亮相。但是,大量的创 新功能使它迅速到达当时搜索引擎的顶峰。a l t a v i s t a 最突出的优势是它的速度, 而a l t a v i s t a 的另一些新功能,则永远改变了搜索引擎的定义。a l t a v i s t a 是第一 个支持自然语言搜索的搜索引擎,a l t a v i s t a 是第一个实现高级搜索语法的搜索引 擎;a l t a v i s t a 也声称是第一个支持用户自己向网页索引库提交或删除u r l 的搜 索引擎,并能在2 4 小时内上线;a l t a v i s t a 最有趣的新功能之一,是搜索有链接 指向某个u r l 的所有网站;另外在面向用户的界面上,a l t a v i s t a 也作了大量革 新。 19 9 8 年诞生的g o o g l e 在p a g e r a n k 6 】【1 9 1 、动态摘要、网页快照、d a i l y r e f r e s h 、 多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能 上的革新,像a l t a v i s t a 一样,再一次永远改变了搜索引擎的定义。在2 0 0 0 年中 以前,g o o g l e 虽然以搜索准确性备受赞誉2 0 1 1 2 1 】【2 2 1 ,但因为数据库不如其它搜索 引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到2 0 0 0 年中数据库升级后,又借被y a h o o 选作搜索引擎的东风,才一飞冲天。 北大天网是国家“九五 重点科技攻关项目“中文编码和分布式中英文信息 发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1 9 9 7 年 1 0 月2 9 日正式在c e i e t 上提供服务。2 0 0 0 年初成立天网搜索引擎新课题组, 由国家9 7 3 重点基础研究发展规划项目基金资助开发,收录网页约6 0 0 0 万,利 用教育网优势,有强大的f t p 搜索功能。 2 0 0 0 年1 月,百度公司成立。2 0 0 1 年1 0 月2 2 日正式发布b a i d u 搜索引擎。 b a i d u 只提供中文搜索,但可能是最大的中文数据库。b a i d u 搜索引擎的其它特 色包括:网页快照、网页预览预览全部网页、相关搜索词、错别字纠正提示、 1 4 新闻搜索、f l a s h 搜索、信息快递搜索。 2 2 2 搜索引擎的分类 目前,搜索引擎系统按照信息搜集方法和服务提供方式的不同主要可分为三 种,分别是全文搜索引擎、目录索引分类搜索引擎和元搜索引擎【2 3 1 1 2 4 。 1 ) 全文检索搜索引擎 全文搜索引擎是名副其实的搜索引擎【2 5 1 1 2 6 】【2 7 】,国外具代表性的有g o o g l e 、 a l t a v i s t a 、等,国内著名的有百度、中搜。它们都是通过从互联网上提取的各个 网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一 定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的 检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提 到的几家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结 果,如l y c o s 引擎。 搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间搜 索引擎主动派出蜘蛛程序,对一定i p 地址范围内的互联网站进行检索,一旦发 现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交 网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定向向网站 派出蜘蛛程序,扫描网站并将有关信息存入数据库,以备用户查询。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与 用户要求内容相符的网站,便采用特殊的算法一通常根据网页中关键词的匹配 程度,出现的位置频次,链接质量等计算出各网页的相关度及排名等级, 然后根据关联度高低,按顺序将这些网页链接返回给用户。 2 ) 目录分类搜索引擎 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户 在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅 是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分 1 5 类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的 y a h o o 。国内的搜狐、新浪、网易搜索也都具有这一类功能。 与全文搜索引擎相比,目录索引有许多不同之处: 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作【2 引。用 户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标 准甚至编辑人员的主观印象,决定是否接纳你

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论