(计算机应用技术专业论文)古建主题搜索引擎研究.pdf_第1页
(计算机应用技术专业论文)古建主题搜索引擎研究.pdf_第2页
(计算机应用技术专业论文)古建主题搜索引擎研究.pdf_第3页
(计算机应用技术专业论文)古建主题搜索引擎研究.pdf_第4页
(计算机应用技术专业论文)古建主题搜索引擎研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)古建主题搜索引擎研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 古建主题搜索引擎研究 摘要 搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应 用的关键内容。目前随着i n t e m e t 信息的爆炸增长以及信息多元化的 发展,主题搜索引擎正成为研究热点与发展趋势。本文就中文w r e b 主题信息获取与检索技术进行了一些研究,并设计和实现了一个以主 题信息采集a a c r a w l e r 为核心的古建主题搜索引擎a a s ( a n c i e n t 心c h i t e c t u r es e a r c h ) 。 本文首先介绍了目前综合型搜索引擎的发展、现状、分类、工作 原理并指出其不足与发展方向。随之对主题型搜索引擎产生背景与工 作方式作了概述,并重点探讨了信息检索模型、主题信息采集策略、 加权索引及检索技术等搜索引擎关键技术。在此基础上,利用j a v a 的多线程技术,并结合l l i i l t l 文档分析、首页关联、内容预测、数据 库全文索引等各种技术,给出了一种比较理想的主题搜索引擎设计方 案并实现了一个古建主题搜索引擎系统a a s 。该系统面向古建领域, 保证了对古建信息的完全收录与及时更新,避免了强大的搜索噪音, 提高了检索效率,能快、全、准地提供古建专题信息查询。 针对古建专业面临的生僻汉字难以信息化处理的问题,本文还提 出了基于b n f 范式的汉字编码,从而实现了生僻汉字在搜索引擎中 的输入、存储和搜索。 i 北京化工大学硕士学位论文 最后本文总结了古建主题搜索引擎系统的研究和开发经验,并指 出了系统的应用前景以及下一步研究的方向。 关键词:搜索引擎,主题信息采集,主题搜索引擎,古建,生僻汉字 i i 摘要 f o c u s e ds e a r c he n g i n ef o ra n c i e n t a r c h i t e c t u r e a b s t r a c t s e a r c he n g i n e sa r et h em o s ti m p o r t a mi n f o r m a t i o nq u e 巧t o o l sf 幻m t 1 1 ew o r l dw i d ew e ba n dm ek e yt ot h ei n t e m e tr e s e a r c ha n d u t i l i z a t i o n f o l l o w i n gt h ew w w i n f i o m a t i o n sb l a s t e da n dm u l t i v 撕a n t g r o w i n gu p ,f o c u s e ds e a r c he n g i n e sa r eb e c o m i n gr e s e a u r c h i n gf o c u s t h i s d i s s e r t a t i o nf o c u s e do nt h et o p i cs p e c i f i cc h i n e s ew e bi n f o m l a t i o n a c c e s s i n ga n di t ss c r e e n i n gt e c h n o l o g y d e s i g n e da n da c c o m p l i s h e da l l a n c i e n ta r c h i t e c t u r es e a r c h ( a a s ) e n g i n ew h i c hk e m e lw a sm et 叩i c s p e c i f i ci n f o 姗a r t i o ng a t h e r i n ga a c r a w l e r w e f i r s t l yi n t r o d u c e dh i s t o 巧a n dp r e s e n tc o n d i t i o no fn o w a d a y s g e n e r a lp u 叩o s ec o n l p r e h e n s i v es e a r c he n g i n e s s e c o n d l y ,w ea n a l y z e d t h e i r c l a s s i f i c a t i o n ,w o r k i n g m e c h a n i s ma n dd e 佗c t s a n d w h a t s m o r e ,f o c u s e d s e a r c h e n g i n e s w e r e s u e y e d b a s e d o ns t l e s s e d i n v e s t i g a t i n go fi n f o r m a t i o nq u e 巧m o d e l s ,f o c u s e dr e t r i v e a ls t r a t e g i e s , m e t h o do fw e i g h t e di n d e xa n dr e t r i e v a lt e c h i l o l o g i e s ,af o c u s e ds e a r c h n l 北京化工大学硕士学位论文 e n g i n ed e s i g n i n go u t l i n ew a ss u g g e s t e d a c c o d r i n gt om eo u t l i n e ,w e a c c o m p l i s h e da n c i e n ta r c h i t e c t u r es e a r c h ( a a s ) e n g i n e ,w h i c hw a s d e t e c t i o n ,d a t a b a s ei n d e xa n dj a v am u l t i l l l r e a dt e c h n o l o g y a a se n g i n ei s m es p e c i f i ca n c i e n ta r c h i t e c t u r ew e bi n f o m l a t i o ns y s t e m ,i th a sh i g h e r a c c u r a c yr a t et h a ng e n e r a ls e a r c he n g i n e s ,a n dq u i c l ( 1 yo 脆rc o m p l e t e a 1 1 c i e n ta r c h i t e c n l r ei n f o n n a t i o n f o r 恤ep r o b l e mo fi n f o m a t i o n i z a t i o no fr a r ec h i n e s ec h a r a c t e r si n t h ef i e l do fa n c i e n ta r c h i t e c t u r e ,w ep r e s e n t e da b n f _ b a s e d - c o d i n gf o r c h i n e s ec h a r a c t e r s w i t ht h eh e l po fm i sc o d i n g ,r a r ec h i n e s ec h a r a c t e r s c o u l d b ei 印毗e d ,s t o r e da n d q u e r i e di na a s a tl a s t ,m u c he x p e i i i e n c eo fa a sr e s e a r c h i n ga n dd e v e l 叩i n gw a s s u m m e d u pa n dt h es y s t e mf o r e g r o u n dw a si n d i c a t e d k e yw o r d s :s e a r c h e n g i n e ; f o c u s e dc r a w l i n g ;f o c u s e ds e a r c h e n g i n e ;a n c i e n ta r c h i t e c t u r e ;r a r ec h i n e s ec h a r a c t e r i v 北京化工大学硕士学位论文 北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者签名:鱼盟日期: 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文 的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北 京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 学位论文。 保密论文注释:本学位论文属于保密范围,在土年解密后适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授 权书。 作者签名:鱼逛 日期:垄堑垒必堑旦 导师签名:劣裕 日期:垄丝呈垒复丝 第一章绪论 第一章绪论 1 1 课题研究的背景和意义 , 随着i n t e m e t 和w w w 的迅速发展,i m e m e t 上的资源日趋丰富,基于i m e m e t 的各类信息检索服务应运而生并得到了迅速发展,像g 0 0 9 l e ,o o ,百度等综 合型搜索引擎技术已经能够很好的满足用户的需求。综合型搜索引擎功能虽然非 常强大,但是当使用它们来检索某些特定专业的信息( 譬如古建专业信息) 时,综 合型搜索引擎系统就有些力不从心。为了满足特定专业科学研究的需要,需要开 发针对特定专业的信息检索系统。目前,已经存在一些专业搜索引擎系统,如化 工、法律、医学等专业信息检索系统,这些系统也被称为主题搜索引擎系统。 为推进我国古建数字化、信息化的建设,国内许多古建方面的研究所、高校、 政府部门以及文物保护单位等纷纷建立起自己的古建信息网站。但是由于综合搜 索引擎自身的局限,古建主题信息的获取仍然十分困难。调查表明,大量的专业 研究人员和商业机构关心的内容只限于涉及本行业的几个主题,信息来源也主要 是本行业的几个核心网站。这就为专业化的面向主题的搜索引擎的产生提供了条 件。主题搜索引擎面向某一个固定专业或主题,通过建立相对固定的网络地址集 合和搜索的关键词库,根据一定的检索算法有选择地抓取网页信息而非完全遍历 w 曲,这样就大大降低了设备的硬件开销,同时获得信息的准确性也大大提高。 建立古建主题搜索引擎能为广大的古建工作者、科研人员、文物部门以及古建专 家提供快速准确的古建信息,必将大大推动我国古建信息化工程的建设。 1 2 课题的难点 如前所述,现有的综合型搜索引擎系统大多采用相同的架构模式,即系统由 c r a w l e r 、索引器和检索器三部分构成,所不同的是各个部分采用不同的方式实 现。众所周知,网络上的信息不仅量大,而且信息的载体也种类繁多,有的信息 存储在文本文件中,有的信息以h t m l 文件方式来表现,有的则通过w | 0 r d 文档 来传递,有的则通过p d f 文件来存储。除了文件格式的异构特性之外,各类文 件采用的编码方式也大相径庭。索引器的任务就是要索引各种类型的文件而为检 索器所用,这种异构特性大大增加了编写索引器的复杂度。 北京化工大学硕上学位论文 再者,虽然当前主流的搜索引擎系统都采用了c r a w l e r 、索引器和检索器的 架构方式,但是各个搜索引擎的技术细节都未曾公开,所以即使使用这样的方式 来架构搜索引擎系统,仍然有大量的工作要做。 最后,目前国内尚未出现具有自主知识产权的古建专业搜索引擎系统,因此 在开发该古建搜索引擎系统的时候,没有任何可以参考的技术资料。只能揣摩综 合型搜索引擎与古建专业型搜索引擎之间的差异,然后加以改进。 1 3 课题的主要创新点 古文物、古建筑中的文字材料数字化过程中遇到的一个最大问题就是缺字问 题,即部分规范文字在现有的计算机系统字库中没有编码,无法处理,这类文字 称为生僻汉字或特殊字。如何解决特殊字输入、加工处理、显示打印等数字化工 作环节中的问题,一直是困扰古建主题搜索的难题。因此,研究一种新的文字编 码解决方案非常有必要。 本文提出了基于b n f 范式编码的生僻汉字输入与搜索方法,与通用汉字输 入方法保持一致,把生僻汉字进行拆分,单独输入各部分的结构,再进行重新组 合,最终显示为矢量字体;也可针对生僻汉字的构造,建立部件结构,填入各部 分的内容,组成新矢量汉字。在网页中该字则要用二维图像表示出来,而且该二 维图像的大小要与周围其他字符相一致;而在h t m l 文件和数据库中则是以 b n f 范式编码而不是二维图像的方式来保存。该方法不需参考字库,对现有汉 字编码集之外的生僻汉字或虚构的汉字也可以自动生成字形,并可以将其嵌入到 一些常用的开放的文档格式和数据库中,在更科学、更全面、更系统地利用汉字 结构知识的同时,弥补现有汉字内码包含信息不足等缺点,进而在古建主题搜索 引擎中实现对这些生僻汉字的索引、排序及查找等功能。 1 4 论文的主要工作与组织结构 本课题是“十一五”国家科技支撑项目的子项目,其工作内容主要是在仔细研 究当前主题搜索引擎相关文献的基础上,抓住主题信息采集技术这个关键问题, 设计并实现一个基于古建专业的主题搜索引擎;同时提出基于b n f 范式编码的 生僻汉字输入与检索方法,来解决古建主题搜索中出现的生僻汉字输入与搜索问 题。 本论文内容共分为六章: 第一章在对本课题的研究背景和意义进行介绍的基础上,指出了研究的主要 2 第一章绪论 困难所在;并针对古建主题搜索中出现的生僻汉字输入和检索问题,创新性提出 了基于b n f 范式编码的生僻汉字输入与搜索方法。 第二章对搜索引擎的起源、发展现状和趋势进行了全面的介绍。针对通用搜 索引擎存在的问题提出本论文的研究方向主题搜索引擎,介绍了主题搜索引擎产 生的背景及其实用价值和理论意义,目前的研究状况。 第三章讨论了主题搜索引擎中涉及的一些相关技术知识,重点介绍了信息采 集技术,同时详细介绍了信息索引技术和信息检索技术。 第四章详细介绍了a a s 这个古建专业搜索引擎系统的设计实现。系统利用 j a v a 多线程技术,实现了搜索过程中的并行运算,合理有效地利用了网络和机器 资源,提高了搜索引擎的采集效率。系统还通过基于标签加权的索引策略,在 s q ls e n ,e r2 0 0 0 数据库中对w w w 中多种格式的文件建立全文索引,并根据用 户查询的内容在其中进行检索。 第五章针对古建主题搜索中面临的生僻汉字难以信息化处理问题,创新性提 出了基于b n f 范式的编码标准,在更科学、更全面、更系统地利用汉字结构知 识的基础上,实现生僻汉字在a a s 中的输入、存储和搜索。 第六章对本论文的主要工作做了总结,同时也提出了今后需要进一步做的研 究和工作。 北京化工大学硕士学位论文 2 1 通用搜索引擎 第二章搜索引擎技术概述 2 1 1 通用搜索引擎的产生与现状 搜索引擎是为解决网络信息获取困难的问题而发展起来的一种信息检索工 具。从i n t e m e t 诞生初期,信息检索利用的问题就己经存在。i n t e m e t 上拥有极其 丰富的信息资源,如何方便、准确而且快速地从i n t e n l e t 中找到并获得所需的信 息,是一件非常困难的工作。针对这种情况,研究人员不断提出各种方法。八十 年代,出现了名录服务x 5 0 0 、f t p 文档地址检索系统a r c l l i v e 、菜单式信息检 索系统g o p h e r 、广域信息服务系统w a j s ( w i d ea 翦e ai n f o n n a t i o ns e r v i c e s ) 等工具 l l j ;到了九十年代中期,随着w r e b 的兴起产生了w r e b 的搜索问题,于是又出现 了基于m 删的搜索引擎。对于搜索引擎的起源,目前存在着多种看法。有人认 为真正意义上的搜索引擎是1 9 9 4 年春创建的l y c o s ,当时m i c h a e lm a u l d i n 将j 0 1 1 1 1 l e a v i t t 的s p i d e r 程序接入到其索引程序中。有人认为是1 9 9 4 年4 月w 曲c r a 、v l e r 搜索引擎在网上的正式发布。也有人认为第一个真正的现代搜索引擎是大家熟悉 的超级目录索引呦0 0 ! ,出现在1 9 9 4 年7 月【到。总之搜索引擎的产生不是一日 之功,它是在经历了长期的发展之后逐步走向成熟的。经过近十年的发展,现在 许多大的搜索引擎站点己经成为用户进入i n t e r n e t 的第一步。目前较有影响的搜 索引擎己经发展到数百个,成为人们检索w r e b 信息的最常用的一种手段。 搜索引擎发展至今大致经历了以下三个发展阶段。 第一代搜索引擎出现于1 9 9 4 年,以m 删为代表,它极少重新搜索网页进 而刷新索引,且检索速度慢。第一代搜索引擎一般设计为综合性的门户网站,提 供的服务种类多,内容广泛,涉及的领域广,通过分级目录浏览和关键词检索查 找信息。因其提供的是免费的大众化的综合性信息服务,所涉及的范围广泛而不 深入,故被称为水平门户网站。当时的搜索引擎数据库容量小,查询算法简单, 效率不高。但是,它改变了传统的检索方式,给用户带来了新鲜感,同时对网络 的发展起到了极大的促进作用。 第二代搜索引擎大约在1 9 9 6 年出现,以0 0 为代表,大多采用分布方案。 此时搜索引擎开始进入“容量建设期”。所有的公司都想把自己的搜索引擎作大, 当时一些著名的搜索引擎如a l t a s 协、l y c o s 、h a r v e s t 等,网页数量都超过百万 甚至千万【3 】。中文搜索引擎虽然发展较晚,但是经常使用的一些搜索引擎网页数 4 第二章搜索引擎技术概述 量也都在十万以上。然而在简单的匹配算法下,这对用户来说并不是一个很好的 事情。 自1 9 9 8 年,搜索引擎得到了快速的发展,出现了大量的综合性搜索引擎, 并开始从“数量累积阶段”向“质量精炼阶段”变革。一般将这一时期的搜索引擎称 为第三代搜索引擎。以g 0 0 9 l e 和百度为代表,第三代搜索引擎的发展有如下几 个特点【4 】= ( 1 ) 索引数据库的规模继续增大,一般商业搜索引擎都保持数亿网页。 ( 2 ) 除普通搜索外,出现了主题搜索、元搜索和地域搜索;在检索内容方面, 不仅能检索静态网页,而且能检索动态网页以及d o c ,x l s ,p p t ,p d f 等多种格 式文档。 ( 3 ) 采用网页自动分类技术。n o n h e ml i g h t 和i i 船o m i 的d i r e c t o r ) re n g i n e 都 在一定程度上使用了该技术。 ( 4 ) 检索结果数据量过大,相关度评价成为研究的焦点。人们逐渐把人工智 能、数据挖掘等技术引入到信息检索领域,使i r l t e m e t 上的搜索引擎朝着智能化、 个性化的方向发展。 ( 5 ) 随着海量检索技术的发展,基于搜索的应用越来越广泛。各大商业搜索 引擎纷纷推出音乐搜索,图片搜索,电影搜索,新闻搜索以及硬盘搜索等。 2 1 2 通用搜索引擎分类 在搜索引擎的发展过程中,出现了很多种类型的搜索引擎。如按照自动化程 度分为人工与自动引擎;按照是否有智能分智能与非智能引擎;按照搜索内容分 文本搜索引擎、语音搜索引擎、图形搜索引擎、视频搜索引擎等【5 】。一般按照信 息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类。 ( 1 ) r o b o t 搜索引擎 这种搜索引擎是利用一个称为r o b o t ( 也叫做s p i d e r ,w e bc r a w l e r 或w e b 唧l d e r e r ) 的程序自动访问w e b 站点,提取站点上的网页,r o b o t 搜集的网页被加 入到搜索引擎的数据库中,供用户查询使用。此种类型的搜索引擎由三个主要部 分构成r o b o t 搜索模块、索引模块和检索模块。其中r o b o t 搜索模块是一个特殊 的w w w 客户端程序,定期对互联网中一定范围内的网站进行问,一旦发现更 新或新的网站,它会自动提取网站的信息和网址并加入到自己的数据库中。索引 模块是一个庞大的数据库,r o b o t 提取的网页将被放入到索引模块中建立资源数 据库。检索模块是一个匹配程序,根据用户输入的查询条件,搜索资源数据库中 的页面,将相关页面按查询相似性的降幂顺序返回。r o b o t 搜索模块一般要定期 北京化工大学硕l 学位论文 访问以前搜集到的网页,刷新资源数据库,以反映出网页的更新清况,去除死链, 网页的部分内容和变化情况将会反映到用户查询的结果中,这是基于r o b o t 的搜 索引擎的一个重要特征。该类搜索引擎的优点是信息量大、更新及时、毋需人工 干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选【6 j 。 此类搜索引擎最为著名的有n o m i e ml i g h t ,a l t a _ s t a ,i n f o s e e k 等,其中n o r t h e m l i g h t 和a l t a s t a 所索引的、e b 页面都已经超过了1 0 0 ,0 0 0 ,0 0 0 个。 ( 2 ) 目录索引型搜索引擎 目录索引型搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息 之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。目录索引型与 基于r 0 b o t 的搜索引擎所不同的是,目录索引型的索引数据库是依靠编辑人员建 立起来的,信息大多面向网站。用户在查询时,可以通过关键词搜索,或者按分 类目录逐层检索。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量 高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时【7 1 。这类搜索 引擎的代表是:y 如o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、g og u i d e 等。事实上,现 在很多搜索站点都同时提供有目录和基于r o b o t 的搜索服务,以便尽可能地为用 户提供全面的查询结果。 ( 3 ) 元搜索引擎 元搜索引擎( m e t as e a r c he n g i n e ) 是将用户提交的检索请求送到多个独立的搜 索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此 有搜索引擎之上的搜索引擎之称。元搜索引擎处在用户与其它w 曲搜索引擎之 间,没有自己的数据。它的主要精力放在提高搜索速度、搜索结果的智能化处理、 个性搜索功能的设置以及用户检索界面的友好性上,查全率和查准率都比较高。 元搜索引擎的特点是可以一次让多个w r e b 搜索引擎并发查询,利用其它w r e b 搜 索引擎的搜索结果,不需要进行网页的标引工作,不需要维护庞大的网页标引数 据库,大大降低了工程的复杂度。当用户查询一个关键词时,它把用户的查询请 求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这 个关键词,并把这些搜索引擎返回的结果经过剔除重复项、重新排序等处理后再 作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的 优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的 功能,用户需要做更多的筛选【引。这类搜索引擎的代表是w 曲c r a w l e r 、i n f l 0 m 矾【e t 血莹 可o 总的来说,目录索引型搜索引擎存在信息涵盖量不大、更新能力有限的缺点, 而元搜索引擎因为需要等待所有的搜索引擎提交结果,并进行综合,通常都比较 慢,所以基于r o b o t 的搜索引擎成为人们研究的重点。接下来的章节谈论的搜索 6 第二章搜索引擎技术概述 引擎都是基于r o b o t 的搜索引擎。 2 1 3 通用搜索引擎工作原理 搜索引擎的工作包括如下三个过程:一是在i i i t 朋嘣上发现、搜集网页信息; 二是对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序根据用户 输入的查询条件,在索引库中快速检出相关文档,在对文档与查询内容进行相关 度比较的基础上对检出的结果进行排序,并将查询结果返回给用户1 9 1 。其工作原 理如图2 1 所示。 1 w e 皇 u j c r a w i e rc 洲i e r 卜_ i _ 一信息采集 分析器 索弓器 (一) 索引数据库 - 一信息索引 、-一一一 检索器 上t_ 一信息检索 用户接口 图2 1 通用搜索引擎体系结构图 f j g 2 - 1s 仃u c t u r eo f g e n e r a ls e a r c he n g i n e 7 北京化工大学硕士学位论文 与此对应,各种搜索引擎虽然在设计细节上有所不同,但是基本构造通常都 可分为四部分:信息采集、信息索引、信息检索和用户接口,其功能如下所述: ( 1 ) 信息采集:搜索引擎通过网络爬虫( c r a w l e r ) 日夜不停地在互联网的各节 点中自动爬行,从一个或一组u i 也开始访问,并尽可能多、尽可能快地从中发 现和抓取信息。因为互联网上的信息更新很快,所以还要定期更新己经搜集过的 旧信息,以避免死链接和无效链接。 ( 2 ) 信息索引:索引分析器( i n d e x e r ) 对网络爬虫所下载的页面进行分析,过滤 掉无用的信息,把文件表示成一种便于建立索引的方式,抽取最优索引信息以表 示文档,并利用所抽取信息建立索引数据库,从而使用户能够很容易的查找到所 需要的信息。 ( 3 ) 信息检索:信息检索器( s e a r c h e r ) 根据用户查询的关键词从索引数据库中 快速查找相应的文档,并进行相关度的计算,然后将输出结果按照相关度排序回 馈给用户,其中检索算法、信息查询和组织的方式都会在很大程度上影响检索模 块的系统性能。 ( 4 ) 用户接口:提供用户与搜索引擎的交互窗口,用于关键字的输入,查询 结果的输出,用户接口应尽量设计的人性化。 2 1 4 搜索引擎的发展趋势 搜索引擎己成为一个新的研究、开发领域。因为它要用到信息检索、人工智 能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理 等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用 户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度 关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向1 1 0 j 。 ( 1 ) 提高信息查询结果的精度提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看 结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、 几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了 几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途, 包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使 用户告诉哪些搜索引擎文档和自己的需求相关( 及其相关的程度) ,哪些不相关, 通过多次交互逐步求精。二是用正文分类( t e x tc a t e g o r i z a t i o n ) 技术将结果分类, 使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站 点类聚或内容类聚,减少信息的总量。 8 第二章搜索引擎技术概述 ( 2 ) 基于智能代理的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模 型( 如w e b 知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用户 模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤( 包括兴趣 过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提交给用 户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个 性化的服务。智能代理可以在用户端进行,也可以在服务器端运行。 ( 3 ) 采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有 千秋。但当系统规模到达一定程度( 如网页数达到亿级) 时,必然要采用某种分布 式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可 以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提 高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对 机器的要求:检索器可以在不同的机器上进行文档的并行检索,以提高检索的速 度和性斛儿】。 ( 4 ) 重视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库 中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻 译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在 于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨 越国界的今天,无疑具有很重要的意义。 2 2 主题搜索引擎 2 2 1 主题搜索引擎的产生背景 搜索引擎历经三代发展,极大地改善了人们在网络上进行信息搜索的手段, 但由于种种原因在信息收录完备性、查全率、查准率、检索功能和用户检索界面 等方面还存在许多不足之处。究其主要原因如下: ( 1 ) 大规模的分布式数据源。 基于w | e b 的自身特点,大量的数据分布在数以亿计的计算机互联网上,检 索起来困难重重。单个搜索引擎的索引数据库的覆盖率一般都低于3 0 ,很难索 引所有w | e b 资源。 ( 2 ) 网络信息的质量问题。 9 北京化工大学硕士学位论文 互联网上的信息无论从数量和类型都呈指数增长,大量信息的生存期却在缩 短,这导致搜索引擎的索引的及时性很难保持,大量返回结果为无效的( 链接己 经不存在) 或过时的( 同一个链接已经被替换成另一个文件) 。同时,网上大量的镜 像站点和简单重复拷贝都使搜索引擎返回大量无用或重复信息。搜索返回的结果 成千上万,良莠不齐。造成“信息爆炸,资源匾乏”。 ( 3 ) 检索的精度也在不断的下降。 通用搜索引擎的目标是回答用户的所有查询,对于只关心某一具体主题的用 户,这一目标显得过于浪费,覆盖一切的目标造成了技术上和资源上的极大压力, 也降低了针对具体主题查询的查准率和查全率。 ( 4 ) 异构数据源问题。 网上检索要处理大量的多媒体信息,即便是文本信息也存在大量不同的文本 格式。同时网上信息还存在多语种问题,亚洲语言字符的检索一直是信息检索界 的一大难点。 ( 5 ) 忠实表达的问题。 用户很难简单地用关键字来忠实表达他所真正需要检索的内容,表达的困难 将导致检索结果的不理想,而且如何将结果表达成用户容易理解和使用的方式也 是一个难题。 ( 6 ) 搜索引擎的硬件要求越来越高。 如著名搜索引擎a l t a _ v i s t a 的s c o o t e r 运行在一个1 5 g bm e m o 巧,3 0 g br a i d 磁盘,4 个5 3 3 m h za l p h as e r v e r 4 1 0 0 5 3 0 0 服务器。它又链接到一个索引服务器, 拥有2 g b 内存,1 8 0 g br a i n 硬盘,2 个5 3 3 m h z 触p h as e e r 4 l o o 5 3 0 0 服务 器。g 0 0 9 l e 系统中共有5 万4 千个由g o o g l e 工程师设计的服务器,以及1 0 万 个处理器、2 6 万l 千个磁盘。这是一般公司或研究单位无法提供的环境。 随着信息社会的进一步发展,人们对信息的需求又有了新的趋势。近些年来, 科学技术对于国民经济发展的带动作用越来越明显。高科技企业层出不穷,各个 产业的科技成分也越来越高。如何为科技工作者搜集最新的科技信息,如何为商 业决策者提供最新的业内新闻对科技的发展和企业的经营都是至关重要的。 面对通用搜索引擎发展所遇到的困难和人们对信息的新需求,人们提出了对 搜索引擎新的要求: ( 1 ) 运行在常规的软硬件设备之上; ( 2 ) 只搜集某一特定学科或特定专题的w w w 信息资源; ( 3 ) 能够方便地对专题和学科进行配置。 为此,主题型搜索引擎应运而生。 l o 第二章搜索引擎技术概述 2 2 2 主题搜索引擎的特点 所谓主题型搜索引擎就是以构筑某一专题或学科领域的i n t e m e t 网络信息资 源库为目标,智能地在互联网上搜集符合这一专题或学科需要的信息资源,能够 为包括学科信息门户、专业信息机构、特定行业领域、公司信息中心、行业专家 等等在内的信息用户,提供整套的网络信息资源解决方案【1 2 1 。 主题型搜索引擎与前三代搜索引擎( 通称为通用搜索引擎) 存在着很大的差 别: ( 1 ) 服务目的不同 通用搜索引擎面向任何用户提供对任何信息的查询,而主题型搜索引擎则面 向专业用户向他们提供对特定专业的信息检索。 ( 2 ) 搜索方式不同 通用搜索引擎对网络进行逐页的爬行,试图遍历整个w e b 。而主题型搜索引 擎则采用一定的策略预测相关网页的位置,动态的调整网页爬行方向,使系统尽 可能的在与主题相关的网页集中的地方爬行,这节约了大量的网络资源。 ( 3 ) 对硬件和网络的要求不同 通用搜索引擎对硬件需求高,而主题型搜索引擎由于没有遍历整个w 曲节 约了大量的网络资源,而且没有自己的大型索引数据库,所以硬件需求也比较低。 2 2 3 主题搜索引擎的发展现状 主题搜索引擎大都处于研究和试验阶段,利用它搜索的结果再经过专业人士 的加工而形成的面向某一学科、领域的网络垂直门户网站也己经出现。目前面向 主题的网络信息搜索主要有两种技术: 一是基于内容的搜索。这类搜索方式是传统的信息检索技术的延伸。它的主 要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其 内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相 同。现在这种词表的建设越来越多的引入了知识表示的方法。基于本体论 ( o m o l o g y ) 的搜索引擎开始出现。一个本体强调相关领域的本质概念,同时也强 调这些概念间的本质联系。以o n t o l o g ) ,为基础建立的词表能更好的显示一个领域 主题中各个概念( 即搜索系统的检索词) 之间的关系,能更好的表现一个主题。在 智能信息检索应用中,o n t o l o g y 通常作为用户感兴趣领域的领域模型,同时还作 为文档统一注释的知识表示语言。一些学者也提出了概念空间的理论,用概念空 间来实现语义索引。所谓概念空间是某个领域中一组抽象概念的集合,并且这组 。北京化工大学硕士学位论文 概念之间存在一定的语义上的关联。基于概念空间的文本检索系统也较好地解决 了信息检索过程中的词汇不匹配问题以及信息过载问题,大大提高了信息检索的 效率和质量。 二是基于链接分析的检索。9 0 年代末期,国外信息检索界开始以s o c i a l n e t 、o r k 为模型对互联网进行模拟。一些学者认为网页之间的链接指引关系同社 会网络中的关系有相似之处,特别的与传统的引文索引非常相似。通过对链接进 行分析,可以找出各个网页之间的引用关系,由于引用网页与被引用网页间内容 上一般都比较相关,所以就可以很容易地按照引用关系将大量网页分类。在美国, 很多基于这种超链分析的检索系统原形已经产生,应用于他们的数字图书馆系统 中。 目前在国外,有关主题型搜索引擎的研究正在成为一个热点,下面介绍一些 较具有代表型的系统。 ( 1 ) 1 1 1 k t o i i l i 的a b o u t c o m a b o u t c o m 目前涵盖7 0 0 多个主题领域,每个主题内容定位于不同的独立空 间领域,并由公认的、具有较高专业素养和敬业精神的、该领域的权威人士担任 教导员,负责资源的收集、整理、评价和用户引导服务。 ( 2 ) n e c 研究院的c i t e s e e r c i t e s e e r 是因特网上使用最广泛的针对计算机领域的科学论文检索系统。 c i t e s e e r 的核心是a c i ( a l l t o m a t i c a l l yc i t a t i o ni n d e x ) ,它可以自动地对网上的电子 文件( p o s t s c r i p t 和p d f 等格式) 进行索引并分类。 ( 3 ) b e r l ( e l e y 的f o c u s ep r o j e c t 该系统通过两个程序来指导爬行器:一个是分类器c i 弱s i f i e r ,用来计算下载 文档与预订主题的相关度。另一个程序是净化器d i s t i l l e r ,用来确定那些指向很 多相关资源的页面( 在h i t s 算法中,称之为中心网页) 。 ( 4 ) e l s e v i e r 的s c i n j s 系统 s c i m s 科学搜索引擎是一种专为搜索高度相关的科学信息而设计的搜索引 擎,获得2 0 0 1 搜索引擎观察授予的“最佳专业搜索引擎”奖。s c i m s 是目前互 联网上最全面、综合性最强的科技文献门户网站之一。它只面向包含有科学内容 的网站,如大学和作者个人主页以及e l s e v i e r 自己的数据库。 ( 5 ) 美国国家科学数字图书馆的c o l l e c t i o nb u i l d i n gp r o 笋锄( c b p ) 这个项目旨在为科学、数学、工程和技术创建大规模的在线数字图书馆,试 图研究在某一主题上资源自动建设的可能性。c b p 具有自己的特点;第一,因 为c b p 是面向教育、面向教学,主题精确度( p r e c | i s i o n ) 比覆盖度( r e c a l l ) 更为重要; 第二,c b p 不存储资源原文,而只是提供u r l ;第三,c b p 只需要用户最少量 1 2 第二章搜索引擎技术概述 的输入,如关键词,系统就可以全自动的将有关该主题的最相关的有限数量u i 也 返回给用户。 我国主题搜索引擎的研究刚刚起步,国内主要的主题搜索引擎有赛迪网 ( 啊w c c i d l l e t c o m ) 推出的中文i t 垂直搜索引擎“i t 罗盘”,中国搜索 ( 删z 1 1 0 n g s o u c o m ) 与原慧聪网站推出的行业搜索等。目前各大型商业搜索引擎 如百度、一搜等推出的m p 3 搜索,图片搜索,电影搜索,购物搜索,新闻搜索 等等都可以看作是特定主题的搜索【b 】。 2 2 4 主题搜索引擎的实现难点 本论文讨论的主题搜索引擎是基于网络爬虫的搜索引擎,基于网络爬虫的搜 索引擎由三个主要部分构成:网络爬虫模块、索引模块和检索模块,而网络爬虫 模块是系统的核心。 主题搜索引擎的实现难点有两点:第一,起始种子站点的设置。因为主题搜 索引擎并不遍历整个w e b ,所以起始站点集合就显得格外重要,它决定了主题搜 索引擎能否找到所有的相关内容。第二,既然是有选择性的抓取信息,那么这个 有选择性遍历w 曲的算法就直接影响了搜索引擎的工作效率。而这两点主要是 主题型w 曲搜索器所要解决的问题,因此本论文抓住主题搜索引擎设计的难点, 详细阐述了主题搜索引擎的网络爬虫的设计与实现。 2 3 本章小结 本章主要分析了当前i n t e n l e t 上搜索引擎的概念、工作原理,在介绍搜索引 擎分类的基础上,对基于r o b o t 的搜索引擎、基于目录索引型的搜索引擎以及元 搜索引擎的工作原理与特点做了综述,然后分析了搜索引擎当前的发展现状以及 发展趋势。 本章还针对现有综合型通用搜索引擎的种种不足,提出了主题搜索引擎的优 点、必要性和可行性;总结了主题搜索引擎产生的背景和当前的研究现状,对主 题搜索引擎的概念、工作原理做了详细的阐述,分析了主题搜索引擎实现的难点 所在。 北京化工大学硕士学位论文 第三章主题搜索引擎关键技术研究 3 1 信息采集技术网络爬虫 3 1 1 网络爬虫在搜索引擎中的地位 因为搜索引擎与网络用户的关系非常密切,所以它一直专注于在三个方面提 升用户的体验度,即为准、全、快。用专业术语讲就是:查准率、查全率和搜索 速度( 即搜索耗时) 。其中比较容易提高的是搜索速度,因为对于搜索耗时在1 秒 以下的系统来说,用户已经很难辨别其快慢了,再加上网络速度的影响,就更难 分辨搜索引擎本身的搜索速度。因此,对搜索引擎的评价就集中在了另外两方面: 准和全。搜索引擎的查全需要保证一些比较重要的结果不被遗漏,而且能够找到 最新的网页,这需要搜索引擎有一个强大的网页收集器,即网络爬虫;搜索引擎 的查准,则需要保证搜索的前几十条结果都和搜索的关键词的相关度很高,即使 用户很满意,这是由排序技术来决定的。 搜索引擎虽然外在表现呈现出多样化,所提供的功能也有所不同,但是就其 实现来说,构造基本都是一样的。网络爬虫在搜索引擎中占有重要地位,对搜索 引擎的查全、查准都有一定程度的影响,它决定了搜索引擎数据容量的大小,而 且网络爬虫设计得好与坏直接影响搜索结果页面中的优等页面和死链接( 即链接 所指向的网页已经不存在) 的个数。目前如何发现更多的网页、如何正确提取网 页内容、如何提高信息抓取的速度以及如何识别网站中内容相同的网页等都是网 络爬虫需要进一步改进的问题【l 4 。 3 1 2 网络爬虫基本原理与结构 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前己 经公布的数据来看,容量最大的搜索引擎也只不过是抓取了整个互联网网页总量 的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,网络爬虫无法访问 w 曲中的所有网页,有许多网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论