(交通信息工程及控制专业论文)基于WWW的新闻搜索引擎的设计与实现.pdf_第1页
(交通信息工程及控制专业论文)基于WWW的新闻搜索引擎的设计与实现.pdf_第2页
(交通信息工程及控制专业论文)基于WWW的新闻搜索引擎的设计与实现.pdf_第3页
(交通信息工程及控制专业论文)基于WWW的新闻搜索引擎的设计与实现.pdf_第4页
(交通信息工程及控制专业论文)基于WWW的新闻搜索引擎的设计与实现.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第l 页 摘要 如何从网海中快速找到自己想要的新闻是一个棘手的问题。本论文结合 高速列车信息服务系统的课题,通过最新的相关关键技术设计出了实用的新 闻搜索引擎,从而使旅客即使身处在高速行驶的列车上也能够动态的接收到 实时性较强的新闻信息,从而可以有效的提高列车服务质量,提升我国高速 列车的档次。 论文以通用型搜索引擎专题住搜索引擎一新闻搜索引擎为论述主线, 详细介绍了新闻搜索引擎。论文由搜索引擎引出了新闻搜索引擎,并提出了 一种新闻搜索的高效抽取算法,通过给出该算法的流程图,清晰地表示了该 算法在新闻搜索中的抽取过程,这是本论文的一个重点。同时,论文还通过 程序的实现证明了该算法的可行性。作者通过动态链按库技术将该算法绑定 在程序中。为了实现用户个性化的服务,采用了定时更新新闻的方法将实时 的新闻主动地呈现在用户的面前,实现了信息的主动服务功能。 论文以相关的搜索引擎理论为基础,设计实现了新闻搜索引擎,软件经 过测试,达到了预期的设计效果。 关键字:搜索引擎,机器入,搜索算法,新闻 西南交通大学硕士研究生学位论文第| l 页 a b s tr a c t i ti sat h o r n yq u e s t i o nt of i n dt h ed e s i r e dn e w sq u i c k l yi nt h e s e ao fi n t e r n e t b a s e do nt h ep r o j e c tf o rt h ei n f o r m a t i o ns e r v i c e s y s t e mo fh i g h s p e e dt r a i n ,t h ep r e s e n tp a p e rh a sd e s i g n e dap r a c t i c a l n e w ss e a r c he n g i n eb ym e a n so ft h el a t e s tr e l e v a n tk e yt e c h n o l o g y a n d t h i s e n g i n e n o t o n l ye n a b l e s t h e p a s s e n g e r st r a v e l i n g w i t ht h e h i g h s p e e d t r a i nt or e c e i v et h e d y n a m i c r e a l t i m en e w sb u ta l s o s u b s t a n t i a l l yi m p r o v et h eq u a l i t yo fs e r v i c eo nt h et r a i n t a k i n gt h eg e n e r a ls e a r c he n g i n e ,t h es p e c i a ls e a r c he n g i n ea n d t h en e w ss e a r c he n g i n ea st h em a i n l i n e ,t h ep a p e rh a si n t r o d u c e dt h e n e w ss e a r c he n g i n ei nd e t a i l f i r s t ,t h ep a p e ru s h e r si nt h es e a r c h e n g i n e ,t h e nt h e n e w ss e a r c he n g i n ea n dp u t sf o r w a r da ne x t r a c t i n g a l g o r i t h mf o rt h en e w ss e a r c he n g i n e b yo f f e r i n gt h ef l o wc h a r to f t h i sa l g o r i t h m ,t h e p a p e rc l e a r l yo u t l i n e st h ea l g o r i t h mf o r t h e e x t r a c t i n gp r o c e s si nt h en e w ss e a r c he n g i n e t h i sa l g o r i t h mi st h e k e r n e lo ft h ep r e s e n tp a p e r f u r t h e r m o r e ,t h ep a p e rh a s p r o v e nt h e f e a s i b i l i t yo ft h ea l g o r i t h mt h r o u g ht h er e a l i z a t i o no ft h ep r o g r a m t h e nt h ea l g o r i t h mi st i e du pw i t ht h ep r o g r a mt h r o u g hd y n a m i c1 i n k l i b r a r yt e c h n o l o g y i no r d e rt or e a l i z et h ep e r s o n a l i z e ds e r v i c ef o r t h eu s e r s ,t h es o f t w a r ea d o p t sam e t h o dt h a ti sa b l et ou p d a t et h en e w s r e g u l a r l ya n dp r e s e n tt h er e a l t i m en e w st oc u s t o m e r s t h es o f t w a r e h a sr e a l i z e dt h ea c t i v es e r v i c ef u n c t i o nf o ri n f o r m a t i o n o nt h eb a s i so ft h er e t e v a n t t h e o r yo fs e a r c he n g i n e ,t h ep a p e r h a sd e s i g n e da n dr e a l i z e dt h en e w ss e a r c he n g i h et h a th a sp a s s e dt h e t e s ta n da c h i e v e dt h e a n t i c i p a t e dd e s i g ne f f e c t k e yw o r d s :s e a r c he n g i n e ,r o b o t ,s e a r c ha l g o r it h m ,n e w s 西南交通大学硕士研究生学位论文第1 页 1 1 本课题研究的背景 第1 章绪论 为了适应经济的快速发展,我国铁路已经进行了几次大提速,而与之相 适应的也就需要改造配套的服务软环境。开发全数字旅客信息系统,使旅客 即使身处在高速行驶的列车上也能及时的了解到最新最快的新闻消息,让旅 客享受到移动式的全新的全数字化服务就是改善服务软环境的措施之一。全 数字旅客信息系统是由具有2 0 0 g 以上存储容量的网络服务器通过局域网的 方式进行信息传输服务的,旅客可以通过播放设备查阅和点播观赏到列车影 院、音乐殿堂、网络游戏、动态新闻、旅途风光、旅行常识、列车服务指南 及企业推荐等栏目。列车影院中存储有上百部国内外经典影片:音乐殿堂栏 目中有上千首中外名曲和流行音乐:旅途风光、旅行常识、列车服务指南及 企业推荐栏目以图文并茂的方式介绍沿途旅游景点、餐车供应、安全常识、 企业信息等:动态新闻栏目是存储不断更新的体育消息、国际动态、股市指 数、各大站列车到开时刻等实时性较强的信息,他们是利用g s m 无线通信 技术从地砸信息收集站发送到列车上的。 地面信息收集站需要定时地搜集到字数与内容均符合要求的短消息实时 信息,然后才能便于利用相关技术进行上传。但我们知道网络上的信息是浩 如烟海,如何找到无论字数和内容均符合我们需要的新闻信息,就是摆在我 们面前的一个迫切的阏题。 二十一世纪是一个全新的时代,电子计算机、微电子和远程通信等信息 技术都相继出现并交叉结合,开创了飞速发展的i n t e m e t 信息时代。i n t e r n e t 的出现不仅改变了人类的生产、生活和交换方式成为推动全球经济一体化 增长的主要动力,而且较大地改变了人类传播、存储、获取、利用信息的方 式,这也就对传统的信息服务模式提出了新要求。如今i n t e r n e t 己经成为世 界上最大的信息来源库,并且成为全球范围内主要的传播信息渠道之一。 人类对自然界和人类社会本身的认识是随着科学技术的进步不断深入, 人类知识的积累也是随之增长的,同时由于i n l e r n e t 的广泛性和开放性,在 i n t e r n e t 上发布信息极为容易丙且不受限制,无论任何团体、单位或是个人只 匿南交通大学硕士研究生学位论文第2 页 要具备上网条件便可自由地在网上发布信息。这两者都加剧了i n t e r a c t 信息 量的急剧膨胀。然而如何快速、正确地从浩瀚的信息资源中寻找到所需要的 信息却成为困扰用户的一大难题,这就是所谓的“信息爆炸,资源匾乏”( r i c h d a t ap o o ri n f o r m a t i o n ) 问题。 与此同时,信息作为一种资源正在社会的进步和经济的发展当中发挥着 愈来愈大的作用,信息资源的开发、管理和利用水平己成为一个国家现代化 程度的主要衡量标准之一。随着i n t e m e t 技术,尤其是w w w 技术的发展, 人们对基于i n t e r n e t 和w e b 的信息系统的研究变得日益重要。然而i n t e r n e t 和w e b 上信息资源的复杂性却使得信息的查询和利用变得愈来愈困难,所 以人们迫切需要改进检索i n t e r n e t 和w e b 信息资源的新手段和新方法。 1 2 本课题研究的内容 本课题的目标是设计能自动搜索新闻消息的搜索引擎软件。要求该软件 能够自动从i n t e r _ n e t 中或者其他地方搜索到最新的实时性新闻,然后能够 智能化地采集加工浓缩成简练的短消息,打包后利用g s m 无线通信技术实 现文字新闻从地面到列车的传送。 因此该软件应该预先设定好所需要的几类新闻消息,并且与几大搜索网 站相连,定时刷新从中得到最新消息,最终得到字数与内容均符合要求的短 消息进行上传。 论文分别从以下几方面论述了开发设计自动搜索新闻消息的搜索引擎 n e w s s e a r c h l 0 0 的技术和具体实现,从而很好的将理论知识运用到实际项目 开发中: 第一章介绍了本课题开发研究的综合背景、研究的主要内容以及论文研 究的理论和实践的意义。 第二章和第三章是相关的搜索引擎的背景知识。介绍了搜索引擎的发展 历程,以及它的基本原理、构成和工作步骤,接下来介绍了搜索引擎中的一 项重要分支专题性搜索引擎,对专题性搜索引擎的研究内容和研究意义进 行了综述,从而引出本论文所要重点论述的新闻搜索引擎,正是基于以上的 背景知识才奠定了本软件的设计基础。 第四章是本论文的主体。在这一章节中通过紧密结合软件的设计,详细 介绍了在设计过程中所使用到的关键技术。由于要涉及到网络的传输,因此 西南交通大学硕士研究生学位论文第3 页 首先引入了有关的t c p 和h t t p 的简单原理;然后介绍了在编程中所使用的 w i n i n e t 网络编程技术和在本设计中的应用;接下来是在设计搜索引擎中所使 用的搜索算法及其实现,它是本论文的一个重点,只有通过它才实现了把网 页上杂乱无章的信息抽取出所需要的新闻消息:采用动态链接库技术很好地 解决了将搜索算法和抽取出来的新闻消息链接到主程序上的问题,同时有效 的屏蔽了搜索算法的具体源程序;当所有的后台工作完成以后,就有一个以 什么样的界面呈现给客户的问题,也就是信息的主动服务问题,作者在设计 中通过新闻信息的定时更新和友好方便的图形窗口界面,使得该新闻搜索引 擎易用、实用。 第五章综述了新闻搜索引擎的实现。此外,还介绍了软件设计所采用的 平台,新闻搜索引擎的结构和最终生成软件界面,最后论证了论文在技术、 社会和经济三方面的可行性。 1 3 本课题研究的意义 通过本课题的研究,结合最新的相关关键技术设计出了实用的新闻搜索 引擎,使客户能够动态的接收到实时性较强的新闻信息,从而可以有效的提 高列车服务质量,提升我国高速列车的档次。通过论文的撰写和资料的收集, 本人在该课题领域内有了较为深刻的理解,将理论知识运用到实际的项目开 发当中,对于今后更好的开展相关领域的工作打下了坚实的基础。 西南交通大学硕士研究生学位论文第4 页 第2 章搜索弓i 擎概述 2 1 搜索引擎概念的提出与发展现状 i n t e r n e t 将世界各地的信息资源联接在一起,形成了一个内容丰富、包罗 万象的信息海洋。t n t e r n e t 信息资源具有以下特点:( 1 ) 内容丰富,类型多样; ( 2 ) 跨越国界,超越时空;( 3 ) 信息爆炸,资源匮乏;( 4 ) 变化频繁,价值 不一:( 5 ) 整体无序,难以管理。当前i n t e m e t 信息的获取方式主要有:传 统的网络信息检索工具、浏览器方式、搜索引擎和网上智能检索系统等。其 中一种获取方式搜索引擎对网上冲浪的人们而言是再熟悉不过的了。 搜索引擎概念的提出是网络发展的必然需要。在i n t e r n e t 上,随着大量 网站的迅速崛起,信息的传播、利用和采集无论从规模还是速度上都对信息 的检索提出了更高的要求。但随之带来的是:人们从浩如烟海的信息海洋中, 迅速而准确地获取自己最需要的信息却变得非常困难。人们称这种现象为“信 息爆炸”或“信息过剩”,英文称为“r i c h d a t e p o o r i n f o r m a t i o n ”。所以,人 们需要一种工具,使信息资源能得到有效利用,以i n t e r n e t 上的信息为主要 处理对象,根据不同需求在网络上检索出有用信息的搜索引擎( s e a r c h e n g i n e ) 就应运而生。 搜索引擎是某些网站提供的一项服务,它将i n t e m e t 上的网站和网页信 息进行收集、整理和组织,以帮助用户找到所需信息。事实证明,在浩如烟 海的i n t e r n e t 上查找你所需要的信息,使用搜索引擎是一种十分有效的方式, 个优秀的搜索引擎常常可以让你事半功倍。 现在网上的搜索引擎已经有很多,比较著名的有a l t a v i s t a ,y a h o o , i n f o s e e k ,m e t a c r a w l e r ,s a v v y s e a r c h ,g o o g l e 等等。国内也建立了很多的搜 索引擎,比如:新浪、搜狐、百度等等,其中的百度搜索引擎已经可以在某 些方面与国外的产品相媲美,但是由于它们建立的时间不长,在信息搜索的 很多方面都有待于改进和提高,比如查找的准确率和查全率。 a l t a v i s t a 是一个速度很快的搜索引擎,由于它强大的硬件配置,使它能 够做极其复杂的查询。它主要是基于关键字进行查询,它漫游的领域有w e b 和u s e n e t 。支持布尔查询的“a n d ”,“o r ”和“n o t ”,同时还加上最相近 西南交通大学硕士研究生学位论文第5 页 定位“n e a r ”,允许通配符和“向后”搜索( 比如:你可以查找链接到某一 页的所有w e b 站点) 。你可以决定是否对搜索的短语加上权值,在网页的什 么部位去查找它们。能够进行短语查询而不是简单的单词查询的优点是很明 显的,比如,我们想要查找一个短语“t ob eo rn o tt ob e ”,如果只是把它们分 解成单词的话,这些单词都是属于s t o pw o r d ,这样这个查询就不会有任何 结果,但是把它当作一个整体来查询,就很容易返回一些结果,比如关于萨 达姆或者是布什等等的信息。系统对查询结果所得到的网页的打分是根据在 网页中所包含的你的搜索短语的多少,它们在网页的什么位置以及搜索短语 在网页内部之间的距离来决定的,同时可以把得到的搜索结果翻译成其他的 语言。 e x i t e 是称为具有“智能”的搜索引擎,因为它建立了一个基于概念的索 引,当然,它所谓的“智能”是基于对概率统计的灵活应用。它能够同时迸 行基于概念和关键字的索引,能够索引w e b ,u s e n e t 和分类的广告,支持 “a n d ”,“o r ”,“n o t ”等布尔操作,同时也可以使用符号“+ ”和“一”, 缺点是在返回的查询结果中没有指定网页的尺寸和格式。 i n f o s e e k 是一个简单但是功能强大的索引,它的一个优点是有一个面向 主题搜索的可扩展的分类。你可以把你的搜索短语和相似的分类目录的主题 短语相互参照,而那些主题短语会自动加到你的查询中去。使你的搜索有更 好的主题相关性:同时它也支持对图像的查询。它能够漫游w e b ,u s e n e t , u s e n e t f a q s 等等。不支持布尔操作,但是可以使用符号“+ ”和“一”( 相 当于“a n d ”和“n o t ”) o y a h o o 实际上不能称为是一个搜索引擎站点,但是它提供了一个分层的 主题索引,使你能够从一个通常的主题进入到一个特定的主题,m o o 对 w e b 进行了有效的组织和分类。比如你想要建立一个网页,但是你不知道如 何操作,为了在y a h o o 上找到关于建立网页的信息,你可以先在y a h o o 上选 择一个主题,然后在这个主题下,你可以发现一些子主题,比如:w e b 网页 制作,c g i 编程,j a v a ,h t m l ,网页设计等,选择一个和你要找的相关的 子主题,最终你就可以得到和该子主题相关的所有的网页的链接。也就是说, 如果你对要查找的内容属于哪个主题十分清楚的话,通过目录查询的方法要 比一般的使用搜索引擎有更好的准确率。你可以搜索y a h o o 的索引,但是事 实上,你并没有在搜索整个w e b 。但是y a h o o 提供了选项使你可以同时搜 索其他的搜索引擎,比如:a l t a v i s t a 。但是要注意的是y a h o o 实际上只是对 w e b 一小部分进行了分类和组织,而且它的实效性也不是很好。 西南交通大学硕士研究生学位论文第6 页 g o o g l e 搜索引擎是一款目前支持世界上近三十种语言的优秀的网上搜索 引擎,其中文搜索服务正被越来越多的使用中文的用户所认识和青睐。g o o g l e 具有界面简洁、易用、快速、相关性高等优越性。 g o o g l e 是由l a r r y p a g e 与s e r g e y b r i n 于1 9 9 8 年9 月在美国硅谷创建的高 科技公司,他们所设计的g o o g l e 搜索引擎,旨在提供全球最优秀的搜索引擎服 务,通过其强大,迅速而方便的搜索引擎,在网上为用户提供准确,详实,符合他 们需要的信息。自2 0 0 0 年正式开始商业运营以来,目前在全球范围内已拥有 了一个正在快速增长的忠实用户群,其中一半以上是国际用户。g o o g l e 公司不 但拥有自身的独立搜索引擎网站,现今的日访问量高达7 0 0 0 万次,还将其搜索 引擎技术售卖给世界上许多公司,目前就有包括雅虎、美国在线、网景和中国 的网易等知名网站在内的全球1 5 0 多家公司采用了g o o g l e 搜索引擎技术。 g o o g l e 搜索引擎是一个利用蜘蛛程序( s p i d e r ) 以某种方法自动地在互联 网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供 面向网页的全文检索服务的互联网信息查询系统。它主要具有以下的特点和 功能:1 ) 采用了先进的网页级另l j ( p a g e r a n k t m ) 技术。2 ) 在同一个界面下,用户可 以定制语言和到何种网站中进行搜索。3 ) g o o g l e 的搜索结果,通常会比其它搜 索引擎来的更准确。4 ) 当用户在查询时,同时提供多个关键字,g o o g l e 将只提 供包含所有关键字的网页,其正文或指向它的链接包含用户所输入的所有关 键字。5 ) g o o g l e 中文搜索引擎是目前收集亚洲网站最多的搜索引擎之一,对中 文的支持强大。6 ) g o o g l e 还提供了一些诸如“手气不错”、“网页快照”和“类 似网页”等全新的功能。7 ) g o o g l e 具有十分简单、方便的新网站登录功能, 除了接受网站自行提交的申请外,g o o g l e 自身也经常在互联网上漫游,搜寻新 网站经过必要的分析后,作取舍、更新和编排等处理。 至目前为止,在满足用户的搜索需求上,g o o g l e 依然存在一些令人遗憾的 地方。1 ) 其数据的更新速度无法进一步提高。由于数据量的庞大,使g o o g l e 搜索引擎的数据更新无法早于3 0 天,在一定程度上影响了用户对信息的时效 需求,g o o g l e 目前还无法突破这一瓶颈。2 ) 无法搜索动态生成的网页。 值得注意的是,很多中文搜索引擎都选择了国外的一些著名a s p ( 应用 程序服务供应商) 所提供的搜索引擎系统,这主要是因为搜索引擎系统开发 难度大,国内又缺少这方面的专业人才。即便如此,国内仍然有不少公司致 力于开发国产搜索引擎系统,其中比较有特色的有北京大学的大网搜索引擎 系统和百度公司的搜索引擎系统。百度公司推出的搜索引擎系统,具有信息 量大、搜索速度快、更新及时等特点,是国内搜索引擎系统的优秀代表。 西南交通大学硕士研究生学位论文第7 页 统计分析表明,近几年来,各搜索引擎制造公司和大的网络公司在搜索 引擎领域都加大了资金投入与技术投入,搜索引擎技术的研究和应用表现出 强劲的发展势头,这与全球网络业界一度低落的市场形成了鲜明对比。 应该说,进入网络时代的人们越来越意识到,不仅要建立网络资源,更 重要的是如何完全有效地检索网络资源;而建立一套支持有组织的信息管理 和检索的信息网络,远远比建立许多杂乱无章的信息仓库重要的多。这里提 到的信息网络的检索和管理,其中最关键的一环就是网络搜索引擎技术的发 展。同样,从技术的角度而言,在计算机科学领域,网络搜索引擎技术事实 上代表了计算机网络技术的发展方向,与其相关的研究工作也己经引起了计 算机界人士越来越广泛的关注与重视。 2 2 搜索引擎的概述 搜索引擎( s e a r c he n g i n e ) 是一种在i n t e r n e t 上查找信息的工具,它通过 网络机器人收集i n t e m e t 信息,对其进行索引,形成供查询用的数据。用户 在搜索引擎的客户程序中键入要查找的关键词,引擎就会在所形成的数据中 找出与该词相匹配的u r l 并将结果呈现给用户,用户可根据呈现的结果选择 并访问相关站点。 搜索引擎一般是由搜集器、检索器、管理器三个部分组成。搜集器负责 从网络上搜集网页,其主要表现形式是网络机器人,它可在i n t e r n e t 上自动 进行搜索。检索器提供网络用户检索界面,并根据用户的查询要求,从信息 数据中检索出与之相关的信息资料并反馈给读者。管理器负责搜索策略的制 定及管理,索引的增、删、改、存储组织等。 2 2 1 搜索引擎的基本原理 这一节主要介绍通用搜索引擎的工作原理。总的说来通用搜索引擎主要 是通过网络机器人定期在网页上爬行,然后发现新的网页,把它们取回来放 到本地数据中,配合强大的索引,来为用户提供快速检索服务的。可以看出, 大部分通用搜索引擎的待检索内容是相对静态的,而且只能被动地接受用户 提交的检索请求。 搜索引擎查询功能的实现机制一般有两种,一种是通过手工方式对数据 西南交通大学硕士研究生学位论文第8 页 中的网页进行索引,比如y a h o o 的网页是通过手工分类的方式实现的,它的 缺点是w e b 的覆盖率比较低,同时不能保证最新的信息,查询匹配是通过 用户写入的关键字和网页的描述和标题来进行匹配,而不是通过全文的匹配 进行的。第二种是对数据中的网页进行自动的索引,像a l t a v i s t a 则是完全通 过自动索引实现的,这种能实现自动的文档分类,实际上采用了信息提取的 技术,但是在分类准确性上可能不如手工分类。 搜索引擎的网络机器人( r o b o t ) 定期地访问一些站点,来检查这些站点 的变化,同时查找新的站点。一般站点有一个r o b t t x t 文件用来说明服务器 不希望r o b o t 访问的区域,r o b o t 都必须遵守这个规定。如果是自动索弓l 的 话,r o b o t 在得到页面以后,需要对该页面根据其内容进行索引,根据它的 关键字的情况把它归到某一类中。页面的信息是通过元数据的形式保存的, 典型的元数据包括标题、i p 地址、一个该页面的简要的介绍,关键字或者是 索引短语、文件的大小和最后的更新日期。尽管元数据有一定的标准,但是 很多站点都采用自己的模板。网页提取机制和索引策略对w e b 搜索引擎的 有效性有很大的关系。高级的搜索选项一般包括:布尔方法或者是短语匹配 和自然语言处理。一个查询所产生的结果按照提取机制被分成不同的等级提 交给用户。最相关的放在最前面。每一个提取出来的网页的元数据被显示给 用户。同时包括该网页所在的u r l 地址。 另外有一些关于某一个主题的专门的引擎,它们只对某一个主题的内容 进行搜索和处理,这样信息的命中率和准确度相对就比较高。 2 2 2 搜索引擎的基本构成 一般来讲,搜索引擎可分为以下几部分: ( i ) 信息的采集。搜索引擎通常会生成多个w e b 机器人( r o b o t ) ,根 据初始搜索列表和一定的搜索策略自动去w e b 站点搜索、采集文档。 ( 2 ) 信息的分析。在搜索引擎本地机上进行分析由r o b o t 搜集来的文档, 选出文本和文档中的有用信息构成w e b 结构的超链( h y p e l i n k ) 。 ( 3 ) 信息的存储。按照定结构将文档的分析结果存储在搜索引擎本地 机的数据服务器上,并建立适应查询的高效的索引。 ( 4 ) 信息的检索。用户提交查询请求,然后搜索引擎在本地机的数据中 检索出符合用户查询条件的记录。 西南交通大学硕士研究生学位论文第9 页 2 2 3 搜索引擎的工作步骤 w e b 搜索引擎的工作步骤总的分两个:第一步是一边爬行,一边将在网 络上搜索到的有效网页资料下载到本地数据中;第二步是根据用户提交的查 询请求来检索本地机中的数据信息。详细步骤如下: w e b 搜索引擎在搜索之初,都要首先建立一个初始搜索列表,然后日f 擎 根据用户设定的各种参数,开设相应的若干个机器人线程( 每个机器人线程 只负责一个网页的下载和解析) ,对初始列表中的网站所含网页进行访问。 对于搜索引擎开设的每个机器人线程,通过对网站w e b 服务器8 0 端口 发送遵循h t t p 协议格式的指令申请( 包括g e t 、h e a d ) ,可以获取网站 w e b 服务器返回的h t m l 网页或相应信息。在w e b 服务器返回的h t m l 网页中,包括有文本内容、指向其他网页的超级链接( u r l ) ,以及其他网页 描述性语句( 如 等t a g 标志语句) 。因此,机器人线程获取网页后 马上对网页进行解析( p a r s e ) ,把文本部分和网页所含u r l 部分从网页中过 滤出来( 网页中其余关于字体、层、颜色、表格的描述语句丢弃不用) 。其中 文本部分按照某种分类策略存放入相应数据当中,网页所含u r l 如果有效, 则或者按照某种遍历算法存入未访问网页数据中,或是直接放入内存中未访 问网页队列中( 小型搜索引擎常用,如s u p e r h t t p d 、s p i d e r ) ,此时,这一机 器人线程网页处理任务结束,自动终结。 w e b 搜索引擎发现机器人线程减少时,按照一定算法检查数据信息或内 存中的未访问网页队列,如果队列不为空,则再开设一个机器人线程,读取 该网页,重复以上工作。搜索引擎这一调度工作如此循环往复,直至所有网 站网页获取并存储完毕。这时,用户对网站的检索请求的处理就变成了对本 地数据查询请求的处理。工作步骤如图2 1 : 图2 1 网络搜索引擎基本工作原理 西南交通大学硕士研究生学位论文第1o 页 2 2 4 搜索引擎的搜索效率 由上可以看出,一个搜索引擎的设计者,如果对搜索引擎的搜索调度策 略( 遍历算法) 设计不当,不对其搜索范围进行有效控制,将使搜索引擎在 网络上盲目搜索,有效信息收集不多,无用信息塞满了数据信息,这样将直 接影响到搜索引擎无法完全有效地检索网络资源,就像我们花了一大笔钱, 但我们却无法有效地使用它,造成了很大的浪费。 如何改进搜索调度策略,提高搜索引擎的搜索效果呢? 可以说搜索引擎 中搜索策略的设计主要在于a i ( a r t i f i c i a li n t e l l i g e n c e ) 的研究成果。所以在 这里要提一下人工智能的研究。 a i 的研究己经进行了四十多年,在许多人的心目中,它似乎并没有完成 它当初的承诺。的确,a i 在许多领域中都遇到了困难,各种各样的专家系统 显得过于脆弱。但是w e b 对于基于问题求解和知识处理的a l 来说无疑是一 个绝好的环境。现在虽然一些智能化搜索引擎己商品化,但功能仍难以达到 真正实用的地步。现有的i n t e m e t 搜索引擎拥有极少量的知识,并且是面向 最一般的用户模型。从某种意义上可以说,不划分知识领域、不明确搜索范 围、不对用户建立任何描述是现今a i 技术和计算机硬件环境条件下,限制 搜索引擎使用效率的主要原因。针对以上的分析我们可以看出:为了提高搜 索引擎的搜索效率,应该设计出符合某一专题信息的搜索算法,才能有效的 提高效率。 2 2 5 搜索引擎的主要技术 1 、h t t p 协议 h t t p 是建立在t c p i p 网络协议基础上的用于w w w 上数据传输的标 准协议。通过h t t p 协议,搜索引擎与w w w 服务器建立通信机制,向w w w 服务器提出对网页各种特征提取的请求,并从服务器的应答中获得相应数据。 h t t p 协议的通讯包由头字段( h e a d e rf i e l d s ) 和实体( e n t i t y ) 两部分 组成。头字段用于描述各种信息,实体用于装载内容信息。重要的头字段有 h t t p 1 1 ( 版本号) 、s e r v e r ( 服务器类型) 、d a t e ( 获取时间) 、c o n t e n t t y p e ( 媒体类型) 、l a s t m o d i f i e d ( 最终修改时间) 、c o n t e n t 1 e n g t h ( 内容长度) 西南交通大学硕士研究生学位论文第1 1 页 等。了解了h t t p 请求响应通讯包的构造方法,可以很容易获取网页的内容。 2 、r o b o t 技术 “机器人”( r o b o t ) 是一种自动运行的软件,其功能是搜索i n t e m e t 上 的网站或网页。这种软件定期在i n t e r n e t 上漫游,通过网页间的链接,顺序 地搜索新的地址,当遇到新的网页时,就给该网页上的某些字或全部字做上 索引并把它加到搜索引擎的数据信息当中,由此,搜索引擎的数据信息得以 定期更新。目前的搜索引擎广泛地使用了机器人技术。 具体地说,r o b o t 主要做以下工作: ( 1 ) 通过h t t p 协议利用遍历算法从相应i n t e r n e t 站点获取网站主页, 形成队列: ( 2 ) 从队列取出网页,分析h t m l 文档,将所抓页面进行分析处理, 抽取各索引字段: ( 3 ) 执行写数据信息的操作; ( 4 ) 重复( 2 ) 。( 4 ) 步,直至处理完毕。 3 、信息检索技术 搜索引擎所使用的信息检索模型主要有布尔逻辑模型、模糊逻辑模型、 向量空间模型以及概率模型等。 ( 1 ) 布尔逻辑模型 布尔型信息检索模型是最简单的信息检索模型,用户利用布尔逻辑关系 构造查询式并提交,搜索引擎根据事先建立的排列文件确定查询结果。标准 布尔逻辑模型为二元逻辑,并可用逻辑符( “a n d ”、“o r ”、n o ) 来组织关键 词表达式。布尔型信息检索模型的查全率高,查准率低。目前大多数搜索引 擎均使用布尔逻辑检索模型。 ( 2 ) 模糊逻辑模型 这种模型在查询结果处理中加入模糊逻辑运算,将所检索的数据文档信 息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。 模糊逻辑模型可以克服布尔型信息检索模型查询中结果的无序性问题。例如, 查询“搜索引擎”,则关键词“搜索引擎”出现次数多的文档将排列在较前的 位置上。 ( 3 ) 向量空间模型 向量空间模型用检索项的向量空间来表示用户的查询要求和数据文档信 息。查询结果是根据向量空间的相似性而排列的。向量空间模型可方便地产 生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用 西南交通大学硕士研究生学位论文第12 页 户提供准确的信息。 ( 4 ) 概率模型 基于贝叶斯概率论原理的概率模型利用相关反馈的归纳学习方法,获取 匹配函数,这是一种较复杂的检索模型。 目前,商用信息检索系统主要以布尔模糊逻辑加向量空间模型为主,辅 以部分自然语言处理技术来构造自己的检索算法。 4 、信息预处理技术 信息预处理包括信息格式支持与转换以及信息过滤。 目前,i n t e m e t 上的信息、发布格式多种多样,这就要求搜索引擎支持多 种文件格式,从实际情况看,所有的搜索引擎都支持h t m l 格式,而对于其 他文件格式的支持不同的搜索引擎则有不同的规定,最多的能支持2 0 0 多种 文件格式。一般地说,一个企业级的公用w e b 站点起码应该支持4 0 6 0 种 文件格式。同时搜索引擎还应具备信息格式转换功能,以保证不同格式的数 据均能在网络上流通。 信息过滤也是搜索引擎的一项重要技术。在i n t e m e t 中,存在有大量的 无用信息,一个好的搜索引擎应当是尽量减少垃圾站点的数量。这是信息过 滤要着重解决的问题。 5 、信息索引技术 信息索引就是创建文档信息的特征记录,以使用户能够快速地检索到所 需信息。建立索引主要涉及到以下几个问题: ( 1 ) 信息语词切分和语词词法分析 语词是信息表达的最小单位。由于语词切分中存在切分歧异,切分需要 利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据 词干建立信息索引。 ( 2 ) 进行词性标注及相关的自然语言处理 词性标注是指利用基于规则和统计( 马尔科夫链) 的数学方法对词语进 行标注。基于马尔科夫链随机过程的n 元语法统计分析方法在词性标注中能 达到较高的精度。利用各种语法规则,识别出重要的短语结构。自然语言处 理是指将自然语言理解应用在信息检索中,可以提高信息检索的精度和相关 性。 ( 3 ) 建立检索项索引 使用排列文件的方式建立检索项索引。一般包括“检索项”、“检索项所 在文件位置信息”以及“检索项权重”。 西南交通大学硕士研究生学位论文第13 页 6 、检索结果处理技术 搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引 擎一般应按与查询的相关程度对检索结果进行排列,最相关的文件通常排在 最前面。搜索引擎确定相关性的方法有:概率方法、位置方法、摘要方法、 分类或聚类方法等。 ( 1 ) 概率方法 概率方法根据关键词在文中出现的频率来判定文件的相关性。这种方法 对关键词出现的次数进行统计,关键词出现的次数越多,该文件与查询的相 关程度就越高。 ( 2 ) 位置方法 位置方法根据关键词在文中出现的位置来判定文件的相关性。认为关键 词在文件中出现得越早,文件的相关程度就越高。 ( 3 ) 摘要方法 摘要方法是指搜索引擎自动地为每个文件生成份摘要。让用户自己判 断结果的相关性,以便用户进行选择。 ( 4 ) 分类或聚类方法 分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归 入到不同的类别中。 2 3 本章小结 本章主要通过对搜索引擎的基本原理进行了基本的介绍,同时对搜索引 擎的基本构成和工作步骤进行了探讨,最后论述了搜索引擎中所要采用的主 要技术,使得对于搜索引擎的一些发展有了初步的了解。 西南交通大学硕士研究生学位论文第14 页 第3 章专题性搜索引擎概述 3 。1 专题性搜索引擎的优点 正如上面所提到的,通用型搜索引擎在搜索的效率和查准率方面还是有 所欠缺,为了满足某一专业领域在查全率和准确率上的搜索要求,提出了专 题性搜索弓l 擎, 专题性搜索引擎的优点有:可以优化后台的信息集合;可以优化用户查 询界面,通过建立一个智能型的用户界面,使得该搜索引擎易于被用户理解 和应用、容错能力强、灵活性和适应性强、能够高效检索到符合要求的专业 信息;可以提高检索结果的科学性,检索的结果少而精,得到准确的信息结 果:可以根据用户的要求进行排列输出;可以进行本地化查询,技出最符合 用户的信息源;可以提供个性化服务等等。 在搜索器方面,通过编制一个按照预先已定义好的专题,来有选择性地 收集相关的网页的地址首先分析它的搜集范围,再找到最相关的链接,避 免不相关的w e b 页。由于它涉及的信息范围要小得多,所以可以节省大量的 硬件设备,可以提高信息利用价值,并有能力跟踪每个相关网页,迅速发现 和收集网上新加入的信息和被删除的信息,使得信息保持定时更新。 对搜集到的信息进行准确的分尧和标引是搜索引擎中最为重要的一步。 专题性搜索引擎索引嚣因为涉及的领域小,信息量相对少,所以完全可以在 自动分类标引的过程中加入人工智能,利用专家的智能对信息进行分类标引, 提高信息的质量。 利用后面将要介绍的信息主动获取技术,进一步提高广大用户从i n t e r n e t 中获取所需知识和有用信息的效率,为各种用户提供主动的、个性化信息服 务的能力,采用信息推送与信息拉取相结合的方法,可取长补短,既可及时 地、主动地将最新信息摧送给用户,又可有针对性、有选择性地满足用户个 性化需求。 3 2 专题性搜索引擎的研究内容 专题性搜索引擎主要是针对某一专题进行稻关内容的搜索,该领域正成 西南交通大学硕士研究生学位论文第15 页 为目前网络搜索引擎研究的热点。 在专题性搜索引擎中,网络搜索机器人与数据解释首先从w e b 搜索机 器人开始,它是一些程序,可以穿越大量i n t e r n e t 网址的超文本结构,递归 地检索网络站点的内容。由于w w w 上的信息主要是以h t m l 文档的形式 存放的,因此要根据h t m l 文档的特点,对其进行扫描分析,以提取出有用 信息。论文举出了h t m l 文档的扫描算法,以及h t m l 文档中数据处理的 方法。 同时论文举出了专题性搜索引擎中的一个重要专题新闻搜索引擎。新 闻搜索是指定期抓取客户所选择和指定的新闻两站中的新闻页面,进行分析 后提供给用户,而且还具有实时新闻播报功能,即定时更新的机制。 3 3 专题性搜索引擎的研究意义 目前对于搜索引擎的首要关注点已经从如何找到更多的信息转移到如何 找到准确、有用的信息,查准率已经成为众多搜索引擎的首要目标。专题性 搜索引擎是一种专用领域的搜索引擎,它从菜一专题出发,有针对性的搜索 网上某一专题信息,采取优化后台信息集合、优化用户查询界面等措施,从 而能够高效检索到所需的专题信息。研究它可以方便用户更有效的发掘网上 的信息资源,提高用户的信息查询效率,使之不至于被信息海洋淹没。专题 性搜索弓l 擎具有广阚的应用前景帮实甩意义,通过实现新闻搜索引擎,也证 实了专题性搜索引擎的实用意义。搜索引擎是i n t e m e t 的指路人,从专题性 搜索引擎新闻搜索引擎入手,这种以点带面的新构想必将对搜索引擎的发 展产生重大影响,更好的方便用户上网获得所需专题信息。 3 ,4 新闻搜索引擎概述 互联网发展到今天。已经成为能够和报纸、电视以及广播齐名的四大媒 体之一,无论是中国的“十六大的胜利召开”还是最近的“伊拉克战争”总 是能在最短的时间内得到全方位多角度的详细报道,因此获取新闻也成为互 联网的主要功能之一。 拥有一个好的新闻栏目无疑是吸弓l 更多网友的法宝,各大网站也都认识 到这一点,纷纷组织编辑队伍,开辟新闻栏目,与传统媒体相比,互联网新 西南交通大学硕士研究生学位论文第16 页 闻在时效性上有着不言而喻的优势。但同时目前的网络新闻又存在几个很大 的弊病:首先是在新闻的组织方面,除了少数重大事件按照专题的形式对新 闻进行编排以外,大量的都是将新闻经过最笼统的分类后堆积在一起扔给网 友,查看起来非常不方便。其次在新闻的内容方面,某些网站由于编辑的人 力所限,经常无法做到在最短时间内发现有价值的新闻并进行整理和报道, 从而使得自己的网站落在了竞争对手的后面。 新闻搜索引擎正是为了解决上述问题而开发的产品。它采用中文搜索核 心技术,并针对新闻报道的特点进行了专门的设计,从而可以帮助各大网站 以较少的花费建立独具特色、内容丰富、功能强大的新闻栏目。 新闻搜索引擎有两大功能:新闻搜索和实时新闻滚动播出。 新闻搜索是指新闻搜索引擎定期抓取客户所指定网站的新闻栏目中所有 新闻的标题,进行内容分析后提供给用户。举个例子,某客户需要一个可对 “天极网”、“新浪网”、“硅谷动力”以及“c h i n a b y t e ”四大网站的所有i t 新闻进行搜索的i t 新闻搜索引擎,并指定更新频率是每天更新。针对这个要 求,新闻搜索引擎就会每天一次地分析这四大网站上所有i t 新闻的标题。每 天更新的含义在于用户可在搜索引擎中查到一天以内的最新相关新闻。更新 时间可以缩短到一分钟,也就是说用户可以搜索到一分钟以内的各大网站最 新新闻,当有重大新闻事件来临时,这个特性就显得非常有意义了。 实时新闻滚动播出是新闻搜索引擎的另一重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论