(系统分析与集成专业论文)基于net的气象主题搜索引擎系统的研究与实现.pdf_第1页
(系统分析与集成专业论文)基于net的气象主题搜索引擎系统的研究与实现.pdf_第2页
(系统分析与集成专业论文)基于net的气象主题搜索引擎系统的研究与实现.pdf_第3页
(系统分析与集成专业论文)基于net的气象主题搜索引擎系统的研究与实现.pdf_第4页
(系统分析与集成专业论文)基于net的气象主题搜索引擎系统的研究与实现.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(系统分析与集成专业论文)基于net的气象主题搜索引擎系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 摘要 随着网络信息资源的集聚增长,搜索引擎成为人们获取海量网络信 息的首要工具,是网络研究和应用的关键内容。目前i n t e r n e t 信息的多 元化的发展,主题搜索引擎正处于十分活跃的阶段。本文就中文w e b 主 题信息获取与检索技术进行了一些研究,设计和实现了一个基于元搜索 引擎的主题信息采集为核心的气象主题搜索引擎系统。 本文首先介绍了目前通用搜索引擎的发展、现状、分类、工作原理, 对主题搜索引擎产生的背景并对工作方式作了概述,引出了本系统的设 计方案,本课题为在气象学专业背景下,使用n e t 以及s q ls e r v e r2 0 0 0 数据库技术,在基于元搜索引擎的主题式智能信息检索系统的研究的同 时,给出了其框架的具体实现,构建了一个气象主题搜索引擎系统。重 点探讨了系统功能模块及其实现中的关键技术如元搜索引擎接口技术、 结果融合、过滤、排序技术等。 该系统面向气象领域,保证了对气象信息知识的完全收录与及时更 新,避免了强大的搜索噪音,提高了检索效率及精度,能快、全、准地 提供气象专题信息查询。为气象专业下的用户在v e b 网络中检索所需的 有效信息提供了较好的方案。 目前,该系统已经能够实验性运行且效果良好,达到了预期学习和 实践的目的,为进一步研究主题搜索引擎技术并开发主题搜索引擎系统 奠定了基础。 关键词:气象,主题搜索,元搜索,结果融合,信息过滤 i 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 a b s t r a c t a l o n gw i t ht h er a p i dg r o w t ho fi n f o r m a t i o no i lw e b , s e a r c he n g i n e s b e c o m e st h em o s ti m p o r t a n ti n f o r m a t i o nq u e r yt o o l sf r o mt h ew w w a n dt h e k e yt ot h ei n 把m e tr e s e a r c ha n du t i l i z a t i o n f o l l o w i n gt h ew w wi n f o r m a t i o n m u l t i v a r i a n tg r o w i n gu 岛t o p i c s e a r c he n g i n e sa l eb e c o m i n gr e s e a r c h i n g f o c u s t h i sd i s s e r t a t i o nf o c u s e d 衄t h e t o p i cs p e c i f i c c h i n e s ew e b i n f o r m a t i o n a c c e s s i n g a n di t s s c r e e n i n gt e c h n o l o g y ,d c s i g n c d a n d a c c o m p l i s h e dam e m o r o l o g ys e a r c he n g i n es y s t e mw h i c hk e r n e lw a st h e t o p i cs p e c i f i ci n f o r m a t i o ng a t h e r i n gb a s e do nt h em e t a - s e a r c he n g i n e f i r s t l yi n t r o d u c e dh s t o r ya n dp r e s e n tc o n d i t i o no fn o w a d a y sg e n e r a l p u m p o s ec o m p r e h e n s i v es e a r c he n g i n e s i n l r o d u c e dt h et o p i cs e a r c he n g i n e b a c k g r o u n da n dw o r k i n gm e c h a n i s m e d u c t i o nt h ei m p l e m e n tm e t h o do f t h i s s y s t e m w i mt h em e t e o r o l o g yb a c k g r o u n d , t h i sp a p e rf o c u si t sr e s e a r c h0 1 1a n e ws p e c i a l i z e d 、i n t e l l i g e n tw e bi n f o r m a t i o nr e t r i e v a ls y s t e mb a s e d0 1 1 r e c t a - s e a r c he n g i n e ,a n dg i v e sas y s t e m a t i ci m p l e m e n t a t i o nb y n e ta n ds q i s e r v e r2 0 0 0 b u i l d i n g 纽m e t e o r o l o g ys e a r c he n g i n e a n a l y s i sf i m c t i o n a l m o d u l e sa n dt h ek e yt e c h n o l o g y , s u c h 船m e t a - s e a r c he n g i n ei n t e r f a c e 、 i n f o r m a t i o nb l e n d 、f i l t e ra n dr a n k i n ge t e t h i ss y s t e mf a c et om e t e o r o l o g yd o m a i n a s s u r e dt h ec o m p l e t e n e s sa n d r e n e w e d n e s sa n da v o i dt h en o i s ei ns e a r c h nm c r e 丛et h es c o p eo ft h e a c q u i r i n gi n f o r m a t i o na n dt h ep r e c i s i o no f t h es e a r c h e n h a n c i n gt h er a t ea n d p r e c i s i o no ft h er e t r i v e l ,r e a l i z e d t h e m e t e o r o l o g yi n f o r m a t i o ns e a r c h q m c h y 、c o m p l e t e l ya n da c c u r a t e l y w h i c hp r o v i d e sa ne f f e c t i v em e t h o dt o a c q u i r ei n f oi nw e b f o rt h em e t e o r o l o g yu s e r a tp r e s e n t ,t h i ss y s t e mc a nb i ne x p e r i m e n t a la n dw e l li e s 血w h i c h h 硕士学位论文 基于n e t 的气象主题搜索弓l 擎系统的研究与实现 a c h i e v e dt h ea n t i c i p a t e dl e a r n i n ga n dp r a c t i c a l i n ge f f e c t e s t a b l i s h i n gb a s i s f o rf u r t h e rr e s e a r c ha n dd e v e l o pt o p i c s e a r c he n g i n e k e yw o r d s :m e t e o r o l o g y , t o p i c s e a r c h , m e t a - s e a r e h , r e s u l t s b l e n d , i n f o r m a t i o nf i l t e r 果 学位论文独创性声明 本人郑重声明: 1 ,坚持以求实,创新。的科学精神从事研究工作 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究成 3 、本论文中除引文外,所有实验,数据和有关材料均是真实的 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经 发表或撰写过的研究成果 意 5 、其他同志对本研究所傲的贡献均已在论文中作了声明并表示了谢 作者签名:錾童羞 日 期:业芦驰l 学位论文使用授权声明 本人完全了解南京信息工程大学有关保留,使用学位论文的规定。学校 有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸 质版;有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书 馆被查阅;有权将学位论文的内容编入有关数据库进行检索;有权将学位论 文的标题和摘要j 仁编出版保密的学位论文在解密后适用本规定 作者签名: 日期: 捌 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 1 1 本文研究的背景 第一章绪论 随着网络与通信技术的迅速发展,w e b 信息爆炸性的增长,越来越多的人们把网络信 息检索作为日常获取信息的重要手段。h e m n 上庞大的科技信息资源已经成为教育科技界 用户获取学术信息的主要途径。如何更准确、更有效地查找到自己所需的特定网络信息, 建立专门针对网上某一类型或某一专业信息的检索工具主题搜索引擎,已经成为网络 信息检索的迫切需要。 主题搜索引擎针对专业特定的领域或行业的内容做了专业和深入的分析挖掘,精细分 类,过滤筛选等,信息定位更精准,它具备了有效的信息采集策略。索引更新周期大大缩 短,通常能在1 2 天内提供更新的两上专业领域信息查询,甚至能在数小时内更新查询 信息由于主题搜索引擎面向某一特定的专业领域,更加专注于自己的特长和核心技术, 保证了对该领域信息的安全收录与及时更新。它的最大优势在于能够把具有相同兴趣点的 人们集中在一个“主题社区”内,透过及时集中各种专业资源查询,避免了丈量的搜索噪 音,提高了查询效率。在提供专业信息方面有着其它检索工具无法比拟的优势。因此在垂 直领域或行业提供的搜索服务势必更好更强。更为用户所欢迎。未来搜索市场将进一步细 分t 像g o o g l e 、百度等主张大而全的全球式搜索引擎将会面临垂直专业搜索引擎更大的竞 争与挑战,他们的市场分额将会被逐渐瓜分,专业的行业性主题搜索将受到网民的青睐【i j 。 目前搜索引擎的关键技术已经发展到第四代,但现有的搜索引擎相关技术成果大多面 向综合型搜索引擎的。主题信息的检索还没有理想的解决方案。本文在介绍主题搜索引擎 关键技术的基础上,给出了一种比较理想的主题搜索引擎设计方案并实现了一个气象主题 搜索引擎( m e t e o r o l o g y t o p i c s e a r c h e n g i n e 。笔者利用g o o g l e ,b a i d u 等进行搜索的结果 来看,专门面向气象主题的搜索引擎国内尚属空白。本文的研究希望能在网络主题信息检 索方面抛砖引玉,促进搜索引擎技术的进一步发展和完善。 1 2 课题研究的主要目的和内容 为了提高返回结果的利用率,人们开始缩小搜索的范围。主题式搜索引擎应运而生, 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 而主题式w e b 信息获取作为其重要的一部分也随之出现,它与普通w e b 信息获取的不同 之处在于只收集该主题信息,用于满足菜一具体方面( 例如某一专业领域) 需要的用户。 相对综合性搜索来讲它本身的数据量小,且已经帮助用户过滤掉非本主题的网络信息,提 高了页面的查准率为用户节省了时间本文研究的主要目的是针对目前综合性搜索引擎 返回结果过大,不能很好的满足专业用户查找专业信息的情况下。利用当前较为成熟、优 秀的商业搜索引擎的技术,实现一个气象主题搜索引擎系统,快速准确的实现气象专业信 息的查询,提高了检索的精度,降低了搜索中的噪音,从而促进气象信息化的发展和国内 信息服务技术的研究工作。 本文研究的主要内容有: 1 、目前国内外搜索引擎的发展现状、基本原理以及各个工作过程中所采用的关键技术。 2 、分析并实现了本系统实施过程中所用的关键技术如:元搜索引擎接口的维护技术、 成员搜索引擎的调度及结果融合、过滤,排序等具体算法的实现。 3 、对气象主题搜索系统的实现迸行了全面的分析,介绍了本系统的基本原理及设计方 案,基于1 3 $ 开发结构,以m v c 模式结合u m l 图的设计策略,使用n e t 、s q ls e t v e r 技术及a d o n e t 连接池技术,对气象主题搜索系统的各个模块进行了设计和实现。 4 、对论文的研舡作进行了总结和展望,提出了系统的创新之处及今后所要傲的工作。 2 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 2 1 搜索引擎概述 第二章搜索引擎 搜索引擎f ”,是在i m e r n e t 中主动搜索信息并能自动索引、提供查询服务的一类网站, 这些网站通过网络搜索软件( 又称为网络搜索机器人w e br o b o t s ) 或网站登录等方式,将 i m e r n e t 上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字 ( k e y w o r d ) 查询时- 该网站会告诉用户包含该关键字信息的所有瞬址,并提供通向该网 站的链接。 2 1 1 通用搜索引擎的产生与现状 面对浩瀚的网络资源,搜索引擎为所有两上冲浪的用户提供了一个入口,毫不夸张的 说,所有的用户都可以从搜索出发到达自己想去的网上的任何一个地方。搜索引擎技术伴 r ,1 随着w w w 的发展是引入注目的。搜索引擎大约经历了三代的更新发展”1 : 第一代搜索引擎出现于1 9 9 4 年这类搜索弓l 擎一般索引都少于1 ,0 0 0 ,0 0 0 个阿页, 极少重新搜集两页并去刷新新索引。而且其检索速度非常慢。一般都要等待1 0 秒甚至更长 的时间。在时间技术上也基本沿用较为成熟的i r ( i n f o r m a d o nr e t r i e v a l ) 、网络、数据库等 技术,相当于利用一些已有技术实现的一个w w w 上的应用。在1 9 9 4 年3 月到4 月,网 络爬虫w o r l dw i d ew e bw o 衄o m o 哪平均每天承受大约1 5 0 0 次查询。 大约在1 9 9 6 年出现的第二代搜索引擎系统大多采用分布式方案( 多个微型计算机协同 工作) 来提高数据规模、响应速度和用户数量,它们一般都保持一个大约5 0 ,0 0 0 ,0 0 0 网 页的索引数据库,每天能够响应1 0 ,0 0 0 ,0 0 0 次用户检索请求。1 9 9 7 年1 1 月,当时最先 进的几个搜索引擎号称能建立从2 ,0 0 0 ,0 0 0 到1 0 0 ,0 0 0 ,0 0 0 的网页索引a l t a v i s t a 搜 索引擎声称他们每天大概要承受2 0 ,0 0 0 ,0 0 0 次查询 自1 9 9 8 年到现在,出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索 引擎为第三代搜索引擎第三代搜索引擎的发展有如下几个特点: 3 硕士学位论文基于t 的气象主题搜索引擎系统的研究与实现 1 、索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。 2 、除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂直门户 站点开始使用该技术。 3 、搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分 为两类:一类是对超文本链的分析,在这方面s t a i d o r d 大学的g o o s l e 系统和m m 的c l e v e r 系统作出了很大的贡献;另一类是用户信息的反馈,d i r e c t h i t 系统采用的就是这种方法。 4 、开始使用网页自动分类技术。n o r t h e r n l i g h t 和i n l a o m i 的d i r e c t o r ye n g i n e 都在一 定程度上使用了该技术。 2 0 0 0 年搜索引擎2 0 0 0 年大会上。按照g o o g l e 公司总裁l a r r yp a g e 的演讲,g o o g l e 正在用3 ,0 0 0 台运行l i n u x 系统的个人电脑在搜集w e b 上的网页,而且以每天3 0 台的速度 向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜 集网页的峰值速度是每秒1 0 0 个网页,平均速度是每秒4 8 5 个网页,一天可以搜集超过4 , 0 0 0 ,0 0 0 阿页。索引数据库覆盖率是评价搜索引擎的一个重要指标,也是各大搜索引擎的 发展重点。数据库规模大战( 图1 1 所示) l ”,自1 9 9 7 年开始,在2 0 0 2 年和2 0 0 3 年实现 跳跃式增长,原因是计算机硬件、网络集群和计算机并行计算技术的提高,使十亿量级的 数据检索成为可能。 3 5 3 0 2 5 z 0 1 5 1 o o 5 o o liilillil j m 撇g g 二掣一帐l 彳 碰 瓣l 歹ff z盘r p - 3 ,- 一r 萋蓉誊毫惫誊巽砉嚣晷蠹吾磊誉窝晕 一“h “n “o “ 图1 1搜索引擎覆盖率增长 注:c , - g - - g o o g j e ,a t w = a i i t h e w e b , n k = i n k t o m i ,a v = a l t a v i s t a ,t m a = t e o n 诅 ( 横坐标:时间;纵坐标;索引文件数单位十亿) 4 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 2 1 2 主题搜索引擎一第四代搜索引擎 随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用 户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下- 要及时更新以得 到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个分类细致精确、数 据全面深入、更新及时的面向主题的搜索引擎。 由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比上面提到的前三代 的搜索引擎更加有效和准确,这类完善的主题搜索引擎称为第四代搜索引擎坶1 2 2 通用搜索引擎的的工作原理 搜索引擎的工作包括如下三个过程:一是在i n t e m e t 上发现、搜集网页信息;二是对所 搜集的信息进行提取和组织,并建立索引库;三是根据用户输入的查询条件,由检索程序 在索引库中快速检出相关文档,在对文档与查询内容进行相关度比较的基础上对检出的结 果进行排序,并将查询结果返回给用户其工作原理如图所示: 司同_ 广一一r o b o t 分 卜 i 褒 陪 一检l 析 蓐毫曩 用 翼瓢素i 声 器f 嚣 器 接 叠 叠瞄叠1 圈 口 图2 1 通用搜索引擎组成 搜索引擎位于信息检索系统层次分类的底层,以w e b 信息为处理对象,虽然各个搜索 引擎具体实现不尽相同,但一般包含5 个基本部分:r o b o t 、分析器、索引器,检索器和用 户接口 1 、搜集器r o b o 9 ( c r a w l e r 、s # - r 、w e b w a n d e r e r ) 1 采用广度优先统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制, 但所有目标搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模 式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索。 检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令 语言,并自动地实现元搜索引擎指令与其目标搜索引擎指令的转换,用户使用同一指令语 言检索不同的搜索引擎的索引数据库。 统一结果集的组织与显示:元搜索引擎提供全局组织器,对各目标搜索引擎返回的 结果进行处理,形成全局结果集,并以统一格式显示。主要涉及数据格式转换、去重、统 一排序等。 2 、a 1 1 i n - o n e 方式 a 1 1 i n - o n e 方式。是指元搜索引擎界面以任意顺序或分类罗列多个( 一般都是数十个) 搜索引擎,元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制。用户可通 过这类元搜索引擎了解有关的搜索引擎,联入所选择的搜索引擎。但元搜索引擎没有统一 的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户。例如a l l - i n - o n e 元搜索引擎( w w w a l b a 嘞n 哟。这种a l l - i n - o n e 方式的元搜索引擎确切地说只是搜索引擎的 罗列,它们具有以下特点: 仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎:只能选择一个搜索引擎进 行检索;对各目标摸索引擎检索界面的复制可能是部分的或全部的:直接利用所选搜索引 擎的显示格式里送给用户 3 、桌面元搜索引擎 以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外类元搜索引擎可直 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 接在用户计算杌上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎。 这些桌面元搜索引擎可从网络上下载。桌面元搜索引擎是一个包括多个成员搜索引擎盼完 整系统,它们往往允许用户自定义检索式运行的搜索引擎集合( 例如一个或全部目标搜索 引擎) ,甚至可由用户添加新的搜索引擎。这些桌面元搜索引擎不仅可以实现对多个搜索引 擎的并行检索,而且也能提供重要的后期处理功能。例如用户定义结果排序方式删除重 复记录等功能。 4 2 1 2 元搜索引擎的特点 元搜索引擎区别于独立搜索引擎,主要有这样一些特征: 1 、不用设立和维护庞大网页数据库,节省存储设备。 2 、提供了统一的外界模式,将一次查询提交到多个独立搜索引擎,搜索的查全率高。 3 、基于独立搜索引擎结果的二次加工 4 、标明结果记录的来源搜索引擎及其局部相关度,提供了全局相关度。 4 2 1 3 元搜索引擎的典型工作过程 元搜索引擎的典型工作过程可以归纳如下: i 、用户遥过统一的查询界面输入查询请求,元搜索引擎对查询进行一定的预处理。 2 、元搜索引擎根据成员搜索引擎调度机制,选择若干成员搜索引擎。 3 、元搜索引擎根据选择的成员搜索引擎的查询格式,对原始查询请求就进行本地化处 理,转换为符合成员搜索引擎所要求的查询格式串。 4 、向各个成员搜索引擎发送经过格式化的查询请求,等待返回结果。 5 、收集各个独立搜索引擎的返回结果。 6 、对返回结果进行综合处理,例如,消除重复链接,死链接等,形成最终结果 7 、以一定的格式将最终结果返回给用户。 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 a g e n t 是由人工智能发展而来,指具有感知能力、问题求解能力和能与外界环境通讯 的软件实体。w o o l d r i d g e 和j e n n i n g s 在1 9 9 8 年给出的a g e n t 的定义如下:a g e n t 是一 定环境下的计算机系统,它能够对所在的环境进行灵活的自治动作,以满足其设计的目标。 自主性( a u t h o n o m y ) 、能动性( p r o a c t i v e n e s s ) 、反应性( r e a c t i v i t y ) 和社会性 ( s o c i a l a b i l i t y ) 的计算机硬件或软件系统可以称为a g e n t ”l 。 a g e n t 的概念模型起源于分布式人工智能领域中的分布问题求解,也成为主题或智能 主题,并没有一个确定的定义通常一个a g e n t 软件是指具有以下特征的独立存在的计算 实体。 1 、自主性:能够在用户不参与的情况下,根据自身内部状态和感知到的环境信息,独 立发现和索取符合用户需求的可利用资源和服务,决定和控制自己的行为。 2 、目的性:具有强烈的行为目的性,根据自身行为规则主动采取一系列行动,直至达 到目的。 3 、适应性:能够根据以前的经验来感知所处环境的变化,及时对相关事件做出适时反 应,改变自己的行动。理解用户对需求的非精确表达,推测用户的意图,捕捉用户的偏好 和兴趣,使自己更好地代理用户工作。 4 、连续性:为了完成用户的委派,a g e n t 能够连续执行,即使用户离开时也能正常执 行。 5 、社会性:a g e n t 之问存在相互作用和通讯,即一个a g e n t 可以通过通讯语言与其他 a g e n t 或用户进行交互,与位于网络不同节点上的其他a g e n t 协同工作; 6 、机动性:在网络计算环境下。一个a g e n t 可以在网络上灵活机动地访问各种资源和 服务。甚至使自己迁移到其他主机上去执行分布计算。 在此定义下,最简单的a g e n t 就是具有上述特性的一个计算进程,这个进程可以简单 到只是个具有某种智能的子程序,能够和别的主题交换消息。此为主题弱概念。此概念使 a g e n t 不仅仅只是应用于人工智能领域,而且广泛地应用在诸如人机界面、通信、并行工 程、软件工程、搜索引擎等 本课题提出的系统模型的设计和实现都是基于多a g e n t 协作来完成。多a g e n t 系统是 一个由许多a g e n t 松散连接的网络,这些a g e n t 协同工作以解决那些由单个a g e n t 不能解 决的闯题。多a g e n t 具有以下一些能力;允许一些旧的系统之间的内部合作;解决致据、 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 控制都是分布情况下的问题;具有鲁棒性和较高的效率。 该系统采用多a g e n t 协同工作,箕优势在于:首先通过a g e n t 之间交互通讯,可以开 发新的任务和问题求解方法,以此来解决不完全、不确定知识的问题;其次通过a g e n t 之 间的相互合作,改善每个a g e n t 的基本能力,并从a g e n t 之间的交互中进一步使其完善: 再者,使用模块化风格来组织和实现系统,灵活多变。 4 3 系统模块构成及其功能 气象主题搜索系统由信息查询模块、元搜索引擎接口模块、查询代理模块、信息处理 模块、查询结果提交模块以及主题专业词库,气象专业站点库、个人信息知识库、系统维 护库等组成,系统结果框图如图4 2 所示: 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 用户 图形化用户接口( 程序界面) 0 。 :军言解析器卜呻 建题专业词纠 羹 查询结果提交 董i 啬询预处理器卜匡象专业站点鼋嚣 l 询l c,库 士l 系统维护库j 元搜索引擎接口模块l = 用户个性化息库 i 成员搜索引擎调度器i- 1 综合处理l l户 信 i查志发器7iti网页排序l 直 t 越 、 心l 一 一 信j 马芒滤 l 聋 匾亟区圈聋 蠢 壹 h 奄询l + 询 询诩 i 搜索收集结果l 网l 釜 代代 t 理 理 ii工工 l成员搜索引擎ll 圈4 2 系统结构框图 基于a g e n t 的元搜索引擎的工作流程如下; 当用户开始一项查询时,信息查询模块接收由用户接口传递的查询词并对其进行自然 语言的解析和查询的预处理,同时调用专业词库,若是注册用户则调用专业词库和用户信 息知识库中用户的个性化信息,产生精化了的个性化检索模式,启动元搜索引擎接口模块 通过查询代理模块调用各个成员搜索引擎去检索与用户兴趣最为相关的信息,返回的信息 收集结果通过信息过滤模块,过滤掉重复文档和无关的信息,以减少搜索噪音,并按相关 度进行网页排序后通过查询结果提交模块提交给用户。用户通过浏览返回的结果,确认是 否为感兴趣的文档,并将反馈结果提交给用户信息知识库,用来聚类精化用户个性化信息 表,和更改气象专业站点信息库中站点的权值。 用户接口模块向系统发出请求和接受系统的服务,它主要为用户提供一个友好的图形 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 化交互界面,提供基于唧w 方式的信息检索服务。用户通过任何标准的w 肼浏览器直接访 闯检索系统可以支持在一次检索中使用多个检索词( 中、荚文) ,并支持检索词之间的逻 辑关系( 与、或) 。还可以指定查询的范围和方式( 精确、模糊) 。检索结果以 r 玎旺形式返 回给用户。各项结果的标题与它所对应的u l c l 用超链接接起来。用户只需在浏览器中点中 检索结果项的标题,就能马上取得相应页面的实际内容。命中的u l l l 页面按它与用户检索 关键词的关联程度排序,使用户的检索更有效率 4 3 1 图形化用户接口模块 这部分主要用来接受用户的查询请求和将最终结果显示给用户,将用户的查询请求提 交给系统,是程序和用户的交接面,这部分不涉及数据的处理。 在界面上用户可以选择注册方式登录,以实现个性化方式的定制。这部分信息可以保 存在客户端的用户c o o k i e 中,这样以来用户不必每次都输入自己的定制信息,也就提供了 个性化的服务。返回的结果页面中显示了结果显示方式、返回结果数量、返回的时间等, c o o k i e 当中也可以保存用户的搜索纪录,如果是三天内已经有相同的关键字查询,则直接 从结果集中读取结果。 4 3 2 信息查询模块 信息查询模块包括了自然语言解析和查询预处理等。其中自然语言解析器接收来自用 户的自然语言词汇,并将其翻译成系统逻辑可以理解的语言。查询预处理器则对经自然语 言解析器解析之后的语言进行预处理。 4 3 2 1 查询预处理器 查询预处理器接受用户接口传来的原始查询请求,并对原始查询请求进行预处理,提 供交叉语言检索和自然语吉支持等功能。 用户输入的查询条俘可以有多种形式,包括关键词、布尔表达式、自然语言形式的描 述语句甚至是文本,但如果把这些输入仅当作关键词去检索,显然不能准确把握用户的真 实信息需求。很多系统采用查询扩展来克服这一问题。各种语言中都会存在很多同义词, 硕士学位论文基于,n e t 的气象主题搜索寻l 擎系统的研究与实现 比如查“计算机”的时候,包含“电脑”的结果也应一并返回,这种情况通常会采用查词 典的方法解决。但完全基于词典所能提供的信息有限,而且很多时候并不适合简单地以同 义词替换方法进行扩展,因此很多研究者还采用相关反馈、关联矩阵等方法对查询条件进 行深入挖掘。 这部分需要用到查询语法和操作,我们所用的查询语法和操作规则如下: 1 、布尔逻辑运算 包括a n d 、o r 、n o t 和( ) 等,这是最基本、最常用的语法规则:a n d 表示搜索结果中 会包含所有的关键词。可以使用+ ( 加号) 和空格来代替。0 r 表示搜索结果中会包含 至少一个关键词,可以使用,( 逗号) 来代替。n o t 表示搜索结果中会排除n o t 之后的 关键词,可以使用o ( 减号) 或! ( 感叹号) 来代替。例如:搜索j f cn o tm f c , 则结果中就只包含j f c ,而不包含m f c ( ) 用来限制优先级,作用和数学运算中的( ) 运 算符相似。 2 、常用的简单语法规则 用来支持短语搜索,搜索引擎会将中的关键词或其组合作为一个整体性的短语进行 搜索。例如:搜索有关s e a r c he n g i n e 方面的信息,可输入s e a r c he n g i n e ,搜索引擎就 把s e a r c he n g i n e 当作一个短语来搜索。如果不用一,就会搜索到既包含s e a r c h 又包含 e n g i n e 的信息,显然其中有很多是你不需要的。通配符则是用来代替若干字符组合类似 于正则表达式。通配符可为十,代表任意多个字符,? 代表当前位置上的字符可以 是任意字符。 3 、常用高级检索语法规则 n e a r 可限定在一定区域范围内同时出现的关键词,这些关键词可能并不相邻,间隔越 小的排列位置越靠前,其间隔用n e a r n 控制,n 为一具体数值,表示间隔最大不超过n 个单词。 i n t i t l e 限定仅在标题中搜索关键字: i n u r l限定仅在a r l 中搜索关键字; i n s i t e 限定仅在给定的站点中搜索资源用户的查询请求可以用以下几部分描 述:要包含的关键字( i n c l u d e ) ,不包含的关键字( e x c l u d e ) ,可以有任何一个的关键字 ( a n y ) ,要包含的短语或句子( a 1 1 ) ,查询的区域,领域,主题,位置等。对于从用户接 口模块送过来的原始查询串,作以下处理: ( i ) 进行自然语言解析,查询数据库,若能找至u 相应解答,将解答返回给用户。 ( 2 ) 根据搜索语法规则,扫描查询串。形成格式化的查询串,即哪部分是全包含,哪部 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 分是不包含的等等。 ( 3 ) 从数据库中读出s t o pw o r d s ,与格式化查询串中的信息进行比较,剔除那些明显 不必要搜索的关键字词。 ( 4 ) 对格式化串中的关键字进行s t e m m i n g 处理。这一步交给各个成员搜索引擎去实现, 以减少处理的复杂性。 ( 5 ) 根据关键字词的信息,形成此次查询的领域,主题、区域、位置等信息。 4 3 3 元搜索引擎接口模块 查询的预处理器将用户提交的检索信息进行处理后提交给元搜索引擎接口模块,在此 模块中,维护着本系统所调用到的搜索引擎接口信息。通过对多个搜索引擎接口的调用, 进行并发查询,提高了系统的查全率。又由于是利用其他搜索引擎的检索结果,不需要进 行阿页的分词标引工作,不需要维护庞大的网页标引数据库,大大降低了工程的复杂度。 其在接受到信息查询模块提交的检索关键词后,元搜索引擎根据各个成员搜索引擎的调度 机制,由查询分发器选择并分发给若干成员搜索引擎去处理。 4 3 4 成员搜索引擎调度器 在程序启动的时候,根据以往的用户的搜索历史和习惯,默认设定了若干成员搜索引 擎。由于成员搜索引擎的信息经常发生变化,所以将它们的代码固定在元搜索引擎的主程 序中显然是不合理的,因此我们采用了成员搜索引擎描述文件,以x m l 进行描述,采用形 式化描述,对于每个新加入的成员搜索引擎,只要按照这个形式为其建立一个描述文件, 将其加入到系统中。目前本系统所使用的成员搜索引擎是优秀的g o o g l e 和百度。 假如用户不满意,可以自己设定成员搜索引擎列表。此外程序还有自己的搜索引擎自 动调度机制,根据用户的查询主题,领域、区域等信息,以及在以往的搜索中成员搜索引 擎的性能表现比如嘀应时间、返回结果数量,用户满意度、领域针对性、支持哪些高级检 索功能等,产生一个合适的成员搜索引擎列表这在一定程度上实现了个性化的设置。 硕士学位论文基于n e t 的气象主题搜索引摹系统的研究与实现 4 3 5 查询分发器 接收由成员搜索引擎调度器产生的成员搜索引擎调度列表,连接数据库,读取这些成 员搜索引擎的信息,包括主机信息、连接信息、查询参数串格式化信息等等根据这些信 息,同步启动若干线程,分别进行连接相应的成员搜索引擎。向它们发送经查询预处理器 处理过的查询信息。这部分的功能的很大一部分是进行数据库的连接,其实有些信息可以 让查询代理进行连接数据库。但是为了减少数据库的连接次数,把这部分功能集中起来进 行一次连接,多次处理、多次使用。 4 3 6 查询代理模块 该模块主要用于提供元搜索引擎和特定成员搜索引擎的交互接口。它首先接收从查询 分发器送来的查询格式串,向查询分发器索取自己的查询参数化信息,再根据查询参数化 信息,将查询格式串进行本地化,也就是转换成自己要求的格式。接下来就把本地化的查 询请求发送到成员搜索引擎,等待返回结果。由于有时候有些服务不可用,所以可以先使 用一个类似于p i n g 命令的程序,先测试服务器是否可用,确定可用后再发送查询请求,开 始连接后设置一个等待时间阀值,超时之后放弃。接收到返回结果后,使用h t m l 解析器从 结果页面中提取检索结果,需要包含以下若干信息:链接信息、得到此链接的成员搜索引 擎、在成员搜索引擎中的排序信息、目标页面的站点信息,目标页面的描述信息、锚记文 字等。 4 3 7 信息处理模块 这是元搜索引擎实现的核心模块,一个元搜索引擎的执行效率的好坏与这个模块的实 现紧密联系在一起,本系统所使用的功能模块如下: 结果收集模块,负责同步接收成员搜索引擎的返回结果,并将最先得到的成员搜索引 擎的返回结果呈现给用户,以减少用户的等待时间。 网页过滤模块则根据重复结果的评判标准去除返回结果中的重复链接,同时利用信息 过滤算法,根据用户的资源要求、时间限制、领域限制等信息。去除冗余的链接信息 3 1 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 网页排序模块是根据一定排序算法,得到合理的排序结果。 综合处理模块负责将最终结果提交给用户接口模块,由用户接口模块把结果呈现给用 户。此模块还负责使用搜索评价机制对此次搜索进行评价,并在客户端的c o o k i e 中记录此 次搜索 4 3 8 查询结果提交模块 负责将最终结果提交给用户接口模块,用户接口模块把结果呈现给用户在今后的研 究中考虑由用户对综合处理后的结果进行评价反馈。同时,用户接口模块通过对用户的反 馈结果进行学习,动态地修改用户个性化表,从而实现更精确的描述用户的个性。此模块 还负责使用搜索评价机制对此次搜索进行评价,并在客户端的c o o k i e 中记录此次搜索。 4 3 9 数据库模块 本系统的数据库模块主要包括四个部分:主题专业词库、用户信息知识库、气象专业 站点库、系统维护信息库组成,同时也包括一些配置文件和设置信息等。系统调试时用需 要使用和保存系统运行中需要使用的数据。本系统主要的数据库模块及数据表结构设计如 下: 4 3 9 1 主题专业词库 考虑到本系统的扩展,专业词库中设置有主题词、专业词等相关信息。由于我们主题 的特殊性,本系统不设置同义词表。系统中所用的一些关键词的选择主要参考简明气象 词典和实用气象手册 。 硕士学位论文基于n e t 的气象主题搜索引摹系统的研究与实现 表4 1 主题词典表t o p i c n o字段名中文名称类型备注 lt o p - i d主题分类序号i n t p r i m a r yk e y 2 t o p _ n a 皿_ i d 主题名称序号i n t 3 t o p _ d e s 主题内容名称 v a r c h a r 4r 凸l r k 备注 表4 2 气象专业词表k e y w o r d n o 字段名中文名称类型备注 l跹yx 艟j d 关键词序号 f n t p r i 础i r yk e y 2唧m 虹 专题名称 3 t o l i d主题分类序号 i n t 3 k e yd e s c 专题描述信息 v a r c n a r 4k e yw e i g h t 专愿词汇权值l = w e i g h t = 5 5班隧& 隧 备注 v a r c h a r 4 3 9 2 气象专业站点库 在气象专业站点信息库中,设置权威的初始种子站点,以便使系统搜索的结果更加专 业,权威。同时过滤了与气象主题无关的站点,很大程度上改善了系统的性能。这些站点 主要由g o o g l e 、酉度等优秀的搜索引擎检索获得。 表4 3 初始种子站点维护表s e e d _ 姒i n n o 字段名 中文名称 类型 备注 li n i - i d初始网站序号i n tp r i m a r yk e y 2i n iu r l 初始同站u r l v a r c h a r 3 i n i _ c o n初始网站内窖 v a r c h a r 4i n iw e i c 4 f f初始网站权值l h t t p :n w 衄c g o v c n 中央气象台 h t t p :c d c c l a g o v c n 中国气象科学数据共享服务网 h t t p :帅c v b g o v t v 中国气象局全球咨询网 h t t p :w w w m e t e c h o r g c n 气象科技网 百度搜索引擎调度的核心代码见附录2 :c a t c h p a t b a i d u c s 硕士学位论文基于n e t 的气象主题搜索引擎系统的研究与实现 5 4 结果融合技术 由于气象主题搜索引擎是基于元搜索引擎开发的,所以结果融合技术至关重要。对独 立搜索引擎所返回的搜索结果不能很好集成的主要原因在于这些搜索引擎是相互独立的, 各个成员搜索引擎问使用的技术不同,结构相差也很大,元搜索引擎不能获知它们的技术 细节。虽然有些搜索引擎定期公布自己的一些技术细节,也有一些专门的站点来评测一些 著名的搜索引擎。元搜索引擎的设计者可以获取这些著名搜索引擎的一些技术细节,但是 元搜索引擎不仅仅调用这几个著名的搜索引擎,而且元搜索引鼙为了提高对用户的服务性 能,经常需要调用一些专业的搜索引擎,它们所采用的技术也在不断发展变化之中,而这 些搜索引擎的技术细节很难得到。元搜索引擎与其寻找这些搜索引擎的技术细节,不如通过 一种科学的统计学的方法来检测它们所采用的某些技术。 结果融合实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论