(计算机应用技术专业论文)基于agent的桌面化信息聚合服务.pdf_第1页
(计算机应用技术专业论文)基于agent的桌面化信息聚合服务.pdf_第2页
(计算机应用技术专业论文)基于agent的桌面化信息聚合服务.pdf_第3页
(计算机应用技术专业论文)基于agent的桌面化信息聚合服务.pdf_第4页
(计算机应用技术专业论文)基于agent的桌面化信息聚合服务.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于agent的桌面化信息聚合服务.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于a g e n t 的桌面化信息聚合服务 摘要 随着互联网的快速发展,越来越多的用户开始关注如何从数量巨大的数据堆中 找出自己需要的数据。本文的目的是把分散在瓦联网各个站点上的信息加以整理, 进行信息的聚合,并且准确的显示给用户。本文以代理为基础平台,定制自己的通 讯语言;采用半自动的信息提取方式,帮助从网页中提取信息;引入w e b 服务和简 单新闻聚合技术,丰富数据获取方式;设计了一个客户端一管理代理一服务代理的三 层架构体系,从而得到互联网的聚合信息。并以该方法为指导开发了一个通用的信 息聚合服务平台,同时提供了新闻聚合、天气预报聚合、图书聚合、公爻聚合四项 服务。通过桌面化信息聚合服务,用户能够找到准确的内容,实现更精确搜索的目 的。 关键词:语义网、代理、信息网格、w e b 服务、r s s 何幸杰毕业论文第2 页 总共2 页 基于a g e n t 的桌面化信息聚合服务 a b s t r a c t w i t ht h ed e v e l o p m e n to f n t e r n e t ,m o r ea n dm o r ec u s t o m e r sf o c u so nh o wt og e tu s e f u l i n f o r m a t i o nf r o mh u g ed a t u m t h ea i mo fd e s k t o pi n f o r m a t i o ns y s t e mi st h a tc o l l e c t s i n f o r m a t i o nf r o mw e bs i d e s e x t r a c t sn s e f u li n f o r m a t i o na n dr e t u m st ou s e r s i nt h i s p a p e r ,w eb a s eo na g e n tt e c h n o l o g y ,d e f i n eo u ro w nc o m m u n i c a t i o nl a n g u a g e ,u s e s e m i a u t o m a t i ci n f o r m a t i o ne x t r a c t i o nm e t h o d ,i n t r o d u c et h ew e bs e r v i c ea n dt h er s s t e c h n o l o g y ,d e s i g nc l i e n t m a n a g ea g e n t - s e r v i c ea g e n tt h r e et i e ss y s t e m a n dt h e n d e v e l o p st h eg e n e r a li n f o r m a t i o np l a t f o r m ,i n c l u d i n gt h ew e a t h e rf o r e c a s tp o l y m e r i z a t i o n s e r v i c e ,t h eb o o k sp o l y m e r i z a t i o ns e r v i c e ,t h eb u sp o l y m e r i z a t i o ns e r v i c e ,n e v v s p o l y m e r i z a t i o ns e r v i c e t h o u g ht h i ss y s t e m ,u s e r sc a nf i n dt h em o r ea c c u r a t ec o n t e n t g e y w o r d s :s e m a n t i ew e b 、a g e n t 、i n f o r m a t i o ng r i d 、w e bs e r v i c e 、r s s 何幸杰毕业论文第3 页总共3 负 基于a g e n t 的桌面化信息聚合服务 1 、绪论 1 1 研究背景 如今w w w 已经成为互联网最重要和最广泛的应用之一。利用w w w ,用户可以浏览 互联网上的信息资源。互联网已经成为最为流行的信息发布媒介。互联网使得人们 无论是发布还是阅读信息都变得极为方便。但是w w w 存在两个明显的不足,首先计 算机不能理解网页内容的语义,其次网上有用信息难以搜寻,即使借助功能强大的 搜索引擎,查准率也比较低。随着互联网信息爆炸性的增长,人们想要获取一条自 己想要的信息却变得像大海捞针一般困难。如何有效、快速的搜索所需信息,成为 而待解决的问题。在这种背景下,搜索引擎出现了。它帮助人们通过给定的关键词 来获取相关的页面。然而,搜索引擎只是部分的缓解了信息搜索的问题,结果并不 能令人满意。不足之处表现在三个方面:1 只是给出了相关页面的链接,用户还是 需要手工浏览网页才能找到相关信息。2 结果不准确。大量的搜索结果都是用户不 想要的。3 检索模式简单。无法提供类似s q l 这样强大的查询语言。由于无法定制 精确的查询,想要获取精确的结果是不可能的。最理想的情景是:互联网作为一个 信息源能像数据库一样被查询。然而,互联网上文本信息的格式是半结构化的h t m l , 它是无法被机器直接处理的。为了使用户准确获取他想要的信息,信息抽取成为必 要。从网页中抽取信息的程序称为w r a p p e r 。关键的任务是:w r a p p e r 的构造要尽可 能快速,不需要过多人为地参与,并且,构造出的w r a p p e r 要尽可能健壮,能适应 网页的变化,同时,还要尽可能通用,与具体网站无关。抽取后的数据可以根据需 要,自由组合成相互之间关系定义清晰的关联体,可以让用户做精确的查询。 以前很多人是苦恼没有信息可以查阅,图书馆浏览信息效率很低。随着互联网 的诞生和发展,信息开始大量充斥,以至于产生了“信息过载”现象,当信息足够 多的时候,就需要考虑如果有效的应用这些信息,个人知识管理应用应运而生。但 是各种各样的w e b 让用户疲于奔波,导致去中心化的呼声越来越高在去中心化这种 概念的推动下,结合信息聚合、信息提取等功能,聚合服务开始兴起。本文就是在 这种背景之下应运产生的,以语义网、信息网格为指导思想,在相关方面做了一些 应用开发的实践尝试。 1 2 研究内容 本文主要进行了以下几项工作: 1 深入研究了语义网和信息网格等概念,以及这些概念的意义,同时把这些概念 应用到系统的开始实践中。 何幸杰毕业论文 第6 页总共6 页 基于a g e n t 的桌面化信息聚合服务 2 ,研究a g e n t 体系,a g e n t 间的通讯的机制,并根据k q m l 定制自己的a g e n t 通 讯语言。 3 研究半自动、全自动的信息提取机制,并把半自动的信息提取机制应用于实践。 4 0 l 入w e b 服务和r s s 机制,丰富了信息获取方式。 5 结合信息聚合和信息提取,开发出一个可以运转的聚合服务平台,并提供图书、 新闻等四种信息聚合服务。 1 。3 篇章结构 本文的篇章结构组织如下: 第二部分阐述聚合服务的相关研究综述,第一节介绍语义网技术,第二节介绍 信息网格的产生背景和概念,第三节简单介绍一下信息提取知识,最后在第四节描 述国内外研究发展综述。 第三部分阐述聚合服务系统的架构,第一节详细描述了系统架构的调度过程, 第二节到第四节介绍架构的三个端点客户端一管理a g e n t 一服务a g e n t 的情况,第 五节描述了聚合服务的三种数据获取方式。 第四部分阐述数据层实现,介绍半自动w r a p p e r 工具和全自动w r a p p e r 工具及 其思路,并详细描述了应用半自动w r a p p e r 工具提取网页信息的步骤。 第五部分阐述通讯层实现,通讯层使用a g e n t 为基础平台,使用x m l 嵌入 k q m l 的语句作为通讯语言,重点介绍聚合服务的信封体和内容两部分通讯格式。 第六部分阐述表现层实现,给出了表现层的应用效果图,重点介绍天气预报聚 合、公交查询聚合、赡书聚合、新闻聚合四项服务。 第七部分是总结与展望。 何幸杰毕业论文第7 页 总共7 页 基于a g e n t 的桌面化信息聚合服务 2 、相关研究综述 2 。l 语义网介绍 随着人们对网络上信息使用要求的不断提高,对网络上信息内容提出了更高要 求。可以这样认为,网络只是给人们提供了个倍息共享和信息浏览的环境,人”j 叫以在网络环境中找到自己想要的信息,而对这些信息的理解还需要人来完成,也 就是说,目前网上的信息是人所能理解的信息,而不是机器所能理解的信息。 虽然i n t e r n e l 上分布着海量的信息,但它们主要是面向人类的。由于信息内容 没有更好地形式化表示,计算机难以处理这些信息。而互联网上广泛存在的信息格 式的异构性、信息语义的多重性卧及信息关系的匮乏和非统一,给人们存信息搜索、 抽取、表示、解释和维护方面造成极大的不便。存在这些问题的原因在于万维网现 在采用的超文本标记语言( h y p e rt e x tn a r k u pl a n g u a g e ,简称h t n l ) ,网页r 的 内容设计成专供人类浏览的,而不是供计算机理解和处理的,因此无法为网民提供 自动处理网 数据的功能。此外,万维网是按“网页的地蜘”,而非“内容的语义” 来定位信息资源的,网上所有信息都足由不同的网站发布的,相同主题的信息分散 在全球众多不同的服务器上,又缺少有效工具能将不同来源的相关信息综合起来, 斟此形成了一个个信息孤岛,查找自已所需的信息就像大海捞针一样困难。正是由 于这样,使得网络的深层次应用,如电子商务、电子政务和数字图扮嘻等智能化服 务的开展_ 卜分困难。此外,由于计算机拥有对大规模信息处理的能力,因此将网上 信息处理和利用尽可能地交给计算机自动完成是解决这些问题的关键。为了使人们 能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的 内容,同时使计算机能够理解网页内容帮助人们处理许多烦琐的日常事务,人们 必须让计算机能够“理解”这些信息,并在“理解”的前提下更好地处理和利用这 些信息。w w w 的发明者r i mb e r n e r s l e e 描述了在现有w e b 的基础上建设下代w e b 的蓝图语义w e b ( s e m a n t i cw e b ) 。 语义网是对万维网本质的变革。它的主要开发任务是使数据更加便于电脑进行 处理利查找。其最终目标是这些资源达到几乎无所不知的程度,计算机可以在因特 嘲l 的海量资源巾找到你所需要的信息,从而将万维网中一个个现存的信息孤岛, 发展成一个巨大的数据库。语义网为实现让计算机能够自动识别和处瑚嘲上信息, 需要在文档内容中加入供计算机读的“标记”,这就需要采用所谓“标记语言”。一 般地,不同应用领域的标记符或规则是不一样的。例如,在医疗系统常用的标记符 有“病人序列号”、“药品名”、“药物反应”、“就诊时间”等。困此“标记语言”必 须是灵活的、可扩展的,以便给使用者提供自定义功能,称为“可扩展标记语言”。 须是灵活的、可扩展的,以便给使甩者提供自定义功能,称为“可扩展标记语言”。 何幸志毕业论文第8 页总批8 m 基于a g e n t 的桌面化信息聚合服务 2 、相关研究综述 2 1 语义网介绍 随着人们对网络上信息使用要求的不断提高,对网络上信息内容提出了更高要 求。可以这样认为,网络只是给人们提供了一个信息共享和信息浏览的环境,人们 可以在网络环境中找到自己想要的信息,而对这些信息的理解还需要人来完成,也 就是说,目前网上的信息是人所能理解的信息,而不是机器所能理解的信息。 虽然i n t e r n e t 上分布着海量的信息,但它们主要是面向人类的。由于信息内容 没有更好地形式化表示,计算机难以处理这些信息。而互联网上广泛存在的信息格 式的异构性、信息语义的多重性以及信息关系的匮乏和非统一,给人们在信息搜索、 抽取、表示、解释和维护方面造成极大的不便。存在这些问题的原因在于万维网现 在采用的超文本标记语言( h y p e rt e x tm a r k u pl a n g u a g e ,简称h t m l ) ,网页上的 内容设计成专供人类浏览的,而不是供计算机理解和处理的,因此无法为网民提供 自动处理网上数据的功能。此外,万维网是按“网页的地址”,而非“内容的语义” 来定位信息资源的,网上所有信息都是由不同的网站发布的,相同主题的信息分散 在全球众多不同的服务器上,又缺少有效工具能将不同来源的相关信息综合起来, 因此形成了一个个信息孤岛,查找自己所需的信息就像大海捞针一样困难。正是由 于这样,使得网络的深层次应用,如电子商务、电子政务和数字图书馆等智能化服 务的开展十分困难。此外,由于计算机拥有对大规模信息处理的能力,因此将网上 信息处理和利用尽可能地交给计算机自动完成是解决这些问题的关键。为了使人们 能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的 内容,同时使计算机能够理解网页内容,帮助人们处理许多烦琐的日常事务,人们 必须让计算机能够“理解”这些信息,并在“理解”的前提下更好地处理和利用这 些信息。w w w 的发明者t i mb e r n e r s l e e 描述了在现有w e b 的基础上建设下一代w e b 的蓝图语义w e b ( s e m a n t i cw e b ) 。 语义网是对万维网本质的变革。它的主要开发任务是使数据更加便于电脑进行 处理和查找。其最终目标是这些资源达到几乎无所不知的程度,计算机可以在因特 网上的海量资源中找到你所需要的信息,从而将万维网中一个个现存的信息孤岛, 发展成一个巨大的数据库。语义网为实现让计算机能够自动识别和处理网上信息, 需要在文档内容中加入供计算机读的“标记”,这就需要采用所谓“标记语言”。一 般地,不同应用领域的标记符或规则是不一样的。例如,在医疗系统常用的标记符 有“病人序列号”、“药品名”、“药物反应”、“就诊时间”等。因此“标记语言”必 须是灵活的、可扩展的,以便给使用者提供自定义功能,称为“可扩展标记语言”。 何幸杰毕业论文第8 页总其8 页 基于a g e n t 的桌面化信息聚合服务 语义网将使人类从搜索相关网页的繁重劳动中解放出来。例如,在浏览新闻时,语 义网将给每一篇新闻报道贴上标签,分门别类地详细描述哪句是作者、哪句是导语、 哪句是标题。这样,如果你在搜索引擎里输入“鲁迅的作品”,你就可以轻松地找到 鲁迅的作品,而不是他人写的关于鲁迅的文章。 语义网是种更丰富多彩、更个性化的网络,你可以给予其高度信任,让它帮 助你过滤掉你所不喜欢的内容,使得网络更像是你自己的网络。互联网上分布着海 量的零乱的信息,在带给人们便捷的同时,也使得网络的深层次应用,如电子商务、 电子政务和数字图书馆等智能化服务的开展十分困难。而将网上信息交给计算机自 动处理是解决这些问题的关键。要实现此目的,人们必须让计算机能够很好地理解、 处理和利用这些信息”1 。 目前,人们围绕s e m a n t i cw e b 的概念,已经开展了两项关键技术,即:x m l ( 可 扩展标志语言) 年d r d f ( 资源描述框架) 。语义网体系结构图如图2 1 所示: a r c h i t e c t u r e 图2 1 语义网体系结构 2 2 信息网格 信息网格是目前网格技术的一个重要的方向,它将网格技术或网格思想应用于 i n t e r n e t 和w e b 信息集成,为用户提供一体化的信息服务。 信息网格的产生背景 信息网格的产生,主要源于目前i n t e r n e t 和w e b 技术的一些不足,以及基于w e b 何幸杰毕业论文第9 页 总共9 页 基于a g e n t 的桌面化信息聚合服务 的应用软件集成技术存在的缺陷。其中最重要的有三个方面:首先,i n t e r n e t 缺乏有 效的信息组织方式。在i n t e r n e t 上存在着许多重复、过时、零乱、甚至是矛盾的信 息因此,人们在i n t e r n e t 上获取信息时,经常会得到很多没有任何价值的内容,这 不仅耗费人的精力,同时也浪费了大量的网络资源。w e b 的目标是通过一些简单的办 法把数据和信息组织起来,让人们更方便地获取信息,但是,由于在信息表示方法 上存在不足,反而加大了i n t e r n e t 上信息的混乱程度。其次,i n t e r n e t 缺乏智能和 一体化的访问方式。在i n t e r n e t 上几乎所有的操作都需要用户的参与。用户通过站 点之间的链接,在不同的网站上获取信息。然而用户真正感兴趣的往往是信息内容 本身,而不是物理上分布不同的站点,现在的i n t e r n e t 还不能提供智能和一体化的 信息服务。第三,在面向应用领域的软件集成中,基于w e b 的b s 结构已经成为广泛 采用的标准。企业将需要发布的各种数据、信息和文档置于w e b 数据库和服务器上。 在客户端,只需使用浏览器,就可以实现各种信息交互。与传统的c s 系统相比,b s 系统开发成本低、易维护、易管理的特征,大大简化了客户端的支持工作,因而己 逐渐替代了c s 系统,成为目前最主要的信息服务方式。然而,随着i n t e r n e t 和w e b 的发展,各种信息以指数形式快速增长。使得w e b s 务器上的数据库规模和文档数量 不断增加。但由于b s 系统缺乏有效的信息组织机制,大量的信息被“锁”在各个w e b 服务器中,各w e b n 务器之间不能按照用户的需要进行有意义的信息交互。解决这一 问题的最佳途径是建立跨越w e b 的信息分布和集成应用程序逻辑一信息网格”“。 信息网格的概念 信息网格是在整个i n t e r n e t 范围内对各行业和社会大众提供各种一体化信息服 务的信息基础设施,它将分布在i n t e r n e t 上的计算机、数据、信息、知识( 软件) 等 组织成一个逻辑整体,各行业在此基础上运行各自的应用网格。在i n t e r n e t 和w e b 上,数据和信息资源零散地分布在各个网络站点,在信息网格中,资源被统一管理和 使用。用户可以通过网格门户( p o r t a l ) 透明地使用整个网络资源。他们看到的是一 个逻辑门户上的若干与自己相关的频道,而不同于在成千上万个网站中搜索自己想 要的信息。当然,并不说信息网格要完全抛弃现有的技术,它是要利用现有的网络 基础设旄、协议规范、w e b 和数据库技术,为用户提供一体化的智能信息平台,其目 标是创建一种架构在o s 和w e b 之上的基于i n t e r n e t 的新一代信息平台和软件基础设 施。在这个平台上,信息的处理是分布式、协作和智能化的,用户可以通过单一入 口访问所有信息。 2 3 信息提取 信息提取是从自然语言文本中提取出特定信息的过程,传统的信息提取系统利 何幸杰毕业论文 第1 0 页总共1 0 页 基于a g e n t 的桌面化信息聚合服务 用自然语言处理技术,使用基于语法或语义限制的提取模式,可以对自由文本进行 处理,但是自然语言处理还没有达到理想的效果。 w e b 文档是一种半结构化的文本。这种文本具有两个显著特点:( 1 ) 文本中含有 大量的标记和超链;( 2 ) 文本中很少出现完整的句子。由于有这两个特点,自然语 言处理技术不完全适用于w e b 信息提取。研究人员从w e b 文本特征、提取知识表达、 学习算法等方面做了大量的研究工作。 有关“信息提取( i e ) ”的研究起源于2 0 世纪9 0 年代初,主要是由t i p s t e r 的消息理解会议( m u c ) 发起的。i e 的前身是文本理解,在i e 出现之前,已经有大 量的关于自然语言处理的研究和系统。但这些系统通常只能处理一个很狭窄领域的 文本,而且很难移植到新的领域。t i p s t e rt e x tp r o g r a m 是一个美国国防部领导的 行动,它开始于1 9 9 1 年,其目的是提高文本处理的技术发展水平。t i p s t e r 研究共 分为3 个阶段,在第1 阶段,t i p s t e r 通过消息理解会议,在信息提取算法方面取 得了很大进展,在自动识别命名实体( 如人名、组织名等信息) 方面取得了巨大进 步。在第2 个阶段,t i p s t e r 主要研究软件体系结构,使得不同的t i p s t e r 成员之 间可以共享软件。第3 个阶段,t i p s t e r 增加了几个新的领域,如自动文本摘要等。 由于缺乏资金,这项研究计划于1 9 9 8 年正式结束。 随着w e b 的出现和繁荣,i e 研究人员逐濒将兴趣转移到w e b 信息提取的研究上, 涌现了许多算法和系统。其中最知名的研究项目是卡耐基一梅隆大学“自动学习和发 现中心( c e n t e rf o ra u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) ”的“w e b 挖掘( m i n i n g t h ew o r l dw i d ew e b ) ”项目。该项目的目标是通过自动的从w e b 中提取事实,来 创建大型的、结构化的有用事实的数据库。他们的技术途径是研究机器学习算法, 通过训练,能够自动提出信息。用户首先定义要被提取的类( 比如公司、产品、雇 员) 和关系( 比如“被雇佣”) ,并通过w e b 提供训练样本,系统然后使用这些训练 数据学习通用的信息提取步骤,然后按照这个步骤从其他w e b 页面中提取信息。他 们已经开发了许多学习算法,包括:( 1 ) f i r s t o r d e r 规则学习算法;( 2 ) 文法推 断算法( g r a m m a ri n f e r e n c e ) 。他们已经证明,这些方法能够提取关于大学教员、 学生、课程和研究项目的信息达到大约7 0 的精确度和3 0 的查全率。 最近几年,研究人员借鉴其他领域成功的模型或方法,推动了w e b 信息提取技 术的进展。隐马尔可夫模型、归纳逻辑编程( i l p ) 等在信息提取中得到初步应用,取 得了较大的成功“”“”“6 川”“2 叮“”“”“3 州“”1 2 6 1 0 何幸杰毕业论文第1 l 页总共页 基于a g e n t 的桌面化信息聚合服务 2 4 国内外研究进展综述 信息网格是要利用现有的网络基础设旖、协议规范、w e b 和数据库技术,为用户 提供一体化的智能信息平台,它的目标是创建一种架构在o s 和w e b 之上的基于 i n t e r n e t 的新一代信息平台和软件基础设施 目前信息网格正处在发展阶段,体系结构、信息表示和元信息、信息连通羊u 一 致性、安全技术等是目前信息网格研究的重点。 语义网是机器可理解的信息,是数据网或全球性的数据库。语义网不但要让人 能懂,还要让电脑能懂。语义网对于每个资源以及资源概念之间的关系有明确的定 义,这样计算机也能够理解网页的内容。一旦需要,计算机可以通过语义表达,快 速准确地在成千上万的网页中定位到所需要查询地内容。 最近几年越来越多的企业展开了对桌丽信息助手程序的研究和应用,经过几年的开 发和积累,已经出现了不少优秀的产品,比如g o o g l e 桌面搜索、r s s 新闻聚合等产 品。 g o o g l e 桌面搜索这种瘦客户端程序可以让用户搜索电脑上的电子邮件,微软 o f f i c e 文件,a o l 聊天记录以及网页浏览历史信息。当你浏览一个网页时,阅读一 封e - r e a l l 的时候,打开或编辑一个文件时,用a i m 聊天时,o o o g l e 桌面搜索会把 该行动编入索引并复制到自己的c a c h e 中,以便今后的查找。对于搜索速度来说, 它的速度非常快,比以往用过的所有版本的w i n d o w s 本地搜索都快好多倍,它还有 个好处,就是可以搜索到文件内部包含的关键字,所以也可以当作个简易的文档 搜索器来使用当你的电脑空闲对间超过3 0 秒时,它就立刻开始建立索引。它不会降 低你的电脑速度,因为它只在电脑空闲的时候工作“1 。 r s s ( 简易信息聚合) 是站点用来和其他站点之间共享内容的一种简易方式。通 常被用于新闻和其他按顺序排列的网站为了阅读r s s 文件。为了阅读r s s 文件,要 使用一个r s s 阅读器。r s s 阅读器会按定的时间安排,自动从网站下载r s s 文件, 并解析后,把内容呈现给读者,聚合是指r s s 阅读器能同时对很多r s s 站点操作。 使用r s s 技术,能自动帮助你聚合你感兴趣的信息。目前的r s s 阅读器有网络蚂蚁、 g r e a t n e w s 、新浪r s s 阅读器等。1 。 除此以外还有半搜索半聚合的产品,象国产的网络猪,是中国搜索强力推出的 桌面搜索软件,它不仅仅是一个软件,而是代表了新代的搜索文化快乐搜索。 网络猪主要功能列表如下;( 1 ) 搜索无处不在( 2 ) 我的新闻中心( 3 ) m p 3 点歌台( 4 ) 小秘书( 5 ) 即时通讯( 6 ) 天气预报。提供了天气预报这仑最简单的聚合服务。网络猪 的天气预报聚合演示如图2 ,2 所示: 何幸燕毕业渔文第t 2 页 基于a g e n t 的桌面化信息聚合服务 衙幸杰毕业论文 图2 2 网络猪的天气预报聚合 第1 3 页总共1 3 页 基于a g e n t 的桌面化信息聚合服务 3 聚合服务系统架构 桌面化信息聚合服务的主导思想是进行信息的聚合,把分散在互联网各个站点 上的信息( 包括静态页面以及需要用户交互操作以后才能获得的动态信息) 加以整 理,并且准确的显示给用户。 本系统致力于解决信息管理的问题,受到语义网和信息网格思想的很多启发。 本系统给用户提供一个基于桌面、访问互联网的窗口,让用户不再需要打开浏览器, 键入网址,而只要把需求告诉这个桌面助手,由它负责找到准确的内容,这样就可 以实现网络数据的过滤和重整,组合成机器能够懂的格式语言,实现更精确搜索的 目的,满足用户特定组合搜索的要求。系统的整体结构如图3 1 所示: 图3 1 系统的整体结构 系统是多层架构,客户端一管理a g e n t 一服务a g e n t 三层架构,最大限度的提 高了可扩展性。客户端发出服务请求,和管理a g e n t 联系,管理a g e n t 使用调度算 法,调用相关的服务a g e n t ,服务a g e n t 把提取的信息结果反馈给客户端,从而完 成一个交互操作的过程。为了防止通讯频繁的时候,单个服务a g e n t 负荷过重,导 致系统效率低下的问题,因此采用多个服务a g e n t 的模式。服务a g e n t 平时不工作, 一旦原服务a g e n t 负荷过高( 可以通过设置最大终端符合参数来控制) ,服务a g e n t 开始工作,分担原服务a g e n t 的工作。这种三层a g e n t 架构的优点是:( 1 ) a g e n t 效率较好,一旦开始通讯开通,开发也比较简单( 2 ) a g e n t 相互之间的耦合度比较 何幸杰毕业论文 总共1 4 页 基于a g e n t 的桌面化信息聚合服务 小,并且可以支持双向通讯( 3 ) 协议自己开发,维护和控制比较容易( 3 ) 可以增 加系统的稳定性( 4 ) 可以减少协作a g e n t 的负担,提高运行效率当然服务a g e n t 之间的协调比较冈难,开发难度比较大,如果开发的不好,反而会增加系统的脆弱 性,降低系统运行效率。这使得系统的调度层工作尤为重要。用户通过客户端访问 某类服务,客户端会根据不同的服务选择最有效的访问方式,发送请求信息给管理 a g e n t ,管理a g e n t 维护着服务a g e n t 的列表,一旦获取客户端的请求,首先会验证 该请求是否是合法请求,如果不是合法请求就拒绝提供服务。接着查找服务a g e n t 列表,确认是否有服务a g e n t 能满足客户端的请求,一旦有服务a g e n t 可用,就把 请求转发给对应的服务a g e n t 处理。服务a g e n t 是准备数据的场所,它会下载网页 内容,根据规则信息,半自动提取网页信息,封装成合适的x m l 格式反馈给管理 a g e n t 。如果管理a g e n t 不能在规定时间内得到反馈数据,就返回服务无法启用的错 误信息给客户端a g e n t 。如果有数据可用,管理a g e n t 会直接把数据返回给请求的 客户端,供用户浏览。这样就完成了一个调度周期。 下面我们通过购书的例子来更好的理解本系统的调度功能: 3 1 调度过程详解 比如客户端需要查询一本名为 c o m p u t e rn e t w o r k s ,f o u r t he d i t i o n 的图 书,客户端会向管理a g e n t 发送一条q u e r y 请求,o u e r y 请求例子如下: 何幸杰毕业论文第1 5 页总共1 5 页 基于a g e n t 的桌面化信息聚合服务 处理,则直接返回r e f u s e 请求,转发具体处理器代码如下 何幸杰毕业论文 第1 6 贞 总共】6 贞 基于a g e n t 的桌面化信息聚合服务 鬻麓糍o g d e b u 瓣g ( r e q u e 鬻s ts 攀t a t e m e n 毒t 甚+ 勰k q m l ) ;:黜竺k q m | l 何幸杰毕业论文 第1 7 页总共1 7 页 ,一 一一蛾一h一删一舭一一一唧 一 一一一一一一一一一一一一一一一一一一 一一一一一一一一一一一,一一一一一一一一 眦 姒洲 眦 州 眦 眦 洲 眦 眦 越 眦 引咖。 基于a g e n t 的桌面化信息聚合服务 鬻瓣鬻餮懋煞、辱、i 鬻1 川。”1 囊 = n w a d c a s t a c tio n ( a c t l o nb r o a d c a s t a c to n ) : ;瑟瑟 2f l c 研 j : 蕤:1s “ _ ( p e r f 。r m a t i v e - e q u a l s ( r e p l y ) ) 鞭 a c t i o n = n e wr e p l y a c t i o n ( ) ; 誉l 鬟 溺。i “p e r f 。m a t i v e 5 咿s ( s u b s c r i b e ) ) 蠢攀a c ti o n = n e ws u b s e r i b e a c ti o n ( ) : j 鬻簇f 、l s e 剿篡a e tionhe嚣pc=heckformatk q m l ,:l 蕤 () ) q u e r y a c t i o n 是真正的中转站,a c t i o n 获取r e q u e s t h e a d e r ,分析所需要处理的 命令,这里是w e a t h e r s e r v i c e ,a c t i o n 查找服务a g e n t ,如果有服务a g e n t 可用,那 么就直接转发给该服务a g e n t ,由他来获取最终的数据。q u e r y a c t i o n 处理 r e q u e s t h e a d e r 代码如下: 具体处理头 i l 疆; s gr e q u e s t h e a d e r = o p e r a t e g e t r e q u e s t h e a d e r0 : 誊黪 , | b i e c t 曲rg e t c o n c r ee s e r v i c e a d m i n a g e n t l n f o t a b l eg e t i n s t a n c e0g e t c o n c r e t e s e r v i c e ( r e q u e s t h e a d e r ) :骥( ) :蘩鞔 ; j to b j 1sa d m i n s e r v i c e c l a s s ) 冀嚣j i 辫簸 a d m i n s e r v i c e e l a s ss e r v i c e = ( a d m i n s e r v ic e c l a s s ) o b j 嚣鬻 算时间差纛。 d a 。t e 。t 。i m e 。p a r s e 。l s e r 三v 塞c 筮et i m 莲e m a 墨r k 。p 羔r o p 笠! :竺:鋈 ( j ) :臻曩 何幸杰毕业论文第1 8 页 总菇1 8 页 基于a g e n t 的桌面化信息聚合服务 可用 。 服务不可用错误 s tr l f f gc o n t e n t = a ( :l i ( ) n h 。l d b u i l d t w o c 。l u f i l l d a t 。a s e t ( a c t i o n h e l p r e s u l t m a r k o n e ,”服务不町用”) ; s i n gk q m l r e s u l t 。 a cl i o n l l e bb l l i ld f a i l u r e k q m l ( o p e r a t e ,r e q u e s t h e a d e r ,c o n t e n t ) : 、 i 、el lr nk q m r e s u t : j d e r a t e s e t r e c e i v e r( s e r v i c e a d d r e s s p r o p ) ; 7 转发到报到的a d m i n a g e n t 服务 、 t 。lu ? i io p e r a t e s a v e t o s t r i n g ( ) : je is e 不存在该服务时的返 旦】值 c t o n h e l pb u i i d ,l w 0 8 c 。o 川t u 1 m 8 n d 。a “t a s 。e “t ( 3 a c t i o n h e l p r e s u l t m a r k t w o ,一服务不存在”) : a c t j(。,服务小仔仕h s in gk q m l r e s u l t = a c t i o n h e l p b u i l d f a i l u r e k q m l ( o p e r a t e ,+ r e q u e s t h e a d e r ,c o n t e n t ) : lt ,1 ,uf i ik q m l r e s u l t : 管理a g e n t 会检查服务列表,如果有服务a g e n t 提供查询图书的服务,就转发给服 务a g e n t 来具体获取数据;否则直接返回无法处理的异常信息给客户端。服务a g e n t 执行完毕,发送一条r e p l a y 请求给管理a g e n t ,管理a g e n t 获取p e r f o r m a t i v e 头 调用相应的r e p l y a c t i o n ,这里r e p l y a c t i o n 什么都不做只是负责转发,这样服务 a g e n t 的数据就转发给客户端了,由客户端解析并呈现给用户。r e p l y 请求例子如下: r e p l y c o m p u t e rn e t w o r k s ,f o u r t hg d i t i o n a n d r e ws t a n e n b a u i p r e n t i c ef l a i lp t r 1 6 9 1 2 2 0 0 28 9 $ 8 8 通过管理a g e n t 的调度,请求从客户端到服务端,再从服务端反馈到客户端, 完成一次完整的调度过程,用户就可以得到最终的聚合数据或者错误反馈了a 经过系统一个访问周期的三层过滤和整合,用户可以按照自己的定制要求,从 何幸杰毕业论文 第1 9 页 总共1 9 页 基于a g e n t 的桌面化信息聚合服务 网络获取相关信息,把互联网上较分散的内容集中化,方便快捷。下面来着重介绍 一下三层结构的三个端点: 3 2 客户端 客户端给用户提供访问界面接口,客户端可以通过管理a g e n t 反馈的x m l 包、 w e b 服务、r s s 聚合得到所需要的数据包,整理并显示给用户。 客户端主要整体结构偏向于功能,按照服务功能来划分客户端区段。每个服务 比如:常用服务、天下新闻、天气预报、图书查询、交通查淘等,每个功能占据一 个区段,当用户使用某项服务功能的时候,客户端会提示用户输入分类查询的提示 语,比如查询天气预报,那么客户端会提示用户输入省份、城市、日期三个参数, 有个这三个参数以后,客户端就能够请求服务器,得到最近三天的天气预报情况, 然后显示在客户端的i e 浏览控件中,非常的方便快捷。 由于客户端是用户直接接触的端点,客户端的好坏直接影响到产品的客户群 大小。因此除了要有好的人机交互方式,也必须要有良好的响应和错误处理机制。 为此必须特别注意以下三点:( 1 ) 客户端必须有良好的多线程处理的功能,防止等待 响应时间过长导致的界面死机状态,给用户一个恶劣的印象。( 2 ) 为了防止疯狂登陆 导致服务器瘫痪的情况,客户端查询事件要有一定的时间间隔,防止短时间发送多 个乃至数量巨大的恶性事件到服务器,无端加重服务器的负担。( 3 ) 客户端做成可以 自动更新的形式,这样随着客户端的持续开发,用户能够快捷的享受到升级版本。 客户端的人机交互见面如下图3 2 所示: 何幸杰毕业论文第2 0 页 总共2 0 页 基于a g e n t 的桌面化信息聚合服务 图3 2 客户端界面 3 3 管理a g e n t 管理a g e n t 是系统的中介枢纽,管理a g e n t 负责主要负责客户端和服务a g e n t 的协作,是一个数据传输的中转枢纽。管理a g e n t 会监听接收端口,有消息过来就 获取并存入缓冲队列,同时a g e n t 会不间断通过k q m l 消息体推理机,处理缓冲队列 中的数据。接着解析k q m l 消息,根据处理请求分派给对应的服务a g e n t ,接收服务 a g e n t 的反馈信息,呈现给客户端。管理a g e n t - 有一个消息处理队列,接收请求放 入队列,一旦请求合理,就调用对应的服务,否则返回异常信息。管理a g e n t 流程 思路如图3 3 所示: 何幸杰毕业论文 第2 l 页 总共2 1 页 基于a g e n t 的桌面化信息聚合服务 第2 2 页总共2 2 页 | |唾鍪二_ | | | | | | | | 1 0 e r n a t ec o g u r a to nx m i n s = u r n1 b e r n a l cc o n fu r a to n2 0 n n r l】:n h 】gi( ) “ 。 ; - n h i b e r n a t e ,c o n n e c t i n n d r i v e r c o n n e c t i o n p r o v i d e r 一+ :、 n h i b e r n a t e d x i v e r s q l c i e n t d r i v e r i i s e r v e r = l o c a l h o s t :i n i t i a l c a t a l o g = c g i m n e t ;u s e ri d = s a :p a s s w o r d = s a f a ls e n 1 i b e r n a t e d i a l e c t m s s q l 2 0 0 0 d l l e c t t r u e m a p p i n ga s s e m b l y = l l e l p a g e n t j 管理a g e n t 在启动的时候,需要默认的优化好的初始化配置信息。初始化配置 信息如下: 何幸杰毕业论文第2 3 页总共2 3 页 基于a g e n t 的桌面化信息聚合服务 p e r f o r m a t i r e 的命令列表中,系统将直接返回拒绝执行命令。 p r o t o c o l 用于切换发送数据的方式,比如c h a t 命令可能需要使用t e p 协议,而 r e f u s e 等命令只要u d p 就可以,由p r o t o c o l 指定命令的通讯协议。 c o m m u n i c a t i o n 则包含t c p 和u d p 监听的端i x l ,可以防止程序端口被占用,而使 程序无法运行。 管理a g e n t 的界面如图3 4 所示: 何幸杰毕业论文 第2 4 页 总共2 4 页 基于a g e n t 的桌面化信息聚合服务 图3 4 管理a g e n t 界面 管理a g e n t 界面设置了开启服务功能和关闭服务功能,这里同时要关闭所有打 开的线程,同时也设置显示客户端连接数的功能,这样有帮于我们直观的了解登陆 人数,同时为以后协作a g e n t 负载平衡做准备。 3 4 服务a g e n t 服务a g e n t 负责部署具体服务,为客户端请求做数据准备,按照客户端请求, 对数据进行定制。服务a g e n t 采用订阅机制,每当增加一个新的服务a g e n t 服务, 会自动向管理a g e n t 注册。这样如果客户端发送的请求命令存在于管理a g e n t 的信 息列表中,就可以享受这个服务a g e n t 提供的服务了,这种自动添加服务a g e n t 的 方式非常方便

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论