(计算机软件与理论专业论文)基于agent的智能信息检索体系结构的研究.pdf_第1页
(计算机软件与理论专业论文)基于agent的智能信息检索体系结构的研究.pdf_第2页
(计算机软件与理论专业论文)基于agent的智能信息检索体系结构的研究.pdf_第3页
(计算机软件与理论专业论文)基于agent的智能信息检索体系结构的研究.pdf_第4页
(计算机软件与理论专业论文)基于agent的智能信息检索体系结构的研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机软件与理论专业论文)基于agent的智能信息检索体系结构的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

! 坐苎兰壁主兰竺堕墨 :。 基于a - g e n t 的智能信息检索体系结构的研究 计算机软件与理论专业 研究生黄衡指导教师杜中军 随着i n t e r n e t 的发展,人们可以通过网络获得大量的信息资源,然而网上 的信息浩如烟海。而且增长和更新的速度越来越快,从海量信息中找到所需的 内容是一项极富挑战性的工作。而现有的信息检索技术却存在很大的局限性, 它仅提供了基于关键字的检索,而忽略了关键字本身所含的语义内容,无法满 足用户极具个性化的查询需求。针对以上阀题,本文提出了一个基予a g e n t 的 智能信息查询系统一w i i r s ( w e bi n t e l l i g e n c ei n f o r m a t i o nr e t r i e v a ls y s t e m ) ,给 出了对w e b 页面进行智能个性化检索的系统结构和实现原理。 a g e n t 技术是一种全新的分布式计算技术,a g e n t 是分布式环境下持续自主 运行的计算实体,具有主动性、交互性、反应性、自治性等特点。a g e n t 技术 一方面提供了一种全新的系统设计思想,提高了系统内实体的能力,使之比以 前具有更强的能力;另一方面,a g e n t 技术为解决分布式问题提供了有效的途 径,为系统中实体的协作提供了合理的概念模型。基于a g e n t 的信息检索技术 是解决当前信息搜索所面临挑战的最有效的方法。本文对a g e n t 技术与k q m l 作了简要介绍,重点讨论了在多a g e n t 系统中,a g e n t 之闯通信和协作机制等。 为使a g e n t 与其它a g e n t 等实体之间能够灵活地通信,本文提出了将x m l 集成 到a g e n t 的通信语言中以增强通信的语义信息和灵活性,并可在多种平台使用。 本文提出的w i i r s 系统采用了一种基于a g e n t 的集成搜索引擎的结构,以 a g e n t 作为架构系统的基本组件,利用a g e n t 的自治性和协作性来完成用户的 个性化信息搜索,在系统设计中,通过采用a g e n t 技术确定用户检索的个性化 模式使用k - m o d e s 算法聚类学习用户反馈信息,产生新的个性化模式从而 可以精确地满足用户的个性化检索需求,降低了检索结果的重复率,在一定程 度上提高了检索的精度和效率。为提高系统的性能和易用性,还给出了基于用 户偏好的成员搜索引擎的调度策略,在成员搜索引擎系统结构中,不仅利用本 1 四川大学硕士学位论文 体论中概念规范、语义丰富的特点,将用户的检索要求扩充成语义集,并且将 检索到的文档通过文档分析器进一步过滤,最终得到与用户检索要求内容匹配 度较高的文档,而且提供了一个并行处理的环境来显著提高搜索效率。本文最 后分析了研究该系统的意义及课题尚待解决的问题。 关键词:信息检索:搜索引擎;w i i r s ;a g e n t ;智能个性化检索;本体论 并行处理环境 i t 日) l l 大学硕士擘位论文 s t u d y o f a g e n t - b a s e di n t e l l i g e n c ei n f o r m a t i o n r e t r i e v a l a r c h i t e c t u r e m a j o r :c o m p m e r s o f t w a r e p o s t g r a d u a t e :h u a n g h e n g d i r e c t e db yp r o f :z h o n g j u nd u w i t ht h ed e v e l o p m e n to fi n t e r a c t ,p e o p l eu s eal a r g en u m b e ro fi n f o r m a t i o n r e s o u r c e s t h r o u g hi n t e r n e t h o w e v e r w i t ht h er a p i d l yi n c r e a s i n g i n f o r m a t i o ni n i n t e m e t ,i ti sac h a l l e n g et os e l e c ts u i t a b l ei n f o r m a t i o nr e f o r m a t i o nf r o ms om a n y i n f o r m a t i o nr e s o u r c e s t h ec u r r e n ti n f o r m a t i o nr e t r i e v a l t e c h n o l o g y sj u s t o f f e r k e y w o r d s - b a s e ds e a r c h i n g ,b u ti g n o mt h es e m a n t i cc o n t e n to f t h ek e y w o r d si t s e l f t h e ys t i l lh a v em a n y l i m i t sa n dt h e i rc a p a b i l i t i e sn e e dt ob ee n h a n c e d t h i sp a p e r p r o p o s e saw e bi n t e l l i g e n c ei n f o r m a t i o nr e t r i e v a ls y s t e mo nt h eb a s i so fa g e n t w i i r sa n dd e s c r i b e st h er e a l i z i n gm e t h o da n da r c h i t e c t u r eo f lw i i r s a g e n tt e c h n o l o g yi s an e wd i s t r i b u t e d c o m p u t i n gt e c h n o l o g y , a g e n ti s a c o m p u t i n gu n i t w h i c hc a nr u n p e r s i s t e n t l ya n da u t o n o m o u s l yu n d e rd i s t r i b u t e d e n v i r o n m e n t s ,i th a ss e v e r a lf e a t u r e ss u c ha si n i t i a t i v e ,i n t e r o p e r a b i l i t y , r e a c t i v e n e s s a n da u t o n o m y a g e n tt e c h n o l o g yp r o v i d e sa l le f f e c t i v ea p p r o a c ht os o l v en e w l y e m e r g i n gd i s t r i b u t e da p p l i c a t i o np r o b l e m s ,a n di nt h em e a nw h i l e ,i tp r o v i d e sa r e a s o n a b l ec o n c e p t u a lm o d e lt o s t u d yf e a t u m s o fd i s t r i b u t e d c o m p u t i n gs y s t e m c o m p r e h e n s i v e l ya n da c c u r a t e l y t h e r e f o r e ,a g e n tt e c h n o l o g yi st h em o s te f f e c t i v e s o l u t i o nt ot h ei n f o r m a t i o nr e t r i e v a l f o rc o o p e r a t i o nb e t w e e na g e n t st o s u c c e e d , e f f e c t i v ec o m m u n i c a t i o ni s r e q u i r e d k q m li s o n eo fc o m m o nc o m m u n i c a t i o n l a n g u a g e sa m o n ga g e n t s i n t h i s p a p e r , w e i n t r o d u c e a g e n t c o m m u n i c a t i o n m e c h a n i s m s b yp l u g g i n gx m li n t ok q m l ,am o r ef l e x i b l ea n di n t e g r a t e d r e p r e s e n t a t i o no fc o m m u n i c a t i o nc o n t e n ti si m p l e m e n t e d ,w h i c hc a ns u p p o r tt h e c o m m u n i c a t i o no fk q m l - b a s e do fa g e n t s t h i sm e t h o dh a sh i g h e rf l e x i b i l i t ya n d 3 四川大学硕士学位论文 m o r ee x t e n s i v ea p p l i c a t i o nv a l u e t h i s p a p e rp r o p o s e s a a g e n t b a s e d m e t a s e a r c h e n g i n es y s t e m i nw h i c h m u l t i p l ea g e n t sc o o r d i n a t et o a r a i ni n f o r m a t i o nw i t hi n t e l l i g e n c e i nt h es y s t e m , k - m o d e sc l u s t e r i n ga l g o r i t h mi su s e dt o p r o d u c eu s e r sp e r s o n a l i z e di n f o r m a t i o n p a t t e r na n dt h ep e r s o n a lp a t t e mc a nb ea d j u s t e db yu s e ra g e n ta u t o m a t i c a l l y t h i s s y s t e ma d o p t sm e t a s e a r c h o fs t r u c t u r eo fs e a r c h e n g i n e ,r e g a r d sa g e n t a st h e s y s t e m a t i c b a s i c m o d u l e ,u t i l i z e s a u t o n o m y a n di n t e r a c t i o no f a g e n t f i n i s h i n d i v i d u a l i z e di n t e r n e ts e a r c ho fm e s s a g eo fu s e r i n s y s t e md e s i g n ,w ep r e s e n t d i s p a t c h e rt a c t i c so f m e m b e rs e a r c he n g i n et h a tu s e rf o n do f t h e s em e m b e rs e a r c h e n g i n e so nt h eb a s i so fm o b i l ea g e n t ,w h i c hp r o v i d ea ne n v i r o n m e n tf o rp a r a l l e l p r o c e s s i n g ,t a k ef u l la d v a n t a g eo fo n t o l o g yw h i c he x p a n d st h er e q u i r e m e n to f u s e r s t ot h es e m a n t i cw o r d ss e ta n d p r o v i d et h ed o c u m e n ta n a l y z e rt h a tc a r lf i l t e rt h ew e b p a g e r sr e t u r n e db yt h e s e a r c hm o b i l ea g e n ta c c o r d i n gt ot h ec e r t a i na l g o r i t h m c o n s e q u e n t l yw i i r sp r e s e n t st h em o s t r e l e v a n td o c u m e n t st ot h eu s e ei to v e r c o m e s c o n f i n e m e n t so ft r a d i t i o n a li n f o r r n m i o n i n q u i r i n gs y s t e m a n dc a r l i m p r o v e i n f o r m a t i o nr e t r i e v a lp e r f o r m a n c es i g n i f i c a n t l y f i n a l l y , t h i sp a p e ra n a l y z e st h es i g n i f i c a n c eo fr e s e a r c ho nt h i ss y s t e m ,a n d d i s c u s s e st h eu n s o l v e d p r o b l e m sa b o u t t h i ss u b j e c t k e yw o r d s :s e a r c he n g i n e ;w i i r s ;a g e n t ;i n f o r m a t i o nr e t r i e v a l ;p e r s o n a l i z e d i n t e l l i g e n ts e a r c h i n g ;o n t o l o g y ;p a r a l l e lp r o c e s s i n ge n v i r o n m e n t 4 四川大擘硕士学位论文 糍前言 随着i n t e m e t 以及相关技术的发展与成熟,人们已经进入信息量极大丰富 的时代,i n t e m e t 已经成为当今和未来人们获取所需资源和信息交流的主要场 所。据权威机构统计,现在网上有数十亿的可公开索引的网页,而且处于时时 变化之中。用户要在如此浩瀚的信息海洋里寻找信息,就象大海捞针一样,搜 索引擎技术恰好解决了这一难题( 它可以为用户提供信息检索服务) 。搜索引擎 正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联 网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检 索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网 上非常重要的网络服务。因此在i n t e m e t 上出现了许多方便和帮助用户查找所 需信息的搜索引擎,例如y a h o o 、s o h u 、a l t a v i s t a 、e x c i t e 等。然而在信息量浩 如烟海的互联网上找到满足用户需要的信息,是一项极富挑战性的工作。随着 全球网络化、信息化的发展,网络上的信息越来越多,如果缺乏有效的信息检 索手段,最终必将影响网络的应用。 在我国,随着中文环境下的网络用户数目的爆炸性增长,网络中文信息也 越来越丰富,因此中文信息处理将具有更加广阔的市场,也必将促使中文信息 处理方面的智能中文搜索引擎、网上实时机器翻译等技术取得重大突破。但是, 由于中文信息处理的特殊限制,智能技术在中文搜索引擎的应用还有待加强。 1 搜索引擎技术的发展现状 1 1 搜索引擎技术 目前,网络信息检索技术最主要的是搜索引擎技术,按照信息搜集方法和 服务提供方式的不同,搜索引擎系统可以分为三大类:分别是全文搜索引擎 ( f u l lt e x ts e a r c he n g i n e ) 、目录索引类搜索引擎( s e a r c hi n d e x d i r e c t o r y ) 和 元搜索引擎( m e t as e a r c he n g i n e ) 。 1 全文搜索引擎 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有g o o g l e 、 f a s t a l m 屺w 如、a l t a v i s t a 、k t l a o m i 、t e o m a 、w i s e n u t 等,国内著名的有百度 四川大学硕士学位论文 ( b a i d u ) 。它们都是通过从互联网上提取的各个网站的信息( 以网页文字为主) 而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列 顺序将结果返回给用户,因此他们是真正的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己 的检索程序( i n d e x e r ) ,俗称“蜘蛛”( s p i d e r ) 程序或“机器人”( r o b o t ) 程 序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的 7 家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果, 如l y c o s 引擎。 2目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅 仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词 ( k e y w o r d s ) 查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表 性的莫过于大名鼎鼎的y a h o o 雅虎。其他著名的还有o p e nd i r e c t o r yp m i e c t ( d m o z ) 、l o o k s m a r t 、a b o u t 等。国内的搜狐、新浪、网易搜索也都属于这 一类。 3 元搜索引擎( m e t a s e a r c he n g i n e l 元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,这 类搜索引擎没有自己独立的数据库和索引机制,而是将用户的查询请求同时向 多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自 己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的代表 是w e b c r a w l e r 、i n f o m a r k e t 等。在搜索结果排列方面,有的直接按来源引擎排 列搜索结果,如d o g p i l e ,有的则按自定的规则将结果重新排列组合,如 v i v i s i m o 。 除上述三大类引擎外,还有以下几种非主流形式: 1 集合式搜索引擎:如h o t b o t 在2 0 0 2 年底推出的引擎。该引擎类似m e t a 搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的 4 个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。 2 门户搜索引擎:如a o ls e a r c h 、m s ns e a r c h 等虽然提供搜索服务,但 自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。 3 免费链接列表( f r e ef o ra l ll i n k s ,简称f f a ) :这类网站一般只简单地 2 四川大学硕士学位论文 滚列链接条目,少部分有简单的分类目录,不过规模比起y a h o o 等目录索引来 要小得多。 1 2 目前搜索引擎主要使用的信息检索技术 目前网络上的搜索引擎一般使用两种技术来实现信息检索:一是使用网站分 类技术,即把网站进行树状的归类,登录的网站属于至少一个类别,对每个站 点都有简略的描述。雅虎即是如此。为了分类科学准确,需要有一支由各科人 才组成的维护队伍。二是使用全文检索技术。全文检索技术处理的对象是文本, 它能够对大量文档( 这里是大量网页数据) 建立由字( 词) 到文档的倒排索引, 在此基础上,用户使用关键词来对文档( 网页) 进行查询时,系统将给用户返 回含该关键词的网页。 一般来说,由于使用了人( 专家) 来对网站进行归纳和分类,网站分类技 术为网络信息导航带来了极大的方便,受到人们的欢迎。但是它的缺陷除了成 本较高之外,对网站的描述也十分简略,其描述能力不能深入网站的内部细节, 因此用户不能查询网站内部的重要信息,造成了信息丢失。举例说明,“武器库” ( h t t p :w w w b u s i n e s s i s c o m w c a p o n o 是一个军事爱好者的个人主页,某搜索引擎 对它的分类是“政府与政治 军事 武器与军备”,对它的描述是“各种武 器、火炮、坦克、导弹及军用飞机介绍”,用户用关键词“武器”、“火炮”、“坦 克”、“军用飞机”都能够检索到该站点。然而,该站点介绍了多种反坦克导弹, 如果用“反坦克导弹”作为关键词来查询,在网站分类中就找不到这个站点了, 因为对它的简略描述中没有“反坦克导弹”这个词串。 全文检索是一个很成熟的技术,它能够解决对网页细节的检索问题。从理 论上说,只要网页上出现了某个关键词,就能够使用全文检索用关键词匹配把 该网页查出来,但是这又导致了它的缺陷返回的信息太多。例如,在某搜 索引擎中查询“建设”这个词,“相关网页”返回1 4 7 9 5 0 个网页,假定一个人 3 秒钟查看一个查中的网页,一刻不停地看下去也需要1 2 个小时。这就是所谓 的“文海捞针”。更严重的是,除了综合性的搜索引擎站点有这个现象之外,现 在较大的站点对自身站内信息的检索也会返回大量的网页。传统的文本信息检 索一般使用查全率( r e c a l l ) 与查准率( p r e c i s i o n ) 来对检索效果进行量化评价,但是 在海量的互联网信息检索上用查全率与查准率来衡量检索效果是否合适? 在一 四川大学硕士学位论文 些场合,高的查全率带来的成千上万个命中网页对用户实在是一个沉重的负担, 在网页爆炸性增长的今天,没有一个用户有时间和精力来一一浏览搜索引擎查 到的每一个网页。 “返回网页太多”只是全文检索给人直观感觉到的问题,除此之外,它还 有两个不很直观的深层次的问题,也给信息检索带来了不少困难。这两个问题 都与词汇紧密相关:一个是“忠实表达”问题。很多情况下,用户很难简单地 用关键词或关键词串来忠实地表达他所真正需要检索的内容,表达困难导致检 索困难。另一个是“表达差异”问题。人类的自然语言中,随着时间、地域或 领域的改变,同一概念可以用不同的语言表现形式来表达。因此,对同一概念 的检索。不同的用户可能使用不同的关键词来查询,例如:“计算机”和“电脑”, “航天飞机”与“太空梭”。在中文雅虎上使用“航天飞机”是查不到含“太空 梭”的网页的,虽然它们指的是同一种东西。 目前,由于各类电子商务站点的商品信息都是采用传统关系数据库形式进 行组织和存储的,因此所使用的搜索引擎也都是基于关系数据库的检索引擎。 这种检索的基本原理是将用户所给出的检索关键字符作为检索入口,在关系数 据库中进行机械式或者模糊式的匹配,然后将匹配的结果信息返回给用户。 这种传统关系数据库系统非常擅长于结构化数据的处理,而且经过长期的 发展,其功能已经相当完善。但其对于非结构化数据的处理能力则很弱,它无 法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的 个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性 知识等等。 造成上述种种信息检索困难的原因是什么? 透过现象看本质,困难的实质 在于目前的搜索引擎缺乏知识处理能力和理解能力,对要检索的信息仅仅采用 机械的关键词匹配来实现。把信息检索从目前基于关键词层面提高到基于知识 ( 或概念) 层面,是解决问题的根本和关键。 2 现有传统搜索引擎的局限 首先,i n t e m e t 上的信息资源是动态变化的,表现为信息量指数级增长,信 息内容不断更新,一个单一的搜索引擎平均只能覆盖到整个i n t e m e t 资源的 3 0 5 0 0 , 。可以看出现有传统的搜索引擎的信息覆盖率不高,用户往往为了寻 4 四川大学硕士学位论丈 找目的数据和资源,而不断地在多个搜索引擎间切换,这常常令用户事倍功半。 其次,现有传统搜索引擎对提供的检索信息没有进行综合处理,冗余和噪 声含量大,用户只能亲自从大量的反馈信息中提取自己的所需信息。 再者,现有的传统搜索引擎各自使用不同的索引技术、信息收集技术和关 键字查询语法技术,使得它们各自搜索的信息资源在很大程度上有相当大的差 异,同时给用户检索查询带来很大的不便。 最后,现有传统搜索引擎基本上都采用“一个搜索适用于所有用户”的搜 索模型( 不同的用户提交相同的关键字查询请求时,搜索引擎返回相同的搜索 结果) ,然而搜索本身是一项个性化的活动,不同的用户对所需要的信息要求不 同,传统的搜索引擎无法满足用户的个性化需求。 3 问题的分析及相应的解决方法 上述问题的产生主要是由于传统搜索引擎本身发展的局限性而带来的,它 的局限性限制了资源的更有效的获取。针对以上问题,可以知道要从i n t e m e t 上获取有价值的个性化的信息,就必须有一套高效的解决方案。 令人高兴的是,a g e n t 技术的出现为这些问题的解决提供了一种新的有效 的解决方法。a g e n t 技术来源于分布式人工智能( d a d 领域,但随着a g e n t 技术的发展,其应用已不仅仅局限在人工智能领域,它在计算机软件的各个方 面都发挥着越来越重要的作用,尤其是在基于网络的分布计算领域。一方面 a g e n t 技术为解决新的分布式应用问题提供了有效的途径,另一方面,a g e n t 技术为全面准确地研究分布计算系统的特点提供了合理的概念模型。 a g e n t 技术提供了一种新的分布计算和问题求解的思路。a g e n t 具有自主 性、交互性、主动性和反应性,它不仅能作用于自身,而且可以施动作于环境, 并能接收环境的反馈信息,重新评估自己的行为;同时,它能与其它a g e n t 协 同工作。a g e n t 系统放松了对集中式、非开放性、顺序控制的限制,提供了分 布控制、动态应急处理和并行处理;同时,a g e n t 系统可以降低软件或硬件的 费用,提供更快速的问题求解方法。 提到a g e n t ,就需要提一下b d i 理论。b d i 最初是作为一种分布式智能的 计算机模型被提出来得。b r a d s h a w 用意识立场,把a g e n t 作为智能主体,通过 信念( b e l i e f ) 、愿望( d e s i r e ) 、意图c t n t e m i o n ) 属性来预测a g e n t 行为,即b d i 理 5 四川大学硕士学位论文 论。 把主体看作意识系统的好处是:对于设计者和分析者来说,这样是自然的; 对于描述复杂系统的行为提供了简洁的表示,有利于理解和解释;不依赖于具 体物理实现就可以得到许多主体的规则和模式。 因此,论文提出了一个基于a g e n t 的集成搜索引擎( 元搜索引擎) 的模型。 所谓集成搜索引擎是将现有的多个搜索引擎看成一个整体,为用户提供一个统 一的查询界面,用户的查询请求由集成搜索引擎根据知识库中的信息转换为多 个成员搜索引擎所能识别的格式,然后按照成员搜索引擎调度算法,把规范的 查询分送到成员搜索引擎,由这些搜索引擎完成实际的信息检索操作,最后集 成搜索引擎再以一定的格式把信息返回给用户。对于集成搜索引擎来说,不象 传统的搜索引擎那样有独立数据库,有局部数据模式和自己的检索指令。集成 搜索引擎没有自己独立的数据库和索引机制,而是在其它搜索引擎的大型数据 库上实现其检索;它提供给用户一个全局外部模式,接受用户的输入请求;在 存储设备上比传统的搜索引擎要小得多。况且,集成搜索引擎可支持多个成员 搜索引擎的检索语法,方便了用户的使用,同时,信息的查全率和查准率都将 大大提高。再者,由于该模型基于a g e n t 技术,可以利用a g e n t 的自治性和a g e n t 之间的协作来完成集成搜索引擎上用户的兴趣学习、信息搜索、结果处理等工 作。因此,面对现有传统搜索引擎的不足,解决的方案就是采用基于a g e n t 技 术的集成搜索引擎技术。 本文基于a g e n t 的b d i 模型,设计了一个w e b 智能信息检索系统 w i i r s 系统。在w i i r s 系统中,通过采用集成搜索引擎的结构,以a g e n t 作为 架构系统的基本组件,利用a g e n t 的自治性和协作往来产生用户的个性化的信 息检索请求并分送到成员信息搜索引擎,由这些搜索引擎完成实际的信息检索 操作,最后集成搜索引擎再以一定的格式把结果返回给用户。其中成员信息搜 索引擎系统采用基于本体论和移动a g e n t 的并行处理模型以进一步提高检索性 能和搜索效率。 4 本文研究内容及论文组织 本文研究的重点是探讨一种基于a g e n t 技术构造智能信息检索系统的方 法。设计了一种基于a g e n t 技术的智能检索体系结构,弥补现有信息检索技术 6 四川大学硕士学位论文 的不足,为快速高效地获取面向用户的网络信息提供一种有效方法,以满足不 同用户的极具个性化的查询需求。 本文由六个部分组成,第二章在简要介绍了分布式计算技术的发展以及各 阶段的特点之后,详细地介绍了a g e n t 技术,阐述了a g e n t 技术在基于网络的 分布计算这一当今计算机主流技术领域中的革命性作用;第三章介绍了a g e n t 的通信语言的特征和k q m l 消息传递机制,a g e n t 间消息通信以及将x m l 集成到 k q m l 中,并讨论了两者结合的优势;第四章,介绍了w i i r s 系统的体系结构, 包括系统中各a g e n t 的内部结构及相关技术和算法等等;第五章,介绍了利用 本体论实现的成员搜索引擎系统结构,包括搜索引擎系统中的移动a g e n t 信息 检索服务器组件和搜索区域组件等等,并描述了系统的工作流程;第六章,对 本文进行了总结,并给出需要进一步研究的问题。 四川大学硕士学位论文 1 分布式计算技术 随着网络技术的发展,分布计算( d i s t r i b u t e dc o m p u t i n g ) 成为影响当今计 算机技术发展的关键技术力量。所谓分布式计算,是指借助计算机网络将分布 在不同地点的计算实体( 进程、对象或构件等) 组织在一起,进行信息处理的 一种方式。分布式计算的理想目标就是要实现分散对等的协同计算 ( d e c e n t r a l i z e dp e e r t o - p e e rc o l l a b o r a t i v ec o m p u t i n g ) ,这也是网络技术 发展的最理想目标。 1 1 早期分布计算技术 o s f d c e 和s i y n o n c + 是代表9 0 年代初分布计算技术发展水平的主流产 品。其技术特点是: 主要针对信息共享问题 采用常规的客户服务器计算模型 应用程序设计界面( a p i ) 沿用传统的计算概念和设施( 如过程调用概 念和文件设施等) 提供丰富的分布系统管理、服务和应用。 1 2 分布式对象技术 进入9 0 年代,分布对象技术成为分布计算发展的主流方向。 分布式对象技术是在分布式环境下跨平台、跨语言的基于对象的分布式计 算技术,它使得对象用户在使用对象时可以访问网络上任意有用的对象不必知 道该对象所处的位置。应该说分布式对象技术最关键的有三个部分一对象界 面、对象实现和对象请求代理。对象界面用一种通用的界面定义语言描述了对 象所要完成的功能以及对象的属性,对象实现则采用某种方法某种语言实现对 象界恧所定义的对象,同一个对象界面可以有不同的对象实现方法。对象请求 8 四川大学硕士学位论文 代理则在对象请求和对象实现之间架起了一座桥梁。用户对对象的请求是用对 象界面的方式来描述的,然后再向对象请求代理提出对象请求,对象请求代理 根据用户的对象请求从对象实现中选取一个合适的对象实现供用户使用。对于 用户来说,它根本不知道对象实现到底是在网络的哪个位置上,也不知道调用 的是哪个对象实现。 对象是一个封闭的由代码和数据组成的集合体,它只能对自己的私有数据 做严格规定。不同对象可以对相同的指令自行做出相应的操作,使整个程序更 易于控制。例如,当收到系统关闭的指令时,所有的对象都会对自己的数据做 适当的处理。在分布式系统中,通过组合对象的方法可以大大提高系统的安全 性和稳定性。 分布式对象技术的特点是: 主要针对异构环境下的互操作问题( 包括数据和功能两个方面) 将客户服务器模型与面向对象技术结合在一起 提供面向对象的a p i 已经成为建立集成框架和软件构件标准的核心技术 当今,基于对象的分布式计算的最具代表性的技术是对象管理集团( t h e o b j e c tm a n a g e m e n tg r o u p ) 的通用对象请求代理体系结构c o r b a ( c o m m o n o b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e ) 和微软的分布式对象构件模型d c o m ( d i s t r i b u t e dc o m p o n e n t o b j e c tm o d e l ) 。c o r b a 是一个由多家公司及组织联合 推出的一个分布式对象请求代理规范,目前市场上有很多不同的实现;而 d c o m 则是微软公司的独家产品。 1 3 基于a g e n t 的分布式计算技术 常规的分布计算技术都是基于经典的客户服务器模型,将分布式应用中的 自主行为实体简单地划分为“客户”和“服务器”两类,并且客户与服务器之 间的交互关系也仅限于客户主动请求朋匣务器被动响应的非对等关系。因此,基 于这种分布计算技术的分布式应用往往存在着局限性: 信息服务:经典的客户服务器计算技术不支持主动服务机制,使得一方面 信息提供者不能适时地将信息主动提供给最需要的用户;另一方面信息使用者 不知道哪里能够找到急需的信息。 9 四川大学硕士学位论文 协同工作:经典的客户服务器计算技术不支持服务器对客户的的直接控 制,也不支持客户应用之间的直接群体感知,因而难以展开客户应用之间高层 次的协同工作。 分布式交互:在分布式交互系统中,系统中的实体不能简单地只用“客户” 和“服务器”两类角色来刻画,经典的客户服务器计算技术难以支持这种应用。 当前,与分布计算主流相联系的一个研究热点是,在分布式对象技术的基 础上,将人工智能等领域中有关多a g e n t 系统的技术引入分布式计算环境,以 适应计算机支持的协同工作等应用需求,其技术特点是: 主要针对如何支持协同工作的问题 将自主的a g e n t 模型与分布对象技术结合在一起 提供面向a g e n t 的人格化的a p i 引入a g e n t 技术后,对基于传统的c l i e n t s e r v e r 结构的分布式系统将产生 极大的冲击,分布式系统朝着分散对等的协同计算的理想模式发展成为可能。 2a g e n t 技术 2 1a g e n t 的基本概念 2 1 1 什么是智能a g e n t 广义的智能a g e n t 包括人类、物理世界中的移动机器人和信息世界中的软 件机器人。 狭义的智能a g e n t 则专指信息世界中的软件机器人。它是代表用户或其他 程序,以主动服务的方式完成一组操作的表现出一定机动性的智能主体。所谓 “主动服务”是指:( 1 ) 主动适应,即在完成操作的过程中,它可以获得、表示 并在以后的操作中利用关于操作对象的知识以及关于用户意图和偏好的知识; ( 2 ) 主动代理,即对一些任务无须用户发出具体指令,只要当前状态符合某种条 件,就可代表用户或其他程序完成相应的操作。所谓“机动性”是指在所处的 计算环境中灵活的访问和迁移机制,以及同其他智能a g e n t 通信和协作的机制。 本文中讨论的智能a g e n t 专指狭义的智能a g e n t 。 1 0 四川大学硕士学位论文 2 1 2 智能a g e n t 的一些特性 ( 1 ) 代理性( a g e n t ) 代理性体现在:1 它是“代表用户”工作的,不同的应用有一个统一规范的 接口使得用户便于使用和扩充;2 它可以把其他资源包装起来,引导并代替用 户对这些资源进行访问,成为便于访问这些资源的枢纽和中介。 ( 2 ) 智能性( i n t e l l i g e n c e ) 在这方面,智能a g e n t 可以做很多有高技术含量的工作。例如,人们希望 a g e n t 能做到理解用户用自然语言表达的对信息资源和计算资源的需求;帮助 用户在一定程度上克服信息内容的语言障碍;捕捉用户的偏好和兴趣、推测用 户的意图并为其代劳( 个性化信息服务和主动服务) 等等。 ( 3 ) 反应性( r e s p o n s i v e n e s s ) a g e n t 能够感知所处的环境( 可能是物理世界,操纵图形界面的用户,或其 他a g e n t 等) ,并对相关事件作出适时反应。例如,一个模拟飞机的a g e n t 能 够对用户的操纵作出适时反应。 ( 4 ) 主动性( i n i t i a t i v e ) a g e n t 能够遵循承诺采取主动行动,表现出面向目标的行为。例如,一个 i n t e r a c t 上的主动服务a g e n t ,在获得新的信息之后能够按照约定主动将其提交 给需要的用户;一个工作流管理a g e n t ,能够按照约定将最新的工作进展情况主 动通报给有关的工作站。 ( 5 ) 自主性( a u t o n o m y ) 一个智能a g e n t 应该是一个独立自主的计算实体。它应能在无法事先建模 的、动态变化的信息环境中,根据其内部状态和感知到的环境信息,决定和控 制自身的行为,独立规划复杂的操作步骤,解决实际问题,在用户不参与的情 况下,独立发现和索取符合用户需求的可利用资源与服务。最近j m c c a r t h y 等 人正在探讨如何构造能对自身状态有所感知的智能a g e n t 。又例如,s n m p ( 简 单网络管理协议) 中的a g e n t 就是独立运行在被管理单元上的自主进程。 ( 6 ) 交互性( i n t e r a c t i o n ) a g e n t 能够与其他a g e n t ( 包括人) ,用a g e n t 通信语言实施灵活多样的交互, 能够有效地与其他a g e n t 协同工作。例如,一个i n t e r n e t 上的用户需要使用a g e n t 通信语言向主动服务a g e n t 陈述信息需求。 i l 四川大学硕士学位论文 ( 7 ) 机动性( m o b i l i t y ) 指移动a g e n t 在网络计算环境下,一个a g e n t 可以看成是代表用户驻网络的常设机构, 它可以在网络上灵活机动地访问各种资源和服务,还可以就完成特定任务同其 他智能a g e n t 进行协商和合作,甚至把自己”迁移”到网络中的其他主机上去执 行任务。这样的“精灵”在网络上游弋,是对网络安全性、个人隐私性和管理 方面的巨大挑战。 2 2 面向a g e n t 的程序设计方法语言 面向a g e n t 的程序设计方法,完全有可能成为继面向对象之后的另一个软 件设计规范方法。这方面最引人注目的a g e n t 语言是s h o h a m 提出的a o p 。a o p 是一种特殊的面向对象的程序设计方法。o o p 方法把一个计算系统看成由模块 组成,这些模块相互之间能够传递消息,并且具有不同的方法处理输入的消息。 a o p 方法扩充了这种方法,它允许模块拥有有关其它模块和环境的知识和信 念,且允许这些模块具有能力和作出承诺。一个计算由这些主体之间相互告知、 请求、谈判、帮助等组成。 对a o p 的需求开始于8 0 年代中期,目前已出现了a g e n t 语言的原型系统。 这表明a g e n t 技术正在被广泛使用,并且在不久的将来,将出现许多基于a g e n t 的应用系统和过程。 a g e n t - 0 是根据s h o h a m 提出的“基于计算的社会观点的一种新的程序设 计范式”,而实现的一个面向a g e n t 的程序设计语言。其主要思想是根据a g e n t 的特性、心智状态或意图的概念直接进行程序设计。它的主要动机是人类使用 基于意图的态度作为抽象机制,来表示复杂系统的特性。同样我们也用基于意 图的态度来表示人类自身,所以使用这一概念来进行程序设计也是有用的。 s h o h a m 认为,一个完整的a o p 系统应由3 部分组成:定义a g e n t 心智状 态的逻辑系统,进行a g e n t 程序设计的语言解释器和“a g e n t 化”过程。a g e n t 一0 是s h o h a m 研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论