(计算机应用技术专业论文)基于magent的分布式数据挖掘研究.pdf_第1页
(计算机应用技术专业论文)基于magent的分布式数据挖掘研究.pdf_第2页
(计算机应用技术专业论文)基于magent的分布式数据挖掘研究.pdf_第3页
(计算机应用技术专业论文)基于magent的分布式数据挖掘研究.pdf_第4页
(计算机应用技术专业论文)基于magent的分布式数据挖掘研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于magent的分布式数据挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于m a g e n t 的分布式数据挖掘研究 专业:计算机应用技术 硕士生:王晓( 签名)垂魄 指导教师:杨君锐( 签名) 盘乏邑刎 摘要 计算机网络技术和分布式数据库技术的发展促进了数据的分布式存储,从而促进了 分布式数据挖掘这一新技术的产生。分布式数据挖掘使用分布式计算技术,从分布式数 据库中发现用户需要的知识,具有很大的应用前景。 自2 0 世纪9 0 年代以来,m a g e n t 系统逐渐成为人们研究的热点,对许多科学技术 的发展产生了深远的影响。m a g e n t 技术比较适合于对复杂的分布式问题进行求解。在 基于m a g e n t 的数据挖掘系统中,数据挖掘a g e n t 分布在网络中不同地点的数据库上, 按用户的要求进行数据挖掘,并将结果传送给用户,避免了数据库中数据的移动。因此, 将m a g e n t 技术应用于分布式数掘挖掘系统中,具有很大的技术优势,必将促进分布式 数据挖掘技术的巨大进步。 本文旨在研究m a g e n t 技术在数据挖掘中的应用机理。论文首先总结了a g e n t 技术 和数据挖掘技术的发展状况,并分析了m a g e n t 和分布式数据挖掘相结合的优势,然后 设计了一个基于m a g e n t 技术的分布式数据挖掘模型,并研究了该模型在分布式数据库 中对关联规则的挖掘方法。 本文分三个部分,第一部分研究了a g e n t 和数据挖掘技术的基础理论;第二部分以 m a g e n t 技术为基础,设计了一个基于m a g e n t 技术的分布式数据挖掘系统模型,并研 究了该系统中多个a g e n t 之问的协作关系。第三部分将分布式数据库分成按事务分布和 按项目分布两种情况,分析了该系统在这两种情况下对数据库中关联规则的挖掘方法。 关键词:m a g e n t 系统;分布式数据挖掘;频繁项集;关联规则 研究类型:理论研究 s u b j e c t :t h er e s e a r c ho fd i s t r i b u t e dd a t am i n i n gb a s e do n m u l t i a g e n t s p e c i a l t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e :w a n gx i a o i n s t r u c t o r :y a n gj u n r u i a b s t r a c t ( s i g n a t u r e ) 逊幽基地 ( s i g n a t u r e ) t h et e c h n i c a ld e v e l o p m e n to ft h ec o m p u t e rn e t w o r ka n dt h ed i s t r i b u t e dd a t a b a s el c a d st o t h es t o r a g eo ft h eh l l g ed a t ai nad i s t r i b u t e dw a y , a n di tp r o m o t e st h ed e v e l o p m e n to fn e w t e c h n o l o g yo fd i s t r i b u t e dd a t am i n i n g ( d d m ) d d mf i n d su s e f u l i n f o r m a t i o nw i t ht h e d i s t r i b u t e dt e c h n o l o g y , a n dh a sw i d ea p p l i c a t i o np r o s p e c t s i n c e19 9 0 s ,m a g e n ts y s t e mi sg r a d u a l l yb e c o m i n gar e s e a r c hh o t s p o ta n dh a sa p r o f o u n di m p a c to nt h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y t h em a g e n tt e c h n o l o g yi s s u i t a b l ef o rt h ec o m p l e xd i s t r i b u t e dp r o b l e m s i nd a t am i n i n gs y s t e mb a s e do nm a g e n t , a g e n t so nd i f f e r e n td a t a b a s ew i l l b ew o r k i n ga c c o r d i n gt ot h eu s e r sr e q u i r e m e n t s ,a n d t r a n s f e r r i n gt h er e s u l tt ot h eu s e r s s ot h e r ea r ea d v a n t a g e so fu s i n g t h em a g e n tt e c h n o l o g y i nt h ed d m s y s t e m s i nt h i sp a p e r , t h ep r i n c i p l eo fd a t am i n i n gb a s e do nm - a g e n tt e c h n o l o g yi sd i s c u s s e d a t f i r s tt h ed e v e l o p m e n to ft h ea g e n tt e c h n o l o g ya n dt h ed a t am i n i n gt e c h n o l o g yi sd i s c u s s e d , a n dt h eb e n e f i to ft h e i ra s s o c i a t i o ni sa n a l y z e d t h e nad d mm o d e lb a s e do nm - a g e n ti s e s t a b l i s h e d a tl a s t ,t h em e t h o d si nt h ed a t am i n g i n go fd i s t r i b u t e da s s o c i a t i o nr u l e sa r e d i s c u s s e d t h r e ep a r t sa r ei n c l u d e di nt h i sp a p e r :t h et h e o r e t i c a lf o u n d a t i o no fa g e n ta n dt h e t e c h n o l o g yo f d a t am i n i n ga r ed i s c u s s e di nt h ef i r s tp a r t t h e nad a t am i n i n gm o d e lb a s e do n m - a g e n ti sg i v e na n dt h ea g e n tc o o p e r a t i o ni sa n a l y z e di nt h es e c o n dp a r t i nt h el a s tp a r t , t h em e t h o d so fm i n i n ga b o u td i s t r i b u t e da s s o c i a t i o nr u l e sa r ea n a l y z e df r o mt w os i t u a t i o n so f t r a n s a c t i o n a ld i s t r i b u t i o na n da t t r i b u t e dd i s t r i b u t i o n k e yw o r d s :m a g e n ts y s t e m d i s t r i b u t e dd a t am i n i n g f r e q u e n t i t e m s e t a s s o c i a t i o nr u l e s t h e s i s:t h e o r e t i c a lr e s e a r c h 妻料技太学 学位论文独创性说明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及 其取得研究成果。尽我所知,除了文i 】加以标注和致谢的地方外,论文中不包含 其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 学位论文作者签名:互目垄1 日期: 2 o 口罗彳i 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题冉撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 学位论文作者签名: 王吼指导教师签名:厶多豸笔彩 名形罗年,月,日 1 绪论 1 绪论 1 1 选题背景及研究意义 随着计算机技术的发展和数据库技术的普及,人们积累了大量的数据。有些数据是 人们有目的地存储和积累起来的;有些数据不是为了某种分析的目的而积累起来的,而 是由于业务的操作自动获取的;有的甚至是一些仪器自动记录的数据。如何利用这些海 量的数据,从中获取有价值的信息和知识,成为政府和企业决策部门感兴趣的焦点。数 据挖掘就是在这种情况下应运而生的,它的目的就是从大量的、不完全的、有噪声的、 模糊的、随机的、实际应用的数据中,提取出隐含在其中的、人们事先不知道的、但又 潜在有用的信息和知识的过程i j j 。 数据挖掘自提出以来,发展速度很快。这一方面得益于它巨大的应用市场和经济价 值,另一方面也得益于许多著名的学者加盟研究队伍。目前,数据挖掘已成功地应用于 社会的许多层面:从政府的决策管理到商业经营、企业决策以及科学研究都有应用。人 们对数据挖掘技术寄予了厚望。 但是,提出数据挖掘任务的时候,网络技术的应用还没有像现在这样普及,数据的 存放比较集中。人们研究的重点是如何从一个集中式的数据库中得到有用的信息。随着 计算机网络时代的到来、分布式数据库的应用以及企业间的联合和兼并,使数据的积累 和应用有了新的特征:积累速度更快、分布范围更广、更新也更频繁。从现实的应用环 境来看,绝大多数的大型数据库都是以分布形式存在的。但到目前为止,数据挖掘的技 术大都是面向集中式数据库的。因此,对分布在不同地点的数据库进行挖掘研究有着很 好的理论和应用价值。 分布式数据挖掘是一个较新的研究领域,由于其潜在的研究价值和应用价值较大, 己经引起了人们的重视,并且取得了一定的研究成果。但是,由于它面临的问题比较复 杂,有待解决的技术难题比较多,目i ; 的发展还难以满足人们的使用需求。 人工智能诞生于上个世纪6 0 年代,给人们留下了美好的想象空间,但是它的发展 并不像人们期盼的那样。人工智能的理论研究在其诞生初期发展的速度较快,但应用领 域的发展相对不足。直到2 0 世纪7 0 年代到8 0 年代专家系统的推广与应用,人工智能 才获得了应用史上的一个黄余时代。此后,理论与应用技术日趋完善【2 l 。但是,专家系 统的应用一直局限在医学、军事等一些狭小的领域内。随着网络技术的快速发展和网络 应用的普及,也给专家系统的推广应用提供了广阔的天地,新的理论和技术不断地被人 们提出和应用。专家系统也走出了狭小的研究领域,走向了网络应用。 a g e n t 技术的诞生和发展就是人工智能技术和网络技术发展相结合的最新研究成果 西安科技大学硕士学位论丈 之一,有的学者把a g e n t 看作是一个应用于网络系统上的微型专家系统【2 】。a g e n t 技术 拥有很多优异的特性,它可以分布在网络的不同地点,具有一定的自主性和适应性,向 人们提供应用服务。多个a g e n t 在系统中互相协作,以完成共同的目标,就称为多a g e m 系统或m a g e m 系统【3 1 。因此,m a g e n t 技术具有较强的分布式计算的能力。 m a g e n t 技术的快速发展,为解决分布式数据挖掘技术的难题带来了新的希望。 a g e n t 可以分布在网络中不同地点的数据库上进行数据挖掘,并将结果传送给用户,避 免了数据库中数据的移动。因此,将m a g e n t 技术应用于分布式数据挖掘系统具有很大 的技术优势,必将促进分布式数据挖掘技术的巨大进步。关于这方面的研究具有很大的 理论和应用上的价值。本文的选题就是在这种情况下提出的,希望能够为极有应用前景 的分布式数据挖掘技术的发展做出有意义的探索。 1 2 国内外研究的现状 分布式数据挖掘技术是一个较新的研究领域,虽然取得了一定的进展。但由于研究 的时间较短,很多研究仍然处于起步阶段。 国外对基于a g e n t 的分布式数据挖掘技术的研究比较早,1 9 9 6 年,k a r g r p t a 和 h a m z a o g l u 提出了个基于a g e m 的并行分布式数据挖掘系统p a d m a ( p a r a l l e ld a t a m i n i n g a g e n t ) 4 1 。该系统由三个主要组件构成:数据挖掘a g e n t 、f a c i l i t a t o r 和用户接e 1 。 数据挖掘a g e n t 分布在各个局部站点,在f a c i l i t a t o r 的协调下并行工作,挖掘结束后, 将挖掘结果提交给f a c i l i t a t o r 。f a c i l i t a t o r 将挖掘结果按一定的算法进行整合,然后通过 用户接口提交给用户。该系统将数据挖掘的主要工作放在各个局部站点进行,避免了数 据源中数据的传输,减少了网络间的数据通信量。由于各个数据挖掘a g e n t 之间是独立 的,因而其系统扩展性比较好,需要添加新的数据源时,只需在其上添加数据挖掘a g e n t 即可【8 1 。 为了解决p a d m a 不能对垂直划分的数据进行挖掘的问题,1 9 9 8 年k a r g u p t a 和p a r k 等人提出了汇集型数据挖掘系统c d m ( c o l l e c t i v ed a t am i n i n g ) p j 。该系统利用了移动 a g e n t 技术,在该系统中,f a c i l i t a t o r 负责与用户的交互、系统初始化和数据挖掘a g e n t 的协作等问题。f a c i l i t a t o r 在与用户的交互中获取挖掘目标后,分派给数据挖掘a g e n t 来进行数据挖掘。当数据挖掘a g e n t 需要对其他数据源进行操作时,就带着自身状态和 已获得的挖掘结果,移动到其他站点继续工作,以此来完成对垂直划分的数据进行挖掘。 由于该系统利用a g e n t 工作站的方式屏蔽了底层与站点间的交互细节,可以使开发者将 注意力集中在数据挖掘的方法上。用户可以通过建立和删除a g e n t 来实现数据挖掘方法 的添加和删除,系统的扩展也比较容易。其缺点是数据挖掘a g e n t 携带的参数需要基于 整体数据集合给出的正交模型来确定,这一决策的制定直接关系到了最后结果是否准 确,但是,这种正交模型的表述能力能否满足需要也未能给出证明m j 。 2 1 绪论 另一个比较有影响的系统是s t o l f o 教授提出的j a m 系统,它的体系构架主要由本 地数据库、l e a r n i n ga g e n t 、m e t a l e a r n i n ga g e n t 、本地用户配置文件和图形用户接口组 成【6 1 。在该系统中,l e a r n i n ga g e n t 在各个局部数据库上进行操作,得到各个局部数据库 中的挖掘结果。m e t a 1 e a r n i n g a g e n t 可以在各个站点之间移动,用于综合各个站点的挖 掘结果。各个局部站点利用本地m e t a - l e a m i n ga g e n t 来引入其它站点的挖掘结果,并与 自己的挖掘结果进行合并得到本站点的挖掘结果。然后将结果送到中心站点进行合并, 得到最终正确的结果。该系统集中了上述两种系统的优点,功能比较强大。但是,对各 个局部站点来说,选取恰当的数据协同策略比较难以确定【7 8 】。 其它的分布式数据挖掘系统还有a r o n i s 教授等设计的w o r l d 系统、c h a v e z 的 c h a l l e n g e r 系统等。 国内对基于a g e n t 的分布式数据挖掘技术的研究相对较晚,但也取得了一定的研究 成果。贾利民等人在“基于智能a g e n t 的动态协作任务求解”一书中研究了智能a g e n t 在动态协作任务求解问题中的应用,并提出了一个基于智能a g e n t 的数据挖掘模型1 9 j ; 李英在“多智能a g e n t 系统及其在预测与智能交通系统中的应用 一书中介绍了智能 a g e n t 的综合应用知识和其在公路信息融合中的应用方法,也提出了一个基于智能a g e n t 的数据挖掘模型】。这些文献都对a g e n t 在数据挖掘中的应用提出了很好的建议和方 法。 综合国内外的许多文献来看,目前的研究的热点大体上可以分为以下几个方面:基 于a g e n t 的挖掘系统中a g e n t 的设计和实现问题;基于a g e n t 的挖掘系统中a g e n t 之间 的协作策略问题;基于a g e n t 的挖掘系统中a g e n t 对挖掘算法的使用问题。 1 3 论文的主要研究内容 本文通过分析分布式数据库挖掘传统方法的不足,以m a g e n t 技术和原理为依据, 设计出一个基于m a g e n t 的分布式数据挖掘系统模型。并以关联规则挖掘为例,重点研 究了本系统对分布式关联规则的挖掘方法。 本文的主要研究内容有以下几个方面: ( 1 ) 对a g e n t 技术和数据挖掘技术的现状和发展趋势进行了研究,分析了将a g e n t 技术用于分布式数据挖掘的优点。 ( 2 ) 结合m - a g e n t 技术,设计了一个基于m - a g e n t 的分布式数据挖掘系统模型和系 统中各个a g e m 的结构。 ( 3 ) 结合关联规则挖掘技术,提出了本系统中各个a g e n t 的协作方法。 ( 4 ) 以关联规则挖掘技术中著名的数据挖掘算法为例,研究了本系统对数据库中的 数据按事务分布和按项目分布的处理方法。在对按事务分布的处理中,结合本系统的数 据挖掘方法,对f p g r o w t h 算法做了必要的修改;在对按项目分布的处理中,结合本系 3 西安科技大学硕士学位论文 统中a g e n t 之间协作方法的特点,提出了本系统的解决方法。 1 4 论文的章节安排 本文共分六章,各章主要内容为: 第1 章:绪论,阐明了本文选题的背景和研究意义,并对与题目相关领域的国内外 研究现状进行了综述,最后说明了论文研究的主要工作和论文的结构安排。 第2 章:a g e n t 和数据挖掘技术的基础理论,详细介绍a g e n t 、m a g e n t 、数据挖掘 和分布式数据挖掘技术的基础理论。分析了将m a g e n t 技术应用于分布式数据挖掘系统 的优点。 第3 章:基于m a g e n t 的分布式数据挖掘系统原型设计,结合m a g e n t 技术,设 计出一个基于m a g e n t 的分布式数据挖掘系统模型,然后构建了数据挖掘a g e n t 和用户 a g e n t 的模型。 第4 章:分布式关联规则挖掘中a g e n t 的协作方法,结合关联规则挖掘技术,提出 了本模型对分布式关联规则的挖掘方法。 第5 章:分布式关联规则挖掘,结合实际的应用环境,将数据库分成事务分布和项 目分布两种情况进行考虑,研究了本系统对关联规则的挖掘方法。 第6 章:总结,对本文所做的研究工作进行总结,简要介绍了所做的具体工作及一 些不足,并给出下一步要努力的方向和目标。 4 2a g e n t 和数据挖掘的基础理论 2a g e n t 和数据挖掘技术的基础理论 本章对a g e n t 技术、数据挖掘技术进行了深入的研究,分析了m a g e n t 技术和分布 式数据挖掘技术相结合的巨大优势。 2 1a g e n t 技术 a g e n t 的概念出现于2 0 世纪7 0 年代的人工智能中,8 0 年代后期开始快速发展起来。 分布式并行处理技术、面向对象技术、计算机网络技术,特别是i n t e m e t 和信息技术的 发展,有力地促进了a g e n t 技术的发展和应用。目前,a g e n t 和m - a g e n t 系统的理论和 技术越来越频繁地出现在科技文献和应用系统的设计中,已经成为分布式人工智能的一 个重要研究领域。 2 1 1a g e n t 的定义 人们对a g e n t 的认识和研究有一个历史的过程:1 9 7 7 年c a r lh e w i t t 在“v i e w i n g c o n t r o ls t r u c t u r e sa sp a t t e r n so f m e s s a g e ”一文中定义了一种具有“自兼容性、交互性、并 发性”的对象“a c t ”,被许多研究人员认为是a g e n t 发展的起源。a g e n t 一词的正式提出是 1 9 8 6 年,m m i n s k y 在他编著的s o c i e t yo fm i n d 一书中,认为a g e n t 是具有社会属性和 社会行为的个体。其后,人们对a g e n t 的研究逐渐多起来,但对a g e n t 一词的概念因所 研究的领域和问题的不同而互不相同【1 1 , 1 2 , 1 5 , 1 8 】。1 9 9 5 年英国的a g e n t 专家w o o l d r i d g e 和 j e n n i n g s 在总结了前人对a g e n t 领域的研究后,认为可以从两个方面去理解a g e n t 。 定义2 1a g e n t 具有这样的特征: ( 1 ) 自主能力( a u t o n o m y ) a g e n t 可以在没有人或其它a g e n t 直接干预的情况下进行 自主的活动,而且对自己的行为和内部状态有某种控制能力。 ( 2 ) 社交能力( s o c i a la b i l i t y ) :a g e n t 和其它a g e n t 通过某种a g e n t 交流语言进行交 互。 ( 3 ) 反应能力( r e a c t i v i t y ) :a g e n t 观察其环境( 物理世界、图形世界、一系列其它 a g e n t 、i n t e m e t 等) ;并在一定时间内做出反应,以改变该环境。 ( 4 ) 预动能力( p r e a c t i v e n e s s ) :a g e n t 不仅能够简单地对环境做出反应,而且能够通 过接收某些启示信息,体现出面向目标的行为。 定义2 2 a g e n t 除了应具有上面这些特性之外,还应该具有人类的某些特性,例如 知识、信念、意图、承诺等心智状态,如b d i 模型( b e l i e f - d e s i r e i n t e n t i o n ) ,有的学者甚 至提出了有情感的代理。 定义2 1 常被人们称为弱定义,定义2 2 是对定义2 1 的加强和补充,常被人们称为 5 西安科技大学硕士学位论文 强定义。这些总结促进了人们对a g e n t 的研究和认识。进入2 l 世纪,人们对a g e n t 的 研究更加广泛,现在,a g e n t 已成为计算机科学与技术领域使用最多的术语之一。但是, 到目前为至,人们对a g e n t 的认识还没有形成一个统一的定义。近年来,一些专家和学 者从软件工程的角度出发,给出了人们能够普遍接收的定义: 定义2 3a g e n t 是指能够在某一环境下运行,并能响应环境的变化,灵活自主地采 取行动以实现既定目标的软件实体【1 6 , 1 7 】。 2 1 2a g e n t 的特征 虽然不同的研究人员对a g e n t 定义的侧重点并不一致,但是还是能够找出他们所提 出的a g e n t 的共同特征:自主性、主动性、交互性和针对环境的适应性 3 , 1 6 , 1 3 j 。 ( 1 ) 自主性:a g e n t 是一个独立的实体,不需要外界的介入,能够依靠自身的知识 解决遇到的问题。 ( 2 ) 主动性:a g e n t 可以在某一确定目标的指导下采取主动行动以完成目标。 ( 3 ) 交互性:a g e n t 能够与系统中的其它a g e n t 相互交互,协同工作。 ( 4 ) 适应性:a g e n t 能够根据环境的变化采取与环境相适应的行为。 人们通常将满足这四个特性的a g e n t 称为基本a g e n t 。在这四条性质中,自主性是 最基本的条功能,已经在工业界和学术界取得了共识。其它三条功能都与自主性有着 部分联系,对于它们的概念和定义还存在着一定的争论1 3 】。 2 1 3a g e n t 结构 从高度概括的观点来看,a g e n t 是能够自主地根据外界环境的变化而产生反应的实 体模块。因而,它的基本结构具有感知环境变化的感知部件、动作决策部件和动作输出 部件。其中,最重要的是动作的决策部件,它决定了一个a g e n t 所具有的智能程度的高 低。因此,动作决策的方法和动作决策部件的组成是a g e n t 技术研究的重要方向之一。 根据动作决策的方法和动作决策部件的组成,可以将a g e n t 分成以下三种:反应型a g e n t , 慎思型a g e n t 和混合型a g e n t | 2 , 3 , 1 8 , 2 0 , 2 1 】。 ( 1 ) 反应型a g e n t ( r e a c t i v ea g e n t ) 反应型a g e n t 是最简单的a g e n t ,它不考虑历史情况,也不为未来制定计划,只是 一种简单的刺激响应运行模式。这种特性使得当环境发生变化时,不需要修改它们的内 部( 环境) 模型,因而,能够对环境事件做出快速地反应,执行意图的坚定性和容错能力 也较强。但是,它们不能自主地产生任务和目标,不具备自发性的行为。它们的智能性 仅仅是指多个a g e n t 互相交互所表现出来的复杂的整体行为。 图2 1 给出了一个典型的反应型a g e n t 的体系结构图。条件动作规则使a g e n t 将感 知与动作连接起来。其中当前世界状态表示进行动作决策时所依据的环境状态。动作条 6 2a g e n t 和数据挖掘的基础理论 件规则表示进行动作决策时所用的背景信息。 图2 1 反应型a g e n t 的体系结构图 ( 2 ) 慎思型a g e n t ( d e l i b e r a t i v ea g e n t ) 慎思型a g e n t ,也称作认知型a g e m ( c o g n i t i v ea g e n t ) 或思考型a g e n t ,它实际上是 根据a g e n t 的强定义设计的一种体系结构。慎思型a g e n t 设计的目的是希望让智能体既 要知道自己想要做什么事情,还要知道怎样把事情做好。图2 2 给出了慎思a g e n t 的体 系结构图。 a g e n t 传感器 一一 ( 信念集) 目前世界怎样 r期望集、 摹 赫 ( 意图集) 动作 l 效应器 图2 2 慎思a g e n t 的体系结构 a g e m 通过传感器接收外界环境的信息,根据内部状态进行信息融合,形成自己对 环境的认识,存放在信念集中。主体根据信念集中的内容,经过思考,产生期望集,又 根据期望集中的内容,经过承诺,产生意图。这种a g e n t 有自己对外界环境的认识,还 有自己行动的明确目标,是智能性较高的a g e n t 。但由于目标的形成过程较长,因而, 对环境事件的反应也较为迟钝。 ( 3 ) 混合型a g e n t ( h y b r i da g e n t ) 由于简单反应型a g e n t 没有对环境的认识模式,没有自主性,而慎思型a g e n t 的动 7 西安科技大学硕士学位论文 作决策是建立在思考和推理的基础之上,对环境事件反应的适时性较差,为了综合这两 方面的优点,一些学者提出了混合型a g e n t 体系结构。混合型a g e n t 是指在一个主体内 部集中了多种不同类型的动作生成机制。混合型体系结构由于其内部比较复杂,因而实 现起来也较为困难,但因为其功能比较强大,很多具有社会属性的智能a g e n t 都采用这 种体系结构。 大体上,可以根据混合a g e n t 内部的动作生成机制和组织形式,将混合型a g e n t 分 成两种不同类型的体系结构:水平方式体系结构和垂直方式体系结构。 以水平方式组织的a g e n t ,内部的各种动作生成机制各自处在一个相对独立的层次 上,互不交互,单独做出决策,然后将决策结果交给一个动作仲裁机构,由动作仲裁机 构决定该a g e n t 应该采取的动作。图2 3 是一个典型的水平方式体系结构,它由一个感 知输入部件,一个动作产生部件和一个动作仲裁部件组成。感知输入部件负责感知环境 事件的变化。动作产生部件由一组相互独立的决策方法组成,这些方法决策起来互不干 涉,无需交互。动作仲裁部件负责仲裁各个层次产生的动作,并将最终结果交给主体执 行。 图2 3 水平方式体系结构 动作产生部件中的反应层采用简单的束0 激响应模式对环境的输入做出响应。规划层 采用目标驱动方式进行决策,是知识型或慎思型的反应模式。合作层不但包括环境状态, 还包括环境中其它a g e n t 的信息,因此,该种模式的a g e n t 还可以具有一定的社会性。 以水平方式混合的a g e n t 的优点是各个层次之间独立性强,结构简单,实现起来较为容 易。 以垂直方式组织的a g e n t ,首先按内部的各种动作生成机制的智能性分成不同的层 次,下层能够做出决策时,直接输出动作;下层不能做出决策时,交给上层进行处理。 各层相互合作,共同完成决策任务。 图2 4 是一个典型的垂直方式体系结构。环境接口负责感知信号的输入和动作信号 的输出。行为层用于产生反应行为,规划层用于产生实现主体目标的动作规划,合作层 8 2a g e n t 和数据挖掘的基础理论 用于处理与其它a g e n t 之间的社会交互。每个层次都对应一个知识库,用于描述该层次 动作决策所需的知识和信息。世界模型是对环境信息的抽象表示,规划知识是对主体自 身及规划所需的信息的抽象表示,社会知识是对环境中其它a g e n t 的信息描述。对于环 境事件,如果行为层能够处理,就直接做出动作输出,否则,就将处理任务向规划层提 交。如果规划层能够处理,就将处理结果返回行为层,否则,就将处理任务向合作层提 交。合作层将邀请环境中的其它a g e n t 共同解决问题,从而使a g e n t 表现出一定的社会 属性。 l 合作层卜叫社会知识f f 规划层卜叫规划知识i 涮h 世轰犁ll 行为层h 世界模犁l 环境接u 图2 4 垂直方式体系结构 具有垂直型体系结构的a g e n t 不需引入动作仲裁机构,对环境变化的反应依次升高, 具有人类解决问题的特性。但是,系统中的任务信息和环境信息都要流经各个层次,实 现起来较为困难,而且,任何一个层次出现问题,都有可能严重影响系统的稳定性。 从当f j 的研究和应用现状来看,反应型a g e n t 的研究和应用目前尚处于初级阶段; 慎思a g e n t 占据应用的主导地位,因为多数研究和开发人员都喜欢使用自己已经较为熟 悉的传统a i 技术和方法;混合型a g e n t 由于集中了上述两种a g e n t 的优点而成为当前 的研究热点【2 0 , 2 1 j 。 2 1 4m - a g e n t 系统 单个a g e n t 受到自身能力、资源的限制,以及其它a g e n t 的牵制,很难完成大型、 复杂问题的求解。由此,多a g e n t 系统( m u l t i - a g e n ts y s t e m ,简称m a g e n t 系统) 被研究 人员提出来。由两个或者更多个相互独立同时又相互作用的主体构成的系统称为多 a g e n t 系统,并将由一个或多个主体构成的系统称为面向主体的系统【3 】。引起m a g e n t 系统研究逐渐兴起的其它原因还包括:与已有系统或软件的互操作问题;求解那些数据 和控制具有分布特性的问题以及提高系统的效率和鲁棒性等问题。 m a g e n t 系统由多个自主或半自主的a g e n t 组成,每个a g e n t 或者履行自己的职责, 9 西安科技大学硕士学位论丈 或者与其它a g e n t 通信获取信息,或者互相协作完成整个问题的求解。单个a g e n t 组合 形成的系统呈现出了许多新的特征,其完成任务的能力绝不是单个a g e n t 能力的简单组 合。m 。a g e n t 系统比起由单个a g e n t 系统来说,具有如下新的特征 2 , 3 , 1 4 j : ( 1 ) 系统的问题求解能力增强,全局目标可以由系统中多个主体相互协作来完成。 ( 2 ) 各个主体可以分布在地理位置不同的多个处理器上,可以运行在不同的软、硬 件平台上,甚至还可以采用不同的程序设计语言或技术来实现。 ( 3 ) 系统中的各个主体并发计算、异步通信,整个系统的软、硬件资源利用效率较 高。 ( 4 ) 系统作为一个整体能够适应环境的变化进行自我调整,可靠性较高。 根据m a g e n t 系统中a g e n t 之问的相互作用和组织结构,可以将m a g e n t 系统分为 以下几种: ( 1 ) 集中式结构的m a g e n t 系统:所有代理一起构成m a g e n t 系统团体,代理之间 通过一个集中的协调器进行调度和管理。 ( 2 ) 联邦式结构的m a g e n t 系统:某些相关的代理构成局部的m a g e n t 系统团体, 代理之间通过一个局部的协调器进行管理;所有局部协调器受一个联邦协调器的管理。 这是目前比较常用的结构。 ( 3 ) 市场型机构的m a g e n t 系统:它以市场经济理论作为m a g e n t 系统的指导思想, 代理之间考虑各自的利益,并且在市场原则指导下进行自由的市场协作行为。 ( 4 ) 层次结构的m a g e m 系统:它采用分层结构,上一级对下一级负责,同级问通 信协作,类似于多级联邦式结构。 目前,对于m a g e n t 技术的研究虽然取得了很多重要的成果,但都是一些点的突破。 不论在软件结构、设计方法、评估准则方面,还是在开发工具和编程语言方面,都有很 多未完成的工作。 2 1 5a g e n t 技术现状 面向a g e n t 的软件技术是计算机领域的又一项重要技术,有人把他看作是继面向对 象技术之后的下一代软件的开发方法。因此,a g e n t 技术成为近年来计算机学科研究的 热门领域。目前,利用a g e n t 进行软件开发的理论和方法都有了较大的进展和突破。在 软件的开发方法方面,出现了二十多种较有影响的面向主体的分析和设计方法。在开发 工具方面,出现了许多面向商业化的开发工具,表2 1 是一些比较成功的商业开发软件 1 6 , 2 0 , 2 l ,2 2 1 。 但是,这些a g e n t 技术产品的出现并不意味着现阶段a g e n t 技术已经走向实用,这 些产品的有效性、可用性、可靠性等仍需要实践的检验。而且,这些软件开发工具和环 境并没有遵循必要的标准,相互之间也没有一个统一的通信语言和协议,因此所丌发的 1 0 2a g e n t 和数据挖掘的基础理论 系统缺乏互操作性,在一个系统中开发的a g e n t 在其它系统中并不一定能够运行2 1 2 3 刀】。 表2 1 支持基于a g e n t 系统开发的工具和环境 2 2 数据挖掘的理论 数据挖掘是人们对数据库技术进行大量研究的成果,在2 0 世纪8 0 年代末有了很大 的发展。数据挖掘是指从数据库或数据仓库的大量数据中揭示出隐含的、先前未知的、 潜在有用的信息的过程。它作为知识发现过程中一个特定的步骤,包含一系列相关技术 的应用,是对大容量数据及数据间关系进行分析和建模的方法集。 2 2 1 数据挖掘的概念 随着计算机技术的迅猛发展,特别是数据库技术和网络技术的发展,给人们带来了 信息存储和使用上的方便。许多行业如商业、企业、科研机构和政府部门都积累了时间 跨度较长,数量巨大的海量数据。这些数据中往往隐藏着凭人们直觉和经验难以发现的 有用信息。如何从大量的数据中发现有用的信息,成为人们关注的焦点,而利用传统的 数据库技术和数据统计的方法却难以胜任这项工作。在这样的背景下,人们开始研究如 何在数据库中发现知识,并于1 9 8 9 年8 月在美国底特律召开的第1 l 届国际人工智能联 合会议的专题讨论会上首次出现了数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) 这个术语。随后在1 9 9 1 、1 9 9 3 、1 9 9 4 年都举行了k d d 专题讨论会, 集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。在此期间,数据 挖掘技术被看作为k d d 中的一个核心部件,还没有作为独立的研究学科被提出。直到 1 9 9 5 年在加拿大的蒙特利尔召开的第一届“知识发现和数据挖掘”国际学术会议上才首 次提出数据挖掘( d a t am i n i n g ,d m ) 这一名称【2 5 2 6 1 。 目前,数据挖掘还没有一个完整的定义。较为通用的定义为:数据挖掘就是从大量 的、不完全的、有噪声的、模糊的、随机的、实际应用的数据中,提取出隐含在其中的、 西安科技大学硕士学位论文 人们事先不知道的、但又潜在有用的信息和知识的过程1 2 6 ,2 7 ,3 2 1 。 数据挖掘要解决的问题就是怎样在庞大的数据中寻找有价值的隐藏信息,加以分 析,并将这些有意义的信息归纳,生成合理的结构模式,提供给有关部门,使他们在决 策时进行参考。 2 2 2 数据挖掘的功能 数据挖掘的功能用于指定数据挖掘任务中要找的数据模式类型。一般来说,可将数 据挖掘的任务分为两大类:描述性数据挖掘和预测性数据挖掘。描述性数据挖掘意在刻 画数据的特性和特征。预测性数据挖掘是在当前数据上进行推断,以进行预测。具体来 讲,数据挖掘功能大体可以归纳为6 种:概念描述、关联分析、分类和预测、聚类分析、 异类分析,演化分析【2 7 , 3 3 】。 ( 1 ) 概念描述( c o n c e p td e s c r i p t i o n ) 一个概念常常是对一个包含大量数据的数据集合总体情况的概述。用汇总的、简介 的、精确的方式描述数据库中的每个类或概念,这种描述就称为概念描述拉。 ( 2 ) 关联分析( a s s o c i a t i o na n a l y s i s ) 关联分析就是从给定的数据库中发现频繁出现的项集模式知识( 又称为关联规则 a s s o c i a t i o nr u l e s ) 。关联分为简单关联、时序关联和因果关联。关联分析的目的是 找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的 相关性,在挖掘过程中不断引入兴趣度、相关性等参数,使得所挖掘的规则更符 合需求【2 7 ,2 8 2 9 1 。 ( 3 ) 分类和预澳t j ( c l a s s i f i c a t i o na n dp r e d i c a t i o n ) 分类就是找出一组能够描述数据集合典型特征的模型( 或函数) ,以便能够分类识 别未知数据的归属或类别,即将未知事例映射到某种离散的类别之一。分类模型( 或函 数) 可以通过分类挖掘算法从一组训练样本数据( 其类别归属已知) 中学习获得。分类 挖掘所获得的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有:分类 规则、决策树、数学公式和神经网络。预测是利用历史数据找出变化规律,建立模型, 并由此模型对未来数据的种类及特征进行预测 2 7 , 3 0 , 3 1 】。 分类和预测是两种数据分析形式,都可以用来抽取重要的数据集合或预测未来的数 据趋势的走向。分类方法用于预测数据对象的离散类别,一般用规则或决策树模式方法, 或利用训练数据集通过一定的算法而求得分类规则。预测方法用于预测数据的连续取 值,预测关心的是精度和不确定性,通常用预测方差来度量。 ( 4 ) 聚类分析( c l u s t e r i n ga n a l y s i s ) 聚类分析又称群分析,它是研究样品或指标分类的一种统计分析方法。它把数据 按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异【2 7 , 3 1 】。 1 2 2a g e n t 和数据挖掘的基础理论 聚类分析与分类预测方法的不同之处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论