




已阅读5页,还剩64页未读, 继续免费阅读
(计算机软件与理论专业论文)基于多agent的数据清洗系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
b 您o ,!“覆谬 1,;: at h e s i sf o rt h ed e g r e eo fm a s t e r i n c o m p u t e rs o f t w a r ea n dt h e o r y , s t u d y a n di m p l e m e n t a t i o no fad a t a c l e a n s i n gs y s t e m b a s e do nm u l t i - a g e n t t e c h n o l o g y b yz h a n gy u s u p e r v i s o r :p r o f e s s o ry ug e n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 。i,f,j , 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚 挚的谢意。 学位论文作者签名:矛噜 签字 日期:沁b 孑、7 、6 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年口一年半口两年口 学位论文作者签名:虿挺寺 导师签名: 丁戈 签字日期:h 勺孑7 、6签字日期:2 ,叼孑、,7 6 t p 1 9v,f 哆 q 东北大学硕士学位论文摘要 基于多a g e n t 的数据清洗系统的研究与实现 摘要 当前,企业信息化的程度要求越来越高,其中一个重要的方面就是企业的数据的管 理,根据“进去的是垃圾,出来的也是垃圾( g a r b a g ei n ,g a r b a g eo u t ) ”这条原理,为了支持 正确决策,就要求所管理的数据可靠,没有错误,能准确地反映企业的实际情况,因此 数据清洗正在获得越来越多的关注,因为数据清洗是提高数据质量的重要途径,但是目 前的数据清洗系统还面临许多问题,采用a g e n t 技术是解决所面临问题的有效方法。 a g e n t 技术源于人工智能,一般认为a g e n t 是一个自治的实体,它处于特定的环境 中,有自己的目标,为了完成目标可以灵活、自主地适应环境,同时,a g e n t 的动作反 过来同样影响环境的状态。一般来说,单个a g e n t 完成的功能是有限的,所以,多a g e n t 系统的应用更加广泛。在多a g e n t 系统中,a g e n t 之间必须进行必要的交流,交换有关 环境的信息,通过协商与协作来实现系统的功能。 本文通过对数据清洗现状进行分析给出了当前数据清洗系统存在的问题:智能性 差、缺少交互、缺少数据分析功能、对于分布式清洗和实时清洗的处理能力有限等;然 后从a g e n t 的基本理论出发,介绍了a g e n t 的定义和一些主要特性,接下来分析论证了 采用a g e n t 技术解决以上问题的可行性。在此基础上本文提出了基于多a g e n t 的数据清 洗模型和框架,设计并实现了多a g e n t 数据清洗系统,通过对系统实现过程的详细叙述, 展示了如何将a g e n t 技术应用于数据清洗领域。把a g e n t 技术的思想和方法用于数据清 洗,增加了数据清洗的智能性,扩展了系统的交互能力,减少了用户的重复性工作,提 高了数据清洗的效率。 , 本文最后将设计实现的数据清洗系统应用于海洋数据环境中。通过具体的应用验证 了数据清洗系统对数据的正确性、有效性、完整性与一致性都有良好的检测与控制能力, 由此证明了基于多a g e n t 的数据清洗系统的实用性。 关键词:数据清洗;数据质量;a g e n t 技术;数据仓库;数据挖掘 一i i 东北大学硕士学位论文a b s t r a c t s t u d ya n di m p l e m e n t a t i o no fad a t ac l e a n s i n gs y s t e mb a s e do n m u l t i a g e n tt e c h n o l o g y a b s t r a c t c u r r e n t l y , t h ee x t e n to fe n t e r p r i s ei n f o r m a t i o ni si n c r e a s i n g l yd e m a n d i n gh i 曲- l e v e l ,i n w h i c ha ni m p o r t a n ta s p e c ti st h em a n a g e m e n to fe n t e r p r i s ed a t a b a s e do nt h ep r i n c i p l eo f “g a r b a g ei n ,g a r b a g eo u t ,t h ed a t aw h i c hi sm a n a g e dm u s tb er e l i a b l e ,n om i s t a k ea n dt m l y r e f l e c t i n ga c t u a le n t e r p r i s es i t u a t i o nf o rs u p p o r t i n gt om a k er i g h td e c i s i o n t h e r e f o r ed a t a c l e a n s i n ga c q u i r e si n c r e a s i n ga t t e n t i o n ,b e c a u s ed a t ac l e a n s i n gi sas i g n i f i c a n tm e t h o dt o i m p r o v ed a t aq u a l i t y h o w e v e r , c u r r e n td a t ac l e a n s i n gs y s t e m ss t i l lf a c ew i t hm a n yp r o b l e m s , a g e n tt e c h n o l o g yi su s e dt os o l v et h ep r o b l e m sf a c e db ye f f e c t i v ew a y t h ea g e n tt e c h n o l o g yo r i g i n a t e si na r t i f i c i a li n t e l l i g e n c e ,a na g e n ti sa na u t o n o m o u s e n t i t y , a n di ti ss i t u a t e di ns o m ee n v i r o n m e n t ,i sc a p a b l eo ff l e x i b l e ,a u t o n o m o u sa c t i o ni n t h a t e n v i r o n m e n ti no r d e rt om e e ti t sd e s i g no b je c t i v e s ,a n dc a na l s oi n f l u e n c et h a te n v i r o n m e n t g e n e r a l l ys p e a k i n g ,t h ef u n c t i o n so fa na g e n ta r el i m i t e d h e n c d ,a p p l i c a t i o n so fm u l t i - a g e n t s y s t e ma r em o r ep o p u l a r i nam u l t i - a g e n ts y s t e m ,i n f o r m a t i o na b o u tt h ee n v i r o n m e n ts h o u l d b ee x c h a n g e db e t w e e na g e n t s ,t h r o u g hc o n s u l t a t i o na n dc o o p e r a t i o nt or e a l i z et h ef u n c t i o no f t h es y s t e m t h i st h e s i sf t r s t l ya n a l y z e st h es t a t u sq u oo fd a t ac l e a n s i n ga n dg i v e st h ep r o b l e m so f c u r r e n td a t ac l e a n s i n gs y s t e m s :p o o ri n t e l l i g e n c e ,l a c ko fi n t e r a c t i o n ,l a c ko fd a t aa n a l y s i s f u n c t i o n s ,l i m i t e dc a p a c i t yt od e a lw i t ht h ed i s t r i b u t e dd a t ac l e a n s i n ga n dt h er e a l t i m ed a t a c l e a n s i n g s e c o n d l y , t h i st h e s i si n t r o d u c e st h ed e f m i t i o no fa g e n ta n ds o m eo fi t sm a jo r c h a r a c t e r i s t i c sf r o mt h ea g e n t sb a s i ct h e o r y , a n dt h e ng i v e saf e a s i b i l i t yd e m o n s t r a t i o no f u s i n ga g e n tt e c h n o l o g yt os o l v et h ea b o v ep r o b l e m s o nt h i sb a s i s ,t h i st h e s i sp r o p o s e sad a t a c l e a n s i n gm o d e la n dad a t ac l e a n s i n gf r a m e w o r kb a s e do nm u l t i - a g e n t ,t h r o u g ht h ed e t a i l e d d e s c r i p t i o no ft h es y s t e m si m p l e m e n t a t i o nd e m o n s t r a t e sh o wt ou s ea g e n tt e c h n o l o g yi nt h e f i e l do fd a t ac l e a n s i n g u s i n gt h ei d e a sa n dm e t h o d so fa g e n tt e c h n o l o g yi nd a t ac l e a n s i n g ,i t c a ni n c r e a s et h ei n t e l l i g e n c eo fd a t a c l e a n s i n gs y s t e m ,e x p a n dt h es y s t e m si n t e r a c t i v e c a p a b i l i t i e s ,r e d u c et h e u s e r sr e p e t i t i v ew o r k ,a n de n h a n c et h e e f f i c i e n c yo ft h e d a t a c l e a n s i n g f i n a l l y , d a t ac l e a n s i n gs y s t e mb a s e do nm u l t i a g e n ti sa p p l i e do no c e a nd a t ae n v i r o n m e n t t h r o u g hs p e c i f i ca p p l i c a t i o n , t h i st h e s i s v e r i f i e s t h a td a t ac l e a n s i n gs y s t e mh a s g o o d d e t e c t i o na n dc o n t r o lc a p a b i l i t ya tt h ea c c u r a c y , e f f e c t i v e n e s s ,i n t e g r i t ya n dc o n s i s t e n c yo f d a t a , a n dv e r i f i e st h ep r a c t i c a b i l i t yo fd a t ac l e a n s i n gs y s t e mb a s e do nm u l t i a g e n t 一i i i 士学位论文 a b s t r a c t :d a t ac l e a n s i n g ;d a t aq u a l i t y ;a g e n t ;d a t aw a r e h o u s e ;d a t am i n i n g 一一 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i a b s t r a c t i i i 第一章绪论1 1 1 课题背景j 1 1 2 数据清洗的意义1 1 3 数据清洗现状分析2 1 3 1 数据清洗研究调查2 1 3 2 数据清洗工具调查。2 1 4 目前数据清洗系统的不足3 1 5a g e n t 技术简介4 1 6a g e n t 技术在数据清洗中的作用6 1 7 本文研究工作9 1 8 论文组织结构9 第二章基于多a g e n t 的数据清洗模型1 l 2 1o m a s e 工程方法学11 2 2 系统需求分析1 2 2 3 目标模型的建立13 2 4a g e n t 模型的建立1 4 2 5 本章小结1 7 第三章多a g e n t 数据清洗框架的设计1 9 3 1 多a g e n t 数据清洗框架19 3 2 框架中a g e n t 的分析与设计2 1 3 2 1 管理协调a g e n t 2 3 3 2 2 数据源a g e n t 2 4 3 2 3 数据分析a g e n t 2 5 3 2 4 执行清洗a g e n t 2 8 3 2 5 元数据管理a g e n t 2 9 3 2 6 人机界面a g e n t 3 2 3 3 框架中a g e n t 通信的设计3 3 一v 一 东北大学硕士学位论文 目录 3 3 1f i p a 的a g e n t 通信语言3 3 3 3 2 数据分析a g e n t 与数据源a g e n t 的通信3 4 3 3 3 执行清洗a g e n t 与元数据管理a g e n t 的通信3 5 3 3 4 数据分析a g e n t 与用户的通信:3 5 3 4 本章小结3 6 第四章多a g e n t 清洗系统的实现和测试3 7 4 1 系统的开发环境与实现概述3 7 4 2 系统主要a g e n t 的实现3 7 4 3 系统主要功能模块的实现3 9 4 3 1 行为模块的实现3 9 4 3 2 通信模块的实现。4 1 4 4 系统测试4 3 4 5 本章小结4 4 第五章海洋数据仓库上应用案例4 5 5 1 案例描述4 5 5 2 部分清洗示例4 6 5 3 清洗效果评估4 7 5 4 数据清洗系统界面展示i 4 8 5 5 本章小结4 9 第六章结论和下一步工作5 l 6 1 工作总结5 l 6 2 下一步工作51 参考文献。5 3 致谢5 5 攻读硕士期间参与的项目。5 7 一v i h ; # 东北大学硕士学位论文第一章绪论 第一章绪论帚一早瑁下匕 本文的研究工作为a g e n t 技术在数据清洗上的应用,本章首先介绍了一下课题的研 究背景,然后叙述了数据清洗的意义,对数据清洗的现状进行了分析,给出了目前数据 清洗系统的不足,接下来简单的介绍了a g e n t 技术,针对目前数据清洗存在的问题论述 了采用a g e n t 技术的解决办法,最后给出了本文的具体研究工作和论文的组织结构。 1 1 课题背景 本课题来源于国家海洋9 0 8 重点专项课题“海洋数据体系规划和海洋数据仓库构建 技术( 9 0 8 0 3 0 6 0 1 ) ”,该项目的目的是对各类海洋资源、环境、经济、管理等数据进行 统一的体系规划,构建统一标准的海洋数据库系统框架,实现国家、省市县等各级海洋 数据的有效管理;为海洋综合管理系三四三统和“数字海洋”原型系统建设提供有力的数 据支撑;解决海洋数据仓库构建和应用中的关键技术,开展海洋数据仓库主题分析,设 计海洋数据仓库体系结构,满足“数字海洋”海洋信息基础平台建设需要。为了更好的将 海洋数据仓库中的数据应用于决策分析,数据清洗是必不可少的也是十分重要的。 1 2 数据清洗的意义 在过去的3 5 年中,数据采集和数据库技术的发展产生了大量的历史数据库,这些 数据库中的数据往往由同样年代久远的信息系统产生和维护。由于这些信息系统本身的 设计以及当时各种技术的局限性,使得这些历史数据库中的数据的质量往往达不到现在 的各种应用程序的使用要求。因此需要采取一定的措施转换这些数据,使之符合新的应 用场景。 数据清洗不仅仅是一个技术问题。和所有硬件产品的质量问题一样,数据清洗不仅 包括技术,也包括策略。大多数数据质量问题可以在数据输入阶段发现和解决,我们称 之为预防阶段。在预防阶段,处理目标通常只是单条记录,因此只要具有充分的业务规 则就能基本保障录入数据的质量。然而我们面临的一个更为三迫切、更有意义的问题是 如何充分利用已经存在的大量历史数据和各种可用信息源中的数据。 今天的企业要求访问并综合来自各种信息系统的数据,从中获取更高级的知识为企 业决策提供支持。数据仓库和数据挖掘这样基于海量数据的应用正是为了满足这样的需 求。而建立数据仓库的过程中往往需要集成历史数据、现行数据、以及来自不同数据源 的各种数据。据统计,在建立数据仓库的过程中7 5 的工作量将投入到类似数据准备和 数据装载这样的后端事务中。数据仓库中数据质量的好坏是数据仓库应用成功与否的决 定性因素,许多数据仓库项目的失败就是因为对导入数据仓库的各种数据的质量缺乏足 一】一 东北大学硕士学位论文 第一章绪论 够的重视。因此建立数据仓库的过程中,需要有效的数据清洗技术手段和工具的支持, 以提高导入数据仓库的数据的质量。 7 1 3 数据清洗现状分析 上一小节中阐述了数据清洗的意义,本节将对数据清洗现状进行分析。 1 3 1 数据清洗研究调查 数据清洗通常认为是数据仓库( d w ) 、数据库中的知识发现( k d d ) 和数据信息质量 管理( t d q m ) 三个领域的数据准备阶段的步骤之一。尽管目前数据仓库、数据库中的知 识发现、数据信息质量管理等在理论和应用上都获得了极大的发展,但数据清洗作为极 其重要的、必不可少的组成部分,所作的研究仍旧十分有限。文献【l 】提出一个数据清理 框架,清晰地分离逻辑规范层和物理实现层。在此基础上,文献【2 】实现一个可扩展的数 据清理工具a j a x ,其实验结果证明了该框架的价值。文献【3 】提出数据清理的p o t t e r s w h e e l 是一个交互式系统框架,它紧密地集成数据转化和差异检测,具有自动检测依赖、 显示接口、自由文本抽取、u n d o 等功能。 国内对数据清洗系统的研究有:文献【4 】提出一种新的基于规则描述的交互式数据清 洗框架,解决以往数据清洗工具在工具和用户之间缺少交互、数据转化和数据清洗规则 缺少逻辑描述、缺少元数据管理三个方面的不足。文献【5 】提出一种可扩展的数据清理软 件平台,该平台具有开放的规则库和算法库,规则库用来存放清理规则,算法库用来存 放清理算法,算法库中包含多种算法,并可对其扩展。文献【6 】提出并实现一个可扩展的 数据清洗框架。该框架以术语模型、过程描述文件、共享库等概念和技术实现模块的高 度独立性和系统的可扩展性,并提供一个可视化的流程定义环境。文献【7 】提出一种可交 互的数据清洗框架的定义,系统提供方便、易用的可视化的数据清洗流程定义环境。文 献【8 1 设计一个基于领域知识的数据清洗框架,它在领域专家的支持下,通过抽样数据获 得清洗规则;专家系统引擎利用获得的知识,在整个数据集上进行清洗。该框架具有自 学习能力,在清理过程中不断的优化清洗规则。同时,知识库易扩展,具有良好的通用 性。 1 3 2 数据清洗工具调查 专门的数据清洗工具往往着眼于特定的业务领域、特定的数据清洗阶段或者特定的 数据质量问题。这些工具往往依靠某些规则库来指导数据清洗过程,或者通过与人的交 互来完成数据清洗过程。 特定领域的数据清洗工具 对于今天的许多企业来说各种各样的地址数据可能成为其业务的核心,随时能和客 一2 一 东北大学硕士学位论文第一章绪论 户、委托人或者供应商进行准确的联系对这些企业来说将显得非常的重要。高质量的地 址数据对企业的业务将给予巨大的帮助,它们不仅能够帮助企业与客户建立良好的关 系,而且可以为企业节省大量的时间和金钱。因此目前存在较多的名字和地址相关的数 据清洗工具。比如i d c e n t r i c ( f i r s tl o g i c ) ,p u r e i n t e g r a t e 9 1 ,q u i c ka d d r e s s ( q a s s y s t e m s ) 1 0 1 , r e u n i o n ( p i t n e y b o w e s ) ,n a d i s ,t r i l l i u m ( t r i l l i u ms o f t w a r e ) u 1 1 等都是这类工具。它们提供 的技术包括抽取名字和地址信息并将它们转换为符合标准的形式,验证城市、邮编、街 道等各种信息是否正确等。这些工具往往拥有较大的预定义的规则库专门用来处理这类 数据中经常出现的一些问题。比如,t r i l l i u m 的分析和匹配模块包括了超过2 0 0 ,0 0 0 条 业务规则,而且能够根据用户的需求加入新的业务规则。 特定阶段的数据清洗工具 。 最典型的是重复记录标识和去除相关的工具。这些工具包括d a t a c l e a n s e r ( e d d ) , m e r g e p u r g e l i b r a r y ( s a g e n t q m s o f t w a r e ) , m a t c h i t ( h e l p i t s y s t e m s ) , m a s t e r m e r g e ( p i t n e y b o w e s ) 等工具。通常这些工具都要求目标数据源己经经过一定的数据清洗,具备 了较好的数据质量,不会影响记录匹配过程。因此这些工具往往需要其他数据清洗工具 的配合。 e t l 中附带的数据清洗工具 存在大量的商业化工具支持数据仓库的e t l 过程 u ( e x t r a c t i o n ,t r a n s f o r m a t i o n , l o a d i n g ) 。比如c o p y m a n a g e r , d a t a s t a g e ,e x t r a c t ,p o w e r m a r t ,s a g e n t s o l u t i o n p l a t f o r m , w a r e h o u s e a d m i n i s t r a t o r 等许多工具。这些工具往往利用d b m s 来统一管理所有的元数 据信息,比如数据源信息、目标数据模式、映射关系、脚本程序等。数据模式和数据往 往通过d b m s 提供的一些工具或者标准的o d b c 编程接口从原始文件或者数据库中抽 取。提供了易于使用的图形环境来定义数据转换的流程。所有的转换操作由一个引擎来 驱动执行或者根据转换操作的定义在运行时解释执行。其中基于引擎的工具( 比如 c o p y m a n a g e r ,d e c i s i o n b a s e ,p o w e r m a r t ,d a t a s t a g e ,w a r e h o u s e a d m i n i s t r a t o r 等) 一般 存在一个调度器,支持具有复杂的执行依赖关系的转换流程。e t l 工具通常只有较少的 内建的数据清洗特性,但允许用户通过其私有的一些编程接口来定义某些数据清洗特 性,但即便如此,也非常有限。此外,e t l 工具往往不具备数据分析功能来检测目标数 据存在的错误和不一致情况。 1 4 目前数据清洗系统的不足 由上一小节中对数据清洗研究和工具的调查,可知随着数据仓库( d 、数据库中 的知识发现( k d d ) 和数据信息质量管理( t d q m ) 三个领域的发展,数据清洗的相关技术 也得到了很大程度的发展,但目前的数据清洗系统仍存在许多问题,具体可归纳如下: 一3 一 东北大学硕士学位论文第一章绪论 清洗系统的智能性差。人类发展到今日,已经越来越习惯于将工作交给电脑自 动完成,在数据清洗领域也是这样。目前的清洗系统仍不能将用户从枯燥的重 复性清洗工作中解脱出来,即使这一工作已经重复了很多回。目前清洗系统的 智能性差,但这并不是清洗技术的发展所能解决的问题,随着软件技术的进化, 由面向对象的方法到面向a g e n t 的方法,该问题可以得到有效解决。 缺少数据分析功能【1 3 】。目前大部分数据清洗系统都不具有数据分析功能,其清 洗规则基本是完全由用户定义的,这样的数据清洗系统如果是针对于特定领域 的,就对用户的领域知识和业务规则有相当高的要求,否则很难达到预期的清 洗效果;如果是比较通用的清洗系统,缺少了数据分析功能,用户也会长期处 于清洗规则的繁琐定义的困扰之中。即使有些具有数据分析功能的清洗系统也 会因为其智能性的问题导致数据分析功能的交互性差,由此得到的分析结果的 准确性就值得怀疑了。 系统与用户之间缺少交互。数据清洗系统与用户之间的交互必不可少,涉及到 清洗规则的交互定义、清洗过程中的异常实例数据处理,都需要与用户进行通 信,来获得用户的一种响应。而目前的数据清洗系统所能实现通信种类非常少, 并不能实现进行清洗工作需要的全部交互行为。 分布式清洗问题。数据源有可能是分布式的,这种分布可以是逻辑上的也可以 是物理上的分布;与之相应,清洗终端也可能是分布的。目前的清洗系统并不 能很好的处理分布式的清洗问题,主要是因为清洗终端之间缺少通信机制,由 此产生的清洗重复、实效、冲突等问题就尤为突出。 实时清洗问题。目前的清洗系统对于增量更新数据的清洗主要是集中在e t l 过 程中,也就是说如果没有进行e t l 过程,增量更新的数据是没有进行清洗过的, 如果e t l 过程在数据增量更新很长时间之后进行,那么数据不安全的隐患就会 存在很长时间,即目前的数据清洗系统缺少实时清洗的功能。 1 5a g e n t 技术简介 a g e n t 技术源自人工智能。一般认为a g e n t 是一个自治的实体【l 引,它能够感知环境, 并且对外界的信息做出一定的判断和推理,来控制自己的决策和行为,以便完成一定的 任务。a g e n t 技术可以应用于各个领域,如个人助理、信息搜索和远程网络管理等,它 为解决开放性、分布式和复杂性的问题提供了新的途径。 目前,a g e n t 已渗透到计算机科学和许多非计算机领域,所以,从一般意义上给出 适合所有领域的a g e n t 的严格而清晰的定义变得日益困难。因此,到目前为止,还没有 一个统一的、确切的a g e n t 定义。尽管如此,对a g e n t 的定义还是重要的。1 9 9 5 年, 一4 东北大学硕士学位论文第一章绪论 w o o l d r i d g e 1 5 】和j e n n i n g s 对a g e n t 做出了如下定义:a g e n t 是处在某个环境中的计算机 系统,该系统有能力在这个环境中自主行动以及实现其设计目标,a g e n t 的抽象视图如 图1 1 所示。在这个图中,可以看到a g e n t 为了影响其环境而产生动作输出,a g e n t 接 收从环境中感知的输入,并产生出动作作用于环境。这种交互通常是一个连续不断的过 程。在复杂性适度的环境中,a g e n t 不能完全控制自己的环境,最多只能部分地控制, 即对环境产生影响。 _ 传感器输入 外 部 l 环 | 境 动作输出一 图1 1a g e n t 抽象不葸图 f i g 1 1a b s t r a c td i a g r a mo f a g e n t 虽然不同的学者关于a g e n t 的概念和定义有所不同,但一般人都认为a g e n t 具有拟 人的职能特性,其属性如下: 自治。l 生( a u t o n o m y ) :a g e n t 运行时不受他人或者其它东西控制,它对它们自己 的行为和内部状态有一定的控制权,在没有外加控制的情况下,自行决策,采 取自主行为。 反应性( r e a c t i v i t y ) :a g e n t 可以感知他们的环境,并可以对环境发生的变化以及 时的方式做出反应,以满足他们的设计目标。 主动性( p r o a c t i v e ) :a g e n t 不仅对环境变化做出反应,而且在特定情况下采取主 动行为,这种自身采取主动的能力需要a g e n t 有严格定义的目标。 学习。i 生( l e a m i n g ) :a g e n t 能够根据其内部知识库进行学习和改进。 社会。陛( s o c i a l i t y ) :a g e n t 能够进行交互,通过互相通讯,分工合作,协同求解, 组成多a g e n t 社会群体,共同完成预定的任务。 移动性( m o b i l i t y ) :a g e n t 能够从一个地方移动到另一个地方执行任务,包括获 取信息,查询数据,传递消息,提取知识,采取行动等。 a g e n t 技术是一门比较新的技术,其标准化的制定一直由f i p a 来完成。f i p a 全称 为f o u n d a t i o nf o ri m e l l i g e n tp h y s i c a la g e n t s ,是一个非营利组织,与1 9 9 6 年建立于瑞士 日内瓦。当初建立的目的是为了提高异构a g e n t 系统之间的交互性,并为此制定了一系 列的技术规范,从体系结构、通信语言、内容语言到交互协议。f i p a 的主要思想是通 过融合言语行为理论、谓词逻辑及公共的本体论,来提供一个标准的方法以理解a g e n t 一5 一 东北大学硕士学位论文 第一章绪论 之间的交流。f i p a 是一个可以公开利用的规范,它不是一项特定的应用技术,而是针 对不同应用领域的通用技术;它也不是一项独立的技术,而是一套基本技术集,该技术 集使得开发者可以开发出具有高度协同能力的复杂系统。目前最新的公开标准f i p a 2 0 0 0 。f i p a 对a g e n t 的标准化作的贡献具体有以下几方面: 中间件支持。包括a g e n t 的注册、定位服务,通信服务,移动性及安全性支持。 a g e n t 通信语言。包括语义、交互协议、责任等。 和本地软件的交互。将企业遗留系统或数据库包装起来。 a g e n t 与人的交流。定义了交流内容与交流方式。 1 6a g e n t 技术在数据清洗中的作用 上节中简单的介绍了a g e n t 技术的起源以及a g e n t 应具有的属性,a g e n t 技术在数 据清洗领域的应用是非常有研究价值的,因为a g e n t 技术已经成功的应用于许多其他领 域【1 6 , 1 7 】,而其在数据清洗领域中应用的研究基本还是空白,在1 4 小节中列出了目前的 数据清洗系统的不足之处,在本节中将结合a g e n t 的特点来分析采用a g e n t 技术解决目 前问题的可行性。 ( 1 ) 针对智能性差的问题 采用a g e n t 技术可以有效解决这一问题,因为a g e n t 技术主要解决的问题之一就是 东北大学硕士学位论文第一章绪论 在面向对象的方法中,就可以看出软件设计对智能性的需求,因为对象就是对现实 世界中事物的抽象,相对于对象而言,a g e n t 是一个粒度更大、智能性更高、具有一定 自主性的实体。但是两者也有许多共同点,例如封装性、继承性和多态性。因此有些学 者认为面向a g e n t 软件技术( a o s t ) 是面向对象软件技术( o b j e c to r i e n t e ds o f tt e c h n i q u e 简称o o s t ) 方法的一种特例。o o s t 的对象的内部状态被a o s t 称为心智状态,例如知 识、信念、承诺、目标等,每一种心智状态都有其一定的含义。对象之间的消息传递被 基于言语动作的通信原语所取代,例如通知、请求、承诺、拒绝等。但实际并非如此, a o s t 区别于传统技术的主要特征是:它所具有的自制能力、智能和目标驱动属性,能 够通过各种社交、学习、推理等方法感知和适应复杂的动态环境,具有自动追求目标的 能力。a o s t 技术也是o o s t 技术的发展,具有强大的开放性、灵活性、适应性和协作 性。传统的o o s t 没有意图,它是被动地表示o o s t 设计者的信念。o o s t 程序的执行 过程是按照o o s t 程序设计人员的预先设想进行的,o o s t 的问题求解过程是设计人员 自身信念的实现过程。 目前的数据清洗系统都基于面向对象的概念设计实现的,综上所诉,可以得出即使 以往的数据清洗系统具有一定的智能性,它也是按系统设计人员预先设想好的,它的智 能性是有限度的,有瓶颈的。而基于a o s t 的数据清洗系统自身具有信念的同时,还具 有意图、承诺和知识等。不仅系统中各a g e n t 具有学习能力,而且当单独的a g e n t 无法 完成任务时,它还会与其他a g e n t 相互协商与协作来共同完成任务,这是面向对象的设 计方法无法到达的智能程度,所以采用a g e n t 技术来提高数据清洗系统的智能性【l9 】是必 要的也是可行的。 ( 2 ) 针对缺少数据分析功能的问题 数据分析【2 0 j 的功能是自动检测一些常见的并且易于自动发现和处理的错误,结合领 域知识来发现一些常规的清洗规则,这样不仅可以减少用户的工作量,还可以提高数据 清洗系统的自动化程度。目前独立的数据分析系统都是基于专家系统引擎的,被集成到 数据清洗系统中的数据分析功能可以说是数据分析系统的一个缩影,它也是基于专家系 统的,但一般都还处于理论阶段。所谓的专家系统就是一个具有智能特点的计算机程序, 它的智能化主要表现为能够在特定的领域内模仿人类专家思维来求解复杂问题。因此, 专家系统必须包含领域专家的大量知识,拥有类似人类专家思维的推理能力,并能用这 些知识来解决实际问题。 由以上专家系统的特点可以看出其关键是如何模拟人类专家的思维及推理能力,所 以专家系统必不可少的两部分是包含大量领域知识的知识库和具有分析推理能力推理 机,以此来实现其拟人的特性,即智能性。所以专家系统的关键就是智能性的实现,在 上一个问题中本文已经解释了a g e n t 是如何实现系统的智能性,就数据分析功能而言, 一7 一 东北大学硕士学位论文第一章绪论 a g e n t 的学习性、反应性等特性也可以很好的实现其智能性。由此可见数据分析功能对 于数据清洗系统是很必要的,采用a g e n t 技术来实现数据分析功能也是可行的。 ( 3 ) 针对于系统与用户之间缺少交互的问题 清洗规则的定义实际是一个迭代的过程,其中需要用户的参与来制定;在执行清洗 时,如果出现了异常的实例数据清洗规则处理不了时也需用户来参与处理,并且用户也 希望可以对整个清洗过程进行一定的控制。以上的实际情况都是系统与用户之间交互的 体现,如果交互机制不好,清洗的效果就会不理想。采用a g e n t 技术来实现数据清洗系 统就可以很好的解决这一问题,在上一节中本文介绍了f i p a 规范,在规范里,f i p a 已 经制定了a g e n t 与人交流的标准,所以采用a g e n t 技术来解决数据清洗系统与用户之间 的交互问题也是非常可行的。 ( 4 ) 针对于分布式清洗问题 a g e n t 技术适用的一大领域就是针对分布式问题的,下面详细说明a g e n t 技术为何 可以解决分布式的数据清洗问题。由于分布式数据清洗的需求较少,目前的数据清洗系 统在遇到分布式的清洗需求时都会出现一些问题,造成问题的原因不仅是因为不同的系 统环境或异构的数据源,还有很多是因为清洗终端之间缺少有效的通信机制和协调机 制。在上一个问题的叙述中可以了解到f i p a 已经对a g e n t 之间的通信进行了规定,这 里给出f i p a 在a g e n t 的消息传输服务上定义的一组最小需求: 正常情况下消息服务是可靠、准确、有序的。 如果消息服务不能保证以上的要求,将通过消息服务界面以某种方式表现出来。 a g e n t 将能选择是否暂停以等待消息结果,或同步执行其他无关任务。 传递消息动作参数。比如可以指明等待回复消息的最长时间。 消息传递服务将负责向a g e n t 汇报出错情况。如超时或接受a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论