




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)基于多agent的商务智能系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多a g e n t 的商务智能系统研究 摘要 随着企业信息化的推广,业务数据的增多,商务智能成为研究的热点。目 前,学术界提出了一些商务智能模型,许多i t 公司也推出了自己的商务智能产 品。但是以上模型或产品存在主动性差、智能性较低和系统集成困难等缺陷, 因此本文利用现有的多a g e n t 技术建立了一个商务智能系统m a b i s ,力图弥补 现有商务智能系统存在的缺陷,减少对用户的依赖性。 文中给出了一个基于多a g e n t 技术的商务智能系统m a b i s 及其系统架 构,分析了m a b i s 系统的工作流程和模型的可扩展性。该系统由领域库、数据 仓库以及m a s 子系统组成。本文引入了用户a g e n t ( u s e ra g e n t ) 、监控采集a g e n t ( m o n i t o r & c o l l e c ta g e n t ) 、挖掘分析a g e n t ( d m & o l a pa g e n t ) 和协同管理器 ( c o h e r e n tm a n a g e r ) 等功能部件,给出了各部件的功能和结构,并讨论了领域 库的组织、e c a 规则的x m l 描述方法和a g e n t 的实现等关键技术问题。 最后,本文结合出版业的行业现状,分析了在出版业应用商务智能的问题, 实现了一个原型系统并给出了一个应用实例。 关键词:商务智能( b i ) a g e n tm a s 。3 复旦大学硕士学位论文 基于多a g e n t 的商务智能系统研究 a b s t r a c t a st h ep o p u l a r i z a t i o no fi n f o r m a t i o n i z a t i o ni nt h ee n t e r p r i s e sa n dt h ei n c r e a s eo f b u s i n e s sd a t a ,b u s i n e s si n t e l l i g e n c eb e c o m e sar e s e a r c hf o c u s u pt on o w , s o m e r e s e a r c h e r sh a v eg i v e nb u s i n e s si n t e l l i g e n c em o d e l sa n dm a n yi tc o m p a n i e sh a v e r e l e a s e dt h e i rb u s i n e s si n t e l l i g e n c ep r o d u c t s b u tt h e s em o d e l sa n dp r o d u c t sh a v e s o m ed e f e c t si ni n i t i a t i v e ,i n t e l l i g e n c ea n di n t e g r a t i o n s oab u s i n e s si n t e l l i g e n c e m o d e 卜m a b i sb a s e d0 1 1c u n e n tm u l t i a g e n tt e c h n o l o g yi sp r o p o s e di nt h i sp a p e r w i t ht h i sm o d e l w et r yt os u p p l yag a pf o rt h ea b o v ed e f e c t s ,r e d u c et h ed e p e n d e n c e o nu s e r t h i sp a p e rp r o p o s e sab u s i n e s si n t e l l i g e n c es y s t e mb a s e do nm u l t i 。a g e n t t e c h n o l o g yn a m e dm a b i s ,g i v e si t sa r c h i t e c t u r ea n da n a l y z e sb o t ht h ew o r kf l o w a n de x p a n s i b i l i t yo fs y s t e m t h em o d e li sc o m p o s e do fd o m a i nb a s e 、d a t a w a r e h o u s ea n dm a s s u b s y s t e m s o m ef u n c t i o n a lc o m p o n e n t ss u c h a su s e ra g e n t 、 m o n i t o r & c o u e c t a g e n t 、d m & o l a p a g e n ta n d c o h e r e n tm a n a g e ra r ei n t r o d u c e di n t h es y s t e m t h i sp a p e rd i s c u s s e st h ef u n c t i o na n ds t r u c t u r eo fe v e r ya g e n t t h e ni t g i v e st h et e c h n o l o g yd e t a i l so ft h eo r g a n i z a t i o no fd o m a i nb a s e ,t h ed e s c r i p t i o n m e t h o do fe c ar u l e su s i n gx m la n dt h er e a l i z a t i o no f a g e n t s a tl a s t ,c o n s i d e r i n gt h es r u m i o no fp u b l i s h i n gf i e l d ,t h i sa r t i c l ed i s c u s s e sh o wt o a p p l ym a b i s i nt h i sf i e l da n dg i v e saa p p l i c a t i o ne x a m p l e k e yw o r d s :b u s i n e s si n t e l l i g e n c e ,a g e n t ,m a s 4 复旦大学硕士学位论文 4 基于多a g e n t 的商务智能系统研究 前言 2 0 世纪随着大规模存储设备、快速存取技术的飞速发展和企业信息化的深 入,积累了大量的企业数据,信息成为企业发展至关重要的因素。为了提高企业 的核心竞争力,企业管理者需要及时准确地了解经营信息以便及时做出正确决 策,因此许多企业都建立了基础的信息系统,如客户关系管理系统( c u s t o m e r r e l a t i o nm a n a g e m e n t ,c r m ) 、企业资源管理系统( e n t e r p r i s er e s o u r c ep l a n n i n g , e r p ) 。 以上系统提高了企业经营数据的收集和处理能力,加快了企业经营和管理信 息化的步伐,但是并没有充分利用企业数据,在对企业管理者的决策支持 ( d e c i s i o ns u p p o r t ) 方面存在很大局限性。国家财政部的一项统计表明,目前中 国8 0 以上的大中企业已实现财务电算化,积累了大量的业务数据,但这些数据 的有效利用率却不足7 。为了让企业从大量的数据中较快地分析出有价值的信 息,更好地实现决策支持,商务智能( b u s i n e s si n t e l l i g e n c e ,b i ) 应运而生。b i 通过分析企业的日常业务数据,提取隐含在数据中的信息,从而帮助管理者在经 营、规划和管理方面做出及时正确的决策。 目前众多r r 厂商大力开发b i 产品,使得b i 技术切实为企业创造价值。i b m 成立了商务智能方案设计研究中心,b u s i n e s so b j e c t s 、o r a c l e 、i n f o r m i x 、c o g n o s 和c a 等知名r r 公司也相继推出了b i 产品,并在许多企业中应用,为这些企 业创造了价值。 虽然现有b i 产品得到了市场的肯定,但是这些产品在主动性、智能性和系 统集成方面还有进一步改进的空间。 基于以上考虑,本文分为5 个章节,提出了一个基于多a g e n t ( m u l t i a g e n t s y s t e m ,m a s ) 的商务智能系统,对其中的关键技术进行了分析和设计,希望 能够为商务智能的发展提供有价值的想法。 第一章,介绍了b i 的概念和当前主流的b i 产品;分析了实现b i 的关键技 术,包括数据仓库( d a t a w a r e h o u s e ,d w ) 、数据挖掘( d a t am i n i n g ,d m ) 和联机分析处理( o n l i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) ;介绍了a g e n t 和m a s 的技术现状。 第二章,针对现有b i 系统的不足,提出了基于m a s 的b i 系统m a b i s 。 本章分析了该系统的优点;详细介绍了m a b i s 系统的架构、系统各部分的功 能和结构;在此基础上介绍了该系统的工作流程。 第三章,介绍了实现m a b i s 的关键技术,分析了m a b i s 系统各部分的实 现细节;给出了规则的描述方法以及基于规则的推理过程;介绍了各a g e n t 的 设计。 5 复旦大学硕士学位论文 5 基于多a g e n t 的商务智能系统研究 第四章,结合出版业的行业现状,探讨了在出版业应用商务智能的优势以 及实施本系统的关键问题,包括数据仓库、知识库和规则库的建立。 第五章,总结本文,并就本文尚未解决的一些问题的研究前景进行了展望。 论文的最后是参考文献以及致谢。 6 复旦大学硕士学位论文 6 基于多a g e n t 的商务智能系统研究 1 1 商务智能概述 第一章引论 目前学术界对于商务智能没有统一的定义。早在1 9 8 9 年,g a r t n e rg r o u p 提 出了商务智能概念,他认为“商务智能是将数据转换成信息的过程,然后通过发 现将信息转化为知识”【1 】。随后i b m 在2 0 0 0 年正式推出了一项商务智能的企 业级启动计划。随着商务智能的发展,由于人们对其观察角度不同,其定义也多 种多样。通过总结目前比较通行的定义,可以认为商务智能的定义大致分为两类: 1 1 企业角度 商务智能是指一种通过智能地使用企业的数据来制定更好的商务决策的能 力。企业的决策者运用联机分析处理工具和数据挖掘工具结合自身的行业知识, 从数据仓库中发现有价值信息,进而帮助企业创造利润,提高生产力与竞争力。 2 ) 学术角度 商务智能是一种集合了数据仓库、数据挖掘和联机分析处理技术,对企业数 据进行挖掘分析的解决方案。商务智能通过对企业数据的搜集、管理和分析,将 日常的业务数据以及其他相关数据转化为信息,帮助管理者做出正确决策,提高 企业竞争力。 综上所述,我们认为,商务智能通过运用数据仓库、联机分析处理和数据挖 掘技术来对业务数据进行分析,从中得到支持业务决策的有用信息,以对业务决 策进行支撑。 商务智能的技术体系主要包括三个部分:数据仓库、数据挖掘和联机分析处 理。其中数据仓库作为进行进一步分析的数据源,是商务智能的基础。数据挖掘 是利用统计学、机器学习等挖掘技术对数据仓库中的数据进行高度自动化的分 析,得出潜在模式和关系的过程。联机分析处理技术通过多维数据立方体技术帮 助管理者从多种角度审视数据,得出符合管理者需求的准确的结论。其体系结构 如图1 - 1 所示: 图1 - 1b i 系统的体系结构 7 复旦大学硕士学位论文 基于多a g e n t 的商务智能系统研究 1 2 现有商务智能产品介绍 如今r r 界已经认识到b i 的巨大潜力,许多厂商相继推出了b i 产品。在市 场上,比较成熟的b i 产品和解决方案大多都是来自于国际厂商。国内b i 提供 商如博科、金蝶、用友等虽然也都发布了b i 产品,但产品只是一个框架,只有 简单的几个模块或者只是开发简单的商务智能工具。目前商务智能产品的主要 提供商有:b u s i n e s so b j e c t s 、c o g n o s 、m i c r o s t r a t e g y 、c a ( c o m p u t e r a s s o c i a t e s i n t e r n a t i o n a l ,i n c ) 、o r a c l e 、i b m 和s a s 等。 b u s i n e s so b j e c t s 的b i 产品主要集中在前端展示方面,包括挖掘、查询和报 表工具。虽然该公司不提供数据仓库产品,但是其产品可以很好地支持大部分 数据仓库,所以该公司的产品有较好的通用性,在前端工具市场中占据了较大 的份额。该公司的产品有:通过w c b 方式进行查询分析和报表生成的 w e b i n t e l l i g e n c e ;用于集成查询分析和报表生成的b u s i n e s s o b j e c t s ;可以挖掘数 据之间深层次关系的数据挖掘工具b u s i n e s s m i n e r 。 c o g n o s 的b i 产品比较齐全,有良好的前端展示产品,同时也有后端数据 分析与挖掘产品。c o g n o s 的产品包括:用于数据挖掘的s c e n a r i o ,联机分析处 理工具p o w e r p l a y 和用于数据查询和报表生成的i m p r o m p t u 。 m i c r o s t r a t e g y 公司开发的商务智能平台是第一个企业级集成商务智能平 台,支持多个l i n u x 和u n i x 操作系统。该公司b l 产品的全球客户超过1 ,5 0 0 家,世界排名前2 0 0 位的零售业巨头中的半数以上使用m i c r o s t r a t e g y 商务智能 平台。拥有自己的o l a ps e r v e r 产品的m i c r o s t r a t e g y 在处理海量数据方面有很 大优势。产品具备良好的扩展性,另外该产品全面公开的s d k , 包括面向对象 的2 0 0 0 多个方法( m e t h o d ) 和属性( p r o p e r t y ) ,使得产品适合软件集成和改造。 该平台还提供及时的个性化报表传播投递和信息警报。 c a 是全球最大的管理软件公司,提供较为完善商务智能解决方案,包括 数据仓库产品。该公司产品主要有三大品牌:a d v a n t a g e 、c l e v e r p a t h 和a u f u s i o n 系列。c a 拥有自己的联机分析处理工具c l e v e r p a t ho l a p ,可以对大量的关系 数据库中的数据进行分析,从多个异构的数据库中获取分析的数据,为多维视 图和分析处理提供了直接访问关系数据库的“虚拟立方体”。同时c a 提供了基 于规则的推理引擎c l e v e r p a t h a i o n ,该产品可以与不同的专家知识系统搭配应 用于金融、电信等领域。在数据仓库方面,c a 提供数据库数据仓库建模工具 a l l f u s i o n e r w i n m o d e l i n g s u i t e ,可以协助用户可视化地确定合理的结构、关键 元素,并优化数据库。 o r a c l e 作为全球最大的数据库厂家之一,一直致力于提供数据库平台以及 数据仓库相关产品,为构建完善的商务智能和数据仓库解决方案提供了技术基 8 复旦大学硕士学位论文 基于多a g e n t 的商务智能系统研究 础。o r a c l ew a r e h o u s eb u i l d e r 具有数据建模、抽取、装载和元数据管理等功能, 可以帮助用户建立和维护数据仓库。o r a d e 的b il o g 提供集成的查询、制作报 表、分析、数据集成功能,能够帮助用户快速开发和部署数据仓库。此外基于 互联网的绩效管理系统o r a c l eb u s i n e s si n t e l l i g e n c es y s t e ml l i ( b i s ) 提供了一 种可以对公司绩效进行管理的架构,可以对来自o r a c l e 电子商务套件中各应用 软件的数据进行复杂分析,帮助用户更快更好地做出决策,同时b i s 还可以帮 助用户对公司各领域的业绩进行监督,并在业绩指标超出允许范围时提示用户。 但是b i s 需要和o r a l c e 的其它电子商务套件如e r p 应用软件和c r m 应用软件 集成,才能构成企业的商务智能解决方案,因此有一定的局限性。 i b m 提供一套基于可视化数据仓库的b i 解决方案,该解决方案具有很强 的集成能力,其数据挖掘、联机分析处理和数据查询都可以使用第三方工具。 内置了联机分析处理功能的i b md b 2 是b i 解决方案的基础。e s s b a s e d b 2 o l a ps e r v e r 可以对多维数据库进行联机分析处理。数据挖掘工具集m m e n t e r p r i s ea n a l y t i e s 可以进行实时数据挖掘分析,并发现普通文档等载体中的 信息。 s a s 是全球最大的私人软件公司,拥有3 5 0 多万用户。s a s 的b i 产品以 数据处理和分析见长。s a s a c c e s s 支持异质异构数据库之间的数据查询和分析。 用户可以利用集成管理工具s a s w a r e h o u s e a d m i n i s t r a t o r 建立和维护数据仓库。 数据挖掘方面,拥有图形化界面的集成软件s a s e n t e r p r i s em i n e r 向用户提供取 样、筛选和挖掘等工具。联机分析处理方面,s a s 提供了s a s e i sm e t a b a s e 和 s a s m d d bs e r v e r ,分析结果通过s a s e i s 和s a s e n t e r p r i s eg u i d e 等前端工具 展示给用户。 学术界一些学者包括s i m o nf o n g 2 ,j u n - j a n gj e n g 3 等人提出了商务智能 模型。 文献2 中提出了一个基于a g e n t 的b i 框架。该框架利用建立在w e b 服务器 上的模块获取用户的访问信息,通过a g e n t 分析用户行为、偏好和资源的受欢 迎程度等商务信息。由于该框架主要采集和分析用户的相关信息,对环境中其 他的商业信息如产品信息、销售信息和业务流程关注不够。所以该框架对决策 者的支持较片面,并没有体现商务智能强大的决策支持能力。 文献3 提出了一个针对实时企业的基于a g e n t 的b i 模型。该模型分析商务 过程的状态和性能,帮助用户鉴别情形和意外以得到最佳商务回报,并可以根 据用户的决策触发合适的商务行动。该模型的弱点在于通过业务系统感知环境 的变化,因此需要进行复杂的集成,导致实施较为困难。 9 复旦大学硕士学位论文 9 基于多a g e n t 的商务智能系统研究 1 3 商务智能的应用 如今欧美的企业已经认识到商务智能的重要意义,很多财富5 0 0 强公司建 立了商务智能数据库。但是商务智能在中国的发展尚处于起步阶段,很多企业 对商务智能仍然缺乏必要的了解,目前只有宝钢、海关以及一些银行和电信公 司进行过或正在进行商务智能项目的实施。 虽然中国企业在商务智能的应用方面才刚刚起步,但市场空间十分广阔。 i d c 预测,亚太地区商务智能软件市场正以每年2 3 的速度增长,2 0 0 6 年将达 到3 3 亿美元,而中国是亚太地区商务智能增长最为迅速的市场之一;如果中国 经济继续保持高速增长,商务智能软件在中国内地市场的年销售额平均增长速 度至少在6 5 6 。b u s i n e s so b j e c t s 和c o g n o s 等b i 提供商已直接或者通过其代 理商进入中国市场,b u s i n e s so b j e c t s 等公司成立了中国研究中心,其对中国市 场的重视程度可见一斑。i d c 公司认为医疗、教育和服务等领域将是商务智能 增长最快的行业。 目前商务智能在全球的应用主要集中在保险业、银行业、电信业、制造业、 零售业、税务和电子商务等领域。 1 1 保险业:分析客户的需求,根据客户的消费特征开发新的保险业务;根据 险种的业务情况,合理制定赔付率;根据分支和代理结构的业务情况,合 理制定销售计划;根据投保品种、投保人、险种等历史数据,使保险公司 合理设定储备金数额,分析赔偿金标准。 银行业:根据客户类型和信贷历史记录合理划分客户群,并针对该客户群 的信用度和还款特征,建立科学的信贷发放模型,以便早期警告决策者避 免出现信贷危机;根据信贷历史记录,预测信贷政策变化造成的影响,以 减少信贷损失。 3 1 电信业:分析客户的特征和消费倾向,开发个性化产品,制定更有针对性 的营销策略;分析产品销售情况,确定高收益产品并合理调整产品结构; 分析产品销售的时间特征,预测未来的产品需求。 4 1 制造业:通过扫描数据预测需求;通过信息分析在订货的品种和数量上做 出更快、更合理的决定;帮助采购员实时了解供应商之间的成本差异;帮 助配送中心管理增加的业务量,合理安排出、入货;支持运载计划和运输 路线计划的优化;实现合理的库存水平。 5 ) 零售行业:分析各分店、各商品的销售情况,寻找销售额与价格、时令和 地段之间的潜在关系,从而合理调配商品,合理定价,并预测各时间段的 销售趋势;分析具体的销售数据,了解客户特征,从而采取合理的促销手 段。 1 0 复旦大学硕士学位论文 1 0 基于多a g e n t 的商务智能系统研究 6 1 税务行业:对偷税漏税的企业进行跟踪,监控其行为;分析不同行业和市 场中纳税人的特征,寻找潜在规律,帮助政府制定更合理的征税策略;并 通过历史数据的分析,预测各行业和市场的应收税额,从而制定合理的征 收计划。 7 、电子商务行业:通过分析商品的销售情况和消费倾向,有针对性地制定高 效的商业战略;通过分析客户行为,优化网站经营模式。 从以上用途我们可以看出,b i 技术既能真实反映企业业务的状况,也能支 持决策,是联系业务系统与决策者的纽带。其功能总结如下: 1 1 集成海量数据 对企业不同数据源中的数据进行收集、清洗和转化,并在此基础上建立数据 仓库,便于海量企业数据的存储和维护。 。 分析挖掘数据 利用数据挖掘和o l a p 技术对数据仓库中的数据进行处理,可以发现企业数 据中潜在的关系和规则。 3 1 决策支持 挖掘数据,并能够以快捷方便的方式向决策者提供所需信息,帮助决策者 根据已有数据科学预测将来的趋势,并做出决策。 1 4 相关技术 1 4 1 数据仓库 上世纪8 0 年代,w h i n m o n 提出了数据仓库( d a t aw a r e h o u s e ) 的概念: “数据仓库是一个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e d ) 、不同 时间的( t i m e v a r i a n t ) 、稳定的( n o n v o l a t i l e ) 数据集合”。数据仓库的产生 是为了解决信息技术发展导致的数据大量积累而有用信息却不足的问题,并在 此基础上利用这些数据支持管理部门的决策。由定义我们可以看出数据仓库具 有以下四个特征【4 ,5 1 : 面向主题性:数据仓库不是照搬企业的日常业务数据,摒弃了对于决策无 用的数据。数据仓库内数据按照特定主题进行组织,如客户、产品、采购和销 售等等。数据仓库基于主题为决策过程提供支持。 集成性:数据仓库中每个主题的源数据分散在不同的数据库中,可能存在 重复或者不一致的现象。因此,数据仓库中的数据不能从原有的数据库中直接 采集。一般说来,数据仓库的数据是基于多个异质异构的数据源,如关系数据 1 1 复旦大学硕士学位论文 基于多a g e n t 的商务智能系统研究 库和一般文件,使用数据清洗和数据集成技术进行转换,然后加载进入数据仓 库的。通过以上的集成操作来确保命名和数据结构的一致性。 时变性:随着外界数据源的变化,数据仓库在其整个生命周期中也是变化 的。它不断增加有价值的新数据,同时删除旧的数据内容,因此它包含不同历 史时期的数据集合,并隐式或显式地标明数据的时间属性。 稳定性:如上所述数据仓库本身是随着时间而变化的,因此数据仓库可以 认为是不同时间点的数据库快照的集合,数据仓库中的具体数据都对应个特 定的时间。因此,一般情况下并不对数据进行修改操作,只有当其超过存储期 限或没有利用价值时才将其删除,而从加载进入到最终被删除这段时间内,该 数据保持不变。 作为一个热门的研究领域,数据仓库的理论和应用都发展得很快,学术界 和大型r r 公司都在这个领域进行了广泛深入的研究。一个典型的数据仓库的数 据体系结构如图1 2 所示: 图1 - 2数据仓库体系结构 其中数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综 合级。源数据经过转换、综合后,首先进入当前细节级,并根据具体分析需要 进行进一步的综合从而进入轻度综合级、高度综合级。另一方面老化的、访问 频率低的数据由当前细节级进入早期细节级。 为了理解数据仓库的构造过程,下面简要介绍数据仓库中其他相关的概念: 1 1 主题( s u b j e c t ) 主题是数据仓库中的数据综合、归类并进行分析利用的抽象。在逻辑意义 上,它是企业中用户使用数据仓库进行决策时所关心的重点方面,某一宏观分 析领域所涉及的分析对象。 2 1 元数据( m e t a d a t a ) 元数据用来描述数据的定义,是数据的数据,包括开发,维护和查询数据 仓库时所需的必要信息。元数据可以以普通的文件或者数据库的方式存储。 元数据分为技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s s m e t a d a t a ) 两类。其中技术元数据包括数据源定义、数据仓库的逻辑模型、数 1 2 一复旦大学硕士学位论文 1 2 茎 基于多a g e n t 的商务智能系统研究 据仓库数据与源数据之间的对应关系和转换规则等数据;业务元数据包括业务 术语所对应的数据模型、报表信息、面向主题的分析模型等数据。 3 1 粒度( g r a n u l a r i t y ) 粒度代表数据的细节化程度。粒度越大,数据的汇总程度越高;反之,汇 总程度越低。 1 4 2 数据挖掘 数据挖掘( d a t am i n i n g ) 这一术语最早出现在1 9 8 9 年删的k d d ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 专题研讨会上。随着企业数据的急剧增多, 决策者希望方便地获取数据中潜在信息,于是数据挖掘得到了日益广泛的应用。 数据挖掘是一个萃取和展现以往无法探知的新知识的流程,这些新知识来自数据 库并为决策提供服务,是具有潜在应用价值的模型或规贝3 j 6 1 。 数据挖掘涉及多个技术领域,它利用人工智能( a r t i f i c i a li n t e l l i g e n t ) 、机器 学习( m a c h i n el e a r n i n g ) 、统计学( s t a t i s t i c s ) 、神经网络( n e u r a ln e t w o r k ) 、数 据库( d a t a b a s e ) 、模式识别( p a t t e r nr e c o g n i t i o n ) 和粗糙集( r o u g hs e t ) 等技术, 深度分析数据,从中挖掘出潜在的信息。挖掘的结果通常有以下形式:概念 ( c o n c e p t s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 、约束( c o n s t r a i n t s ) 和可视化( v i s u a l i z a t i o n s ) 。 数据挖掘活动主要有模式发现、预测建模和分析评价三类。模式发现是根 据历史数据,寻找隐藏在其中的模式:预测建模是利用所发现的模式结合当前 数据来预测未来发展趋势;分析评价是应用发现的模式和当前数据发现异常现 象。所利用的技术可以分成三大类:统计分析类、知识发现类和其他类型【7 】。 1 1 统计分析类 使用的数据挖掘技术主要有:线性分析、非线性分析、回归分析( 多元回 归、自回归等) 、判别分析( 贝时斯判别、非参数判别等) 、聚类分析( 系统聚 类、动态聚类等) 、探索性分析( 主元分析法、相关分析法等) 。 2 ) 知识发现类 使用的挖掘技术有:神经网络( 前向神经网络、自组织神经网络) 、决策树、 遗传算法、粗糙集、规则发现等。 3 ) 其它挖掘技术类 挖掘技术包括:文本数据挖掘、分类系统、可视化系统、空间数据挖掘和 分布式数据挖掘等。 下面简要介绍7 种常用的挖掘技术: 1 ) 决策树方法 8 】 - 1 3 复旦大学硕士学位论文 基于多a g c t 的商务智能系统研究 用树形结构表示决策集合。首先利用信息熵寻找数据库中具有最大信息量 的字段,作为决策树的一个节点,根据字段的不同取值建立树的分支。然后在 每个分支中,重新建立下层节点和分支,即可建立决策树。 2 ) 神经网络【9 】 模拟人脑神经元结构,通过训练来学习。可以完成分类、聚类等多种数据 挖掘任务。 3 ) 遗传算法 1 0 1 模拟生物进化过程,它是基于群体的、具有随机以及定向搜索特征的迭代 过程。这些过程有基因组合、交叉、变异和自然选择4 种典型算子。为了应用 遗传算法,需要把数据挖掘任务转换成为搜索的问题,以便发挥遗传算法的优 势搜索能力。 4 ) 粗糙集【1 1 】 这种方法是研究信息系统不确定、不精确问题的有效手段,它是基于等价 类的思想。基本方式是用粗糙集近似的方法将信息系统中的属性值进行离散化, 对每一个属性进行等价类划分,然后利用集合的等价关系进行信息系统的约简, 最终得到一个最小决策关系以便获得规则。 5 ) 可视化技术 1 2 1 采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者。可视 化技术包括数据、模型和过程的可视化。 数据挖掘的过程涉及数据准备、模式分析、结果评价以及重复求解;数据 挖掘的最终结果要以用户可以理解的方式展现f 1 3 】。数据挖掘过程一般分为五 个步骤 1 4 1 : 1 ) 分析挖掘目的,确定研究对象:这是数据挖掘重要的一步。研究对象是数 据挖掘的基础,它不仅驱动整个数据挖掘过程,也是检验结果的依据。 2 ) 数据准备:细分为数据集成、数据选择和预处理三个步骤。数据集成是将 各数据源中的数据进行合并处理,解决语义冲突等问题。数据选择是辨别 需要分析的数据集合,缩小范围,提高挖掘质量。预处理是为了克服目前 数据挖掘工具的局限性。 3 1 数据挖掘:综合利用上述分析方法对所得到的经过转换的数据进行挖掘。 4 ) 结果表达和评价:以直观的、便于用户理解和观察的方式表达挖掘结果。 这个步骤不仅要把结果表达出来,还要对信息进行过滤处理。如果用户对 结果不满意。需要重复上述过程。 5 ) 知识同化:将分析所得的知识集成到业务信息系统的组织结构中。 1 4 复旦大学硕士学位论文 1 4 基于多a g e n t 的商务智能系统研究 1 4 3 联机分析处理 1 9 9 3 年关系数据库之父e e c o d d 提出了联机分析处理( o n l i n ea n a l y t i c a l p r o c e s s i n g ,o l a p ) 的概念,他认为o l a p 是一种用于对海量数据汇总和分析 的技术,以便用户能够更快地从数据中获得信息。c o d d 提出1 2 条准则来描述 o l a p 系统,包括o l a p 模型必须提供多维概念视图、透明性准则、存取能力 推测、稳定的报表能力、客户服务器体系结构和维的等同性准则等等 1 5 1 。 o l a f 区别于传统的联机事务处理( o n - l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) , 后者是基于关系型数据库进行基本的事务处理。而o l a p 是基于数据仓库系统 的应用,在历史数据的基础上进行复杂的分析操作,并且提供直观的查询结果 支持用户的决策: 下面简要介绍o l a p 领域中的相关概念: 1 ) 维( d i m e n s i o n ) :是对数据仓库中的数据进行划分的逻辑结构。可以把一个 实体的某个重要属性定义为维。例如,出版社考虑产品的销售信息时,通 常从时间、类别、价格和销售量等不同角度来深入观察产品的销售情况。 这里的时间、类别、价格和销售量就是维。 2 1 维的层次( l e v e l ) :即维在不同细节程度的各个描述方面,例如时间维的层 次可以包括年、季度、月、日。 3 ) 维的成员( m e m b e r ) :维的一个取值,是数据项在维中位置的描述,例如 2 0 0 6 年7 月1 日是在时间维上位置的描述。维成员保存在维表中。 o l a p 的个重要特点是多维数据分析,为了使用户能从多个角度观察数 据仓库,o l a p 采用钻取( d r i l l ) 、切片切块( s l i c e d i c e ) 以及旋转( p i v o t ) 等多维分析操作进行数据分析。下面分别介绍这几个操作: 1 1 钻取 改变维的层次。包括向上钻取( r o l lu p ) 和向下钻取( d r i l ld o w n ) 。向上钻 取提高观察层次,减少维数,将数据由低层次向高层次概括汇总;向下钻取降 低观察层次,增加维数,将数据由高层次向细节数据深入。 2 ) 切片切块 分析数据在两个维上的分布是切片,分析数据在三个维上的分布是切块。 比如前面提到的产品销售情况,按照时间和类别进行数据划分,就是切片;按 照时间、类别和价格划分就是切块。切块可以看成是多个切片的叠加。 3 1 旋转 变换维的方向,即重新安排维的放置。把一个行维移到列维,或者把页面 外的维和页面中的维进行交换。比如将时间为行维,类别为列维的数据转变为 1 5 复旦大学硕士学位论文 基于多a g e a t 的商务智能系统研究 类别为行维,时间为列维。 根据综合性数据组织方式的不同,o l a p 主要分为基于多维数据库 ( m u r i d i m e n s i o n a lo l a p ,m o l a p ) 和基于关系数据库( r e l a t i o n a lo l a p , r o l a p ) 两大类。本文采用建立在关系型数据库管理系统基础上的r o l a p 方 式,它基于c o d d 的1 2 条准则,以关系型结构表示和存储多维数据,将多维结 构划分为两类表:事实表,用来存储数据和维关键字;维表,用来存放维的层 次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在 一起,形成了“星型模式”( s t a rs c h e m a ) 。对于层次复杂的维,可以使用多个维 表来描述,于是又演化出了称为“雪花模式”。 1 4 4a g e n t 技术理论 a g e n t 产生自人工智能领域。1 9 9 3 年召开了a g e n t 形式化模型的国际会议, 从此a g e n t 融入计算机科学领域,并逐渐获得广泛的应用,目前应用领域包括 网络管理、动态路由、电子商务、远程教育系统、工业以及医药卫生等方面 1 6 1 。 尽管a g e n t 被广泛应用,但是由于其内涵丰富,学术界尚未形成a g e n t 统 一的定义。目前得到广泛接受的是w o o l d r i g e 提出的弱定义和强定义 1 7 1 。 1 ) 弱定义a g e n t 是一个具有以下特征的软硬件系统 自治性( a u t o n o m y ) a g e n t 有属于自身的资源和行为控制机制,可以在没有外界直接干预 的情况下动作,而且可以根据自身内部状态和感知到的环境( 可能是物理 世界、图形世界、其他a g e n t 和i n t e r a c t 等) 信息,控制自身的行为和内部 状态。 响应性( r e a c t i v i t y ) a g e n t 观察环境,并可以在一定时间内对外界环境的变化做出反应, 以改变环境。 社交性( s o c i a la b i l i t y ) a g e n t 互相可以通过某种交流语言进行交互。 主动性( p r e d i c t i v e n e s s ) a g e n t 除了可以简单的对环境做出反应,也可以根据接收的某些信息, 采取目标定向的行动。 2 ) 强定义a g e n t 是指不仅具有弱定义中的基本特性,还有类似于人类的精神 化概念,包括知识( k n o w l e d g e ) 、信念( b e l i e f ) 、意图( i n t e n t i o n ) 和义务 ( o b l i g a t i o n ) 。具有移动性、通信能力、理性或其他特性。 基于以上的讨论,我们认为a g e n t 是一个存在于特定环境( a g e n t 1 6 - 复旦大学硕士学位论文 1 6 基于多a g e n t 的商务智能系统研究 e n v i r o n m e n t ) 的软件对象,但是不同于一般软件对象,因为a g e n t 具有智能性, 能够进行决策。 学术界对各不相同a g e n t 的定义使得a g e n t 的类别多种多样。人们通常从 构建a g e n t 的角度出发,将单个a g e n t 的结构通常分为思考型a g e n t 、反应型 a g e n t 和混合型a g e n t 。 1 1 思考型a g e n t ( d e l i b e r a t i v e a g e n t ) 思考型a g e n t 理论将a g e n t 看作是一种意识系统( i n t e n t i o n a ls y s t e m ) ,可 以模拟人类个体及其社会行为。它具有类似于人类的意识态度( i n t e n t i o n a l s t a n c e ) ,包括信念( b e l i e f ) 、知识( k n o w l e d g e ) 、意图( i n t e n t i o n ) 和义务 ( o b l i g a t i o n ) 等。 虽然思考型a g e n t 具有高智能性,但是由于其自身复杂性使得a g e n t 而难 以实现,并且对环境的变化反应较慢。 2 ) 反应型a g e n t ( r e a c t i v ea g e n t ) 【1 8 】 b r o o k s 认为a g e n t 的智能取决于感知和行动,a g e n t 以感知动作的方式 对环境做出反应,因此a g e n t 不需要知识和推理。a g e n t 的行为在与环境的交 互作用中表现出来。比较经典的反应型a g e n t 模型是他提出的s u b s u m p t i o n a r c h i t e c t u r e 。 图1 - 3 s u b s u m p t i o na r c h i t e c t u r e 虽然反应型a g e n t 由于其简单的结构而易于实现,但是它存在一些固有的 缺点:智能程度较低,难以利用其他信息进行行为决策,难以进行经验学习; 缺乏灵活性,需要所处环境充足的信息才能确定动作的执行等等。 混合型a g e n t ( h y b r i d a g e n t ) 混合型a g e n t 综合了以上两种a g e n t 的优点,具有较强的智能性和响应速 度。 它混合了两种或多种不同a g e n t 构建原理或模型,通常包括认知层和反应 层两层。反应层依据外界的输入及时做出反应,快速响应环境的变化,具有较 高优先级。认知层可以使用符号进行推理,具有较高的智能性。 目前思考型a g e n t 在实际应用中广受欢迎,集中了思考型a g e n t 和反应型 a g e n t 优点的混合型a g e n t 则是研究热点。 比较典型的a g e n t 结构主要由局部数据、历史经验库、处理过程和处理机 四个部分组成【1 9 】,其结构如图1 4 所示: 1 7 复旦大学硕士学位论文 基于多a g e n t 的商务智能系统研究 图卜4 一种典型的a g e n t 结构 其中局部数据类似于对象的私有成员,是指封装在a g e n t 内部,必须通过 a g e n t 自身才能存取的数据。它对外界是透明的,用户必须通过a g e n t 提供的 服务来使用这些数据。 历史经验库用于记录a g e n t 对外提供服务的类型和完成的效率等经验数 据。对历史数据的分析有助于a g e n t 自身的进化和完善。 处理过程定义了a g e n t 的行为模式,是a g e n t 对外的窗1 :3 ,a g e n t 通过处理 请求来提供服务。当相应的触发事件发生后,过程将被处理机调度执行。由于 a g e n t 自身和外界环境不断变化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年服装行业可持续时尚发展前景研究报告
- 商场女装销售培训课件
- 2025年生态旅游行业创新设计及市场前景研究报告
- 2025年房地产行业智能家居技术应用前景研究报告
- 2025年物联网产业自动驾驶技术应用前景与未来发展趋势研究报告
- 2025年医疗大数据行业创新应用与市场前景研究报告
- 国家事业单位招聘2025商务部外贸发展事务局招聘23人笔试历年参考题库附带答案详解
- 四川省2025上半年四川西南医科大学考核招聘高层次人才20人笔试历年参考题库附带答案详解
- 北京市2025中央民族乐团应届毕业生招聘4人笔试历年参考题库附带答案详解
- 五大连池市2025黑龙江黑河市五大连池风景区农业农村乡村振兴服务中心招聘1名公益性岗笔试历年参考题库附带答案详解
- 食品腐烂变质安全培训课件
- 隧道施工车辆安全培训课件
- 2025网络设备购销合同文本
- 2025年山东省东营市辅警协警笔试笔试预测试题(附答案)
- 风机高空作业安全培训课件
- 2024-2025学年南充市七年级下英语期末考试题(含答案和音频)
- 成都产业投资集团有限公司所属产业投资板块企业2025年招聘投资管理等岗位的考试参考试题及答案解析
- 2025年法院书记员招聘考试笔试试题含答案
- 重阳节活动致辞
- 地下室结构施工课件
- 2025至2030中国氢燃料电池堆行业项目调研及市场前景预测评估报告
评论
0/150
提交评论