




已阅读5页,还剩72页未读, 继续免费阅读
(计算机软件与理论专业论文)基于agent的数据仓库技术的研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 数据仓库是存储供查询和决策分析用的集成化信息仓库。它的数据来源于数 据库或其它信息源f 如日志文件等) 。但是非a g e n t 结构的数据仓库系统还存在着 信息集成时网络拥塞、网络信息不容易协调、视图更新不一致等问题。 在研究了a g e n t 的特性和工作原理的基础上,本文提出了一种基于a g e n t 的数据仓库模型。在非a g e n t 结构的数据仓库体系中,增加了两个多a g e n t 系统: 查询多a g e n t 系统和主动更新多a g e n t 系统。查询多a g e n t 系统主要负责和用户 进行交互,帮助用户完成查询任务,并返回用户使用情况。主动更新多a g e n t 系统的工作是检测特殊事件的变化,对数据仓库进行实时更新,从而避免紧急事 件影响决策者的决策结果。同时将时间事件添加到主动更新的事件定义中,保留 了基于时间的定期数据更新。a g e n t 利用本身所具有的各种特性尤其是移动性, 可以更高效、便捷地完成转换、集成和查询等工作 本文在详细阐述了基于a g e n t 的数据仓库模型中各个模块的结构和功能后, 将此模型应用于公路收费管理与决策支持系统,建立了一种开放式的智能管理信 息系统。查询多a g e n t 不仅可以查询本地站点的信息,还可以利用a g e n t 的智能性 和迁移性,并行查询数据仓库信息和多个远程信息源的数掘信息实现了整个系统 的全方位查询。针对数据仓库的视图不一致问题,本文提出一种主动更新的视图 维护方案,集定时更新与实时更新于一体。对于普通业务数据的增长,采取定时 更新。对于特殊紧急事件,采取实时更新。这种方式使得数据仓库和作为其数据 源的业务数据库联系得更紧密,提高了决策的有效性。 最后,通过对本系统的分析,指出了系统中存在的问题和下步工作中需要 提高和改迸的地方。 关键字:数据仓库,视图维护,多a g e n t 系统,公路收费管理与决策支持系统 华南理工大学硕士学位论文 a b s t r a c t d a t aw a r e h o u s ei sa ni n t e g r a t e di n f o r m a t i o nw a r e h o u s et h a ts t o r e sq u e r ya n d e d e c i s i o n m a k i n gd a t a 。i t sd a t ar o o t si nd a t a b a s e sa n do t h e ri n f o r m a t i o ns o u r c e s ( s u c h a sl o gf i l e s ) b u tf o rn o n a g e n ts t r u c t u r ed a t aw a r e h o u s e ,t h e r ea r es o m ep r o b l e m s , s u c ha sn e tj a mo fi n f o r m a t i o ni n t e g r a t i o n n o n - h a r m o n yo fn e ti n f o r m a t i o na n d v a r i a n c eo fv i e wu p d a t e b a s e do nt h er e s e a r c ho fa g e n tc h a r a c t e r i s t i ca n dw o r kp r i n c i p l e ,m yp a p e r s u g g e s t s a na g e n t b a s e dd a t aw a r e h o u s em o d e l i nn o n - a g e n ts t r u c t u r ed a t a w a r e h o u s es y s t e m ,m y p a p e ra d d s t w om u l t i - a g e n ts y s t e m st h a ta r eq u e r y m u l t i a g e n ts y s t e ma n di n i t i a t i v eu p d a t em u l t i a g e n ts y s t e m q u e r ym u l t i a g e n t s y s t e mm o s t l ya n s w e r sf o rc o m m u n i c a t i o nw i t hu s e r s ,h e l p i n gu s e r sf i n i s h i n gq u e r y t a s ka n ds e n d i n gb a c kt h er e s u l t i n i t i a t i v eu p d a t em u l t i a g e n ts y s t e md e t e c t st h e c h a n g e so fs p e c i a le v e n t s ,r e a l t i m eu p d a t e sd a t aw a r e h o u s e ,a c c o r d i n g l ya v o i d st h a t e m e r g e n c ye v e n t si n f l u e n c ed e c i s i o n m a k e r a g e n tu s i n g i t so w na l lk i n d so f c h a r a c t e r i s t i ce s p e c i a l l ym o b i l ec h a r a c t e r i s t i cc a nf i n i s ht r a n s f o r m ,i n t e g r a t i o na n d q u e r ye f f e c t i v e l y m yp a p g e re x p a t i a t e st h es t r u c t u r ea n df u n c t i o no fe a c hm o d u l ei na g e n t b a s e d d a t aw a r e h o u sm o d e l ,a p p l i e st h em o d e lt o h i g h w a yc h a r g em a n a g e m e n ta n d d e c i s i o n s u p p o r ts y s t e m ,a n db u i l d sao p e ni n t e l l i g e n c em a n a g e m e n ti n f o r m a t i o n s y s t e m q u e r ym u l t i a g e n ts y s t e mn o to n l yq u e r yl o c a li n f o r m a t i o n ,b u ta l s ob yu s i n g t h ei n t e l l i g e n c ea n dm o v m e n to fa g e n t ,q u e r ym u l t i p l er e m o t ed a t ao fi n f o r m a t i o n s o u r c e ss i d e - b y - s i d e i tr e a l i z eo m n i d i r e c t i o n a lq u e r yo fw h o l es y s t e m f o rv i e w n o n h a r m o n yo fd a t aw a r e h o u s e ,ip u tf o r w a r dt h es c h e m eo fi n i t i a t i v eu p d a t e m u l t i - a g e n tt h a tc o m b i n e se m e r g e n c yu p d a t ea n dr e a l t i m eu p d a t e f o ri n c r e a s i n go f r e g u l a ro p e r a t i o nd a t a ,i t u s e s e m e r g e n c yu p d a t e ,a n df o re m e r g e n c ye v e n t s , r e a l - t i m eu p d a t e t h er e l a t i o nb e t w e e nw a r e h o u s ea n ds e r v i c ed a t a b a s eb e c o m e c l o s e rb yu s i n gt h i sw a y ,w h i c hm a k e s d e c i s i o n m a k i n gm o r ee f f e c t i v e a tl a s t ,a c c o r d i n gt ot h ea n a l y s i so ft h es y s t e m ,m yp a g e rp o i n t st ot h ep r o b l e m s e x i s t i n gi nt h es y s t e ma n dt h ep l a c en e e d i n gt oi m p r o v ea n dm e n di nt h en e x tw o r k k e yw o r d s :d a t aw a r e h o u s e ,v i e wm a i n t e n a n c e ,m u l t i a g e n ts y s t e m ,h i g h w a y c h a r g em a n a g e m e n ta n dd e c i s i o n s u p p o r t i l 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研 究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名: ! ;么牡日期:卫叩r 年5 月午日 学位论文版权使用授权书 本学位论文作者完全,解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在乌三盘碴后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“”) 作者签名: 导师签名: 缒云艳 风峰确 日期:2 盯年6 月牛日 日期:册年占月牛日 第一章绪论 1 1 数据仓库产生的背景 第一章绪论 数据仓库( d a t aw a r e h o u s e 简称d w ) 是信息处理技术( 数据库技术) 发展的必 然产物。在信息处理技术进入市场经济领域的早期,由于计算机硬件还不普及, 加上管理技术还不完善,因此,只有少数的大型企业拥有大型的计算机。这时的 信息处理技术重点是通过模仿人工流程来提高日常事务处理的效率。8 0 年代, 由于p c 机的大批量涌入国际市场,再加上p c 机的价格不断下降,因此,推动 了信息处理技术的发展。应用系统的硬件平台和软件环境出现了多样化的格局, 一些机构开始使用不同的d b s 来开发不同的应用系统。用户通过网络可以访问 到这些系统,达到了资源的共享。到了9 0 年代初,随着数据处理能力的大大提 高,这时的数据库技术发展趋于成熟化和完善化时期,使用数据库的企业己经越 来越依赖于这种管理技术。但是,随着企业全球化和国际化的趋势越来越明朗的 今天,许多大型机构也发现了重要的问题:企业的管理层陷入了一个数据海洋中。 如何从浩瀚的数据海洋中迅速、准确无误地提取企业经营管理所需的有价值的信 息呢? 如何在单个d b s 下胜任庞大的全球性( 全局性) 的数据处理与管理工作呢? 这是近几年来信息管理工程研究的一个重要课题【l j 为了尽快提出解决这个课题的方案,研究者们不惜一切巨资进行了许多方面 的尝试,有的将企业升级,有的开发企业的数据模型,有的引进国外的先进管理 模式( 如日本的5 s 管理等等) 。实践中,专家们渐渐地认识到了解决问题的关键 是:要建立一个全局化的、综合的信息集成和预测、分析的系统。将这种行之有 效的机制称为数据仓库( 简称d w ) p j 1 2 数据仓库国内外研究现状 数据仓库的概念的提出者及相关技术的主要倡导者是美国著名信息 :程学 家w i l l i a ni n m o n 博士。9 0 年代初,i n m o n 根据数据库技术己趋于成熟化,结合 市场经济发展之需要首次提出了数据仓库概念的一个表述。他提出的数据仓库的 解释是:一个数据仓库通常是一个面向主题的、综合的、不同时间的、稳定的数 据的集合,用以支持经营管理中的决策制定过程。所谓主题,是指用户使用数据 仓库进行决策分析时比较关心的重点,比如:销售情况,企业的利润状况等;面 向主题,指的是数据仓库内的信息是按主题进行组织的,为主题进行决策的过程 提供信息。所谓集成,是指数据仓库中的信息不是直接从各个业务部分的处理系 华南理工大学硕十学位论文 统中简单的提取出来的,而是根据需求,经过系统的预处理即加工、汇总和整理, 确保数据仓库内的信息是关于整个企业的全局信息。所谓随时f 1 | i j 变化的,是指数 据仓库内的信息并不只是关于企业的现行的数据,而是记录了从过去的某一时间 开始至目前各个阶段的信息,通过这些信息,可以对企业发展的历程和未来趋势 作出定量分析和预测。信息的相对稳定性,是指一旦某数据被提取到数据仓库以 后,一般情况下,将被长期保留下来,也就是说数据仓库会有大量的插入与查找 操作,而删除与修改操作却很少。可见数据仓库是一个复杂的处理过程。在i n m o n 首次提出数据仓库概念时,并未马上引起研究者们的注意。但是,随着网络等技 术的发展而大大推进了企业组织全球化和国际化的趋势的进展的同时,也给许多 大型企业带来了障碍与矛盾,即分散平台的d b s 的数据与需要全局性集成数据 ( 一致化的数据) 的矛盾等等由于这个因素的影响,导致了一些大型的企业生产效 益的下降、商业的销售额下滑、银行的预测和分析人员因信息滞后的原因而作出 的决策失效等等。为了解决上述矛盾,人们在实践中,开始尝试和研究数据仓库 系统有关概念和相关的技术了。p r i s ms o l u t i o n s 公司的顾问j dw e l c h 也提出: 设计数据仓库最重要一步是要理解商业动作的规律:分解商业处理过程,从中获 取所需要的信息著名的d b s 和m i s 专家r o bm a t t i s i o n 3 1 在1 9 9 6 年出版的“d a t a w a r e h o u s e ”一一书中也详细地叙述了数据仓库的定义与解释,他认为:数据仓库是 一种新型的数据库;数据仓库被组织用作一个中性存储区:被d a t am i n i n g 和其它 应用程序所使用的;使用这些数据将满足一组予定义的商业评判的。除了概念外, 他还详细地叙述了d a t am i n i n g ( 数据挖掘1 【4 】,【5 l ,【7 l ,【8j 的方法、目标、过程、技术 与实例,k d d 的过程、相关技术、理论等9 1 ,【1 【1 1 川2 川3 1 如今数据仓库已经形成潮流。各大数据库厂商纷纷宣布其产品支持数据仓库 并提出一整套用以建立和使用数据仓库的产品。比如i n f o r m i xg o n g s i d e 公司的 数据仓库解决方案;o r a c l e 公司的数据仓库解决方案;s y b a s e 公司的交互式数据仓 库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会 议,如超大型数据库国际会议 ( v l d b ) ,数据工程国际会议( d a t ae n g i n e e r i n g ) 等,都出现了专门研究数据 仓库、联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简记为o l a p ) j 币i 数据挖掘 ( d a t am i n i n g ,简记为d m ) 的沦文。 数据仓库理论已在近几年的研究和探索中逐渐成型,联机分析处理和数据挖 掘作为数据仓库最主要的两项应用技术引起了学术界和企业界的广泛关注。由于 这两项技术具有极高的理论价值和实用价值,因而成为学术界研究的热门领域。 从逻辑上讲,数据仓库就是一个多维数据集( c u b e ) o l a p 以多维分析为基础,刻 画了在管理和决策过程中通过对数据仓库的访问,实现对数据多层面、多角度的 分析处理,并以直观易懂的形式将结果提供给决策者f 1 “ 第一章绪论 事实上,多维数据分析是在1 9 6 0 年就已经出现的技术,随着计算机硬件技 术的快速发展,这一在大型机中采用的技术,才逐渐向以p c 为基础的数据库发 展。在1 9 9 9 年微软推出m i c r o s o f ts q ls e r v e r7 0 时,至少已经有1 0 0 个以上的 公司提供各种在线数据查询的工具。1 9 9 6 年美国市场调查表明,有关数据仓库 项目的平均成本是2 0 0 5 0 0 万美元。这些资金主要用于硬件扩充,软件开发和 人员培训。因而那时只有大型公司才有可能发展数据仓库及其集成应用系统。 1 9 9 8 年以后,人们的注意力转向组建便宜、快捷的中小型数据仓库应用系统, 2 0 0 0 年以后,数据仓库应用系统的开发与应用达到了高潮。 一些软件公司推出了自己的数据仓库集成应用系统,如m i c r o s o f t 公司的 a n a l y s i ss e r v i c e s ,i b m 公司的i n t e l l i g e n c em i n e r ,o r a c l e 的d a r w i n 等等。这些系 统既可以对数据进行快速的多维查询( m u l t i d i m e n s i o n a lq u e r y ) ,还可以对数据作 深度挖掘,得出令人感兴趣的结论,为企业决策支持提供了数据基础和理论根据。 许多研究机构也相继推出自己的原型系统,如加拿大s i m o nf r a s e r 大学的教 学系统d b m i n e r ,中科院计算所的m s m i n e r ,复旦大学的a m i n e r 等等,这些系 统在文献【15 】、 1 6 】和 1 7 】中有相应介绍。 数据仓库的主要目的是为将来可能的查询预先存储相关的集成信息,避免每 次查询都要访问原始信息源,因而减少了查询处理的时间,提高了查询效率,特 别是当所涉及的信息源有多个而且是远程的时候。这种方法会产生新的问题:由 于数据仓库中的数据来源是其它独立的传统数据库,当这些数据库中的原始数据 发生变化( 插入、删除、更新) 时,如何使得数据仓库中的实视图与原始数据的变 化保持同步,己成为数据仓库技术研究的一个重要领域。 数据仓库环境下,其视图定义与源库是相分离的,仓库不能主动地捕获源数 据库的变化,而只能通过源库的修改信息报告,因此利用传统算法来维护仓库视 图可能会使视图数据与源数据不一+ 致。为了补偿这种不一致,文f 18 】提出了强一 致补偿算法e c a ,其基本思想是当发送给数据源的查询还未返回时才能提交维 护,因此在实时性上存在不足,同时当源数据库存在并行事务时,利用算法e c a 也会产生不一致的数据。文 1 9 】同时还讨论了带关键字源表以及本地源时的补偿 问题;文 18 讨论了多视图的数据仓库维护;文 2 0 】,【2 1 】 2 2 1 进一步研究了更为 复杂的多数据源的一致性维护问题,并提出了s t r o b e 算法。 文f 2 3 幂1 j 用版本控制提出了一个2 v n l 算法,在解决数据仓库维护和一致性 方面作出了有益的尝试,其主要思想是采用不同的版本来分别负责实体化视图的 查询与维护,不足之处是视图数据不能即时更新;文2 4 采用补偿思想和应答机 制,联合控制原始数据的多个版本,以保证实体化视图维护的致性,同时使 o l a p 查询也能得到一致的结果;2 5 在s t n f o r d 大学提出的两层数据仓库体系结 构上,增加一个数据仓库基库,向上它与数据仓库打交道,向下它与传统的数据 3 华南理工大学硕士学位论文 库打交道。基库的引入,使得专注于o l t p 应用的传统数据库和专注于o l a p 应用的数据仓库分工更明确。但是,文 2 4 】 2 5 在算法的健壮性上存在不足,如 当在源数据库关系上存在有先增加一记录,然后又删除同一记录的事务时等,运 用文2 4 1 1 2 5 1 的算法将会得到不一致的视图数据。对于某些o l a p 查询( 如下钻等) , 数据仓库必须通过访问源数据库才能给出最终的查询结果,如何保证这类查询的 一致性,是数据仓库研究的一个热点 a g e n t 技术是在人工智能的基础上发展起来的一| 、j 新兴技术。它的可移动 性、智能性为解决复杂、动态的分布式智能应用提供了一种新的计算手段。将 a g e n t 与数据仓库结合起来,利用它的迁移特性建立分布式数据仓库1 2 “,抽取知 识27 1 ,分析了相关的安全性 2 8 1 ,或者解决数据仓库中的一些动态查询优化【2 9 。, 增量视图更新1 2 9 】等问题。 在我国,数据仓库与a g e n t 技术的结合正处于起步阶段,虽然很多单位和企 业已经意识到这种结合是数据仓库的发展趋势,但国内这方面的研究还不多。一 些学校和企业已开始着手于基于a g e n t 的数据仓库体系结构的研究【2 4 ,2 “】,但是 总的说来,大多数都是简单的把二者联系起来,研究很不成熟:一是对该系统的 具体结构研究得不是很透彻,各有各的观点,但都不能准确反映该体系结构的特 点:二是许多单位和组织都只是对数据仓库本身存在的问题,如安全性问题等迸 行研究,而对于将a g e n t 技术与数据仓库技术结合起来后可能出现的潜在问题, 如各种异构数据源中的数据如何向数据仓库转化问题,系统安全性问题、系统可 扩展性问题,传输速度问题等都研究得甚少如何将数据仓库和a g e n t 技术的结 合起来,解决网络信息的协调性,大量信息拥塞网络造成的网络瓶颈,传输速度和 信息安全是目前国内外研究的热点。 1 3 本课题的来源以及研究意义 河北公路交通规费管理与分析决策系统,是河北省交通厅为实现公路养路费 的征收与分析统计工作而建设的信息管理与决策支持系统。系统一期建设中主要 采用了b s 多层分布式体系结构。客户端通过浏览器将录入、征费、查询、统计、 报表等请求提交给w e b 应用服务器,通过应用程序服务器在后台对数据库进行处 理操作,将结果返回给客户端。企业发展的需求要求在车辆征费的基础上能发现 数据中深层次的潜在信息,如何根据当前全省公路规费实际的征收情况( 车型种 类繁多、用户情况复杂、地区分布各异) ,如何对不同车型的车辆、不同性质的 用户、实际的征费以及地区分布等情况进行准确、全面的了解、分析和把握,如 何为征费工作合理地分配人力、物力和财力,如何正确地预测征费成本、规费征 收总额等指标的变化趋势,为规费征收工作提供多种辅助决策信息,对国民经济 第一章绪论 的分析决策提供准确的依据,做到总体情况的心中有数。这就需要对数据仓库进 行查询分析,数据挖掘,决策分析等工作。例如:从车辆构成反映当地经济结构; 对车辆进行分类,根据当地的车辆结构分析出当地的经济结构属于哪种类型,发 达程度如何;或者对其他经济发展进行预测、对国家公路车辆增长预测分析,欠 费车主人群分析等等。前期系统运行过程中各个分站点的数据通过网上上报,向 上级数据库同步汇集,也从各级数据库获得补充。历史数据从各个市、县的收费 站点抽取出来,集成后存储在数据仓库中。这在一定程度上实现了收费管理信息 的网络化远程管理与分析决策支持。但是,在实际应用过程中暴露出新的问题: ( 1 )各个收费站点都有自己的本地数据库,只能对局部的数据进行管理, 查询,报表。全省虽然建立了统一的数据中心与数据仓库,但是还不够完善。目 前数据仓库只是对以往历史数据做了简单集成,各个异地数据源的数据发生变化 时,数据仓库不能及时更新,导致在数据仓库中查询到的信息不够准确,从数据 仓库中分析的数据滞后,对统计、分析结果产生影响,从而直接导致了错误的预 测结果。另一方面用户只能直接在局部收费站点数据库中查询信息,而不能查询 其他收费站点的信息,所以信息孤岛的问题在一定程度上仍然存在。 ( 2 ) 系统在使用的过程中,出现了部分数据格式不一致的问题。例如i p 地 址的格式,预先没有统一。这主要是因为出现了设计时没有考虑到的一些因素引 起。虽然这种情况不多,但是一旦出现,导致系统无法正常运行。因此需要有专 门的机制来对这种格式进行转换。 ( 3 ) 数据仓库记载的是历史数据。系统运行中因为一些特殊原因,导致一 些模式发生改变。也有一些比较紧急的情况,需要实时更新数据仓库的部分信息。 比如,国家下达政策,某个收费站点要取消,或者增加收费站点,几个收费站点 重组等。这些情况发生时数据仓库的信息需要及时更新。 此外,在b s 讨算模式中,必须把全部或者部分网络资源下载到本地客户端 后进行处理,影响了网络速度也浪费系统通信资源。尤其是对应用程序服务器的 访问,在某些时间段,例如:晚上六点,各市的数据需要统一汇总,随着用户的 不断增加,常常出现拥塞现象,往往需要用户排队等候,造成很大的不方便。 为了解决上述问题,必须引进新技术,克服传统b s 架构带来的缺陷。进一步完 善数据仓库,对数据仓库进行更好的维护,填补国内数据仓库在公路收费系统应 用中的空白,充分发挥公路决策管理的作用,形成真正的智能公路交通决策系统。 1 4 本文的研究内容及创新点 本文分析了目前公路收费问题中暴露的几个问题。针对这些问题在原系统 中引进移动a g e n t 技术,旨在利用移动a g e n t 的迁移特性,解决系统中分布式数 华南理工大学硕十学位论文 据仓库的视图不一致问题、数据仓库中的信息滞后问题、数据格式转换问题、 b s 架构中的高蜂期问网络拥塞问题。本文研究了数据仓库的体系结构、数据组 织、数据模型、数据集成及其他相关技术,分析了非a g e n t 结构数据仓库体系结 构的不足,利用a g e n t 的特性,针对公路收费系统的具体情况,提出一种基于 a g e n t 的数据仓库完整模型,并要对模型中的各个模块进行具体的介绍;将基于 a g e n t 的数据仓库模型应用于河北交通公路收费系统中,建立一种开放式的智能 收费系统,给出了一个完整的收费系统的构架,具体分析了模型中各个模块在收 费系统中所起到的作用和具体的工作流程;最后给出了部分实现代码和实现结 果。 本文的研究对象是基于a g e n t 的数据仓库技术及其在公路收费系统中的应 用。本文有如下三个创新点: 1 针对课题中系统的实际情况,对传统数据仓库体系结构提出改进,将 a g e n t 技术引进到数据仓库中,分别加入了系统查询多a g e n t 系统,主动更新多 a g e n t 系统,设计出一种适用于公路收费系统的数据仓库体系结构。 2 将所设计的模型应用到公路收费系统中,解决了原系统中的数据统计、 汇总时,信息滞后的问题;系统使用过程中部分表的字段格式不一致的问题; 数据仓库中部分数据模式修改、内容及时更新的问题;系统并发查询的问题。 3 在原系统实现了车主、车辆管理;征费业务管理:票证管理;审批管理; 系统查询:统计报表:分析决策等业务管理的基础上,引进查询a g e n t 和数据 访问a g e n t 技术,克服了高峰期网络拥塞问题,形成了一个鲁棒式的、完备的、 开放式的系统。 1 5 论文结构组织 本文的章节安排如下: 第一章是绪论。概述了本课题研究的背景、研究现状,说明了引进a g e n t 技术的必要性:介绍了和本课题相关的技术以及本文的创新点。 第二章介绍了数据仓库及相关技术。具体阐述了数据仓库体系结构,数据集 成,数据组织,数据模型以及o l a p 技术。 第三章介绍了a g e n t 技术的定义、体系结构、移动a g e n t 的特性以及多a g e n t 之间的通信协作。洋细阐述了典型a g e n t 平台一i b m a g l e t 以及移动a g e n t 的标准。 第四章中分析了传统数据仓库体系结构的不足,针对原系统在使用过程中暴 露的网络拥塞、数据仓库视图不一致、不能全方位查询的问题,引进移动a g e n t 技术。提出在数据仓库中引入a g e n t 技术并针对系统实际情况,给出一种基于 a g e n t 的数据仓库体系结构的模型,对模型中的各个模块做了具体的介绍。 第一章绪论 第五章将基于a g e n t 的数据仓库模型应用于交通公路收费系统中,建立了一 种开放式的智能公路收费系统,给出了一个完整的智能收费系统的构架,并具体 分析了模型各个模块在公路库中所起到的作用和具体的工作流程。 第六章总结了本文的工作,分析了系统下一步工作中需要提高和改进的地 方。 华南理工夫学硕士学位论文 第二章数据仓库及相关技术 2 1 数据仓库的概念 目前公认的数据仓库概念创始人w h i n m o n 在建立数据仓库一书中对 数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的( 稳定性) 、 随时间不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策制定过程、 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高 层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集 成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据 仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一 个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史 数据的内,而不是r 常事务处理产生的数据,数据经加工和集成进入数据仓库后 是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的 数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数 据的历史时期。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专 有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建 立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处 理数据库在企业的信息环境中承担的是同常操作性的任务。数据仓库是数据库技 术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管 理其中的数据 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。然而, 应用在不断地进步。当联机事务处理系统应用到一定阶段后,用户便发现单靠拥 有联机事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运作 以及整个市场相关行业的情况进行分析,而做出有利的决策。这种决策需要对大 量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争 环境下,这种基于业务数据的决策分析,我们把它称为联机分析处理,比以往任 何时候都显得更为重要。如果蜕传统联机事务处理强调的是更新数据库向数据 库中添加信息,那么联机分析处理就是从数据库中获取信息、利用信息。因此, 著名的数据仓库专家r a l p hk i m b a l l 写道:”我们花了二十多年的时f j 将数据放入 数据库,如今是该将它们拿出来的时候了。” 第一二章数据仓库及相关技术 2 2 数据仓库的体系结构 数据和信息从不同的数据源提取出来后,把这些数据转换成公共的数据模型 并且和仓库中已有的数据集成到一起。当用户向仓库进行查询时,需要的信息己 经准备好了,数据冲突、表达不一致等问题已经得到了解决,这使得决策查询更 容易、更有效。 数据仓库从多个信息源中获取原始数据,经整理加工后,存储在数据仓库的 内部数据库中,通过数据仓库访问工具,向数据仓库的用户提供统一、协调和集 成的信息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。为 了达到这样的目标,一个数据仓库一般来说包含以下四个主要组成部分: ( 1 ) 数据源:为数据仓库提供源数据( s o u r c ed a t a ) ,如各种生产系统数据库,联 机事务处理系统( o l t p ) 的操作型数据,外部数据源等都可以作为数据仓库的数 据源。本系统的数据源是从各个收费站点抽取出的车主、车辆、车辆流等相关信 息。 ( 2 ) 数据集成。包括数据抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 、装载( 1 0 a d ) 和刷新( r e f r e s h ) :其功能是从数据源中抽取数据,对数据进行检验和整理,并根据 数据仓库的设计要求,对数据进行重新组织和加工,装载到数据仓库的目标数据 库中,并可周期性地刷新数据仓库以反映数据源的变化及将数据仓库中的数据做 转储。 图2 1 数据仓库的体系结构 f i g2 - 1t h ea r c h i t e c t u r eo fd a t aw a r e h o u s e 9 华南理工火学硕士学位论文 ( 3 ) 数据仓库:数据仓库的主要任务是存贮按企业级视图转换的数据,供分 析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应 存储元数据,记录数据的结构和数据仓库的任何变化,以支持数据仓库的开发和 使用。 ( 4 ) 信息访问:供业务分析和决策人员访问目标数据库中的数据,并作进一步 的深入分析之用。数据访闯和分析工具不但要提供一般的数据访问功能,如查询、 汇总、统计等,还要提供对数据的深入分析功能,目口数据挖掘( d a t am i n i n g ) 的功 能,如数据的比较、趋势分析、模式识别等。而数据仓库的数据访问和分析要在 一定程度上面向企业的业务需求,所提供的数据是在业务上有意义的信息,而不 只是通用的数据查询和操作功能。 2 3 数据的集成 数据仓库最显著的特点是数据集成。外部数据进入数据仓库之前,必须经过 数据抽取、转换、清洗和装载四个阶段。经过四个阶段的处理后,就可以将数据 从原来的数据系统传送到数据仓库系统。同时,可以对其进行整理和修改,从而 使这些数据符合数据仓库的要求。 图2 - 2 数据集成框槊 f i g2 - 2t h ed a t ai n t e g r a t i o nf r a m e 1 数据抽取 数据的抽驭是数掘进入仓库的入口。抽取程序一般是指搜索整个文件或数据 库,根据数据仓库的主题制定抽取规则,利用这些规则选择符合要求的数据,并 把数据传送到数据仓库中。通过抽取,选中的数据可以先暂时存放在过滤数据库 中。 一般在设讨一数据抽取接口程序时要考虑以下几个方面: 1 ) 源数据库和数据仓库的数据格式是否一致? 2 ) 源数据库中要访问哪些文件和表? 1 0 , 第二章数据仓库及相关技术 3 ) 源数据库中需要提取哪些字段,抽取记录的条件是什么? 4 ) 数据仓库中的表结构是什么? 5 ) 重复提取表记录的时间间隔要多长,也就是更新数据仓库的时间间隔要多 长? 在非a g e n t 结构的数据仓库中,需要定期对数据仓库进行更新。如果更新间 隔时问太长,就无法使数据仓库中的数据和信息源中的数据保持一致;如果更新 的时间间隔太短,增大工作量,增加开销。将a g e n t 引入到数据仓库中,就可以 在发现信息源的数据发生变化时对数据仓库进行更新,使得数据仓库和信息源中 的数据随时保持一致,同时还减少了工作量。 目前主要的抽取工具有a r d e n t 的d a t a s t a g e 、c a ( 原p l a t i n u m ) 的d e c i s i o n b a s e 和e t i 的e x t r a c t 等。 2 数据转换 在信息源是异构的情况下,源数据在进入数据仓库之前必须经过转换,以适 应数据仓库的模式。数据的转换包括数据的提炼、转换等。数据提炼是指数据项 的重构,删去不需要的运行信息,补充遗漏的信息,检查数据的完整性与相容性: 数据的转换主要是指统一数据编码和结构,给数据加上时间标志,根据需要对数 据进行必要的运算等。在数据转换时一般要考虑如下几个问题: i ) 名称的不一致。不同的名称可能表达同一个意思,需要建立一个映射关系。 2 ) 数据类型的不一致。例如:有几种常见的数字书写年月日的日期格式d d s , m m i d d yy y y m m d d 等,不同数据库中会使用其中的任何一种书写格式,进 入数据仓库之前必须将其转换为同样的表示形式。 3 ) 单位的不一致。度量标准必须转换,是数据库中的数据具有统一的计量单 位。 4 ) 编码刁i 一致。编码数据应转换成同样的形式。例如:在数据库中性别可以 表示成m f ,男女等。 5 ) 大小写得不一致。假设某个操作系统使用的是不区分大小写的格式文本, 而数据仓库需要的是大写格式的文本,这是就需要转换。 6 ) 提供缺省值。有时候,数据仓库的一个输出值没有对应的缺省输入值,就 必须提供缺省值。 3 数据清洗 数据清洗和转换过程是分不开的,转换应该包括数据清洗的过程。数据清洗 是比简单变换更为复杂的一种数据变换。在这种变换中,要检查的是字段或字段 组的实际内容而不仅是存储格式,从而保证数据的合法性和有效性。 数据清洗包括确认数据的f 确性,校正不正确的数据,然后以有效的格式转 换为正确数据。数据清洗过程包括如下几个步骤: 1 ) 数据分析:为了检测错误数据以及不一致数据的类别,需要进行详细的数 华南理工大学硕七学位论文 据分析。 2 ) 定义变换和映射规则:根据信息源的数目和信息源之问的相异程度以及数 据“脏”的情况,需要进行相应的数据变换和清洗。有时,模式变换常常用来映射 源数据与目标数据模型之间的对应关系。 3 ) 检验:数据变换的准确性和有效性应该进行测试和评估。有时需进行多次 反复的分析、设计和检验的过程。 4 ) 变换:根据变换和映射的规则进行数据的变换工作。 5 ) 回溯:错误被消除后,信息源中不正确区数据( 即“脏”数据) 被正确的数据替 换,以便为应用程序提供清洗过的数据,避免在将来的操作中重做数据清洗工作。 在基于a g e n t 的数据仓库系统中,利用a g e n t 的自主性、能动性,对过滤数 据库中的源数据进行分析和检查。根据变换和映射规则,找到不符合要求的数据, 把该数据放入清洗表中,并填写出错信息。 清洗表的表结构信息如表2 1 所示: 表2 1 清洗表的系统结构 t a b l e2 - 1t h ec l e a n i n gt a b l es t r u c t u r ei n f o r m a t i o n 字段名字段类型字段长度字段含义 e r r f i e l dv a r c h a r5 0 出错的字段名 e r r r e a s o nv a r c h a r1 0 0 出错的原因 c l e a r d a t ed a t e t i m e8清洗的系统时间 利用清洗表可以对脏数据进行校正。通过检索清洗表,根据定义的变换规则 对脏数据进行变换,消除错误。 3 数据装载 数据装载将经过数据抽取、转换、清洗的数据和经过校正的数据导入数据仓 库。数据转载时的主要工作: 1 1 确定数据装入的次序。 2 ) 载入初始数据。数据装载时,逐条把合法的数据导入数据仓库,不合法的 数据则放入清洗袁,清洗表数据经过校正后,再重新装载。 3 ) 刷新数据,将o l t p 应用系统中变化的数据追加到数据仓库中。同时,还 应将数据仓库中超过存储周期的数据从数据仓库中删除。 2 4 数据组织 数据按照数据仓库的需求被分为不同层次来组织和存储,方便客户进行数据 查询分析。一般数据仓库的数据组织有5 个部分组成,如图2 3 所示。 第二章数据仓库及相关技术 数据仓库中的数据分为4 个层次:历史性数据层、当前数据层、轻度综合数 据层和高度数据综合层。源数据经过综合后,首先进入当前数据层,并根据具体 需求进行进一步的综合,从而进入轻度综合层乃至高度综合层,老化的数据将进 入历史性数据层。由此可见,数据仓库中存在着不同的综合级别,称之为“粒度”。 粒度越大,表示细节程度越低,综合程度越高。 1 粒度 粒度是数据仓库的重要概念,指数据仓库的数据单位中保存数据的细化或综 合程度的级别。一般操作型数据库系统中处理的数据都是详细数据,其粒度是最 低的。但在分析型处理中需要通过数据的概括和聚集形成较高级别的数据,其粒 度增大。粒度越小,细化程度越高,级别就越低。反之,数据的综合程度越高, 粒度就越大,级别就越高。数据的粒度越高所需要存储的数据量越少,但对决策 者的重要性却随之增加,且能够提供用户快速方便的查询。如对产品的销量,不 同的粒度可以是每天、每周、每月、每季度甚至是每年的统计数据。 图2 - 3 数据仓库组织结构图 f i g2 - 3t h ed a t ao r g a n i z a t i o ns t r u c t u r eo fd a t aw a r e h o u s e 2 分割 分割是数据仓库中另一个重要的概念,其目的同样是为了提高效率。它是将 逻辑上统一的数据分割成较小的、可以独立管理的物理单元,以便能分别独立处 理。进行数据分割的原因是,在进行实际的分析时,针对存在某种相关性的数据 集合的分析最为常见,如果将具有这些相关性的数据按某种规律进行分类,那么 分割后的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年老年医学老年痴呆综合治疗试题答案及解析
- 2025-2030功能性食品配方创新与消费者认知度调研报告
- 2025-2030功能性食品消费群体细分及产品创新方向研究报告
- 2025-2030功能性食品原料研发创新与市场定位策略分析报告
- 2025-2030功能性运动鞋技术突破与市场推广策略报告
- 2025年新能源技术创新:生物质能转化技术市场潜力报告
- 2025年ap心理学试题及答案
- 新能源行业绿色物流2025:技术创新与碳减排量核算技术前沿报告
- 2025年CPA注册会计师《税法》考前模拟题(含答案)
- 2025年大学人文教育专业题库- 人文教育的实践与体验
- 血管导管使用指征、置管方法、使用与维护
- 工程项目挂靠协议书
- QB/T 2660-2024 化妆水(正式版)
- 围手术期病人管理
- 垃圾中转站运营管理项目整体服务方案
- 血常规报告单
- 电路检查记录表
- 前牙黑三角的树脂充填
- 华为质量管理评估模型(31个评估要素和评估报告)
- 模具凸凹模工艺文件工序卡
- 储备店长培训工作流程-课件
评论
0/150
提交评论