(计算机科学与技术专业论文)基于数据仓库的广电智能器材管理系统的研究与实现.pdf_第1页
(计算机科学与技术专业论文)基于数据仓库的广电智能器材管理系统的研究与实现.pdf_第2页
(计算机科学与技术专业论文)基于数据仓库的广电智能器材管理系统的研究与实现.pdf_第3页
(计算机科学与技术专业论文)基于数据仓库的广电智能器材管理系统的研究与实现.pdf_第4页
(计算机科学与技术专业论文)基于数据仓库的广电智能器材管理系统的研究与实现.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机科学与技术专业论文)基于数据仓库的广电智能器材管理系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据仓库的广电智能器材管理系统的研究与实现 摘要 数据仓库技术经过了几十年的迅速发展,现在已经曰益成熟并在各 个行业得到了广泛的应用。各电信公司、金融机构、政府机构和企业都 正在或者着手建立自己的数据仓库,并在其基础上建立各种应用,进行 决策支持等分析操作,从而更好地为机构的管理和决策服务。 广电总局器材管理系统的管理对象主要是各部门库房的备品备件, 在广电业务处理中起着很重要的作用。目前广电总局现有的器材管理系 统已经远远不能适应现代管理的要求,伴随着无线局全局信息化和全方 位整合现有资源思想的提出,要求建立一套基于智能决策的分布式器材 管理系统,使原有系统的管理和决策功能得到进一步完善。 本文基于数据仓库技术来研究与实现广电智能器材管理系统,从国 内外库存管理系统的方法和现状以及广电总局器材管理系统的现状及 存在的问题入手,对数据仓库数据挖掘技术的基本概念和技术进行简单 的介绍,然后在理论分析与研究的基础上介绍了本人参与实施的广电智 能器材管理系统的实现案例,其中详述了本人在项目中主要负责的预测 算法以及信息展示模块的设计与实现,并对预测算法进行了测试,测试 结果证实预测算法取得了预期的效果,并能投入实际的应用。 关键词:数据仓库数据挖掘器材管理线性回归算法 t h er e s e a r c ha n di m p l e m e n t a t i o no f s a r f ti n t e l i g e n te q u i p m e n tm a n a g e m e n t s y s t e mb a s e do nd a t a1 l v a r e h o u s e a b s t r a c t a tp r e s e n t ,t h et e c h n o l o g yo fd a t aw a r e h o u s eh a sb e e nu s i n gi na l lk i n d so ff i e l d a f t e rd e c a d e so f r a p i dp r o g r e s s e v e r y t e l e c o m m u n i c a t i o nc o r p o r a t i o n ,f i n a n c i a l o r g a n i z a t i o n ,g o v e r n m e n to f f i c ea n ds o m eo t h e rc o r p o r a t i o n sh a v eb e e nb u i l d i n gt h e i r o w nd a t aw a r e h o u s et os u p p o r td s sa n do t h e ra n a l y t i c a lp r o c e s s i n gi no r d e rt oa s s i s t a d m i n i s t r a t i o nm o r ee f f i c i e n t l y s a r f te q u i p m e n tm a n a g e m e n ts y s t e mi st a r g e t e da tt h em a n a g e m e n to fs p a r e p a r t sa n ds t o r e so fd e p a r t m e n t st r e a s u r y ,i tp l a y sav e r yi m p o r t a n tr o l ei ns a r f t s b u s i n e s sa d d r e s s c u r r e n tt h ee x i s t i n ge q u i p m e n tm a n a g e m e n ts y s t e mi ns a r f th a s b e e nf a rf r o mb e i n ga b l et om e e tt h er e q u i r e m e n t so fm o d e mm a n a g e m e n tr e q u i r e m e n t s , w i t ht h ei d e ab yw i r e l e s sb u r e a ut or e a l i z ei n f o r m a t i o n i z a t i o na n dc o m p r e h e n s i v e i n t e g r a t i o no fe x i s t i n gr e s o u r c e s ,i tc a l l sf o rt h ee s t a b l i s h m e n to fad i s t r i b u t e de q u i p m e n t m a n a g e m e n ts y s t e mb a s e do ni n t e l l i g e n c ed e c i s i o nt om a k et h eo r i g i n a ls y s t e mi nt h e m a n a g e m e n ta n dd e c i s i o n - m a k i n gf u n c t i o nh a sb e e nf u r t h e rp e r f e c t e d t h i sp a p e rr e s e a r c ha n di m p l e m e n tt h es a r f ti n t e l i g e n te q u i p m e n tm a n a g e m e n t s y s t e mb a s e do nd a t aw a r e h o u s et e c h n o l o g y a tf i r s t ,s t a r tw i t ht h em e t h o d sa n d t h es t a t u s o fi n v e n t o r ym a n a g e m e n ts y s t e m sa n dt h es t a t u sa n dp r o b l e m so fs a r f te q u i p m e n t m a n a g e m e n ts y s t e m ,g i v eab r i e fi n t r o d u c eo ft h et h eb a s i cc o n c e p t sa n dt e c h n o l o g i e so f d w & d m t h e ni nt h eb a s i so ft h e o r e t i c a la n a l y s i sa n dr e s e a r c h ,ii n t r o d u c e dt h es a r f t e q u i p m e n tm a n a g e m e n ts y s t e mp r o j e c tt h a tii n v o l v e di n ,a n dd e t a i l i n gt h ed e s i g na n d r e a l i z a t i o no ff o r e c a s ta l g o r i t h m sm o d u l ea n di n f o r m a t i o nd i s p l a ym o d u l et h a tip r i m a r i l y r e s p o n s i b l ef o r f i n a l l yih a v eat e s to ft h ef o r e c a s ta l g o r i t h m s ,t h et e s tr e s u l t sc o n f i r m e d t h a tt h ef o r e c a s ta l g o r i t h m sh a v ea c h i e v e dt h ed e s i r e dr e s u l t s ,a n dc a nb ep u ti n t o p r a c t i c a la p p l i c a t i o n k e yw o r d s :d a t aw a r e h o u s ed a t am i n i n g e q u i p m e n tm a n a g e m e n t l i n e a rr e g r e s s i o na l g o r i t h m 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 口期加o t ,弓22 日期:堂二乡二 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构 送交论文的复印件和磁盘,允许学位论文被查阅和借阅:学校可以公布学位论文的全部或部分 内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解 密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本学 位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日瓤 2 c , o f f 3 夕z 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 1 1 课题背景及意义 1 1 1 数据仓库技术 第一章绪论 在过去的几十年中,信息处理技术的发展使人们在事务处理环境中积累了大龄 的数据资料,但是数据库中隐含的丰富知识远远没有得到充分的挖掘和利用。而且, 所有的数据库系统相互独立,形成了所谓的信息孤岛,许多相同概念的信息被重复 存储在不同的站点上,造成了资源的浪费,更造成了数据的不一致,导致了信息处 理的紊乱。另一方面,面对当今竞争日趋激烈和瞬息万变的市场经济环境,企业管 理人员特别是决策者迫切需要面对不同层次的大量信息迅速做出决策,因此需要企 业各级管理人员从大量复杂的业务数据中获取各自领域内的决策信息,及时把握市 场变化的动态和企业内部经营管理活动的情况。 数据仓库就是基于上述问题而提出的一种解决方案,九十年代以来,国内外掀 起了一股数据仓库的热潮,各大数据库公司纷纷开发自己的数据仓库产品,还有很 多公司开发了相关的分析工具。在激烈的市场竞争中,企业的领导者经常需要商务 智能系统的帮助,做出有效的决策,保持企业产品和服务的核心竞争力。无论企业 决定如何竞争,都需要有一套完整商务智能系统,能够透过企业运营和用户的信息 来确定潜在的机会与挑战并做出相应对策。业务决策者也需要预见到后一个或后两 个甚至后四个财务季度的行为,因而数据仓库技术作为一种决策支持的手段为越来 越多的企业接受。 1 1 2 国内外库存管理系统的方法和现状 当今社会为信息社会,世界已进入在计算机信息管理领域中激烈竞争的时代。 信息已成为继劳动力、土地、资本之后的又一大资源,谁控制的信息越多,谁利用 信息资源的效率越高,谁就会在各方面的竞争中,占有一席之地,谁就会更有优势, 这一点已得到举世公认。随着w t o 的加入和我国工业的迅猛发展,为了抓住机遇, 在竞争占得先机,作为生产企业的一个必不可少的重要环节一库存管理的信息化、 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 计算机化也就迫在眉捷了。开发库存管理信息系统既有宏观上的意义,那就是顺应 时代信息化、现代化潮流,提高效益,促进国民经济结构优化;也有微观上的意义, 那就是可以提高管理的现代化程序,加强管理的信息化手段,提高工作效率,增加 单位效益。 库存管理的对象是很多的,广而言之,它可以包括:商业、企业库存的商品, 图书馆库存的图书,博物馆库存的展品等等。库存管理系统按分类、分级的模式对 仓库进行全面的管理和监控,缩短了库存信息流转时间,使企业的物料管理层次分 明、井然有序,为采购、销售和生产提供依据;智能化的预警功能可自动提示存货 的短缺、超储等异常状况;系统还可进行材料库存a b c 分类汇总,减少资金积压。 完善的库存管理功能,可对企业的存货进行全面的控制和管理,降低库存成本,增 强企业的市场竞争力。 库存管理信息系统研究的内容涉及库存管理的全过程,包括入库、出库、退货、 订货、库存统计查询等等。 一般库存管理的工作流程包括: 入库:供货单位发货运输货物到达后测试检验送货单库管人员查 收入库入库单 出库:库存统计表各使用单位领料单库管人员出库出库单 退货:产品不合格通知书各使用单位领料单存根库管人员退货退 货单 订货:库存管理部门向采购部门发出采购单采购部门向供应单位传递订 货单供应单位组织发货运输货物到达后测试检验入库 盘点:备份库存数据,打印盘点表,可按仓库、批次进行盘点,并根据盘 点表生成盘盈、盘亏表,调整库存账。盘点的功能是检查仓库现有库存量 与帐面数量是否一致。若盘点结果是仓库现有库存量大于帐面数量,则盘 盈;若盘点结果是仓库现有库存量小于帐面数量,则盘亏。无论是盘盈还 是盘亏,它们的差异量都记录在盘点调整单。 根据上述工作流程,库存管理系统将包含以下内容: 1 能对企业内的各类货物进行a b c 分类管理,并提供最低库存量、最高库 存量、安全库存量的预警功能。 2 可以存储各类信息档案包括物资i 产品基本信息、供货单位信息、使用单 位信息等。 一2一 北京邮电大学硕士学位论文 基于数据仓库的广电智能器材管理系统的研究与实现 3 可以方便快捷的进行物资入库管理物资出库管理等等,安全、高效;支持 各种类型的出入库业务:生产入库、委外加工入库、采购入库、其他入库、生产领 料出库、委外领料出库、销售出库和其他出库等 4 提供退货管理功能 5 通过查询库存,及时了解库存余额信息,便于订货下单,以免由于缺货, 影响生产。另外,还提供经济订货量计算功能和打印订货采购单功能。 6 支持库存盘点功能,可按仓库、物料进行盘点,自动汇总盘点数据,及时 生成盘赢亏调整单 7 可及时打印库存余额,方便领导决策或安排及时定货 库存管理对企业来说是一项繁琐复杂的工作,每天要处理大量的单据数据。为 及时结清每笔业务,盘点库存和货物流动情况,保证企业生产用料以及货物安全, 库管人员要花费大量人力物力和时间来作数据记录统计工作。由于库存管理在经济, 管理中占重要地位,其计算机化在发达国家中已经达到了相当高的水平。我国在全 国范围内推广计算机在管理中的应用,是在7 0 年代末开始的,虽然起步较晚,近几 年发展却较快,特别是微型计算机的出现和普及为信息处理提供了物美价廉的手段, 对于推动我国管理信息处理的现代化起了重要的作用。 。 尽管我国的生产企业在库存管理的计算机化方面也有了很强的意识和长足的进 步,但目前仍存在这样、那样的一些问题: 表现之一:有的企业单位的库存管理部分目前仍为手工、半手工操作。从供应 单位办理入库登记开始,到使用单位输领料出库手续为止,所有操作基本上都是由 仓库管理人员笔写,手理,加上算盘、计算器来完成。这不仅繁锁,效率低,而且 缺乏库存管理的一些基本手段,如库存状况统计,查询经济订货量计算等,这给企 业在一定程度上造成了管理上的落后,及经济利益上的损失。 表现之二为:有的单位的库存管理部已上了微机,但对微机的利用效率极低, 有的在用它打游戏,有的仅把它当计算器或打字机来用。 表现之三为:有的企业单位既有了微机同时也有了库存管理软件,但硬件上去 了,软件上不去。因为他们用的库存管理软件,大多为自己的工作人员及其他一些 非专业人员所开发的简单的管理程序,很难称得上是“库存管理信息系统软件”这 些程序的弱点多表现为:1 ) 系统开发时无科学的理论支持。2 ) 开发过程中调研不 全面。3 ) 软件编写时模型不清晰完整。4 ) 所用开发工具落后( 如f o x b a s e 等) 。 一3一 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 1 1 3 广电总局器材管理系统的现状及存在的问题 器材管理系统作为库存管理系统的一种,有着库存管理系统的所有特点,在企 业中是一项复杂的系统工程,广电总局的器材管理系统的管理对象主要是广电总局 各部门库房的备品备件,目前系统实现的功能有:器材入库出库管理,器材入库 出库日报表、月报表,器材盘点汇总,器材信息查询等。在广电业务处理中是非常 重要的一个环节,广电总局管辖下属几十个发射台站,每个台站每年都要有大量设 备进行更换、调拨。掌握全局性的设备运行状况、提高库房备品备件维护水平对于 全局的器材资源的管理效率和经济效益都非常重要。无线电台管理局正在积极应对 技术进步给器材管理带来的新观念和新管理手段的变革,目前面临以下两方面的挑 战: ( 1 ) 为器材管理决策服务的内、外部信息量迅速增加,无线局下属各个台站正在陆续 建设器材管理系统,经过不长的时间,信息的积累将达到很大的量级,对信息的 及时性、准确性、客观性等方面的要求更高、更严; ( 2 ) 参与决策的决定性因素众多,包括器材管理技术、器材管理数据、行政管理、个 人经验等,而且诸因素间有机关联,导致器材管理决策复杂程度大幅度提高,难 度增大。 因此,传统的器材管理模式已远远不能适应现代管理的要求,伴随着无线局全 局信息化和全方位整合现有资思想的提出,如何把现有的器材管理系统整合到统一一 的管理平台中,或者在器材管理系统建设初期就考虑到统一的管理决策平台,这些 都是迫在眉睫的任务。 1 1 4 目的及意义 针对目前国家广播电影电视总局现有的器材管理系统已经无法应对目益增长的 信息量,而且随着参与决策的决定因素的增多器材管理决策复杂程度大幅度提高的 情况,本文研究了广电器材管理系统的特点,目的就是在现有的器材管理系统基础 上,利用数据仓库和数据挖掘技术,升级和完善一套可支持智能决策的分布式器材 管理系统,使原有系统在功能流程和资源对象扩展方面得到进一步完善。新建的智 能决策系统自动采集各台站的器材管理数据,从庞杂的业务数据中提炼、综合、智 能分析,获得含金量很高的决策支持信息,使管理者可以在最短的时间内,得到最 直观、最简洁的信息反馈,逐步形成企业综合资源信息库,同时利用数据挖掘技术 北京邮电大学硕士学位论文 基于数据仓库的广电智能器材管理系统的研究与实现 设计预测类的挖掘算法来预测未来的设备资源需求,为局领导的设备管理决策提供 科学的依据。 1 2 论文的主要工作 l 、理论研究 本论文研究了广电器材管理系统的特点,结合数据仓库数据挖掘的相关技术和 工具进行分析和研究,实现把现有的器材管理系统整合到统一的管理平台中,构建 器材数据仓库,逐步形成企业综合资源信息库,并设计合理有效的预测算法来作出 器材的消耗及采购预测,并给出企业管理者下一年的预算建议,协助企业管理者制 定更加合理的器材预算i 器材采购、器材存储及消耗策略,实现智能决策。 2 、需求分析与数据仓库模型设计 通过系统调研,了解了器材管理系统的在器材管理和智能决策方面的功能需求, 通过需求分析设计了数据仓库模型,伺时利用数据挖掘技术的预测类挖掘算法设计。 合理有效的预测算法。 3 、系统设计与开发 一 在理论研究的基础上j 设计并实现了广电总局无线电台管理局节传中心的器材j 管理系统,包括系统的架构、数据仓库模型设计、信息展示设计与实现、预测算法 的设计与实现,并对预测算法进行了测试。 ,j 1 3 论文组织结构 f j 本论文共五章,研究的主要内容是基于数据仓库的广电智能器材管理系统的研 究与实现方案,除绪论、结束语、参考文献和致谢外,其他章节内容如下: 第二章对基于数据仓库数据挖掘的相关技术和工具进行分析和研究,包括数据 仓库数据挖掘技术的基本概念、o l a p 技术、数据挖掘方法以及数据仓库工具的使 用等。 第三章在前几章理论分析与研究的基础上,介绍本人参与的广电智能器材管理 系统的系统总体设计,包括系统的架构、数据仓库模型设计、信息展示设计、预测 算法设计等。 第四章详述了本人在项目中主要负责的预测算法以及信息展示模块的具体设计 和实现,并对预测算法进行了测试,测试结果证实预测算法取得了预期的效果。 一 3 一 北京邮电大学硕士学位论文 基于数据仓库的广电智能器材管理系统的研究与实现 最后,对所做的研究和实践工作做了总结,指出在研究过程中面临的主要问题 和困难,并对进一步的研究工作提出了一些建议。 一 6一 北京邮电大学硕士学位论文 基于数据仓库的广电智能器材管理系统的研究与实现 第二章数据仓库相关技术的概述 2 1 数据仓库与o l a p 技术 在以往的操作型环境中,用户想要对数据进行分析只能根据需要编写些提取程 序从业务中提取数据,起初只是提取,随后是提取之上的提取,接着就是在此基础 上再次提取,这种不断的提取模式最终形成了一个大的蜘蛛网,其中必然存在许多 问题: 数据缺乏可信任性; 没有公共的起始数据源; 数据算法上差别很大; 效率低下; 缺乏可供分析的历史数据等。 数据仓库主要就是将整个企业的所有有价值的数据经过加工汇总到一个集成环 境中,从而为决策支持系统( d e c i s i o ns u p p o r ts y s t e m d s s ) 提供一个基础,与以前的 技术相比,数据仓库环境下的d s s 工作要容易得多。 2 1 1 数据仓库概念及基本特点 计算机网络和数据库技术的迅速发展和广泛应用,使得企业管理进入一个崭新 的时代。随之,企业信息管理、决策支持应用向着更加广泛和深入的方向进行。面 对当今竞争目趋激烈和瞬息万变的市场经济环境,传统的事务处理系统在信息分析 应用领域显得越来越力不从心,企业管理人员特别是决策者迫切需要面对不同层次 的大量信息迅速作出决策,因此需要企业各级管理人员从大量复杂的业务数据中获 取各自领域内的决策信息,及时把握市场变化的动态和企业内部经营管理活动的情 况。随着企业基础信息系统的运行,企业内部的业务数据的堆积将越来越大,为了 更好的为企业决策支持服务,数据仓库技术作为一种决策支持的手段为越来越多的 企业接受。利用数据仓库技术可以很好地展现信息、发现信息、共享信息,可以全 面提升企业商业智能,提高企业决策的准确性、有效性和及时性。数据仓库技术能 一 7 一 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 把企业中长期积累的大量分散的数据综合集成到一个数据仓库中,从而使决策者能 从大量数据中得到有价值的信息,以更好的支持决策行为。 目前,大家公认的数据仓库创始人w i l l i a mh i n m o n 在他所著的数据仓 库一书中对数据仓库所下的定义,“数据仓库是一个面向主题的、集成的、时变的、 非易失的数据集合,支持管理决策的制定”。这个简短、全面的定义指出了数据仓库 的主要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库 与其它数据存储系统( 如,关系数据库系统、事务处理系统、和文件系统) 相区别。 让我们进一步看看这些关键特征: 1 面向主题:主题是在一个较高层次上将数据进行综合、归类并进行分析 利用的抽象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的 完整、一致的描述,能统一地刻画各个分析对象所涉及的企业的各项数据,以及 数据之间的关系; 2 集成的:由于各种原因,数据仓库的每个主题所对应的的数据源在原有j 的分散数据库中通常会有许多重复和不一致的地方,而且不同联机系统的数据都 和不同的应用逻辑绑定,所以数据在进入数据仓库之前必须统一和综合,这一步 是数据仓库建设中最关键、最复杂的一步; 3 不可更新的:,数据仓库的数据反映的是一段相当长的时间内历史数据的 : 内容,主要供企业决策分析之用。与面向应用的事务数据库需要对数据作频繁的 插入、更新操作不同,数据仓库中的数据所涉及的操作主要是查询和新数据的导 入,一般不进行修改操作; 4 随时间不断变化的:数据仓库系统必须不断捕捉o u p 数据库中变化的 数据,并在经过统一集成后装载到数据仓库中。同时,数据仓库中的数据也有存 储期限,会随时间变化不断删去旧的数据,只是其数据时限远比操作型环境的要 长,比如根据需要可保存5 年内的历史数据。 2 1 2 数据仓库系统的体系结构 数据仓库是将细节的关系数据以及其他外部数据经过抽取、转化和装载( e t l ) , 存入数据仓库或数据集市中而数据仓库的使用者再经过各种工具进行相应的操作。 具体的结构形式如图2 - 1 所示: 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 图2 - 1 数据仓库系统结构 前面提到,数据仓库系统是一种提升企业决策支持能力的解决方案,并不是一 种现成的产品,它的结构需要根据实际应用环境进行构造。通常数据仓库系统是由 数据仓库( d w ) 、数据仓库管理系统( d w m s ) 、数据仓库工具( d w t ) 三部分组成,其 结构形式如上图。 1 数据源 一 数据仓库的数据来源于多个数据源,源数据包括企业内部数据、市场调查报告以 及各种文档或来自w e b 之类的外部数据。 2 数据仓库管理系统 建立数据仓库时,在确定了数据仓库信息需求之后,首先进行数据建模,然后确 定从源数据到数据仓库的数据抽取、清理和转换过程,最后划分维数以及确定数据 仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型和定义数据 结构、转换规则、仓库结构、控制信息等。数据仓库管理包括对数据的安全、归档、 备份、维护、恢复等工作,这些工作需要通过数据仓库管理系统来完成。数据仓库 管理系统由以下几个部分组成: ( 1 ) 数据建模工具 用于定义和建立数据仓库系统,它包括:设计和定义数据仓库的数据库;定 义数据来源;确定从源数据向数据仓库复制数据时的清理和增强规则。 一 9 一 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 ( 2 ) 抽取、转换、装载工具 用于把数据从源数据中提取出来,依据数据建模工具定义的规则,抽取、转 化和装载数据进入数据仓库。目前有以下三种类型抽取、净化、转换或集成数据的 工具: 基于参数的程序码产生器:程序码产生器自动产生被改制了的3 g l 4 g l 抽取转换程序。该程序主要包含基于源和目标的数据定义,以及设计者 所定义的数据转换和增强规则。他们适合于各种非关系和关系数据源的 转换。为了管理转换过程,需要工作流管理、自动调度系统和接口管理 等基础的支持。s q ls e r v e r2 0 0 0 中的d t s ( d a t at r a n s f o r m a t i o ns e r v i c e s 数据转换服务) 就是属于这一种工具。 数据库复制工具:这类工具用来管理被复制的数据,他们利用数据库触 发器或恢复日志捕捉在一个系统中的单个数据资源的改变;并且将这种 改变赋给位于不同系统中的资源数据的备份。这类工具适用于数据库的 灾难恢复,但这类工具的转换能力和输入输出能力是有限的。 数据市场建立工具:这类工具是支持查询的批输出工具,在用户定义的 周期中从资源系统捕捉数据、转换他们,然后发送并装入目标环境中。 但它的主要问题是不支持非关系的数据文件。 ( 3 ) 管理工具 用于管理数据仓库的工作,包括: 对数据仓库中数据的维护。 把仓库数据送出给分析的仓库服务器或d s s 用户。 对数据仓库数据的女全、归档、备份、恢复等处理工作。 ( 4 ) 元数据库 元数据库在数据仓库中扮演了重要角色,它包含了四种元数据:数据源元数 据,数据仓库的数据模型的元数据,数据源和数据仓库之间映射的元数据,数据仓 库使用的元数据( 如多维立方垮结构等) ,下面给出了一些主要内容: 数据仓库的主题描述,如主题名,主题的公共关键字,有关描述信息等 外部数据和非结构化数据的描述,如外部数据源、存储内容等 。记录系统定义,如主题名、属性名,数据源系统,源表名等 逻辑模型定义,如关系名,属性名等 数据进入数据仓库的转换规则 数据抽取历史 一】0一 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 数据粒度定义 数据分割定义 索引定义 存储路径和结构描述。 3 数据仓库工具类 分析工具部分主要分类两类: ( 1 ) 查询工具 可视化工具:以图形化方式展示数据,可以帮助了解数据结构、关系以 及动态性。 多维分析工具( o l 廿工具) :通过对信息的多种可能的观察形式进行快 速、一致和交互性的存取,这样便于用户对数据进行深入的分析和观察。 ( 2 ) 数据挖掘工具 从大量的数据中挖掘具有规律性的知识,需要利用数据挖掘工具。 概言之,数据仓库是支持管理决策过程、面向主题、集成、稳定、不同时间的 数据集合,是存储数据的一种组织形式,是一种语义上一致的数据存储,它充当决 策支持数据模型的物理实现,并存放企业决策所需信息。数据仓库也常常被看作一 种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和启发式 查询、分析报告和决策制定。 2 1 3o l a p 技术 6 0 年代,关系数据库之父e e c o d d 提出了关系模型,促进了联机事务处理 ( o l t p ) 的发展( 数据以表格的形式而非文件方式存储) 。随着用户对数据查询和数据 分析的要求不断提高,联机事务处理( o u l p ) 越来越不能满足用户的需要,1 9 9 3 年 e e c o d d 提出了o l a p 概念,认为o l t p 已不能满足终端用户对数据库查询分析的 需要,s o l 对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的 决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足 决策者提出的需求。因此,e e c o d d 提出了多维数据库和多维分析的概念,即 o l a p 。 o l a p ( o n 1 i n ea n a l y t i c a lp r o c e s s i n g ) 且 j 在线分析处理,又称联机多维分析:是使 分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够 真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 北京邮电大学硕士学位论文 基于数据仓库的广电智能器材管理系统的研究与实现 从而获得对数据的更深入了解的一类软件技术( 0 l a p 委员会的定义) 。和传统的 o l t p 面对操作人员不同,o l a p 是面对决策人员和管理人员的,因而数据的特点 和处理也明显不同。o l t p 是以数据库为基础,对基本数据的查询和增删改操作进 行处理,而o l a p 更适合以数据仓库为基础的数据分析处理,下表列出o l t p 和 o l a p 的比较结果: 表2 - 1 o l t p 数据o l 谨数据 原始数据导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新不可更新,但周期性刷新 一次处理的数据量小一次处理的数据量大 面向应用,事务驱动面向分析,分析驱动 面向操作人员,支持日常操作 面向决策人员,支持管理需要 由表2 - 1 的比较可知o l 奸具有如下的特性: 1 1 一快速性j 用户对。o l a p 一的快速反应能力有很高的要求主要是指计算机的 计算的反应速度,系统应能在5 秒内对用户的大部分分析要求做出反应,但对业务 数据的实时信息却很难反应。 2 、可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 3 、多维性:多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和 分析,包括对层次维和多重层次维的完全支持。 4 、信息性:不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时 获得信息,并且管理大容量信息。 o l a p 是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是 “维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合,支持从多角度、 多粒度对数据进行观察,其呈现方式以报表和统计图为主。其中o l a p 多维数据结 构分为: 1 、超立方结构( h y p e r c u b e ) :超立方结构指用三维或更多的维数来描述一个对 象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相 同的维属性。( 收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加 一1 2 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 入额外的分析维) 。 2 、多立方结构( m u l t i c u b e ) :即将超立方结构变为子立方结构。面向某一特定应 用对维进行分割,它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 随着数据仓库的发展,o l a p 也得到了迅猛的发展。数据仓库侧重于存储和管 理面向决策主题的数据;而o l a p 则侧重于数据仓库的数据分析,并将其转换成辅 助决策信息。o l a p 的一个主要特点是多维数据分析,这与数据仓库的多维数据组 织正好形成相互结合、相互补充的关系。因此,利用o l a p 技术与数据仓库的结合 可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的 问题。 、 i o l a p 的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现 对数据库所提供的数据进行深入分析,为决策者提供决策支持。多维结构是决策支 持的支柱,也是o l a p 的核心。多维结构中的维与一般意义上的物理维( 如平面、 立体) 是有所区别的,它突破了三维概念,可以有四维、五维甚至更多维的数据结 构,即超立方体和多立方体的数据结构。我们可以利用分析工具对多维数据结构进 行切片、切块、向上钻取、向下钻取和旋转等处理得到所需的决策分析数据。例如 我们对嚣地区、时间、产品”三维立方体( 图2 2 ) 进行切片、切块处理得到三维 立方体切片、切块示意图。 图2 - 2 三维立方体切片、切块示意图 一1 3 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 2 2 数据挖掘技术 2 2 1 数据挖掘的定义及模式 所谓数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中发现并提取隐藏在其中先前未知的对决策有潜在价值的知识和 规则的过程。这些规则蕴涵了数据库中一组对象之间的特定关系,揭示出一些有用 的信息,为经营决策、市场策划、金融预测等提供依据。目的是帮助分析人员寻找 数据之间的关联,发现被忽略的要素,而这些信息对于预测趋势和决策行为是十分 有用的。数据挖掘是通过对文件系统和数据库中的数据进行分析,获得具有一定可 信度知识的算法和技术。通过数据挖掘,有价值的知识、规则、高层次的信息就能 从数据库的相关数据集合中抽取出来,并从不同角度显示出来,从不同侧面完成对 决策过程的支持,从而使大型数据库作为一丰富可靠的资源为知识归纳服务,数据 挖掘技术涉及数据库、人工智能、机器学习,神经网络和统计分析等多种技术。因 此,将它集成到一个系统中,形成基于数据开采的o l a p 工具可以更加有效的提高 决策支持能力。 数据挖掘有如下几个特点: 1 、理数据规模十分巨大 2 、查询一般是决策制定者提出的即时随机查询,往往不能形成精确查询要求 3 、由于数据变化迅速以至于可能很快过时,因此需要对动态数据做出快速反应 提供决策支持 4 、主要基于大样本的统计规律,其发现的规则不一定适用于所有数据。 数据挖掘的任务是从数据中发现模式。模式是一个用语言l 来表示的一个表 达式e ,它可用来描述数据集f 中数据的特性,e 所描述的数据是集合f 的一个 子集f e 。e 作为一个模式要求它比列举数据子集f e 中所有元素的描述方法简单。 模式有很多种,按功能可分有两大类:预测型模式和描述型模式。预测型模式是可 以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是 可以明确知道结果的,描述型模式是对数据中存在的规则做一种描述,或者根据数 据的相似性把数据分组。描述型模式不能直接用于预测。 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 在实际应用中,往往根据模式的实际作用细分为以下6 种: 1 ) 分类模式 分类模式是一个分类函数( 分类器) ,能够把数据集中的数据项映射到某个给定 的类上。分类模式往往表现为棵分类树,根据数据的值从树根开始搜索,沿着数 据满足的分支往上走j 走到树叶就能确定类别。 2 ) 回归模式 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离 散的,回归模式的预测值是连续的。如给出某种动物的特征,可以用分类模式判定 这种动物是哺乳动物还是鸟类。 3 ) 时间序列模式 j 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的 特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假 日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前 后的相关性( 过去的事情对将来有多大的影响力) 等。只有充分考虑时间因素,利 用现有数据随时间变化的一系列的值,才能更好地预测将来的值。由于空管流量统 计的数据大都是时间序列,因此将在后文中对此展开进一步讨论。 4 ) 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可 能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也 不知道根据哪一( 几) 个数据项来定义组。一般来说,业务知识丰富的人应该可以 理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的, 需要回到上阶段重新组织数据。 5 ) 关联模式、 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在无力 偿还贷款的人当中,6 0 的人的月收入在3 0 0 0 元以下。” 6 ) 序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现 序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。在解决实 际问题时,经常要同时使用多种模式。分类模式、回归模式、时间序列模式也被认 为是受监督知识,因为在建立模式前数据的结果是已知的,可以直接用来检测模式 的准确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时,使用 一部分数据作为样本,用另一部分数据来检验、校正模式。聚类模式、关联模式、 一1 5 一 北京邮电大学硕士学位论文基于数据仓库的广电智能器材管理系统的研究与实现 序列模式则是非监督知识,因为在模式建立前结果是未知的,模式的产生不受任何 监督。 2 2 2 数据挖掘的体系结构 数据挖掘系统是数据仓库系统中非常重要的部分。但是数据挖掘系统可以独立 于数据仓库而存在。通常数据挖掘产品都提供访问数据仓库、数据库、平面文件以 及其它外部数据源的接口。利用这些接口,数据挖掘工具可以通过多种渠道获得所 需的数据。在提取数据的时候,数据挖掘工具需要进行一些预处理以保证进入挖掘 库中的数据的正确性。 在许多情况下,数据挖掘工具将从数据仓库中提取数据,如果数据在进入数据 仓库时已经完成了数据一致性的工作,则数据进入挖掘库时,可以不做清洗数据的 工作。挖掘库是数据挖掘工具的核心部分。在挖掘库中存放了数据挖掘项目需要的 数据、算法库和知识库。在算法库中存放了已经实现了的挖掘算法,在知识库中存 放着预先定义的和经过挖掘后发现的知识。 数据挖掘工具还应当提供必要编程a p i ,使用户可以对算法进行改进,将算法 嵌入到最终用户的界面系统中。数据挖掘的体系结构如图2 3 所示 2 2 3 数据挖掘的过程 图2 - 3 数据挖掘的体系结构 数据挖掘又称数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s ek d d ) ,它 是一个从大量数据中抽取挖掘出有价值的模式或规律性知识的复杂过程。整个k d d 过程是由若干挖掘步骤组成,完成从明确目标到评价结果的一系列活动,大体流程 是先根据挖掘目的选择不同的挖掘方法产生分析模型,再对模型进行解释,得出决 一1 6 北京邮电大学硕士学位论文 基于数据仓库的广电智能器材管理系统的研究与实现 策结果,包括七个阶段: 1 、明确目标:明确目标就是定义数据分析的目的,将潜在的问题转化为分析需要的 具体目标,对问题和目标的明确描述是正确建立分析的先决条件; 2 、组织数据:就是对数据进行选择、组织和预处理,首先要确定数据源,通常使用 容易获得且可靠的内部资源,如果数据源为数据仓库则可以容易地抽取主题数据库、 数据集市或感兴趣的数据;如果没有数据仓库,则可以组合不同数据源创建数据仓 库;然后进行初步的数据清洗,检查变量内容、判断是否丢失数据或有不正确数据, 7 也就是对数据进行质量控制。 。3 、数据的探索性分析:初期对数据重要性的评价有助于原始变量的转换、更好地理 解现象或者导出基于满足特定初始假设的统计模型,对数据的探索性分析可以使分 析者预测哪一种统计方法最适合下一阶段的分析。: 4 、确定统计方法:有多种统计方法可以使用,也有许多算法,方法的选择依赖于所 研究的问题或数据变量的类型。数据挖掘过程由应用引导,因此方法可根据分析的 目的分类,区分出三大类方法: 描述性方法:用于了解系统实际数据存在的特性,其目的是为了预测作准备, _ :最终目的是建立一个好的预测模型,旨在更加简要的描述数据类,它们也称为 对称的、无监督的或间接的方法。观测数据被划分为若干未知的类( 聚类分析 法、k o h o n e n 图法) ,变量可能根据未知的联系互相关联( 关联方法、对数线形 模型、图模型) 预测性方法:预测性分析是在描述性分析得到结论的基础上对系统的发展进行 估计,旨在描述一个或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论