(计算机软件与理论专业论文)变电设备状态检修数据仓库系统研究与开发.pdf_第1页
(计算机软件与理论专业论文)变电设备状态检修数据仓库系统研究与开发.pdf_第2页
(计算机软件与理论专业论文)变电设备状态检修数据仓库系统研究与开发.pdf_第3页
(计算机软件与理论专业论文)变电设备状态检修数据仓库系统研究与开发.pdf_第4页
(计算机软件与理论专业论文)变电设备状态检修数据仓库系统研究与开发.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机软件与理论专业论文)变电设备状态检修数据仓库系统研究与开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江人学硕士学位论文 摘要 随着变电设备状态检修辅助分析系统的运行,系统中积累了大量宝贵的历史 数据,为了充分利用这些数据,应建立数据仓库,以满足人们的决策分析需要。 本文着重讨论了数据仓库的设计与实现。 在对数据仓库技术的深入研究的基础上,我们设计并实现了一个变电设备状 态检修数据仓库系统。系统采用操作数据库一操作数据存储( o d s ) 一数据仓库 ( d w ) 三层体系结构。 操作数据存储o d s ( o p e r a c i o n a ld a t as t o r e ) ,是介于d b 和d w 之间的一种数据 存储技术,保存面向主题的、当前的或接近当前的细节数据。它弥补了数据仓库 在处理实时数据的处理效率不高的不足。 目前对数据仓库的实时更新普遍采用视图维护更新方式,视图的自维护和一 致性维护是数据仓库更新的重要问题。文中介绍了一种利用视图计算的中间结构 创建辅助视图,在数据仓库中进行实体化,计算实视图和辅助视图的精确变化, 实现数据仓库的增量维护算法。本文同时也探讨了基于工作流的数据仓库更新技 术。 变电设备状态一般是通过经验公式进行判断的。一些设备的试验数据根据经 验公式并不能得到真实的状态。文中介绍了对设备历史数据进行聚类分析,并根 据聚类的结果作为设备状态的判断依据的设备状态分析方法。通过实践表明,通 过聚类分析可以判断出无法根据经验公式进行的设备状态。 关键词:数据仓库、操作数据存储、联机分析处理、实时更新、视图维护、工作 流、数据挖掘、聚类分析 浙江人学硕士学位论文 a b s t r a c t w i t ht h ea p p l i c a t i o no ft r a n s f o r m e rf a c i l i t ys t a t u sa n a l y s i ss y s t e m ,l a r g ea m o u n t o f h i s t o r y d a t u m a c c u m u l a t e d p e o p l ep u s h m o r ea n dm o r ed e m a n d so n d e c i s i o n - m a k i n g b a s e do n h i s t o r yd a t u m t h e s eb r a n d n e wd e m a n d s ,c o m p a n i e dw i t h t h ed e v e l o p m e n to f d a t aw a r e h o u s e t e c h n i q u e ,m a k e i tn e c e s s a r yt ob u i l daw a r e h o u s e o nt r a n s f o r m e rf a c i l i t ys t a t u sa n a l y s i s b ea w a r eo ft h en e c e s s i t ya n df e a s i b i l i t yo ft h ed a t aw a r e h o u s et e c h n i q u e ,w e h a v ed e s i g n e da n di m p l e m e n t e dad a t aw a r e h o u s eo ft r a n s f o r m e r f a c i l i t y s t a t u s a n a l y s i ss y s t e m t h es y s t e mi sc o m p r i s e do fd a t a b a s e ,o p e r a t i o n a ld a t as t o r ea n dd a t a w a r e h o u s e o p e r a t i o n a ld a t as t o r ei sad a t as t o r a g et e c h n i q u ew h i c h i sb e t w e e nd a t a b a s ea n d d a t aw a r e h o u s e ,w h i c hi sa na r c h i t e c t u r a lc o n s t r u c tt h a ti ss u b j e c to r i e n t e d ,i n t e g r a t e d , v o l a t i l e ,c u r r e n tv a l u e d ,a n dc o n t a i n sd e t a i l e dc o r p o r a t ed a t a o d sc a nr e c o v e rt h e s h o r t c o m i n g t h a td wi sh a r et od e a lw i t l lr e a l - t i m ed a t a w eo f t e ns t o r et h ed a t ai nt h ew a r e h o u s ea sm a t e r i a l i z e dv i e wt os p e e d u pq u e r y p r o c e s s i n go nl a r g ea m o u n t o fd a t a t h e s ev i e w sn e e dt ob em a i n t a i n e di nr e s p o n dt o u p d a t e i nt h es o u r c ed a t a w es h o wt h a tt h ew a r e h o u s ev i e w sc a l lb em a d e s e l f - m a i n t a i n a b l ew i t ht h ea u x i l i a r yv i e w s ,w h i c hd e r i v e df r o mt h ei n t e r m e d i a t er e s u l t o ft h ev i e wc o m p u t a t i o nc a nb em a t e r i a l i z e di nt h ew a r e h o u s e t h ei n c r e m e n t a l m a i n t e n a n c ea l g o r i t h mc a ni m p l e m e n tw a r e h o u s er e a l t i m eu p d a t i n g w ea l s od i s c u s s as t r a t e g yb a s e do nw o r k f l o wt om e e tw a r e h o u s eu p d a t i n g t h et h e s i sa l s o s t u d yt h ec l u s t e r i n ga p p l i c a t i o no nt r a n s f o r m e rf a c i l i t y s t a t u s a n a l y s i s ac l u s t e r i n ga n a l y s i si sm a d e a n dt h er e s u l t ss h o wt r a n s f o r m e rf a c i l i t ys t a t u s w h i c hc a n tb ed i a g n o s e db y e x p e r i e n c ef o r m u l a c a nb ed i a g n o s e da c c u r a t e l y t k e y w o r d :d a t aw a r e h o u s e ,o p e r a t i o n a ld a t as t o r e ,o n l i n ea n a l y t i c a lp r o c e s s i n g , r e a l t i m eu p d a t i n g ,v i e wm a i n t e n a n c e ,w o r k f l o w , d a t am i n i n g ,c l u s t e r i n g 2 浙江大学硕士学位论文 第一章绪论 1 1 数据仓库 1 1 1 数据仓库的由来 随着企业计算机应用的不断深入,企业已经积累了大量的生产业务数据,企 业内的各级任意都希望能够快速、交互并方便有效地从这些大量杂乱无章的数据 中获取有意义的信息,决策者希望能够利用现有的数据指导企业决策和发掘企业 的竞争优势。对于以上需求,现有的信息管理系统中的数据分析工具很难给出答 案,即传统的数据库应用系统并不能很好地支持决策,因为它是面向业务操作设 计的,只能简化具体操作人员的劳动强度,但不能对这些数据所包含的内在信息 进行提取。数据仓库技术应运而生,2 0 世纪8 0 年代中期,w i l l i a m h i n m o n 提出 “数据仓库”【1 】,数据仓库能把已经广泛收集到的数据集成到数据仓库中,以 从业务数据中提取有用的信息,帮助人们在业务管理和发展上做出即时正确的判 断。 数据仓库时适应决策支持系统的需要而产生的,所有应该能支持决策过程的 全部工作内容,完整的数据仓库应包括3 个方面的技术内容:数据仓库计算、联 机分析处理技术和数据挖掘。 1 1 2 数据仓库的概念及特征 数据仓库【1 】是一个面向主题的,集成的,时变的,非易失的数据集合。 与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的 业务数据的整合、2 n t 和分析的过程。 数据仓库具有以下几个特征: 1 1 面向主题的:数据仓库围绕一些主题,排除对于决策无用的数据,提供特定 主体的简明视图。 2 1 集成的:构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编 码结构,属性度量等一致性。 3 1 时变的:数据存储从历史的角度提供信息,数据仓库的关键结构,隐式或显 式地包含时间元素。 4 1 非易失的:数据仓库总是物理地分离存放数据,由于这种分离,数据仓库不 浙江大学硕士学位论文 需要事务处理,恢复和并发控制,通常数据仓库只需要两种数据访问:数据 的初始化装入和数据访问。 1 - 1 3 数据库与数据仓库的比较 传统的数据库是单一的数据资源,即数据库为中心,进行联机事务处理 ( o l t p ,o n l i n et r a n s a c t i o np r o c e s s i n g ) ,数据库技术的根本任务还仅限于及时、 安全地将当前的任务所产生的数据记录保存下来,以及对现有的数据进行查询和 修改等数据处理工作。随着计算机技术的不断发展,网络计算开始向广度和深度 两个不同的方向拓展,人们对以往计算机的简单数据操作提出了更高的要求,希 望计算机能够更多的参与数据分析与决策的制定等领域,新兴的软件技术一联机 分析处理( o l a p ,o nl i n e a n a l y t i c a lp r o c e s s i n g ) 就是专门设计用于支持这种复杂 的数据分析操作的。出于o l t p 和o l a p 的性能特性不同,为了提高分析和决策 的效率和有效性,必须把分析型数据从事务处理环境中提取出来,按照决策支持 系统( d s s ) 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是 为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 数据仓库与数据库的不同如表1 1 所示: 表1 1o l t p 系统和o l a p 系统的比较 特性 o l t po l a p 特征 面向 用户 功能 d b 设计 数据 汇总 视图 : 作单位 存取 关注 操作 操作处理 事务 办事员、d b a 、数据库专业人员 日常操作 基于e - r ,面向应用 当前的,确保最新 原始的,高度详细 详细,一般关系 短的,简单事务 读,写 数据进入 主关键字上索引散列 信息处理 分析 知识工人( 如经理、主管、分析员) 长期信息需求,决策支持 星型雪花,面向主题 历史的,跨时间维护 汇总的,统一的 汇总的,多维的 复杂查询 大多为读 信息输出 大量扫描 浙江大学硕十学位论文 1 1 4 数据仓库的结构 数据仓库作为一个系统,从理论上应该包括3 个基本部分,其结构形式如图 1 1 所示: 综合数据 当前数据 历史数据 用户查询 工具 c s 工具 o l a p 工具 d m 工具 图1 1 数据仓厍总体结构图 ( 1 )数据获取:负责从外部数据源获取数据,数据被区分出来,进行拷 贝或重新定义格式等处理后,准备装入数据仓库。 ( 2 )数据存储和管理:负责数据仓库的内部维护和管理,提供的服务包 括数据存储的组织、数据的维护、数据的分发及数据仓库的例行维护等,这些工 作需要利用数据库管理系统( d 删s ) 功能。 ( 3 )信息访问:数据仓库的前端,面向不同种类的最终用户。主要由查 询生成工具、多维分析工具和数据挖掘工具等工具集组成,以实现决策支持系统 的各种要求。 数据仓库首先是一个数据库系统,可以视为一种满足数据仓库管理要求的特 殊的数据库系统,其基本功能可以具体细分为图1 2 所示的5 个部分: 浙江大学硕十学位论文 图1 2 数据仓库细化结构图 ( 1 ) 数据定义:主要完成数据仓库的结构和环境的定义,包括:定义数 据仓库中的模式,数据仓库的数据源和从数据源提取数据时的一组规则和模型。 ( 2 ) 数据提取:负责从数据源提取数据,并对获得的源数据进行必要的 加工处理,使其成为数据仓库可以管理的数据格式和语义规范。 ( 3 ) 数据管理:由一种系统服务工具组成,负责数据的分配和维护,支 持数据应用。数据分配完成获取数据的存储分布及分发到多台数据库服务器,维 护服务完成的数据转储和恢复、安全性定义和检测。 ( 4 ) 信息目录:描述系统数据的定义和组织,通过它用户或开发人员可 以了解数据仓库中存放的数据,以及如何访问、使用和管理。按数据仓库数据管 理和应用要求,信息目录可以设计为3 个子部分:技术目录、业务目录和信息导 航目录。 ( 5 ) 数据应用:包括报表生产工具、o l a p 、数据挖掘、决策支持工具, 其中比较重要的是o l a p 和数据挖掘。 1 1 5 数据仓库的关键技术 与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。 由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为1 2 1 :数 据仓库的设计的技术咨询、数据的抽取、存储和管理以及数据的表现四个方面。 为此,我们将分别讨论每一个环节。 ( 1 ) 数据仓库的设计的技术咨询: 数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系统工程。在数 浙江大学硕士学位论文 据仓库的实施过程中,有一些更为基本的问题需要解答。它们包括:数据仓库提 供哪些部门使用? 不同的部门怎样发挥数据仓库的决策效益? 数据仓库需要存 放哪些数据? 这些数据以什么样的结构存放? 数据从哪里装载? 装载的频率多 少为合适? 需要购置哪些数据管理的产品和工具来建立数据仓库? 等等。这些问 题依赖于特定的数据仓库系统,属于技术咨询的范畴。 ( 2 ) 数据的抽取: 数据的抽取是数据进入仓库的入口。由于数据仓库是个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、 调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时 的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、 成败对数据仓库中信息的有效性则至关重要。 ( 3 ) 存储与管理: 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了 它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用 什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据 量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只 有关系数据库系统能够担当此任。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用 户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请 求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统 的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。 此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将 该请求并行处理。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系 数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术 上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、 数据排序和采样等诸多部分。 9 浙江大学硕士学位论文 数据仓库的第四个问题是支持多维分析的查询模式,为此,人们提出了多维 数据库的概念。多维数据库是一种以多维数据存储形式来组织数据的数据管理系 统,它不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据 库中方可访问。采用多维数据库实现的联机分析应用我们称之为m o l a p 。多维 数据库在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的 并行处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。,关系数 据库若采用”星型模式”来组织数据就能很好地解决多维分析的问题,星型模式是 数据库设计中数据表之间的一种关联形式,它的巧妙之处在于能够找到一个固定 的算法,将用户的多维查询请求转换成针对该数据模式的标准s q l 语句,而且该 语句是最优化的,采用关系数据库实现的联机分析应用称为r o l a p 。 在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩 充的并行关系数据库将是数据仓库的核心。 ( 4 ) 数据的表现: 数据表现是数据仓库的门面。主要集中在多维分析、数理统计和数据挖掘方 面。多维分析是数据仓库的重要表现形式,由于k l o l a p 系统是专用的,因此,关 于多维分析领域的工具和产品大多是r o l a p 工具。在实际的应用中,客户需要通 过对数据的统计来验证他们对某些事物的假设,以进行决策。而数据挖掘强调的 不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据 之中的规律。 1 2数据仓库技术应用现状 当今世界充满了剧烈竞争,正确及时的决策是企业生存和发展的最重要环 节。现在,愈来愈多的企业认识到,企业要想在竞争中取胜,获得更大的收益, 至关重要的是,必须利用计算机和网络技术、数据仓库技术,深层次地挖掘、分 析当前和历史的生产业务数据,以及相关环境的相关数据,自动快速获取其中有 用的决策信息,为企业提供快速、准确和方便的决策支持。通过对企业生产和计 划的完成情况及相关环境数据进行多角度多层次的分析,以使企业的决策者及时 掌握企业的运行情况和发展趋势,并对制定生产计划和长远规划提供理论指导, 提高企业的管理水平和竞争优势。 0 浙江大学硕士学位论文 1 - 2 1 数据仓库在客户服务方面的应用 客户关系管理( c r m ) 是一个判断、获耿、保持和增加可获利客户的过程。 数据仓库与c r m 有着难以割舍的密切关系,从某种意义上说,数据仓库是c r m 的灵魂。c r m 的很多工作都是以数据仓库为基础展开的。利用数据仓库,企业可 以制定准确的市场策略与促销活动。c r m 充分利用数据仓库的分析结果制定市场 镱略、产生市场机会,并通过销售和服务等部门与客户交流,从而提高企业的利 润。 数据仓库在c r m 中有以下三方面的作用:客户行为分析、重点客户发现和市 场性能评估。 客户行为可以划分为两个方面:整体行为分析和群体行为分析。根据客户行 为的不同可以将他们划分为不同的群体,各个群体有着明显的行为特征。通过行 为分组,c p 3 1 用户可以更好地理解客户,发现群体客户的行为规律。基于这些理 解和规律,市场专家可以制定相应的市场策略,同时还可以针对不同客户组进行 交叉分析,帮助c r m 用户发现客户群体间的变化规律。 重点客户发现的目标是找出对企业具有重要意义的客户,这些重点客户主要 包括以下几类:潜在客户( 有价值的新客户) 、交叉销售( 同一客户有更多的消 费需求) 、增量销售( 更多地使用同一种产品或服务) 、客户保持( 保持客户的忠 诚度) 。 性能评估,根据客户行为分析,企业可以准确地制定市场策略和策划市场活 动。然而,这些市场活动能否达到预定的目标是改进市场策略和评价客户行为分 组性能的重要指标。因此,c r m 系统必须对行为分析和市场策略进行评估。同样, 重点客户发现过程也需要对其性能进行分析,然后在此基础上修改重点客户发现 过程。这些性能评估都是以客户所提供的市场反馈为基础。 1 2 2 数据仓库在营销领域的应用 市场信息数据仓库有一个新的挑战:保持用户。这需要找到一种方法,运用 收集到的数据来预测用户未来的购买行为,这就是数据库营销法的所在。数据库 营销就是把数据库采掘与预测模型以及台式显示工具结合起来,以帮助市场营销 人员对客户行为作深入的洞察分析。最终的目标是预测用户的忠诚度,也就是哪 些用户对该品牌依然衷情,哪些用户甘愿转向其他。如果能够预测到这些行为, 浙江人学硕士学位论文 就能够有更大的机会来留住客户。减少用户的转向,保持原有的用户市场比开发 许多市场要廉价得多,尤其是在电信和无线通信领域更是如此。电信和家电领域 的管制撤销意味着用户有了更多的选择,用户的多种选择对于公司来说又意味着 用户流失的风险和更高的市场营销费用。 南加利福尼亚石油公司利用它的大型机和d b 2 数据库,并完善了它现有的数 据分析工具来聚焦它的营销目标。在过去两年里,该公司使用数据采掘技术来预 测用户行为,使其直接营销费用节省了大约4 0 万美元。使用数据库营销技术、市 场部能够详细描述最可能继续合作的用户群。运用s a s 来推测哪些用户需要石 油,便可集中注意力于这些用户,给予他们最优厚的夏冬季差价。然后,建立一个模 型用来分析每一位用户,把最可能的客户选出,于是就把市场注意力转向他们。 1 2 3 数据仓库在证券业的应用 数据仓库技术在证券业的应用十分广泛,它可处理客户分析、帐户分析、证 券交易数据分析、非资金交易分析等多个业界关心的主题,这是证券业扩大经营、 防范风险的预警行动。 证券公司利用客户行为分析系统数据仓库技术将所有客户的操作记录进行 归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大 量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、客户的 持仓情况、客户的盈亏情况、公司的利润分布等进行统计和分析。从而获得以往 一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。 证券商在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投 资建议,从而真正作到对客户的贴心服务。 1 9 9 9 年4 月,深圳国信证券的数据仓库系统( 由s y b a s e 公司提供解决方案) 一期工程完成,该项首期投资近2 0 0 万元数据仓库系统建设的出发点是为当前公 司的决策者提供快速有效的各种报表和分析方式,提高公司的市场反应速度和竞 争力水平。该系统包括了客户分析、账户分析、证券汇总分析、资金交易分析、 非资金交易分析等多个业界关心的主题。公司用户可以通过固定灵活报表、多维 分析等多种形式实现多个层面的数据访问,数据访问的手段包括访问授权的内部 w e b 站点、通过自动e - - m a i l 邮件转发、直接c l i e n t s e r v e r 连接等多种方式。该 系统的完成是国内开放平台数据仓库系统建设的个成功案例。 浙江大学硕士学位论文 1 - 2 4 数据仓库在银行领域的应用 随着社会主义市场经济改革的深化,传统的计划金融模式逐渐瓦解,市场金 融模式逐渐形成。在这个变革过程中,由于体制、市场、企业、个体等经济要素 变化、发展的不平衡性,带来了银行对各种金融变量控制的随机性和模糊性,如 何防范银行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个 重要课题。 9 0 年代出现的数据仓库、o l a p ( 联机分析) 、数据采掘、多媒体、高带宽网 络技术,使银行的科学管理有了一个新的技术支持。利用数据仓库的强大功能, 银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、 市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分 析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信 贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以 有效控制投资、信贷风险。 光大银行商务智能应用系统【3 】,采用菲奈特软件智能化系统。信息的即时 展现避免了可能出现的商机延误;分析的多维性和立体性使管理决策者不仅能把 握整体的运作情况,也能窥视到个体的分布状态;查询粒度的精细化使操作人员 能够对有疑点的数据进行下钻查询,甚至可以精确某个交易,某个客户;报表处 理的简单化和科学化,节省了高昂的人力物力:更重要的是,数据统计的准确化 和分析角度的科学化,保证了对管理者决策指引的科学化。 1 2 5 数据仓库在税务领域的应用 增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和 干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其 间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和 外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和 瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特 性进行描述,找出普遍规律,谋求因势利导的税务征稽策略:三是对不同行业、 产品和市场应收税款进行预测,制定最有效的征收计划。 数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的 分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并 浙江大学硕士学位论文 与其实际纳税金额进行对比,从而查出可能的偷漏税者。 广东省国税局近日采用广州菲奈特软件公司商业智能系统平台1 4 ,该系统 应用数据仓库、o l a p 分析和数据挖掘等技术,实现税收宏观分析、税收收入分 析、税收征管分析、出口退税分析、专用发票分析、纳税人分析、纳税人审计分 析等功能。它可以对经济和税收综合数据进行科学分析,研究经济与税收增长的 弹性、发展的均衡性等数量关系,揭示税收收入和税收负担等重大指标的长期增 长趋势、波动规律、发展速度、地区分布、行业分布、所有制分布和月度时序特 征;运用对比分析方法揭示事物之间的关系、强度及均衡性;对税收收入、出口 及出口退税等重大税收指标进行精确监控和科学预测;根据纳税人的生产经营情 况和纳税情况对其申报的真实性进行量化评测和科学分类。 1 2 6 数据仓库在保险业的应用 随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满 足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和 化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发 展趋势,甚至如何利用这些数据来设计保险企业的发展宏图,在激烈的竞争中赢 得先机是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用 上的首要难题。数据仓库技术、联机分析处理技术的日趋成熟和i n t e r n e t 的普 及加速了决策支持的实用化过程。 菲奈特与深圳华安保险公司合作联合开发财产险主业务系统( s p s ) 和保 险决策支持系统( i d s s ) 是金融业决策支持系统在华南地区的首例商业应用, 也是数据仓库在保险业的成功应用。该系统是以数据仓库( d a t aw a r e h o u s e ) 技 术为基础,联机分析处理( o l a p ) 和数据挖掘( d a t am i n i n g ) 工具为手段的一 整套可操作、可实施的整体解决方案,适用于u n i x 和w i n d o w sn t 平台,可以使 用s q ls e r v e r 、p l a t i n u m 、s y b a s ei q 、i n f o r m i xm e t a c u b e 等o l a p 服务器, 可连接多个业务系统的异构数据源( 如:i n f o r m i x 、o r a c l e 、d b 2 、s y b a s e 、s q l s e r v e r ) ,并同时提供c l l e n t s e r v e r 与w e b 两个操作版本。该系统充分利用了 数据仓库的先进技术以及联机分析处理机制对数据的多维动态查询、分析和钻取 功能,建成了保险决策支持系统。该系统能进一步挖掘保险公司现有的各种数据 的潜力,提供了关键业务指标分析、业绩分析、财务分析、市场分析、重要险 4 浙江人学硕士学位论文 种分析、重大事件分析、即席分析、风险评估、业务预测、风险告警和风险预测 等功能,为保险公司领导层及时掌握经营管理的真实动态,做出科学决策提供多 方位、多层次、多视觉的信息服务和重要的数据依据。 1 3 研究和开发变电设备状态检修数据仓库的必要性 电力局信息化实践起步较早,变电设备状态检修分析系统中也已积累了大量 宝贵的历史数据。但是目前的系统主要是对管理信息进行日常的操作,对信息进 行查询和修改,满足管理人员的日常管理需要。不能提供对历史数据的统计分析 功能,不能满足管理人员的决策支持需要。现在我们有必要充分利用这一优势, 对这些宝贵的历史数据进行一次全面的数理统计分析,完成数据的抽取、筛选、 综合等工作,为管理人员的决策提供支持,了解设备的状态发展趋势。为满足管 理人员的决策分析需要,应建立能满足决策分析所要的数据环境一数据仓库。解 决连机事务处理系统无法支持决策分析活动的问题( 决策处理中的系统响应问 题、决策数据需求的问题和决策数据操作的问题) 。 1 4目前相关的数据仓库解决方案 s y b a s e 的w a r e h o u s es t u d i o 是一个针对数据仓库应用的集成化的解决方案, 包括:设计组件( w a r e h o u s ea r c h i t e c t ) 、元数据管理软件( w a r e h o u s ec o n t r o l c e n t e r ) 和一个可选的用于集成的组件( p o w e rs t a g e ) 数据管理软件( a d a p t i v e s e r v e r l q ) 和提供一些具有可视化功能的分析软件( b u s i n e s so b j e c t ,c o g n o s , b r i o ,m i c r os t r a t e g y 和e n g l i s hw i z a r d ) 。 c a 与1 9 9 9 年收购了p l a t i n u mt e c h n o l o g y ,得到了完整的数据仓库解决方 案。包括e r w i n 数据仓库设计工具、i n f o p u m p 数据转换与抽取工具、 i n f o b e a c o n r o l a p 服务器、f o r e s t & t r e e s 前端展示工具、p r o v i s i o n 系统监视与 作用调度工具和d e c i s i o n b a s e 元数据管理工具等。 i b m 提供了一套基于可视数据仓库的解决方案,包括:v i s u a l w a r e h o u s e ( v w ) 、 e s s b a s e d b 2 0 l a p s e r v e r 和i b m d b 2 u d b 以及来自第三方的前端展示工具( 如 b u s i n e s s o b j e c t s 的b o 、l o t u s 的a p p r o a c h 、c o g n o s 的i m p r o m p t u 、i b m 的q u e r y m a n a g e m e n tf a c i l i t y ) 。 o r a c i e 数据仓库包含了一整套的产品和服务,覆盖了数据仓库定义,设计和 实施的整个过程。o r a c l e9 i 数据仓库核心。0 r a c l ew a r e h o u s eb u i l d e r 为数 浙江大学硕士学位论文 据仓库解决方案提供完整、集成的实施框架。功能包括:数据建模、数据抽取、 数据转移和装载、聚合、元数据的管理等。o r a c l ed i s c o v e r e r 是最终用户查淘、 报告、深入、旋转和w e b 公布工具,能够帮助用户迅速访问关系型数据仓库,从 而使他们做出基于充分信息的决策。o r a c l ee x p r e s s 产品系列是基于多维数据 模型o l a p 分析和w e b 访| 、司工具,能够提供复杂的分析能力,其中包括预测、建 模和假设( w h a t i f ) 分析。o r a c l ed a r w i n 基于数据仓库的数据挖掘工具,简 单易用的图形化界面,提供决策树、神经网络等多种数据挖掘方法,支持海量数 据的并行处理,分析结果可以和现有系统集成。 m ic r o s o f t 于2 0 0 0 年推出的s q ls e r v e r2 0 0 0 数据仓库技术主要包括:数据 传输服务d t s ( d a t at r a n s f o r m a t i o ns e r v e r ) 提供数据输入输出和自动调度 功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作。m i c r o s o f t r e p o s i t o r y 存储包括元数据在内的所有中间数据。s q ls e r v e ro l a ps e r v i c e s 支持在线分析处理。p i v o t t a b l e s e r v i c e s 提供客户客户端 ) l a p 数据访问功能。 埘c ( m i c r o s o f tm a n a g e m e n tc o n s o l e ) 提供日程安排、存储管理、性能检测、 报警和通知的核心管理服务。 n c r 数据仓库的主要工具t e r a d a t a 是高端数据仓库市场最用力的竞争者,主 要运行在n c r w o r l d m a r k s m p 硬件的u n i x 操作系统平台上,提供交互分析、标准 报告和多维度分析。 1 5 本文的研究内容及组织结构 本文的研究内容及其其他章节的组织结构如下: 第二章给出了变电设备状态检修的数据仓库系统的设计和实现,介绍了系统 的总体结构,并介绍了数据预处理、操作数据存储( o d s ) 、数据仓库、在线联 机分析( o l a p ) 等重要模块的设计和实现。 第三章主要研究o d s ( 操作数据存储) 的实时更新技术,以及基于工作流的 数据仓库更新策略。 第四章主要研究聚类算法在变电设备状态检修系统的应用,提出了试验数据 聚类算法及奇异点挖掘算法。 第五章对全文做了一个简单的总结和展望。 浙江大学硕上学位论文 1 6 本章小结 本章介绍了数据仓库的来由、概念、特点、结构及关键技术,介绍了目前数 据仓库系统的应用现状。分析了研究和开发变电设备状态检修的数据仓库系统的 必要性,介绍了当前的数据仓库解决方案。 浙江大学硕士学位论文 第二章数据仓库的设计与实现 开发变电设备状态检修数据仓库系统的目的:通过对历史数据的抽取、筛选、 综合等工作,能够对历史数据进行全面的数理统计分析和挖掘,为管理人员的决 策提供支持,了解设备的状态发展趋势。 本章将介绍变电设备状态检修的数据仓库系统的设计与实现。 2 1 总体系统结构 、 ,数据预处酞f 焉i韶积 八, l 数据在线分析l 数据抽取i l 数据集市_ ( o i a p ) l ,l 。1 1 一 、 数据净化l 蔗逞 l 型堑乡 要 一。_ ,1 邯珊猓l 数据转化l 赢 数据装载 、 k s 1 翌j 友据源数据仓库应用 图2 1 数据仓库系统体系结构 1 _ 外部数据源:它有在线检测数据,运行m i s 数据,本地数据库,s a p 数据源 等。数据源层是整个系统的数据来源,为决策支持系统提供原始的数据。 2 数据预处理:包括数据抽取、数据净化、数据转换、数据转载等功能,实现 数据从外部数据源到操作数据存储之间的转换。 3 o d s ( o r ) e r a t i o n a ld a t as t o r e ,操作数据存储) :保存面向主题的、当前的、 或接近当前的详细数据。 4 数据在线分析( o l a p ) :提供对数据仓库数据进行多维分析服务。 5 数据挖掘( d a t am i n i n g ) :挖掘历史数据的规律,为管理人员的决策提供支 持。 外部数据源与数据预处理经常性、长时间地保持连接,当外部数据源的数据 发生变化时,数据预处理在外部数据源获取初始数据,经处理后更新o d s 中的数 浙江大学硕士学位论文 据,o d s 中的数据经过一段时间后,形成汇总数据保存到数据仓库中,o d s 中经 汇总过的数据将被删除。通过o d s ,企业的日常分析可以在o d s 中进行,而不必 从数据仓库中获取数据,这样可以提高日常的企业级决策的效率。o l a p 和数据 挖掘应用从数据仓库中获取数据,并把结果发送给客户端程序。 2 2 数据预处理 数据预处理包括了数据抽取( e x t r a c t ) 、数据净化( c l e a n i n g ) 、数据转换 ( t r a n s f o r m i ) 、数据转载( l o a d i n g ) 等功能,实现从外部数据源中获取初始数 据,净化和转换数据并把处理后的数据存储到o d s 和数据仓库。 2 2 1 背景知识 2 2 1 1 - 预处理数据的必要性 在现实世界中的数据库都存在不完整的、含噪声的和不一致的数据。据统计 有错误的数据占总数据的5 左右【5 】。 不完整数据的出现可能由多种原因。有些感兴趣的属性,如设备缺陷的原因, 并非总是可用的。其他数据没有包含在内,可能只是因为输入时认为是不重要的。 相关数据没有记录是由于理解错误,或者因为设备故障。同其他记录的数据不一 致可能由于被删除。此外,记录历史或修改的数据可能被忽略。空缺的数据,特 别是某些属性上缺少值的元组可能需要推导。 数据含噪声( 具有不正确的属性值) 可能有多种原因。收集数据的设备可能 出故障;人或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出 现。这些可能是由于技术的限制,如用于数据传输同步的缓冲区大小的限制。不 正确的数据也可能是由于命名或所用的数据代码不一致二导致的。重复元组也需 要数据清理。 2 2 1 _ 2 数据清理 空缺值的处理: 1 1 忽略元组:当类标号缺少时通常这样做。当每个属性缺少值的百分比变 化很大时,它的性能非常差。在缺陷统计中,对缺少设备编码值的 缺陷采用此方法。 2 ) 使用一个全局变量填充空缺值:将空缺的属性值用同一个常数替换。 浙江大学硕士学位论文 3 ) 使用属性的平均值填充空缺值:此方法适用于数值型,当属性为其他类 型时,须先对属性离散化后,方可用此法。 4 ) 使用与给定元组属同一类的所有样本的平均值:例如:将变压器按电压 等级分类,则用具有相同电压等级的变压器的平均氢气含量替换氢气 含量的空缺值。 5 ) 使用最可能的值填充空缺值:可以用回归、基于推导的使用贝叶斯形式 化方法的工具或判定树归纳确定。例如:利用缺陷的属性,构造一棵判 定数,来预测缺陷原因的空缺值。 不一致数据的处理:不同数据源中可能都有保存同一属性的数据,当所记录 的数据可能存在不一致,在本系统中,同属性的数据从指定的一个数据源抽取, 减少数据的不一致。 2 2 1 3 数据转换 数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及以下内容: 平滑:去掉数据中的噪声。这种技术包括分箱、聚类和回归。 聚集:对数据进行汇总和聚集。例如,可以聚集日缺陷数据,计算月和年的 缺陷发生次数。通常,这一步用来为多粒度数据分析构造数据立方体。 数据概化:使用概念分层,用高层次概念替换低层次。原始数据。例如: 设备的属性,如设备组,可以概化为较高层的概念,如间隔或变电所。 规范化:将属性数据按比例缩放,使之落入一个较小的特定区间,如一1 0 到1 0 或0 0 到1 0 。 属性构造( 或特征构造) :可以构造新的属性并添加到属性集中,例如,在 设备的位置维度中,构造一个电力局编码字段,以备省数据仓库建造时使用。 浙江大学硕士学位论文 2 2 2 数据预处理模块结构 o d s ,数据仓席 瓤姑m 自 图2 2 数据预处理结构图 数据预处理模块提供的功能: 1 ) 监控数据的数据变化,抽取数据源中当前更新的数据,并根据数据源的 数据变化情况,更新o d s 中的相关数据。 2 ) 提供数据净化功能,对抽取出来的数据的空缺值按特定的算法进行填充, 并检验数据的一致性。 3 ) 提供数据转换功能,把数据转化成指定的数据格式。 因为o d s 中保存的实时数据,数据预处理模块应与外部数据源保持连接,以 保证能够收到从外部数据监控器发送过来的数据更新信息,并能从其他的数据源 获取相关数据从而满足o d s 数据的完整性。 2 3 操作数据存储0 d s 2 3 i o d s 的简要介绍 w h i n m o n 提出了o d s ( o p e r a t i o n a ld a t as t o r e ) 的概念1 6 1 :o d s 是面 向主题的、集成的、可变的数据,是当前的或是接近当前的支持企业日常的全局 应用的数据集合。它具有以下四个基本特征:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论