




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)高校规模分析决策支持系统中的etl的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
沈阳理工大学硕士学位论文 摘要 随着信息时代的到来,数据之多使人如坠茫茫数据之海,有用、无用、正常、 异常的数据常常掺杂在一起,真伪难辨。企业在发展过程中,也积累了大量的纷 繁复杂数据,如何利用这些数据来指导企业的决策分析,是企业能否在竞争中立 于不败之地、取得最大效益的关键。数据仓库技术的出现正是由于决策支持系统 发展的需要。数据仓库是数据挖掘和决策分析的基础,因此,数据仓库需要高质 量的数据,纠正数据错误是避免错误决策、降低决策风险的重要一环,完成这项 艰巨任务的过程就是e t l 。 在高等教育大扩容的今天,高校扩建成为了大势所趋,而扩建所引发的一系 列问题也日益明显。本课题是省级课题,课题研究的目的就是通过对数据仓库中 的数据进行分析,为决策者提供有关高校规模的决策支持。本课题是以基于数据 仓库的高校规模分析决策支持系统为背景,进行e t l 子系统的设计和研究工作。 本文首先介绍了课题研究的意义以及相关技术的发展情况,再详细的介绍课 题研究的相关理论,包括数据仓库、神经网络、e t l 技术等的基本原理,最后介绍 了e t l 子系统的架构和各功能模块的算法设计与实现过程。 关键词:数据仓库;e t l ;决策支持系统;数据挖掘; 沈阳理工大学硕士学位论文 a b s t r a c t w i t ht h ea d v e n to fi n f o r m a t i o na g e ,m o r ea n d m o r ed a t a ,u s e f u l 、u s e l e s s 、n o r m a l 、 a b n o r m a l ,m a k eu sa ts e a i nt h ep r o c e s so fe n t e r p r i s e sd e v e l o p m e n t ,al o to fd a t aa r e p i l e du p h o w t ou s et h e s ed a t aa n dt h e nt od i r e c tt h ed e c i s i o n - m a k i n go fe n t e r p r i s e si s t h ek e yt h a tt h e yw i na n dm a k em a x i m a lb e n e f i t b e c a u s eo ft h e s er e a s o n s ,d a t a w a r e h o u s et e c h n o l o g yg r o w ss t e pb ys t e p d a t aw a r e h o u s ei st h eb a s i so fd a t am i n i n g a n dd e c i s i o na n a l y s i s ,s ot h a tw ek n o wh i g h q u a l i t yd a t ai st h en e e do fd a t aw a r e h o u s e c o r r e c tt h ee r r o r so fd i r t yd a t ap l a y sc e n t r a lr o l et or e d u c i n gt h er i s ko fw r o n gd e c i s i o n w h a tw i l lw ed ot od e a lw i t hi t ? i ti se t lt h a th e l pu sa c c o m p l i s ht h et a s k t o d a yo fg r e a td i l a t a t i o no fh i g h e re d u c a t i o n ,t h eu n i v e r s i t ye x t e n d sb e c o m e st h e t r e n do ft h et i m e s ,a n di ti n i t i a t e sas e d e so fq u e s t i o n s t h es u b j e c ti sap r o v i n c i a l s n b j e d ,t h ep u r p o s e o ft h es u b j e c ti st h r o u g ha n a l y z i n gt h ed a t ai nt h ed a t aw a r e h o u s e , o f f e rt h ed e c i s i o ns u p p o r ta b o u tu n i v e r s i t y ss c a l et op o l i c y m a k e r t h i ss u b j e c ti st o a n a l y z ed s s a st h eb a c k g r o u n dw i t hu n i v e r s i t y ss c a l eb a s e do nd a t aw a r e h o u s e ,c a r r y o nd e s i g na n dr e s e a r c hw o r ko fe t l s u b s y s t e m t h i st e x th a si n t r o d u c e dt h em e a n i n go ft h e s u b j e c ta n dt h ed e v e l o p m e n to f r e l e v a n tt e c h n o l o g ya tf i r s t ,a n dt h e ni n t r o d u c e dt h er e l e v a n tt h e o r i e so ft h e 鲫b j e c t , i n c l u d i n gt h eb a s i cp r i n c i p l e so fd a t aw a r e h o u s e 、n e u r a ln e t w o r k 、e t lt e c h n o l o g ye t c 。 f i n a l l yi n f f o d u c e dt h ef r a m e w o r ko fe t ls u b s y s t e ma n dd e s i g na n dr e a l i z et h ec o u r s e i na l g o r i t h mo fe v e r yf u n c t i o nm o d u l e k e yw o r d s :d a t aw a r e h o u s e ;e t l ;d e c i s i o ns u p p o ns y s t e m ;d a t am i n i n g 沈阳理工大学 硕士学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本 人独立完成的。有关观点、方法、数据和文献的引用已在文中指出, 并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任 何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要 贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 作者( 签字) :韵申蔚 日期:_ 7 年7 月堋 学位论文版权使用授权书 本学位论文作者完全了解沈阳理工大学有关保留、使用学位论文 的规定,即:沈阳理工大学有权保留并向国家有关部门或机构送交学 位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权沈阳理工 大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:幽幸两 日期:- , 7 7 v 指导教师签名:1 f 歹币霄 e t期: w 7 7 l - 第1 章绪论 第1 章绪论 1 1 课题来源和研究背景 “基于数据仓库的高校规模分析决策支持系统”是基于数据仓库和数据挖掘 两种关键理论,针对高校规模分析构建的决策支持系统,本人在该课题中负责e t l 子系统的设计与实现工作。 进入2 0 世纪9 0 年代以来,由于信息技术的广泛应用和经济全球化的不断发展, 在激烈的市场竞争中,信息对于企业的生存和发展起着至关重要的作用,表达信 息的数据随着时间的增加和业务的发展而不断膨胀,同时这些数据分布在不同的 系统平台上,具有多种存储形式,如何从这样复杂的数据环境中得到有用的决策 数据是一个迫切需要解决的问题。随着分布式结构的成熟、数据库技术的提高和 数据处理技术的发展,数据仓库( d a t aw a r e h o u s e ,d w ) 和决策支持系统( d e c i s i o n s u p p o r ts y s t e m ,d s s ) 应运而生“。 数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合,属 口 于企业决策支持系统的一部分。数据仓库中的数据来自于各种不同的实时业务系 统,需要从各个业务系统数据源中抽取原始数据,然后经过清洗、转换、集成、 聚集等一系列的处理,最后将产生的数据加载到数据仓库中。整个过程被称为e t l ( e x t r a c t ,t r a n s f o r ma n dl o a d ) 过程。e i l 过程属于d s s 系统的一部份,约占整 个系统设计的6 0 ,如果想要数据仓库在决策分析时候给予足够的支持,e t l i 具 是关键所在”,。 1 2 课题的意义 为实现中华民族的伟大复兴,在最短的时间内迅速提升我国人力资源的整体 水平,满足广大人民群众日益增长的接受高等教育的需求,1 9 9 9 年初,党中央国 务院按照“科教兴国”的战略部署,作出了高等教育大扩容的重大决策。随着高 校招生规模的逐年扩大以及再教育方式的更加灵活,几乎每所高等院校都面临着 生源急剧膨胀而带来的资源相对紧缺的问题,从而引发了大规模的高校扩建。从 目前来看,在高校扩招的形势下,谁拥有更多的办学空间,谁就可以吸纳更多的 生源,在高等教育逐步走向市场的今天,其规模效益才能凸现。但是高校扩建的 沈阳理工大学硕士学位论文 可行性受到诸多因素的影响,若干年后高校能否维持现有的招生水平,扩建后的 高校是否会产生大量设备闲置以及如何实现高校可持续发展的问题成为了各高校 和政府关注的焦点。因此进行高校扩建规模分析和可持续发展的研究势在必行, 它应能为高校决策者及教育部门决策者提供教育形势的相关信息以及通过高科技 手段开发历史数据,提取隐含在其中的潜在的、深层次的、有价值的信息,以利于 相关部门对各方面信息的整体把握,使之能及时调整发展方向及策略,帮助决策 者作出正确决策。 从1 9 9 9 年国家推行高校扩招开始,仅9 9 至0 l 这三年间,我国高等学校在校 生总数就从6 4 3 万人增至1 2 1 4 万人,其中研究生总规模净增1 9 4 万人,增长9 7 7 ; 本科生规模净增2 7 4 5 万人,增长1 0 5 2 :专科( 高职) 生净增2 7 7 5 万人,增长 7 6 6 。2 0 0 1 年与1 9 9 8 年相比,全国普通高等学校占地面积增长了8 0 ,增建校 舍1 亿多平方米;全国普通高校固定资产总值增长了1 0 0 0 亿元,专任教师增加了 1 2 5 万人。如此大规模的投入固然能促进教育事业的迅速发展,但同时也给国家 经济带来沉重负担,仅9 9 到0 1 年间,国家就累计安排国债资金7 0 多亿元投向高 等教育,多方面的配套投资达1 2 0 多亿元,并拉动至少8 0 0 亿元以上的社会资金 投入。解决高校可持续发展问题,使国家资会投入能得到有效利用的研究工作, 从经济效益的角度来讲,意义十分巨大。 据教育部统计,2 0 0 3 年度各类出国留学人员总数为1 1 7 3 万人,2 0 0 5 年度各 类出国留学人员总数达1 1 8 5 万人,人数呈逐年上升趋势,且自费出国留学人数 比重逐年升高;而截止到2 0 0 4 年,我国人口的出生率已由9 0 年的2 1 0 6 下滑至 1 2 2 9 ,小学生源已呈明显不足的状态。是否有必要削弱普通本科的扩招 额度,是否要加大三本的投资力度,目前扩建的校舍在几年后是否会造 成闲置等诸多问题都需要大量的历史数据和有效的挖掘方法来提供决策 支持,控制国家对于教育的盲目投入,同样具有巨大的经济意义。 扩招虽然带来了高校的生源,但由于录取分数的相应降低,学生入学成绩也 低于从前,生源质量的降低成为不争的事实。从就业方面来看,2 0 0 3 年是高校扩 招后本科生毕业的第一年,当年仅山东一省接收普通高等学校、中等专业学校毕 业生和毕业研究生2 4 8 万人;2 0 0 4 年,这一数字继续增长,毕业生资源总量较大, 就业岗位较少,理论型人才较多,应用型人才较少,就业任务艰巨。如何集合入 2 第1 章绪论 口、教育、就业等多方因素对高校扩建规模和各类型人才培养比例配置进行分析, 从社会效益的角度来讲,意义同样重大。 1 。3 国内外相关技术研究现状及存在的问题 在企业信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更 强大的新系统所取代,从两层结构到三层结拇,从c l i e n t s e r v e r 至1 b r o w s e r l s e r v e r , 在新旧系统的切换过程中,必然面临一个数据迁移的问题。 原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的 历史数据,其中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数 据也是进行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转 换,并装载到新系统中的过程。 数据迁移对系统切换乃至新系统的运行有着十分重要的意义,数据迁移的质 量不仅是新系统成功运行的重要前提,同时也是新系统今后稳定运行的有力保障。 如果数据迁移失败,新系统将不能正常启用;如果数据迁移的质量较差,没能屏 蔽全部的垃圾数据,对新系统将会造成很大的隐患,新系统一旦访问这些垃圾数 据,可能会由这些垃圾数据产生新的错误数据,严重时还会导致系统异常。 相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的 历史数据。无论对于一个公司还是一个部门,历史数据都是十分珍贵的一种资源, 如公司的客户信息、银行的存款记录、税务部门的纳税资料等“。 早期的数据迁移工作往往是由程序人员手工编写存储过程完成的,对编写人 员的技术要求很高,而且随着系统的升级换代、人员变动等原因使系统维护变得 十分困难。随着计算机技术的发展与进步,逐渐出现了使用特定的e 1 r i 工具来完成 数据迁移过程m 。目前很多数据库厂商纷纷推蹦针对其数据仓库产品的e t i 解决方 案,如o r a c l e 公司的w a r e h o u s eb u i l d e r 等。这些工具具有功能强大,提供图形化界 面以利于用户操作,易与第三方软件集成等优点,但其高昂的价格,复杂的操作 往往让人望而却步。 目前国内外关于e t l 颁域的研究非常活跃,主要涉及以下几个方面: ( 1 ) 建立一个通用的与领域无关的工具框架; ( 2 ) 在自动化异常检测和清洗处理间增加人工判断处理以提高处理精度; ( 3 ) 对海量数据集进行并行处理; 一3 一 沈阳理工大学硕士学位论文 ( 4 ) 如何消除合并后数据集中的重复数据; ( 5 ) 研究高效的数据异常检测算法以避免扫描整个庞大的数据集m 。 在我国,对e t l 的研究开发甚少,还没有一个成型的、完善的e t l i 具应用于 数据仓库的系统中,而以高校规模分析决策支持为背景的e t l i 具的研究更加少 见。 1 4 课题主要研究的内容和论文组织结构 1 4 1 课题研究的主要内容 基于数据仓库的高校规模分析决策支持系统通过对诸多影响高校规模发展的 因素的分析,运用数据仓库和数据挖掘等技术手段,最终给出合理的高校规模建 议。本课题以基于数据仓库的高校规模分析决策支持系统为背景,对其e t l 子系 统的设计与实现进行研究,主要包括以下几个方面的工作: ( 1 ) 根据数据挖掘算法模型的需要组织和准备相关数据; ( 2 ) 对传统的e t l 构架进行研究分析,在此基础提出了优化的e t l 构架; ( 3 ) 根据数据仓库和数据挖掘的需求对e t l 工具的各个功能模块进行设计: ( 4 ) 具体给出了e t l 工具的实现; ( 5 ) 测试结果分析,对系统运行情况进行评价。 奄文的的重点在于对e 1 几构架的优化设计和对e t l 工具中各个功能檩块算法 的设计与实现。 1 4 2 论文组织结构 本文共分五章: 第二章:主要介绍了系统所涉及的相关理论,包括数据仓库理论、e t l 技术、 数据质量问题等。 第三章:介绍了相关数据的准备工作以及优化后的e t l 整体构架。 第四章:主要阐述了e t l 工具各模块主要算法的设计过程。 第五章:介绍了e t l 各功能模块的具体实现及性能测试。 4 第2 章系统相关理论研究 第2 章系统相关理论研究 2 1 数据仓库技术 数据仓库在整个“基于数据仓库的高校规模分析决策支持系统”中处于支撑 。 地位,以下是一些关于数据仓库概念的介绍。 2 1 1 什么是数据仓库 数据仓库之父w h i n n o n 对数据仓库的定义为:数据仓库是支持管理决策过 程的、面向主题的、集成的、稳定的、。不同时间的数据集合。当然,数据仓库还 有其它的几种定义,如: ( 1 ) 它是一种体系结构; ( 2 ) 它是一种语意致的数据仓储( 独立的且不影响已在运作的实用系统) ,以 满足不同的数据存取,文档报告的需求; ( 3 ) 它是一个不断发展的过程,把多个异质的数据融合在一起用以支持结构式 即时查询,分析报告和决策支持。 数据仓库是一个环境,而不是一件产品,提供用户用于决策分析的当前和历 史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为 了有效的操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模 块的总称,所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策 支持”1 。 数据仓库的特点包含以下几个方面: ( 1 ) 数据仓库是面向主题的; ( 2 ) 数据仓库是集成的; ( 3 ) 数据仓库的数据是不可更新的; ( 4 ) 数据仓库的数据是随时间不断变化的; ( 5 ) 数据仓库的数据量很大,一般为i o g 级,大型的数据仓库可达t b 级; 这些数据一般按照便于分析整理的格式存放,对数据的深入分析通常在d s s 报表生产系统和经营管理系统中进行。传统数据库中存放的数据为操作数据,信 息数据是由操作数据产生的,这过程通常使用数据仓库,而且数据仓库还提供 一5 沈阳理工大学硕士学位论文 了管理数据变换并追踪个别记录的变换过程等。w 。 2 1 2 数据仓库的组成 数据仓库的体系结构如图2 1 所示: 图2 1 数据仓厍体系结构 数据仓库并不是一个简单的由各种数据合并成的超大型数据库,而是一种转 为联机分析应用和决策支持系统d s s 提供数据源与决策工具的结构化数据环境。 可以把数据仓库的体系结构分为三大部分:数据源、e t l 和数据存储管理、数据 展现。具体涉及数据的抽取、转换、清洗、装载、数据存取、元数据管理、数据 集市、查询:报表、分析工具、数据挖掘及信息发布等”: 数据源:数据源包括操作性的数据库系统和外部数据,为数据仓库提供原始 数据;外部数据是由非事务型系统产生,来自如统计数据文件、股市行情数据等 资料。数据源可以是集中或分布异构的。 数据仓库:是整个数据仓库环境的核心,是数据存放的地方和提供对数据检 索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的 检索技术。 e t l 工具:数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、清洗( c l e a n i n g ) 和装载 ( l o a d i n g ) 是将数据源中涉及主题的数据进行清洗、过滤处理后,加载到数据仓库, 即将无关联的数据转换到数据仓库中有明确主题的统一数据视图中去。也就是把 数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓 库中。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成 6 第2 章系统相关理论研究 c o b o l 程序、m v s 作业控制语言( j c l ) 、u n i x 脚本和s q l 语句等,以访问不同 的数据。一般来说,原始数据中存在大量缺陷和不一致。为保证数据质量,要对 抽取的数据进行转换和清洗。 元数据库:元数据库是元数据的集合;它描述的是数据结构、关键字、索引 等内容。元数据库存放用元数据来管理的所有与数据库相关的模型、视图和操作 策略。 数据集市( d a t am a r t s ) :为了特定的应用目的或应用范围,而从数据仓库中独 立出来的一部分数据,也可称为数据或主题数据( s u b j e c ta r e a ) 。在数据仓库的实施 过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完 整的数据仓库m ,。 2 2 数据质量 建立数据仓库的目的是为数据分析提供具有准确性、一致性、完整性、有效 性的数据,来辅助企业领导的决策,因此数据仓库中必须存储的是具有较高质量 o 的数据。然而数据仓库中的数据来自于多种数据源,这些数据源可能处于不同的 硬件平台上,使用不同的操作系统和数据库管理系统,因而数据在编码、命名、 数据类型、语义等方面都存在着较大的冲突。根据“进去的是垃圾,出来的也是 垃圾”这条原理。作为数据仓库入口的e t l , 实施过程中的数据质量问题将会对数 据仓库中的数据质量产生重大的影响。所以对e t l 实施过程中可能存在的质量问题 进行分析、校验并给出相应的解决方法,将具有重大的意义。 2 2 1 数据仓库中数据质量的评价指标 为了提高数据仓库中的数据质量,人们针对数据仓库中数据质量的评价指标 和计算指标进行了大量的研究。虽然对数据仓库中数据质量的评价指标还没有形 成一致的看法,但数据的正确性、完整性、一致性、完备性和可用性这五个重要 指标绝对是应该给予足够的关注。 正确性是指数据必须真实、准确的反映实际发生的业务。要求数据真实是指 数据中记录的业务必须足真实发生的,要求数据准确是指数据对业务的重要属性 表述明确,无歧义,不含糊,能够准确的描述所记录的业务n 一“。 完整性是指数据内部必须满足特定的约束,符合现实世界具体的语义。数据 并不是孤立存在的,数据之间往往存在着各种各样的约束,这些约束描述了数据 一7 一 沈阳理工大学硕士学位论文 的关联关系,反映了现实世界实体之间的联系。数据必须能够满足相互间的关联 关系,而不能够相互矛盾。 一致性是指相互关联的各个数据在逻辑上是一致的。它包括概念一致性、值 域一致性和格式一致性三个子指标。概念一致性是指在不同的数据中,同一概念 所指的事物是相同的;值域一致性是指同一概念的值域范围在不同的数据中是相 同的;格式一致性是指同一概念在不同数据中表达方式是一致的。 完备性是指所有需要的数据是否都存在,从纵向上来看,指的是数据无重复 0 或缺失,发生的业务没有被重复记录或遗漏;从横向上来看,指的是数据中关键 属性无缺失,能够完整的描述所记录的业务。 可用性是指数据的可利用程度,即数据是否易于获取、易于理解和易于使用。 其中最主要的是可理解性。数据要有容易理解的存储格式。才能被数据仓库使用 人员正确理解、合理利用。 另外随着时间的推移,数据质量也会迅速退化,所以数据的时效性也是值得 关注的一个重要指标。数据仓库中数据质量就可以定义为上述几个主要指标在数 据仓库中得到满足的程度n “。 2 2 2 提升数据质量的原则 在了解了数据质量的分类情况和可能产生数据质量问题的各个关键点和原因 o 之后,下一步就是针对不同的情况采用不同的措施,从而提升数据仓库中的数据质 量。在提升数据质量之前,首先要明确两个原则: ( 1 ) 数据质量的提高和投入的成本是相关的。要使数据质量越高,所投入的人 力和物力成本就越高,因此数据质量提升工作应该量力而行。 ( 2 ) 数据质量的高低和应用的需求是相关的。对于分析趋势方面的应用,要求 可以不那么严格,而对于统计方面的应用,要求就比较高m ,。 2 2 3e t l 实施中的数据质量问题分析 由于数据仓库和数据源的数据结构不同,所以通过e 1 1 将数据加载到数据仓 库,并不是数据的简单复制。因此数据质量问题,既有可能来自于数据源,又有可 能来自于e t l 的实施过程中。 2 2 3 1 数据源数据质量问题分析 根据处理的是单数据源还是多数据源以及问题出现在模式层还是实例层,数 8 第2 章系统相关理论研究 据源的数据质量问题可以分为单数据源模式层问题、单数据源实例层问题、多数 据源模式层问题和多数据源实例层问题。当然很多实例层的数据质量问题由模式 层引起,文中在模式层列出了这些问题,将不再在实例层列出。 单数据源模式层问题主要包括模式设计的不合理、完整性约束的缺少等。 单数据源实例层问题主要是数据记录错误,如拼写错误、数据丢失值、无效 的数据值、相似重复记录、值与字段名不匹配等。 多数据源模式层问题除了单数据源模式层问题外,还包括数据模型异构、命 名和结构冲突等问题。 多数据源实例层问题除了单数据源实例层问题外,还包括数据冗余、互相矛 盾和不一致等问题m ,。 2 2 3 2e t l i 重程中数据质量问题分析 在e t l 实施过程中,有相当多的地方可能会产生数据质量问题。 数据抽取:从数据源系统中抽取数据,一般要编制数据抽取代码或者借助 些工具配置进行数据抽取,在这个过程,可能会出现编码错误或者工具配置不当, 导致原始数据正确而抽取出来的数据不正确。 数据转换:数据抽取完成之后,如果数据形式不一样还需要做形式的一致化 处理,一致化处理如果不当就会引入数据质量问题。 ) 数据加载:数据转换完成之后要进行数据加载,在系统运作时可能出现重复 加载或者加载失败的情况,会导致数据异常1 。 2 3e t l 技术的相关理论 2 3 1e t l 技术的地位和主要性能指标 2 3 1 1e t l 的重要性 为避免数据冗余和错误,要认识到数据装入数据仓库之前,应该对数据进行 有效性检查,这是很重要的。如果没有进行认真的有效性检查,就有可能破坏依 赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统 专家。源系统专家包括具有技术专业知识和非技术知识的人士。 检查数据仓库中数据的有效性是一个非常耗时但必不可少的过程,该过程应 高度自动化。一些产品中有许多内置功能,可自动进行数据有效性检查。有效性 检查是决定是否符合给定标准的过程。标准是依赖于具体应用的,为某个系统开 一9 一 沈阳理工大学硕士学位论文 发和执行的标准可能在其它地方毫无意义。如果数据不在给定的界限之内,它就 是清除( s t u b b i n g ) 过程清除的对象。清除数据包括对那些在给定范围之外的数据采 取纠正措施。一是由于数据仓库周期地从各式各样的数据源中装载和刷新,不可 避免地,这些数据中存在很多异常,其中许多数据是冗余的、不完整的,甚至是 错误的,如元数据的说明不完备或者丢失、缺少完整性约束、数据值不唯一、拼 写错误、数据输入错误和数据项不完整等,除内部数据的质量外,还有外部数据 的质量问题,可以说,数据质量问题是制约数据仓库应用的“瓶颈”之一:二是因 为数据仓库是数据挖掘和决策分析的基础,纠正数据错误是避免错误决策、降低 决策风险的重要一环,因此,数据仓库需要广泛的数据清洗。因此构建一个数据 仓库的重要步骤是将数据从源数据集中提取出来、排除燥声、减少冗余,经过一 系列的转换、结构转变以及聚集处理,装入数据仓库。这就是e t l 过程m l 。 e t l 是e x t r a c t i o n 、c l e a n i n g 、t r a n s f o r m a t i o n 、l o a d i n g 的缩写,指的是数据抽 取、清洗、转换和装载。 2 3 1 2e t l 技术的主要性能指标 对于本文重点介绍的即模块而言,主要的性能指标如下: ( 1 ) 返回率( r e c a l l ) :指的是异常数据被正确识别的百分率。 ( 2 ) 错检率( f a l s e p o s i t i v ee r r o r ) :是指错误地检测为异常数据的记录数与所检 测到的异常记录的百分比。 ( 3 ) 精确度( p r e c i s i o n ) :p r e c i s i o n 一1 0 0 一f a l s e p o s i t i v ee r r o r 。精确度= 1 0 0 一错 检率n m 。 2 。3 2e t l 的具体步骤 e 1 l 处理过程分为数据抽取( e x t r a c t ) 、数据转换( t r a n s f o r m ) 以及数据加载 ( l o a d ) 三个阶段。 2 3 2 1 数据抽取( e x t r a c t ) 数据抽取是从数据源获取符合需要的数据的过程。数据抽取过程会过滤掉数 据仓库中不需要的源数据字段,并进行格式和类型转换。 ( 1 ) 多种来源 很少有这样的一种数据仓库( 特别在企业级别上) ,不需要从多种来源中抽取 数据。在多数情况下,必须从多个系统中提取数据,利用多种平台上的多个数据 1 0 第2 章系统相关理论研究 存储来创建。 ( 2 ) 抽取模式 在数据仓库创建过程中一般有两种抽取的模式: 增量式装载 增量式装载仅仅记录那些自上次装载以后发生的变化或者新增的数据。通常 会根据源系统中的时间或某种指示标识来识别那些已经被改变的记录( 如新增,修 改,删除) 提取出来。 全量更新 有时,在数据源中改变了记录,而未留下任何的识别标志,这时就需要提取整个 表。 ( 3 ) 压缩解压 当打算长距离传送大量数据时,数据压缩是提取流程中的重要功能。利用压 缩功能可以节约1 3 至1 j l 2 甚至更多的传输时间。 ( 4 ) 加密与解密 当打算长距离传送大量数据时,数据的传输索全也是提取流程中的重要功能。 在传输的过程中,对数据或数据文件进行适当的加密,是非常有必要的。 2 3 2 2 数据转换( t r a n s f o r m ) 数据转换按照数据仓库的数据结构,对源系统每个记录进行转换,转换以后 就可写入数据仓库。数据的转换过程不仅仅是数据格式的改变,还意味着要准备 运行数据,转换其结构和内容,以便集成到数据仓库中去m ,。 ( 1 ) 集成 集成是将业务数据从一个或几个源中取出,并逐字段地将数据映射到数据仓 库中新的数据结构上,结合成一个新的实体。 ( 2 ) 渐变维度维护 跟踪维表列在一段时间的变化,同时提供对数据最新版本的直接访问。 ( 3 ) 参照完整性检查 是指某个表中的数据与另外一个表的数据相匹配。 ( 4 ) 数据类型转换 包括将某种数据类型( 或格式) 转换到另外一种数据类型( 或格式) 。 一1 1 沈阳理工大学硕士学位论文 ( 5 ) 计算,导出,分配 这些都是根据在需求处理过程中确定的业务法则而进行的各种转换。包括字 符串操作,日期,时间的算术运算、条件语句以及基本的计算等功能。 ( 6 ) 数据聚集 对数据按照不同分组进行汇总等统计计算。 ( 7 ) 空值 因为许多传统系统中无法表示空值,程序员就采取一些不可能发生的值对空 值进行填空,从源系统中提取数据时,这些空值的替代值看上去与合法值一样, 会使分析人员误解:所以必须识别这些空值的替代值,并制定出在数据库中处理空 值的规则。 2 3 2 3 数据加载 根据规则和选定的加载方式将经过初次处理的数据装载到数据仓库里面,即 入库。可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充 分体现高效性n ”。 2 3 3e t l 在实际应用中存在的问题 e t l 部分是数据仓库项目中问题比较集中的部分,常见的问题如下: 2 3 3 1 元数据问题 元数据( m e t a d a t a ) 在e t l 中是一定会涉及到的,f r l 子系统和别的子系统的集 成以及e t l 子系统本身的维护等都涉及到元数据,但实际上经常因为项目牵扯数据 较单一,业务分析需求不复杂,而隐含在项目的文档、代码、界面里面了。而且, 元数据又不像展现等功能可以让业务人员直接看到工作结果,为了迁就现有的业 务系统,为了能在指定的时间内系统上线,元数据往往被草草舍弃掉。如何提交 一份可以真正帮到e t l 实现的元数据,利用到项目前期的需求分析及业务系统调查 结果,以及在赶工期的时候如何协调模型的变化及与e t l 的关系等都是现今e t l 中 急需解决的问题m ,。 2 3 3 2 体系结构的问题 从当今主流商业e t l i 具的功能即其将提供的功能来看分布式,低藕合性,高 扩展性,高可重用性的勘儿是发展趋势。这是现今市场变幻莫测的需求决定的,是 市场的需要所在。但同时也要认识到,集成性高的e 1 r i 在有些场合具有更高的数据 1 2 第2 章系统相关理论研究 抽取转化装载效率。因此,具体项目具体分析,预测将来可能的需求变化,正确 选择有适当的f r l 架构的产品,是e t l 中面临的又一问题。 2 ,3 3 3 工具的通用性问题 越是商业的产品,对通用性的考虑就越多,考虑的面就越广,这个当然有利 于工具的广泛应用,但同时也带来了问题,那就是面对某一具体行业时所表现出 来的能力并不令人满意。 2 3 3 4 工具的使用问题 商业工具的一个大的优点就是功能非常强大,丰富,这给用户带来方便的同 时,也增加了工具使用的难度。一股来说,一个数据仓库项目只需要用到工具很 少部分的功能,而大部分的功能点则是浪费的。 2 3 3 5 购买工具还是自己编写e t l 系统的问题 这个话题的争论可以说永无休止,很显然这两种方式都有各自的优势和劣势。 后者的最大的好处就是灵活性非常的高,而且对于少数非常复杂的e t l 过程,这 种方式是非常有效的;第二个好处就是项目前期丌销会相对减少。除了上述两个 方面,则不论是在降低项目风险,缩短项目工期,还是在降低开发和后期维护难 度等方面,使用e t l 工具明显更加有利船”。 2 4 元数据的相关理论 e t l i 具的整个过程在元数据的指导下完成,元数据的质量直接影响到工具的 性能。定义元数据时,同用户的交互比较频繁,因此只要通过对元数据的修改就 能改变皿功能,使得该e t l 工具具有一定的可扩展性、适应性和灵活性。 2 4 1 元数据概述 元数据是关于数据的数据,是管理数据的数据,是面向特定应用的、描述资 源属性和机器可理解的信息。在数据仓库中元数据是描述数据仓库内数据的结构 和建立方法的数据。可将其按用途的不同分为两类,技术元数据( t e c h n o l o g y m e t a d a t a ) 和商业元数据( b u s i n e s sm e t a d a t a ) 。技术元数据是数据仓库的设计和管理 人员用于开发和日常管理数据仓库使用的数据,是关于数据库仓库细节的元数据。 包括:信息、数据转换的描述、数据仓库内对象和数据结构的定义、数据清理和 数据更新使用的规则、数据源到目的数据的映射、用户访问权限、数据备份历史 记录、数据导入历史记录、信息发布历史记录等。商业元数据从商业业务的角度 一1 3 沈阳理工大学硕士学位论文 描述了数据仓库中的数据,是保证用户能够正确方便地使用数据仓库的元数据。 包括:业务主题的描述、包含的数据、查询、报表等乜“m 。 2 4 2 元数据在e t l 中的作用 在e t l 的每一个阶段都离不开元数据。数据抽取阶段,没有相应的映射规则, 就无法知道需要抽取什么样的数据。要正确地抽取数据,离不开元数据辅助信息; 在从数据源存储格式到目标数据存储格式的转换,需要知道源存储格式和目标存 储格式的信息,以及相应的存储格式之间的转换规则信息,这都离不开元数据支 持;在数据加载阶段,需要知道目标数据仓库的相关信息,这也离不开元数据的 支持。在e t l 的整个过程中都贯穿着元数据,每个步骤都离不丌元数据,元数据就 是e t l 的指挥控制中心。 2 5 本章小结 本章介绍了本系统所涉及的一些相关技术,包括数据仓库技术、e t l 技术、 数据质量问题等等,其中主要从地位、性能指标、实施步骤等方面对本系统的重 点技术一e t l 技术做出了较为详细的阐述。 1 4 第3 章e r l 架构设计及优化 第3 章e t l 架构设计及优化 3 1 数据准备和需求分析 设计e t l 子系统的目的是为了将各个异构数据源中的数据经过系列的抽取、 清理、转换和加载过程,使数据源中的数据转换成为正确有效的且具有轻、中综 合度的数据,从根本上来讲是为数据挖掘进行数据准备工作的,因此在设计之前 要对整个系统的数据需求进行分析。 3 1 1 影响高校规模的因素 进行数据处理前,首先就要进行相关数据的准备工作,这就需要对影响高校 规模的因素进行分丰厅。通过对世界高等教育大众化历程以及我国高等教育发展的 研究与分析,发现教育是一种复杂的社会现象,高校招生的原因也是复杂的,多 。 方面的,不能仅仅从单一的方面解释,因此,对我国高校招生政策,要从政治、 经济、人口等各个方面进行具体考察,才能得出较为科学的结论。 ( 1 ) 政治:我国高校招生的关键因素关于政治对高等教育规模的作用,是毋庸 置疑的。每次高校招生政策的调整总能带动高等教育规模的变更。1 9 9 9 年召丌的 第三次全国教育工作会议对高等教育的发展方针作出了重大决策,中共中央国 务院关于深化教育改革全面推进素质教育的决定提出:扩大高等教育的规模, “通过多种形式积极发展高等教育,到2 0 1 0 年,我国同龄人口的高等教育入学率 要从现在的百分之九提高到百分之十五左右”。这次会议的召开和面向2 l 世纪 教育振兴行动计划的制定,使我们又一次迎来了教育大发展的春天,这是我们 当前有利的政治环境,高校招生政策恰恰体现了国家对高等教育的重视,同时也 说明政治对高等教育关键的影响作用。 ( 2 ) 经济:我国高校招生的决定因素我国高校招生归根结底是由经济发展水平 决定的,根据上面历年来高等学校的招生数与多种因素拟合的回归分析也发现, 经济因素对高校招生的决定作用是非常明显的。所以,需要恰如其分地估价我国 的经济发展的水平,正确判断我国经济发展所处的阶段。本系统相关经济因素共 选取了四项指标:国内生产总值g d p ( 亿元) 、全国教育经费( 亿元) 、国家财政 性教育经费( 亿元) 、普通高校生均预算内教育事业费支出( 元) 。 1 5 沈阳理工大学硕士学位论文 ( 3 ) 人口:我国高校招生的另一影响因素人口众多是我国的一大特色,穷国办 大教育也是不争的事实。这不仅给基础教育和中等教育带来沉重的负担,而且给 高等教育造成很大的压力。人口对高等教育的影响主要表现在两个方面。一是随 着普及九年义务教育的完成,人们对高等教育的需求越来越强烈,近年来,尽管 我国一直在扩大招生规模,但仍不能满足广大学生和家长的迫切要求。二是接受 高等教育学生的性别和民族比例有所变化,女学生和少数民族学生在学生总数中 所占的比重不断增加。 本课题在使用人工神经网络的挖掘算法模型的设计过程中,通过对影响我国高 校发展因素的分析,确定了1 2 个输入节点作为系统的输入层,经过内部隐含层的 处理,最终实现系统设计目标将其作为输出层。本系统的神经网络构架如图3 1 所示: p 1 输入节点隐含层 输出节点 剧3 1 神经网络构架 其中输入输出的具体值如表3 1 所示: 表3 1 神经网络的输入输出 网络输入 相应输入量 p 1 高校数( 所) p 2 专任教师数( 万人) p 3 高中毕业生数( 万人) p 4 初中毕业生数( 万人) p 5 小学毕业生数( 万人) p 6 高等教育毛入学率( ) 1 6 第3 章e t l 架构设计及优化 p 7 每十万人口高校在校生数( 人) p 8 人口出生率( 千分之) p 9 国内生产总值g d p ( 亿元) p i o 全国教育经费( 亿元) p 1 1 国家财政性教育经费( 亿元) p 1 2 普通高校生均预算内教育事业费支出( 元) 网络输出 相应输出量 y 普通高等学校招生数( 万人) 3 1 2 相关数据准备 通过对人工神经网络输入节点的分析,1 2 个节点主要涉及三方面的内容:学 校、人口和经济。因此数据仓库所涉及到的数据可划分为三个主题数据源,即学 校信息主题、人口信息主题和经济信息主题。 三个数据源中包括从1 9 9 5 年到2 0 0 5 年t o 年间的具体数据,预计超过1 0 0 0 0 0 条,因此在粒度的确定方面采用双重粒度,对于年代相对比较久远的数据只取粒 度较大的部分。下面将各个数据源中的相关数据作一个简单的介绍:学校信息涉 及的内容如表3 2 所示,人口信息涉及的内容如表3 3 所示,经济信息涉及的内 容如表3 4 所示。 ,j 表3 2 学校基本信息表s c h o o l _ i n f 编号字段名称说明 1 s c h o o l _ n a m e 学校名称 2 s c h o o lx z 学校性质 3 s t u d e n t _ h u m 在校人数 4 b y s l u d e n t _ n u m 毕业人数 5 t e a c h e r _ n u m专任教师数 6 s c h o o lz c 资产总值 7 s c h o o l _ m j 占地面积 表3 3 人口基本信息表p e o p l e _ i n f 编号字段名称说明 l p e o p l e _ d a t e 年份 1 7 沈阳理工大学硕士学位论文 2 p e o p l en u m 人口数 3 p e o p l ec s l 出生率 表3 4 经济基本信息表j i n 6 j i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省荣成市第二十一中学七年级地理上册 3.1多变的天气说课稿 新人教版
- 2.雄伟的塔教学设计-2025-2026学年小学美术二年级上册人美版(常锐伦、欧京海)
- 4.14.2 保护生物圈是全人类的共同义务2025-2026学年七年级下册生物同步说课稿(北师大版)
- 1.2 复杂多变的关系 说课稿-2024-2025学年统编版道德与法治九年级下册
- 2025年中考数学试题分类汇编:圆的有关性质(9大考点39题)(第1期)解析版
- 我的太阳教学设计-2025-2026学年初中音乐人音版七年级上册-人音版
- Lesson 12 Whose is this This is myyourhisher Whose is that That is myyourhisher 教学设计-2025-2026学年初中英语第一册 上半册新概念英语
- 2023三年级英语下册 Unit 4 Where is my car配套说课稿 人教PEP
- 2025年全国中式面点师理论考试题库(含答案)
- 第五课 做守法的公民教学设计-2025-2026学年初中道德与法治统编版五四学制八年级上册-统编版五四学制2018
- 中东及非洲天然甜菊行业现状及发展机遇分析2024-2030
- 投标财务状况承诺书范本
- 《山区公路桥梁典型病害手册(试行)》
- 2024年全国中学生数学奥林匹克竞赛甘肃赛区预赛试题
- 临床中医适宜技术书
- 矿山生态环境保护与恢复治理技术规范(试行)(HJ 651-2013)
- 2024年度炎症性肠病(IBD)课件
- 新译林版高一必修三单词表全套
- 现代智力七巧板课件
- 孕妇孕期保健的重要性与方法
- 摄影技术新闻摄影培训
评论
0/150
提交评论