数据仓库知识整理_第1页
数据仓库知识整理_第2页
数据仓库知识整理_第3页
数据仓库知识整理_第4页
数据仓库知识整理_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库知识整理数据仓库产生在市场经济激烈竞争中,企业必须把业务经营同市场联系,在此基础上作出科学、正确的决策以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务数据,改善办公环境,提高操作人员的工作效率。问题:面向业务操作设计,无论是查询、统计,还是生成报表,其处理方式都是对指定的数据进行简单的数字处理。但是,如果决策者(比如总经理)希望得到一项分析数据;需求提交给公司的信息部门,信息部门指派人员编制程序;几天后信息部门的报表送到决策者手中;决策者发觉报表不符合要求,提出修改意见交还给信息部门;信息部门修改程序,几天后新的报表送给总经理。决策者

2、:数据来的太慢了,我已经对它不感兴趣了!原因:数据库是针对操作型处理设计的,也叫事务处理。联机事务处理系统(On-line Transaction Processing)OLTP系统:是指对数据库的日常联机访问操作,它是事件驱动、面向需求的,比如银行的储蓄系统就是一个典型的OLTP系统。OLTP在使用过程中积累了大量的数据。关系数据库概念提出之后,联机事务处理一直是数据库应用的主流。OLTP的特点:通常仅仅是对一个或一组记录的查询或修改对响应时间要求非常高;执行频率高,用户数量非常庞大,主要是操作人员;数据库的各种操作基于索引进行。数据仓库的出现是为分析型处理,即联机分析处理系统(On-lin

3、e Analytical Processing)OLAP系统:是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分,它是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的 。OLAP基本思想是: 企业决策者应能灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。OLAP系统与数据源的数据存储相分离,只要提供足够的数据即可完成OLAP分析。OLAP的目标是满足决策

4、支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP的特点: 需要执行大量的统计操作 需要访问大量的历史数据 执行频率和对响应时间的要求都不高等。OLAP表现方式钻取改变维的层次,变换分析的粒度向上钻取(roll up)按时间上卷到半年为单位。向下钻取(drill down)按时间分到月、甚至天为单位切片和切块在一部分维上选定值后,关心度量数据在剩余维上的分布如果剩余的维只有两个,则是切片;如果有三个,则是切块。举例:切片(slice): 地区=“北京” 意义:北京地区四个季度各产品的销售金额切片: 产品=“空调” 意义:空调

5、产品在四个季度中各地区的销售金额分块(dice):地区=南京“” AND “广州” 产品“空调”AND “手机”旋转(pivot)旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)为什么要建立数据仓库?事务处理环境不适宜DSS应用的原因事务处理和分析处理的性能特性不同 操作型处理 对数据的存取操作频率高而每次操作处理的时间短; 在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题数据的综合问题建立数据仓库需要哪些基本条件?第一:该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;第二:该行业面临市场竞争

6、的压力,它为数据仓库的建立提供外在的动力;第三:该行业为数据密集型行业;数据仓库的发展的动力l 业务需求驱动 - 主要是详细的分析 - 科学的经营 市场活动的细化和实施等l 数据驱动 - 数据量不断扩大 - 没有数据仓库等相关技术很难全面了解企业l 项目驱动数据仓库的基本概念数据仓库的概念由被誉为“数据仓库之父”的WilliamH.Inmon博士提出的:数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。数据仓库的主要特征:在于面向主题、集成的、相对稳定性和与时间相关的。所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:客户、产品

7、、账务、事件、服务使用、资源、客户服务、地域等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的;所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,必须消除源数据中的不一致性,因此数据仓库中的信息是关于整个企业的一致的全局信息;各个业务系统可能由不同的厂家独立承建,它们的数据模型设计、编码规则等都是不同的,这些数据加载到数据仓库之后,需要进行一个加工转换的过程。BOSS系统中,那地市的编码来说,CRM系统是的编码为1、2等,而BILLING系统可能根据长途区号来编码:451、452等,那

8、么在数据仓库中,需要将各个业务系统中相同含义的数据通过规则映射为同一个编码。所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的信息,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态,数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作,通常只需要进行定期的加载和刷新。数据仓库中几乎很少对历史数据进行修改,6月2日用户单停,那么这天的数据就是这个状态;而对于业务系统中,它总是最新的状态,所以数据库

9、的中的数据总是不断变化的。关系型数据库与数据仓库的区别:关系型数据库数据仓库面向应用、事务面向主题详细的数据综合的或汇总的为日常工作服务为管理决策服务可更新不更新事务处理驱动分析驱动非冗余数据经常有冗余一次处理很小的数据一次处理大量的数据高访问性适量的访问度当前数据历史数据简单的事务 读/写数十条记录复杂的查询 读上百万条记录数据仓库的相关概念维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。例如:一个电子公司的销售一般从三个方面分析销售额:时间:在某一段时间内的销售情况,其度量为(年、季度、月、旬、天)地区:在某个地区的销售情况,度量可分为(地区、

10、国家、省、市)产品:某类或某型号产品的销售情况,度量可分为(类别、型号等)此处,(时间,地区,产品)就构成了三个维。维有层次结构,可以在某个层上察看数据。维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述)数据仓库的粒度:反映数据的粗细程度销售数据库存储了每一笔业务的细节,在分析时对每一笔分析是无意义的。因此可以考虑数据仓库的粒度级别以星期为单位,即在数据从数据库装入数据仓库时,按星期汇总。由星期通过计算能得到月、季度、年的汇总。可以认

11、为该数据仓库在时间上有多重粒度。粒度细:数据分析灵活,但存储空间大,计算量大粒度粗:存储空间小,但有时无法回答一些比较细节的问题(修改意味着数据仓库的重建。)数据集市(Data Mart)建立数据集市的原因数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。例:在有关商品销售的数据仓库中可以建立多个不同主题的数据集市:商品采购数据集市;库房使用数据集市;商品销售数据集市。数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。数据集市的数据

12、来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。建立数据仓库与数据集市的过程可以有两条途径:从 全局数据仓库 到 数据集市从 数据集市 到 全局数据仓库数据挖掘(Data Mining):是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学

13、研究。研究对象是大规模和超大规模的数据集合。支持数据挖掘技术的基础 海量数据搜集 强大的多处理器计算机 数据挖掘算法数据挖掘的功能 1. 自动预测趋势和行为2. 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。3. 聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。4. 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。5.偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很

14、有意义。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 结果分析: 解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.知识的同化: 将分析所得到的知识集成到业务信息系统的组织结构中去. 数据挖掘过程工作量:60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.数据仓库的相关概念-啤酒和尿布的故事沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在

15、周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。OLAP与数据挖掘的区别OLAP使用户能利用工具快速的查询数据。但不能解决哪些信息是有意义的,哪些是无意义的。在OLAP使用中,一般是用户提出一个假设(模式),通过OLAP去验证假定或从返回的数据信息中总结出某种规律。有时返回的信息太多而无法处理。(比如在搜索引擎查“数据挖掘”返回许多页面,而有关的“数据开采”, “知识发现”又没有返回)。若把大量的数据比做藏有金子的山,OLAP提供了在山中各处迅

16、速地观察工具,它能让你迅速的到达你想到的地方。但不能告诉你是否此处有价值。如果山是巨大的,发现其中重要的有价值的位置本身是非常耗时的。元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。包括数据仓库表的结构、数据仓库表的属性、数据仓库的源数据(记录系统)、从记录系统到数据仓库的映射、数据模型的规格说明、抽取日志、访问数据的公用例行程序。数据周期是指从操作型数据发生改变起,到这个变化反映到数据仓库中所用的时间。一般至少应该经历24小时。商业智能(Business Intelligence,简称BI):商

17、业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。数据仓库体系结构与设计数据仓库架构数据仓库数据处理流程:业务系统数据/外部数据-数据格式检查-源数据清洁、抽取、转换-装载数据到ODS-ODS数据抽取、转换-装载数据到DW-DW数据抽取、转换-装载到OLAP-分析性查询-生成报表展示构造数据仓库有两种方式:一是自上而下,一是自下而上。自顶向下: 即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。要

18、建立这样的数据仓库,并不从它需要支持那些应用入手,而是要从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性;1. 建造企业数据仓库 建设中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据2. 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性考虑的问题 投资效益的时间? 建设中心数据模型的必要性和可能性? 初始费用 ?自底向上: 建设数据仓库应该按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据仓库当中。这种方式建设周期较短,客户能够很快看到结果。1. 建立部门数据集市 限制在一个主题区域 快

19、速投资收益 区域自治 设计的可伸缩性强 对相关部门的应用容易复制 对每个数据集市需要数据重构 存在一定的冗余及不一致性2. 逐步扩展到企业数据仓库 (EDW) 把建造EDW作为一个长期的目标存在的问题: 数据集市的数据都是可用的吗? 能生成数据模型吗? 如何解决不一致性?采用从顶向下还是从底向下? 企业内部、各个业务部门和各个工作岗位对数据仓库的理解和期望不同。作为具体的部门,有特定的信息需求,都希望能在尽可能短的时间内需求获得满足。建立局部的系统,所需信息能够立即为其使用。因此对部门而言,他们追求的是一种短期的局部目标,关心的是基于所在位置的局部解决方案。 整个企业看,建立数据仓库的目的之一

20、是获得对整个企业业务信息的视图。以便能把握和管理企业的经营运行,并对企业进行业务重组。 企业现有系统往往不同程度上存在各自为政,缺乏统一的规划和设计。数据出自各部门,提供的信息不一致,使得高层无法获得可靠、统一和协调的信息。 企业追求的是长期的集成目标,关心的是基于整个企业的全面解决方案。两者的目标是有矛盾的! 如果听任各部门按自己的设想建立局部系统,则不但无助于解决整个企业的全局信息需求问题,反而会加剧企业内部信息系统各自为政、没有统一协调规划的混乱局面,妨碍将来整个企业建立集成信息环境的工作。另一方面,如果不考虑各部门的迫切需要,片面讨论全局需求,则可能导致对日常业务运行管理失效、造成业务

21、过程的混乱,在短期内就会对企业的经营产生影响。针对这样情况,必须制定一个数据仓库工程规划。规划的制定时间一般为3-6个月。 实际上在建设数据仓库的时候,一般都参照这两种方式结合使用,没有硬性规定。数据组织方式和数据抽取1. 数据逻辑组织(1) 简单堆积 每日从数据库中提取并加工数据逐天积累。(2) 轮转综合 数据存储单位被分别按日、周、月及年等几个级别。(3) 简单直接文件 在一段时间(如一周,一月)后,将数据直接从操作型环境拖入数据仓库环境。(4) 连续文件 通过两个连续的简单直接文件,可以生成另一个连续文件。2. 数据仓库的数据组织(1) 虚拟存储方式没有专门的数据仓库数据存储,数据仓库中

22、的数据仍然在源数据库中。只是根据用户的多维需求及形成的多维视图临时在源数据库中找出所需要的数据,完成多维分析。优点:组织方式简单、花费少、使用灵活;缺点:只有当源数据库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义才容易定义。而在一般的数据库应用中,这很难做到。(2) 基于关系表的存储方式将数据仓库的数据存储在关系数据库的表结构中,在元数据的管理下完成数据仓库的功能。(3) 多维数据库组织直接面向OLAP分析操作的数据组织形式。这种数据库产品比较多,其实现方法不尽相同。其数据组织采用多维数组结构文件进行数据存储,并有维索引及相应的元数据管理文件与

23、数据相对应。3. 数据仓库的数据追加如何定期在数据仓库追加数据?(1) 时标:如果数据含有时标,对新插入或更新的数据记录,在其上添加更新时的时标,那么只需根据时标判断即可。但并非所有数据库中的数据都含有时标。(2) DELTA文件:它由应用生成,记录了应用所改变的所有内容。利用DELTA文件效率很高,它避免扫描整个数据库,但生成DELTA文件的应用并不普遍。(3) 前后映像文件方法:在抽取数据前后对数据库各做一次快照,然后比较两幅快照从而确定新数据。它占用大量资源,对性能影响极大,因此无实际意义。(4) 日志文件:日志是DB固有机制,不影响OLTP性能。它还具有DELTA文件的优越性质,提取数

24、据只要局限日志文件即可,不用扫描整个数据库。4. 元数据关于数据的数据(1) 元数据描述数据仓库的数据和环境,分为: 管理元数据:对数据源及其内容、数据仓库主题、数据转换及各种操作信息的描述。 用户元数据:帮助用户查询信息、理解结果及了解数据仓库中的数据和组织。(2) 元数据的使用者:系统管理员和终端用户(3) 元数据的管理功能 数据仓库内容的描述 定义数据抽取和转换(占整个数据仓库开发的80%) 抽取调度,什么时候抽取? 描述同步需求(4) 元数据的标准化和商品化需要一种元数据标准来帮助管理制造商进行元数据信息交换。元数据标准可以保证共享数据的一致性。5. 多维数据库模式建模实体关系(ER)

25、模型一般用于关系型数据库设计,而数据仓库采用的是星型、雪片型或事实星座。(1) 星型模式 数据仓库中包含 一个大的包含大批数据和不冗余的事实表(中心表); 一组小的附属表,称为维表。每维一个。 事实表中每条元组都含有指向各个维表的外键和一些相应的测量数据,维表中记录的是有关这一维的属性。(2) 雪花模式 星型模式的变种,其中某些维表是规范化的。 星型模式与雪化模式的差异: 雪花模式的维表可能是规范化的,以便减少冗余。这种表易于维护,并节省存储空间。实际上,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。所以,在数据仓库设计中,雪花模

26、式不如星型模式流行。(3) 事实星座模式 复杂的应用可能需要多个事实表共享维表。6. 数据抽取(1) 一个抽取要经过许多步骤获取:从外部或内部源数据系统中获取对决策支持系统用户有用的数据。过滤:过滤掉不需要的内容(如上次抽取后一直没有改变的数据)。验证:从DSS用户的角度验证数据的质量。融合:将本次抽取的数据仓库中的数据进行融合。综合:对数据进行综合,生成概要级数据。装载:把新数据装入到数据仓库中。存档:把新装入的数据单独寸为一个文件,以减少更新操作的数据量。(2) 现有的数据仓库方案中都有数据提取功能,但抽取和转换过分复杂时,需要用户自己编写抽取程序。(3) 有关抽取问题的讨论 数据库中的空

27、缺值 不一致的数据 样本空间的大小 与分析无关的数据不要装入数据仓库 数据规范化 数据离散化 在必要的情况下将连续的数据变换成离散值。比如年龄按10岁分段,收入按1000分段等数据仓库的实施 1、 建立数据仓库的工作建立一个数据仓库会有6个方面的工作1、任务和环境评估 数据仓库建立在原有运行系统之上,因此要结合单位现状来明确数据仓库的目标。评估:任务现状 任务所面对的数据源所在的系统 数据源所在的数据状况由评估确定:数据仓库这个任务可行吗?数据仓库成功与否的基本原则是什么?评估要有高层负责人参加,最好是将来使用数据仓库部门的负责人。在评估过程中,他应当提出问题,并检查回顾工作的进展情况。项目组

28、人员项目负责人与数据仓库相关的所有业务人员计算机软/硬件负责人为数据仓库提供数据的数据库管理员网络人员全部评估工作应有正规的文档资料,并交数据仓库负责人审定2、需求的收集和分析 首先是决策者的要求 目前最重要的工作目标是什么? 如何衡量这个目标能否达到? 怎样获得决策支持信息? 和竞争对手的差距在哪里?具体工作人员的支持 对于所确定的主题,现在利用什么信息或报表? 报表如何制做? 报表还缺什么信息? 有没有紧急、突发的决策信息要求,其内容是什么? 还希望数据仓库为他们作什么?在前面的基础上确定: 当前共同的业务问题是什么?希望开发怎样的系统来解决问题? 定义业务处理规则,初步估计功能和数据量

29、定义、清理业务和编程的工作量定义逻辑模型对信息技术的需求加以分析,包括:数据的物理存储情况、运行平台、数据质量确认硬件、网络和软件的限制条件数据装载和更新的策略和问题数据量和占用空间的估计提交的文档资料:(1)项目概述(2)差距分析(3)系统基本结构图示(4)逻辑模型(5)物理模型(6)数据仓库初始装载和更新策略(7)数据仓库的运行计划(8)决策信息展现和希望及需求(9)数据仓库建成的时限3、数据仓库技术准备和培训 这一阶段的工作包括:技术评估,技术环境准备。 这一阶段的成果是:技术评估报告、软硬件配置方案、系统(软、硬件)总体设计方案。管理数据仓库的技术要求与管理操作型环境中的数据与处理的技

30、术要求区别很大,两者所考虑的方面也不同。我们之所以在一般情况下总是将分析型数据与操作型数据分离开来,将分析型数据单独集中存放,也就是用数据仓库来存放,技术要求上的差异是一个重要原因。 (1). 技术评估 进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括: l 管理大数据量数据的能力; l 进行灵活数据存取的能力; l 根据数据模型重组数据的能力; l 透明的数据发送和接收能力; l 周期性成批装载数据的能力; l 可设定完成时间的作业管理能力。 (2). 技术环境准备 一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该怎样来装配这个

31、体系化结构模型,主要是确定对软硬件配置的要求;我们主要考虑相关的问题: l 预期在数据仓库上分析处理的数据量有多大? l 如何减少或减轻竞争性存取程序的冲突? l 数据仓库的数据量有多大? l 进出数据仓库的数据通信量有多大?等等。 根据这些考虑,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束时各项技术准备工作应已就绪,可以装载数据了。这些配备有: l 直接存取设备(DASD); l 网络; l 管理直接存取设备(DASD)的操作系统; l 进出数据仓库的界面(主要是数据查询和分析工具); 管理数据仓库的软件,目前即选用数据库管理系统及有关的选件,购买的DBMS产品不能满足管理数据仓

32、库需要的,还应考虑自己或软件集成商开发有关模块等等。 数据仓库的技术要求ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。ETL是数据仓库系统中最重要的概念之一,是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。ETL在一个数据仓库系统项目中要花一半以上的时间。ETL主要步骤:(1) . 数据抽取:抽取主

33、要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。 (数据源和文件等多种形式)(2). 数据传输:数据传输是通过网络负责把远程的数据到本地目录下。(3) . 数据的清洗和转换:转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型 到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的 转换,并且支持调试环境,清楚的监控数据转换的状态。数据转换是真正将源数据变为目标数据的关键环节,它包括数据格式转,换数据类型转换、数据汇总计算、数据拼接等等。清洗主要是针对系统的各个环节可能出现

34、的数据二义性、重复、不完整、违反业务 规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应 的清洗操作。 从操作型的现存系统到数据仓库中数据转换工作的难点 现有系统缺乏数据集成,跨越不同应用的数据集成性很差 存取现存系统的效率,扫描已有文件成了数据仓库体系结构设计者主要面对的问题 时基的变化 数据要浓缩(4). 数据加载入库:数据加载主要是将经过转换和清洗的数据加载到数据仓库里面,即入库,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性。(5) . ETL调度: ETL的调度控制方式有两种: 自动方式 由系统每天定时或准实时启动后台程序,自动完

35、成数据仓库ETL处理流程。 手动方式 用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。 (6) 监控:主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问提,应告警。4、 构造数据仓库存储和管理数据仓库的真正关键是数据的存储和管理。数据仓库一般遇到的几个问题: 大数据量的存储和管理; 并行处理; 针对决策支持查询的优化; 支持多维分析的查询方式;管理通过建立以下内容实现: (1)设置和编写取用数据的程序、数据转换程序、数据更新程序及运行程序的接口。 (2)建立这一阶段所有管理用的元数据 (

36、3)该阶段所有程序统一标准命名和建档组织包括: 规划数据仓库的初始装载;工作平台安全性设置与检查,建立本阶段的所有管理用元数据。利用多维数据展现、数据挖掘等工具可预先制做许多常规的信息供决策使用。数据模型的内容包括: 标识主要主题领域。 各个主要主题之间的各种关系。 清晰地定义模型的边界。 把原始数据和导出数据分离。 每个主题领域需要标识 键码、属性、属性分组之间的关系、多重出现的数据、数据的类型将数据模型变为数据仓库要做的主要工作 如果原先没有时间元素的话,时间元素必须加入到键码结构中 必须清除所有的纯操作型数据 需要将参照完整性关系转换成“人工关系” 将经常需要用到的到处数据加入到设计中

37、对数据的结构进行调整 增加数据阵列 增加数据冗余 在合适的情况下进一步分离数据 在合适的时候合并数据表 需要做数据的稳定性分析设计接口 需完成的工作 数据抽取 对来自操作型、面向应用型环境的数据的集成 数据时基的变更 数据压缩对现存系统环境的有效扫描5. 数据仓库使用和维护在这一步中所要做的工作有建立DSS应用,即使用数据仓库理解需求,调整和完善系统,维护数据仓库。数据仓库装入数据之后,下一步工作是:一方面,使用数据仓库中的数据服务于决策分析的目的,也就是在数据仓库中建立起DSS应用;另一方面,根据用户使用情况和反馈来的新的需求,开发人员进一步完善系统,并管理数据仓库的一些日常活动,如刷新数据

38、仓库的当前详细数据、将过时的数据转化成历史数据、清除不再使用的数据、调整粒度级别等。我们把这一步骤称为数据仓库的使用与维护。6、回顾、总结再发展数据仓库往往是从一个简明的急需主题开始、积累经验,进一步拓展。数据仓库开发成功的关键是数据体系结构设计者和DSS分析者之间的反馈循环。数据建模的十条戒律必须回答紧迫的问题;必须有正确的事实表;有正确的维表,描述必须按最终用户的业务术语表达;必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;对于事实表,应该有正确的“粒度”;根据需要存储正确长度的公司历史数据;以一种对于公司有意义的方式来集成所有必要的数据;创建必要的总结表;创建必要的索引;能够加

39、载数据仓库数据库并使它以一种适宜的方式可用。参考:毕业论文(设计)工作记录及成绩评定册题 目: 学生姓名: 学 号: 专 业: 班 级: 指 导 教 师: 职称: 助理指导教师: 职称: 年 月 日实验中心制使 用 说 明一、此册中各项内容为对学生毕业论文(设计)的工作和成绩评定记录,请各环节记录人用黑色或蓝色钢笔(签字笔)认真填写(建议填写前先写出相应草稿,以避免填错),并妥善保存。二、此册于学院组织对各专业题目审查完成后,各教研室汇编选题指南,经学生自由选题后,由实验中心组织发给学生。三、学生如实填好本册封面上的各项内容和选题审批表的相应内容,经指导教师和学院领导小组批准后,交指导教师;指

40、导老师填好毕业论文(设计)任务书的各项内容,经教研室审核后交学生签名确认其毕业论文(设计)工作任务。四、学生在指导老师的指导下填好毕业论文(设计)开题报告各项内容,由指导教师和教研室审核通过后,确定其开题,并将此册交指导老师保存。五、指导老师原则上每周至少保证一次对学生的指导,如实按时填好毕业论文(设计)指导教师工作记录,并请学生签字确认。六、中期检查时,指导老师将此册交学生填写前期工作小结,指导教师对其任务完成情况进行评价,学院中期检查领导小组对师生中期工作进行核查,并对未完成者提出整改意见,后将此册交指导老师保存。七、毕业论文(设计)定稿后,根据学院工作安排,学生把论文(打印件)交指导老师

41、评阅。指导老师应认真按毕业论文(设计)指导教师成绩评审表对学生的论文进行评审并写出评语,然后把论文和此册一同交教研室。八、教研室将学生的论文和此册分别交两位评阅人评阅后交回教研室保存。九、学院答辩委员会审核学生答辩资格,确定答辩学生名单,把具有答辩资格学生的论文连同此册交各答辩小组。十、学生答辩后由答辩小组记录人填好毕业论文(设计)答辩记录表中各项内容,然后把学生的论文和此册一同交所在答辩小组,答辩小组对其答辩进行评审并填写评语后交教研室。十一、学院答辩委员会进行成绩总评定,填好毕业论文(设计)成绩评定表中各项内容,然后把论文(印刷版和电子版(另传)和此册等资料装入专用档案袋中,教教研室后由实

42、验中心统一保存。目 录1毕业论文(设计)选题审批表2. 毕业论文(设计)任务书3毕业论文(设计)开题报告4. 学生毕业论文(设计)题目更改申请表5毕业论文(设计)指导老师工作记录6毕业论文(设计)中期检查记录7毕业论文(设计)指导教师成绩评审表8毕业论文(设计)评阅人成绩评审表9. 毕业论文(设计)答辩申请表10毕业论文(设计)答辩记录表11毕业论文(设计)答辩成绩评审表12毕业论文(设计)成绩评定表毕业设计(论文)选题审批表题目名称 基于单片机的超声波测距题目性质工程设计理论研究实验研究计算机软件综合论文其它题目来源科研题目 生产现场教学 其它自拟题目选题理由:由于超声波指向性强,能量消耗缓

43、慢,在介质中传播的距离较远,因而超声波经常用于距离的测量。利用超声波检测距离,设计比较方便,计算处理也较简单,精度也能达到使用要求,超声波测距应用于各种工业领域,如工业自动控制,建筑工程测量和机器人视觉识别等方面。超声波作为一种检测技术,采用的是非接触式测量,由于它具有不受外界因素影响,对环境有一定的适应能力,且操作简单、测量精度高等优点而被广泛应用。这些特点可使测量仪器不受被测介质的影响,大大解决了传统测量仪器存在的问题,比如,在粉尘多情况下对人引起的身体接触伤害,腐蚀性质的被测物对测量仪器腐蚀,触电接触不良造成的误测等。此外该技术对被测元件无磨损,使测量仪器牢固耐用,使用寿命加长,而且还降

44、低了能量耗损,节省人力和劳动的强度。因此,利用超声波检测既迅速、方便、计算简单,又易于实时控制,在测量精度方面能达到工业实用的要求。 指导教师意见: 签名: 年 月 日院(系)领导小组意见: 签名: 年 月 日注:此表由学生填写毕业论文(设计)任务书1、毕业论文(设计)应达到的目的:(1)能对学生在学期间所学知识的检验与总结,培养和提高学生独立分析问题和解决问题的能力,使学生受到科学研究、工程设计和撰写技术报告等方面的基本训练。(2)提高学生对工作认真负责、一丝不苟,对事物能潜心观察、用于开拓、用于实践的基本素质;(3)培养学生综合运用所学知识,结合实际独立完成课题的工作能力。(4)对学生的知

45、识面、掌握知识的深度、运用理论结合实际去处理问题的能力、实践能力、计算机运用水平、书面及口头表达能力进行考核。2、毕业论文(设计)的内容和要求(包括原始数据、技术要求、工作要求等):以单片机为核心设计了基于激光测距的防撞预警系统,采用TDC-GP2芯片作为激光飞行计时单元,给出激光发射及回波接收放大电路,基于模块化思想设计、完成系统软件设计流程;最后通过实验测试,系统要能很好测出前方车辆距离及运行状态,并能及时发出报警,利用Matlab对其测试结果进行验证,修正。3、对毕业论文(设计)成果的要求包括图表、实物等硬件要求:设计完成后,要提供电路图,实验电路版,控制原始程序,实验要保存大量的原始数

46、据。完成设计论文。4、毕业论文(设计)工作进度计划:序号论文(设计)工作进度日期(起止周数)1根据所出题目,结合自身所学知识,选择合适课题,确定毕业设计论文题目。13-14-1第16周止2根据所定题目,全面搜集素材,列出各种设计方案,并一一比较,选择出最好的设计方案。13-14-1第18周止3联系指导老师,将自己的设计方案与老师沟通、交流,得到指导老师的认同与指点,开始设计。13-14-1第19周止4根据方案,确定所要用的器材。设计总体框架结构,分出各大的模块,并将其展开,以得到比较细的设计模式。13-14-2第1周止5 根据所列框图,结合自己所学知识,开始各分支电路模块的设计。13-14-2

47、第2周止6完成初稿,将所做的模块给指导老师查阅,看是否有不当之处,再进行改进。并将大电路的设计方案告之老师,得到老师更好的建议。13-14-2第3周止7大胆进行设计,将每一个小的电路,大的模块,都精心设计好,完成整个硬件和软件部分的设计过程。13-14-2第6周止8将所有设计整理结合,形成设计论文,交与指导老师检查,并经老师指点,做进一步的改进工作。13-14-2第7周止9改进毕业设计论文,得到自己及老师认为满意的论文。13-14-2第10周止指导教师日期年 月 日教研室审查意见:签字: 年 月 日学院负责人意见:签字: 年 月 日学生签字: 接受任务时间: 年 月 日注:任务书由指导教师填写

48、。 毕业论文(设计)开题报告题目基于单片机的超声波测距1、本课题的研究意义,国内外研究现状、水平和发展趋势 近年来,随着电子测量技术的发展,运用超声波作出精确测量已成可能。随着经济发展,电子测量技术应用越来越广泛,而超声波测量精确高,成本低,性能稳定则备受青睐。超声波是指频率在20kHz以上的声波,它属于机械波的范畴。超声波也遵循一般机械波在弹性介质中的传播规律,如在介质的分界面处发生反射和折射现象,在进入介质后被介质吸收而发生衰减等。正是因为具有这些性质,使得超声波可以用于距离的测量中。随着科技水平的不断提高,超声波测距技术被广泛应用于人们日常工作和生活之中。一般的超声波测距仪可用于固定物位

49、或液位的测量,适用于建筑物内部、液位高度的测量等。 随着科学技术的快速发展,超声波将在测距仪中的应用越来越广。但就目前技术水平来说,人们可以具体利用的测距技术还十分有限,因此,这是一个正在蓬勃发展而又有无限前景的技术及产业领域。展望未来,超声波测距仪作为一种新型的非常重要有用的工具在各方面都将有很大的发展空间,它将朝着更加高定位高精度的方向发展,以满足日益发展的社会需求,如声纳的发展趋势基本为:研制具有更高定位精度的被动测距声纳,以满足水中武器实施全隐蔽攻击的需要;继续发展采用低频线谱检测的潜艇拖曳线列阵声纳,实现超远程的被动探测和识别;研制更适合于浅海工作的潜艇声纳,特别是解决浅海水中目标识别问题;大力降低潜艇自噪声,改善潜艇声纳的工作环境。无庸置疑,未来的超声波测距仪将与自动化智能化接轨,与其他的测距仪集成和融合,形成多测距仪。随着测距仪的技术进步,测距仪将从具有单纯判断功能发展到具有学习功能,最终发展到具有创造力。在新的世纪里,面貌一新的测距仪将发挥更大的作用。2、本课题的基本内容,预计可能遇到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论