版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选学习资料 - - - 欢迎下载第一章作业1 数据库与数据仓库的本质差别为什么?书p2(1)数据库用于事务处理,数据仓库用于决策分析; ( 2)数据库保持事物处理的当前状态,数据仓库即储存过去的数据又储存当前的数据;(3)数据仓库的数据为大量数据库的集成; (4)对数据库的操作比较明确,操作数量较小;对数据仓库操作不明确,操作数据量大;6.oltpolap细节性数据综合性数据当前数据历史数据常常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面对应用,事务驱动面对分析,分析驱动8 定义为关于数据的数据,描述数据仓库中数据及其环境的数据;9 元数据不仅
2、仅为数据仓库的字典,而且仍为数据仓库本身功能的说明数据,为整个数据仓库的核心;数据字典为关于数据库中数据的描述,而不为数据本身,数据字典为数据库的元数据;18.统计学与数据挖掘的不同;统计学主要为对数量数据或连续值数据进行数值运算的定量分析,得到数量信息; 数据挖掘主要对离散数据进行定性分析,得到规章学问;在统计学中有聚类分析和判别分析,它们与数据挖掘中的聚类和分类相像;但为,采纳的标准不一样,统计学的聚类采纳的“距离”为欧式距离,即两点间的坐标 数值 距离;而数据挖掘的聚类采纳的“距离”为海明距离,即属性取值为否相同,相同者距离为0,不相同者距离为1;总之, 统计学与数据挖掘为有区分的,但为
3、, 它们之间为相互补充的;不少数据挖掘的著作中均把统计学的不少方法引入到数据挖掘中,与将机器学习中不少方法引入到数据挖掘中一样,作为从数据猎取学问的一大类方法; 19.说明数据仓库与数据挖掘的不同;数据仓库为在数据库的基础上进展起来的;它将大量的数据库的数据按决策需求进行重新组织,以数据仓库的形式进行储备,将为用户供应帮助决策的随机查询.综合信息以及随时间变化的趋势分析信息等;数据仓库为一种储备技术,其数据储备量为一般数据库的100 倍,包含大量的历史数据.当前的具体数据以及综合数据;它能适应不同用户对不同决策需要供应所需的数据和信息;数据挖掘为从人工智能机器学习中进展起来的;它讨论各种方法和
4、技术,从大量的数据中挖掘出有用的信息和学问;最常用的数据挖掘方法为统计分析方法.神经网络方法和机器学习中讨论的方法;数据挖掘中采纳机器学习的方法有归纳学习方法 如掩盖正例排斥反例方法,如 aq系列算法.决策树方法等 .遗传算法.发觉学习算法 如公式发觉系统bacon 等 ;利用数据挖掘的方法和技术从数据仓库中挖掘的信息和学问,反映了数据仓库中数据的规律性;用户利用这些信息和学问来指导和帮忙决策;例如,利用分类规章来推测未知实体的类别;23:数据仓库与联机分析出口里.数据挖掘在决策支持方面有什么不同?1精品学习资料精选学习资料 - - - 欢迎下载答:数据仓库视为帮助决策而建立的,单依靠数据仓库
5、达到帮助决策的才能为有限的,综合信息和推测信息为数据仓库所获得的帮助决策信息;数据仓库中增加联机分析处理和数据挖掘等分析工具,能较大的提高帮助决策才能;数据仓库和联机分析处理几数据挖掘结合的决策支持系统,为以数据仓库为基础的,称为基于数据仓库的决策支持系统;概括地说:基于数据仓库的决策支持系统为从数据仓库的数据中猎取帮助决策信息和学问,为决策供应支持;25 画出基于数据仓库的决策支持系统结构图;如图:28 如何懂得商业智能与基于数据仓库的决策支持系统的区分于联系?答:可以认为,商业智能为对商业信息的搜集.治理和分析过程,目的为使企业的各级决策者获得学问或洞悉力(insight),促使他们做出对
6、企业更有利的决策;商业智能一般由数据仓库.联机分析处理. 数据挖掘. 数据备份和复原等部分组成;商业智能的实现涉及到软件.硬件.询问服务及应用,其基本体系结构包括数据仓库.联机分析处理和数据挖掘三个部分;其次章作业1. 画出数据仓库的结构图,说明各部分内容;p18答:当前基本数据为最近时期的业务数据,为数据仓库用户最感爱好的部分数据量大;随着时间的推移,有数据仓库的时间掌握机制转为历史数据,轻度综合数据为从当前基本数据中提取出来的,最高一层为高度综合数据层,这一层的数据特别精炼,为一种准决策数据;2. 说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用;这些数据为什么不为暂时运算出来的;
7、p18-19数据仓库除了储备按主题组织起来的当前具体数据外, 仍需要储备综合数据, 这为为了适应决策需求而增加的; 在数据库中需要得到综合数据时, 采纳数据立方体的方法对具体数据进行综合; 在数据仓库中并不实行暂时运算的方式得到综合数据, 而在用户提出需要综合数据之前, 就预先将可能的综合数据利用数据立方体运算好, 存入综合数据层中,这种综合数据层在用户查询时, 能快速供应应用户;3. 说明数据集市与数据仓库的区分和联系;p206. 画出数据仓库系统结构图,说明把仓库治理和分析工具作为数据仓库系统的两个独立组成部分的缘由;图:p22 缘由:仓库治理:安全和特权治理;跟踪数据的更新;数据质量检查
8、;治理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制.分割和分发数据;备份和复原;储备治理;拜访工具:为用户拜访数据仓库供应手段9. 画出数据仓库的运行结构图,说明三层c/s 结构和两层c/s 结构的不同点;二层 c/s 结构客户端数 据 仓 库 服务器精品学习资料精选学习资料 - - - 欢迎下载三层 c/s 结构客户端olap 服务器数 据 仓 库 服务器精品学习资料精选学习资料 - - - 欢迎下载2精品学习资料精选学习资料 - - - 欢迎下载olap服务器将加强和规范化决策支持的服务工作,集中和简化了数据仓库服务器的部分工作,即olap服务器从数据仓库服务器中 抽取数据
9、,在olap服务器中转换成客户端要求的多维视图,并进行多维数据分析,将分析结果传送给客户端,这种结构形式工作效率更高;11. 数据模型与数学模型有什么区分?答:数据模型为数据特点的抽象,数据治理教学的形式框架,数据库系统中用以提高信息表示和操作手段的形势构架;数据模型包括数据库的数据的结构部分.数据库数据的操作部分和数据库数据的约束条件;数学模型为依据对讨论对象所观看到的现象及实践体会,归结成的一套反映其内部因素数量关系的数学公式.规律准就和具体算法;用以描述和讨论客观现象的运动规律;15第三范式数据模型与星型模型有什么不同?第三范式不同于星型模型之处在于,把事实表和维表的属性作为一个实体都集
10、中在同一数据库表中,或分成多个实体用多个表来表示,每个表按第三范式组织数据;它削减了为表中的键和不必要的属性;17简洁说明etl 过程的主要步骤; etl 过程的主要步骤概括为: ( 1)打算数据仓库中需要的全部的目标数据(2)打算全部的数据源,包括内部和外部的数据源(3)准备从源数据到目标数据的数据映射关系(4)建立全面的数据抽取规章(5)打算数据转换和清洗规章(6)为综合表制定方案(7)组织数据缓冲区域和检测工具(8)为全部的数据装载编写规程(9)维度表的抽取.转换和装载(10)事实表的抽取.转换和装载18.说明数据抽取工作的内容;p2821数据装载方式与类型有哪些?答:数据仓库中最基本的
11、元数据相当于数据库系统中的数据字典;由于数据仓库和数据库有很大的不同,因此元数据的作用远不为数据字典所能相比的;元数据在数据仓库中有着举足轻重的作用,它不仅仅定义了数据仓库有什么,指明白数据仓库中数据的内容和位置,刻画了数据的抽取和转换规章,储备了与数据仓库有关的各种商业信息,而且整个数据仓库的运行都为基于元数据的,如数据的修改,跟踪,抽取,装入,综合等;23什么为关于数据源的元数据?答:关于数据模型的元数据描述了数据仓库中有什么数据以及数据之间的关系,为用户治理数据仓库的基础;这种元数据可以支持从数据仓库中猎取数据;用户可以提出需要哪些表,系统从中选一个表,并得到表之间的关系;重复该过程,用
12、户期望能够得到期望的数据;24什么为关于数据模型的元数据?答:关于数据模型的元数据描述了数据仓库中有什么数据以及数据间的关系,支持用户从数据仓库中猎取数据;25什么为关于数据仓库映射的元数据?答:关于数据仓库映射的元数据,反映了数据源与数据仓库数据之间的映射,以及数据项为从哪个特定的数据源抽取的,经过了哪些转换.变换和装载;第三章作业1. 联机分析处理( olap)的简洁定义为什么?它表达的特点为什么; p402. olap准就中的主要准就有哪些? p413. 什么为维?关系数据库为二维数据吗?如何懂得多维数据? p43维为人们观看数据的特定角度;关系数据库不为二维数据,只为通过二维关系表示了
13、数据的多维概念;多维数据就为从多个特定角度来观看特定的变量;4. mdd(b multi dimensional database、 多维数据库)为以多维的方式组织数据,即以维作为坐标系,采纳类似于数组的形式储备数据; rdbm(s relational database management system ,关系型数据库治理系统)通过数据.关系和对数据的约束三者组成的数据模型来存放和治理数据mddb特点:1. 数据库中的元素具有相同的数值2. 多维数据库表达清晰,3. 占用储备少rdbms的特点:1. 数据以表格的形式显现2. 每行为各种记录名称3精品学习资料精选学习资料 - - - 欢迎下
14、载3. 每列为记录名称所对应的数据域4. 很多的行和列组成一张表单5. 如干的表单组成database5. 1. 数据存取速度rolap服务器需要将sql语句转化为多维储备语句,暂时“拼合”出多维数据立方体;因此,rolap的响应时间较长;molap在数据储备速度上性能好,响应速度快;2. 数据储备的容量rolap使用的传统关系数据库的储备方法,在储备容量上基本没有限制;molap通常采纳多平面叠加成立体的方式存放数据;当数据量超过操作系统最大文件长度时,需要进行数据分割;多维数据库的数据量级难以达到太大的字节级;3. 多维运算的才能molap能够支持高性能的决策支持运算;rolap无法完成多
15、行的运算和维之间的运算;4. 维度变化的适应性molap增加新的维度,就多维数据库通常需要重新建立;rolap对于维表的变更有很好的适应性;5. 数据变化的适应性当数据频繁的变化时,molap需要进行大量的重新运算,甚至重新建立索引乃至重构多维数据库;在rolap中敏捷性较好,对于数据变化的适应性高;6. 软硬件平台的适应性rolap对软硬件平台的适应性很好,而molap相对较差;7. 元数据治理目前在元数据的治理,molap和 rolap都没有成形的标准;6. 在 holap中,对最常用的维度和维层次,使用多维数据表来储备,对于用户不常用的维度和数据,采纳rolap星型结构来储备;7 多维数
16、据显示的两种方法:关系数据库方式和多维数据库方式;关系数据库可以显示更多维的数据,但用事实表显示多维数据时,重复数据很多, 也很繁琐; 多维数据库虽然不能同时显示三维以上数据,但显示的数据很精炼;11.多维数据显示的体会规章为什么?答:多维数据的显示只能在平面上呈现出来,用多维数据库显示时,不能同时显示三维以上数据,但可以固定一些维成员,重点显示两维维数据;最有效表示多维数据使用多维类型结构(mts),即每一维用一条线段表示,维度中每一个成员都用线段上的一个区间表示;仍可以使用行.列和页表三个显示组来表示;体会规章:1. 将维度尽量放在页中,除非确定需要同时看到一个维度的多个成员;2. 当维度
17、嵌套在行货列中时,考虑到垂直空间比水平空间更有用,所以讲维度嵌套在列中比嵌套在行中要好;3. 在打算数据的屏幕显示方式前,应第一弄清晰需要查找和分析比较的内容;12.举例说明olap的多维数据分析的切片操作;答:切片就为在某两个维上取肯定区间的维成员或全部维成员;如用三维数组表示为(地区,时间,产品,销售额),假如在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产品的切片); 13 比如部门销售数据表中部门1 的销售额为900 元,对时间维进行下钻操作,可以得到各个季度分别的销售额为多少;14( 1)切片: 切片就为在某两个维上取肯定区间的为成员或全部维成员,而在其余的维上
18、选定一个维成员的操作;切片的作用就为舍弃一些观看角度,使人们能在两个维上集中观看数据;( 2)切块:切块分两种情形: (1)在多维数据的某一个维上选定某一区间的维成员的操作;( 2)选定多维数组的一个三维子集的操作;切块可以看成为在切片的基础上确定某一个维成员的区间得到的片段,也即由多个切片叠合起来的;( 3)钻取:向下钻取为使用户在多层数据中能通过导航信息而获得更多的细节性数据,向上钻取猎取概括性信息;( 4)旋转:通过旋转可以得到不同视角的数据,旋转操作相当于平面数据将坐标轴旋转;15.广义 olap功能如何提高多维数据分析才能;广义 olap功能主要为通过四个模型逐层深化从而提高多维数据
19、分析才能;这四个模型分别为:4精品学习资料精选学习资料 - - - 欢迎下载(1) 肯定模型:它属于静态数据分析,通过比较历史数据值或行为来描述过去发生的事实;该模型查询比较简洁,综合路径为预先定义好的,用户交互少;(2) 说明模型:它也属于静态数据分析,分析人员利用系统已有的多层次的综合路径层层细化,找出事实发生的缘由;(3) 摸索模型 : 它属于动态数据分析,旨在说明在一维或多维上引入一组具体变量或参数后将会发生什么;分析人员在引入确定的变量或公式关系时,必需创建大量的综合路径;(4) 公式模型 : 它的动态数据分析才能更高,该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的
20、结果;16.说明数据立方体的概念数据立方体的概念为1996 年, jim gray 等首次提出的;数据立方体为实现多维数据查询与分析的一种重要手段;实质上,数据立方体就为数据仓库结构图中的综合数据层;从今,基于数据立方体的生成方法始终为olap和数据仓库领域讨论者所关注的热点问题;多数据集的属性分为维属性和度量属性;维数性为观看数据对象的角度,而度量属相就反映数据对象的特点;对于多维数据分析而言,本质上为沿着不同的维度进行数据猎取的过程;在数据立方体中,不同维度组合构成了不同的子立方体,不同维值的组合机器对应的度量值构成相应的对于不同的查询和分析;因此,数据立方体的构建和保护等运算方法成为了多
21、维数据分析讨论的关键问题;17 答: olap的规律结构由olap视图和数据储备两部分组成;olap视图:对于用户来说它为数据仓库或数据集市中数据的多维规律表示, 不管数据怎么储备和储备在何处;数据储备:要求挑选数据实际储备方式和实际储备位置,两种常用的挑选为多维数据储备和关系数据存储;18 答: olap的物理结构包括基于数据储备的两种方式:多维数据储备和关系数据储备;多维数据储备主要有两种挑选:多维数据储备于客户端或 olap服务器;在第一种情形,多维数据储备于客户端,数据分析也在客户端,这样形成了“胖”客户端,这为一种两层客户/ 服务器的物理结构;在其次种情形,多维数据储备放在olap服
22、务器中,抽取数据仓库中的数据,然后将其转换成多维数据结构,并把olap 服务器传给客户端,这时客户端就变成了“瘦”客户端,这为一种经典的三层客户/ 服务器物理结构; 19说明浓缩立方体的压缩方法和成效;答:浓缩立方体运算方法的基本原理为,在某些属性或组合下的一个元组相对于其他元组具有唯独性,就称为基本单一组bst ,当它的超集也为 bst,且都为取同一度量值,在集合运算时,可以把这些属性的度量值对应的元组压缩成一条元组储备;一般来说,浓缩立方体的压缩率可以达到30%-70%;20. 多维数据分析的mdx语言与数据库的sql语言有什么不同?答:mdx语言结合了多维数据集,指定“维度”on 子句
23、和“创建表达式运算的新成员”member子句 ,这样就可以来从多维数据集中挖掘出指定的数据;21mdx供应的函数children来完成这个操作; children函数返回一个自然排序的集,该集包含指定成员的子成员;假如指定的成员没有子成员,就此函数返回一个空集;示例下例将返回geography维度中 geography层次结构的united states成员的子成员;select geography.geography.country.&united states.children on 0 from adventure works精品学习资料精选学习资料 - - - 欢迎下载1. 数
24、据仓库的需求分析的任务为什么?p67第四章作业精品学习资料精选学习资料 - - - 欢迎下载需求分析的任务为通过具体调查现实世界要处理的对象(企业.部门用户等),充分明白源系统工作概况,明确用户的各种需求,为设计数据仓库服务;概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求;2. 数据仓库系统需要确定的问题有哪些?p673. 实现决策支持所需要的数据包括哪些内容?p68( 1)源数据( 2)数据转换( 3)数据储备( 4)决策分析 4 概念:将需求分析过程中得到的用户需求抽象为运算机表示的信息结构,叫做概念模型;特点:(1)能真实反映现实世界,能满意用户对数据的分析,达到决策
25、支持的要求,它为现实世界的一个真实模型;(2)易于懂得,便利和用户交换看法,在用户的参加下,能有效地完成对数据仓库的成功设计;(3)易于更换,当用户需求发生变化时,简洁对概念模型修改和扩充;(4)易于向数据仓库的数据模型(星型模型)转换;5 用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;如主题之间的联系也具有属性,就把属性和菱形也用无向边连接上;5精品学习资料精选学习资料 - - - 欢迎下载6 数据库的概念模型设计主要采纳e-r 概念模型的设计方法;数据仓库的概念模型设计主要采纳
26、e-r 概念模型和面对对象的分析方法;7 . 图 4.1 所示的概念模型:商品和客户为两个主题,商品的销售信息等同于客户的购物信息,而每个商品具有本身的商品固有信息和商品号,仍有就为商品的库存信息;客户具有自己的固有信息,仍有就为客户号;8. 规律模型:运算机所支持的有e-r 图转换成的数据模型,数据的规律结构数据仓库的规律模型:星型模型9. 数据仓库的规律模型:用来构建数据仓库的数据库规律模型;在数据库中,规律模型有关系.网状.层次,可以清晰的表示各个关系;10. 举例说明从数据仓库的概念模型到规律模型的转换.概念模型为对每个决策与属性及主体之间的关系用 e-r 图来表示的, e-r 图能有
27、效的将现实的世界表示成信息世界,他利于向运算机的表示形式进行转化;而规律模型设计为需求分析主题域,将概念模型 e-r 图转化为规律模型,即运算机表示的数据模型,数据仓库的数据模型一般采纳星型模型;例如 概念模型设计时,确定了商品和客户两个主题;其中商品对于商场来说为更基本的业务对象,商品的业务有销售.选购.库存;其中商品销售时最重要的业务;它为进行决策分析的重要方面;星型模型的设计如下:确定决策分析需求,数据仓库为面对决策分析的,决策需求为建立多维数据模型的依据;例如分析销售额趋势,对商品的销售量,促销手段对销售的影响;从需求中识别出事实,从决策主题确定的情形下,挑选或设计反映决策主体业务表;
28、例如在商品主题中,以销售数据为事实表;确定维,确定影响事实的各种因素,对销售业务的维一般的包括商店,地区,部门,城市,时间,商品等;确定数据汇总的水平,存在于数据仓库中的数据包括汇总的数据;数据仓库中对数据不同粒度的综合形成了多层次的数据结构;例如对于时间维,可以用年月 日 不同水平进行汇总;设计事实表和维表,设计事实表和维表的属性,再事实表中应当记录哪些属性为有维表的数量来打算的,一般来说,与事实表相关的维表的数量应当适中,太少的维表会影响查询的质量,用户得不到需要的数据,太多的数据会影响查询的速度;11. 在数据仓库中为什么考虑数据的粒度层次划分?答: 所谓的粒度为指数据仓库宗数据单元的具
29、体程度和级别,数据越具体,粒度越小,层次级别九月低;数据综合度越高,粒度越大,层次级别就越高;在传统事务处理系统中,对数据的处理,操作都为再具体数据级别上的,即最低的粒度;但为数据仓库环境中主要为分析处理,粒度的划分键直接影响数据仓库中数据量以及所适合的查询类型;一般需要将数据划分为具体数据,轻度综合,高度综合三级或更多及粒度;不同粒度级别的数据用于不同类型的分析处理;力度的划分为数据仓库设计工作的一项重要内容,粒度划分为否适当影响数据仓库性能的一个重要方面;12. 数据仓库的记录系统包括什么内容,举例说明?答:数据仓库中的数据来源与多个已经存在的事务处理系统外部系统,由于各个原系统的数据为面
30、对应用的,不能完整地描述企业中的主题域,并且多个数据源的数据存在者很多不一样,因此要从数据仓库的概念模型动身,结合主题的多个表的关系模式,需要确定现有系统的哪些数据能较好地适应数据的需求;这就要求挑选最完整的.最准时的.最精确的.最接近外部实体源的数据作为记录系统,同时这些数据所在的表的关系模式接近于构成主体的多个标的关系模式;记录系统的定义要记入数据仓库的元数据;13.什么为物理模型?数据仓库的物理模型设计包括哪些工作?答:物理模型就为规律模型在运算机中的物理结构,其中包括储备结构和存取方法;数据仓库的物理模型设计的工作包括:估量储备容量.确定数据的储备方案.确定索引策略.确定数据存放位置和
31、确定储备安排;14.为什么数据仓库物理模型设计中要建立汇总方案和确定数据分区方案?答:假如数据仓库只储备最小粒度的数据,每次查询遍历全部的明细记录,然后生成汇总信息,这会造成很大的开销,因此要建立汇总方案;分区可以将表分解成易于治理的小表,对事实表的分区医保采纳垂直分区或水平分区,这样使得大表被分成小表,因此要建立分区方案;16. 概念模型: e-r 图;规律模型:星型模型物理模型:储备结构.索引.数据存放位置.储备安排;17. (1)位索引技术:bit-wise索引技术; b-tree 索引技术(2)表示技术(3)广义索引18. 答: 1. b-tree 只适合于高基数字段,但对于低基数字段
32、毫无价值;2.b-tree 索引需占肯定的空间和时间,增加了在数据仓库中构造和保护索引的代价;6精品学习资料精选学习资料 - - - 欢迎下载3.数据仓库应用中常常为复杂的查询,并常常带有分组及聚合条件,此时b-tree 索引往往无能为力;19.数据仓库中采纳标识技术有什么好处;答:使用标准的数据库技术来储存数据仓库为特别昂贵的;较好的替代方法为用基于标识的技术来储存数据仓库;一旦将基于标识的数据库存放在内存中,处理速度会得到很大的提高;数据越多,标识数据比标准的.基于记录的数据更有利; 由于数据被大量压缩,所以整个数据库可以存放在内存中;可以索引全部的行和全部的列;21.说明数据仓库开发的四
33、个阶段和12 个步骤答:如下图所示发:分为分析设计阶段;数据猎取阶段;决策支持阶段;保护与评估阶段;22. 数据猎取阶段包括数据抽取,数据转换,数据装载3 个步骤;数据抽取:数据抽取主要进行数据源的确认,确定数据抽取技术,确认数据抽取频率,依据时间要求抽取数据;数据转换:数据抽取得到的数据不能直接存入数据仓库的;数据转换工作包括:数据格式的修改,字段的解码,单个字段的分别,信息的合并,变量单位的转化,时间的转化,数据汇总等;数据装载:数据装载包括初始装载,增量装载,完全刷新;23. 数据仓库的简历就为要达到决策支持的目的;决策支持阶段包括信息查询和学问探究两个步骤;信息查询:信息查询者使用数据
34、仓库发觉目前存在的问题;为适应信息查询者的要求,数据仓库一般采纳如下的方法提高信息查询效率:创建数据陈设,预连接表格,预集合数据,聚类数据;学问探究:只为探究者使用数据仓库能对发觉的问题找出缘由;24. 保护与评估阶段包括数据仓库增长,数据仓库保护,数据仓库评判;数据仓库增长:数据仓库建立以后,随着数据用户的不断增加,时间的曾增长,用户查询需求更多,数据会快速增长;数据仓库保护:数据仓库保护包括适应数据仓库增长的保护和正常系统保护两类;数据仓库评估:数据仓库评估包括系统性能评定,投资回报分析,数据质量评估;25. 概括说明“概念模型.规律模型.物理模型”分别为什么样的数据模型?答:将需求分析过
35、程中得到的用户需求抽象为运算机表示的信息结构,即概念模型;规律模型为由概念模型进一步转化成运算机支持的数据模型;物理模型为规律模型设计的数据模型适应应用要求在运算机中的储备结构和存取方法;28.当有一个或多个维表没有直接连接到事实表上,而为通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型;雪花模型为对星型模型的扩展;它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的" 层次"区域,这些被分解的表都连接到主维度表而不为事实表;治理大量数据,数据的高效装入和数据压缩,储备介质的治理,元数据的治理,数据仓库语言,高效索引,多
36、维数据仓库和数据治理第五章作业1 数据仓库的两类用户有什么本质的不同?p96数据仓库的用户有两类:信息使用者和探究者;信息使用者为使用数据仓库的大量用户,信息使用者以一种可以推测的.重复性的方式使用数据仓库平台;探究者完全不同于信息使用者,他们有一个完全不行推测的.非重复性的数据使用模式; 2 数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关怀当前某一个时间段内的数据,而数据仓库的信息使用者关怀企业从过去某一时点 如开头应用数据仓库的时点 到目前的各个阶段的信息,通过这些信息,可以对企业的进展历程和将来趋势做出定量分析和推测;3. 1 非规格化规范化的作用为产生一种
37、完全没有数据冗余的设计方法;7精品学习资料精选学习资料 - - - 欢迎下载但为,有时在数据仓库设计中引入一些有限的数据冗余来提高数据拜访成效;2 创建数据阵列创建数据阵列,将相关类型的数据 如: 1 月.2 月. 3 月等月份中的数据 储备在一起,提高拜访成效;3 预连接表格一个公用键和共同使用的数据将表格合并在一起;共享一个公用键,可以将多个表格合并到一个物理表格中;这样做可以很大程度的提高数据拜访效率;4 预集合数据依据“滚动概括”结构来组织数据;当数据被输入到数据仓库中时,以每小时为基础储备数据;在这一天终止时,以每天为基础储备累加每小时的数据;在一周终止时,以每周为基础储备累加每天的
38、数据;月末时,就以每月为基础储备累加每周的数据;5 聚类数据将不同类型的数据记录放置在相同的物理位置;这为用户查看这些记录,可以在同一地点找到它们,提高查询效率;6 压缩数据压缩可以使可读取的数据量极大;定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能;7 合并查询假如查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节约大量资源;4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往为我们很需要的或者为常常被使用的,由于这些数据所占总量的比例增加,所以被拜访的概率增加,从而削减了查询时间,提高了查询速度;5. 聚类数据:基于产生共同信息,将不同类型的数据
39、记录放置在相同的物理位置;集合数据:即概括数据,相同的商业维度和指标储备数据;6. 合并查询:把定期的一些查询合并到同一个表格中,来节约大量资源,达到扫描数据仓库表格的次数最小化;7. 探究者所作的工作有哪些?答:探究者查看治疗和历史记录,在多数情形下,探究者考虑数据不同类型和数据具值之间的关系;探究者要做的工作概括分析,抽取.建模和分类;8. 数据仓库的探究者的工作与数据库的数据挖掘者的工作有什么不同?答:数据仓库的探究者为查找不平常的且有用的商业运作模型的用户群,探究者查看具体的资料和历史记录,他们要做的的工作有概括分析.抽取.建模和分类;而数据库的数据挖掘者为那些对数据库中数据做出归纳和
40、分析的专业人士,他们从数据库的数据中提炼出有用的信息和一些数据的客观规律;9. 说明企业需要哪些战略信息与实现方法;答:企业需要的战略信息有:销量最好的产品名单.显现问题的地区.查找显现问题的缘由.对比其他的数据(横向钻取).显示最大利润以及一些警告信息;实现方法有:查询与报表决策支持.多维分析和缘由分析和推测将来;11. 数据库为面对事务的设计,数据仓库为面对主题设计的;数据库一般储备在线交易数据,数据仓库储备的一般为历史数据;数据库为为捕捉数据而设计,数据仓库为为分析数据而设计,它的两个基本的元素为维表和事实表;12. 说明如何利用数据仓库发觉问题并找出产生问题的缘由答:主要为通过三个步骤
41、来完成的:概括分析,抽取,建模;概括分析为第一步;分析数据的完整性和精确性;抽取为通过概括分析,所学数据的轮廓已经基本显示出来;数据抽取就为将数据仓库中抽取制定的数据并组织起来,进一步分析而不影响数据仓库的正常工作;最终一步为建模,通过以上两步的得到的数据信息进行建模从而进一步分析数据,达到发觉问题及其问题的缘由;13. 说明如何利用数据仓库来进行推测答:就为建立相应的推测模型,利用历史数据建立回来方程;一般的推测模型有多元回来模型.三次平滑推测模型.生长曲线推测模型;除了推测模型外,采纳聚类模型或分类模型也能达到肯定的推测成效;14. 脏数据为指在数据源中抽取.转换和装载到数据仓库的过程中显
42、现的余外数据和无用数据;产生脏数据的途径:1,开头时定义了一些8精品学习资料精选学习资料 - - - 欢迎下载余外的数据或由于一些不合适的转换规章在转换过程中产生的无用数据;2,来自不同数据源的数据在数据结构.数据编码.数据定义等方面为不兼容的,在集成这些数据时,未对全部不怜悯形的数据都转成同意形式,产生遗漏或用了不匹配的转化方法而产生的数据;3, 输入的数据已经过期;由于工作业务的转变,某些前期业务的数据已经过期,仍遗留在数据仓库中而造成的过期无用数据;4,用户需求的转变或数据质量有了新的要求时,那些没有适应转变要求的数据成了无用的数据;15. 清理脏数据的方法有: 1,检查抽取数据的定义和
43、数据转换规章的正确性,对那些不合适的定义和规章所造成的脏数据进行清理;2, 在对多个数据源进行集成时,必需对全部不同结构.不同编码.不同定义的数据,严格依据同意格式转换后再集成,清晰那些遗留或不匹配方法产生的脏数据;3 对过期数据,在形成历史数据后,依据这种数据量的大小来打算为否需要进行重新整理;17. 企业基本情形:18. 沃尔玛始终为teradata的大客户,该公司的teradata装机为全球最大的数据仓库之一,并且在该公司与各家供应商的数据共 享网络(称为“零售链”)中发挥着重要作用;现在仍不清晰惠普的成功对teradata会产生什么影响,看起来,沃尔玛不大可能一下子全部舍弃在terad
44、ata方面的投资,不过,惠普公司在数据仓库方面的任何获胜都会抢走teradata的潜在业务;至周三上午为止,惠普和沃尔玛的官方都没有立刻发布评论;19. 决策支持系统 decisionsupportsystem,简称 dss 为帮助决策者通过数据.模型和学问,以人机交互方式进行半结构化或非结构化决策的运算机应用系统;它为治理信息系统mis 向更高一级进展而产生的先进信息治理系统;它为决策者供应分析问题.建立模型.模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮忙决策者提高决策水平和质量;决策支持系统, 为以治理科学.运筹学.掌握论.和行为科学为基础,以运算机技术.仿真技术和信息技术为手
45、段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统;该系统能够为决策者供应所需的数据.信息和背景资料,帮忙明确决策目标和进行问题的识别,建立或修改决策模型,供应各种备选方案,并且对各种方案进行评判和俦优选,通过人机交互功能进行分析.比较和判定,为正确的决策供应必要的支持;dss的概念为在20 世纪 70 岁月提出的,并在80 岁月获得进展;它的产生缘由有:传统的mis 没有给企业带来庞大的效益,人在治理中的积极作用要得到发挥;人们对信息处理规律熟悉提高,面对不断变化的环境,要求更高层次的系统来直接支持决策;运算机应用技术的进展为 dss的进展供应了物质基础;第六章作业1. 数据挖
46、掘与学问发觉两个概念有什么不同?p1162. 学问发觉过程由哪三部分组成?每部分的工作为什么?p1163. 数据挖掘的对象有哪些?他们各自的特点为什么?p118 4.p1205. 聚类为指在没有类的数据中,按“距离”概念集合成如干类;在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大;分类为在聚类的基础上,对已确定的类找出该类别的概念描述,它代表了这类数据的整体信息;6. 当发生有丢失的数据.观看不到的数据,隐匿的数据.录入过程中发生错误的数据等情形时,即产生了不完全数据;7 两个变量 x 和 y 的采样,其中x 为独立变量,总有观测值;y 为响应变量,可能涉及丢失值;以y=?代表丢失值,以(x=i ,y=?)代表不完全的记录;丢失数据模式分别取决于y=?的概率为否依靠于y 与 x 的状态;假如这一概率依靠于x 但不依靠于y,就认为数据为随机丢失的;8 两个变量 x 和 y 的采样,其中 x 为独立变量,总有观测值; y 为响应变量,可能涉及丢失值;以 y=?代表丢失值,以( x=i ,y=?)代表不完全的记录;丢失数据模式分别取决于 y=?的概率为否依靠于 y 与 x 的状态;假如 y=?的概率既不依靠于 y 也不依靠于 x 的状态,就认为数据为完
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农贸市场智能检测设备
- 商超智慧安全管理系统
- 某涂料厂产品研发管理制度
- 非遗剪纸进校园:传统文化传承的实践与创新
- AI在林业中的应用
- 某石油化工厂危险品管理准则
- 2026年人工智能生成图像的著作权归属研究
- 公司成员酒店组织机构
- 仓储管理试题及答案
- 卫生培训签到记录表
- 2026四川德阳市什邡市教育和体育局选调高(职)中教师13人备考题库附答案详解
- 2026江西赣州市安远县东江水务集团有限公司第一批人员招聘10人备考题库含答案详解(b卷)
- 2026年花样滑冰赛事品牌建设与营销创新案例研究
- 2026年考研数学一模拟单套试卷(含解析)
- 旅馆防偷拍工作制度
- 2026贵州贵阳市信昌融合实业发展有限公司招聘16人笔试备考试题及答案解析
- 2026年四川发展控股有限责任公司校园招聘笔试参考题库及答案解析
- 2026年辽宁省公务员省考《行政职业能力测验》真题解析
- TCCIIA 0004-2024 精细化工产品 分类
- 突发事件创伤伤员医疗救治规范2025年版
- 第25讲-理解为王:化学反应原理综合题解法策略
评论
0/150
提交评论