下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库的概念及特点:数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的,集成的,稳定的,不可更新的,随时间变化的,分层次的,多维的集成数据集合。特点:1主题与面向主题;2数据的集成性;3数据的不可更新性;4数据的时态性。为什么要建立数据仓库:为了使数据能够发挥其最佳效用,更好的为用户服务,才要建立数据仓库。它可以从各信息源提取决策需要的数据,加工后,存储到数据仓库中;并且可以提供用户的查询和决策分析的依据。数据挖掘及其特点:DM是从大量的,不完全的,有噪声的,模糊的,随机的应用数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。特点处理的数据规模十分庞大;2由于用户不能形成精确地查对数据的迅速变化做出快速响应,以提供决策支持信息;4DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则;5DM不断更新。数据挖掘的基本过程,数据挖掘有几步?数据准备:本阶段又可进挖掘:数据挖掘处理器综合利用前面提到的多种数据挖掘方法分析数据。3表述:与检验证型工具一样,数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这是可以利用可视化直到满意为止。步骤:问题定义-发现信息-制定计划-采取行动-检测效果。比较数据仓库基本体系结构的特点两层:顶层:前端工具,底层DW服务器;2实时监测数据源发生的变化,便于集成到DW。数据挖掘按任务分为描述和预测式数据挖掘两种。知识发现(数据挖掘)的基本过程:数据选择和预分析-挖掘(最主要内容)-表述-评价。粒度的概念及其意义?粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级别就越小。意义:数据仓库开发中面临着的一个单一设计问题就是粒度的确定的合理与否影响存放数据仓库中的数据量大小,影响数据仓库所能回答的查询类型。粒度的合理确定还直接影响其他方面的设计,所以要在数据量的大小和详细程度之间做出权衡。元数据是关于数据的数据,是对数据的结构,内容,键码,索引等的一种描述。是描述数据仓库内数据的结构和建立方法的数据。可按其用途的不同分为技术元数据和商业元数据。什么是联机分析处理,有什么特性?联机分析(OLAP)是共享多维信息的针对特定问题的联机数据。数据仓库的数据模型有哪些?并比较其不同点。数据仓库的数据模型包括:星型数据模型、雪花型数据模型、星群型数据模型。其中星型模型包括一个中央关联。雪花型数据模型设计其附表(维度表)被进一步规范化,分割出额外的表,产生的图形像雪花状。这种形式易于维护并节省存储空间。但表之间的关联多,影响系统的性能,其使用没有星型构架广泛。星群型架构的数据模型设数据建模的主要内容必须回答紧迫的问题2必须有正确的事实表3必须有正确的维表按最终用户的业务术语进行描述和表达4必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程5根据需要存储正确长度的公司历史数据7以一种对于公司有意义的方式来集成所有必要的数据8创建必要的总结表9创建必要的索引10能够加载数据仓库数据库并使它以一种适应的方式发挥作用。联机处理OLAP:联机分析是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的,能够真正为用户所理解的,并对真实反映企业数据特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。体系结构:数据库(MDDB)DBMS(关系DBMS产生多维视图)分析程序(分析程序创建多维视图)用户接口-用户。OLAP处理的特性:快速性,可分析性,多维性,信息性。OLAP按存储方式混合型联机分析处理。MOLAP优势:性能好,响应速度快,专为OLAP所设计,支持高性能的决策计算,复杂的跨维计算,多用户的读写操作,行级的计算。缺点:增加系统复杂度,增加系统培训与维护费用,在操作系统平台中,受文件大小的限制,难以达到Tb级;需要进行预计算,不然可能导致数据爆炸,无法支持维的动态变化,缺乏数据模型和数据访问的标准。ROLAP优势:没有大小限制,现有的关系数据库的技术可以沿用。可以通过SQLOLAP做了很多优化,包括并行存储,并行查询,并行数据管理,基于成本的查询优化,位图索引,SQL的OLAAP扩展等,大大提高了ROLAP的速度。缺点:一般对多维数据响应熟无法完成部分计算,即无法完成多行的计算,无法完成维之间的计算。多维数据一般包括哪些内容,常用多数据分析方法:多维数据结构一般包括超立方结构和多立方结构。常用的多维分析方法有:1切片2切块3旋转、转轴4钻取数据预处理:由于数据极易受噪声数据、空缺数据和不一致数据的影响,需要进行数据挖掘前的预处理。其形式有:数据清理、数据集成、数据变换、数据归约。如何处理缺失值?1使用一个全局变量填充空缺值;4使用属性的平均值填充空缺值;5使用与给定元组同一类的所有样本的平均值;6使用最可能的值填充空缺值。数据变换就是将数据进行规范化和聚集。可用分享来去掉噪声数据。最大值最小值规范化不涉及均值,线性。数据归约中,属性子集选择的基本启发式方法包括如下技术:逐步向前选择;逐步向后删除,逐步向前选择和逐步向后删除的结合;判定树归纳。分类怎么做:所谓分类就是为了理解事物特征并作出预测使用历史数据建立一个类模型(即分类器)的过程。首先从数据中选出已经分好类的训练集,然后再该训练集上运用数据挖掘分类的技术,建立分类模型,最后对没有类的数据进行分类。有指导的学习:预先定义好的数据挖掘中的分类,因为用作训练样本的数据具有实际的类别。分类的步骤:模型创建,模型使用。有(无)监督学习指是否存在以下过程:模型根据自变量的输入值得到因变量学习没有实际值可以比较)聚类时的原则?聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象间具有较高的相似度,而不同簇中的对象差别较大。根据树的形成过程,层次分解的方向是自底向上还是自顶向下,层次的聚类方法可以进一步分为凝聚的和分裂的层次聚类。数据矩阵P个变量(也称度量或属性)来表现n个对结构是关系表的形式,或者看成n*p(n个对象乘以p个变量)的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年北京协和医院变态(过敏)反应科合同制科研助理招聘备考题库及参考答案详解一套
- 2025年防城港市生态环境局招聘备考题库完整答案详解
- 2025年博思睿人力招聘(派遣至海宁市袁花镇百溪工业社区)备考题库及一套答案详解
- 2025年昭通市公安局招聘辅警备考题库完整参考答案详解
- 2025年南京银行盐城分行响水支行社会招聘备考题库参考答案详解
- 2024年金华市城市发展集团有限公司下属子企业招聘考试真题
- 黑龙江公安警官职业学院《结构化学》2025 学年第二学期期末试卷
- 2025年中电科海洋信息技术研究院有限公司招聘备考题库附答案详解
- 2025年中国科学院水土保持科学与工程学院招聘备考题库参考答案详解
- 广东揭阳市2025下半年至2026年上半年引进基层医疗卫生急需紧缺人才招聘350人参考考试试题及答案解析
- IATF16949中英文对照版2025-10-13新版
- 核心素养视角下的小学语文教学情境创设研究
- 大学家属院物业管理办法
- 经济法学-003-国开机考复习资料
- 照明工程施工组织方案
- 电路理论知到智慧树期末考试答案题库2025年同济大学
- 土地复垦协议书范本土地复垦协议书7篇
- 2021《超星尔雅》舞蹈鉴赏章节测试答案
- QC成果提高二衬混凝土外观质量一次成型合格率
- 《大学计算机基础》试题库(附答案)
- DL-T-1928-2018火力发电厂氢气系统安全运行技术导则
评论
0/150
提交评论