数据仓库与数据挖掘

上传人：y*** IP属地：天津上传时间：2021-12-09 格式：DOCX 页数：3 大小：11.19KB 积分：15 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、一、数据仓库的特征：(1) 面向主题性主题：是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑上，它对应于企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系，从而适应企业各个部门的业务活动特点和企业数据的动态特征，从根本上实现数据与应用的分离。(2) 集成性数据仓库中的数据是从原有分散的源数据库中提取出来的，其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致，且与不同的应用逻辑相关。为了创建一个有效

2、的主题域，必须将这些来自不同数据源的数据集成起来，使之遵循统一的编码规则。因此，数据仓库在提取数据时必须经过数据集成，消除源数据中的矛盾，并进行数据综合和计算。经过数据集成后，数据仓库所提供的信息比数据库提供的信息更概括、更本质。(3) 时变性时变性：许多商业分析要求对发展趋势做出预测，对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉 OLTP数据库中变化的数据，生成数据库的快照，经集成后增加到数据仓库中去；另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据，并且还需要按规定的时间段增加综合数据。(4) 非易失性数据仓库中的数据反映的是一段时间内历史数据的内容

3、，是不同时点的数据库快照的集合，以及基于撰写快照进行统计、综合和重组的导出数据，而不是联机处理的数据。主要供企业高层决策分析之用，所涉及的数据操作主要是查询，一般情况下并不进行修改操作，即数据仓库中的数据是不可实时更新的，仅当超过规定的存储期限，才将其从数据仓库中删除，提取新的数据经集成后输入数据仓库(5) 集合性数据仓库的集合性意味着数据仓库以某种数据集合的形式存储起来。二、KDD过程中的数据准备中的三个子步骤：(1) 数据集成将多文件或多数据库运行环境中的数据进行合并处理，解决语义模糊性、处理数据中的遗漏和清洗脏数据等。(2) 数据选择数据选取的目的是确定目标数据，根据用户的需要

4、从原始数据库中选取相关数据或样本。在此过程中，将利用一些数据库操作对数据库进行相关处理。(3) 数据预处理对步骤2中选出的数据进行再处理，检查数据的完整性及一致性，消除噪声及与数据挖掘无关的冗余数据，根据时间序列和已知的变化情况，利用统计等方法填充丢失的数据。三、KDD过程中的“结果的解释和评估”步骤说明：对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式，若模式不满足，再返回到前面某些处理步骤中反复提取。将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查, 以确信本次发现的知识不会与以前发现的知识相抵触四、数据挖掘的任务之一 “关联分析”相

5、关内容？关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物预测到。人们希望在海量的商业交易记录中发现感兴趣的数据关联关系，用以帮助商家作出决策。例如：面包 2% 牛奶 1.5%（占超市交易总数）2%和1.5%表明这两种商品在超市经营中的重要程度，称为支持度。商家关注高支持度的产品。面包=牛奶60%在购买面包的交易中，有60%的交易既买了面包又买了牛奶，成60%为规则而包=牛奶”的信任度。信任度反映了商品间的关联程度五、数据挖掘的任务之一 “聚类”相关内容？聚类是对物理的或抽象的对象集合分组的过程。聚类生

6、成的组为簇，簇是数据对象的集合。簇内部任意两个对象之间具有较高的相似度，而属于不同簇的两个对象间具有较高的相异度。相异度可以根据描述对象的属性值计算，对象间的距离是最常采用的度量指标。在实际应用中，经常将一个簇中的数据对象作为一个整体看待。用聚类生成的簇来表达数据集不可避免地会损失一些信息，但却可以使问题得到必要的简化。主要的数据挖掘聚类方法有：划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法六、数据挖掘的任务之一 “分类”相关内容？分类的目的是提出一个分类函数或分类模型（即分类器）通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。第一步

7、建立模型，用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。第二步是用模型对数据对象进行分类。七、数据挖掘中的归纳学习方法中的“遗传算法”相关内容遗传算法遗传算法是进化计算的一种，体现生物进化的四个要素：繁殖、变异、竞争和自然选择遗传算法的聚类思想：数据空间、编码、个体（染色体）、适应值函数、交叉、变异、选择（自然选择）。重复以上步骤，直到种群不再进化或找到目标为止。八、数据挖掘中的公式发现中的“BACON系统”相关内容（1） BACON系统的基本思想BACON系统是运用人工智能技术从试验数据中寻找规律性比较成功的一个系统，其思想是让程序反复地考察数据并使

8、用精炼算子创造新项，直到创造的这些项中有一个是常数时为止。该系统运用的是数据驱动方法，这种方法使用的规则空间与假设空间是分开的。这类学习方法的大致步骤为：步骤1:手集某些训练例。步骤2:对训练例进行分析，决定应该使用的精炼算子。步骤3:使用选出的算子修改当前的假设空间。重复执行步骤1到步骤3直到取得满意的假设为止。BACON系统中所采用的主要精炼算子如下：A.发现常数 B.具体化C.斜率和截距的产生D.积的产生E.商的产生F模n的项的产生(2) BACON系统的功能和应用BACON系统是用产生式语言 OPS实现的。这个任务产生式系统的优点是它允许人们写一套小型的一般规律发现程序。这些程序在

9、收集的数据上进行搜索，同时，这些数据仍存放在工作存储器中。如果数据中出现所说的一种规律性，它就会触发某个算子，执行适当的动作：Casel如果规律性保持不变，就在有关范围内(时间、物体)进行一般化并检验。Case2:如果在某时间间隔上属性值一致地增加或减少，则构造一个新属性，该属性是借助随时间变化的旧属性而定义的(例如加速度是由速度构造的)，并且进一步研究这个新属性。Case3:如果一个属性值随着另一个上升，则要考虑新属性为它们的乘积。最后，构造和发现一个这样的高级属性，它用到程序员在自定义规律中提到的新属性，并以它的值为常数，这是 BAXIN系统的变体九、数据挖掘中的公式发现中的“FDD系统”相关内容FDD系统是一个基于实验数据库的经验公式发现系统。FDD系统运用了人工智能中的启发式方法和数据处理中的曲线拟合技术，通过对所提供原型之间的线性组合和一定程度的复合不断逼近实验数据，最终得到蕴藏在大量实验数据中的经验公式。其基本思路是：步骤1:固定变量X2,对X1进行学习，即在现有原型基础上，依次对所提配，用最小二乘法求出 a,b系数，若某一原型经线性组合后与实验数据的相对误差小于一给定或值，则学习成功，否则转步骤2。步骤2

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据仓库与数据挖掘

文档简介

温馨提示

最新文档

评论

数据仓库与数据挖掘

文档简介

温馨提示

最新文档

评论

相关文档