数据仓库和数据挖掘概述_第1页
数据仓库和数据挖掘概述_第2页
数据仓库和数据挖掘概述_第3页
数据仓库和数据挖掘概述_第4页
数据仓库和数据挖掘概述_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/1/15数据仓库和数据挖掘12023/1/151数据仓库和数据挖掘概述数据仓库和数据挖掘2常用工具统计软件SPSS数据挖掘系统:SPSSClementineR分析程序代码数据仓库和数据挖掘3内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析数据仓库和数据挖掘4内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析数据仓库和数据挖掘5数据仓库的产生1988年,IBM爱尔兰公司第一次提出了“信息仓库”的概念90年代初,数据仓库的基本原理、框架架构和分析系统的主要原则都已经确定1992年,WilliamH.Inmon在《BuildingtheDataWarehouse》中系统的阐述了数据仓库的思想、理论,被称为“数据仓库之父”数据仓库和数据挖掘6什么是数据仓库?W.H.Inmon在《BuildingtheDataWarehouse

》中,对数据仓库的定义为:数据仓库是面向主题的、集成的、时变的,非易失的数据集合,支持部门的决策过程数据仓库和数据挖掘7数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域例如,银行的数据仓库的主题:客户从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成在DW中分析客户数据,可决定是否继续给予贷款。数据仓库和数据挖掘8数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成对不同的数据来源进行统一的数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等将原始数据结构做一个从面向应用到面向主题的大转变数据仓库和数据挖掘9数据仓库是时变的数据仓库内的数据时限在5~10年数据的键码包含时间项数据仓库和数据挖掘10数据仓库是非易失的数据经集成进入数据仓库之后,不需要进行事物处理、恢复和并发控制机制,相对来说是稳定的。数据仓库和数据挖掘11关系数据库数据仓库和数据挖掘12数据仓库数据仓库和数据挖掘13多维数据模型数据仓库和数据挖掘14内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析数据仓库和数据挖掘15背景快速增长的海量数据集存放在大型数据库中,理解它们已经远远超出人的能力原有的数据分析工具面对海量数据也有些力不从心。因此,现实情况往往是“数据十分丰富,而知识相当贫乏”面对这一挑战,数据挖掘和知识发现(DataMiningandKnowledgeDiscovery)技术应运而生,并显示出强大的生命力数据仓库和数据挖掘16数据挖掘的定义数据挖掘是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式(pattern)的非平凡的处理过程数据仓库和数据挖掘17数据挖掘是多学科的产物DataMiningDatabaseTechnologyStatisticsMachineLearningPatternRecognitionAlgorithmOtherDisciplinesVisualization数据仓库和数据挖掘18DataCleaningDataIntegrationDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluationDatamining—coreofknowledgediscoveryprocess数据仓库和数据挖掘19数据挖掘的应用领域电信

:客户流失百货公司/超市:购物篮分析

保险:交叉销售,流失信用卡:

欺诈探测电子商务:

网站日志分析,个性化服务税务部门:偷漏税行为探测警察机关:犯罪行为分析医学:

医疗保健,病症原因分析数据仓库和数据挖掘20数据挖掘在各领域的应用比例数据仓库和数据挖掘21内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析数据仓库和数据挖掘22为什么要预处理数据?为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性,是数据挖掘中非常重要的环节数据仓库和数据挖掘23为什么要预处理数据?数据库和数据仓库中的原始数据可能存在以下问题:描述性数据需要数字化表示不完整含噪声度量单位不同维度高数据仓库和数据挖掘24如何进行预处理?描述性数据的数字化表示数据清理数据变换数据压缩数据仓库和数据挖掘25描述性数据的数字化表示二值描述数据的数字化表示例如:性别的取值为“男”和“女”男→1,女→0多值描述数据的数字化表示例如:信誉度为“优”、“良”、“中”、“差”有两种数字化表示的方法数据仓库和数据挖掘26描述性数据的数字化表示第一种表示方法优→1,良→2,中→3,差→4第二种表示方法信誉度“优”信誉度“良”信誉度“中”100010001000信誉度为“优”→信誉度为“良”→信誉度为“中”→信誉度为“差”→将多值数据转换为二值数据数据仓库和数据挖掘27数据清理填充空缺值(不完整的数据)消除含噪声的数据数据仓库和数据挖掘28数据清理——填充空缺值忽略元组人工填写使用属性的均值使用与给定元组属同一类的所有样本的属性均值数据仓库和数据挖掘29数据变换最小-最大规范化例:假定属性income的最小与最大值分别为12000美元和98000美元,把income映射到区间[0.0,1.0]。根据最小最大规范化,income值73600美元将变换为数据仓库和数据挖掘30数据变换z-score规范化例:假定属性income的均值和标准差分别为54000美元和16000美元。使用z-score规范化,值73600美元转换为数据仓库和数据挖掘31数据变换小数定标假定A的取值由-986~917A的最大绝对值为986使用小数标定规范化,用1000除每个值-986规范化为-0.986,917被规范化为0.917数据仓库和数据挖掘32数据压缩主成分分析(PCA)特征选择数据仓库和数据挖掘33数据压缩——主成分分析(PCA)已知数据:n个样本,每个样本用d个属性来表示A1A2…Add个属性(不包含类别属性)数据仓库和数据挖掘34数据压缩——主成分分析(PCA)原理:求取系数矩阵U1.新的属性(主成分)是原始性状的线性组合2.各个主成分互不相关3.从上往下,各主成分的贡献率是递减的挑选前k个主成分,常用的标准是它们的贡献率之和大于85%数据仓库和数据挖掘35数据压缩——主成分分析(PCA)为了举例方便,假设每个菊花单株都由“茎的曲直性”、“叶长”和“叶宽”3个性状来表示经过主成分分析之后,会产生3个新的性状y1、y2、y3数据仓库和数据挖掘36数据压缩——主成分分析(PCA)假设某个菊花单株的“茎的曲直性”、“叶长”和“叶宽”分别为1、9.5、6.4经过主成分分析之后,会产生3个新的性状(主成分)y1、y2、y3,假设前两个主成分的贡献率之和大于85%菊花单株的新的性状取值为和数据仓库和数据挖掘37数据压缩——主成分分析(PCA)求取系数矩阵U的步骤对样本矩阵X的每一列进行标准化利用X求取样本的相关矩阵计算相关矩阵的特征根和特征向量对特征根由大到小进行排序,最大特征根的特征向量是第一个主成分的系数,依此类推可以由统计分析软件,如SPSS来实现这些步骤数据仓库和数据挖掘38数据压缩——主成分分析(PCA)对每一列进行标准化处理数据仓库和数据挖掘39数据压缩——主成分分析(PCA)说明对样本矩阵X的每一列进行标准化时,对连续型属性没有影响,但是,离散型的各个取值只是一种符号,标准化是否有意义?当数据集中的原始属性之间相关性不大时,使用PCA进行降维的效果不理想数据仓库和数据挖掘40特征选择自下而上方法属性个数从零开始,每次从现有属性中增加一个属性,如果分类效果好,保留该属性,否则不选择该属性,直到属性个数达到规定值自上而下方法从所有属性开始,每次从现有属性中减去一个性状,如果分类效果好,减去该该属性,否则保留该属性,直到属性个数达到规定值数据仓库和数据挖掘41特征选择已知数据:n个样本,每个样本用d个属性来表示;共有c个类别,第i个类别有ni个样本A1A2…Adx1(向量)x2xn…数据仓库和数据挖掘42特征选择——度量标准第i个类别有ni个样本,

表示第i个类别的样本第i个类别的均值向量所有类别的均值向量类间离散度和类内离散度矩阵数据仓库和数据挖掘43内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析2023/1/15数据仓库与数据挖掘44分类的定义分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。2023/1/15数据仓库与数据挖掘45分类问题使用的数据集格式AgeSalaryClass30highc125highc221lowc243highc118lowc233lowc1………描述属性类别属性2023/1/15数据仓库与数据挖掘46分类的过程获取数据预处理分类器设计分类决策2023/1/15数据仓库与数据挖掘47分类的评价准则精确度:代表测试集中被正确分类的数据样本所占的比例2023/1/15数据仓库与数据挖掘48分类的评价准则查全率:表示在本类样本中被正确分类的样本所占的比例查准率:表示被分类为该类的样本中,真正属于该类的样本所占的比例2023/1/15数据仓库与数据挖掘49分类的评价准则F-measure:是查全率和查准率的组合表达式β是可以调节的,通常取值为12023/1/15数据仓库与数据挖掘50分类的评价准则几何均值:是各个类别的查全率的平方根2023/1/15数据仓库与数据挖掘51决策树决策树的优点:进行分类器设计时,决策树分类方法所需时间相对较少决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式可以将决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解2023/1/15数据仓库与数据挖掘52决策树的基本概念适用于离散值属性、连续值属性采用自顶向下的递归方式产生一个类似于流程图的树结构在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝2023/1/15数据仓库与数据挖掘53决策树的基本概念公司职员年龄收入信誉度买保险否≤40高良c2否≤40高优c2否41~50高良c1否>50中良c1是>50低良c1是>50低优c2是41~50低优c1否≤40中良c2是≤40低良c1是>50中良c1是≤40中优c1否41~50中优c1是41~50高良c1否>50中优c2描述属性类别属性2023/1/15数据仓库与数据挖掘54决策树的基本概念年龄公司职员信誉度c1c2c1c2c1≤4041~50>50是否良优2023/1/15数据仓库与数据挖掘55决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性先剪枝方法:在生成决策树的过程中对树进行剪枝后剪枝方法:在生成决策树之后对树进行剪枝2023/1/15数据仓库与数据挖掘56支持向量机支持向量机的分类示意图为MarginH2H1Hw2023/1/15数据仓库与数据挖掘57支持向量机两类样本之间的分类间隔(Margin)为支持向量机的目的是使r最大,等价于使或者最小2023/1/15数据仓库与数据挖掘58支持向量机支持向量机使分类间隔最大可以转化为如下的约束优化问题MaxSubjectto2023/1/15数据仓库与数据挖掘59支持向量机求解约束优化问题,可以得到支持向量机的最优分类函数对于未知类标号的数据样本,可以使用最优分类函数对其进行分类核函数2023/1/15数据仓库与数据挖掘60近邻分类方法近邻分类方法是基于实例的分类方法不需要事先进行分类器的设计直接使用训练集对未知类标号的数据样本进行分类最近邻分类、k-近邻分类数据仓库和数据挖掘61内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析数据仓库和数据挖掘62聚类分析原理什么是自然分组结构Naturalgrouping?我们看看以下的例子:有16张牌,如何将它们分组呢?AKQJ数据仓库和数据挖掘63聚类分析原理分成四组每组花色相同AKQJ数据仓库和数据挖掘64聚类分析原理分成四组每组符号相同AKQJ数据仓库和数据挖掘65聚类分析原理分成两组每组颜色相同AKQJ数据仓库和数据挖掘66K-means聚类算法数据仓库和数据挖掘67层次聚类算法x3x1x2x4x7x5x6x4,x7x4,x5,x7x1,x3x4,x5,x6,x7x1,x2,x3x1,x2,x3,x4,x5,x6,x7第一层第二层第三层第四层第五层第六层第七层数据仓库和数据挖掘68内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析2023/1/15数据仓库与数据挖掘69关联规则(AssociationRuleMining)挖掘是数据挖掘中最活跃的研究方法之一最早是由R.Agrawal等人提出的其目的是为了发现超市交易数据库中不同商品之间的关联关系。一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。经典的关联规则挖掘算法:Apriori算法和FP-growth算法2023/1/1570北京林业大学信息学院尿布与啤酒的故事美国沃尔玛连锁超市将尿布和啤酒摆在一起出售2023/1/1571北京林业大学信息学院关联规则挖掘的步骤第一步第二步找出所有频繁项集由频繁项集产生强关联规则{尿布}频繁1-项集{尿布,啤酒}频繁2-项集尿布=>啤酒2023/1/15数据仓库与数据挖掘72Apriori算法Apriori算法是一种经典的生成关联规则的频繁项集挖掘算法中心思想:由频繁(k-1)-项集构建候选k-项集实现方法找到所有的频繁1-项集扩展频繁(k-1)-项集得到候选k-项集剪除不满足最小支持度的候选项集2023/1/15数据仓库与数据挖掘73Apriori算法的重要性质性质1:频繁项集的子集必为频繁项集性质2:非频繁项集的超集一定是非频繁的假设项集{A,C}是频繁项集,则{A}和{C}也为频繁项集假设项集{D}不是频繁项集,则{A,D}和{C,D}也不是频繁项集2023/1/15数据仓库与数据挖掘74关联规则挖掘举例对于规则AC:支持度

=support({A,C})=50%置信度

=support({A,C})/support({A})=66.6%假设最小值支持度为50%,最小可信度为50%规则AC满足最小支持度和最小置信度,所以它是强关联规则2023/1/1575北京林业大学信息学院FP-growth举例:超市交易数据库交易号TID顾客购买商品T1tea,cream,milk,breadT2cake,milkT3milk,teaT4cream,tea,cakeT5beer,milk,cream,breadT6cream,bread,milk,teaI={bread,beer,cake,cream,milk,tea}2023/1/1576北京林业大学信息学院第一次扫描数据库,找出频繁1-项集交易号TID顾客购买商品T1tea,cream,milk,breadT2cake,milkT3milk,teaT4cream,tea,cakeT5beer,milk,cream,breadT6cream,bread,milk,teamilkmilkmilkmilkmilkmilk的支持计数为5假设最小支持计数为3。2023/1/1577北京林业大学信息学院第一次扫描数据库,找出频繁1-项集项目支持计数milk5cream4tea4bread3cake2beer1频繁1项集2023/1/1578北京林业大学信息学院第二次扫描数据库,生成FP-树rootmilk:1cream:1tea:1bread:1T1

,cream,

,breadteamilk2023/1/1579北京林业大学信息学院第二次扫描数据库,生成FP-树rootmilk:1cream:1tea:1bread:1milk:2T2cake,milk2023/1/1580北京林业大学信息学院第二次扫描数据库,生成FP-树rootmilk:2cream:1tea:1bread:1milk:3tea:1T3milk,tea2023/1/1581北京林业大学信息学院第二次扫描数据库,生成FP-树rootmilk:3cream:1tea:1bread:1tea:1cream:1tea:1T4cream,tea2023/1/1582北京林业大学信息学院第二次扫描数据库,生成FP-树rootmilk:3cream:1tea:1bread:1tea:1cream:1tea:1milk:4cream:2bread:1T5milk,cream,bread2023/1/1583北京林业大学信息学院第二次扫描数据库,生成FP-树rootmilk:4cream:2tea:1bread:1tea:1cream:1tea:1bread:1milk:5cream:3tea:2bread:2T6milk,cream,tea,bread2023/1/1584北京林业大学信息学院第二次扫描数据库,生成FP-树rootmilk:5cream:3tea:2bread:2tea:1cream:1tea:1bread:1milk:5cream:4tea:4bread:3频繁项头表2023/1/1585北京林业大学信息学院根据FP-树,找出所有频繁项集rootmilk:5cream:3tea:2bread:2tea:1cream:1tea:1bread:1milk:5cream:4tea:4bread:3以包含bread的频繁项集为例。2023/1/1586北京林业大学信息学院根据FP-树,找出所有频繁项集rootmilk:2cream:2tea:2bread:2rootmilk:1cream:1bread:1rootmilk:3cream:3milk:3cream:3与bread:3有关的FP-树2023/1/1587北京林业大学信息学院根据FP-树,找出所有频繁项集rootmilk:3cream:3milk:3cream:3频繁集Lbread支持计数{bread}3{milk,bread}3{cream,bread}3{milk,cream,bread}3与bread:3有关的FP-树2023/1/1588北京林业大学信息学院第二次扫描数据库,生成FP-树第一次扫描数据库,找出频繁-1项集根据FP-树,找出所有频繁项集FP-增长算法的步骤1232023/1/1589北京林业大学信息学院由频繁项集产生强关联规则假设最小置信度是80%,以频繁项集{milk,bread}为例,可以产生两个规则:R1:milk=>bread(conf(R1)=3/5=60%)R2:bread=>milk(conf(R2)=3/3=100%)2023/1/1590北京林业大学信息学院由频繁项集产生强关联规则假设最小置信度是80%,以频繁项集{milk,bread}为例,可以产生两个规则:R1:milk=>bread(conf(R1)=3/5=60%)R2:bread=>milk(conf(R2)=3/3=100%)强关联规则数据仓库和数据挖掘91内容安排数据仓库简介数据挖掘简介数据预处理分类问题聚类问题关联规则统计分析2023/1/15数据仓库与数据挖掘92线性回归模型的参数估计多元线性回归模型线性回归分析就是根据因变量Y和自变量X对模型中的回归系数βj

(j=0,1,2,…,k)进行参数估计,进而利用线性回归模型进行预测和分析随机误差项2023/1/15数据仓库与数据挖掘93线性回归模型的参数估计将自变量X1,X2,…,Xk的具体取值代入线性回归模型中,可以得到假设回归系数的估计值为(j=0,1,2,…,k),则多元线性回归模型可以用如下所示的多元线性回归方程来表示将自变量X1,X2,…,Xk的具体取值代入上式

,得到yi的估计值2023/1/15数据仓库与数据挖掘94线性回归模型的参数估计回归系数的估计值(j=0,1,2,…,k)应使因变量的全部真实值yi与全部估计值的残差ei(i=1,2,…,n)的平方和最小,即

2023/1/15数据仓库与数据挖掘95线性回归模型的参数估计Q分别对(j=0,1,2,…,k)求一阶偏导数,并令其等于零,可以得到一个包含k+1个方程的方程组2023/1/15数据仓库与数据挖掘96线性回归模型的参数估计回归系数的估计值为(j=0,1,2,…,k)可以通过下述方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论