数据挖掘与机器学习(非参数统计)课件_第1页
数据挖掘与机器学习(非参数统计)课件_第2页
数据挖掘与机器学习(非参数统计)课件_第3页
数据挖掘与机器学习(非参数统计)课件_第4页
数据挖掘与机器学习(非参数统计)课件_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章

数据挖掘与机器学习1

第10章

数据挖掘与机器学习1概念:数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程2概念:数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(工业控制技术研究所数据挖掘概念数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。工业控制技术研究所数据挖掘概念数据挖掘--从大量数据中寻找其工业控制技术研究所数据挖掘的社会需求国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史工业控制技术研究所数据挖掘的社会需求国民经济和社会的信息化社工业控制技术研究所数据挖掘的社会需求数据挖掘数据库越来越大有价值的知识可怕的数据工业控制技术研究所数据挖掘的社会需求数据挖掘数据库越来越大有工业控制技术研究所数据挖掘的社会需求数据爆炸,知识贫乏

苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期工业控制技术研究所数据挖掘的社会需求数据爆炸,知识贫乏苦恼数据挖掘功能

数据挖掘任务有两类:第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。数据挖掘功能 数据挖掘任务有两类:工业控制技术研究所数据挖掘技术技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集异常检测工业控制技术研究所数据挖掘技术技术分类工业控制技术研究所数据挖掘系统的特征数据的特征知识的特征算法的特征矿山(数据)挖掘工具(算法)金子(知识)工业控制技术研究所数据挖掘系统的特征数据的特征矿山(数据)挖工业控制技术研究所数据的特征大容量POS数据(某个超市每天要处理高达2000万笔交易)卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据)互联网数据含噪音(不完全、不正确)异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)工业控制技术研究所数据的特征大容量工业控制技术研究所数据挖掘算法的特征构成数据挖掘算法的三要素模式记述语言:反映了算法可以发现什么样的知识模式评价:反映了什么样的模式可以称为知识模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索工业控制技术研究所数据挖掘算法的特征构成数据挖掘算法的三要素工业控制技术研究所数据挖掘的主要方法分类(Classification)聚类(Clustering)相关规则(AssociationRule)回归(Regression)其他工业控制技术研究所数据挖掘的主要方法分类(Classific工业控制技术研究所数据挖掘系统代特征数据挖掘算法集成分布计算模型数据模型第一代数据挖掘作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质/局部区域的计算机群集有些系统支持对象、文本、和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型工业控制技术研究所数据挖掘系统代特征数据挖掘算法集成分布计算工业控制技术研究所数据挖掘系统第一代数据挖掘系统

支持一个或少数几个数据挖掘算法,这些算法设计用来挖掘向量数据(vector-valueddata),这些数据模型在挖掘时候,一般一次性调进内存进行处理。许多这样的系统已经商业化。第二代数据挖掘系统

目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言(DMQL)增加系统的灵活性。

工业控制技术研究所数据挖掘系统第一代数据挖掘系统工业控制技术研究所数据挖掘系统第三代数据挖掘系统

第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别(firstclass)的支持。

第四代数据挖掘系统

第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据。工业控制技术研究所数据挖掘系统第三代数据挖掘系统数据挖掘的功能/算法/应用的比较数据挖掘的功能/算法/应用的比较数据挖掘常用方法的综合比较*数据挖掘常用方法的综合比较*数据挖掘的具体应用市场--购物蓝分析客户关系管理寻找潜在客户提高客户终生价值保持客户忠诚度行销活动规划预测金融市场方向保险欺诈侦察客户信用风险评级电话盗打NBA球员强弱分析信用卡可能呆帐预警星际星体分类数据挖掘的具体应用市场--购物蓝分析保险欺诈侦察数据挖掘的步骤*一种步骤划分方式理解资料与进行的工作获取相关知识与技术(Acquisition)整合与查核资料(Integrationandchecking)去除错误、不一致的资料(Datacleaning)模式与假设的演化(Modelandhypothesisdevelopment)实际数据挖掘工作测试与核查所分析的资料(Testingandverification)解释与运用(Interpretationanduse)数据挖掘的步骤*一种步骤划分方式工业控制技术研究所数据挖掘软件的发展第一代数据挖掘软件

CBA

新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测工业控制技术研究所数据挖掘软件的发展第一代数据挖掘软件工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件特点与数据库管理系统(DBMS)集成

支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性

能够挖掘大数据集、以及更复杂的数据集

通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性

典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件特点工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件DBMiner工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件工业控制技术研究所数据挖掘软件的发展第二代软件SASEnterpriseMiner工业控制技术研究所数据挖掘软件的发展第二代软件SASE工业控制技术研究所数据挖掘软件的发展第三代数据挖掘软件特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中

由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能

能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成

缺陷不能支持移动环境工业控制技术研究所数据挖掘软件的发展第三代数据挖掘软件特点工业控制技术研究所数据挖掘软件的发展第三代软件SPSSClementine以PMML的格式提供与预言模型系统的接口工业控制技术研究所数据挖掘软件的发展第三代软件SPSS工业控制技术研究所数据挖掘软件的发展第四代数据挖掘软件特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。

第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(UniversityofMarylandBaltimoreCounty)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。

工业控制技术研究所数据挖掘软件的发展第四代数据挖掘软件特点工业控制技术研究所数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷

第三、四代系统强调预测模型的使用和操作型环境的部署

第二代系统提供数据管理系统和数据挖掘系统之间的有效接口

第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口

目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如IBMIntelligentScoreService。第四代数据挖掘原型或商业系统尚未见报导

工业控制技术研究所数据挖掘软件的发展第一代系统与第二代相比因工业控制技术研究所数据挖掘软件的发展数据挖掘软件发展的三个阶段独立的数据挖掘软件横向的数据挖掘工具集纵向的数据挖掘解决方案工业控制技术研究所数据挖掘软件的发展数据挖掘软件发展的三个阶工业控制技术研究所数据挖掘软件的现状国内大部分处于科研阶段各大学和科研机构从事数据挖掘算法的研究国内著作的数据挖掘方面的书较少(翻译的有)数据挖掘讨论组()有一些公司在国外产品基础上开发的特定的应用IBMIntelligentMinerSASEnterpriseMiner自主知识产权的数据挖掘软件复旦德门()等工业控制技术研究所数据挖掘软件的现状国内大部分处于科研阶段工业控制技术研究所数据挖掘应用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees

倾向性分析

客户保留客户生命周期管理目标市场价格弹性分析

客户细分市场细分

倾向性分析客户保留目标市场欺诈检测关联分析Association

市场组合分析套装产品分析目录设计交叉销售工业控制技术研究所数据挖掘应用Debt<10%ofInc10.1分类一般问题定义:给定,为离散值,表示每个样例的分类,目标是找到一个函数,对于新观测点,能够用预测分类。10.1分类一般问题定义:工业控制技术研究所分类VS.预测分类:(与回归相比较)预测分类标号(或离散值)(特点)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型,比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测工业控制技术研究所分类VS.预测分类:(与回归相比较)工业控制技术研究所数据分类:两步过程第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定基本概念训练数据集:由为建立模型而被分析的数据元组形成训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分适应数据”的情况工业控制技术研究所数据分类:两步过程第一步,建立一个模型,描工业控制技术研究所第一步:建立模型训练数据集分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分类规则工业控制技术研究所第一步:建立模型训练数分类算法IFran工业控制技术研究所第二步:用模型进行分类分类规则测试集未知数据(Jeff,Professor,4)Tenured?工业控制技术研究所第二步:用模型进行分类分类规则测试集未知数损失函数损失函数评价法损失函数为,拟合函数的预测风险定义为

估计方法为

,由于数据联合分布未知,无法用E

计算。故用风险的矩

估计经验风险(代替预测风险)

36损失函数损失函数评价法36估计方法为

,如果,期望风险经验风险,当不满足,37估计方法为根据VladimirN.Vapnik(1995)估算:在时,38根据VladimirN.Vapnik(1995)估算:3以上给出了期望风险与经验风险之间的关系。结构风险最小化定义统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(StructuralRiskMinimization),即SRM准则。39以上给出了期望风险与经验风险之间的关系。39vc维VC维(Vapnik-ChervonenkisDimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学习理论定义的有关函数集学习性能的一个重要指标。40vc维40结构风险最小化(SRM)的

基本思想所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的VC维,可以使学习机器在整个样本集上的期望风险得到控制。传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的,因此,需要同时最小化经验风险和置信范围。机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。41结构风险最小化(SRM)的

基本思想所谓的结构风险最小化就是在有限训练样本下,学习机器的VC维越高则置信范围越大,真实风险与经验风险之间可能的差别越大.这就是为什么会出现过学习现象的原因。实现SRM的思路之一就是设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。SVM方法实际上就是这种思想的具体实现。42在有限训练样本下,学习机器的VC维越高则置信范围越大,真实风10.2Logistic回归普通回归是对连续变量依赖关系建模的过程。然而,分类在现实中经常发生。典型的是两类问题(0-1)变量。如发病,与不发病。4310.2Logistic回归普通回归是对连续变量依赖关系建44(一)基本概念和原理

1.应用背景

Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。44(一)基本概念和原理

1.应用背景

45

设资料中有一个因变量y、p个自变量x1,x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、Logistic回归模型的数据结构452、Logistic回归模型的数据结构46

表2Logistic回归模型的数据结构实验对象y

X1X2X3

….XP

1y1a11a12a13

…a1p

2y2a21a22a23

…a2p

3y3a31a32a33

…a3p

nynan1an2an3

…anp

━━━━━━━━━━━━━━━━━━其中:y取值是二值或多项分类46表2Logistic回归模型的数据结构

表3肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区

111030021014613000351………………30000261

注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。

数据挖掘与机器学习(非参数统计)课件

表4配对资料(1:1)对子号病例对照

x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,2

数据挖掘与机器学习(非参数统计)课件49Logistic回归

--Logistic回归与多重线性回归联系与区别联系:

用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。区别:

线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic回归因变量的取值仅有两个,不满足正态分布。49Logistic回归

--Logistic回归与多重线503、Logistic回归模型

令:y=1发病(阳性、死亡、治愈等)

y=0未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:(10.4)P(Y=1|X)=可知,不发病的概率为:

503、Logistic回归模型令:y=1

经数学变换得:定义:为Logistic变换,即:

经数学变换得:10.2.2

Logistic回归模型的极大似然估计Logistic回归模型是通过极大似然估计法得到的,应变量

取值为0和1,设事件发生记为y=1,否则为0,设自变量

,n组观测数据记为

,

。记

,则

的Logistic回归模型是:16十二月2022DataMining:ConceptsandTechniques5210.2.2

Logistic回归模型的极大似然估计Logi易知,

是均值为

的0-1型分布,其分布律为

,则

的似然函数和对数似然函数分别为:

16十二月2022DataMining:ConceptsandTechniques53易知,是均值为的0-1型分布,其分布律为12十代入

,得记

,选取

的估计

使得

达到极大,这就是Logistic回归模型的极大似然估,该过程的求解需要采用牛顿(Newton-Raphson)迭代法。

16十二月2022DataMining:ConceptsandTechniques5412十二月2022DataMining:Concep构造得分函数

,共k+1个非线性方程组,令其=0求解

,其中16十二月20225512十二月202255构造得分函数

,共k+1个非线性方程组,令其=0求解

,其中16十二月20225612十二月202256构造信息矩阵

,即

二阶导矩阵的负矩阵,其中很明显

,故

是一个对称矩阵。16十二月202257构造信息矩阵构造信息矩阵

,即

二阶导矩阵的负矩阵,其中很明显

,故

是一个对称矩阵。16十二月202258构造信息矩阵牛顿(Newton-Raphson)迭代法为16十二月202259牛顿(Newton-Raphson)迭代法为12十二月210.2.3

Logistic回归和线性判别函数LDA的比较LDA16十二月20226010.2.3

Logistic回归和线性判别函数LDA的牛顿(Newton-Raphson)迭代法16十二月202261牛顿(Newton-Raphson)迭代法12十二月206262用决策树归纳分类决策树一个类似于流程图的数结构内部节点表示一个属性上的测试每个分支代表一个测试的输出叶结点代表类或类分布决策树的生成包括两个过程树的建构首先所有的训练样本都在根结点基于所选的属性循环的划分样本树剪枝识别和删除哪些反应映噪声或孤立点的分支决策树的使用:为一个未知的样本分类在决策树上测试样本的属性值16十二月2022DataMining:ConceptsandTechniques63用决策树归纳分类决策树12十二月2022DataMin16十二月2022DataMining:ConceptsandTechniques64决策树归纳的算法基本算法以自顶向下递归的各个击破方式构造决策树首先,所有的训练样本都在根结点所有属性都是分类的(如果值是连续的,它们应预先被离散化)基于所选属性递归的划分样本在启发式或统计度量的基础上选择测试属性(例如,信息增益)停止划分的条件给定节点的所有样本属于同一个类没有剩余属性可以用来进一步划分样本-使用多数表决来分类叶节点没有剩余的样本12十二月2022DataMining:Concep

第10章

数据挖掘与机器学习65

第10章

数据挖掘与机器学习1概念:数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程66概念:数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(工业控制技术研究所数据挖掘概念数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。工业控制技术研究所数据挖掘概念数据挖掘--从大量数据中寻找其工业控制技术研究所数据挖掘的社会需求国民经济和社会的信息化社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史工业控制技术研究所数据挖掘的社会需求国民经济和社会的信息化社工业控制技术研究所数据挖掘的社会需求数据挖掘数据库越来越大有价值的知识可怕的数据工业控制技术研究所数据挖掘的社会需求数据挖掘数据库越来越大有工业控制技术研究所数据挖掘的社会需求数据爆炸,知识贫乏

苦恼:淹没在数据中;不能制定合适的决策!数据知识决策模式趋势事实关系模型关联规则序列目标市场资金分配贸易选择在哪儿做广告销售的地理位置金融经济政府POS.人口统计生命周期工业控制技术研究所数据挖掘的社会需求数据爆炸,知识贫乏苦恼数据挖掘功能

数据挖掘任务有两类:第一类是描述性挖掘任务:刻划数据库中数据的一般特性;第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。数据挖掘功能 数据挖掘任务有两类:工业控制技术研究所数据挖掘技术技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集异常检测工业控制技术研究所数据挖掘技术技术分类工业控制技术研究所数据挖掘系统的特征数据的特征知识的特征算法的特征矿山(数据)挖掘工具(算法)金子(知识)工业控制技术研究所数据挖掘系统的特征数据的特征矿山(数据)挖工业控制技术研究所数据的特征大容量POS数据(某个超市每天要处理高达2000万笔交易)卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据)互联网数据含噪音(不完全、不正确)异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)工业控制技术研究所数据的特征大容量工业控制技术研究所数据挖掘算法的特征构成数据挖掘算法的三要素模式记述语言:反映了算法可以发现什么样的知识模式评价:反映了什么样的模式可以称为知识模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索工业控制技术研究所数据挖掘算法的特征构成数据挖掘算法的三要素工业控制技术研究所数据挖掘的主要方法分类(Classification)聚类(Clustering)相关规则(AssociationRule)回归(Regression)其他工业控制技术研究所数据挖掘的主要方法分类(Classific工业控制技术研究所数据挖掘系统代特征数据挖掘算法集成分布计算模型数据模型第一代数据挖掘作为一个独立的应用支持一个或者多个算法独立的系统单个机器向量数据第二代和数据库以及数据仓库集成多个算法:能够挖掘一次不能放进内存的数据数据管理系统,包括数据库和数据仓库同质/局部区域的计算机群集有些系统支持对象、文本、和连续的媒体数据第三代和预言模型系统集成多个算法数据管理和预言模型系统intranet/extranet网络计算支持半结构化数据和web数据第四代和移动数据/各种计算数据联合多个算法数据管理、预言模型、移动系统移动和各种计算设备普遍存在的计算模型工业控制技术研究所数据挖掘系统代特征数据挖掘算法集成分布计算工业控制技术研究所数据挖掘系统第一代数据挖掘系统

支持一个或少数几个数据挖掘算法,这些算法设计用来挖掘向量数据(vector-valueddata),这些数据模型在挖掘时候,一般一次性调进内存进行处理。许多这样的系统已经商业化。第二代数据挖掘系统

目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言(DMQL)增加系统的灵活性。

工业控制技术研究所数据挖掘系统第一代数据挖掘系统工业控制技术研究所数据挖掘系统第三代数据挖掘系统

第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别(firstclass)的支持。

第四代数据挖掘系统

第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据。工业控制技术研究所数据挖掘系统第三代数据挖掘系统数据挖掘的功能/算法/应用的比较数据挖掘的功能/算法/应用的比较数据挖掘常用方法的综合比较*数据挖掘常用方法的综合比较*数据挖掘的具体应用市场--购物蓝分析客户关系管理寻找潜在客户提高客户终生价值保持客户忠诚度行销活动规划预测金融市场方向保险欺诈侦察客户信用风险评级电话盗打NBA球员强弱分析信用卡可能呆帐预警星际星体分类数据挖掘的具体应用市场--购物蓝分析保险欺诈侦察数据挖掘的步骤*一种步骤划分方式理解资料与进行的工作获取相关知识与技术(Acquisition)整合与查核资料(Integrationandchecking)去除错误、不一致的资料(Datacleaning)模式与假设的演化(Modelandhypothesisdevelopment)实际数据挖掘工作测试与核查所分析的资料(Testingandverification)解释与运用(Interpretationanduse)数据挖掘的步骤*一种步骤划分方式工业控制技术研究所数据挖掘软件的发展第一代数据挖掘软件

CBA

新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测工业控制技术研究所数据挖掘软件的发展第一代数据挖掘软件工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件特点与数据库管理系统(DBMS)集成

支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性

能够挖掘大数据集、以及更复杂的数据集

通过支持数据挖掘模式(dataminingschema)和数据挖掘查询语言增加系统的灵活性

典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件特点工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件DBMiner工业控制技术研究所数据挖掘软件的发展第二代数据挖掘软件工业控制技术研究所数据挖掘软件的发展第二代软件SASEnterpriseMiner工业控制技术研究所数据挖掘软件的发展第二代软件SASE工业控制技术研究所数据挖掘软件的发展第三代数据挖掘软件特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中

由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能

能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成

缺陷不能支持移动环境工业控制技术研究所数据挖掘软件的发展第三代数据挖掘软件特点工业控制技术研究所数据挖掘软件的发展第三代软件SPSSClementine以PMML的格式提供与预言模型系统的接口工业控制技术研究所数据挖掘软件的发展第三代软件SPSS工业控制技术研究所数据挖掘软件的发展第四代数据挖掘软件特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。

第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(UniversityofMarylandBaltimoreCounty)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。

工业控制技术研究所数据挖掘软件的发展第四代数据挖掘软件特点工业控制技术研究所数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷

第三、四代系统强调预测模型的使用和操作型环境的部署

第二代系统提供数据管理系统和数据挖掘系统之间的有效接口

第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口

目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如IBMIntelligentScoreService。第四代数据挖掘原型或商业系统尚未见报导

工业控制技术研究所数据挖掘软件的发展第一代系统与第二代相比因工业控制技术研究所数据挖掘软件的发展数据挖掘软件发展的三个阶段独立的数据挖掘软件横向的数据挖掘工具集纵向的数据挖掘解决方案工业控制技术研究所数据挖掘软件的发展数据挖掘软件发展的三个阶工业控制技术研究所数据挖掘软件的现状国内大部分处于科研阶段各大学和科研机构从事数据挖掘算法的研究国内著作的数据挖掘方面的书较少(翻译的有)数据挖掘讨论组()有一些公司在国外产品基础上开发的特定的应用IBMIntelligentMinerSASEnterpriseMiner自主知识产权的数据挖掘软件复旦德门()等工业控制技术研究所数据挖掘软件的现状国内大部分处于科研阶段工业控制技术研究所数据挖掘应用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神经网络NeuralNetworks聚类分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis决策树DecisionTrees

倾向性分析

客户保留客户生命周期管理目标市场价格弹性分析

客户细分市场细分

倾向性分析客户保留目标市场欺诈检测关联分析Association

市场组合分析套装产品分析目录设计交叉销售工业控制技术研究所数据挖掘应用Debt<10%ofInc10.1分类一般问题定义:给定,为离散值,表示每个样例的分类,目标是找到一个函数,对于新观测点,能够用预测分类。10.1分类一般问题定义:工业控制技术研究所分类VS.预测分类:(与回归相比较)预测分类标号(或离散值)(特点)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型,比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测工业控制技术研究所分类VS.预测分类:(与回归相比较)工业控制技术研究所数据分类:两步过程第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定基本概念训练数据集:由为建立模型而被分析的数据元组形成训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分适应数据”的情况工业控制技术研究所数据分类:两步过程第一步,建立一个模型,描工业控制技术研究所第一步:建立模型训练数据集分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分类规则工业控制技术研究所第一步:建立模型训练数分类算法IFran工业控制技术研究所第二步:用模型进行分类分类规则测试集未知数据(Jeff,Professor,4)Tenured?工业控制技术研究所第二步:用模型进行分类分类规则测试集未知数损失函数损失函数评价法损失函数为,拟合函数的预测风险定义为

估计方法为

,由于数据联合分布未知,无法用E

计算。故用风险的矩

估计经验风险(代替预测风险)

100损失函数损失函数评价法36估计方法为

,如果,期望风险经验风险,当不满足,101估计方法为根据VladimirN.Vapnik(1995)估算:在时,102根据VladimirN.Vapnik(1995)估算:3以上给出了期望风险与经验风险之间的关系。结构风险最小化定义统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(StructuralRiskMinimization),即SRM准则。103以上给出了期望风险与经验风险之间的关系。39vc维VC维(Vapnik-ChervonenkisDimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学习理论定义的有关函数集学习性能的一个重要指标。104vc维40结构风险最小化(SRM)的

基本思想所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的VC维,可以使学习机器在整个样本集上的期望风险得到控制。传统机器学习方法中普遍采用的经验风险最小化原则在样本数目有限时是不合理的,因此,需要同时最小化经验风险和置信范围。机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。105结构风险最小化(SRM)的

基本思想所谓的结构风险最小化就是在有限训练样本下,学习机器的VC维越高则置信范围越大,真实风险与经验风险之间可能的差别越大.这就是为什么会出现过学习现象的原因。实现SRM的思路之一就是设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0),然后只需选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。SVM方法实际上就是这种思想的具体实现。106在有限训练样本下,学习机器的VC维越高则置信范围越大,真实风10.2Logistic回归普通回归是对连续变量依赖关系建模的过程。然而,分类在现实中经常发生。典型的是两类问题(0-1)变量。如发病,与不发病。10710.2Logistic回归普通回归是对连续变量依赖关系建108(一)基本概念和原理

1.应用背景

Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。44(一)基本概念和原理

1.应用背景

109

设资料中有一个因变量y、p个自变量x1,x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、Logistic回归模型的数据结构452、Logistic回归模型的数据结构110

表2Logistic回归模型的数据结构实验对象y

X1X2X3

….XP

1y1a11a12a13

…a1p

2y2a21a22a23

…a2p

3y3a31a32a33

…a3p

nynan1an2an3

…anp

━━━━━━━━━━━━━━━━━━其中:y取值是二值或多项分类46表2Logistic回归模型的数据结构

表3肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区

111030021014613000351………………30000261

注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。

数据挖掘与机器学习(非参数统计)课件

表4配对资料(1:1)对子号病例对照

x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白质摄入量,取值:0,1,2,3X2不良饮食习惯,取值:0,1,2,3X3精神状况,取值:0,1,2

数据挖掘与机器学习(非参数统计)课件113Logistic回归

--Logistic回归与多重线性回归联系与区别联系:

用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。区别:

线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic回归因变量的取值仅有两个,不满足正态分布。49Logistic回归

--Logistic回归与多重线1143、Logistic回归模型

令:y=1发病(阳性、死亡、治愈等)

y=0未发病(阴性、生存、未治愈等)将发病的概率记为P,它与自变量x1,x2,…,xp之间的Logistic回归模型为:(10.4)P(Y=1|X)=可知,不发病的概率为:

503、Logistic回归模型令:y=1

经数学变换得:定义:为L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论