数据挖掘与应用七1

上传人：a*** IP属地：北京上传时间：2020-07-08 格式：PPT 页数：57 大小：1.21MB 积分：15 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、1,第七讲预测性建模的一些基本方法,2,（一）判别分析,判别分析适用于连续型自变量、名义型因变量的情形。,例如，它可用于将贷款、信用卡、保险等申请划分为不同的风险类别。,3,（一）判别分析,判别分析使用贝叶斯定理对观测进行分类。设因变量Y一共有K个类别。对l=1,K，令l表示类别l的先验概率，它们满足。设对属于类别Y=l的观测，自变量X=(X1, ,Xp)的概率函数或概率密度函数为fl(x)。,根据贝叶斯公式:,对于自变量为x的观测，如果Pr(Y =l*X= x)达到最大 (等价于 l*fl*(x)达到最大)，那么把该观测归入第l*类。,4,（一）判别分析,最常用的判别分析方法为线性判别

2、分析和二次判别分析，它们都假设对每个类别l(l=1, ,K)，观测的自变量满足多元正态分布，即fl(x) MVN(l, l)，其中l和l分别是均值向量和协方差矩阵。,5,1、线性判别分析,线性判别分析: 假设所有类别的协方差矩阵都相等，即1= K= ；,可以推出：,6,因为A的值对所有类别都一样，所以察看lfl(x)等价于察看l(X)。,1、线性判别分析,根据贝叶斯定理，应该把自变量为x的观测归入l(X)值最大的类别。,l(X)是x的线性函数，它被称为线性判别方程。,类别l和l的边界由l(X) =l(X)给出，该边界对x是线性的。,7,2、二次判别分析,应该把自变量为x的观测归入l(x)值最

3、大的类别。,二次判别分析: 不假设各类别的协方差矩阵相等。容易推出，察看lfl(x)等价于察看下列二次判别方程:,类别l和类别l的边界由l(x) =l(x)给出，该边界是x的二次方程。,8,3、判别分析的参数估计,在实际应用中，需要使用训练数据集来估计l、l和l的值:,l由训练数据集中属于类别l的观测的比例来估计;,l由训练数据集中属于类别l的观测的样本均值向量来估计。,3、判别分析的参数估计,估计l ：,二次判别分析:l由Sl来估计(l=1, . ,K)。,10,判别分析,虽然线性判别分析和二次判别分析都基于很简单的多元正态假设，但是因为很多实际数据无法支持过于复杂的模型，所以这两种方法的实

4、际分类效果经常令人惊奇地好。,11,判别分析示例,假设work. wine数据集记录了对意大利某地区出产的178种葡萄酒进行化学分析所得的酒精度、苹果酸、灰度、灰分碱度等13种指标，这些葡萄酒分别酿自三种不同品种的葡萄(数据来源于/ml/datasets/wine)。,12,判别分析示例,数据集中的var1变量表示各种葡萄酒所使用的葡萄品种，使用线性判别分析对这些葡萄酒进行分类的SAS程序如下:,proc disc rim data=wine; /* 对wine数据集进行判别分析，缺省地进行线性判别分析，若要进行二次判别分析需加上选项“poo

5、l=no” */ class var1; /*指出var1为因变量*/ run;,13,判别分析示例,下表列出了线性判别分析对训练数据集的分类结果，分类完全正确。,14,（二）朴素贝叶斯分类算法,朴素贝叶斯(Naive Bayes)分类算法适用于因变量是名义变量而自变量类型没有限制的情形，在文本分类等领域有广泛的应用。它同样基于贝叶斯定理对观测进行分类。,15,（二）朴素贝叶斯分类算法,关键假设:给定类别Y的值，Xl, . ,Xp是条件独立的。,要估计fl(x) ，可以对每个自变量独立估计fl(xr) ，然后将它们相乘即可。,16,（二）朴素贝叶斯分类算法,若Xr是可能取值为1, , v的分

6、类变量，那么fl(xr= v) v=(1, ,V)可如下估计:,17,（二）朴素贝叶斯分类算法,如果训练数据集中没有满足条件的观测，相应的最大似然估计的值为0。,在这种情形下，对于任何一个新的观测，只要自变量Xr取值为v而不论其它变量取值如何，相应的的值就为0，根据贝叶斯公式估计的Pr(Y =l*X = x)的值就为0，该观测就不可能被归为第l类。,为了避免这种武断的情况，假想在每个类别内另有Vn0个训练观测，Xr的每种可能取值都分配n0个假想观测。可以得到一种更加“平滑”的估计:,18,（二）朴素贝叶斯分类算法,若Xr是连续变量，可以假设对于类别Y=l而言，Xr满足均值为lr、方差为lr

7、2的正态分布。,只要训练数据集中每个类别的观测数至少为两个，lr和lr2就可如下估计:,19,（三） k近邻法,k近邻法适用于自变量和因变量的类型没有特殊限制的情形。它的具体步骤如下:,定义距离d(x, x)度量自变量分别为x和x的两个观测之间的距离; 若要预测自变量为x*的观测的因变量Y的取值，对训练数据集中的所有观测xi，计算d(x*, xi)的值。选择训练数据集中与x*距离最小的k个观测。,使用这k个观测来预测x*对应的Y的取值: 若Y为离散变量，预测值为这k个观测的因变量中所占比例最大的值。若Y为连续变量，预测值为这k个观测的因变量的均值。,20,（三） k近邻法,选择k值: 根据修

8、正数据集评估不同k值对应的模型的性能，选择最优的k值。,因为k近邻法的模型由训练数据集中的所有观测给出，所以它也被称为基于记忆的推理(Memory-Based Reasoning)或基于实例的学习(Instance-Based Learning )。,21,k近邻法示例,假设SAS数据集work.car记录了22种品牌的159种车型的如下表所示的一些信息(数据来源于http:/archive.ics.uci.eda/ ml/datasets/Automobile)。,22,k近邻法示例,23,k近邻法示例,SAS软件的企业数据挖掘模块(Enterprise Miner)中，有一个基于记忆的推理

9、(Memory-Based Reasoning)节点可使用k近邻法预测price变量的值。,k近邻法示例,在数据流图中添加输入数据源节点（Input Data Source），在数据部分（ Data ）将数据集设为work.car，角色（Role）设为RAW,在变量部分（Variables）将price的模型角色（Model Role）设为目标（Target），将16个自变量的模型角色设为输入变量（ Input ），关闭输入数据源节点。在数据流图中添加数据分割（Data Partion），并使输入数据源节点指向该节点。打开数据分割点，在分割部分（Data Partion）将方法（Method

10、）设为简单随机抽样（Simple Random），在比例部分（Percentages）将训练数据集（Train）设为70%，修正数据集（Validation）设为30%，测试数据集（Test）设为0，关闭数据分割节点。在数据流图中添加基于记忆的推理节点，并使得数据分割节点指向该节点。打开基于记忆的推理节点，使用“工具”菜单下的“设置”，可以设定K的值，关闭该节点后运行，察看结果。,25,k近邻法示例,下表列出了不同k值对应的模型对训练数据集和修正数据集的均方根误差。要使修正数据集的均方根误差最小，应该选择k=2。,26,假设因变量来自正态分布: YN(,2),（四）线性模型,与自变量x=(x

11、1, ,xp)之间的关系为: =(+xT) 其中是截距项， =(1, , p)是对x的系数。,xr的值增加一个单位而其他自变量的值不变时，Y的平均值增加r(可能为负)。,27,设训练数据集为(xi, yi), i=1, ,N，其中xi被看作是给定的，而yi被看作是相互独立的随机变量Yi的观测值。,（四）线性模型,参数2可由最大似然法估计。,28,（五）广义线性模型,广义线性模型从两方面对线性模型进行扩展:,29,（五）广义线性模型,模型的随机成分:Y的分布，通常取指数族分布。指数族分布的概率函数或概率密度函数的形式为：,其中被称为刻度参数，不是所有指数族分布都有刻度参数，没有刻度参数时等价于

12、1。,30,（五）广义线性模型,令y=(y1, ,yN), 令=(1, ,N)，其中i为Yi的分布的位置参数。,在广义线性模型下，所有i都通过连接函数与同一组参数(,)有关。,再考虑对i没有任何限制的饱和模型，这时对每个i都独立估计，令表示饱和模型下对的最大似然估计。,31,（五）广义线性模型,令l(, y)表示关于和的对数似然函数，定义比率偏差 (Scaled Deviance)：,可以很容易证明比率偏差的形式为，其中与刻度参数无关，被称为偏差。线性模型中最小二乘法所最小化的量就是偏差的一个特例。,估计广义线性模型的参数时，通过最小化偏差来估计和，如果有刻度参数，再通过最大似然法估计

13、。,32,32,情形一:因变量为二值变量,可采用逻辑回归:,不失一般性，设因变量Y的取值为0或1。代表取值为1的概率。满足参数为的伯努力分布，没有刻度参数。使用逻辑(logit)连接函数，即：它表示Y取值为1的概率与Y取值为0的概率的比的对数。系数r可以如下解释:xr的值增加一个单位而其他自变量的值不变时，Y取值为1的概率与Y取值为0的概率的比是原来的exp(r)倍。,33,33,情形一:因变量为二值变量,对数似然函数为。在广义线性模型下，可得ui的表达式:,饱和模型对ui没有任何限制，这时对ui的最大似然估计为：,可得。,比率偏差和偏差都等于：,34,34,34,情形二:因变量

14、为名义变量,可采用多项逻辑回归:,令(l)表示Y取值为l的概率l=(1, ,K)，它们满足(l) + (K) =1。对l=1, ,K ，令：,因变量Y的取值为1, ,K，各取值之间是无序的。,那么(Y(l) , ,Y(K)满足参数为(1, (l), ,(K)的多项分布，没有刻度参数。,35,35,35,35,情形二:因变量为名义变量,将第K个类别作为参照类别，使用如下连接函数：,l表示Y取值为l的概率与Y取值为K的概率的比的对数。,令l =l+xTl(l=1, ,K-1)，系数lr可以如下解释：xr的值增加一个单位而其他自变量的值不变时，Y取值为l的概率与Y取值为K的概率的比是原来的exp(

15、lr)倍。,36,情形二:因变量为名义变量,对数似然函数为 ,其中i,l代表第i个观测的因变量取值为l的概率。在广义线性模型下，i,l的表达式通过连接函数可得:,37,情形二:因变量为名义变量,饱和模型对i,l没有任何限制，这时对i,l的最大似然估计为：,可得。,比率偏差和偏差都等于：,38,情形三:因变量为定序变量,可采用序次逻辑回归:,令(l)表示Y取值小于或等于l的概率(l=0,1, ,K)，它们满足0=(0) (1)(2)(K-1)(K)=1。对l=1, ,K，令,那么(Y(1) , ,Y(K)满足参数为 (1, (1),(2)-(1), , 1-(K-1)的多项分布，没有刻度参数。

16、,39,情形三:因变量为定序变量,使用如下连接函数:,l表示Y取值小于或等于l的概率与Y取值大于l的概率的比的对数，它们须满足12 K-1。,令l= l+xT(l=1, ,K一1)，其中不随l变化，而1 2 K-1 ，这样可以保证满足12 K-1。,系数r可以如下解释:xr的值增加一个单位而其他自变量的值不变时，对l=1, ,K-1, Y取值小于或等于l的概率与Y取值大于l的概率的比是原来的exp(r)倍。,40,情形三:因变量为定序变量,对数似然函数为 ,其中i,l代表第i个观测的因变量取值小于或等于l的概率。在广义线性模型下，对l=1, ,K-1，可得i,l的表达式:,41,情形三:因变量

17、为定序变量,饱和模型对i,l没有任何限制，i,l的最大似然估计为:,可得。,比率偏差和偏差都等于:,42,情形四:因变量为计数变量,可采用泊松回归:,因变量Y的取值为1,2, ,代表某事件发生的次数。代表Y的均值。设Y满足泊松分布，没有刻度参数。使用对数连接函数= log()。系数r可以如下解释:xr的值增加一个单位而其他自变量的值不变时，事件发生的平均次数是原来的exp(r)倍。,43,情形四:因变量为计数变量,对数似然函数为。在广义线性模型下，可得ui的表达式:,饱和模型对ui没有任何限制，这时对ui的最大似然估计为:,可得。,比率偏差和偏差都等于:,44,情形五:因变量为非负

18、连续变量,因变量Y的取值连续非负(例如，收入、销售额)。根据分布的特性可以使用不同的广义线性模型。,45,情形五:因变量为非负连续变量,情形五的第一种情况:如果Y的均值和自变量的关系是非线性的，而Y的方差随着均值的增加而增加，那么可以采用下列几种模型之一:,使用泊松回归，它假设Y的方差等于均值。,将Y进行对数转换作为新的因变量，再使用一般的线性回归;这种模型假设Y的变异系数(标准偏差与均值的比值) 为常数。这时，系数r如下解释:xr的值增加一个单位而其他自变量的值不变时，log(Y)的均值增加r 。,46,情形五:因变量为非负连续变量,使用对数线性伽玛模型，它也假设Y的变异系数为常数。设Y满

19、足均值为、形状参数为的伽玛分布，概率密度函数为:,刻度参数为=1/。,使用对数连接函数= log()。,系数r可以如下解释:xr的值增加一个单位而其他自变量的值不变时，Y的均值是原来的exp(r)倍。,47,情形五:因变量为非负连续变量,对数似然函数为:,在广义线性模型下，可得i的表达式:,48,情形五:因变量为非负连续变量,饱和模型对i没有任何限制，这时对i的最大似然估计为:,可得:,比率偏差为:,偏差为:,49,情形五:因变量为非负连续变量,情形五的第二种情况:如果Y和自变量的关系是非线性的，而Y的方差大致为常数，那么可以用下列模型:,假设Y满足均值为、方差为2的正态分布。刻度参数为= 2

20、。使用对数连接函数=log()。系数r可以如下解释:xr的值增加一个单位而其他自变量的值不变时，Y的均值是原来的exp(r)倍。,50,情形五:因变量为非负连续变量,对数似然函数为:,在广义线性模型下， i的表达式通过连接函数可得:,51,51,情形五:因变量为非负连续变量,饱和模型对i没有任何限制，这时对i的最大似然估计为:,可得:,比率偏差为:,偏差为:,52,情形六:因变量为取值可正可负的连续变量,因变量Y的取值连续且可正可负，假设Y满足均值为、方差为2的正态分布，刻度参数为= 2 。,可使用恒等连接函数，即= ，所得模型就是一般的线性模型。在这一模型下， i=+xiT。,比率偏差为:,偏差为:,53,参数检验,要检验广义线性模型的单个系数是否为0，可使用渐进的正态检验或卡方检验。,54,SAS的genmod和catmod过程,SAS中的genmod

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘与应用七1

文档简介

温馨提示

最新文档

评论

数据挖掘与应用七1

文档简介

温馨提示

最新文档

评论

相关文档