《数据挖掘原理与应用 第2版 》课件 8.2回归分析-回归算法_第1页
《数据挖掘原理与应用 第2版 》课件 8.2回归分析-回归算法_第2页
《数据挖掘原理与应用 第2版 》课件 8.2回归分析-回归算法_第3页
《数据挖掘原理与应用 第2版 》课件 8.2回归分析-回归算法_第4页
《数据挖掘原理与应用 第2版 》课件 8.2回归分析-回归算法_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章回归分析回归算法回归分析算法过程根据数据,确定其中某些变量之间的定量关系式,建立数学模型并估计其中的未知参数;对模型关系式的可信程度进行检验;判断和选择自变量对因变量的影响关系中较为显著的自变量构建模型,剔除影响不显著的自变量,使模型反映最主要的控制因素。利用所求出的回归模型关系式对某一过程进行预测或控制。估计参数的常用方法是最小二乘法在确定影响显著性水平时,通常采用逐步回归、向前回归和向后回归等方法一元线性回归分析仅有一个自变量与一个因变量由因变量Y和自变量X之间的关系确定一条直线的方程,使得所有的数据点尽可能接近这条拟合的直线。3前提是,因变量Y和自变量X之间存在高度的正相关关系,且大致上可用一条直线表示一元线性回归分析4设y是一个可观测的随机变量,它受到一个非随机变量因素x和随机误差ε

的影响。若y

与x

有如下线性关系:

β0,β1为回归系数。也称β0为回归直线的截距,

β1为回归直线的斜率则定义y为因变量,x为自变量,称此y与x之间的函数关系表达式为一元线性回归模型。一元线性回归分析5【例】x=400

一元线性回归分析6最小二乘法一元线性回归分析7【例】一元线性回归分析8【例】一元线性回归分析9【例】多元线性回归分析多元线性回归是简单线性回归的推广,指的是多个因变量对多个自变量的回归。其中最常用的是只限于一个因变量但有多个自变量的情况,也叫多重回归。一般形式:10……多元线性回归分析【例】11

多元线性回归分析【例】12

非线性回归数据分析渐近回归模型二次曲线模型双曲线模型13非线性回归数据分析渐近回归模型14非线性回归数据分析二次曲线模型15非线性回归数据分析双曲线模型16Logistic回归不一样的回归分析因变量为分类型的变量很难找到非线性函数y=f(x)不符合线性回归分析的假设条件转换思路,分析因变量y的取值出现的概率p与自变量x之间的关系,即寻找一个连续函数p(x)。当x变化时,其对应的函数值p不超出[0,1]的范围Logisitc回归模型符合上述条件17Logistic回归18Logistic回归分析属于概率型非线性回归。假设在自变量x的作用下,因变量y为取值为1和0的二值变量,其发生概率为p,则可以表示成:则该事件不发生的概率为:Logistic回归19

Logistic回归20[例]WEKA:SimpleLogisticClassyes:no:Intercept5.57-5.57outlooksunny-0.650.65outlookovercast2.82-2.82temperature-0.020.02humidity-0.060.06windyFALSE1.38-1.38Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoLogistic回归21[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoplaynoünoüyesünoûyesüyesûyesünoüyesüyesünoûyesüyesünoüThreshold=0.5ü11û379%Logistic回归22[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoThreshold=?Positive=‘yes’Positive=‘no’Threshold=0.5642Threshold=0.5788ROCLogistic回归23[例]Logit(p)p(yes|X)Logit(p)p(no|X)-0.50.378-0.150.463-2.080.1111.430.8072.950.950-0.130.468-0.210.4480.210.5520.790.688-0.790.3120.070.517-0.070.4833.210.961-0.390.404-0.840.3020.190.5470.720.673-1.370.2030.650.657-0.650.343-0.780.3140.130.5321.550.8251.270.7813.650.975-0.830.304-1.310.2121.310.788outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoplaynoünoüyesünoûyesünoüyesünoüyesüyesünoûyesüyesünoüThreshold=0.57ü12û286%Logistic回归24[例]outlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoClass:nooutlooksunny6.4257outlookovercast-13.5922outlookrainy5.6562temperature0.0776humidity0.1556windyTRUE3.7317Intercept-22.234WEKA:LogisticLogit(p)p(yes|X)play-0.2820.430noü-4.40370.012noü19.73551.000yesü-0.06010.485noû2.58470.930yesü0.64180.655yesû20.74581.000yesü-0.82920.304noü3.29360.964yesü2.04150.885yesü-0.90370.288noû16.2351.000yesü21.60231.000yesü-3.09140.043noüLogistic回归25[例]SPSSClassno截距19.378outlookovercast-38.698outlookrainy.000temperature68-38.698temperature69-38.698temperature70-38.698temperature75-38.698Logit(p)p(yes|X)play19.3781.000noü19.3781.000noü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü19.3781.000noü-19.3200.000yesü19.3781.000noü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü-19.3200.000yesü19.3781.000noüoutlooktemperaturehumiditywindyplaysunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesrainy7096FALSEyesrainy6880FALSEyesrainy6570TRUEnoovercast6465TRUEyessunny7295FALSEnosunny6970FALSEyesrainy7580FALSEyessunny7570TRUEyesovercast7290TRUEyesovercast8175FALSEyesrainy7191TRUEnoLogistic回归26多元分类的情况无序多分类有序多分类香蕉、苹果、大鸭梨老虎、棒子、鸡…….优、良、中、差L、M、S…….Logistic回归无序多分类对于自变量x=(x1,x2,…,xm)和因变量y(假设y的类别取值为0,1,…,n-1),y取值为

k的概率可以表示为:27根据训练数据,可以建立回归模型,计算得出回归系数。对于未知分类实例,可以由公式计算出其各个分类的概率值,取概率最大的分类作为未知实例的类别。无序多分类[例]28“素材_无序Logistic回归数据.csv”WEKA:Logistic

Variableclass012x11.44896.8735-1.0137x2-4.7166-3.0751.5973x3-41.907-28.715-9.3459Intercept22.792517.21366.8179对实例数据x={x1=0.269264168,

x2=0.494347528,

x3=0.708105393},进行分类预测无序多分类[例]29

建立Logistic回归模型时,还应进行似然比检验,即检验放入或不放入自变量时,模型质量均一样(H0假设)。计算结果应得出P值小于0.05,拒绝原假设,也就是说明构建模型时放入的自变量具有有效性,模型构建有意义。对实例数据x={x1=0.269264168,

x2=0.494347528,

x3=0.708105393},进行分类预测WEKA:Logistic

Variableclass012x11.44896.8735-1.0137x2-4.7166-3.0751.5973x3-41.907-28.715-9.3459Intercept22.792517.21366.8179Logistic回归

30对于未知分类实例,可以由公式计算出其各个分类的概率值,取概率最大的分类作为未知实例的类别。有序多分类[例]31专家评议同行评价学生评价等级0.280.060.1000.090.280.190…………0.230.220.0300.170.120.1710.040.340.010…………0.120.380.0900.430.480.5510.310.400.5920.310.440.4210.440.500.4810.430.580.573…………将训练数据按照分类等级进行二元划分,按照y为y≥1:{0,1/2/3}y≥2:{0/1,2/3}y≥3:{0/1/2,3}三种方式进行划分,分别建立Logistic回归模型,求出回归系数。x={专家评议,同行评价,学生评价},所确定的有序等级为y

=0,1,2,3。“素材_教师评级数据.csv”有序多分类[例]x={专家评议,同行评价,学生评价},所确定的有序等级为y=0,1,2,3。32专家评议同行评价学生评价等级0.280.060.1000.090.280.190…………0.230.220.0300.170.120.1710.040.340.010…………0.120.380.0900.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论