em课件第4章逻辑回归基础_第1页
em课件第4章逻辑回归基础_第2页
em课件第4章逻辑回归基础_第3页
em课件第4章逻辑回归基础_第4页
em课件第4章逻辑回归基础_第5页
免费预览已结束,剩余98页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第4章:模型概述:归14.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 变换输入4.6 分类输入4.7 多项式回归 ()回第4章:模型概述:归24.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 变换输入4.6 分类输入4.7 多项式回归 ()回模型概要 归新案例公式选择有用的输入顺序选择序列中的最佳模型优化复杂度.3回模型概要 归新案例公式选择有用的输入顺序选择序列中的最佳模型优化复杂度.4回线性回归公式y= w 0 + w 1 x1+ w 2 x2选择截距和参数估计,最小化:( y y)2ii训练数据.6线性回归公式y= w 0

2、 + w 1 x1+ w 2 x2选择截距和参数估计,最小化:( y y)2iitraining data.7Logistic 回归公式p()log= w0+ w1 x1+ w2 x21 p.8Logit 连结函数p()log= w0+ w1 x1 + w2 x21 plogit 连结函数把概率0,1变换为logit得分(, +) 。.9Logit连结函数p()log= w0+ w1 x1 + w2 x21 plogit 连结函数把概率0,1变换为logit得分(, +) 。.10Logit连结函数p()log= w0+ w1 x1+ w2 x2 = logit( p )1 pp = 11 +

3、 e-logit( p )估计,logit 等式解出p。为了得到.11Logit连结函数p()log= w0+ w1 x1+ w2 x2 = logit( p )1 pp = 11 + e-logit( p )估计,logit 等式解出p。为了得到.12Logit 连结函数.13图解 简单归每个x1 和 x2的点的颜色。你需要截距和参数估计。.140.700.600.500.40回图解 简单归你需要截距和参数估计。.15图解 简单归通过最大化:得到参数估计。对数似然函数.16图解 简单归通过最大化:得到参数估计。对数似然函数.170.700.600.500.40回图解 简单归使用最大似然估计,

4、公式对每个x1 和 x2 ,得到了一logit 得分。.180.700.600.500.40回194.01多项选择测验对于指定的点的logistic回归a. 0.243b. 0.56c. 黄色d. 视情况而定是什么?200.7000.600.50404.01多项选择测验 正确对于指定的点的logistic回归a. 0.243b. 0.56c. 黄色d. 视情况而定是什么?210.700.600.500 40归:公式以外管理缺失值解释模型或异常值的处理使用非数字输入说明非线性.22回归:公式以外管理缺失值.23回发现缺失值1234567891034282260584422263450180012

5、00100022002000? 12001500? 2100?Single Single Widowed Married?Single Married SingleDivorced620? 700? 350?Bad Good Good Bad Good Good Good Good BadGood24IDAgeeMaritalCredit BureauClass ScoreSus缺失值和回归建模问题1:训练数据中对应回归模型所用到的输入如含缺失值,该数据将被忽略。.25缺失值和回归建模问题1:训练数据中对应回归模型所用到的输入如含缺失值,该数据将被忽略。.26缺失值和回归建模结论:缺失值会显著

6、减少可用于回归建模的的训练数据量。.27缺失值和公式: (x1, x2) = (0.3, ? )问题2:据评分。公式不能对含缺失值的数.28缺失值和公式: (x1, x2) = (0.3, ? )问题2:据评分。公式不能对含缺失值的数.29缺失值和公式问题2:据评分。公式不能对含缺失值的数.30缺失值和公式问题2:据评分。公式不能对含缺失值的数.31缺失值问题缺失值问题问题1:训练数据中对应回归模型所用到的输入如含缺失值,该数据将被忽略。问题2:据评分。公式不能对含缺失值的数.32缺失值问题缺失值问题问题1:训练数据中对应回归模型所用到的输入如含缺失值,该数据将被忽略。问题2:据评分。公式不能

7、对含缺失值的数.33缺失值产生的原管理缺失值不适用的测量没有匹配的合并非公开的测量.34缺失值的补救措施管理缺失值模拟分布不适用的测量没有匹配的合并估计= f(x1, ,xp)xi非公开的测量.35处理原则缺失值少于20%连续变量使用均值或中位数填补分类变量不需要填补,单算一类即可,或者用众数填补缺失值在20%-50%填补方法同上另外每个有缺失值的变量生成一个指示哑变量,参与后续的建模缺失值在大于50%每个有缺失值的变量生成一个指示哑变量,参与后续的建模,原始变量不使用。36管理缺失值演示说明如何把填入模拟数据值和创建缺失值标志。37运行回归模型节点演示使用回归工具。38第4章:模型概述:归3

8、94.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 变换输入4.6 分类输入4.7 多项式回归 ()回模型概要 归选择有用的输入顺序选择40顺序选择 前向输入 p值引入临界值.41顺序选择 前向输入 p值引入临界值.42顺序选择 前向输入 p值引入临界值.43顺序选择 前向输入 p值引入临界值.44顺序选择 前向输入 p值引入临界值45顺序选择 后向输入 p值保留临界值.46顺序选择 后向输入 p值保留临界值.47顺序选择 后向输入 p值保留临界值.48顺序选择 后向输入 p值保留临界值.49顺序选择 后向输入 p值保留临界值.50顺序选择 后向输入 p值保留临

9、界值.51顺序选择 后向输入 p值保留临界值.52顺序选择 后向输入 p值保留临界值53顺序选择 逐步输入 p值引入临界值保留临界值.54顺序选择 逐步输入 p值引入临界值保留临界值.55顺序选择 逐步输入 p值引入临界值保留临界值.56顺序选择 逐步输入 p值引入临界值保留临界值.57顺序选择 逐步输入 p值引入临界值保留临界值.58顺序选择 逐步输入 p值引入临界值保留临界值.59顺序选择 逐步输入 p值引入临界值保留临界值60选择输入演示使用逐步选择法,为模型选择输入。61第4章:模型概述:归624.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 转换输入4

10、.6 分类输入4.7 多项式回归 ()回模型概要 归序列中的最佳模型优化复杂度.63模型拟合与复杂度模型拟合统计评估每个步骤校验训练123456.64选择有最佳验证拟合的模型模型拟合统计选择最简单的最优模型3.65优化复杂度演示对回归模型调整,得到在校验数据上的最佳性能。66第4章:模型概述:归674.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 变换输入4.6 分类输入4.7 多项式回归 ()回公式以外解释模型.68公式以外解释模型.69Logistic归公式p()log= w0+ w1 x1+ w2 x21 p.70回优比( Odds Ratios )和双倍

11、量(DoublingAmounts)p()log= w0+ w1 x1+ w2 x21 pxi1结果 odds exp(wi) 优比:输入的变化对应双倍量:输入变化多少可以使得发生比增大1倍?的发生比变化量。 odds 2.710.69wi解释回归模型演示使用优比解释回归模型。72第4章:模型概述:归734.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 变换输入4.6 分类输入4.7 多项式回归 ()回公式以外或异常值的处理.74极值分布和归原始输入真正相关标准回归标准回归真正相关.75极值分布和归正规化原始输入真正相关标准回归标准回归真正相关.76规范输入变换

12、原始输入正规化标准回归标准回归.77规范输入变换原始输入正规化标准回归正规化的估计标准回归正规化的估计.78规范输入变换原始输入正规化真正相关标准回归正规化的估计标准回归正规化的估计真正相关.79变量转换演示使用转换变量工具,对一组输入应用标准转换。80单变量离群值处理Age350030002500Fr e q u e n c y20001500100050000-520-2525-3030-3535-4040-4545-5050-5555-6060-6565-70150-20081学生化(标准化)用变量除以他们的标准误就到学生化数值建议的临界值:,用于观察值较x 少的数据集|SR|SR|23

13、zi i,用于观察值较多 的数据集82盖帽法处理-3+383多变量离群值84离群值!无监督分类基于的相似性进行聚类不要对原有变量进行改变其分布的转换.8585cluster 1cluster 2cluster 3cluster 1cluster聚类法确定离群值Iteration 1Iteration 2Iteration 3333.52.52.5222.51.51.5111.50.50.5000-2-1 5-1-0.50 x0.511.52-2-1 5-1-0.50 x0.511.52-2-1.5-1-0.50 x0 511 52Iteration 4Iteration 5Iteration

14、63332.52.52.52221.51.51.51110.50.50.5000-2-1 5-1-0.50 x0.511.52-2-1 5-1-0.50 x0.511.52-2-1 5-1-0.50 x0.511.5286yyyyy第4章:模型概述:归874.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 变换输入4.6 分类输入4.7 多项式回归 ()回公式以外使用非数字输入.88公式以外使用非数字输入.89非数字输入编码LevelDADBDCDDDEDFDGDHDIA B C D E F G HI10000000001000000000100000000010

15、0000000010000000001000000000100000000010000000001.90编码冗余LevelDADBDCDDDEDFDGDHDIA B C D E F G HI1000000000100000000010000000001000000000100000000010000000001000000000100000000001.91编码整理LevelDADBDCDDDEDFDGDHDI0000000000000000000000000000100000000000000000000000000I00.92编码整理LevelDABCDDBDCDDDEFDFDGHDHDI

16、111100000010000000001000000000100000000011000000001000000000110000000010000000001I93重编码分类输入演示使用替换工具进行输入水平合并。94第4章:模型概述:归954.1 概述4.2 选择回归输入4.3 优化回归复杂度4.4 解释回归模型4.5 变换输入4.6 分类输入4.7 多项式回归 ()回公式以外说明非线性.96公式以外说明非线性.97标准 Logistic归p1 plog ()= w0 + w1 x1 + w2 x298多项式 Logistic归p1 plog ()= w0 + w1 x1 + w2 x2+ w x 2 + wx 23142+ w5 x1 x2.99有选择的添加多项式回归项演示如何有选择的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论