版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计回归王成(副教授)计算机科学与技术学院主要内容线性回归线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归过拟合正则化Logistic回归有监督的机器学习过程输出 y(贷款申请人信息)(是否可以批准?)历史数据学习算法输出 y(是否可以批准?)学习算法(贷款申请人信息)不可知假设(Hypothesis),由学习得到,是f的近似机器学习的关键因素1. 模式存在2. 但无法用数学方式确定下来3. 有数据可供学习有监督的机器学习过程拟合数据点拟合拟合: 指已知某函数的若干离散函数值,通过调整该函数中若干待定系数,使得该函数与已知点集的差别最小如果待定函数是线性,就叫线性拟合或者线性回归分
2、类与回归分类问题: 目标变量是离散值回归问题: 目标变量是连续值(数值预测)“回归”是由达尔文的表兄弟弗朗西斯高尔顿爵士(Sir Francis Galton,1822-1911)发明的。高尔顿于1877年完成了第一次回归预测,目的是根据上一代豌豆种子(双亲)的尺寸预测下一代豌豆种子的尺寸。高尔顿在大量对象上应用了回归分析,包括人的身高。他注意到,如果双亲的高度比平均高度高,他们的子女也倾向于比平均高度高,但尚不及双亲,孩子的高度向着平均高度回退(回归)。尽管这个单词和数值预测没有任何关系,但这种研究方法仍被称为回归。给定一套房屋的信息,如何预测其价格?房屋信息: (面积=100平, 三室,
3、两卫)预测价格 = 0.8500 * 面积 + 0.0500 * 卧室数量 + 0.0015 * 卫生间数量线性回归设x0=1x1yx2这个方程称为回归方程,i称为回归系数或权重房屋价格与其面积及卧室数量的统计数据线性回归y(i)表示第i个训练实例对应的目标变量值,m为实例数量;常数1/2是为了方便后续计算;最小二乘(least squares)损失函数线性回归两条不同的拟合直线线性回归主要内容线性回归线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归过拟合正则化Logistic回归矩阵解法对于m*n矩阵A,定义关于A的函数 f 的梯度:例如,其中第(i, j)个元素为 矩阵解法n*
4、n矩阵A的迹(trace)定义为A的主对角上元素之和,记为 tr A若a是一实数,即一个1x1矩阵,则 tr a = a性质:迹可理解为一个应用在A上的函数 f(A) = tr(A)矩阵解法输入矩阵(m * (n+1)维):目标变量值向量(m维):在房屋价格预测例子中,x1为“面积”属性,x2为“卧室数量”属性,x1(1)为第1个样本的面积,x2(1)为第1个样本的卧室数量,x1(2)为第2个样本的面积,x2(2)为第2个样本的卧室数量,共m个样本,每个属性有n个属性在房屋价格预测例子中,y(1)为第1个样本的报价,y(2)为第2个样本的报价,共m个样本假设共有m个训练样本,每个样本有n个属性
5、矩阵解法矩阵解法为最小化 J,计算 J 的梯度X是m(n+1)维= 一个数矩阵解法若a为一实数,则 tr a = a矩阵解法矩阵解法矩阵解法主要内容线性回归线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归过拟合正则化Logistic回归最小二乘的概率解释为什么最小二乘代价函数J是一个合理的选择?最小二乘的概率解释假设目标变量和输入的关系可表示为:其中(i)表示线性模型与目标值的误差。例如样本的某属性和房价预测相关,但却没有被考虑进来;或随机噪音。最小二乘的概率解释假设误差(i)独立同分布(IID, Independent and Identical Distribution),并服
6、从正态分布:中心极限定理: 若一随机变量受大量微小独立的随机因素影响,其中每个个别随机变量对于总和的作用都是微小的,那么作为总和的随机变量的分布就会逼近于正态分布。因此,(i)的概率密度:最小二乘的概率解释给定输入矩阵X (每i行为第i个样本的特征向量)和参数,可得到似然(likelihood)函数:m为样本总数,(i)上标表示第(i)个样本最大似然法,也叫极大似然估计最小二乘的概率解释最小化最小二乘的概率解释基于前面的概率假设(IID,正态分布),最小二乘回归相当于寻找最大化似然函数的。因此,最小二乘回归可被证明是一种非常自然的选择。主要内容线性回归线性最小二乘问题的矩阵解法最小二乘的概率解
7、释局部加权线性回归过拟合正则化Logistic回归局部加权线性回归使用更多合适的特征,例如y=0+1x+2x2可能可以拟合得更好考虑对数据集进行线性拟合得到线性模型 y=0+1x数据点不在一条直线上,用线性模型拟合的并不好局部加权线性回归但也可能导致过拟合,例如上图为y=0+1x+.+5x5的拟合结果考虑对数据集进行线性拟合得到线性模型 y=0+1x数据点不在一条直线上,用线性模型拟合的并不好局部加权线性回归局部加权线性回归 (LWLR, Locally weighted linear regression):越靠近待预测点的训练样本,对预测结果的影响越大,越远离待预测点的训练样本,对预测结果
8、的影响越小。只关注位于待预测点附近的样本点(即“局部”的含义)给每个训练样本赋予一个权重w(i),训练样本点离待预测点越近,w(i)越趋于1训练样本点离待预测点越远,w(i)越趋于0局部加权线性回归直观的理解,局部加权线性回归在给定待预测点时,对其附近的点进行训练得到局部线性模型,并用于预测局部加权线性回归直观的理解,局部加权线性回归在给定待预测点时,对其附近的点进行训练得到局部线性模型,并用于预测局部加权线性回归直观的理解,局部加权线性回归在给定待预测点时,对其附近的点进行训练得到局部线性模型,并用于预测局部加权线性回归线性回归局部加权线性回归1. 求拟合参数以最小化2. 输出 Tx1. 求
9、拟合参数以最小化2. 输出 Tx权重向量权重的计算一种合适的权重计算公式为其中x为待预测点,x(i)为第i个样本点若x(i)离x较近,则w(i)趋于1若x(i)离x较远,则w(i)趋于0 xw(i)x(i)x(i)w(i)为波长参数,值越小,图形越尖权重的计算考虑到x为多维特征向量,w(i)的计算公式可改为局部加权线性回归优点:相比线性回归,特征选择的重要性不那么大;每次预测都要重新学习计算权值和参数,对数据的自适应能力更强;缺点:每次预测都要重新学习计算权值和参数,计算量大;线性回归中假设目标变量与特征呈线性关系如果假设不成立呢?主要内容线性回归线性最小二乘问题的矩阵解法最小二乘的概率解释局
10、部加权线性回归过拟合正则化Logistic回归过拟合h = 0 + 1xh = 0 + 1x + 2x2考虑线性回归中房价预测例子,x表示面积欠拟合 (under fitting)刚好高偏差 (high bias)局部加权线性回归考虑线性回归中房价预测例子,x表示面积h = 0 + 1x欠拟合 (under fitting)h = 0 + 1x + . + 5x5过拟合 (over fitting)高方差 (high variance)过拟合如果有很多特征,学习到的函数(假设, hypothesis)可能会对训练数据拟合的非常完美,但却无法准确地对新样本进行预测好的模型应能对训练集之外的样本进
11、行很好的预测需要权衡偏差方差分解期望预测误差:m为样本数量,(i)上标表示第i个样本推导(略)可得期望预测误差 = 偏差2 + 方差 + 噪音偏差方差分解期望预测误差 = 偏差2 + 方差 + 噪音使用不同的训练数据训练得到模型,重复多次偏差度量预测值和真实值的平均偏离程度直观理解欠拟合 高偏差过拟合 低偏差偏差方差分解期望预测误差 = 偏差2 + 方差 + 噪音使用不同的训练数据训练得到模型,重复多次方差度量模型对一个样本预测结果的差异程度直观理解欠拟合:稍有不同的训练数据训练得到的模型预测结果相似过拟合:稍有不同的训练数据训练得到的模型预测结果差异很大欠拟合f(x)h(x)高偏差f(x):
12、 真实函数,h(x): 拟合函数欠拟合f(x)h(x)f(x): 真实函数,h(x): 拟合函数欠拟合f(x)h(x)h2(x)低方差f(x): 真实函数,h(x): 拟合函数过拟合f(x)h(x)f(x): 真实函数,h(x): 拟合函数过拟合, 低偏差f(x)h(x)低偏差f(x): 真实函数,h(x): 拟合函数过拟合, 高方差f(x)h(x)高方差h2(x)f(x): 真实函数,h(x): 拟合函数偏差方差权衡模型复杂度误差模型越复杂,偏差越小,方差越大;模型越简单,偏差越大,方差越小;主要内容线性回归线性最小二乘问题的矩阵解法最小二乘的概率解释局部加权线性回归过拟合正则化Logist
13、ic回归过拟合房价预测例子中,若使用很多的特征.x1 = 面积x2 = 楼层x3 = 房龄x4 = 卧室数量x5 = .x100如何解决过拟合?方案1:减少特征数量手工选择要保留的特征;使用算法来选择;方案2:正则化 (Regularization)保留所有特征,但是对特征进行惩罚(通过减少j的值)直观理解h = 0 + 1x + 2x2h = 0 + 1x + 2x2 + 3x3 + 4x4(过拟合)让3和4变小以惩罚x3和x4正则化的基本思路h = 0 + 1x + 2x2h = 0 + 1x + 2x2 + 3x3 + 4x4(过拟合)前面我们通过最小化损失函数J()来训练模型+ 100
14、032 + 1000423和4应很小最小化J()30,40正则化小的1, 2, ., n值 更简单的模型不容易过拟合按约定,不对0进行惩罚正则化 - 参数如果给设置一个很大的值会如何?1 02 0.n 0h(x) 0h(x)欠拟合正则化后的线性回归梯度下降j?未正则化时,和较小时,1- = 0.5 时,将邮件判定为正常邮件当 g(z) = 0.5h(x) 0.5推广到多类问题为每个类单独训练Logistic回归模型给定待分类实例,计算每个回归模型的输出,并取最大的例如,假设共有三个类A、B、C对这三个类分别训练并得到三个Logistic回归模型给定待分类实例,计算每个回归模型的输入假设输出分别
15、是:hA = 0.2, hB = 0.75, hC = 0.9则可将待分类实例归为C类这种方法有时也称为多响应线性回归(multiresponse linear regression)主要内容Logistic回归Logistic回归和搜索广告Logistic回归和搜索广告第一阶段以早期Overture和百度的广告系统为代表;按广告主出价高低来排名(谁给钱多先显示谁的广告);雅虎:出得起钱的公司都是好公司,不会伤害用户体验;事实上,出得起钱的公司都是卖假药的公司Logistic回归和搜索广告第二阶段Google广告系统通过预测哪个广告可能被点击,结合出价和点击率预估来决定广告的显示;雅虎和百度后来也学着Google的做法,即所谓的“Panama系统”和“凤巢系统”Logistic回归和搜索广告影响广告点击率的因素有很多,例如广告摆放位置、广告和搜索词的相关性、广告展现时间等用x1, x2, . xn来表示影响广告点击的n个因素,并用线性的方法将它们组合起来预测点击
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 口腔正畸学(中级357)专业实践能力卫生专业技术资格考试2024年自测试卷与参考答案
- 2026年贵州省六盘水市高职单招英语题库试题附答案
- 2025年广西壮族自治区崇左市初二学业水平地理生物会考考试试题及答案
- 2026年广西壮族自治区北海市中考语文试卷含答案
- 2025年广东省云浮市初二学业水平地生会考真题试卷(+答案)
- 转行后职业规划指南
- 第22课《礼记二则-虽有嘉肴》课件 -2025-2026学年统编版语文八年级下册
- 护理专业技能提升:掌握前沿护理技术的秘诀
- 2026年劳动合同续签流程与要点
- 2026版技术合作协议模板下载
- 绿色食品山楂生产技术操作规程
- 近五年重庆中考英语试题及答案2023
- 采血健康知识讲座
- 2022年北京海淀初一(下)期中英语试卷(教师版)
- 很好用的融资租赁测算表(可编辑版)
- 桥梁定期检查-桥梁经常检查与定期检查概论
- 2023年机动车检测站管理评审资料
- 加工中心编程精解
- 企业所得税政策(西部大开发+地方税收优惠)课件
- 六维力传感器的原理与设计演示文稿
- 驾驶员从业资格证电子版
评论
0/150
提交评论