版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、A、线性回归 假设有数据有:R。其中m为训练集样本数,n为其中样本维度,y是样本的真实值。线性回归采用一个高维的线性函数来尽可能的 拟合所有的数据点,最简单的想法就是最小化函数值与真实值误差的平方(概 率解释-高斯分布加最大似然估计)。即有如下目标函数:0 1mill J (if 其中线性函数如下:/加(丁 j =枷圳;Tn旳hT; 卄k仇此71-W J构建好线性回归模型的目标函数之后,接下来就是求解目标函数的最优解, 即一个优化问题。 解目标函数。常用的梯度优化方法都可以拿来用,这里以梯度下降法来求&八=一 C岛(&) c亦 2 乂(號 z=itil= 4-6 士 0 切(d)/= I= C
2、 52 (屁(広)一0)a另外,线性回归也可以从最小二乘法的角度来看,下面先将样本表示向量化,y C,构成如下数据矩阵。r)(n 1) - fti那么目标函数向量化形式如下:可以看出目标函数是一个凸二次规划问题,其最优解在导数为0处取到。= xx XY = 03 0= (xR) XK值得注意的上式中存在计算矩阵的逆,一般来讲当样本数大于数据维度时, 矩阵可逆,可以采用最小二乘法求得目标函数的闭式解。当数据维度大于样本 数时,矩阵线性相关,不可逆。此时最小化目标函数解不唯一,且非常多,出 于这样一种情况,我们可以考虑奥卡姆剃刀准则来简化模型复杂度,使其不必 要的特征对应的w为0。所以引入正则项使
3、得模型中 W非0个数最少。当然, 岭回归,lasso回归的最根本的目的不是解决不可逆问题,而是防止过拟合。B、概率解释损失函数与最小二乘法采用最小化平方和的概率解释。假设模型预测值与真实值的误差为“,那么预测值加E)与真实值之间有如下关系:独立同分布均值为0,方差为C的高斯分布 4 Ng宀,所以有:根据中心极限定理,当一个事件与很多独立随机变量有关,该事件服从正 态分布。一般来说,连续值我们都倾向于假设服从正态分布。假设每个样本的,expEl误差即表示/满足以均值为,方差为的高斯分布。由最大似然估计有:max LfO 一 E(权;川匕站)一尹(射|W;0) 亠)=n(“订 |/;&)2b走JI
4、( (vH) MB)作;沪严-“左)?=1-&厂T nCTC / C口厶(F)= f I0归门时士(Wi= 1岭回归和Lasso回归岭回归的目标函数在一般的线性回归的基础上加入了正则项,在保证最佳 拟合误差的同时,使得参数尽可能的“简单”,使得模型的泛化能力强(即不 过分相信从训练数据中学到的知识)。正则项一般采用一,二范数,使得模型 更具有泛化性,同时可以解决线性回归中不可逆情况。2+ 入 11。其迭代优化函数如下:仇:二亿C 仏(J J 丹)”:W另外从最小二乘的角度来看,通过引入二范正则项,使其主对角线元素来强制 矩阵可逆。VrtJ(y) = X xT g XH 十入e = U= & =
5、 (AL 十 A/) XVLasso回归采用一范数来约束,使参数非零个数最少。而Lasso和岭回归的区别很好理解,在优化过程中,最优解为函数等值线与约束空间的交集,正 则项可以看作是约束空间。可以看出二范的约束空间是一个球形,而一范的约 束空间是一个方形,这也就是二范会得到很多参数接近0的值,而一范则尽可能非零参数最少。、值得注意的是线性模型的表示能力有限,但是并不一定表示线性模型只能 处理线性分布的数据。这里有两种常用的线性模型非线性化。对于上面的线性的坐标上是线性的,但是并函数的构造,我们可以看出模型在以不表示线性的模型就一定只能用于线性分布问题上。假如我们只有一个特征等,我们同样可以采用
6、线性模型,因为我们完J,其实这也是核方法以及PCA4“,而实际上回归值是全可以把输入空间映射到高维空间空间变换的一种思想,凡是对输入空间进行线性,非线性的变换,都是把输入 空间映射到特征空间的思想,所以只需要把非线性问题转化为线性问题即可。 另外一种是局部线性思想,即对每一个样本构建一个加权的线性模型。局部加权线性回归考虑到线性回归的表示能力有限,可能出现欠拟合现象。局部加权线性回 归为每一个待预测的点构建一个加权的线性模型。其加权的方式是根据预测点 与数据集中点的距离来为数据集中的点赋权重,当某点距离预测点较远时,其 权重较小,反之较大。由于这种权重的机制引入使得局部加权线性回归产生了 一种
7、局部分段拟合的效果。由于该方法对于每一个预测点构建一个加权线性模 型,都要重新计算与数据集中所有点的距离来确定权重值,进而确定针对该预 测点的线性模型,计算成本高,同时为了实现无参估计来计算权重,需要存储 整个数据集。局部加权线性回归,在线性回归基础上引入权重,其目标函数(下面的目标函 数是针对一个预测样本的)如下:IJ (闵=- 肿)(九 1 niiti J )一般选择下面的权重函数,权重函数选择并非因为其类似于高斯函数,而是根 据数据分布的特性,但权重函数的选取并不一定依赖于数据特性。exp其中是待预测的一个数据点。对于上面的目标函数,我们的目标同样是求解使得损失函数最小化,同样局部 加权
8、线性回归可以采用梯度的方法,也可以从最小二乘法的角度给出闭式解。 xwy = o3 0 二XIVY其中是对角矩阵,线性回归核心思想最小化平方误差,可以从最小化损失函数和最小二乘角度来 看,优化过程可以采用梯度方法和闭式解。在闭式解问题中需要注意矩阵可逆 问题。考虑到过拟合和欠拟合问题,有岭回归和lasso回归来防止过拟合,局部加权线性回归通过加权实现非线性表示。代码实战A、线性回归/*线性回归函数的实现,考虑一般的线性回归,最小平方和作为损失函数,则目标函数是一 个无约束的凸二次规划问题,由凸二次规划问题的极小值在导数为0处取到,且极小值为全局最小值,且有闭式解。根 据数学表达式实现矩阵之间的
9、运算求得参数 W。*/int regressio n(Matrix x,Matrix y)Matrix xT=x.tra nspo seMatrix();Matrix xTx=xTx.multsMatrix(xT,x);Matrix xTx_1=xTx.niMatrix();Matrix xTx_1xT=xTx_1xT.multsMatrix(xTx_1,xT);Matrix ws;ws=ws.multsMatrix(xTx_1xT,y);coutwsendl;ws.print();return 0;B 、岭回归和 Lasso 回归/* 下面的岭回归函数只是在一般的线性回归函数的基础上在对角线
10、上引入了岭的概念,不仅 有解决矩阵不可逆的线性,同样也有正则项的目的, 采用常用的二范数就得到了直接引入 lam 的形式。*/ int ridgeRegres(Matrix x,Matrix y,double lam)Matrix xT=x.transposeMatrix();Matrix xTx=xTx.multsMatrix(xT,x);Matrix denom(xTx.row,xTx.col,lam,diag);xTx=xTx.addMatrix(xTx,denom);Matrix xTx_1=xTx.niMatrix();Matrix xTx_1xT=xTx_1xT.multsMatr
11、ix(xTx_1,xT);Matrix ws=ws.multsMatrix(xTx_1xT,y);coutwsendl;ws.print();return 0;C局部加权线性回归/*/局*部加权线性回归是在线性回归的基础上对每一个测试样本(训练的时候就是每一个训练 样本)在其已有的样本进行一个加权拟合,权重的确定可以通过一个核来计算,常用的有高斯核(离测试样本越近,权重越大,反之 越小),这样对每一个测试样本就得到了不一样的权重向量,所以最后得出的拟合曲线不再是线性的了,这样就增加的模型的复杂度来更好 的拟合非线性数据。*/ /需要注意的是局部加权线性回归是对每一个样本进行权重计算,所以对于每
12、一个样本都 有一个权重w,所以下面的函数只是局部线性回归的一个主要辅助函数Matrix locWeightLineReg(Matrix test,Matrix x,Matrix y,const double &k)Matrix w(x.row,x.row,0,T);double temp=0;int i,j;/*根据测试样本点与整个样本的距离已经选择的核确定局部加权矩阵,采用对角线上为局部加权值*/for(i=0;ix.row;i+) temp=0;for(j=0;jx.col;j+) temp+=(test.data0j-x.dataij)*(test.data0j-x.dataij); w.dataii=exp(temp/-2.0*k*k);Matrix xT=x.transposeMatrix();Matrix wx=wx.multsMatrix(w,x);Matrix xTwx;xTwx=xTwx.multsMatrix(xT,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幼儿园疾病防控安全管理办法
- 澳门春节- 过年文化
- 医疗旅游精准营销策略-洞察与解读
- 开放获取模式创新路径-洞察与解读
- 供应链波动与市场竞争动态-洞察与解读
- 宇宙暗能量研究-第1篇-洞察与解读
- 可编程照明控制策略-洞察与解读
- 2025 九年级道德与法治下册数字学习工具测评课件
- 2026年九州职业技术学院单招职业技能测试题库附参考答案详解(能力提升)
- 2026年云南能源职业技术学院单招综合素质考试题库及一套完整答案详解
- 江苏省无锡市2025-2026学年高三上学期期末考试英语试题(含答案)
- 山林共协议书范本
- 高考全国乙卷物理考试卷含解析及答案
- 2025化工安全事故案例
- 莫兰迪工作总结计划
- 2025年智能焊接机器人产业发展蓝皮书
- 中建总进度计划编排交流汇报
- 2025年四川省成都市中考英语真题(原卷版)
- DB43-T 2438-2022 党政机关治安反恐防范要求
- 介入治疗术前准备
- 市政道路监理质量评估报告
评论
0/150
提交评论