版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
案例5-1:基于同源寻踪lasso的组变量选择方法及其在光谱数据中的应用目录12案例背景理论和算法数据和软件实证分析结构与讨论3案例小结4501案例背景1高维数据建模中,变量选择已成为流行的建模方法,许多不同的变量选择技术和方法被开发出来。变量选择方法2经典的惩罚方法有统计量、AIC准则和BIC准则等。其中最重要的一类是所谓的惩罚方法或是正则化方法。惩罚方法
岭回归岭回归能够避免高的计算花费和结果不稳定等问题,在统计学家中被普遍使用,但不能够提供稀疏模型。桥回归桥回归将惩罚回归和变量选择统一在一个框架中,著名的变量选择方法,lasso可认为是桥回归惩罚的一个特例。
优点(1)它往往从高相关的变量中任意地选择其中一个变量;(2)它至多只能选择和样本数相等的变量数。为了改进LASSO的这两个缺点,学者们先后提出了弹性网(EN)方法、groupLASSO、gLars和gRidge方法。缺点LASSO的优缺点研究现状01Ke、Fan和Wu(2015)提出了基于回归系数同源性来对变量进行聚类。02Ke、Li和Zhang(2016)基于回归系数的同源性发展了一种探索面板数据中组结构的新方法。03Wang、Philips和Su(2016)等提出了一种名为Panel-CARDS的方法用于研究面板数据中参数的组结构,Panel-CARDS可被认为是CARDS(回归中数据驱动的聚类算法)的一种推广。对于一些本身就含有自然次序的数据(如近红外光谱数据、质谱数据等),相邻的变量往往是高相关的并包含着相似的信息,从而它们的回归系数应该相近。基于这些事实,本案例提出一种新的同时寻找数据同源性和稀疏性的方法—有序同源寻踪LASSO(OHPL)。OHPL的主要思想是:首先利用预先估计的回归系数信息和变量的次序信息去构造组,接着根据相关性提取每一个组的代表元,然后利用惩罚方法(如LASSO、thresholdLASSO等)作用于这些代表元,最后对保留的代表元及其相应的组建立PLS模型。02理论和算法(1)LASSO(1)LASSO(2)Elastic-Net(2)Elastic-Net(3)FusedLASSO(4)SPLS(SparsePLS)(5)CARDS(5)CARDS(5)CARDS(5)CARDS(6)OHPL
(6)OHPL03数据和软件(1)啤酒近红外光谱数据集石英池厚度啤酒样本在30mm厚的石英池中进行测量,确保了光谱测量的准确性和稳定性。数据集包含60个未稀释的脱气啤酒样本,每个样本具有特定的光谱特性。光谱波长范围每个光谱的波长范围在1100-2250nm之间,采样间隔为2nm,每个波长含有576个波长点。数据划分数据被随机划分为70%的训练集和30%的测试集,确保了数据的均衡性和模型的泛化能力。感兴趣的分析性质最初的提取浓度被选定为感兴趣的分析性质,用于后续的数据分析和模型训练。啤酒样本数量(2)小麦蛋白近红光谱外数据集分析性质数据集包含水份和蛋白质含量两个分析性质,其中蛋白质含量是我们感兴趣的分析性质。样本分布随机将70%的样本(70个)分为训练集,30%的样本(30个)作为独立测试集。数据集信息包含100个小麦样本,光谱波长范围1100-2500nm,每2nm取一个波长点,共701个波长点,即变量数为701。(3)土壤近红外光谱数据集数据集信息土壤近红外光谱数据集包含108个样本,每个光谱由近红外分光光度计和荧光激光发射矩阵测得,波长范围为400-2500nm,波长点的采样间隔为2nm,所以共1050个波长点。设计矩阵选择选择1100-2500nm区间中700个波长点作为设计矩阵,土壤有机物是我们感兴趣的分析性质,更多细节请参见原文献(Rinnan&Rinnan,2007)。样本划分随机地将样本划分为训练集(70%)和测试集(30%),以确保模型的稳定性和泛化能力,为后续的模型建立提供准确的数据支撑。(4)计算软件编程语言与工具案例中的代码和实验是在R语言平台上编写和进行的,R语言是一种开源的统计分析语言,广泛应用于数据分析和建模。PLS模型拟合pls包用于拟合PLS模型,glmnet包用于lasso和EN的建模,genlasso包用来拟合fusedlasso模型,spls包用来建立sparsePLS模型。04实证分析结果与讨论(1)啤酒近红外光谱数据集根据表5-1-1能够发现,5种变量选择方法都比利用全部变量的PLS具有更高的预测性能。(1)啤酒近红外光谱数据集(1)啤酒近红外光谱数据集LASSO和EN选择的变量相似,但是LASSO选择的变量更加离散,而EN相对更加聚合。在这个数据上,FusedLASSO一共选择了9个波段,SparsePLS选择了两个波段,OHPL选择的组和SparsePLS基本重合,但是OHPL只选择了一个组,大概坐落在1172~1352nm,这个波段对应的是O-H伸缩振动的一倍频率。根据OHPL的预测性能和选取的波长点可以发现,在这个数据上,相比较于其他的高性能方法,OHPL具有更好的预测能力和发现重要变量的能力图5-1-1啤酒数据光谱图以及不同方法变量选择的结果图(2)小麦蛋白近红光谱数据集(2)小麦蛋白近红光谱数据集(2)小麦蛋白近红光谱数据集SparsePLS选择了最多的变量数,而LASSO则选择了最少的。EN和LASSO选择的变量相似,但是EN选择的变量更加连续。在这个数据集上,FusedLASSO选择了7个波段,SparsePLS选择了两个波段,而OHPL只是选择了1100~1300nm波段,这些有信息的变量分布在这个比较长的波段,其与蛋白质的复杂结构相一致。这个波段中包含以下几个化学结构:C-H三级倍频(850~865nm)、C-H二级倍频(接近888nm)、O-H二级倍频(972~988nm)、N-H二级倍频(接近1012nm)和它们的相互作用。图5-1-2小麦蛋白数据光谱图以及不同方法变量选择的结果图(3)土壤近红外光谱数据集根据表5-1-3可以发现,OHPL获得了最小的RMSEP值。所有方法的预测精度的秩序为:OHPL>
SparsePLS>PLS>FusedLASSO>
LASSO>
EN。在这个数据集上,LASSO有着最大的预测标准差。这可能是由于lasso在进行变量选择时忽略了高相关变量之间的组结构。而在这5种变量选择方法中,OHPL的预测方差最小。其原因可能是由于OHPL考虑了数据的同源性,它利用回归系数的同源性来构造变量组。这样不仅克服了LASSO的缺点,而且极大地提升了LASSO的预测能力。(3)土壤近红外光谱数据集图5-1-3土壤数据光谱图以及不同方法变量选择的结果图(3)土壤近红外光谱数据集
(3)土壤近红外光谱数据集
(4)敏感性分析
(4)敏感性分析图5-1-5三个参数在啤酒数据上的敏感性分析图(4)敏感性分析图5-1-6三个参数在小麦蛋白数据上的敏感性分析图(4)敏感性分析图5-1-7三个参数在土壤数据上的敏感性分析图(4)参数敏感性分析
0102
(4)参数敏感性分析
0305案例小结变量选择OHPL利用回归系数的同源性来构造变量组,从
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022防止返贫动态监测信息员专项认证 真题+模考+考点全套备考资料
- 2025-2026学年对拼音教学教案
- 2025-2026学年手绘眉毛教案
- 8.6 巴西 教学设计-2025-2026学年七年级地理下学期湘教版
- 2022事业单位联考笔试真题易错点梳理附答案推导过程
- 2025至2030中国远程办公市场运行分析及协作工具与投资策略研究报告
- 2026年个人年终述职报告工作态度优化方案设计
- 2026年劳动合同范本签订注意事项详解指南详解指南详解指南指南指南
- 网络安全审计实战手册
- 城市历史文化保护与旅游融合发展考试及答案
- 2026年经济学专业知识考试试题及答案
- 2025年河北省邯郸市检察院书记员考试试题及答案
- 二次设备基本知识课件
- 陪玩内部制度规范要求
- 2026年时事政治测试题库100道附答案【满分必刷】
- 2026年销售精英招聘面试问题集
- 国家安全政治安全课件
- 义务教育道德与法治课程标准日常修订版(2022年版2025年修订)
- 击剑运动课件
- (2025年)政工师职称考试题库及答案
- 传媒行业编导岗位招聘考试试卷及答案
评论
0/150
提交评论