2025 高中信息技术数据与计算的 Lasso 回归算法高端实例课件_第1页
2025 高中信息技术数据与计算的 Lasso 回归算法高端实例课件_第2页
2025 高中信息技术数据与计算的 Lasso 回归算法高端实例课件_第3页
2025 高中信息技术数据与计算的 Lasso 回归算法高端实例课件_第4页
2025 高中信息技术数据与计算的 Lasso 回归算法高端实例课件_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、课程导入:为何要在高中阶段学习Lasso回归?演讲人01课程导入:为何要在高中阶段学习Lasso回归?02Lasso回归的理论基础:从线性回归到正则化的跨越03高端实例解析:基于校园数据的学习影响因素筛选04Lasso回归的拓展应用与教学价值05课程总结:Lasso回归的核心价值与学习启示目录2025高中信息技术数据与计算的Lasso回归算法高端实例课件01课程导入:为何要在高中阶段学习Lasso回归?课程导入:为何要在高中阶段学习Lasso回归?作为深耕中学信息技术教育十余年的一线教师,我始终相信:技术工具的学习需紧扣“解决真实问题”的核心目标。当我们在“数据与计算”模块接触到线性回归后,常会遇到这样的困惑——如果自变量数量远超样本量(比如用50个特征预测20名学生的成绩),或特征间存在高度相关性(如用“数学成绩”“物理成绩”“逻辑思维测试分”共同预测“理综总分”),传统线性回归模型会出现什么问题?2022年指导学生参与“校园数据挖掘”项目时,有个小组用12个变量(包括日均学习时长、睡眠时长、手机使用时间、各科小测平均分等)预测月考总分,得到的回归系数波动极大:调整一个样本数据,某些变量的系数符号甚至会反转。这正是典型的“过拟合”与“多重共线性”问题。此时,Lasso(LeastAbsoluteShrinkageandSelectionOperator)回归作为线性回归的“进阶版”,凭借其独特的特征选择能力,成为解决这类问题的关键工具。02Lasso回归的理论基础:从线性回归到正则化的跨越1线性回归的局限性与正则化思想的引入我们已掌握线性回归的基本形式:[\hat{y}=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_px_p]其目标是最小化均方误差(MSE):[\min_{\beta}\frac{1}{N}\sum_{i=1}^N(y_i-\hat{y}_i)^2]但当特征数p接近或超过样本数N时,优化问题会从“有唯一解”变为“有无穷多解”,模型对训练数据过度拟合,预测新数据时表现极差。此时,正则化(Regularization)通过向目标函数添加“惩罚项”,约束模型复杂度,成为解决这一问题的核心思路。2Lasso回归的数学定义与核心特性Lasso回归的目标函数是在线性回归的MSE基础上,添加L1范数的惩罚项:[\min_{\beta}\frac{1}{N}\sum_{i=1}^N(y_i-\hat{y}i)^2+\lambda\sum{j=1}^p|\beta_j|]其中,λ(lambda)是正则化强度参数,λ越大,对系数的惩罚越重。这里的关键是L1惩罚项的特性——它会迫使部分系数β_j严格等于0,从而自动“剔除”对目标变量影响较小的特征。这与Ridge回归(使用L2范数惩罚,(\lambda\sum\beta_j^2))形成鲜明对比:Ridge只能让系数趋近于0,但无法彻底消除,因此不具备特征选择能力。3从几何视角理解L1与L2的差异Lasso的惩罚项是菱形(L1范数的等高线),其棱角更容易与MSE等高线在坐标轴上相切,导致某些系数为0。4这一几何特性,正是Lasso能实现“特征选择”与“模型简化”双重目标的根本原因。5为帮助大家直观理解,我们可以用二维空间中的等高线图辅助分析(此处可配合板书或PPT动态演示):1线性回归的最优解是MSE等高线与系数空间的切点;2Ridge的惩罚项是圆形(L2范数的等高线),与MSE等高线的切点通常不会落在坐标轴上(即系数不会为0);303高端实例解析:基于校园数据的学习影响因素筛选1问题背景与数据说明本次实例选取某高中高二年级120名学生的期末数据,目标是通过Lasso回归筛选影响“数学总分”的关键变量。原始特征包括:基础特征:性别、入学数学成绩(中考分);过程特征:日均自习时长、周作业完成率、课堂互动次数、错题本使用频率(1-5分);能力特征:逻辑推理测试分、空间想象测试分、计算速度测试分;环境特征:班级数学平均分、家庭辅导时长(小时/周)。共11个自变量(p=11),样本量N=120,虽未达到“高维小样本”极端情况,但特征间存在明显相关性(如“逻辑推理测试分”与“空间想象测试分”的相关系数r=0.72),适合用Lasso验证其特征选择效果。2数据预处理:从原始数据到可用数据的转化数据预处理是建模的基石,具体步骤如下:2数据预处理:从原始数据到可用数据的转化2.1数据清洗缺失值处理:发现“家庭辅导时长”有8个缺失值(占比6.7%),因该变量可能与家庭环境相关,不宜直接删除样本,故采用“均值填补法”(该班平均家庭辅导时长为2.3小时/周);异常值检测:通过箱线图观察“日均自习时长”,发现有3个样本值超过10小时(该年级正常范围为3-8小时),经核实为记录错误,修正为班级均值+1个标准差(5.8小时)。2数据预处理:从原始数据到可用数据的转化2.2特征标准化010203由于Lasso对特征的量纲敏感(如“课堂互动次数”是0-20的整数,“入学数学成绩”是0-120的分数),需将所有连续型变量进行Z-score标准化:[x_{ij}^{'}=\frac{x_{ij}-\mu_j}{\sigma_j}]其中,(\mu_j)是第j个特征的均值,(\sigma_j)是标准差。性别(二分类变量)采用0-1编码(男=0,女=1)。2数据预处理:从原始数据到可用数据的转化2.3相关性初步分析通过计算皮尔逊相关系数矩阵(表1),发现“逻辑推理测试分”与“数学总分”的r=0.68(强正相关),“家庭辅导时长”的r=0.12(弱正相关),“错题本使用频率”的r=0.53(中等正相关)。但传统相关分析无法处理多重共线性问题(如“逻辑推理”与“空间想象”的r=0.72),这正是Lasso的用武之地。3模型训练与调参:从理论到代码的实践3.1工具选择与代码框架本次使用Python的scikit-learn库实现Lasso回归,核心代码如下(配合注释讲解):3模型训练与调参:从理论到代码的实践importpandasaspdfromsklearn.linear_modelimportLassoCVfromsklearn.preprocessingimportStandardScalerfromsklearn.model_selectionimporttrain_test_split读取数据并划分特征与目标data=pd.read_excel("math_score_data.xlsx")X=data.drop("数学总分",axis=1)3模型训练与调参:从理论到代码的实践importpandasaspdy=data["数学总分"]划分训练集与测试集(7:3)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)标准化处理(仅用训练集的均值和标准差)scaler=StandardScaler()X_train_scaled=scaler.fit_transform(X_train)X_test_scaled=scaler.transform(X_test)3模型训练与调参:从理论到代码的实践importpandasaspd使用LassoCV自动选择最优lambda(10折交叉验证)lasso=LassoCV(alphas=None,cv=10,max_iter=10000)lasso.fit(X_train_scaled,y_train)输出最优lambda和系数print(f"最优lambda值:{lasso.alpha_}")print(pd.DataFrame({"特征":X.columns,"系数":lasso.coef_}))3模型训练与调参:从理论到代码的实践3.2关键参数解读LassoCV:内置交叉验证功能,自动选择最优λ值(通过10折交叉验证最小化MSE);1alphas=None:让算法自动生成候选λ值(默认生成100个从大到小的λ);2max_iter=10000:设置最大迭代次数,确保模型收敛(尤其当λ较小时,优化过程可能较慢)。34结果分析:从系数矩阵到业务解读运行代码后,得到以下关键结果(表2):|特征|系数|是否保留(系数≠0)||---------------------|------------|--------------------||性别|0.0|否||入学数学成绩|0.42|是||日均自习时长|0.28|是||周作业完成率|0.0|否||课堂互动次数|0.19|是||错题本使用频率|0.0|否|4结果分析:从系数矩阵到业务解读|逻辑推理测试分|0.35|是||空间想象测试分|0.0|否||计算速度测试分|0.0|否||班级数学平均分|0.21|是||家庭辅导时长|0.0|否|4结果分析:从系数矩阵到业务解读4.1特征选择效果11个特征中,仅5个保留(入学成绩、自习时长、课堂互动、逻辑推理、班级平均分),其余6个系数被压缩为0。这验证了Lasso的“稀疏性”特点——通过L1惩罚,自动剔除了冗余或影响较小的变量。4结果分析:从系数矩阵到业务解读4.2业务意义解读01“性别”系数为0:说明在控制其他变量后,性别对数学成绩无显著影响,打破了“男生数学更强”的刻板印象;03“班级数学平均分”保留:体现“同伴效应”,班级整体水平对个人成绩有正向影响;04“家庭辅导时长”被剔除:可能因样本中多数学生辅导时长较短(均值2.3小时),或辅导质量比时长更重要。02“逻辑推理测试分”保留而“空间想象”被剔除:可能因高中数学更依赖逻辑推导(如立体几何也需逻辑分析),而非单纯空间想象;4结果分析:从系数矩阵到业务解读4.3模型性能验证通过测试集计算R²(决定系数)为0.82,显著高于普通线性回归的0.75(普通线性回归因多重共线性,R²虚高但稳定性差)。这说明Lasso在简化模型的同时,提升了预测的泛化能力。04Lasso回归的拓展应用与教学价值1实际场景中的应用场景Lasso的特征选择能力使其在以下场景中表现突出:金融风控:用户行为数据中,数百个特征预测违约风险,Lasso可降低模型复杂度并提升解释性;生物信息学:基因表达数据中,数万个基因(特征)预测某种疾病,Lasso可筛选关键致病基因;教育评估:如本例中的学习影响因素分析,帮助教师聚焦关键教学变量。2高中阶段的教学意义1知识衔接:Lasso是“数据与计算”模块中“模型优化”的典型案例,衔接线性回归、正则化、特征工程等知识点;2思维培养:通过“问题-建模-验证-解读”的完整流程,培养学生的计算思维与数据意识;3实践价值:学生可将其应用于研究性学习(如“影响校园植物生长的环境因素”“短视频使用时长的影响变量”),真正实现“用技术解决真实问题”。05课程总结:Lasso回归的核心价值与学习启示课程总结:Lasso回归的核心价值与学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论