机器学习原理与应用课件 第4章 Logistic回归_第1页
机器学习原理与应用课件 第4章 Logistic回归_第2页
机器学习原理与应用课件 第4章 Logistic回归_第3页
机器学习原理与应用课件 第4章 Logistic回归_第4页
机器学习原理与应用课件 第4章 Logistic回归_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章

Logistic回归学习目标理解Logistic回归的基本原理掌握利用Scikit-learn库进行Logistic回归的基本方法掌握Scikit-learn库Logistic回归模块常用参数、属性与方法的使用123目录页4.1基本原理4.2应用实例Logistic回归4.1基本原理线性回归主要研究因变量(与待求解问题相关取值)和自变量(与待求解问题相关的特征)之间是否存在线性关系的问题。事实上,因变量与自变量之间的线性关系仅是为简化问题复杂度所做的假设或为求解复杂模型的初始探测,因而,线性回归在实际中不但不易获得较好的效果,而且不易直接应用于分类问题的求解或应用于分类问题求解时易导致不可靠的结果。4.1.1基本概念针对线性回归存在的问题,一个直接的解决方法是对因变量进行非线性映射以使其取值具有特定的含义;Logistic回归即是在线性回归的基础上通过Sigmoid函数变换而构成的分类方法。Sigmoid函数4.1.1基本概念

4.1.2数学模型与求解

4.1.2数学模型与求解

4.1.2数学模型与求解

4.1.2数学模型与求解

4.2应用实例Scikit-learn库包含Logistic回归模块及相关数据集线性回归模块的引入方式:fromsklearn.linear_modelimportLogisticRegression函数原型:LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)4.2.1分类可视化Logistic回归分析算法主要用于解决两类样本分类问题,当相关样本包含两个特征时,两类样本之间的分类边界实为二维坐标系下的一条直线;对样本与分类边界进行可视化有利于理解Logistic回归分析原理与性能。(1)问题描述首先构造特征数量及类别数据均为2的仿真数据,然后利用Logistic回归模型实现样本的预测与两类样本分类界线的可视化(2)编程实现见4.2.1分类可视化.py4.2.1分类可视化(3)结果分析以上代码运行结果如下。预测精度:0.944.2.2鸢尾花识别根据植物的特征对其所属类别进行识别有助于提高人们对植物的认识或辅助研究者对植物特征及其类别之间的相关性进行分析。(1)问题描述Scikit-learn库中的鸢尾花数据集包含三种类别,选择前两类并利用Logistic回归算法完成以下实验:①对鸢尾花样本进行分类并求取相应模型的精度。②对比L1正则化与L2正则化在C值为0.02时模型参数变化及预测精度。(2)编程实现见4.2.2鸢尾花识别.py4.2.2鸢尾花识别(3)运行结果数据基本信息:(100,4);Class_1:50;Class_2:50特征名称:['sepallength(cm)','sepalwidth(cm)','petallength(cm)','petalwidth(cm)']前10个样本的预测概率:[[0.959253480.04074652][0.004738790.99526121][0.980644550.01935545][0.009669360.99033064][0.009378430.99062157][0.124893580.87510642][0.983289260.01671074][0.006001180.99399882]

[0.004916330.99508367][0.023464010.97653599]]前10个样本的预测概率:[0101110111]前10个样本的预测精度:1.0L1正则化系数:[[0.0.0.078426570.]]非零L1正则化系数:[1]L2正则化系数:[[-0.08598023-0.360591510.565874290.2397033]]非零L2正则化系数:[4]4.2.2鸢尾花识别(3)运行结果Logistic回归算法既可用于两类分类问题的求解,也可用于预测事件发生的概率;在此例中,其预测了样本所属两类别的概率并从中选择最大者作为最终预测的类别,精度较高。L1与L2正则化相应的精度对比4.2.3乳腺癌预测(1)问题描述利用Scikit-learn库乳腺癌数据集(包含细胞厚度、细胞大小、形状等30个特征)完成以下实验:①对特征数据进行标准化处理。②利用L2正则化进行特征提取并对比特征提取前后的相应模型的预测精度。③确定最优C值并构建乳腺癌预测模型并评估其预测精度。(2)编程实现见4.2.3乳腺癌预测.py4.2.3乳腺癌预测(3)结果分析数据基本信息:(569,30);Cancer_No:357;Cancer_Yes:212特征名称:['meanradius''meantexture''meanperimeter''meanarea''meansmoothness''meancompactness''meanconcavity''meanconcavepoints''meansymmetry''meanfractaldimension''radiuserror''textureerror''perimetererror''areaerror''smoothnesserror''compactnesserror''concavityerror''concavepointserror''symmetryerror''fractaldimensionerror''worstradius''worsttexture''worstperimeter''worstarea''worstsmoothness''worstcompactness''worstconcavity''worstconcavepoints''worstsymmetry''worstfractaldimension']预测精度:0.9440559440559441特征提取前模型精度最高值及对应的C值:0.99058693244739760.51特征提取后模型精度最高值及对应的C值:0.9905315614617945.01训练数据相应的精度:0.9859357696566999测试数据相应的精度:0.95857142857142854.2.3乳腺癌预测(3)结果分析

本章小结Logistic回归将线性回归的输出通过非线性映射的方式变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论