数据基础与挖掘 8_第1页
数据基础与挖掘 8_第2页
数据基础与挖掘 8_第3页
数据基础与挖掘 8_第4页
数据基础与挖掘 8_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

演讲人:第八章回归分析目录CONTENTS1基本思想FundamentalConcept2主要模型MainTypesofRegressionModels3研发历程DevelopmentHistory目录CONTENTS目录CONTENTSFundamentalConcept一、基本思想定义通过收集相关现象的样本数据,统计分析变量之间的作用形态,建立一个适当的数学模型(回归方程),近似地反映一个(组)自变量对一个(组)因变量的影响,把相关对象之间不确定、不规则的数量关系一般化。一般步骤建立描述现象间相关关系的数学表达式→参数估计→显著性检验→计算估计标准误差→依据回归方程预测数据挖掘与数据仓库基本思想第八章回归分析目录CONTENTSMainTypesofRegressionModels二、主要模型模型名称适用条件算法描述线性回归因变量与自变量是线性关系对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数。逻辑回归一般用于分类问题(特别是二分类)利用逻辑函数将因变量的取值范围控制在0和1之间,表示取值为1的概率。多项式回归因变量与自变量之间可以为非线性关系回归函数是回归变量多项式。逐步回归有大量需要筛选的自变量采用贪心策略选择自变量。在算法中,根据均方差判断某个自变量是否与因变量有关联。岭回归参与建模的自变量之间具有多重共线性一种改进的最小二乘估计方法。主成分回归参与建模的自变量之间具有多重共线性根据主成分分析对最小二乘法改进,是一种有偏参数估计。数据挖掘与数据仓库主要模型

第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析年份人口自然增长率/%国民总收入/亿元居民消费价格指数增长率(CPI)/%人均GDP/元198815.7315,03718.81,366198915.0417,001181,519199014.3918,7183.11,644199112.9821,8263.41,893199211.626,9376.42,311数据挖掘与数据仓库多元线性回归实验———中国人口增长率分析

第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析

数据挖掘与数据仓库线性回归模型第八章回归分析基本概念与建模步骤非线性回归:因变量与部分或全部自变量的关系为非线性函数常见非线性函数形式:幂函数、指数函数、对数函数、多项式函数等模型构建步骤:选取非线性函数形式使用非线性最小二乘法或最大似然法估计参数用SSE或MSE评价拟合效果对参数做t检验,评估显著性用残差图、Cook距离等诊断模型适用性数据挖掘与数据仓库非线性回归模型第八章回归分析

数据挖掘与数据仓库非线性回归模型第八章回归分析

数据挖掘与数据仓库非线性回归模型第八章回归分析

数据挖掘与数据仓库非线性回归模型第八章回归分析

数据挖掘与数据仓库非线性回归模型第八章回归分析基本原理与思想当自变量较多时,部分变量对因变量影响较弱,甚至存在共线性问题为避免冗余变量影响回归模型,可使用逐步回归分析进行变量筛选逐步回归通过均方误差(MSE)变化来判断变量是否与因变量有关若引入某变量可显著减少MSE→

保留若引入后无显著改善

剔除目标:在回归建模过程中动态选入/剔除变量,建立最优的多元回归模型数据挖掘与数据仓库逐步回归分析第八章回归分析向前法选择变量步骤根据领域知识列出所有可能影响因变量的自变量计算每个自变量与因变量的相关系数,按绝对值从大到小排序选取相关性最强的一个变量,建立线性模型按排序顺序逐个加入其余变量,若加入显著降低均方误差,则保留重复上述过程,直到没有新的变量可加入为止向前法属于贪心算法,存在选取次优变量的可能性向后法与逐步法也是常见策略,均可结合误差变化优化变量选择数据挖掘与数据仓库逐步回归分析第八章回归分析

数据挖掘与数据仓库逻辑回归分析Sigmoid函数图像第八章回归分析

数据挖掘与数据仓库逻辑回归分析第八章回归分析

数据挖掘与数据仓库逻辑回归分析第八章回归分析逻辑回归建模流程确定因变量为0/1型,选择所有可能相关的自变量并收集数据结合相关系数、单变量检验等筛除无关变量列出回归方程使用极大似然法进行参数估计Wald检验、似然比检验等方法判断变量显著性整体拟合可用准确率、ROC曲线、KS值等评估数据挖掘与数据仓库逻辑回归分析第八章回归分析agesexcptrestbpscholfbsrestecgthalachexangoldpeakslopecathalnum63111452331215002.3306067141602860210811.5233267141202290212912.6227137131302500018703.5303041021302040217201.4103056121202360017800.8103062041402680216003.63233数据挖掘与数据仓库逻辑回归实验———心脏病患者的诊断数据分析

第八章回归分析逻辑回归分析实验使用心脏病患者诊断数据建立逻辑回归模型每行为一个患者的记录,包含自变量与对应标签因变量为“是否患心脏病”(num列),0表示无,其他则表示有自变量为医生检查的13项指标(如年龄、性别、胆固醇等)数据来源:cleveland.data,部分数据已清洗处理实验目标:通过特征选择提升模型准确率数据挖掘与数据仓库逻辑回归分析第八章回归分析逻辑回归分析实验数据预处理:去除缺失样本,目标变量二值化(num≠0设为1)初始化逻辑回归模型,前13列作为输入特征使用递归特征消除法(RFE)评估特征重要性删除重要性排名最低的3个特征后重新建模输出回归系数与预测准确率通过简化模型提高可解释性与泛化能力数据挖掘与数据仓库逻辑回归分析第八章回归分析逻辑回归分析实验删除特征:chol、trestbps、age(排名最低)重要特征如:exang(运动诱发心绞痛)、sex、slope等回归系数如下所示(部分):exang:-1.3988sex:0.8108模型准确率为0.86,拟合效果较好实验证明:特征消除提升了模型简洁性,回归系数揭示各变量对结果的影响方向和程度数据挖掘与数据仓库逻辑回归分析第八章回归分析目录CONTENTSDevelopmentHistory三、研发历程理论起源回归由弗朗西斯·高尔顿于19世纪提出,最初用于描述生物学现象。1805年,勒让德提出最小二乘法;1809年,高斯完成数学模型并提出高斯-马尔可夫定理。方法扩展回归分析从线性扩展到非线性、多变量、时间序列等;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论