数据挖掘及其应用讲义线性回归逻辑回归_第1页
数据挖掘及其应用讲义线性回归逻辑回归_第2页
数据挖掘及其应用讲义线性回归逻辑回归_第3页
数据挖掘及其应用讲义线性回归逻辑回归_第4页
数据挖掘及其应用讲义线性回归逻辑回归_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

线性回归1精选ppt当某种现象的变化及其分布特性清楚后,需分析是什么原因使这种变化发生,或某种现象对其他现象有什么影响等。如研究目的在探知两特性值与间的相互关系,如特性值可以自由变动,那么可用各种测试方法研究的效应。但假设不能自由变动〔例如预测台风或探求水稻穗与精米重量间的关系等问题时〕,可利用事先求得的与间的关系来推测值。但对与间的关系,需再加解析后才能拟定其相互间的关系。2精选ppt回归用以表达两个或两个以上变量间的关系。回归分析是以一个或多个自变量描述、预测或控制特定因变量的分析。回归分析主要在了解自变量与因变量间的数量关系。主要目的:●了解自变量与因变量关系方向及强度。●以自变量所建立模式对因变量作预测。回归分析根据自变量个数的不同可以分为:●简单回归分析。●多元回归分析。回归分析中变量的筛选原那么:●相关理论或逻辑。●研究人员探讨变量关系来决定。3精选ppt回归分析步骤:●由分布情况或专业知识,推测变量间的数学模型。●用最小平方法推导正那么方程。●决定回归方程。●用图形证明所求的方程曲线与测定值的分布是否一致,以确定所选的数学模型是否全理。

4精选ppt模型假设及参数估计假设简单回归模型可以用下式表示:其中为因变量;为自变量;为误差项;为回归系数,其中为截距项,为模型的斜率。

误差项代表我们所拟合的回归直线不可能很理想,因此认为“直线模型〞可能有错,误差项代表可能的错误。回归模型假设的根本思想是误差项来自某一个正态分布。严格来说,线性回归模型的根本假设为:5精选ppt●正态性——对任一固定值,服从●独立性——

和间相互独立●线性性­——

是的线性函数,即●方差齐次——对于任意的,有

6精选ppt多元回归分析

多元回归是简单线性回归的推广,模型包含一个因变量和两个或以上的自变量。例如,在研究“销售量〞的变化时,只考虑“广告投资〞可能不够,可能还要再考虑“销售人员的数量〞、“特定产品的价格〞、“个人可支配所得〞等其他变量,此时采用多元回归分析是比较适当的。需要注意的是,如果因变量是类别变量〔例如因变量“购置意向〞为二分变量时,也就是表示肯定购置,表示不一定购置〕,那么要采取Logistic回归分析。7精选ppt多元回归分析可以到达以下目的:●了解因变量和自变量之间的关系是否存在,以及该关系的强度。也就是以自变量所解释的因变量的变异局部是否显著,且因变量变异中有多大局部可以用自变量来解释。●估计回归方程,求算特定自变量的情况下因变量的理论值或预测值,到达预测目的。●评价特定自变量对因变量的奉献,也就是在控制其他自变量不变的情况下,该自变量的变化所导至的因变量变化情况。●比较各自变量在拟合中对的回归方程中相对作用的大小,寻找最重要的和比较重要的自变量。多元回归模型

该模型可以用下面的回归方程来估计其中,代表截距,代表回归系数〔也就是偏回归系数〕,一般都是通过常用的统计软件来估计,统计软件还将同时给出标准的回归系数和对应的标准误差,这些统计量与简单回归中给出的相应的统计量的意义是一致的。9精选ppt回归变量的选择

变量的选择原那么:●依据专家所提出的相关理论,参考相关研究文献。●依据研究人员所欲探讨的变量关系来决定。

在建立回归方程时,可能会涉及很多自变量。然而有些变量可能并不重要,太多的变量会促使模型变量过于复杂;因此,需要对大量的自变量进行必要的筛选,用尽可能少的自变量去解释因变量中最大比例的变异。10精选ppt逻辑回归Logistic〔中文称为罗吉斯〕回归模型在分析二分类或有序因变量与解释变量的关系。Logistic回归模型中,用自变量去预测因变量在给定某个值〔如1或0〕的概率。因变量通常是二分类中的一个值或有序变量取值的最小值。当因变量有很多不同的值时〔如:等距尺度或比例尺度的数据类型时〕,通常使用简单回归模型而不用Logistic回归模型。对一个二分类的因变量,Logistic回归模型的形式如下:其中,代表因变量的概率值,代表的第一个取值,*代表截距参数,代表斜率参数的向量,代表解释变量的向量。

11精选ppt为较好的理解Logistic模型,我们先介绍logit变换和Logistic分布,然后再加到logistic回归分析。logit变换:上式变换称为logit变换,是否可以认为是“logit〞〔取对数〕的意思。将由来表示,就得:如果是某些自变量的线性函数,那么就是的以下函数:

12精选ppt讨论Logistic回归时,直接从式开始。其中,的分布称为Logistic分布。

(1)它的密度函数为其中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论