1[1].1回归分析的基本思想及其初步应用.ppt_第1页
1[1].1回归分析的基本思想及其初步应用.ppt_第2页
1[1].1回归分析的基本思想及其初步应用.ppt_第3页
1[1].1回归分析的基本思想及其初步应用.ppt_第4页
1[1].1回归分析的基本思想及其初步应用.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1.1回归分析的基本思想和初步应用,必修3(第2章统计学)知识结构,数据收集(随机抽样),排序和分析,数据估计和推断,简单随机抽样,分层抽样,系统抽样,估计总体和变量与样本之间的相关性,估计总体分布与样本频率分布,估计总体数字特征与样本数字特征,线性回归分析,综述,1相关性:对于两个变量,当自变量有一定值时,因变量有一定的随机性。回顾并思考:相关性和功能之间有什么区别?函数关系中两个变量之间的关系是确定性关系,是不确定性关系,函数关系是理想的关系模型。现实生活中有大量的相关关系,这是一个比较普遍的情况。问题2:用什么方法来描述两个线性相关变量之间的关系?2.最小二乘估计,最小二乘估计下的线性回

2、归方程:回归线必须通过样本点的中心;3.回归分析的基本步骤:绘制散点图,寻找回归方程,预测和决策。这种方法被称为回归分析。回归分析是对两个相关变量进行统计分析的常用方法,它比数学3中的“回归”更有意义。数理统计绘制散点图,了解最小二乘法寻找回归线性方程ybxa的思想,用回归线性方程解决应用问题,选择1-2个统计案例引入线性回归模型ybxa,了解模型中随机误差项e的成因,了解相关指数R2与模型拟合效果的关系,了解残差图在利用线性回归模型解决一类非线性回归问题中的作用。自学指南,1。结合实例1得到线性回归模型和随机误差。并区分函数模型和回归模型。在线性回归模型中,E是用bx a预测真值Y的随机误差

3、,是一个不可观测的量,那么我们应该如何研究随机误差呢?3:如何发现数据中的错误?如何衡量随机模型的拟合效果?4.结合实例1思考:用回归方程预测权重时应该注意什么?5:总结建立回归模型的基本步骤。阅读课本第1页和第6页,思考并回答以下问题(注意:时间是12分钟)。问题1:结合实例1得到线性回归模型和随机误差。并区分函数模型和回归模型。回归方程:由于所有的样本点并不共线,而只是分散在一条直线上,身高和体重之间的关系可以用线性回归模型来表示,其中A和B是模型的未知参数,E称为随机误差。想想函数模型和“回归模型”的区别,函数模型:因变量Y完全由自变量X决定回归模型:预测变量Y完全由解释变量(2)决定,

4、忽略了某些因素的影响;(3)观察误差。中随机误差项e的原因是什么?问题2:在线性回归模型中,E是bx a预测真值Y的随机误差,是一个不可观测的量,那么我们应该如何研究随机误差呢?结合实例1,影响体重的除身高以外的其他因素是不可测量的,所以我们不能期望有某种方法来获得随机误差的值来提高预测变量的估计精度,但是我们可以估计预测变量的观测值中包含的随机误差,这对我们发现样本数据中的误差和评估模型是非常有用的,所以我们在这里引入了残差的概念。e=y-(bx a),问题3:如何发现数据中的错误?如何衡量随机模型的拟合效果?方法一:通过残差分析可以在原始数据中发现可疑数据,并判断所建立模型的拟合效果。残差

5、图生成的产生和作用:坐标的纵轴是残差变量,横轴可以有不同的选择。它可以被编号;它可以是一个解释性变量。功能:判断模型的适用性。如果模型选择正确,残差图中的点应分布在以水平轴为中心的带状区域。下表列出了女大学生身高和体重的原始数据以及相应的残差数据。残差图的制作及作用。纵轴坐标是剩余变量,横轴可以有不同的选择;如果模型选择正确,残差图中的点应分布在以水平轴为中心的带状区域;应特别注意远离水平轴的点。高度和重量残差图、注意:第一个采样点和第六个采样点之间的残差比较大,因此需要确认采集过程中是否存在人为误差。如果数据收集中有错误,请纠正它,然后重新使用线性回归模型来拟合数据;如果数据收集没有错误,则

6、需要找到其他原因。此外,剩余点均匀地落在水平带状区域,这表明所选模型是合适的。带状区域越窄,模型的拟合精度越高,回归方程的预测精度越高。显然,R2值越大,残差平方和越小,也就是说,模型拟合效果越好。在线性回归模型中,R2代表分析变量对预测变量变化的贡献率。R2越接近1,回归效果越好(因为R2越接近1,分析变量和预测变量之间的线性相关性越强)。如果一组数据可能采用几个不同的回归方程进行回归分析,我们可以通过比较R2值来做出选择,即选择具有较大R2的模型作为这组数据的模型。注:相关指数R2是衡量模型拟合效果的指标。在线性模型中,它代表独立变量描述预测变量的能力。方法2:我们可以用相关指数R2来描述

7、回归的效果,其计算公式是,从上面可以看出,分析变量对总效果的贡献约为64%,即R2 0.64,可以描述为“身高决定64%的体重变化”,而机器误差贡献剩余的36%。因此,身高对体重的影响远大于随机误差。让我们使用相关指数来分析示例1:问题4结合实例1思考用回归方程预测权重时我们应该注意什么?回归方程只适用于我们研究的整个样本。2.我们建立的回归方程通常具有时效性。3.样本值的范围将影响回归方程的适用范围。4.我们不能期望回归方程得到的预测值就是预测变量的精确值。(1)确定研究对象,明确哪个变量是分析变量,哪个变量是预测变量。(2)绘制确定的分析变量和预测变量的散点图,观察它们之间的关系(如是否存在线性关系等)。)。(3)根据经验确定回归方程的类型(如果我们观察到数据是线性的,那么选择线性回归方程Y=BX A),(4)根据一定的规则估计回归方程中的参数(如最小二乘法)。(5)获得结果后,分析残差图是否有异常(个别数据对应的残差过大,或者残差呈现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论