




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
8.1成对数据的统计相关性高中数学选择性必修第三册第八章成对数据的统计分析问题背景问题背景问题背景问题背景相关关系相关关系概念辨析相关关系概念辨析相关关系概念辨析相关关系概念辨析相关关系研究方法相关关系研究方法相关关系研究方法相关关系概念完善相关关系概念完善相关关系概念完善相关关系概念完善相关关系概念完善相关关系概念完善相关系数相关性度量相关系数正、负相关性度量相关系数正、负相关性度量相关系数正、负相关性度量相关系数正、负相关性度量相关系数相关程度度量相关系数相关程度度量相关系数相关程度度量相关系数统计意义相关系数统计意义相关系数统计意义相关系数统计意义相关系数统计意义相关系数统计意义相关系数解题步骤相关系数解题步骤相关系数解题步骤
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.思考:是否可以通过建立适当的统计模型来刻画两个变量之间的相关关系?一元线性回归情境导入
生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182探究点1一元回归模型
一元线性回归探究导学从图上看,散点大致分布在一条直线附近根据我们学过的整理数据的方法:相关系数r.问题1:可以得到什么结论?由散点图的分布趋势表明儿子的身高与父亲的身高线性相关,通过相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高.问题2:是否可以用函数模型来刻画?
不能,因为不符合函数的定义.这其中还受其它因素的影响.Y=bx+a+e问题3:各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?
如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其它随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a.
由于随机误差表示大量已知和未知的各种影响之和,它们会相互抵消,为使问题简洁,可以假设随机误差e的均值为0,方差为与父亲身高无关的定值.思考:为什么要假设E(e)=0,而不假设其为某个不为0的常数?
因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
如果随机误差是一个不为0的常数e,则可以将e合并到截距项a中,否则模型无法确定,即参数没有唯一解.
如果随机误差e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.问题5:请根据以上的分析,你能建立一个数学模型表示儿子身高与父亲身高的关系吗?
我们称①式为Y关于x的一元线性回归模型,其中,Y称为因变量或响应变量,x称为自变量或解释变量.a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.①1.一元线性回归模型如果用x表示父亲身高,Y表示儿子的身高,e表示随机误差.假定随机误差e的均值为0,方差为与父亲身高无关的定值,则它们之间的关系可以表示为2.函数模型与回归模型之间的差别函数模型:y=bx+a回归模型:Y=bx+a+e
一元线性回归模型Y=bx+a+e增加了随机误差项e,因变量Y的值由自变量x和随机误差项e共同确定,即自变量x只能解释部分Y的变化.解释变量x(身高)模型误差e(其它所有变量)响应变量Y(体重)解:(1),(2),(3),(4),(5)回归模型(6),(7)函数模型.【即时练习】判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画?为什么?函数模型与回归模型有什么区别?
(1)某公司的销售收入和广告支出;(2)某城市写字楼的出租率和每平米月租金;(3)航空公司的顾客投诉次数和航班正点率;(4)某地区的人均消费水平和人均国内生产总值(GDP);(5)学生期末考试成绩和考前用于复习的时间;(6)一辆汽车在某段路程中的行驶速度和行驶时间;(7)正方形的面积与周长.问题1.为了研究两个变量之间的相关关系,我们建立了一元线性回归模型表达式刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,我们能否通过样本数据估计参数a和b?与函数不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.探究点2一元回归模型参数
问题2.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.父亲身高/cm180175170165160160165170175180185190·······儿子身高/cm·······185父亲身高/cm180175170165160160165170175180185190·······儿子身高/cm·······185“从整体上看,各散点与直线最接近”
我们设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn)父亲身高/cm180175170165160160165170175180185190·······儿子身高/cm·······185y=bx+a·残差平方和:求a,b的值,使Q(a,b
)最小上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为1.最小二乘法
我们将
称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.
问题2:依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程.
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.1).当x=176时,,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
我们可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.(1)残差的定义2.判断模型拟合的效果:残差分析残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重估计值等,这样作出的图形称为残差图.问题3:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.问题4.观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?所以,只有图(4)满足一元线性回归模型对随机误差的假设图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常数,随观测时间变大而变大图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为σ2的随机变量的观测值.编号123456胸径/cm18.120.122.224.426.028.3树高/m18.819.221.021.022.122.1编号789101112胸径/cm29.632.433.735.738.340.2树高/m22.422.623.024.323.924.7例1.经验表明,对于同一树种,)越大,,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.dh············解:
以胸径为横坐标,树高为纵坐标作散点图如下:
散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.············
用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.编号胸径/cm树高观测值/m树高预测值/m残差/m118.118.819.4-0.6220.119.219.9-0.7322.221.020.40.6424.421.020.90.1526.022.121.30.8628.322.121.90.2729.622.422.20.2832.422.622.9-0.3933.723.023.2-0.21035.724.323.70.61138.323.924.4-0.51240.224.724.9-0.2以胸径为横坐标,残差为纵坐标,作残差图,得到下图.30252015-1.0-0.50.00.51.0·······残差/m·····354045胸径/cm
观察残差表和残差图,可以看到残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95问题人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到左图
在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.将经验回归直线叠加到散点图,得到下图:
用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为:
从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?
第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征你能对模型进行修改,以使其更好地反映散点的分布特征吗?
仔细观察右图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.
注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c2<0.y=f(t)=c1+c2ln(t-1895)令x=ln(t-1895),则Y=c2x+c1编号12345678年份/t18961912192119301936195619601968x0.002.833.263.563.714.114.174.29记录/s11.8010.6010.4010.3010.2010.1010.009.95
这是一个非线性经验回归函数,如何利用成对数据估计参数c1、c2对数据进行变化可得下表:得到散点图如下:由表中的数据得到经验回归方程为:
上图表明,经验回归方程对于成对数据具有非常好的拟合精度.将经验回归直线叠加到散点图,得到下图:将x=ln(t-1895)代入:
对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?①②
我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).①②(2).残差分析:残差平方和越小,模型拟合效果越好.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粮库仓储面试题库及答案
- 乐清电厂面试题库及答案
- 科技教育面试题库及答案
- 康缘药业面试题库及答案
- 农业产业园项目2025年农业资源循环利用效益研究报告
- 2025年智能垃圾分类处理系统项目在商业区的可行性及运营模式研究报告
- 垃圾填埋气发电技术2025年展望:技术创新与碳减排效应评估
- 2025年金融行业数据治理与隐私保护技术合作与交流现状与展望研究报告
- 安全教育培训记录
- 安全教育培训计划小班课件
- 船舶概论课件
- 篮球训练营规章制度范本
- 园林给排水工程
- Rexroth (博世力士乐)VFC 3610系列变频器使用说明书
- ×××学校“学校学生资助管理机构成立文件”
- 动词过去式和过去分词的变化规则练习及答案
- 第四章 土壤污染调查与风险评价
- GB/T 9877-2008液压传动旋转轴唇形密封圈设计规范
- 共享服务中心(HRSSC)课件
- 工程结构检测鉴定与加固第1章工程结构检测鉴定与加固概论课件
- 数字色彩课件
评论
0/150
提交评论