统计-相关与回归分析.ppt_第1页
统计-相关与回归分析.ppt_第2页
统计-相关与回归分析.ppt_第3页
统计-相关与回归分析.ppt_第4页
统计-相关与回归分析.ppt_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析适合研究哪类问题? 回归方程的显著性检验适合什么情况? 回归系数的显著性检验适合什么情况?,回归分析:广义上的回归分析,同时包括狭义的相关分析与回归分析的全部内容,亦即本章既研究现象间相互依存关系的密切程度,又研究现象之间数量相关的具体形式。,重点:明确相关关系,函数关系,因果关系,掌握基本 的回归分析方法,能应用实际资料构建一元线性回归模型。 难点:多元线性回归分析。,7.1 回归分析的基本概念,7.1.1 因变量(Y)与自变量(X)之间的关系,根据因变量与自变量之间的关系不同,可以分为两种类型:,函数关系,统计关系,7.1.1 因变量(Y)与自变量(X)之间的关系,1.函数关系,即对两个变量X,Y来说,当X值确定后,Y值按照 一定的规律唯一确定,即形成一种精确的关系。,(1)欧姆定律:I = U/R; (2)气体体积、压强与绝对温度的关系:PV =RT; (3)速度与距离、时间的关系:v = s/t。,7.1.1 因变量(Y)与自变量(X)之间的关系,2.统计关系,即当X值确定后,Y值不是唯一确定的, 但大量统计资料表明,这些变量之间还 是存在着某种客观的联系。,例如:图7.1在直角坐标平面上,标出了10 个观测点的坐标位置,他们表示以家庭为单 位,某种商品年需求量与该商品价格之间 的10对调查数据。,7.1.2 回归分析,图7-1,7.1.2 回归分析,例如,炼钢厂在冶炼当中,成品含碳量和冶炼时间这两个变量之间,就不存在确定性的关系,对于含碳量相同的钢,冶炼时间却不相同 再如,人的年龄与血压之间,要找出一个确定性的关系也是很困难的 然而,这些变量之间还是有着密切的关系的,虽然各组数据不是准确地服从f(x)关系,但y值总还是随着x值的增加而变化这种关系称为统计关系 .,变量与变量的关系: 确定性关系,函数关系 U=IR v=gt, 变量与变量的关系:,非确定性关系,统计相关,(具有统计规律) Y=f(x1, x2, , xn)+ 回归分析方法,7.1.2 回归分析,研究因素(自变量)的多少, 一元回归分析 多元回归分析; 以其变量之间呈线性或非线性的关系又可分为 线性回归分析 非线性回归分析。,7.1.2 回归分析,回归分析主要解决以下几个方面的问题: (1)确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间的数学表达式; (2)根据一个或几个变量(试验因素)的值,预测或控制另外几个变量(试验因素)的取值,并给出其精确度; (3)对共同影响一个变量的多个因素,找出其中主要影响因素、次要影响因素,并判定这些因素之间的相关程度。,7.1.2 回归分析,回归分析(Regression Analysis),就是应用统计方法,对大量的观测数据进行整 理、分析和研究,从而得出反映事物内部规律 性的一些结论。,7.2 一元线性回归模型,7.2.1 统计关系的特征,统计关系 特征,观测点散布在统计关系直线的周围,此种情况说明Y的变化除了受自变量X影响以外,还受其他因素的影响。,因此试图建立这样一个回归模型,通过对此模型 所作的一些假设,可以体现出上述统计关系所刻划的特征。,因变量Y随自变量X有规律的变化,而统计关系直线描述了这一变化的趋势。,7.2.2 一元线性回归模型假设,根据统计关系特征,可以进行下述假设:,假设,(2)这些Y的概率分布的均值,有规律的随X变化而变化,(1)对于自变量的每一水平X,存在着Y的一个概率分布;,7.2.3 一元线性回归模型,Y与X具有统计 关系而且是线性,建立 回归模型,Yi=0+1Xi+i (i=1,2,n),其中,(X i,Yi)表示(X,Y)的第i个观测值,0 , 1为参数,0+1Xi为反映统计关系直线的分量, i为反映在统计关系直线周围散布的随机误差 iN (0,2)。,对于误差项,在回归分析中有如下假设:,1)误差项是随机变量,它的期望值为0。 2)对于所有的 x值,误差项的方差 为常数。 3)误差项之间相互独立,即与一个值相联系的误差 对与另一个值相联系的误差没有影响。 4)随机误差项服从正态分布。,7.2.4一元线性回归方程 描述y的均值E(y)与 x的关系的方程叫做回归方程。 不难看出,简单线性回归方程的图形是一条直线。这条直线被称为总体回归直线。 各实际观测点与总体回归线垂直方向的间隔,就是随机误差项,即,截距,斜率,期望值,7.2.5估计一元线性回归方程 在实践中,参数往往是未知的,需要用样本数据进行估计。根据样本数据拟合的直线,称为样本回归直线。 分别为 的估计值,是样本回归直线的截距和斜率。 实际观测到的因变量y值,并不完全等于估计值 ,如果用e表示二者之差,则样本回归模型为:,截距,斜率,: 第一,总体回归线是未知的,它只有一条;而样本回归线则是根据样本数据拟合的,可以有若干条样本回归线。 第二,总体回归模型中的0和1是未知的参数,表现为常数;而样本回归模型中的b0和b1是随机变量,其数值随样本观测值不同而变动。 第三,总体回归模型中的,是y与未知的总体回归线之间的纵向距离,它是不可直接观测的;而样本回归模型中的e,是y与样本回归线之间的纵向距离,可以根据样本观测值计算得出。,样本回归模型与总体回归模型的区别,7.2.5估计一元线性回归方程,最小二乘法,Y与X之间 为线性关系,选出一条最能反 映Y与X之间关系 规律的直线,7.2.5估计一元线性回归方程,一般而言,所求的b0和b1应能使每个样本观测点(X i,Y i) 与回归直线之间的偏差尽可能小,即使观察值与拟 合值的误差平方和Q达到最小。,图7-3 回归方程原理图,7.2.5估计一元线性回归方程,令,Q达到最小值 b0和b1称为最小二乘估计量,微积分中极值 的必要条件,令偏导数为0,解方程,7.2.5估计一元线性回归方程,令,回归系数就可写成:,1,1,直线回归分析步骤,1、绘制散点图 2、计算回归系数(最小二乘法) 3、作回归直线(在自变量的实测范围内任取两个相距较远的数值 、 ,根据 两点作图。,例7-1:某乡为了提高小麦产量,经过多次试验,总结出一种小麦基本苗数推算成熟期有效穗数的方法。在5块田上进行对比试验,取得数据如下:,解:回归直线方程计算表(1),回归直线方程计算表(2),练习1:某企业上半年产品产量与单位成本数据如表所示。试根据表中数据: (1)绘制散点图; (2)建立回归方程,说明产量每增加1000件,单位成本平均变动如何? (3)作回归直线。,练习2: 根据Pizza连锁店的学生人数和季度销售收入数据,建立回归直线方程,并预测学生人数为25人时的销售收入。,练习3:以下是采集到的有关女子游泳运动员的身高(英寸)和体重(磅)的数据: a、用身高作自变量,画出散点图 b、根据散点图表明两变量之间存在什么关系? c、试着画一条穿过这些数据的直线,来近似身高和体重之间的关系 d、求出估计的回归方程 e、如果一名运动员的身高是63英寸,你估计她的体重是多少?,研究腐蚀时间与腐蚀深度两个量之间的关系,可把腐蚀时间作为自变量x,把腐蚀深度作为因变量y,将试验数据记录在表7-1中,求出x,y之间的线性关系。,练习4,表7-1 试验数据,表7-2,1,b0,1,得到回归直线方程:,7.2.6可线性化的一元回归问题,常见的非线性函数及其转化为线性函数的方法:,1、双曲线,令,2、幂函数曲线,令,3、数函数曲线,令,4、负指数函数曲线,令,5、对数曲线,令,7.3 一元线性回归方程的检验,从上述回归方法可以看出,一组在散点图上杂乱无章的观测值,也能利用最小二乘法给它们配一个方程,但显然该方程将是毫无意义的,只有在观测点的分布接近于一条直线时才能进行回归计算然而究竟在什么情况下所配回归方程才有意义,或者说,两个变量才服从线性关系呢?,7.3一元线性回归方程的检验,显著性检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为 相关系数检验法 F检验法,7.3.1.相关系数检验法,相关系数,注:r与b1的分母均为正,分子相同,故r与b1有相同的符号。,图7-4不同相关系数散点意义图,相关系数具有如下性质:,1)r0称为正相关,r0称为负相关。 2)当r=1时,此时所有观察点全部在同一条直线上; 3)当r=0时,称y与x统计不相关,这有两种情况:一种是y与x间的确不存在任何统计规律性;另一种情况是y与x的变化大致上有二次曲线关系,但他们的相关系数为零。,4)具有相关关系的两个变量之间最一般的情况是0r1,当r较大时,表明变量之间线性关系密切,诸观察点比较靠近回归直线;反之表示变量之间线性关系不密切,在散点图上,诸观察点离回归直线比较疏远。,说明,相关系数越接近于1,x与y的线性相关程度越高,然而r的大小未能回答其值达到多少时, x与y存在线性相关,所以必须对相关系数r进行显著性检验。,7.3.1相关系数检验法,步 骤:,1)计算样本相关系数r,2)查相关系数临界值表,得临界值,7.3.1相关系数检验法,3)比较,若 ,线性相关不显著;,若 ,存在密切线性相关。,此处f=n2, n是对变量x与y成对观察的次数,2为变量数目。,例7-2 用邻二氮菲分光光度法测铁,首先配制标准系列,测标准曲线,得下列结果如表7-3 所示,用相关系数法对回归方程进行检验。,解:首先对数据进行转化,令 x=105c, y=10A 求得,说明浓度和吸光度二者之间存在密切线性关系,缺点:,相关系数接近于1的程度与试验组数n有关。 当n较小时, 容易接近于1; 当n较大时, 容易偏小。 当n=2时,因两点确定一条直线, 总等于1。 所以,只有当试验次数n较多时,才能得出真正有实际意义的回归直线。,7.3.2 F检验法,在回归函数E(Y)=0+1X中,如果1=0,则对于X的一切水平E(Y)=0,说明Y的变化与X的变化无关,因而,我们不能通过X去预测Y。所以,对模型Yi=0+1Xi+i 检验1=0是否成立,等价于检验Y与X之间是否存在线性关系。,7.3.2 F检验法,由回归模型可知:QT=QR+QE 测量线性关系是否显著,其实质就是判断回归平方和与误差平方和之比值的大小。由于回归平方和与误差平方和的数值随观察值的样本容量n和自变量个数m的不同而变化,因此必须将回归平方和及误差平方和与其各自的自由度联系起来,再进行对比检验。由于这样对比之后的统计量服从F分布,所以,称这种检验方法为F检验。,7.3.2 F 检验法,步骤:,1)提出假设:H0:1=0,H1:10。,2) 构造并计算统计量:,3)查F分布临界值表,得临界值,4),4) F 检验,1 、总平方和分解,1.总平方和分解,图7-5 总平 和分解图,1. 总平方和分解,总偏差平方和,它表示没有X的影响, 单纯考察数据中Y的变动情况。,1.总平方和分解,回归平方和,表示各 的变动程度,该变动是由于回归直线 中各Xi 的变动所引起的,并且通过X对Y 的线性影响表现出来。,1. 总平方和分解,误差平方和,表示各Yi围绕所拟合的回归直线的变动程度,QT=QR+QE,1.总平方和分解,QE =QT-QR=Lyy-bLxy,2.自由度的分解,QT,自由度 T为n-1,QE,自由度 E为n-2,QR,自变量的 数目,自由度 R为1,2. 自由度的分解,自由度的分解可以表示为,n-1=1+(n-2),T=R+E,3. 回归方差与残余方差,(7-10),(7-11),回归方差,残余方差,4. F 检验,FF0.01时,可认为x与y有十分显著的线性关系; F0.01FF0.05时,可认为x与y有显著的线性关系; F0.05FF0.10时,可认为x与y有较显著的线性关系, F0.10F时,可认为x与y没有显著的线性关系。,表7-4 方差分析表,例7-3用邻二氮菲分光光度法测铁,首先配制标准系列, 测标准曲线,得下列结果如表7-3 所示,先求出回归直线, 再用F检验法进行显著性检验。,解:首先对数据进行转化,令 x=105c, y=10A 求得,b1=Lxy/Lxx=37.11/34=1.0915 b0=yb1x=(26.32981.091524)6=0.0224 因此,回归方程为 y=0.0224+1.0915x 还原,则回归方程为 A=0.00224+1.0915104c 经截距检验,0.00224可以忽略,因此回归方程为 A=1.0915104c,方差分析,查表得 F0.05(1,4)=7.71, F0.01(1,4)=21.2,QR=bLxy=1.091537.1100=40.505565 QE=LyyQR=40.539740.505565=0.034135 fR=1, fE=n2=4,7.4 多元线性回归分析,7.4.1多元线性回归模型 表达因变量y与若干个不同自变量x1 ,x2 ,x3 ,xk之间关系的一般线性模型为: 回归系数表示在其他自变量保持不变的情况下,自变量xi每变动一个单位所引起的因变量y平均变动的数额,也叫偏回归系数。,如果根据样本计算的统计量b0,b1,b2, ,bk为总体参数0,1,2,k的点估计量,那么,我们就得到了估计多元回归方程:,7.4.2回归系数的最小二乘估计,当根据样本研究二个自变量x1,x2与y的关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论