版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025/4/30*
相关与回归分析概述*
一元线性回归*
多元线性回归*
非线性回归主要内容:2025/4/30
从高尔顿开始说起高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究智力遗传进化问题,第一次将概率统计原理等数学方法用于生物科学,明确提出“生物统计学”的名词.现在统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的。FrancisGalton
1822.02.16-1911.01.17England2025/4/30高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到平均数去的趋势。2025/4/30第一节相关与回归分析概述2025/4/301.变量间的关系确定性关系或函数关系y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的施肥量和产量股票的时间和价格学生的期中和期末考试成绩,…不确定性关系x可控变量Y随机变量不确定性关系一、
确定性关系与相关关系2025/4/30
不相关
负线性相关
正线性相关
非线性相关
完全负线性相关完全正线性相关
2.相关关系的图示2025/4/301.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度二、什么是回归分析2025/4/30(x,y)采集样本信息(xi,yi)回归分析散点图回归方程回归方程的显著性检验对现实进行预测与控制三、回归分析的流程2025/4/30【例1.1】本人从“雪林山庄——甜雨的开心乐园”中收集了一组儿童成长记录数据(0-7岁),包括月龄、身高和体重的观测数据。据此绘制散点图,并进行相关性分析。2025/4/302025/4/30第二节一元线性回归分析2025/4/30问题:如何描述y与x
的线性相关关系?散点图大致如下
若可控变量x与随机变量
y之间有线性相关关系,其n对观测值记为一、一元线性回归模型
2025/4/30显然:
y
称为因变量(响应变量),x称为自变量(预报变量),
称为随机扰动,a,b
称为待估计的回归参数,下标i
表示第i
个观测值。描述变量y与x的线性相关关系的一元线性回归模型为2025/4/301.理论回归方程二、回归方程对于给定的x,y的均值是关于x的函数,称为理论回归函数,从而有y关于x的理论回归方程2025/4/302.经验回归方程将a和b的估计量代入理论回归方程,可得经验回归方程记,称之为残差,残差可视为扰动的估计2025/4/30(xi,yi)}xy(xn,yn)(x1,y1)
(x2,y2)ei=yi-yi^三、一元线性回归图示2025/4/30二元函数的最小值点称为a,b的最小二乘估计记其中四、a,b的最小二乘估计2025/4/30所以方程组有解,解得其中即最小二乘估计所得经验回归方程为2025/4/30编号xiyi编号xiyi编号xiyi编号xiyi1277103626898112861081625594225799.57285103.512269100172699932559382861031324696.5182971094278105927210414255921925795.553061101028510315253942025091例2.1
钢的强度和硬度都是反映钢质量的指标。现在炼20炉中碳钢,它们的抗拉强度Y与硬度x的20对实验值如下表。经计算得
(1)试绘出散点图
(2)求Y对x的经验回归直线方程2025/4/30
散点图与回归方程2025/4/30证明略五、估计量
的分布2025/4/30
上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量和的任意对观测值,只要不全相等,则无论变量和之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量和之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义,
就需要进行回归方程的显著性检验。六、回归方程的显著性检验2025/4/30◆因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面:由于自变量x的取值不同造成的;除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响◆对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示1.离差平方和分解2025/4/30xy{}}
离差分解图xy(1)离差平方和分解示意图2025/4/30两端平方后求和有从图上看有SST=SSR+SSE
自由度(df)n-1=1+n-2总变差平方和(SST或lyy)回归平方和(SSR)残差平方和(SSE或Qe)(2)三个平方和的关系2025/4/30
总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和(3)三个平方和的意义2025/4/30回归平方和占总离差平方和的比例①
反映回归直线的拟合程度②取值范围在[0,1]之间③
r21,说明回归方程拟合的越好;r20,说明回归方程拟合的越差④判定系数等于相关系数的平方,即r2=(r)22.判定系数r2(1)定义(2)判定系数的意义2025/4/30①
提出假设H0:b=0H1:b≠03.线性关系的检验(F
检验)(1)检验的步骤定理2.1对于一元线性回归,有2025/4/30②
计算检验统计量F
③
确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F
(1,n-2)④
作出决策:若F
F
,拒绝H0;若F<F
,接受H0如果拒绝H0,两个变量之间存在显著线性关系如果接受H0,两个变量间不存在显著线性关系⑤
方差分析表方差来源平方和自由度均方F值回归SSR1SSR(n-2)SSR/SSE
剩余SSEn-2SSE
/(n-2)总和SSTn-12025/4/30其中(2)F值的计算2025/4/30例2.1
钢的强度和硬度都是反映钢质量的指标。现在炼20炉中碳钢,测得抗拉强度Y与硬度x的20对实验值。经计算得对上面求出的回归方程进行显著性检验(取a=0.05)。原假设与备择假设拒绝域检验统计量
统计量观测值2025/4/30七、回归系数的显著性检验(t检验)
的抽样分布检验回归系数b是否等于给定常数。理论基础是回归系数的估计量的抽样分布1.估计量的分布2025/4/30
原假设与备择假设定理2.2对于一元线性回归,有2.回归系数的显著性检验H0:b
=b0(b0=0时说明y与x没有线性关系)H1:b
b02025/4/30
对于给点的显著性水平
,拒绝域如下检验的统计量其中是的无偏估计,证明见下页。2025/4/30其中证明:因为证明是的无偏估计2025/4/30而2025/4/30于是所以是的无偏估计。2025/4/30例2.1
钢的强度和硬度都是反映钢质量的指标。现在炼20炉中碳钢,测得抗拉强度Y与硬度x的20对实验值。经计算得求,并检验回归系数是否等于1。(取a=0.05)。的值2025/4/30原假设与备择假设拒绝域检验统计量
统计量观测值回归系数的检验2025/4/30检验两个变量之间是否存在线性相关关系■
计算检验的统计量:■
确定显著性水平,并作出决策
若t>t
,拒绝H0
若t<t
,接受H0八、相关系数的显著性检验(t检验)检验的步骤为■
提出假设:H0:
;H1:
02025/4/30
根据自变量x
的取值估计或预测因变量y的取值九、利用回归方程进行预测
对于自变量x的一个给定值x0
,根据回归方程得到因变量y的一个估计值1.
点估计2025/4/302.
区间估计
点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计.区间估计有两种类型:置信区间估计和预测区间估计2025/4/30其中:为估计标准误差
利用估计的回归方程,对于自变量x的一个给定值x0
,求出因变量y
的平均值E(y0)的估计区间,这一估计区间称为置信区间E(y0)
在1-
置信水平下的置信区间为(1)
置信区间估计(y的平均值的置信区间估计)2025/4/30注意!
利用估计的回归方程,对于自变量x的一个给定值
x0
,求出因变量y
的个别值y0
的估计区间,这一区间称为预测区间y0在1-
置信水平下的预测区间为(2)
预测区间估计(y的个别值的预测区间估计)2025/4/30(3)置信区间、预测区间、回归方程的图示x0yx
x预测上限置信上限预测下限置信下限
y2025/4/30例2.1
钢的强度和硬度都是反映钢质量的指标。现在炼20炉中碳钢,测得抗拉强度Y与硬度x的20对实验值。对于前面的回归分析,试作出回归预测图,并求x0=280处的95%预测区间
x0=280处的95%预测区间2025/4/302025/4/30第三节多元线性回归分析2025/4/301.一个因变量与两个及两个以上自变量之间的回归2.描述因变量y如何依赖于自变量x1
,x2
,…,
xp
和误差项
的方程称为多元线性回归模型3.涉及p个自变量的多元线性回归模型可表示为
b0,b1,b2
,,bp是参数
是被称为误差项的随机变量,说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性一、回归模型2025/4/30对于n组实际观察数据(yi;xi1,,xi2,
,xip),(i=1,2,…,n),多元线性回归模型可表示为y1
=b0+b1x11+b2x12
++
bpx1p
+e1y2=b0+b1x21
+b2x22
++
bpx2p
+e2
yn=b0+b1xn1
+b2xn2
++
bpxnp
+en{……2025/4/301.自变量x1,x2,…,xp是可控变量,不是随机变量;2.随机误差项ε的期望值为0,且方差σ2都相同;3.误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立二、基本假定2025/4/30
描述y的平均值或期望值如何依赖于x1,x1
,…,xp的方程称为多元线性回归方程,多元线性回归方程的形式为
b1,b2,,bp称为偏回归系数
bi
表示假定其他变量不变,当xi
每变动一个单位时,
y的平均变动值三、回归方程E(y)=
0+
1x1
+
2x2
+…+
pxp2025/4/30二元线性回归模型(观察到的y)回归面
0
ix1yx2(x1,x2)}四、多元线性回归方方程的直观解释2025/4/302.根据最小二乘法的要求,可得求解各回归参数的标准方程如下1.使因变量的观察值与估计值之间的差的平方和达到最小来求得
。即五、参数的最小二乘法2025/4/30整理得或矩阵形式2025/4/30其中解得2025/4/301.定义六、多重判定系数
R2回归平方和占总离差平方和的比例
反映了回归平面的拟合程度,取值范围在[0,1]之间。若
R21,说明回归方程拟合的越好;若R20,说明回归方程拟合的越差。等于多重(复)相关系数的平方,即R2=(R)22025/4/301.由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的值2.用n表示观察值的数目,p表示自变量的数目,修正的多重判定系数的计算公式可表示为七、修正的多重判定系数
R22025/4/30八、线性关系的检验1.
回归方程的显著性检验
检验因变量与所有的自变量和之间是否存在一个显著的线性关系,也被称为总体的显著性检验。检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著
■
如果是显著的,因变量与自变量之间存在线性关系
■如果不显著,因变量与自变量之间不存在线性关系2025/4/30(1)提出假设H0:
1
2
p=0
表示线性关系不显著H1:
1,
2,,
p至少有一个不等于0(2)计算检验统计量F(3)确定显著性水平和分子自由度p、分母自由度n-p-1,找出临界值F
(p,n-p-1)(4)作出决策:若F
F
,拒绝H0;若F<F
,接受H02025/4/302.
回归系数的显著性检验
如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi
对因变量y的影响是否显著。对每一个自变量都要单独进行检验,应用t检验在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验2025/4/30(1)提出假设H0:bi=0(自变量xi与
因变量y没有线性关系)H1:bi
0(自变量xi与
因变量y有线性关系)(3)确定显著性水平,并进行决策
t
t
,拒绝H0;t<t
,接受H0(2)计算检验的统计量t2025/4/30其中cii为矩阵的主对角线上的第i+1个元素2025/4/30
因变量y与x之间不是线性关系
可通过变
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业承包管理方案
- 安全警示教育观影学习会议流程及记录规范
- 出口资产拍卖跨境结算合规指引
- 2026年河南教师资格证考试真题
- 2026年上半年数据库系统工程师考试应用技术真题(专业解析+参考答案)
- 餐厨垃圾收运处置全过程安全管理规范
- 护理课程与科研融合建设汇报
- 尿液排泄的护理
- 2026jsp内置对象面试题及答案
- 护理教育与培训新趋势
- 消化系统常见肿瘤(临床病理)
- 水利水电工程设计工程量计算规定
- 2023年技术经纪人初级考试题目
- GB/T 26480-2011阀门的检验和试验
- GB/T 13277.3-2015压缩空气第3部分:湿度测量方法
- 多层钢结构施工方案设计
- GA/T 508-2014道路交通信号倒计时显示器
- 冠状动脉粥样硬化性心脏病lxf课件
- 世界中世纪史第五讲-十字军东征课件
- 围挡结构抗台风稳定性计算书
- 交管12123驾照学法减分题库200题(含答案完整版)
评论
0/150
提交评论