第9章直线相关和回归

上传人：鱼*** IP属地：江苏上传时间：2023-10-15 格式：PPT 页数：45 大小：3.29MB 积分：28 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试验统计学第四章概率论与数理统计的基础知识本课程使用区靖祥编著的《试验统计学》一书作为课本。全程为50学时，占2学分。第二章常用的试验设计第三章试验数据的整理第五章参数区间估计第八章常用试验设计的资料分析第六章统计假设测验第七章方差分析第九章直线相关与回归第一章绪论第十章协方差分析第二节直线回归方程第一节两随机变量之间的线性关系第九章直线相关与回归在前几章中，所有分析方法都只考虑一种试验指标，即在那些数据资料中，只有一个随机变量。本章中将讨论对两个随机变量之间的线性关系进行分析的方法：直线相关分析和直线回归分析的基本概念和方法。

第一节两随机变量之间的线性关系实践中我们常常要考虑两个随机变量之间的关系，

例如观察一群人的体高(x)和体重(y)，欲研究他们的体高与体重之间的关系等。变量间最简单的关系是线性关系。两随机变量之间的线性关系可以用散点图直观地表示出来。试观察表9.1中三组数据以及它们的散点图（见图1.1）。表9.1为说明两变量之间的线性关系而假设的三组（x，y）观察值组别变量观

察

值平均数平方之和第一组15961319468第二组x29877653311y29986654311第三组x31133567789y39986654311

第一组数据第二组数据第三组数据

abc

图9.1三组假设数据的散点图在第一组数据的散点图中，各点的位置很分散，

x1和y1之间没有明显的线性关系。

在第二组数据中，随着x2数值的增大，

y2值有增加的趋势。在第三组数据中，随着x3数值的增大，

y3值有减少的趋势。下面讨论用怎样的量可以表达两变量之间的这种关系。第一节两随机变量之间的线性关系

第一组数据第二组数据第三组数据

abc

图9.1三组假设数据的散点图

在上面的三个散点图中，分别过各自的重心，即坐标（，）作纵轴线和横轴线，将各图分为Ⅰ、

Ⅱ、Ⅲ和Ⅳ等四个象限。

在第一组数据中四个象限的点的数目相差不多。

在第二组数据中，大部分的点分布在的Ⅰ和Ⅲ象限。

在第三组数据中，大部分的点分布在Ⅱ和Ⅳ象限。

不论在哪一幅图中，有四条规律是共同的：⑴第Ⅰ象限的点

＞0，＞0，＞0；⑵

第Ⅱ象限的点

＜0，＞0，＜0；⑶第Ⅲ象限的点

＜0，＜0，＞0；⑷第Ⅳ象限的点

＞0，＜0，＜0；其中是两变量的离均差的乘积。如果将各组数据中所有观察值的离均差的乘积都加起来，可以发现离均差乘积和很接近于0离均差乘积和大于0离均差乘积和小于0可见，离均差乘积和能很好地衡量两个变量之间的线性关系。记两变量之间的离均差乘积和(sumofproducts)为，或简记为。第一节两随机变量之间的线性关系表9.1为说明两变量之间的线性关系而假设的三组（x，y）观察值组别变量观

察

值平均数平方之和第一组15961319468第二组x29877653311y29986654311第三组x31133567789y39986654311利用定义，可将上面三组数据的离均差乘积和算出为：SP1

＝(7－5)(5－5.2)＋…＋(1－5)(8－5.2)＝2

SP2

＝

(9－5)(9－5.2)＋…＋(1－5)(1－5.2)＝75SP3

＝(1－5)(9－5.2)＋…＋(9－5)(1－5.2)＝

－74离均差乘积和的定义式为：第一节两随机变量之间的线性关系表9.1为说明两变量之间的线性关系而假设的三组（x，y）观察值组别变量观

察

值平均数平方之和第一组15961319468第二组x29877653311y29986654311第三组x31133567789y39986654311为了减少四舍五入引进的计算误差，可将上式变换成离均差乘积和的定义式为：其中称为校正项，有时记为C。因此离均差乘积和的计算公式为：利用此式，计算过程可变为：SP1＝(7×5＋…＋1×8)－(7＋…＋1)(5＋…＋8)/10＝2

SP2＝(9×9＋…＋1×1)－(9＋…＋1)(9＋…＋1)/10＝75SP3＝(1×9＋…＋9×1)－(1＋…＋9)(9＋…＋1)/10＝－74考虑到样本大小的影响，引入协方差的概念。第一节两随机变量之间的线性关系对于总体资料，可以得到总体协方差：离均差乘积和的定义式为：SP1＝(7×5＋…＋1×8)－(7＋…＋1)(5＋…＋8)/10＝2

SP2＝(9×9＋…＋1×1)－(9＋…＋1)(9＋…＋1)/10＝75SP3＝(1×9＋…＋9×1)－(1＋…＋9)(9＋…＋1)/10＝－74对于样本资料，可以得到样本协方差：其中n－1是协方差的自由度。利用此式，计算过程可变为：Cov2＝

Cov

(x2,y2)＝75／(10－1)＝75／9＝8.3333

Cov3＝

Cov

(x3,y3)＝－74／(10－1)＝－74／9＝－8.2222

若

Cov

(x,y)＝0时，变量x与y之间没有线性关系，例如第一组数据的Cov1便非常接近这种情况。如果这三组数据是样本数据，则它们的协方差分别为：Cov1＝

Cov

(x1,y1)＝2／(10－1)＝2／9＝0.2222

协方差是一个有单位的量，例如如果x为体高(cm)，y为体重(kg)，那么协方差的单位为cm.kg。比较两组单位不同的协方差的大小便显得没有意义。例如要讨论体高与血压之间的关系密切还是体重与血压之间关系密切时，用协方差比较就显得无能为力。此外，协方差仍未考虑到两个变量(x和y)自身变异程度的影响，因此将协方差除以两个变量(x和y)的标准差，便导出了相关系数的概念。

总体相关系数为：

样本相关系数为：第一节两随机变量之间的线性关系第一节两随机变量之间的线性关系表9.1为说明两变量之间的线性关系而假设的三组（x，y）观察值组别变量观

察

值平均数平方之和第一组15961319468第二组x29877653311y29986654311第三组x31133567789y39986654311

样本相关系数为：如果上例中的是样本数据，则它们的相关系数分别为：；；。第一节两随机变量之间的线性关系

样本相关系数为：如果上例中的是样本数据，则它们的相关系数分别为：；；。相关系数是没有单位的量。相关系数的定义域为[－1，1]。当相关系数为－1时，两变量为完全负相关；当相关系数为+1时，两变量为完全正相关；当相关系数为0时，两变量为无线性相关；当相关系数在0到+1之间时，两变量为正相关；当相关系数在－1到0之间时，两变量为负相关；如第2组数据的相关系数

r2=0.97721；所以x2

与y2

之间有正的相关关系；如第3组数据的相关系数r3=－0.96418；所以x3与

y3之间有负的相关关系；如第1组数据的相关系数r1=0.0261；所以x1与

y1之间就几乎没有线性相关关系。如果只关心两个变量之间的关系密切程度，而不关心这种关系的正负时，可以考察相关系数的平方值。相关系数的平方值称为决定系数。上例中三个样本的决定系数分别为：

可见，第二组中X与Y的关系最为密切；第三组次之；第一组的X和Y基本上没有线性关系。第一节两随机变量之间的线性关系

但是在介绍对相关系数作显著性测验的方法之前，必须特别指出相关系数的偏态型，即当相关系数

不为0时，它不服从正态分布。这使得对相关系数所进行的显著性测验有点特殊：

图9.2展示了利用两个容量为n＝20、样本相关系数分别为

r1＝0

和

r2＝0.8

的样本来对其相应的总体相关系数

1和

2进行估计时的两个不同的置信区间。在欲用样本相关系数对总体相关系数进行估计之前，必须确证不为0，即测验

H0:vsHA:图9.2

0和

0.8

的置信区间

0.8因此，只有当

＝0时，才可以用正态分布或

分布进行显著性测验，而当

≠0

时，要寻找其他方法。

Fisher氏建议对相关系数进行反双曲正切转换，得到的新变量能近似地服从正态分布。即当r＞0时，令；当r

0时，令；则

将近似服从平均数为

z，方差为的正态分布。其中：当

＞0时，；当

0时，。随着样本容量

的增加，向正态逼近的进展更快。第一节两随机变量之间的线性关系第一节两随机变量之间的线性关系对单个样本的相关系数的显著性测验

当要使用一个样本的相关系数

对相应的总体相关系数

进行估计前，须测验HO：

＝0vsHA：

≠0。即只当有理由认为

≠0时，才能用

来估计

。可以用两种统计量来实现这种测验：如上例中的相关系数：；；。误差自由度为dfe＝10－2＝8。t0.05＝2.306，t0.01＝3.356第一组：＝0.35343，｜t｜＝r／sr＝0.02606/0.35343＝0.074＜t0.05；⑴用

测验公式：，将|

|值与t0.05和t0.01比较。其中标准误差为，误差自由度为n－2。第二组：＝0.97721，｜t｜＝r／sr＝0.97721/0.97721＝13.021＞t0.01；第三组：＝0.09378，｜t｜＝r／sr＝0.96418/0.09378＝10.282＞t0.01。第一节两随机变量之间的线性关系对单个样本的相关系数的显著性测验

当要使用一个样本的相关系数

对相应的总体相关系数

进行估计前，须测验HO：

＝0vsHA：

≠0。即只当有理由认为

≠0时，才能用

来估计

。可以用两种统计量来实现这种测验：第一组：＝0.35343，｜t｜＝r／sr＝0.02606/0.35343＝0.074＜t0.05；⑴用

测验公式：，将|

|值与t0.05和t0.01比较。其中标准误差为，误差自由度为n－2。第二组：＝0.97721，｜t｜＝r／sr＝0.97721/0.97721＝13.021＞t0.01；第三组：＝0.09378，｜t｜＝r／sr＝0.96418/0.09378＝10.282＞t0.01。⑵用正态分布公式：，将|

|值与u0.05＝1.96和

u0.01＝2.58

进行比较。这个公式不但可以测验HO：

＝0vsHA：

≠0，也可以测验HO：

＝

0vsHA：

≠

0，其中

0≠0。例如对第二组数据，测验HO：

＝0.98vsHA：

≠0.98

因为r＝

0.97721，所以＝2.23156；又因为

0＝0.98，所以＝2.29756，于是：|

|＝|

z－

z|/

z＝|

2.23156－2.29756

|/(1/)＝0.066×2.6458＝0.1746＜u0.05＝1.96因此可以判断第二组的总体相关系数

与

0＝0.98之间没有显著差异。对于决定系数的测验与对相关系数的测验是等价的，因而通常不单独对决定系数进行测验。对两个相关系数差异显著性的测验

当如果有两个样本相关系数r1和r2，它们所来自的总体相关系数分别为

1和

2。现在想通过样本的情况测验两个总体相关系数

1和

2是否相等，即要测验HO：

1＝

2vsHA：

1≠

测验的方法是先将两个相关系数按反双曲正切公式转换为z，然后进行u

测验。需要计算的统计量是：，其中标准误差为将算出的|

|值与u0.05＝1.96

和

u0.01＝2.58进行比较。当｜u｜＜1.96时判断两相关系数间差异不显著；当｜u｜＞1.96时判断两相关系数间差异显著；当｜u｜＞2.58时判断两相关系数间差异极显著。

第一节两随机变量之间的线性关系

如果两样本所来自的两个二元总体的相关系数

1和

2和之间没有显著差异，便可以认为它们都来源于同一个相关系数为

的二元总体。从而可以将两个样本合并，对

进行估计。

的估计式为：其中和分别为两样本的离均差乘积和；和分别为两样本中的变量

x离均差平方和；和分别为两样本中的变量

离均差平方和。第一节两随机变量之间的线性关系第一节两随机变量之间的线性关系对两个相关系数差异显著性的测验

当如果有两个样本相关系数r1和r2，它们所来自的总体相关系数分别为

1和

2。现在想通过样本的情况测验两个总体相关系数

1和

2是否相等，即要测验HO：

1＝

2vsHA：

1≠

测验的方法是先将两个相关系数按反双曲正切公式转换为z，然后进行u

测验。需要计算的统计量是：，其中标准误差为将算出的|

|值与u0.05＝1.96

和

u0.01＝2.58进行比较。当｜u｜＜19.6时判断两相关系数间差异不显著；当｜u｜＞1.96时判断两相关系数间差异显著；当｜u｜＞2.58时判断两相关系数间差异极显著。

例9.1测验两个杉树品种的胸围尺寸(x)与植株高度(y)的数据资料如表9.2所示。试求这两品种中胸围尺寸(x)与植株高度(y)之间的相关系数，并对它们进行比较。表9.2

两个杉树品种的胸围尺寸(x)与植株高度(y)

品种观察值

x9294959799101104109111y676870727479838490B

x8183848890929499

y5458596365687475

第一节两随机变量之间的线性关系对两个相关系数差异显著性的测验

当如果有两个样本相关系数r1和r2，它们所来自的总体相关系数分别为

1和

2。现在想通过样本的情况测验两个总体相关系数

1和

2是否相等，即要测验HO：

1＝

2vsHA：

1≠

测验的方法是先将两个相关系数按反双曲正切公式转换为z，然后进行u

测验。需要计算的统计量是：，其中标准误差为将算出的|

|值与u0.05＝1.96

和

两个杉树品种的胸围尺寸(x)与植株高度(y)

品种观察值

x9294959799101104109111y676870727479838490B

x8183848890929499

y5458596365687475

第一步：分别计算两个相关系数并测验其显著性：对于第一品种：r＝0.9806；sr＝＝0.0741

t＝0.9806／0.0741＝13.23＞u0.01＝2.58。相关极显著。

对于第二品种：r＝0.9692；sr＝＝0.1006

t＝0.9692／0.1006＝9.6333＞u0.01＝2.58。相关极显著。

第一节两随机变量之间的线性关系对两个相关系数差异显著性的测验

当如果有两个样本相关系数r1和r2，它们所来自的总体相关系数分别为

1和

2。现在想通过样本的情况测验两个总体相关系数

1和

2是否相等，即要测验HO：

1＝

2vsHA：

1≠

测验的方法是先将两个相关系数按反双曲正切公式转换为z，然后进行u

测验。需要计算的统计量是：，其中标准误差为将算出的|

|值与u0.05＝1.96

和

两个杉树品种的胸围尺寸(x)与植株高度(y)

品种观察值

x9294959799101104109111y676870727479838490B

x8183848890929499

y5458596365687475

第一步：分别计算两个相关系数并测验其显著性：对于第一品种：r＝0.9806；sr＝＝0.0741

t＝0.9806／0.0741＝13.23＞u0.01＝2.58。相关极显著。

对于第二品种：r＝0.9692；sr＝＝0.1006

t＝0.9692／0.1006＝9.6333＞u0.01＝2.58。相关极显著。

将第一组的相关系数转换为＝2.3125；将第二组的相关系数转换为＝2.0782；第二步：测验两个相关系数间的差异是否显著标准误差为＝0.6055，于是有u

＝(2.3125－2.0785)／0.6055

＝

0.5442＜u0.05

＝

1.96。可以推断两个品种的高度与胸围间的相关系数是一致的。合并的相关系数的估计值为：=0.9756。如果某总体的两变量x，y之间有线性关系：

yi＝

＋

xi＋

称为总体模型的回归截距，

称为总体回归系数，

i为随机误差。

如果总体中N

对观察值都已知，可以利用数学中求极值的方法解出

和

而使得误差方差为最小。因为误差平方和为分别求Q

对

和

的偏导数，并使之为0：第二节直线回归方程

整理得正规方程组：

解此正规方程就可得到能令Q值最小的

和

值。现在看看如何解这个方程组从此总体中抽取大小为

的样本，欲用它得到样本模型：，用

a估计

，用b

估计

，用估计

，其中a

称为样本模型的回归截距，b

称为样本回归系数。为了使估计误差的平方之和Q最小，在下面的正规方程中，用a来代替

，用b来代替

，得到正规方程组：解正规方程组：

(3)式各项乘：(1)式除以

得：(2)-(5)式得：或：于是：于是：直线回归方程便已求出为：第二节直线回归方程直线回归方程：中，可以算得：例9.2

已知10对观察值如表9.3所示，试求

在

上的线性回归方程。第二节直线回归方程用数据求得：于是直线回归方程求得为：如果测得一个新的个体，其x值为4，可以利用这条回归方程来预测其相应的

值：只要求出两点的坐标，求可以做出直线的图。最方便的两点是：(0,－0.1973094)和(

5.0,

5.2)。回归截距为－0.1973094

直线通过平均数交点。回归系数为1.058296。

它是回归线与轴交

角

的正切：即

。第二节直线回归方程于是直线回归方程求得为：对此统计假设有两种测验方法：所以在欲用样本回归模型对总体回归模型进行估计之前，必须确证总体中两变量之间确实有线性回归关系存在，即测验H0:

＝0vsHA：

≠0

只有在此测验结果为显著时，用

估计

，用

b估计

，用估计

才是有意

人人文库> 全部分类> 专业文献 > 医学资料

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第9章直线相关和回归

文档简介

温馨提示

最新文档

评论

第9章直线相关和回归

文档简介

温馨提示

最新文档

评论

相关文档