版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二节相关系数
相关分析的目的在于通过相关系数r来描述和度量两变量线性联系的程度和方向。
r>0正相关图例1r<0负相关图例2r=0零相关图例3
零相关即两变量间无关。样本相关系数不等于零,并不表示总体相关系数不等于零,还要作显著性检验。next第1页/共39页第一页,共40页。r=0.7495回第2页/共39页第二页,共40页。r=-0.83597回第3页/共39页第三页,共40页。第4页/共39页第四页,共40页。
相关系数的计算:
X和Y的离均差积和X的离均差平方和第5页/共39页第五页,共40页。
相关系数的显著性检验
样本相关系数的标准误查t界值表,得P值第6页/共39页第六页,共40页。
例6.1极谱法和碘量法测定水中溶解氧的含量,两法的测得值是否有相关性?
两法的测得值有相关(P<0.01)第7页/共39页第七页,共40页。
第三节直线回归方程目的:找出描述x与y依存关系的直线方程。Y为应变量(dependentvariable)X为自变量(independentvariable)A为截距(intercept)b为回归系数(regressioncoefficient)回归系数b表示x每改变一个单位,y平均改变b个单位。第8页/共39页第八页,共40页。Y=10x+5
=4.22+0.20x体重心脏横径第9页/共39页第九页,共40页。
设有n对x,y的观察值,先在直角坐标系中作散点图,如果散点的分布呈直线趋势,则可设法求出直线方程。通常用最小二乘法,依据:各点与该直线的纵向距离的平方和为最小先由(6.3)式求得b,再由(6.4)式求得a,就得出直线回归程。
第10页/共39页第十页,共40页。xy最小第11页/共39页第十一页,共40页。回归系数的显著性检验
从样本资料中算得的回归系数b,也有抽样误差,因此需作显著性检验,检验其是否是回归系数为零的总体中抽得的。
H0:β=0H1:β≠0。当拒绝H0时,可认为x与y间的直线回归方程有统计学意义。显著性检验可有两种方法:t检验法和方差分析法。第12页/共39页第十二页,共40页。
t检验法:样本回归系数的标准误剩余标准差估计误差平方和第13页/共39页第十三页,共40页。方差分析法:Y的总变异X和Y的线性关系引起的变异误差引起的变异回归平方和误差平方和第14页/共39页第十四页,共40页。总的自由度:n-1(总例数减1)回归自由度:1(自变量个数)误差自由度:n-2(总的自由度减去回归自由度)df1=1,df2=n-2查方差分析用的F界值表,得P值第15页/共39页第十五页,共40页。例6.2
研究正常男性年龄与运动后最大心率的关系,求直线回归方程。第16页/共39页第十六页,共40页。直线回归相关分析的注意事项:
1.相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证。因此,把两个毫无关系的事物放在一起作相关分析是毫无意义的。同样,作回归分析也要有实际意义。
第17页/共39页第十七页,共40页。第18页/共39页第十八页,共40页。直线回归相关分析的注意事项:在进行直线回归前应绘制散点图,有直线趋势时,才适宜作直线回归分析。散点图还能提示资料有无异常点。3.直线回归方程的适用范围一般以自变量的取值范围为限。第19页/共39页第十九页,共40页。直线回归相关分析的注意事项:
4.对同一组资料作回归和相关分析,其相关系数和回归系数的显著性检验结果完全相同。由于相关系数的显著性检验结果可直接查表,比较方便;而回归系数的显著性检验计算复杂,故在实际应用中常用相关系数的显著性检验结果代替回归系数的显著性检验。第20页/共39页第二十页,共40页。直线回归相关分析的注意事项:5.在资料要求上:相关分析要求两个变量服从双变量正态分布。回归分析要求因变量服从正态分布,自变量可以是精确测量和严格控制的变量。如两个变量服从双变量正态分布,则可以作两个回归方程,用X推算Y,或用Y推算X。
第21页/共39页第二十一页,共40页。第五节过定点的直线回归
医学研究中在拟合直线时,除了要求与观察点尽量接近外,还常常要求必须经过某定点(m,n)。例如在光电比色、荧光分析、火焰光度测定以及同位素测定等实验方法绘制标准直线时就常有这样的要求。此定点也可以是(m,0),(0,n)或(0,0)等,尤以(0,0)为最常见。计算公式和实例见第116页。第22页/共39页第二十二页,共40页。第六节直线相关与回归的SAS程序SAS的CORR过程可用于求变量之间的线性相关系数及偏相关系数。;
SAS的REG过程可用于各种线性回归分析,包括多元回归(见第七章),逐步回归和最优子集回归(见第八章)等。第23页/共39页第二十三页,共40页。第七章多元回归及相关第一节多元线性回归的基本概念
事物间的相互联系往往是多方面的,在很多情况下对应变量y发生影响的自变量往往不止一个。多元线性回归的目的就是用一个多元线性回归方程表示多个自变量和1个应变量间的关系。:截距:标准偏回归系数标准偏回归系数表示其他自变量固定的情况下,xi改变一个单位,y平均改变bi个单位。第24页/共39页第二十四页,共40页。多元线性回归的应用条件:1.独立性:各观察对象间相互独立。2.线性:自变量与应变量间的关系为线性。正态性:自变量取不同值时,应变量的分布为正态。方差齐性:自变量取不同值时,应变量的总体方差相等。当不符合条件时,可对自变量进行变换。如:第25页/共39页第二十五页,共40页。第二节多元回归的计算
1.计算截距和各偏回归系数。2.多元回归方程的显著性检验:(1)整个方程的显著性检验:用方差分析。(2)对各偏回归系数的显著性检验:F检验:去掉xj后回归平方和的减少是否显著。t检验:回归系数除以它的标准误。第26页/共39页第二十六页,共40页。第三节标准偏回归系数
要比较各个自变量对于应变量的作用大小,不能用偏回归系数,因为各偏回归系数的单位不同。必须把偏回归系数标准化,化成没有单位的标准偏回归系数,公式为:
消除不同单位的影响后,标准偏回归系数的绝对值越大,该自变量对于应变量的作用越大,但该差别是否有统计意义,也必须经过检验。第27页/共39页第二十七页,共40页。第四节偏相关系数
相关系数r应称为简单相关系数,因为它只考虑了x1和
x2之间的相互影响,而未注意到其他变量对x1和x2可能有的影响。事实上,客观事物间的关系是错综复杂的,变量之间的相互影响也往往是多种多样的。例如,当存在x1,x2,x3三个变量时,如果我们不考虑x3
,而只对x1,x2计算其相关系数r,则这r的大小往往不反映客观真实情况;如r很大,可能意味着x1,x2之间的关系很密切,但也可能实际上x1,x2之间并无什么关系,而x3却对x1,x2能同时发挥很大的影响,我们所看到的较大r值不过是x3对x1的作用和x3对x2的作用的客观表现而已。反之,x1,x2之间算得的一个小r值,也不一定就意味着x1,x2之间的关系确实薄弱,也有可能x1,x2之间虽有关联,但此关联性却被x3对它们的作用所抵消,以致被掩盖了。第28页/共39页第二十八页,共40页。
因此在较单纯的情况下,如果x1,x2与周围其他变量没什么关系的话,则用简单相关系数来表示x1,x2之间的相关性是可行的;如果存在着对x1,x2关系密切的其他变量,则r就不能确切地表示x1,x2之间的真实关系,这就需要用到偏相关系数。所谓偏相关系数指的是当把x1,x2以外的其他变量对它们的影响都扣除掉(或平衡掉)以后,x1,x2之间的相关系数。表示把x3的作用扣除掉以后x1
和x2的偏相关系数表示把x3和x4的作用扣除掉以后x1
和x2的偏相关系数
偏相关系数可从简单相关系数计算得到,也要作显著性检验。第29页/共39页第二十九页,共40页。第五节多元相关系数及决定系数
在多元回归中可算得一个多元相关系数,用R表示,它是y与之间的简单相关系数,也可理解为y与自变量组合之间的相关系数。
R2称为多元回归方程的决定系数,即y的变异中可由方程中的自变量组合所决定的部分。
R2值介于0~1之间,R2越接近1,说明回归方程的效果越好。R2越接近0,说明回归方程的效果越差,即y的变异中只有很少一部分能由方程中的自变量组合所决定,即使该方程有显著意义,也不能认为该方程的效果可以令人满意,启示我们还应进一步寻找其他对y可能有显著作用的变量或变量组合。R2也可用于检验多元回归方程的显著性。第30页/共39页第三十页,共40页。第六节多元回归在医学中的应用
1.一。根据较易测得的自变量推算不易测得的应变量如:用身高,体重推算体表面积。二。确定各自变量xi取不同值时,y的正常值范围如:建立一个由身高,体重推算心象面积的多元回归方程,利用此方程就可分别求出身高,体重取不同值的组合时,心象面积的正常值范围。三。预测预报如:建立心肌梗塞预报方程或脑卒中预报方程。四。回顾推断如:推断死亡时间。
第31页/共39页第三十一页,共40页。第七节多元回归及相关的SAS程序
求偏相关系数用CORR过程。求多元回归及相关用REG过程。第32页/共39页第三十二页,共40页。第八章逐步回归及最优子集回归第一节逐步回归分析一.逐步回归分析的基本概念逐步回归分析的目的是建立“最优”回归方程。
“最优”回归方程是指包含所有对y有显著作用的自变量,而不包含对y作用不显著的自变量的方程。第33页/共39页第三十三页,共40页。二.逐步回归分析的计算方法在供选的自变量Xi中,按其对y的作用大小,由大到小地把自变量逐个引入方程,每引入一个自变量就对它作显著性检验,显著时才引入,而当新的自变量进入方程后,对方程中原有的自变量也要作检验,并把作用最小且退化为不显著的自变量逐个剔出方程。因此,逐步回归的每一步(引入一个变量或剔除一个变量都称为一步)前后都要作显著性检验,以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去,直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。第34页/共39页第三十四页,共40页。逐步回归分析方法示意:yx1、x2、x3、……
xmxjXj是否显著结束引入方程方程内自变量中选择对y作用最小的xi剔除方程外:作用最大的自变量:第35页/共39页第三十五页,共40页。第三节最优子集回归回归方程优劣的评价:(P为选入方程的自变量数)1.剩余标准差最小:2.变异系数最小:3.复相关系数最大:4.校正R2最大:5.cp统计量最小第36页/共39页第三十六页,共40页。第三节最优子集回归
把一切可能自变量组合的方程都求出来,然后选出一个符合最优标准的回归方程。这个方法称为最优子集回归。y~x1y~x2y~x3y~x1、x2y~x1、x3y~x2、x3y~x1、x2、x3最优回归准则:(1)R2最大:只能用于相同个数自变量方程间的比较。(2)校正R2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Python基础与大数据应用(第2版)(微课版) 教案 单元 11 Python 可视化与可视化工具
- 第8章 团队领导行为
- 2026房地产市场展望
- 军事定向越野识图与路线选择训练大纲
- 四川省绵阳市2026年九年级中考一模历史试卷附答案
- 家庭农场经营绩效的评估与提升研究报告
- T∕CNLIC 0195-2025 健康家居 电冰箱果蔬健康存储评价规范
- 医生临床考试试题及答案
- 2024-2025学年浙江省9+1高中联盟高二(下)期中信息技术试卷试卷(含答案)
- 慢性颈肩腰腿痛中西医诊疗指南 (2026 版)
- 俄语拼音教学课件
- 2025年高考湖南卷物理真题(解析版)
- 【Aspen流程模拟二甲基亚砜生产的案例1200字】
- 煤巷掘进工作面防突专项设计
- 高中数学统计试题及答案
- 幸福心理学-(彭凯平)
- DB32-T 4289-2022 安全生产培训机构教学服务规范
- 统计用产品分类目录
- 2024年高考真题江苏卷化学试题(原卷版)
- 连云港市社会组织促进会微信公众号策划方案
- 2025高考物理步步高同步练习必修3练透答案
评论
0/150
提交评论