




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第九章双变量回归与相关中南大学流行病与卫生统计学系
颜艳
教授流行病与卫生统计学双变量回归与相关第1页2
第一节
直线回归
第二节
直线相关
第三节
秩相关
本章讲课内容流行病与卫生统计学双变量回归与相关第2页3第一节
直线回归流行病与卫生统计学双变量回归与相关第3页4一、直线回归概念
目标:研究应变量Y对自变量X数量依存关系。资料:双变量计量资料,即每个个体有两个变量值。特点:统计关系。X值和Y均数关系,不一样
于普通数学上X和Y函数关系。流行病与卫生统计学双变量回归与相关第4页5回归模型前提假设线性(linear)独立(independent)正态(normal)等方差(equalvariance)
恰好为“LINE”。
流行病与卫生统计学双变量回归与相关第5页6给定X时,Y是正态分布、等方差示意图XY流行病与卫生统计学双变量回归与相关第6页7给定X时,Y是正态分布、不等方差示意图XY流行病与卫生统计学双变量回归与相关第7页8
表9-18名正常儿童年纪X
(岁)与尿肌酐含量Y(mmol/24h)
自变量反应变量
例9-1
某地方病研究所调查了8名正常儿童尿肌酐含量(mmol/24h)如表9-1。预计尿肌酐含量(Y)对其年纪(X)回归方程。流行病与卫生统计学双变量回归与相关第8页9
尿肌酐含量
Y
随年纪
X增加而增大且呈直线趋势,但8个点并非恰好全都在一直线上,此与两变量间严格直线函数关系不一样,称为直线回归,其方程叫直线回归方程,以区分严格意义直线方程。
简单回归流行病与卫生统计学双变量回归与相关第9页10
直线回归方程普通表示式为
为各X处Y总体均数预计。流行病与卫生统计学双变量回归与相关第10页11(年纪)(身高)流行病与卫生统计学双变量回归与相关第11页12a
意义a
截距或常数项(intercept,constant)X=0时,Y预计值a单位与Y值相同流行病与卫生统计学双变量回归与相关第12页13b
意义回归系数b称为斜率(slope),其统计学意义是:X
每增加(减)一个单位,Y
平均改变b个单位。
b
单位为(Y单位/X单位)流行病与卫生统计学双变量回归与相关第13页14残差(residual)或剩下值,即实测值Y与假定回归线上预计值
纵向距离
。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势直线。二、直线回归方程求法
流行病与卫生统计学双变量回归与相关第14页15
意义
为残差:点到直线纵向距离。流行病与卫生统计学双变量回归与相关第15页16点到直线距离1112131415165.05.56.06.5标准:最小二乘法(leastsumofsquares),即可确保各实测点至直线纵向距离平方和最小流行病与卫生统计学双变量回归与相关第16页17
流行病与卫生统计学双变量回归与相关第17页18
①先作散点图,以判断两变量间是否呈线性趋势流行病与卫生统计学双变量回归与相关第18页19②求直线回归方程流行病与卫生统计学双变量回归与相关第19页20流行病与卫生统计学双变量回归与相关第20页21③绘制回归直线
在自变量实测范围内远端取易于读数X值代入回归方程得到一个点坐标,连接此点与点
也可绘出回归直线。
此直线必定经过点
且与纵坐标轴相交于截距a。流行病与卫生统计学双变量回归与相关第21页22三、直线回归中统计推断流行病与卫生统计学双变量回归与相关第22页23(一)回归方程假设检验
建立样本直线回归方程,只是完成了统计分析中两变量关系统计描述,研究者还须回答它所来自总体直线回归关系是否确实存在,即是否对总体有
?流行病与卫生统计学双变量回归与相关第23页24流行病与卫生统计学双变量回归与相关第24页251.方差分析
流行病与卫生统计学双变量回归与相关第25页26因变量总变异分解XP
(X,Y)Y流行病与卫生统计学双变量回归与相关第26页27Y总变异分解总变异SS总回归平方和SS回剩下平方和SS剩数理统计可证实:流行病与卫生统计学双变量回归与相关第27页28流行病与卫生统计学双变量回归与相关第28页29流行病与卫生统计学双变量回归与相关第29页30父母身高与儿女身高:遗传+其它原因政治经济环境文化流行病与卫生统计学双变量回归与相关第30页31
假如两变量间总体回归关系确实存在,回归贡献就要大于随机误差,大到何种程度时能够认为含有统计意义,可计算统计量F。流行病与卫生统计学双变量回归与相关第31页32式中流行病与卫生统计学双变量回归与相关第32页332.t检验流行病与卫生统计学双变量回归与相关第33页34
例9-2
检验例9-1数据得到直线回归方程是否成立?
流行病与卫生统计学双变量回归与相关第34页35(1)方差分析流行病与卫生统计学双变量回归与相关第35页36
表9-2方差分析表
列出方差分析表如表9-2。流行病与卫生统计学双变量回归与相关第36页37(2)t检验流行病与卫生统计学双变量回归与相关第37页38注意:
流行病与卫生统计学双变量回归与相关第38页39(二)总体回归系数
可信区间
利用上述对回归系数t检验,能够得到β1-α双侧可信区间为流行病与卫生统计学双变量回归与相关第39页40
例9-3
依据例9-1中所得b=0.1392,预计其总体回归系数双侧95%可信区间。流行病与卫生统计学双变量回归与相关第40页41(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)流行病与卫生统计学双变量回归与相关第41页42第二节
直线相关流行病与卫生统计学双变量回归与相关第42页43问题提出人体重往往伴随身高增加而增加。二者之间是否存在某种关联?假如存在,亲密程度怎样?人肺活量往往伴随胸围增加而增加。举重运动员所能举起最大重量是否与他体重相关?流行病与卫生统计学双变量回归与相关第43页44
直线相关又称简单相关,用于双变量正态分布资料。其性质可由图9-6散点图直观说明。
目标:研究
两个变量X、Y数量上依存(或相关)
关系。
特点:统计关系一、直线相关概念流行病与卫生统计学双变量回归与相关第44页45二、相关系数意义与计算
1.意义:相关系数(correlationcoefficient),Pearson积差相关系数,用来说明含有直线关系两变量间相关亲密程度与相关方向。流行病与卫生统计学双变量回归与相关第45页46流行病与卫生统计学双变量回归与相关第46页47积差相关系数特点一个无量纲数值
;取值范围:-1<r<1
;r>0为正相关
r<0为负相关
r=0为零相关或无相关;|r|越靠近于1,说明相关性越好,
|r|越靠近于0,说明相关性越差。
流行病与卫生统计学双变量回归与相关第47页482.计算:(9-18)
流行病与卫生统计学双变量回归与相关第48页49
例9-5
对例9-1数据(见表9-1),计算8名儿童尿肌酐含量与其年纪相关系数。流行病与卫生统计学双变量回归与相关第49页50三、相关系数统计推断(一)相关系数假设检验(9-19)流行病与卫生统计学双变量回归与相关第50页51
例9-6
对例9-5所得
r值,检验尿肌酐含量与年纪是否有直线相关关系?流行病与卫生统计学双变量回归与相关第51页52检验步骤本例n=8,r=0.8818,按公式(9-19)流行病与卫生统计学双变量回归与相关第52页53(二)总体相关系数可信区间(自学)
流行病与卫生统计学双变量回归与相关第53页54步骤(了解)流行病与卫生统计学双变量回归与相关第54页55
例9-7对例9-5所得r值,预计总体相关系数95%可信区间。
再按公式(9-22)将z作反变换,得到年纪与尿肌酐含量总体相关系数95%可信区间为(0.4678,0.9971)。
流行病与卫生统计学双变量回归与相关第55页56四、决定系数(coefficientofdetermination)
定义为回归平方和与总平方和之比,计算公式为:(9-23)
取值在0到1之间且无单位,其数值大小反应了回归贡献相对程度,也就是在Y总变异中回归关系所能解释百分比。
流行病与卫生统计学双变量回归与相关第56页57流行病与卫生统计学双变量回归与相关第57页58流行病与卫生统计学双变量回归与相关第58页59五、直线回归与相关应用注意事项
流行病与卫生统计学双变量回归与相关第59页60
1.依据分析目标选择变量及统计方法直线相关用于说明两变量之间直线关系方向和亲密程度,X与Y没有主次之分;直线回归则深入地用于定量刻画应变量Y对自变量X在数值上依存关系,其中应变量定夺主要依专业要求而定,能够考虑把易于准确测量变量作为X,另一个随机变量作Y,比如用身高预计体表面积。两个变量选择一定要结合专业背景,不能把毫无关联两种现象勉强作回归或相关分析。流行病与卫生统计学双变量回归与相关第60页61线性相关应用中应注意问题
样本相关系数靠近零时并不意味着两变量间一定无相关性;r=0流行病与卫生统计学双变量回归与相关第61页62线性相关应用中应注意问题
一个变量数值人为选定时莫作相关;
如:为研究药品剂量-反应关系,人们选定n种剂量,观察每种剂量下动物反应;
如:探索化学反应适宜条件,人们选定几个温度,观察各温度下生成物数量。
流行病与卫生统计学双变量回归与相关第62页63线性相关应用中应注意问题
相关未必真有内在联络;有统计学意义不等于有实际意义。流行病与卫生统计学双变量回归与相关第63页642.进行相关、回归分析前应绘制散点图
(1)
散点图可考查两变量是否有直线趋势;(2)
发觉离群值(outlier)时慎用相关;。流行病与卫生统计学双变量回归与相关第64页653.资料要求
直线相关分析要求
X与Y服从双变量正态分布;
直线回归要求最少对于每个
X对应
Y要服从正态分布,X能够是服从正态分布随机变量也能够是能准确测量和严格控制非随机变量;*对于双变量正态分布资料,依据研究目标可选择由
X预计
Y或者由
Y预计
X,普通情况下两个回归方程不相同)。流行病与卫生统计学双变量回归与相关第65页66
反应两变量关系亲密程度或数量上影响大小统计量应该是回归系数或相关系数绝对值,而不是假设检验P值。P值越小只能说越有理由认为变量间直线关系存在,而不能说关系越亲密或越“显著”。另外,直线回归用于预测时,其适用范围普通不应超出样本中自变量取值范围。4.结果解释及正确应用
流行病与卫生统计学双变量回归与相关第66页67第三节
秩相关
(非参数统计方法)
流行病与卫生统计学双变量回归与相关第67页68适用条件:
双变量计量资料:①资料不服从双变量态分布;②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)资料;
原始数据(一个或两个变量值)用等级表
示资料。流行病与卫生统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025企业合同管理规范模板:合同管理制度实施条例
- 2025关于中外合作经营合同
- 2025医疗设备购销合同模板
- 2025企业设备融资租赁合同模板下载
- 河北省石家庄市2023−2024学年高二下册数学期末考试数学试卷附解析
- 2025年中考语文(长沙用)课件:复习任务群5 语言的连贯、得体
- 2024~2025学年 浙江省高一语文上册期中试卷附答案
- 涉外法律文书认证分析基础知识点归纳
- 2025年药学专业知识与技能培训试题
- 幼儿园保育工作相关表格与工作制度:幼儿园班级幼儿晨检及全日观察登记表
- 信息技术与课堂教学深度融合开题报告
- 临床提升手护温度 共筑人文关怀-手术室患者人文关怀管理规范实践
- 江苏南京历年中考作文题与审题指导(2002-2024)
- 3.1.1 椭圆的标准方程(同步课件含动画演示)
- 绿色施工评价标准【B.0.2 环境保护要素评价表】
- 离婚协议书正规打印(2025年版)
- 稀土元素常考题及答案
- 25春国家开放大学《马克思主义基本原理》专题测试1-8参考答案
- 2025年广州市越秀区五下数学期末综合测试模拟试题含答案
- 《新能源材料概论》 课件 第1章 光电转换新能源材料
- 《桥梁安全检测》课件
评论
0/150
提交评论