




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八章 线 性 相 关前面着重于描述某一变量的统计特征或比较该变量的组间差别两个随机变量之间的关系:如体重与肺活量、年龄与血压是否存在线性联系?正向还是负向?联系的程度?线性相关(linear correlation):线性联系?方向?程度?8.1 线 性 相 关 概 念1 独立随机的双变量正态分布样本 讨论两个变量X和Y的相关性。样本:独立的、成对的观察值 (x1,y1),(x2,y2),(xn,yn)1 / 23例8.1 为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如表8.1所示。表8.1 20对父子
2、的身高(cm)数据编号1 2 3 4 5 6 7 8 9 10父高X150 153 155 158 161 164 165 167 168 169子高Y159 157 163 166 169 170 169 167 169 170编号11 12 13 14 15 16 17 18 19 20父高X170 171 172 174 175 177 178 181 183 185子高Y173 170 170 176 178 174 173 178 176 180问如何保证这是一份可供讨论线性相关的合格样本?解 (1)随机抽取;(2)互相独立? 2 散点图 (scatter plot) 座标轴:分别表
3、示两个变量; n个点:构成一幅散点图(图8.1) 图8.2 典型散点图图(a)和(c),正相关(positive correlation) 图(b)和(d),负相关(negative correlation)图(e) 、(f) 、(g),Y和X无关联图 (h),可能存在曲线型联系。通常所说的相关就是线性相关,(e)到(h)均属不相关对于不相关的情形,宜进一步澄清是否为曲线关系8.2 相 关 系 数Pearson积矩相关系数(product-moment correlation coefficient) 对双变量正态分布变量X和Y (8.1)总体相关系数,记为rr0,X和Y无线性相关或零相关(n
4、ull correlaton)r >0, 正相关r <0, 负相关r1或-1, 完全相关(罕见!)。样本相关系数,记为r对于n对随机样本,X和Y的样本协方差: (8.2)lxy:X与Y的离均差乘积和若所有离均差乘积平均后接近零,则表明部份个体的X和Y同方向,部份个体的X和Y反方向,总的说来,诸个体各循其道,杂乱无章相反,若离均差乘积平均后为正,且距零较远,则表明多数个体的X和Y同方向,即正相关;若离均差乘积平均后为负,且距零较远,则表明多数个体的X和Y反方向,即负相关。协方差的大小与X,Y的取值单位有关,不同问题中的协方差不可比较。相关系数:X和Y分别标准化之后的协方差。数值介于-
5、1和+1之间,且没有单位 (8.3) lxx: X的离均差平方和 lyy:Y的离均差平方和例8.2 试计算例8.1中父高X和子高Y的样本相关系数(假定系独立随机双正态样本)。 解 3376, 3407, n=20 571728, 581081, 576161由(8.3)式得到, 8.3 相关系数的统计推断样本相关系数r只是总体相关系数r的一个估计值。样本相关系数也存在变异性。得到线性相关的描述统计量r之后,还有必要对其所来自的总体进行统计推断。1 相关系数的假设检验 H0: r0直接查r界值表或 t检验: v=n-2 (8.4) (8.5) Sr: 样本相关系数r的标准差(也称标准误)。 例8
6、.3 继例8.2中算得r0.9296后,试检验相关是否具有统计学意义。解 (1)直接查r界值表可得到r0.001,18 = 0.679, | r | r0.001,18,P0.001,(2)t 检验H0:r0, H1:r0,a=0.05。查t分布表,得到t0.001,183.922。显然tr3.922,P0.001。故拒绝H0,接受H1,可以认为父子身高之间存在正相关关系。与查表结论相同。2 相关系数的区间估计 (1) 对样本相关系数r作变换 或 (8.6)(tanh为双曲正切函数,tanh-1为反双曲正切函数)(2) 按正态近似原理,得到的1a置信区间 ) (8.7a)缩写为 (8.7b)(
7、3) 上下限作反变换r=tanh z即可得到总体相关系数的1-置信区间。例8.4 例8.2中样本相关系数r0.9296,求总体相关系数r的95%置信区间。解 z=tanh-10.9296=1.6554 的95%置信区间为1.6554(1.1800,2.1308)将其上下限作反变换,得到总体相关系数的95%置信区间为(0.8275,0.9722) 8.4 等 级 相 关有时,原始数据并不服从正态分布或其总体分布未知; 数据中有 “超限值”存在; 数据本身就是等级资料此时采用等级相关(rank correlation)或秩相关非参数统计方法。1 Spearman等级相关 (1)将n对观察值Xi和Y
8、i分别由小到大编秩(数值相同时取平均秩次),以pi表示Xi的秩次;qi表示Yi的秩次(2) di=piqi (3) (8.8)假设检验 H0:rs0, H1:rs0 l 当样本例数n较小时,可用查表法(rs界值表)l 如n>20,也可将rs直接代替式(8.4)和(8.5)中的r作t检验或查r界值表。例8.5 肝癌病因研究,调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量(以最高含量为10), 试作等级相关分析。解 表8.2 等级相关系数计算表 编号(1) 黄曲霉毒素 肺癌死亡率X(相对含量)(2)秩次p(3)Y (1/10万) (4) 秩次q (5)d(6)=(3)-
9、(5)d 2(7)=(6)2 1 2 3 4 5 6 7 8 9 10 0.7 1.0 1.7 3.7 4.0 5.1 5.5 5.7 5.910.0 1 2 3 4 5 6 7 8 910 21.5 18.9 14.4 46.5 27.3 64.6 46.3 34.2 77.6 55.1 3 2 1 7 4 9 6 5 10 8 -2 0 2 -3 1 -3 1 3 -1 2 4 0 4 9 1 9 1 9 1 4合计42第、栏,若有观察值相同,则取平均秩次。第、栏, 求每对秩次的差值d、d2和d2按式(8.8)计算统计量rs本例n10,查rs界值表,得0.02>P>0.01,按
10、0.05水准拒绝Ho,可以认为黄曲霉毒素与肝癌死亡率间存在正相关。2. 相同秩次较多时rs的计算当和中存在相同秩次时,(8.8)式不再适用,应利用秩次和直接计算积矩相关系数。当中不存在相同秩次以及中也不存在相同秩次时,这样算得的和利用(8.8)式计算的结果完全一致。3. r与rs的区别与联系 区别: 积矩相关要求数据服从双变量正态分布,属于参数统计量;等级相关并不要求正态分布,属于非参数统计量。8.5 线性相关分析的注意事项1. 散点图的重要性 并非任何有联系的两个变量都属线性联系。如果从散点图可初步看出变量分布非正态,则应考虑作等级相关而不宜作积矩相关。当散点图中出现异常点(outlier)时要慎重处理。必要时可通过等级相关来减小异常点的不良影响2. 变量取值非随机时莫作相关 例如,为研究药物的剂量-反应关系,人们选定n种剂量,观察每种剂量下动物的反应;又如,摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。此时得到的数据就不是随机样本,即使按样本相关系数的公式计算,所得结果并不接近总体相关系数,而可能因人为选定变量值的范围不同而不同。3. 对相关的解释一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义,难道两者真有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 完形填空:暖心故事-2026年中考英语一轮复习
- CN120205008A 一种用于光伏一体化玻璃釉料的均匀混合搅拌装置
- 铁及其重要化合物(复习讲义)-2026年高考化学一轮复习(山东专用)原卷版
- 天津和平区某中学2024-2025学年八年级上学期期末考试物理试题
- 诗词赏析15首(原卷版)-2023-2024学年八年级语文下学期期
- 人生之舟(第四单元)-2025-2026学年七年级语文上册阅读素养通关训练(解析版)
- 老师不做课件的原因
- 配眼镜基础知识培训课件
- 《外墙外保温系统用建筑密封胶》编制说明
- 2025年度绿色建材砂石料采购合作协议书
- 石油管道保护施工方案
- 2025秋开学典礼 校长引用电影《长安的荔枝》讲话:荔枝尚早,路正长远-在时光中奔跑,用行动送达自己的“长安”
- 中级经济师模拟试题及答案
- 家庭食品卫生知识培训课件
- 无人机应用技术培训教材
- 地铁安保培训课件
- 华中数控车床课件
- 2025年食品安全监督员专业技能考核试题及答案解析
- 七年级初一新生家长会上校长走心讲话:陪孩子一起长大是一场不能重来的旅程
- 企业微信办公使用教程
- 学堂在线 大学历史与文化 章节测试答案
评论
0/150
提交评论