




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学建模与软件实现 第 7 章 相关性分析 相关性分析是指分析两个随机变量之间是否存在一定的关系 相关分析可以发现变量间 的共变关系 包括正向的和负向的共变关系 一旦发现了共变关系就意味着变量间可能存在 两种关系中的一种 1 因果关系 两个变量中一个为因 另一个为果 2 存在公共因子 两 变量均为果 有潜在的共因 很多时候 我们需要寻找这些因果关系 或者是寻找公共因子 相关性研究是非常有用的 它是许多深入研究必备的初始阶段工作 衡量随机变量相关性的度量主要有三种 pearson 相关系数 spearman 相关系数 kendall 相关系数 7 1 Pearson 皮尔逊 相关系数 线形相关分析 皮尔逊 相关系数 线形相关分析 对于二维随机变量 X Y 根据数学期望性质 若X和Y相互独立 且和存在 则有 EXEY 0EXEXYEYE XYEX EY 所以当时 必有 0EXEXYEY X和Y不相互独立 定义 7 1 设 X Y为二维随机变量 称 EXEXYEY 为随机变量X Y的协方差 Covariance 记为 即 Cov X Y Cov X YEXEXYEY 特别地 Cov X XEXEXXEXDX Cov Y YE YEYYEYDY 故方差 是协方差的特例 DXDY 从定义中看到 协方差和变量的量纲有关 我们将随机变量标准化 得 XEX X DX YEY Y DY XY的协方差为 ov CX Y D XD Y 定义 7 2 设 X Y为二维随机变量 称 ov CX Y D XD Y 为随机变量X 的 Pearson 相关系 数 Pearson correlation coefficient 或标准协方差 Standard covariance 记为 Y XY 即 ov XY CX Y D XD Y 定理 7 1 设 0D X 0D Y XY 为 X Y的相关系数 则 1 如果X Y相互独立 则0 XY 2 1 XY 3 1 XY 的充要条件是存在常数使 a b P YaXb1 0a 相关系数 XY 描述了随机变量X Y的线性相关程度 XY 愈接近 1 则X与Y之间愈接 近线性关系 0 XY 为正相关 0 XY 为负相关 一般用下列标准对相互关系进行判定 1 0 95 XY X与Y存在显著性相关 2 0 8 XY X与Y高度相关 3 0 50 8 XY X与Y中度相关 4 0 30 5 XY X与Y低度相关 5 0 3 XY X与Y关系极弱 认为不相关 6 0 XY X与Y无显性相关 1 第 7 章 相关性分析 2 可以证明 1 当两个随机变量不线性相关时 它们并不一定相互独立 它们之间还可能存在其他 的函数关系 2 若 X Y服从二维正态分布 X与不相关和YX与Y相互独立是等价的 且概率密 度中的参数 就是X和Y的相关系数 即 X和Y相互独立的充要条件是0 定义 7 3 若对随机变量X和Y进行了次随机试验 得到样本 n ii X Y 1 2 in 且 1 1 n i i XX n 1 1 n i i Y n Y 则随机变量X和对于这组样本的相关系数 r 为 Y 1 22 11 n ii i nn ii ii XXYY r XXYY 例 7 1 某地 29 名 13 岁男童身高 cm 体重 kg 和肺活量 ml 的数据如下表 试对 该资料中各因素做相关分析 表 7 1 测试数据 编号 身高 cm 体重 kg 肺活量 ml 编号身高 cm 体重 kg 肺活量 ml 1 135 1 32 0 1750 16 153 0 47 2 2350 2 139 9 30 4 2000 17 147 6 40 5 2000 3 163 6 46 2 2150 18 157 5 43 3 2250 4 146 5 33 5 2500 19 155 1 44 7 2750 5 156 2 37 1 2750 20 160 5 37 5 2400 6 156 4 35 5 2000 21 143 0 31 5 1750 7 167 8 41 5 2150 22 149 4 33 9 2250 8 149 7 31 0 1500 23 160 8 40 4 2750 9 145 0 33 0 2500 24 159 0 38 5 2500 10 148 5 37 2 2250 25 158 2 37 5 2000 11 165 5 49 5 3000 26 150 0 36 0 1750 12 135 0 27 6 1250 27 144 5 34 7 2250 13 153 3 41 0 2750 28 154 6 39 5 2500 14 152 0 32 0 1750 29 156 5 32 0 1750 15 160 5 47 2 2250 解 1 数据探索 先做散点图和 Q Q 图 看到变量间基本符合线性相关关系 变量的分布符合正态分布 这 里只给出肺活量和身高的散点图 身高的标准 Q Q 图 其余略 数学建模与软件实现 图 7 1 a 肺活量和身高的散点图 图 7 1 b 身高的标准 Q Q 图 下面作相关性分析 2 建立 SPSS 数据文件 在数据文件中定义变量名 身高为 height 体重为 weight 肺活量为 vc 按顺序输入相应 数值 建立数据文件 如图 7 2 所示 图 7 2 数据文件的变量试图 3 点击主菜单 分析 项 在下拉菜单中点击 相关 项 在右拉式菜单中点击 双 变量 项 系统打开相关分析主对话框 4 在对话框左侧的变量列表中选 身高 体重 和 肺活量 点击向右按钮使之进 入 变量 框 在 相关系数 框中选择相关系数的类型 共有三种 Pearson 为通常所指的 相关系数 Kendell s tau b 为非参数资料的相关系数 Spearman 为非正态分布资料的 Pearson 相关系数替代值 本例选用 Pearson 项 在 显著性检验 框中可选相关系数的单侧 One tailed 或双侧 Two tailed 检验 本例选双侧检验 如图 7 3 图 7 3 相关分析主对话框 5 输出结果及分析 输出结果如表 7 2 所示 表 7 2 相关性分析结果 相关性 身高 cm 体重 kg 肺活量 ml 3 第 7 章 相关性分析 4 Pearson 相关性 1 719 507 显著性 双侧 000 005 身高 cm N 29 29 29 Pearson 相关性 719 1 634 显著性 双侧 000 000 体重 kg N 29 29 29 Pearson 相关性 507 634 1 显著性 双侧 005 000 肺活量 ml N 29 29 29 在 01 水平 双侧 上显著相关 SPSS 软件中 相关性检验的零假设为 0 H0 身高和体重的相关系数为 0 719r 0 00p 所以身高和体重中度相关 结果有统计学 意义 身高和肺活量的相关系数为 0 507r 0 005p 所以身高和体重中度相关 结果有统 计学意义 体重和肺活量的相关系数为 0 634 r0 00p 所以身高和体重中度相关 结果 有统计学意义 相关系数计算两个变量之间的关系 分析两个变量之间线性相关的程度 但是 有时因为 第三个变量的作用 使得相关系数不能反映两个变量间真正的线性程度 例如 上例中 我们 得出肺活量和身高与体重均存在中度的线性关系 但实际上 对相同体重的人分析身高和肺 活量 却没有线性关系 这种情况下 我们可以对变量进行偏相关分析 在偏相关分析中 系 统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制 输出控制 其他变量影响后的相关系数 例 7 2 对例 7 1 中的数据作偏相关性分析 解 使用 SPSS 操作过程如下 1 点击主菜单 分析 项 在下拉菜单中点击 相关 项 在右拉式菜单中点击 偏 相关 项 打开偏相关分析主对话框 2 选 身高 和 肺活量 入 变量 框 选 体重 作为 控制变量 在 显著 性检验 框中选双侧检验 图 7 4 偏相关分析主对话框 3 输出结果及分析 输出结果如表 7 4 所示 表 7 4 偏相关分析结果 相关性 控制变量 肺活量 ml 身高 cm 相关性 1 000 096 显著性 双侧 627 体重 kg 肺活量 ml df 0 26 数学建模与软件实现 相关性 096 1 000 显著性 双侧 627 身高 cm df 26 0 身高和肺活量的相关系数为0 0960 3r 0 627p 所以接收不相关的假设 认为身高 和肺活量无显著的线性关系 此例说明体重因子影响了身高和肺活量之间相关性的分析 7 2 Spearman 斯皮尔曼 秩相关系数 单调性相关分析 斯皮尔曼 秩相关系数 单调性相关分析 为了使用 Pearson 线性相关系数必须假设数据是成对地从正态分布中取得的 并且数据至 少在逻辑范畴内是等间距的 如果这两个条件不符合 一种方法就是采用 Spearman 秩相关系 数来代替 Pearson 线性相关系数进行相关性分析 7 2 1 秩秩 秩 即按数据大小排定的次序号 又称秩次号 编秩就是将观察值按顺序由小到大排列 并用序号代替原始变量值本身 用秩次号代替原始数据后 所得某些秩次号之和 即按某种顺 序排列的序号之和 称为秩和 设有以下两组数据 A 组 4 7 6 4 2 6 3 2 5 2 B 组 1 7 2 6 3 6 2 3 3 7 两组各有 5 个变量值 现在依从小到大的顺序将它们排列起来 并标明秩次 结果如下 A 组 2 6 3 2 4 7 5 2 6 4 B 组 1 7 2 3 2 6 3 6 3 7 秩次 1 2 3 4 5 6 7 8 9 10 原始值中有两个 2 6 分属 A B 组 它们的秩次应是 3 和 4 然而它们的数值本来是同样大 小的 哪组取 3 哪组取 4 呢 我们将它们的平均数 3 4 2 3 5 作为 2 6 的秩次 称 为 平均秩次 这样两组所得的秩次及秩和如下 A 组 3 5 5 8 9 10 秩和为 35 5 B 组 1 2 3 5 6 7 秩和为 19 5 上面 A 组和 B 组中各有五个原始值 按顺序排列 最小值设为 1 再按绝对值大小对余下的 变量逐个排序 最大值为两组变量个数之和 10 依次可得 1 2 3 5 3 5 5 6 7 8 9 10 这10个序号即是秩次 A组秩和等于3 5 5 8 9 10 35 5 B组秩和等于1 2 3 5 6 7 19 5 从两组的原始变量值也可以初步看出 A 组偏大 B 组偏小 现在得出的秩和也是 A 组大于 B 组 与由变量值所观察到的结果一致 7 2 2 秩相关系数秩相关系数 Spearman 秩相关系数通常被认为是排列后的变量秩次之间的 Pearson 线性相关系数 定义 7 4 若对随机变量X和Y进行了n次随机试验 得到样本 ii X Y 1 2 in 设 i X i Y的秩次分别为和且 i p i q 1 n i pp 1 i n 1 n i n 1 i qq ii dpqi 则随机变量X和Y对于这组样本 的秩相关系数 s 为 1 22 11 n ii i s nn ii ii pp qq ppqq 如果没有相同的秩次 则 s 可由下式计算 2 2 6 1 1 i s d n n 随着X和Y越来越接近严格单调的函数关系 Spearman秩相关系数在数值上会越来越大 当X Y有严格单调递增的关系时 它们之间的 Spearman 秩相关系数为 1 反之 当X Y有 严格单调递减的关系时 Spearman 秩相关系数为 1 Spearman 秩相关系数为 0 表示随着X的增 加 没有增大或减小的趋势 Y 5 第 7 章 相关性分析 6 7 3 Kendall 肯德尔 相关系数 肯德尔 相关系数 Kendall 相关系数又称作和谐系数 也是多列变量等级相关系数 Kendall 肯德尔 相关系数 有时也称为评价者信度 一个评价者对个对象评价的秩之和为12NN 1 2N N 所有K个评价者对所 有对象评价的总秩为KN 1 2N 这样每个对象的平均秩为K 1 N2 如果记对象 的iK个 秩 次序 的和为 那么 如果评估是随机的 这些与平均秩的差别不会很 大 反之差别会很大 即所有对象的秩与平均秩的偏差的平方和很大 1 2 N i R i i R S 1 1 N N i i RR S义 为 定 2 22 1 11 N i NN i ii ii R SRRR N 3K 如果各评价者对个对象所评的秩序列完全相同 的值为 如果评价的 秩不同 则变小 一致性程度降低 如果完全没有相关 则所评对象各秩之和应该相等 其 最大可能方差应为零 NS 23 KNN 12 S S 肯德尔系数被定义为下面二者的比值 每个被评价对象等级之和与所有这些和的平均 数 i R R的离差平方和 每个被评价对象等级之和与所有这些和的平均数 i RR的离差平方和在理 论上最大可能的离差平方和 肯德尔系数计算公式如下 1 同一评价者给出的评价没有相同秩时 23 12 S W KNN 当评分者意见完全一致时 S 取得最大 故 0 W 1 2 同一评价者给出的评价有相同秩时 23 12 S W KNNKT 其中 为第 i 个评价者的评定结果中有重复等级的秩的个数 表 示为第i个评价者的评定结果中第个重复秩的相同秩的数目 3 1 i m N ijij ij Tn i mn 3 ijn j W值落在 0 与 1 之间 一般用下列标准对一致性进行判定 1 评价结果完全一致 1W 2 评价结果完全不一致 0W 3 评价结果几乎完全一致 0 91W 4 评价结果几乎高度一致 0 70 9W 5 评价结果中度一致 0 50 7W 6 评价结果一般的一致性 0 30 5W 7 评价结果极低的一致性 00W 例 7 2 某校开展绘画比赛 请 6 位评委对入选的 6 篇作品评定等级 结果如下表所示 试计算 6 位评委评定结果的 kendall 和谐系数 表 7 5 评委评定结果 作品 专家 1 2 3 4 5 6 A 3 1 2 5 4 6 B 2 1 3 4 5 6 C 3 2 1 5 4 6 D 4 1 2 6 3 5 E 3 1 2 6 4 5 F 4 2 1 5 3 6 i R 19 8 11312334 126 i R 数学建模与软件实现 2 i R 361641219615291154 2 3129 i R 解 6 2 6 22 1 1 1 3192126546 66 i i i i R SR 2323 1212 546546 0 867 6 66 630 S W KNN 0 867W 表明 6 位评委的评定结果有较大的一致性 下面使用 SPSS 软件求 kendall 和谐系数 具体操作步骤如下 1 建立数据文件 其中每个作品的秩为列变量 如图 7 5 图 7 5 数据文件的数据视图 2 点击主菜单 分析 项 在下拉菜单中点击 非参数检验 项 在右拉式菜单中点 击 K 个相关样本 项 系统打开多个关联样本检验主对话框 选取检验变量 选取 kenall 的 W k 检验 如图 7 6 点击 确定 图 7 6 多个关联样本检验主对话框 3 输出结果及分析 输出结果为表 7 6 和表 7 7 表 7 6 秩 秩秩 秩均值 品 1 3 17 作品 2 1 33 作品 3 1 83 作品 4 5 17 作品 5 3 83 作品 6 5 67 表 7 7 检验统计量 检验统计量检验统计量 7 第 7 章 相关性分析 8 N 6 Kendall Wa 867 卡方 26 000 df 5 渐近显著性 000 a Kendall 协同系数 从秩上看作品 6 评价最高 作品 2 评价最低 从检验统计量上看 Kendall W 系数为 0 867 显著性 SPSS 中假设 0 000p 0 H 秩次没有一致性 评定结果有较大的一致性 结果和手 工计算结果一致 例 7 3 试计算 3 名专家对 6 篇心理学论文评定结果的 kendall 和谐系数 评分经等级转换 后如表 7 8 所示 表 7 8 专家评分秩次表 论文 专家 1 2 3 4 5 6 A 1 4 2 5 5 6 2 5 B 2 3 1 5 6 4 C 1 5 3 1 5 4 5 5 5 5 i R 4 5 10 5 14 17 5 12 63 i R 2 i R 20 25 100 25 196 306 25144 2 791 5 i R 解 专家 A 打分中 2 5 重复 所以 1 1m n11 2 T 3 1 226 专家 C 打分中 1 5 重 复 5 5 重复 所以 3 2m 31 2n 32 2n 33 3 22 22 12T 3 2 3 22 1 1 1 791 563130 00 36 i i i i R SR 2323 1212 130130 0 85 3 66 3 612 153 S W KNNKT W 0 85 表明专家评定结果有较大的一致性 利用 SPSS 软件计算 也可得到同样结果 如图 表 7 9 秩表 秩秩 秩均值 paper1 1 50 paper2 3 33 paper3 1 67 paper4 4 67 paper5 5 83 paper6 4 00 表 7 10 检验统计量 检验统计量检验统计量 N 3 Kendall Wa 850 数学建模与软件实现 卡方 12 745 df 5 渐近显著性 026 a Kendall 协同系数 注意 本节所给出的 Kendall 系数适用于评价者数大于等于 3 的情况 当评价者数为 2 时 有三个公式计算肯德尔相关系数的值 这些系数分别为 Tau a Tau b 和 Tau c 7 4 三种相关系数的适用情景三种相关系数的适用情景 1 Pearson 相关系数 Pearson 相关系数用于双变量正态分布的数据 用来衡量两个数据集合是否在一条线上 面 或用来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店餐饮部承包合同书6篇
- 2025广东惠州市博罗县招聘编制教师143人模拟试卷及参考答案详解1套
- 2025年智能音箱的语音识别技术优化
- 2025年海洋生物技术:海水淡化反渗透膜材料技术创新在海洋生物提取中的应用
- 2025年临沂市商业学校公开招聘教师(18名)考前自测高频考点模拟试题及答案详解1套
- 2025年宜昌市西陵区公开招聘40名社区专职工作人员考前自测高频考点模拟试题附答案详解(典型题)
- 2025年杭州市临安区中医院医共体招聘合同制员工11人模拟试卷及答案详解(全优)
- 2024年延安振华学校教师招聘真题
- 2025广西玉林市“鬱上英才·创就玉林”人才招聘活动事业单位公开招聘662人考前自测高频考点模拟试题(含答案详解)
- 2025年4月四川广安理工学院筹建处引进高层次人才17人考前自测高频考点模拟试题及答案详解(全优)
- 2025年保密观原题附答案
- 基于项目学习的英语核心素养心得体会
- 2025年全球汽车供应链核心企业竞争力白皮书-罗兰贝格
- 第六章-材料的热性能
- (完整版)抛丸机安全操作规程
- 高一前三章数学试卷
- 自助与成长:大学生心理健康教育
- 2025年新高考2卷(新课标Ⅱ卷)语文试卷
- 货款对抵协议书
- 2025至2030中国特殊教育市场现状调查及前景方向研究报告
- 《应用语文(第3版)》技工院校语文课程全套教学课件
评论
0/150
提交评论