《多元统计分析》PPT课件.ppt_第1页
《多元统计分析》PPT课件.ppt_第2页
《多元统计分析》PPT课件.ppt_第3页
《多元统计分析》PPT课件.ppt_第4页
《多元统计分析》PPT课件.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

zf MULTIVARIATESTATISTICSANALYSIS多元统计分析 2020 3 26 2cxt 一 什么是多元统计分析 多元统计分析是运用数理统计的方法来研究多变量 多指标 问题的理论和方法 是一元统计学的推广 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科 2020 3 26 3cxt 有了一元统计的理论和方法 为什么还要多元统计分析呢 将多个变量用一元方法进行处理 问题不就解决了吗 事实却与此相悖 2020 3 26 4cxt 例 考察某高中三年级学生的学习情况 随机抽取12名学生政治 语文 外语 数学 物理等5门主课期末考试的成绩 2020 3 26 5cxt 2020 3 26 6cxt 若用一元统计方法 每次分析处理一门课程的成绩 其缺点 丢失的信息太多 分析的结果不能客观全面地反映该年级学生的学习情况 要同时分析多门课程的成绩 分析各门课程之间的相关关系 相对重要性等问题 需要借助 多元统计 2020 3 26 7cxt 我们用多元统计 1 用各科成绩的总和作为综合指标 来比较学生学习的好坏 2 根据各科成绩相近程度对学生进行分类 成绩好的与差的 文科成绩好的和理科成绩好的等等 3 各科成绩之间的关系 如物理与数学成绩的关系 文科成绩与理科成绩的关系等 2020 3 26 8cxt 多元统计分析优点 分析问题更全面更透彻能使我们对所研究的问题更全面 更深刻的认识 帮助我们透过现象看本质 发观事物之间内在的本质规律 2020 3 26 9cxt 二 多元统计分析的内容和方法 1 简化数据结构 降维问题 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量 使研究问题得到简化但损失的信息又不太多 1 主成分分析 2 因子分析 3 对应分析等 2020 3 26 10cxt 指标与指标可能存在相关关系信息重叠 分析偏误指标太多 增加问题的复杂性和分析难度如何避免 选用主成分分析或因子分析 2020 3 26 11cxt 例 美国的统计学家斯通 stone 在1947年关于国民经济的研究 他曾利用美国1929一1938年各年的数据 得到了17个反映国民收入与支出的变量要素 例如雇主补贴 消费资料和生产资料 纯公共支出 净增库存 股息 利息外贸平衡等等 2020 3 26 12cxt 运用主成分分析以97 4 的精度 用三新变量就取代了原17个变量 根据经济学知识 斯通给这三个新变量分别命名为总收入F1 总收入变化率F2和经济发展或衰退的趋势F3 更有意思的是 这三个变量其实都是可以直接测量的 斯通将他得到的主成分与实际测量的总收入I 总收入变化率 I以及时间t因素做相关分析 得到下表 2020 3 26 13cxt 2020 3 26 14cxt 主成分分析得到的主成分 新变量 与原始变量之间的关系 1 主成分保留了原始变量绝大多数信息 2 主成分的个数大大少于原始变量的数目 3 各个主成分之间互不相关 4 每个主成分都是原始变量的线性组合 2020 3 26 15cxt 2 分类与判别 归类问题 对所考察的变量按相似程度进行分类 1 聚类分析 根据分析样本的各研究变量 将性质相似的样本归为一类的方法 2 判别分析 判别样本应属何种类型的统计方法 2020 3 26 16cxt 例 根据信息基础设施的发展状况 对世界20个国家和地区进行分类 考察指标有6个 1 X1 每千居民拥有固定电话数目2 X2 每千人拥有移动电话数目3 X3 高峰时期每三分钟国际电话的成本4 X4 每千人拥有电脑的数目5 X5 每千人中电脑使用率6 X6 每千人中开通互联网的人数 2020 3 26 17cxt 具体数据参见 于秀林 任学松 多元统计分析 第92页 分析结果 将20个国家分为两类第1类 基础设施落后 巴西 墨西哥 波兰 匈牙利 智利 俄罗斯 泰国 印度 马来西亚第2类 基础设施发达 瑞典 丹麦 美国 中国台湾 韩国 日本 德国 法国 新加坡 英国 瑞士 2020 3 26 18cxt 如果 我们想知道我国基础设施发展属于哪一类型 运用判别分析依据 20个国家的分类结果 2020 3 26 19cxt 3 变量间的相互联系一是 分析一个或几个变量的变化是否依赖另一些变量的变化 回归分析 二是 两组变量间的相互关系 典型相关分析 2020 3 26 20cxt 4 多元数据的统计推断点估计参数估计区间估计统u检验计参数t检验推F检验断假设相关与回归检验卡方检验非参秩和检验秩相关检验 2020 3 26 21cxt 主要讲解 多元正态分布的均值向量及协方差矩阵的估计和假设检验例 调查某中学同年级22名男女生 测量其身高 cm 体重 kg 和胸围 cm 数据见表 试检验该中学全体男女生的身体发育状况有无差别 2020 3 26 22cxt 某中学22名男 女生身体测量资料 男生女生 编号身高体重胸围编号身高体重胸围 117158 581 0115244 87421756587215346 58031593871315848 573 54155 34574415050 58751523563514436 3686158 344 5756160 554 7867154 844 5747158498481645172815450 8769165 255799153407010164 5467110159 6527611159 14872 512164 246 573 2020 3 26 23cxt 一元方差分析的结果 身高体重胸围 组别平均值标准差平均值标准差平均值标准差 男161 96 848 18 374 45 9女154 25 047 35 677 46 6 F值8 7 0 11 3 P 0 01从表可以看出 该校男 女生的身高差异有显著性意义 而体重 胸围差异无显著性意义 那么 该年级全体男女生的身体发育状况有无差别 我们不能得到一个明确的结论 2020 3 26 24cxt 多元方差分析 可用男 女生的身高 体重 胸围组成的样本均数向量推论该年级男 女生身体发育指标的总体均数向量 1和 2相等与否 得到 F 8 8622 P 0 0008 拒绝该年级男女生身体发育指标的总体均数向量相等的假设 从而可认为该校男女生身体发育状况不同 2020 3 26 25cxt 三 多元统计的发展 起源于 20世纪20年代1928年威沙特 Wishart 发表的 多元正态总体样本协方差矩阵的精确分布 为开端30年代多元分析在理论上得到迅速发展费希尔 Fisher 霍特林 Hotelling 等进一步发展多元统计 40年代在心理学 教育学等领域进行应用因计算量大 发展受到影响 2020 3 26 26cxt 20世纪50年代中期 多元统计在地质 气象 医学 社会学等方面得到广泛应用因计算机的出现和发展我国 70年代初期才开始重视多元统计在各领域的应用 2020 3 26 27cxt 四 多元统计的应用 1 教育学2 医学3 气象学4 环境科学5 地质学6 考古学7 经济学8 社会科学等等 2020 3 26 28cxt 教育学 测试学生入学后的考试成绩与入学考试成绩的相关关系 现行教育模式是否合理 经济学 如 衡量一个地区的经济发展情况 需观测的指标有 人均收入 就业率 物价 信贷 税收 年财政收入 基础设施建设等等 2020 3 26 29cxt 医学 通过检测 血压 心脏脉搏跳动的次数 白血球等等 判定一个人是有病还是没病 根据某病人的体温 白血球 恶心 呕吐 腹部压疼感等判别此人是患何种类型阑尾炎 急性 慢性 有无穿孔 2020 3 26 30cxt 气象学 根据目前空气湿度 风向 风力等指标判断未来24小时内天气情况社会学 随着经济的发展 居民的幸福感是增强呢还是减弱呢 农民工的工资支付情况是否明显好转 2020 3 26 31cxt 文学 红楼梦 前80回和后40回是否出自同一作者 2020 3 26 32cxt 多元统计无处不在 2020 3 26 33cxt 多元分析的基本步骤 1 研究什么问题 明确分析的问题2 如何获取数据 3 如何分析数据 4 如何解释分析结果 2020 3 26 34cxt 在前期的准备过程中要注意两点 1 样本量要足够的大 一般认为 样本数是研究变量个数的10倍左右 2 变量类型及其数量化 2020 3 26 35cxt 1 为什么需要足够多的观测样本呢 如 抛掷硬币的试验结果 试验者抛掷次数 n 正面次数 k 频率 k n TONG331 00540 801030 302070 3550270 54100520 525002460 492 2020 3 26 36cxt 历史上许多著名科学家做过抛掷硬币的试验 抛掷硬币试验结果如表 试验者抛掷次数 n 正面次数 k 频率 k n DeMorgan204810610 518Buffon4 0402 0480 5069Pearson12 0006 0190 5016Pearson24 00012 0120 5005 2020 3 26 37cxt 观测样本 次数 越少 抽样误差越大 样本的对研究总体的代表性就小 2020 3 26 38cxt 2 变量类型 定量变量是对研究单位的定量特征的描述 诸如个体年龄 身高 体重等变量均可经测量取得数值 将这类变量视为连续型变量 或定量变量 定性变量是对研究单位的定性特征的描述 有类别 亦称分类变量 如性别分男 女为二分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论