多元统计分析(第一章)PPT课件_第1页
多元统计分析(第一章)PPT课件_第2页
多元统计分析(第一章)PPT课件_第3页
多元统计分析(第一章)PPT课件_第4页
多元统计分析(第一章)PPT课件_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一名统计学家遇到一位数学家 统计学家调侃数学家 你们不是说若 且 则 吗 那么想必你若是喜欢一个女孩 那么那个女孩喜欢的男生你也会喜欢罗 数学家想了一下反问道 那么你把左手放到一锅一百度的开水中 右手放到一锅零度的冰水里想来也没事吧 因为它们平均不过是五十度而已 静静地顿河 萨尔仁尼琴质疑 认为不是肖洛霍夫所写 而是Kryukov所作 Kjetsaa对此作了研究 数学家的幽默 1 统 就是全部 计 就是计算 统计学即是 具有全局意义的数字计算 陈希孺 2 统计学是收集和分析带随机性误差的数据的科学和艺术 3 一堆数字 就像一对沙子 谁喜欢 但是 一旦你发现了这一堆数字中隐藏的奥秘 你就会喜欢这对数据了 在你眼里 就是一堆沙子变成了一堆财富 统计学 就是帮你把一堆沙子变成财富的方法 即吕洞宾那根 点石成金 的手指 课程介绍 多元统计分析 简称多元分析 是统计学的一个重要分支 它是应用数理统计学来研究多变量 多指标 问题的理论和方法 它是一元统计学的推广和发展 多元统计分析是一门具有很强应用性的课程 它在自然科学和社会科学等各个领域中得到广泛的应用 它包括了很多非常有用的数据处理方法 第一章多元正态分布第二章均值向量和协方差阵的检验第三章聚类分析第四章判别分析第五章主成分分析第六章因子分析第七章对应分析第八章典型相关分析 本课程的内容 多变量分析 数据结构简化 分类方法 两组变量的相关分析 基础理论 21世纪统计学系列教材多元统计分析 中国人民大学出版社 何晓群 2012 1 使用的教材 1 应用多元统计分析 朱建平 科学出版社 2006 2 实用多元统计分析 方开泰 1989 华东师范大学出版社3 多元统计分析引论 张尧庭 方开泰 科学出版社 1982 4 实用多元统计分析 王学仁 1990 上海科学技术出版社 5 应用多元分析 王学民 1999 6 统计分析与SPSS的应用 第三版薛微 7 社会统计学分析方法 SPSS软件应用 郭志刚 中国人民大学出版社 1999 参考书 教学方式 授课与实际例题相结合 本课程的特点与教学方式 本课程的特点是将常用的多元分析方法的介绍与在计算机上实现这些方法的软件紧密地结合起来 不仅介绍每种多元分析方法的实际背景 统计思想 统计模型 数学原理和解题的思路 并结合实例介绍应用统计软件 SPSS 解决问题的步骤和计算结果的分析 引言 什么是多元统计 在实际问题中 很多随机现象涉及到的变量不止一个 而经常是多个变量 而且这些变量间又存在一定的联系 我们常常需要处理多个变量的观测数据 例如考察学生的学习情况时 就需了解学生在几个主要科目的考试成绩 下表给出从中学某年级随机抽取的12名学生中5门主要课程期末考试成绩 序号政治语文外语数学物理19994931001002998896999731009881961004938888999651009172967869078827597775738897898938483688898773607684109582906239117672436778128575503437 上表提供的数据 如果用一元统计方法 势必要把多门课程分开分析 每次分析处理一门课的成绩 这样处理 由于忽视了课程之间可能存在的相关性 因此 一般说来 丢失信息太多 分析的结果不能客观全面地反映某年级学生的学习情况 本课程要讨论的多元分析方法 它同时对多门课程成绩进行分析 这样的分析对这些课程之间的相互关系 相互依赖性等都能提供有用的信息 由于大量实际问题都涉及到多个变量 这些变量又是随机变化 所以要讨论多维随机向量的统计规律性 多元统计分析就是讨论多维随机向量的理论和统计方法的总称 多元统计分析研究的对象就是多维随机向量 多元统计分析的发展史多元统计分析起源于上世纪初 1928年Wishart发表论文 多元正态总体样本协差阵的精确分布 可以说是多元分析的开端 20世纪30年代R A Fisher H Hotelling S N Roy 许宝騄等人作了一系列得奠基性工作 使多元分析在理论上得到了迅速得发展 20世纪40年代在心理 教育 生物等方面有不少得应用 但由于计算量大 使其发展受到影响 甚至停滞了相当长得时间 20世纪50年代中期 随着电子计算机得出现和发展 使多元分析方法在地质 气象 医学 社会学等方面得到广泛得应用 20世纪60年代通过应用和实践又完善和发展了理论 由于新的理论 新的方法不断涌现又促使它的应用范围更加扩大 20世纪70年代初期在我国才受到各个领域的极大关注 并在多元统计分析的理论研究和应用上也取得了很多显著成绩 有些研究工作已达到国际水平 并已形成一支科技队伍 活跃在各条战线上 在20世纪末与本世纪初 人们获得的数据正以前所未有的速度急剧增加 产生了很多超大型数据库 遍及超级市场销售 银行存款 天文学 粒子物理 化学 医学以及政府统计等领域 多元统计与人工智能和数据库技术相结合 已在经济 商业 金融 天文等行业得到了成功的应用 二 多元统计分析方法的应用 多元统计分析方法的应用多元统计分析方法在经济管理 农业 医学 教育学 体育科学 生态学 地质学 社会学 考古学 环境保护 军事科学 文学等方面都有广泛的应用 这里我们例举一些实际问题 进一步了解多元统计分析的应用领域 让大家从感性上加深对多元统计分析的认识 1 城镇居民消费水平通常用八项指标来描述 如人均粮食支出 人均副食支出 人均烟酒茶支出 人均衣着商品支出 人均日用品支出 人均燃料支出 人均非商品支出 这八项指标存在一定的线性关系 为了研究城镇居民的消费结构 需要将相关强的指标归并到一起 这实际就是对指标进行聚类分析 2 在企业经济效益的评价中 涉及到的指标往往很多 如百元固定资产原值实现产值 百元固定资产原值实现利税 百元资金实现利税 百元工业总产值实现利税 百元销售收入实现利税 每吨标准煤实现工业产值 每千瓦时电力实现工业产值 全员劳动生产率 百元流动资金实现产值 如何将这些具有错综复杂关系的指标综合成几个较少的因子 既有利于对问题进行分析和解释 又能便于抓住主要矛盾做出科学的评价 可用主成分分析和因子分析法 3 某一产品是用两种不同原料生产的 试问此两种原料生产的产品寿命有无显著差异 又比如 若考察某商业行业今年和去年的经营状况 这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异 可用多元正态总体均值向量和协差阵的假设检验 4 按现行统计报表制度 农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出 税款和上交承包集体任务金额以后剩余的 可直接用于进行生产的 非生产性建设投资 生产性消费的那一部分收入 如果我们收集某年各个省 自治区 直辖市农民家庭人均纯收入的数据 可以用相应分析 揭示全国农民人均纯收入的特征以及各省 自治区 直辖市与各收入指标的关系 5 某医院已有100个分别患有胃炎 肝炎 冠心病 糖尿病等的病人资料 记录了他们每个人若干项症状指标数据 如果对于一个新的病人 当也测得这若干项症状指标时 可以利用判别分析方法判定他患的是哪种病 6 在地质学中 常常要研究矿石中所含化学成分之间的关系 设在某矿体中采集了60个标本 对每个标本测得20个化学成分的含量 我们希望通过对这20个化学成分的分析 了解矿体的性质和矿体形成的主要原因 7 研究中国七星瓢虫在黄海 渤海的群聚与近期气象条件的关系 对1000个类似的鱼类样本 如何根据测量的特征如体重 身长 鳍数 鳍长 头宽等 我们可以利用聚类分析方法将这类鱼分成几个不同品种 8 考古学家对挖掘出来的人头盖骨的高 宽等特征来判断是男或女 根据挖掘出的动物牙齿的有关测试指标 判别它是属于哪一类动物牙齿 是哪一个时代的 回顾矩阵代数 1 1矩阵的逆 1 2特征值 特征向量和矩阵的迹 1 3正定矩阵和非负定矩阵 1 4特征值的极值问题 代数余子式 设A为p阶方阵 将其元素aij所在的第i行与第j列划去之后所得 p 1 阶矩阵的行列式 称为元素aij的余子式 记为Mij Aij 1 i jMij称为元素aij的代数余子式 伴随矩阵 1 1矩阵的逆 若方阵A满足 A 0 则称A为非退化方阵 若 A 0 则称A为退化方阵 设A aij 是一非退化方阵 若方阵C满足AC I 则称C为A的逆矩阵 记为C A 1 且A 1 A A 其中A 伴随矩阵 例1求的逆矩阵解 逆矩阵的基本性质 1 AA 1 A 1A I 2 A 1 A 1 3 若A和C均为p阶非退化方阵 则 AC 1 C 1A 1 4 A 1 A 1 5 若A是正交矩阵 则A 1 A 6 若A diag a11 a22 app 非退化 即aii 0 i 1 2 p 则 7 若A和B为非退化方阵 则 1 2特征值 特征向量和矩阵的迹 一 特征值和特征向量二 矩阵的迹 一 特征值和特征向量 设A是p阶方阵 若对于一个数 存在一个p维非零向量x 使得Ax x 则称 为A的一个特征值或特征根 而称x为A的属于特征值 的一个特征向量 求解特征值和特征向量步骤 1 令 A I 0 求方程根即为特征值 记作 1 2 p2 对每一个特征根 i 求解方程 A iI x 0 设解为xi 则 i是A的一个特征值 而xi是相应的特征向量 今后 一般取xi为单位向量 即满足xi xi 1 例2求的特征值和特征向量 解 所以A的特征值为当时 解方程 由 得基础解系 所以对应于的单位特征向量为当时 解方程 由 得基础解系 所以对应于的单位特征向量为 当时 解方程 由得基础解系 所以对应于的全部特征向量为 特征值和特征向量的基本性质 1 A和A 有相同的特征值 2 若A为实对称矩阵 则A的特征值全为实数 p个特征值按大小依次表示为 1 2 p 若 i j 则相应的特征向量xi和xj必正交 即xi xj 0 3 若A为p阶对称矩阵 则存在正交矩阵T及对角矩阵 diag 1 2 p 使得A T T 二 矩阵的迹 设A为p阶方阵 则它的对角线元素之和称为A的迹 记作tr A 即tr A a11 a22 app方阵的迹具有下述基本性质 1 tr AB tr BA 特别地 tr ab b a 2 tr A tr A 3 tr A B tr A tr B 4 5 设A aij 为p q矩阵 则 6 设 1 2 p为方阵A的特征值 则tr A 1 2 p 1 3正定矩阵和非负定矩阵 设A是p阶对称矩阵 x是一p维向量 则x Ax称为A的二次型 若对一切x 0 有x Ax 0 则称A为正定矩阵 记作A 0 若对一切x 有x Ax 0 则称A为非负定矩阵 记作A 0 对非负定矩阵A和B A B表示A B 0 A B表示A B 0 1 设A是对称矩阵 则A是正定 或非负定 矩阵 当且仅当A的所有特征值均为正 或非负 2 若A 0 或 0 则存在 0 或 0 使得称为A的平方根矩阵 1 4特征值的极值问题 1 若A是p阶对称矩阵 其特征值依次为 1 2 p 则 2 若A是p阶对称矩阵 B是p阶正定矩阵 1 2 p是B 1A的p个特征值 则 3 柯西 许瓦兹不等式 Cauchy Schwarz 若B 0 则 x y 2 x Bx y B 1y 2020 4 23 36 第一章多元正态分布 目录上页下页返回结束 1 1多元分布的基本概念 1 2统计距离和马氏距离 1 3多元正态分布 1 4均值向量和协方差阵的估计 1 5常用分布及抽样分布 2020 4 23 37 1 1多元分布的基本概念 目录上页下页返回结束 1 1 1随机向量 1 1 2分布函数与密度函数 1 1 3多元变量的独立性 1 1 4随机向量的数字特征 2020 4 23 38 定义1 1设为个随机变量 由它们组成的向量称为随机向量 目录上页下页返回结束 1 1 1随机向量 若无特别说明 本书所称向量均指列向量 描述随机变量的最基本工具是分布函数 类似地描述随机向量的最基本工具还是分布函数 2020 4 23 39 定义1 2设是一随机向量 它的多元分布函数是 式中 并记成 1 1 2分布函数与密度函数 目录上页下页返回结束 多元分布函数的有关性质此处从略 2020 4 23 40 1 1 2分布函数与密度函数 目录上页下页返回结束 定义1 3 设 若存在一个非负的函数 使得 对一切成立 则称 或 有分布密度并称为连续型随机向量 一个维变量的函数能作为中某个随机向量的分布密度 当且仅当 2020 4 23 41 2020 4 23 42 1 1 3多元变量的独立性 目录上页下页返回结束 注意 在上述定义中 和的维数一般是不同的 注2 若有密度 用分别表示和的分布密度 则和独立当且仅当 2020 4 23 43 1 1 4随机向量的数字特征 是一个维向量 称为均值向量 目录上页下页返回结束 当为常数矩阵时 由定义可立即推出如下性质 1 随机向量的均值设有个分量 若存在 定义随机向量的均值为 2020 4 23 44 1 1 4随机向量的数字特征 目录上页下页返回结束 2 随机向量自协方差阵 称它为维随机向量的协方差阵 简称为的协方差阵 称为的广义方差 它是协差阵的行列式之值 2020 4 23 45 注1 是对称矩阵2 的对角线元素是的方差 非对角线元素是和的协方差 3 性质 2020 4 23 46 2020 4 23 47 目录上页下页返回结束 1 1 4随机向量的数字特征 3 随机向量X和Y的协差阵 设 2020 4 23 48 目录上页下页返回结束 3 设X为维随机向量 期望和协方差存在记则 4 X和Y相互独立 则X和Y不相关 5 随机向量的协方差阵D X 是对称非负定矩阵 2020 4 23 49 目录上页下页返回结束 1 1 4随机向量的数字特征 4 随机向量X的相关阵若随机向量的协差阵存在 且每个分量的方差大于零 则X的相关阵定义为 也称为分量与之间的 线性 相关系数 2020 4 23 50 2020 4 23 51 1 2统计距离和马氏距离 目录上页下页返回结束 欧氏距离 马氏距离 2020 4 23 52 1 2统计距离和马氏距离 欧氏距离 在多指标统计分析中 距离的概念十分重要 样品间的不少特征都可用距离去描述 大部分多元方法是建立在简单的距离概念基础上的 即平时人们熟悉的欧氏距离 或称直线距离 如几何平面上的点p x1 x2 到原点O 0 0 的欧氏距离 依勾股定理有 目录上页下页返回结束 2020 4 23 53 1 2统计距离和马氏距离 目录上页下页返回结束 例如 横轴代表重量 以kg为单位 纵轴代表长度 以cm为单位 有四个点A B C D见图1 1 它们的坐标如图1 1所示 如果用mm作单位 2020 4 23 54 1 2统计距离和马氏距离 目录上页下页返回结束 欧式距离的缺点 1 与变量所用的单位有关 2 没有体现各个变量在变差大小上的不同3 没有考虑变量间的相关性看来我们选择的距离要依赖于样本方差和协方差 因此 采用 统计距离 这个术语 以区别通常习惯用的欧氏距离 最常用的一种统计距离是印度统计学家马哈拉诺比斯 Mahalanobis 于1936年引入的距离 称为 马氏距离 2020 4 23 55 1 2统计距离和马氏距离 目录上页下页返回结束 下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异 设有两个一维正态总体 若有一个样品 其值在A处 A点距离哪个总体近些呢 由图1 2 图1 2 2020 4 23 56 1 2统计距离和马氏距离 马氏距离 设X Y从均值向量为 协方差阵为 的总体G中抽取的两个样品 定义X Y两点之间的马氏距离为 目录上页下页返回结束 2020 4 23 中国人民大学六西格玛质量管理研究中心 57 目录上页下页返回结束 2020 4 23 58 1 2统计距离和马氏距离 设表示一个点集 表示距离 它是到的函数 可以证明 马氏距离符合如下距离的四条基本公理 2 当且仅当 3 4 目录上页下页返回结束 2020 4 23 59 1 3多元正态分布 多元正态分布是一元正态分布的推广 迄今为止 多元分析的主要理论都是建立在多元正态总体基础上的 多元正态分布是多元分析的基础 另一方面 许多实际问题的分布常是多元正态分布或近似正态分布 或虽本身不是正态分布 但它的样本均值近似于多元正态分布 本节将介绍多元正态分布的定义 并简要给出它的基本性质 目录上页下页返回结束 2020 4 23 60 1 3多元正态分布 目录上页下页返回结束 2020 4 23 61 1 3 1多元正态分布的定义 为协差阵 的行列式 目录上页下页返回结束 定义1 5 若元随机向量的概率密度函数为 则称遵从元正态分布 也称X为元正态变量 记为 2020 4 23 62 例1 3 1 二元正态分布 设x N2 这里易见 是x1和x2的相关系数 当 1时 求x的概率密度函数 2020 4 23 63 2020 4 23 64 二元正态分布的密度曲面图 下图是当时二元正态分布的钟形密度曲面图 2020 4 23 65 目录上页下页返回结束 1 3 1多元正态分布的定义 定理1 1 设则 2020 4 23 66 1 3 2多元正态分布的性质 目录上页下页返回结束 1 如果正态随机向量的协方差阵 是对角阵 则X的各分量是相互独立的随机变量 容易验证 但显然不是正态分布 2 多元正态分布随机向量X的任何一个分量子集的分布 称为X的边缘分布 仍然遵从正态分布 而反之 若一个随机向量的任何边缘分布均为正态 并不能导出它是多元正态分布 例如 设有分布密度 2020 4 23 67 1 3 2多元正态分布的性质 目录上页下页返回结束 3 设 维随机向量 则 例2设求Y AX d的分布 2020 4 23 68 4 若 则 2020 4 23 69 1 3 3条件分布和独立性 目录上页下页返回结束 我们希望求给定的条件分布 即的分布 下一个定理指出 正态分布的条件分布仍为正态分布 设p 2 将X 和 剖分如下 2020 4 23 70 目录上页下页返回结束 1 3 3条件分布和独立性 定理1 2 设 0 则 2020 4 23 71 例3设求的分布 2020 4 23 72 在定理1 2中 我们给出了对X 和 作形如 1 25 式剖分时条件协差阵的表达式及其与非条件协差阵的关系 令表示的元素 则可以定义偏相关系数的概念如下 定义1 6 当给定时 与的偏相关系数为 目录上页下页返回结束 1 3 3条件分布和独立性 2020 4 23 73 偏相关系数 以x1表示某种商品的销售量 x2表示消费者人均可支配收入 x3表示商品价格 从经验上看 销售量x1与消费者人均可支配收入x2之间应该有正相关 简单相关系数r12应该是正的 但是如果你计算出的r12是个负数也不要感到惊讶 这是因为还有其它没有被固定的变量在发挥影响 例如商品价格x3在这期间大幅提高了 反映固定x3后x1与x2相关程度的偏相关系数r12 3会是个正数 2020 4 23 74 目录上页下页返回结束 1 3 3条件分布和独立性 定理1 4 设将X 按同样方式剖分为 其中 2020 4 23 75 设遵从于P元正态分布 未知 从总体中抽取样本容量为n的样本 目录上页下页返回结束 1 4均值向量和协方差阵的估计 2020 4 23 76 例如已知咱班同学5门课成绩X服从5元正态分布 先从咱班抽取3位同学成绩如下 2020 4 23 77 横看表1 1 记 它表示第个样品的观测值 竖看表1 1 第列的元素表示对第个变量的n次观测数值 下面为表1 1 目录上页下页返回结束 1 1 1随机向量 2020 4 23 78 因此 样本资料矩阵可用矩阵语言

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论