




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计分析 刘翠霞 图标说明 表示 需要注意和温馨提醒的地方 表示 需要重点掌握的知识点 表示 难点内容 第一章多元正态分布及其抽样分布 1 1引言 1 2多元指标统计数据及其图示 1 3多元正态分布 1 4统计距离和马氏距离 1 5多元统计中常用的分布 1 1引言 目的 明确多元统计分析及它能够解决的主要问题 一 什么是多元统计分析 1 定义多元统计分析 研究多个随机变量之间相互依赖关系及内在统计规律性的一门统计学科 社会经济现象 受多种指标共同作用和影响的现象几乎无处不在 利用多元统计分析方法可以对这样的复杂现象进行量化分析 从而达到对研究对象进行分类和简化 举例 2 主要内容 多元正态总体的参数估计和假设检验以及常用的统计方法 这些统计方法包括 多元数据图表示法 聚类分析 判别分析 主成分分析 因子分析 对应分析 多重多元回归分析 典型相关分析 路径分析等 3 多元统计分析的产生和发展 1928年 Wishart论文产生20世纪30年代 理论框架形成20世纪40年代 开始有限应用20世纪50年代 广泛应用20世纪60年代 新发展 二 多元统计分析能解决那些类型实际问题 经济学 如 对全国30市自治区经济效益作综合评价 显然要选取的指标很多 如 固定资产投资完成额 职工工资总额 工业销售利税率等很多指标 对这些错综复杂的综合指标进行分析解释时 可用主成分分析法和因子分析法 工业 如 某服装厂要生产一批新型服装 如何确定服装的主要指标及分类的型号 教育学 如何对高考的考生成绩作因素分析 多元统计分析在农业 医学 体育科学 生态学 地质学 社会学 军事科学 心理学等各个学科领域都有非常广泛的用途 1 城镇居民消费水平通常用八项指标来描述 如人均粮食支出 人均副食支出 人均烟酒茶支出 人均衣着商品支出 人均日用品支出 人均燃料支出 人均非商品支出 这八项指标存在一定的线性关系 为了研究城镇居民的消费结构 需要将相关强的指标归并到一起 这实际就是对指标进行聚类分析 2 在企业经济效益的评价中 涉及到的指标往往很多 如百元固定资产原值实现产值 百元固定资产原值实现利税 百元资金实现利税 百元工业总产值实现利税 百元销售收入实现利税 每吨标准煤实现工业产值 每千瓦时电力实现工业产值 全员劳动生产率 百元流动资金实现产值 如何将这些具有错综复杂关系的指标综合成几个较少的因子 既有利于对问题进行分析和解释 又能便于抓住主要矛盾做出科学的评价 可用主成分分析和因子分析法 3 某一产品是用两种不同原料生产的 试问此两种原料生产的产品寿命有无显著差异 又比如 若考察某商业行业今年和去年的经营状况 这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异 可用多元正态总体均值向量和协差阵的假设检验 4 按现行统计报表制度 农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出 税款和上交承包集体任务金额以后剩余的 可直接用于进行生产的 非生产性建设投资 生产性消费的那一部分收入 如果我们收集某年各个省 自治区 直辖市农民家庭人均纯收入的数据 可以用相应分析 揭示全国农民人均纯收入的特征以及各省 自治区 直辖市与各收入指标的关系 5 某医院已有100个分别患有胃炎 肝炎 冠心病 糖尿病等的病人资料 记录了他们每个人若干项症状指标数据 如果对于一个新的病人 当也测得这若干项症状指标时 可以利用判别分析方法判定他患的是哪种病 6 有100种酒 品尝家可以对每两种酒进行品尝对比 给出一种相近程度的得分 越相近得分越高 相差越远得分越低 希望用这些得分数据来了解这100种酒之间的结构关系 这样的问题就可以用多维标度法来解决 7 在地质学中 常常要研究矿石中所含化学成分之间的关系 设在某矿体中采集了60个标本 对每个标本测得20个化学成分的含量 我们希望通过对这20个化学成分的分析 了解矿体的性质和矿体形成的主要原因 8 研究中国七星瓢虫在黄海 渤海的群聚与近期气象条件的关系 对1000个类似的鱼类样本 如何根据测量的特征如体重 身长 鳍数 鳍长 头宽等 我们可以利用聚类分析方法将这类鱼分成几个不同品种 9 考古学家对挖掘出来的人头盖骨的高 宽等特征来判断是男或女 根据挖掘出的动物牙齿的有关测试指标 判别它是属于哪一类动物牙齿 是哪一个时代的 10 在高考招生工作中 我们知道每个考生的基本情况 通过分析我们不仅可以了解到学生喜欢学习的科目 还可以进一步从考生每门课程的成绩 分析出学生的逻辑思维能力 形象思维能力和记忆力等等对学习成绩的影响 三 期望达到的目的 学会分析多元观测数据 对给定多元数据能恰当选用本书所介绍的方法 结合统计软件进行计算 分析 对所研究问题作出科学评价与合理的推断 清楚理解每种方法所要解决的问题 前提条件和局限性等 比较某些有联系方法之间的相似处与差异 四 多元统计分析的前提条件 1 多元统计分布对资料的分布有一定的要求 2 需要有足够大的样本 为什么在统计学分析中需要有足够大的样本 例甲 乙两研究者分别用某新药治疗10例和403例老年性气管炎患者 其疗效如下表 甲治疗结果例数 临床治愈770未治愈330合计10100 乙治疗结果例数 临床治愈8320未治愈32080合计403100 临床上感兴趣的问题是新药治疗老年性气管炎治愈率是多少 而不是10和403例的治愈频率 那么应用20 还是70 以估计新药治疗老年性气管炎治愈率呢 历史上许多著名科学家做过抛掷硬币的试验 抛掷硬币试验结果如表 试验者抛掷次数 n 正面次数 k 频率 k n DeMorgan204810610 518Buffon4 0402 0480 5069Pearson12 0006 0190 5016Pearson24 00012 0120 5005 观测例数越少 抽样误差越大 样本的对研究总体的代表性就小 所以 统计学中需要足够多的样本数 1 2多元指标统计数据及其图示 目标 掌握用图形来直观表示多元数据的方法 要求 了解多变量图示法的作图方法 利用统计软件对多元资料作图 图形是直观而形象的 它可以帮人思维和判断 当只有两个变量时 通常有直角坐标在平面上点图 当有三个变量时 虽然可以在三维坐标里点图 但已经很不方便了 当变量个数大于三个时 就不能用通常的做法作图 多元数据图示在二 世纪七十年代有了较大的突破 本章主要介绍散点图矩阵 雷达图 脸谱图等多变量图示法的基本思想及作图方法 一 多元数据图示 1 散点图矩阵 定义 散点图矩阵是借助两变量散点图做法 它可以看作是一个大的图形矩阵 其每一个非主对角元素的位置上是对应的行变量与列变量的散点图 例一 以Spss软件自带的World95 sav资料为例 选择该数据如下几个变量作图 density 人口密度 lifeexpf 女性预期寿命 lifeexpm 男性预期寿命 babymort 婴儿死亡率 gdp cap GDP是总资产的倍数 Calories 每日摄入热量 2 轮廓图 设变量个数为 观测次数为 第 次观测值记为轮廓图 用 个平行的纵坐标代表 个变量 每个样品在图上有 个点 将它们依次链接起来成一折线 此折线图称为样品的轮廓图 例二 考查北京 上海 天津 重庆四个直辖市的人均收入情况 选取以下几个指标 具体数据如下表一表一 作图步骤 Stepone 作平面坐标系 横坐标取 个点表示 个指标 Steptwo 对给定的依次观测值 在 个点上的纵坐标和它对应的变量取值成正比 Stepthree 连接 个高度的顶点成一条折线 则一次观测值的轮廓为一条多角折线形 次观测值可画 条折线 构成轮廓图 下面画出上例的轮廓图 图二轮廓图 由轮廓图可以看出 北京 上海的居民收入较高且教相似 平均收入较高 重庆人均收入状况最差 如果考查样品较多 画折线时图形中可能出现重复点多 不便于区分哪个样品对应哪条折线 这时最好多用集中颜色或长短虚线等标志来画出折线 3 雷达图 雷达图 又称星图 蜘蛛网图 作图步骤 Stepone 作一圆 并把圆周分为 等分 Steptwo 连接圆心和各分点 把这 条半径依次定义为各变量的坐标轴 并标以适当刻度 Stepthree 对给定一次观测值 把它的 个分量值分别点在相应的坐标轴上 然后连接成一个 边形 这个 变形为 元观测值的图标 次观测值可以画出 个 边形 分析 由图三可看出北京 上海各指标都较高 对应着一个较大面积的四边形 重庆各指标最低 面积最小 另外 从图形轮廓还可以看出 北京 上海 天天津发展比例类似 而重庆发展比例和前三个直辖市较大不同 注意 对于散点图 轮廓图 雷达图 Excel软件都提供了此三种图形绘图的功能 但它适合于观测数据 指标较小的情形 这时可以把各观测数据画到一张图里 便于对各指标进行对比 并且Excel有很好的编辑功能 但是 当观测数据较多时 画到一张图里就不容易看出各个图形 不利于比较 此时用S Plus进行多元数据图示 二 多元数据表示 1 随机向量 定义1将p个随机变量 的整体称为p维随机向量 记为 表示 对一个体观测的p个变量 观测n次 可得到如下表二数据 表二 因此 样本资料可用矩阵语言表示为 2 分布函数与密度函数 1 一元统计中分布函数和密度函数设X为一随机变量 称为概率分布函数 记为 离散型 若随机变量在有限或可列个值上取值 记则称X为离散型随机变量 并称为X的概率分布 连续型 设 若存在一非负函数 使得对一切实数有 则称X为连续型随机变量 称为X的分布密度函数 简称密度函数 其满足的条件为 1 2 2 多元统计中分布函数与密度函数 三 随机向量的数字特征 1 期望 均值向量的性质 其中X Y为随机向量 A B为常数矩阵 2 随机向量X的自协方差矩阵 3 随机向量x和y的协方差矩阵 若则称不相关协方差矩阵 其性质为 多元统计分析中的许多理论和方法都是建立在正态分布的基础上 现实世界中的许多实际问题的解决办法也是以服从正态分布或近似正态分布为前提的 因此多元正态分布是我们必须要掌握的内容 1 3多元正态分布 一 多元正态分布定义 二元正态分布 二 多元正态分布的性质 例 若 1 4统计距离和马氏距离一 统计距离 p6 二 马氏距离 1 5多元统计中常用的分布 p17 统计分析的目的 概括起来讲就是要了解总体分布的特征 统计分析的出发点或依据是样本 因为信息是分散到样本的每个分量上的 因此直接从样本出发来推断总体是不方便的 为此需要根据要解决的问题对样本进行加工 把所关心的总体问题浓缩到一个不包括未知参数的样本函数中 这个样本函数称为统计量 如样本均值X 样本离差阵等都是统计量 统计量的分布为抽样分布 在一元统计中 常用的分布有 在多元统计中 他们分别发展为Wishart 和Wilks分布 一 在一元统计中 若均服从标准正态分布 且相互独立 则称所服从的分布为自由度为n的中心卡方分布 记为 其密度函数为 卡方分布的均值和方差分别为在多元统计中 分布发展为Wishart分布此分布是Wishart
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 先进安全培训方法课件
- 化学品节前安全培训课件
- 化学品安全管理专项培训课件
- 创建无烟医院培训课件
- 先心封堵介入课件
- 量子抗AUTH加密协议设计-洞察及研究
- 内燃机车电传动课件
- 统编版语文六年级上册 第四单元 语文园地四同步+ 公开课一等奖创新教学设计+ 学习任务单+ 分层练习
- 5搭石 +公开课一等奖创新教学设计
- 构成原子的微粒讲解
- 新生儿支气管肺炎护理查房
- 2025年芳香保健师(初级)职业技能鉴定全真试题(含解析)
- 银行外包人员管理办法
- 外贸订单发货管理办法
- 学堂在线 逻辑学概论 章节测试答案
- 招生表彰活动方案
- 2025年安徽高考地理试卷真题(含答案解析)
- 学校党组织家访活动方案
- 2025至2030中国海上风电行业深度研究及发展前景投资评估分析
- 数字媒体技术专业教学标准(高等职业教育专科)2025修订
- 正念心理治疗
评论
0/150
提交评论