哈尔滨工业大学-多元统计分析-数学建模必备-葛虹.ppt_第1页
哈尔滨工业大学-多元统计分析-数学建模必备-葛虹.ppt_第2页
哈尔滨工业大学-多元统计分析-数学建模必备-葛虹.ppt_第3页
哈尔滨工业大学-多元统计分析-数学建模必备-葛虹.ppt_第4页
哈尔滨工业大学-多元统计分析-数学建模必备-葛虹.ppt_第5页
已阅读5页,还剩115页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析 哈尔滨工业大学数学系葛虹 多元统计分析内容简介 第一章多元统计的基本概念第二章主成分分析第三章聚类分析第四章多元正态分布第五章多元回归分析 第一章多元统计的基本概念 第一节随机向量及其数字特征 随机向量极其分布 P维随机向量 联合分布函数 联合密度函数 特征函数 一元随机变量 二元随机向量 P元随机向量例1 条件分布与独立性 两随机向量间的条件分布的D F d f c f的D F d f c f的D F d f c f给定 的条件密度函数 两随机向量独立的充分必要条件与相互独立 随机向量的数字特征 随机向量的数学期望随机向量的方差阵 两随机向量间的协方差阵随机向量的相关系数阵 随机向量的数字特征的计算性质 对称 非负定 例2求 第二节随机向量的样本及其数字特征 P维随机样本P维随机向量的一个容量为n的样本 的样本 的样本 的样本 样本均值 样本离差阵与样本方差阵 样本离差阵 样本方差阵 样本相关系数阵 与的样本相关系数 作业一 1令 1 求c 2 求 3 证明 4 是否相互独立 2设三个随机变量x y z的联合密度函数为 1 求常数k 2 x y z是否相互独立 3 试求在给定y 1 2 z 1的条件下x的分布 3设随机向量的协方差阵为 1 求相关系数阵 2 令 求的协方差阵 实验报告一 选择一组多维有意义的数据编写SAS数据文件利用SAS作单变量的置方图 计算基本统计特征 均值 方差或标准差 并由此分析单变量的基本分布情况利用SAS计算多维随机变量的样本协方差阵 样本相关系数阵并由此分析变量之间的相关性要求打印 SAS数据文件 置方图 计算结果 分析结果 第二章主成分分析 第一节为什么要进行主成分分析 消除自变量间的相关性与多维变量降维满足 1 2 第二节数学模型与理论主成分 前提条件 目标 寻找正交矩阵使 1 2 且结论 是的特征值 的行向量分别为相应的特征向量 理论主成分的计算过程 求非负定阵的特征值 求所对应的单位特征向量 写出主成分 第三节样本主成分的计算过程 首先将原始数据标准化得到标准化数据 消除量纲影响 求标准化数据的样本协方差阵 该矩阵是原样本数据的样本相关系数阵 求的特征值和所对应的单位特征向量 写出p个主成分的表达式 是样本均值 是样本标准差 选择主成分的方法 贡献率 第i个主成分的贡献率为累积贡献率 前m个主成分的累积贡献率为选择法则 保留m个主成分 第四节主成分的应用 利用第一主成分进行综合评价若第一主成分满足 1 其中 2 第一主成分的贡献率 则可以作为一个综合评价指标 利用第一 二个主成分进行分类若第一 二个主成分的累积贡献率 则由第一 二个主成分在平面上的散点图 可以对样品进行分类 实验二主成分分析 选取一组有意义的P维数据利用SAS的 交互数据分析 对P维变量进行主成分分析 并选择主成分进行排序与分类 要求说明 1 主成分选择原理2 所选择主成分的表达式3 最后的排序与分类结果 第三章聚类分析 第一节p维空间中的距离欧氏距离马氏距离B模距离明氏距离 一点到总体的马氏距离 第二节聚类方法简介 问题 将n个p维样本分成m个类系统聚类法与聚类步骤流程图动态聚类法与聚类步骤流程图 系统聚类法与聚类步骤流程图 初始分类 若与距离最小 合并为一类 no 输出分类结果 动态聚类法与聚类步骤流程图 寻找m个凝聚点 若则 得 计算各类的重心 若则 得 计算各类的重心 重心改变 输出分类结果 yes no 第三节五种系统聚类 cluster 方法 最短距离法 method single 最长距离法 method complete 重心法 method centroid 类平均法 method average 离差平方和法 method ward 可以证明 半偏 第四节系统聚类在SAS中的实现 procclusterdata citymethod wardouttree DD Varx1 x8 idregion proctreedata DDhorizontalgraphics idregion title treeofcluster run 实验三聚类分析 选取一组有实际意义的数据利用SAS的五种系统聚类方法将n个样本进行分类 要求 1 说明每一种方法的分类结果2 利用主成分分析说明哪一种分类结果更合理 第四章多元正态分布 第一节多元正态分布第二节多元正态分布的函数 卡方分布第三节多元正态分布的参数估计第四节WISHART分布第五节正态分布均值向量的假设检验 一元正态分布 一元正态分布 密度函数形式 特征函数形式 一般正态与标准正态之间的关系 多个正态变量的线性组合仍为正态变量 第一节多元正态分布 定义1q维标准正态分布设独立同分布于 则称随机向量服从q维正态分布 记密度函数 特征函数 定义2p维一般正态分布设 B为实数矩阵 为维实数向量 则是维随机正态分布 记为 其中为非负定阵 定理1若服从 则 1 2 定理2若服从 1 令 为 为则服从 利用特征函数证明 2 服从 定理3若服从 1 服从 服从 2 与相互独立 简化成服从 服从的情形 通过特征函数证明 推论 若不服从正态分布 则不服从正态分 用于验证 定理4服从为一元正态随机变量定理5若为正定矩阵 则服从具有密度函数 证明要点 用于验证 多元正态分布的四个等价定义 其中为一元正态随机变量特征函数密度函数 多用于验证 多用于证明 第二节多元正态分布的函数 卡方分布 定义1中心分布与矩阵表达设独立同分布于 则若记 且则 定义2非中心分布与矩阵表达设 且 则服从自由度为p 非中心参数为的卡方分布 并记为 定理1若服从 且正定 则 1 服从 其中 2 服从 用于构造检验统计量并检验异常点 定理2设服从 服从且相互独立 则服从定理3设服从 为阶实对称阵且 则服从其中 对称幂等阵的性质 1 I A是对称幂等的 2 A的特征值是1或0 3 R A tr A 证明要点 若A是对称幂等的 则存在正交矩阵Q使若服从A是非负定阵存在一个矩阵 R B r 且 定理4 Cochran定理 已知 1 服从 2 为阶实对称阵 且 3 则服从与服从且相互独立 要点 定理5设 1 2 3 非负定则 且与相互独立 作业二 1 若服从 1 求的分布 其中 2 X中有无相互独立的分量 3 的分布是什么 若服从 A与B分别是和阶实矩阵 证明 AX与BX相互独立 一元正态样本及其性质 设是来自的一个样本样本均值是总体均值的无偏估计 即 样本方差是总体方差的无偏估计 即 与分别是和的极大似然估计其中与相互独立 第三节多元正态分布的参数估计 定理1若为正定矩阵且 则为的极大似然估计 即定理2当时 的极大似然估计是 定理3与分别是和的无偏估计 即定理4若和分别是正态总体的样本均值和样本离差阵 则 1 与相互独立 2 与同分布其中独立同分布于 3 定理5若为正定矩阵 则 可作为检验统计量 第四节WISHART分布 定义1随机矩阵的分布定义2 Wishart分布 设服从且相互独立 则称随机矩阵服从中心Wishart分布 并记为 结论 结论 分布是Wishart分布的特例 WISHART分布的性质 性质1若 且相互独立 则 性质2若 1 且独立同分布于 2 是秩为r的实对称阵 则 性质3 Cochran定理 若 1 且独立同分布于 2 为阶实对称阵 且 3 则服从与服从且相互独立 性质4若 1 2 为非奇异阵 则 一元正态总体参数的假设检验 设来自总体第一步 建立零假设第二步 寻找检验统计量及其在下的分布第三步 依据小概率原理建立检验准则由于 故若 则拒绝零假设 不应含有未知数 设来自总体第一步 建立零假设第二步 寻找检验统计量及其在下的分布第三步 依据小概率原理建立检验准则若则拒绝零假设 服从正态分布 服从卡方分布 服从多元正态分布 服从Wishart分布 推广 服从 第五节正态分布均值向量的假设检验 Hotelling分布定义设 且相互独立 则 结论1分布是t分布的推广结论2独立同分布于则 分布与分布之间的关系 定理若和是的样本均值和样本方差阵 记 则 单一总体均值向量的检验 零假设 已知时 检验统计量及其分布是 未知时 检验统计量是 且 两个正态总体均值向量的检验 零假设 情形1i i d于i i d于 1 正定且已知时 检验统计量极其分布 2 正定且未知时 检验统计量极其分布 相互独立 情形2i i d于i i d于检验统计量极其分布 1 构造新样本 2 构造统计量 相互独立 相互独立 作业二 2 若服从 且其中为 为阶的实矩阵 证明 服从i i d于i i d于其中已知且两样本相互独立 推导检验 的检验统计量极其分布 1 i i d于 2 C为已知阶实矩阵且秩为k p推导检验零假设 的检验统计量和它的分布 拒绝和接受零假设的检验法则是什么 实验四 选择两组有意义的一维样本检验零假设 说明 1 这个检验的前提假设是什么 2 写出检验统计量的具体表达形式及利用SAS的 分析员应用 计算的统计量值 3 在什么水平下接受或拒绝了零假设 第五章多元回归分析 第一节为什么要建立线性模型第二节一元回归模型的建立第三节一元回归模型的显著性检验第四节一元回归模型的诊断第五节曲线回归第六节多元回归模型的建立第七节多元回归模型与系数的显著性检验第八节多重共线性 第一节为什么要建立线性模型 线性模型简单 易分析相关性意味着线性性许多常用函数经过变换可以化为线性函数 如一般函数可以通过Tayer公式局部线性化 第二节一元回归模型的建立 观察由n个样本构成的散点图或计算样本相关系数 若呈现明显的相关性 建立数学模型 其中是未知参数 需要利用样本对它们进行估计 参数的最小二乘估计极其矩阵表达模型1最小二乘解 矩阵偏导数与样本矩阵表达 模型2最小二乘解 1 为y关于x的回归方程 2 称为方程的回归系数 3 称为残差 为残差向量 4 称为残差平方和 与的性质性质1 性质2 且即的无偏估计是1 2 3 由 性质3与相互独立1 2 3 验证与相互独立即可 一个结论 服从 AX与BX相互独立 第三节一元回归模型的显著性检验 总平方和分解决定系数法 总平方和 回归平方和 残差平方和 方差分析法 零假设检验统计量的确定定理在零假设下 1 在下 含义 2 且与相互独立 3 检验统计量 方差分析表 AnalysisofVariance 第四节一元回归模型的诊断 前提假设 应进行如下诊断 1 的独立性 2 的等方差性 3 的正态性 误差的估计 残差 残差图 独立 等方差 由残差检验 相互独立 等方差 残差不独立 异方差 由残差检验的正态性 Q Q图 的 分位数 理论分位数 样本分位数 1 分布函数与分位数设随机变量X的分布函数为 若 则称是的上侧分位数或的下侧分位数 此时有 F的上侧分位数 F的下侧分位数 2 样本分布函数设为一组样本 将它们按大小序排列 于是样本分布函数为 3 的样本分位数将按大小序排列 它的样本分布函数为 于是 的下侧分位数分别是 样本分位数 4 的理论分位数由 其中的理论下侧分位数可以通过查标准正态分布表得到 若确实服从 理论分位数 5 Q Q图 实验五建立一元回归模型 选取一组有意义的数据说明x与y之间具有较强的相关性利用SAS的 交互数据分析 建立回归方程 并进行如下说明 1 方程的显著性如何 哪些量能反映这一点 2 方程的前提假设是否满足 如何判定 第五节曲线回归 在实际中 y与x之间的关系不一定是线性关系 这大致有两种情况 根据专业知识知道y与x之间的关系 但其中含有未知参数 须通过实验数据加以确定 如细菌总数y与时间x之间的关系为 投入为K L 产出为y且规模报酬不变下的生产函数为 通过所收集的n组 从所画的散点图发现y关于x的某种曲线关系 此时 需要我们选择适当的曲线拟合这些数据 例 由于钢液及炉渣对耐火材料的腐蚀 炼钢厂用的钢包容积不断增大 经试验得到钢包的溶剂y与相应使用次数x的数据 找出y与x之间的数量关系 由散点图的形状决定拟合如下三个模型 第六节多元回归模型的建立 模型基本形式 样本表达 矩阵表达 参数和的估计 参数的最小二乘估计是参数的无偏估计是其中是残差平方和 与的性质 性质1 性质2 性质3与相互独立 性质4若 1 2 且与相互独立 3 第七节多元回归模型显著性检验 1 决定系数法方差分析法零假设 检验统计量与其分布 含义 第七节回归系数的显著性检验 2 零假设检验统计量与其分布 其中是的第j 1个对角元 含义 第八节多重共线性 什么是多重共线性若p个自变量在某种程度上是线性相关的多重共线性可以造成参数的估计值严重偏离实际值一个解释 的共线性使接近奇异阵 从而使中的对角分量或的方差很大 随机模拟方法 多重共线性对参数估计影响的例原线性模型 的观测值 正态随机数 由模型得到 回归模型 多重共线性的判定 方法1相关系数法若自变量间的相关系数 1 则相应的两个变量之间有较强的共线性 方法2方差膨胀系数法 若是把第j个自变量看作因变量 用其余p 1个变量作线性回归所得到的决定系数 则第j个自变量的方差膨胀系数为 克服多重共线性的方法 主成分回归对进行主成分分析前m个主成分的累积贡献率足够大建立与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论