已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用统计学 精品课程 第十章实用多元统计分析Unittenpracticalmulti dimensionalstatisticalanalysis 西安理工大学工程管理系马斌余梁蜀ProjectManagementDepartmentofXI AnUniversityofTechnologyMaBingYuLiangshu 应用统计学 精品课程 10 2 10 3 10 4 判别分析Distinctionanalysis 主成分分析Principalcomponentsanalysis 因子分析Factorcomponentsanalysis 应用统计学 精品课程 10 1 聚类分析Clusteranalysis 10 1 1数据的处理10 1 2聚类分析中的统计量10 1 3分类的形成 应用统计学 精品课程 应用统计学 精品课程 10 1 1数据的处理在工程项目中 假定对n个样品测定其m个指标 得到以下数据矩阵 其中 Xij是第i个样品j个指标 变量 的观测值 如果各个指标的测量单位 测量结果的数量级及数值变动范围存在很大的差异 我们就有必要在分类之前对数锯进行标准化或正规划 1 数据的标准化令 i 1 2 j 1 2 m 其中 通过上述变换的变量Yij是标准化变量 这时 它的均值为0 标准差为1 2 数据的正规化令 应用统计学 精品课程 其中 是数据第j列数据中的最小值 是数据阵第j列数据中的最大值 是第j列数据的级差 通过正规化变换后的数据阵中的每一列出现0与1各至少1个 其余则介于0与1之间 10 1 2聚类分析中的统计量1 样品或指标间相似程度的类型两个样品或指标对应的的两行 列 对应的元素比较接近 具有成比例关系或互相消长的关系 应用统计学 精品课程 2 衡量样品或指标间相似性的统计量的类型 1 距离系数在实际应用中 常用下式表达作为距离系数显然 对于正规化的数据 有 d 越小 第i个变量与第j个变量就越相似 反之 相似性就越小 应用统计学 精品课程 相似系数显然 cos ij cos ij绝对值越大 第i个变量的与第j个变量就越相似 反之相反 应用统计学 精品课程 相关系数显然 R i j R i j 的绝对值越大 第 个变量与第 个变量之间的关系就越密切 反之 就越不密切 应用统计学 精品课程 10 1 3分类的形成原则 若选出的一对变量未曾连接过 就连结为一组 若选出的变量对中 有一个已同别的连结成组 则把另一个变量与这个组连接 若对选出的变量分别在已连结好的两组内 则把这两个组连结 应用统计学 精品课程 应用统计学 精品课程 10 2 判别分析Distinctionanalysis 10 2 1基本思想10 2 2线性判别函数10 2 3判别指标与判别法则 应用统计学 精品课程 应用统计学 精品课程 10 2 1基本思想判别函数 记作Z Z Y1 YP 均值同样 对于总体X2有均值 通过判别分析的方法 可以构造出一个介于和之间的指标ZC 设Z为某个待定判别的判别值 应用统计学 精品课程 10 2 2线性判别函数判别函数其中 C1 CP是待定系数 通过下式可以确定C1 CP 应用统计学 精品课程 10 2 3判别指标与判别法则根据判别函数可求得和 通常可以用它们的加权平均作为判别指标 即有 应用统计学 精品课程 这样我们有以下判别法则 设 为某一判别样品的判别值 则 应用统计学 精品课程 10 2 4判别函数的评价对于判别函数其有效性需要进行检验 在统计学中 常采用马哈拉诺比斯D2统计量D2可直观地设想为总体X1和X2之间的距离 称为综合距离系数函数 可以证明统计量服从第一自由度为P 第二自由度为n1 n2 p 1的F分布 这样可以查F分布进行检验并评价判别函数 应用统计学 精品课程 实际中 先求出再求出各判别变量Yt t 1 p 的贡献系数对 贡献 小的判别变量可根据实际情况筛选掉 应用统计学 精品课程 统计学 精品课程 10 3 主成分分析Principalcomponentsanalysis 10 3 1主成份分析10 3 2主成份的导出10 3 3主成份的定义10 3 4主成份的性质10 3 5应用实例 主成分分析法是多元统计分析中的一种 是一种简化数据结构的方法 它用于将多个变量变换为少数几个综合变量 这几个综合变量变换为少数几个综合变量 这几个综合变量可以反映原来多个变量的大部分信息 而它们相互之间又是无关的 统计学 精品课程 10 3 1主成分的概念在项目管理中 假定对n个样品测定其m个指标 变量 X1 Xm得以下数据矩阵以后我们将原指标记为X1 Xm 将它们的主成分记为Y1 Ym 当m 2时 原指标记为X1和X2 其关系见下页图 应用统计学 精品课程 容易看出Y1将X1和X2 的主要信息都反映了 那么用Y1来表达X1和X2 还是不错的 如果取椭圆的短轴作为第二主成分Y2 那么 图10 2上的点 对原指标X1 X2 的值记为X1t和Xt2 t 1 n 对主成分Y2的值记为Y1t Yt2 t 1 n 则有 应用统计学 精品课程 所谓Y1反映的信息 就是在整个平方和中所占的比例越大越好 即Y1的平方和 或方差 越大越好 10 3 2主成分的导出在标准化的情况下 样本的相关系数即为样本协方差 即 应用统计学 精品课程 对于数据矩阵 10 1 其样本相关矩阵R和样本协方差矩阵S相同 即为了导出主成分 只须求R或S阵的特征根和特征向量即可 应用统计学 精品课程 10 3 3主成分的定义设为X1 Xm是m个变量 可以抽得其n个样品 它的第i i 1 m 个主成分为其中 应用统计学 精品课程 并且满足 1 第一主成分Y1是一切形如使Y的方差达到极大者 2 第二主成分Y2是一切形如并与Y1无关 使Y的方差达到极大者 3 第k个主成分Yk是一切形如并与Y1 YK 1不相关 使Y的方差达到极大者 应用统计学 精品课程 10 3 4主成分的性质设对于变量X1 Xm的n个样品的数据矩阵 其协方差矩阵为S 设S的m个特征值 1 m 0 对应的m个单位正交特征向量为则 应用统计学 精品课程 1 X1 Xm的第i个主成分Yi的系数就是第i个特征值 i所对应的正交化特征向量则 应用统计学 精品课程 2 第i个主成分Yi的方差为第i个特征值 i 每两个不相同主成分间的协方差为0 则Y1 Ym的协方差矩阵S是一对角矩阵 其对角元素分别为 1 m 其他元素均为0 3 S和 的对角元素之和相等 即两个协方差矩阵的迹相等由此可得 第k个主成分的方差占总方差的比例 称此为主成分Yk的贡献率 则前K个主成分的累计贡献率 应用统计学 精品课程 4 主成分Yi与Xj的相关系数称为因子负荷量 5 应用统计学 精品课程 应用统计学 精品课程 为了研究上海 北京房地产指数与其他价格指数之间的关系 设定4个变量 见表10 12 表10 12房地产指数变量 10 3 5应用实例 表中10 12中所有变量的数据均取自1997年1月 2000年6月有关的统计资料 样本容量为n 42 根据这些数据计算的样本相关矩阵为 其特征值为 1 2 333 2 1 089 3 0 540 4 0 038 对应的特征向量分别为 应用统计学 精品课程 这样就可以得到4个主成份 其第一 第二主成份分别为 应用统计学 精品课程 根据10 3 4小节中的结论 2 3 可以求出各个主成份的方差和方差贡献 见表10 13 表10 13方差贡献 由表10 13可见 前两个主成份的累计方差贡献率达到了85 5 这就说明如用两个成分Y1和Y2去代替原来的4个变量X1 X2 X3 X4的话 所不能解释的方差不足15 因此不致损失太多的信息 利用 10 33 还可以求出因子负荷 表10 14给出了计算结果 应用统计学 精品课程 表10 14因子负荷 由因子负荷表可以看出第一主成份Y1和变量X1 X3 X4关系密切 因此 它的意义或命名应根据X1 X3 X4的意义来决定 第二主成份Y2和X2的关系最密切 而与X1 X3 X4的关系不密切 应用统计学 精品课程 应用统计学 精品课程 10 4 因子分析Factorcomponentsanalysis 10 4 1因子分析的基本思想10 4 2子分析的数学表达式10 4 3正交因子模型与回归模型的比较10 4 4关于因子负荷的主要结论10 4 5应用实例 应用统计学 精品课程 10 4 1因子分析的基本思想因子分析的基本思想是将可以直接观测的变量进行分类 使彼此之间相关性较密切的变量分在同一类中 且使不同类的变量之间的相关性尽量降低 这样每一类的变量实质上代表了一个本质因子 因子分析就是要寻找这种类型的模型或结构 10 4 2因子分析的数学表达式设m个变量的n个样品的观测数据矩阵为由于X1 Xm之间可能互相独立 也可能彼此相关 因此 我们将m个变量Xi i 1 m 表示成因子F1 FP以及因子ui i 1 m 的线性组合 应用统计学 精品课程 应用统计学 精品课程 式中 FK K 1 P 与所有的变量X1 Xm都有关 称为公共因子 而ui i 1 m 仅与相应的一个变量Xi有关 称为单因子 公共因子的系数aik i 1 p 称为第i个变量Xi在第k个公共因子FK上的因子载荷 为讨论问题的方便 假定原始变量Xi 公共因子FK以及单因子ui均已化为标准化 且各因子互相独立 若进一步假定公共因子F1 FP满足EFK 0 K 1 P Cov FK Ft 单因子u1 um满足Eui 0 i 1 m Cov ui uj 以上模型称为正交因子模型 应用统计学 精品课程 10 4 3正交因子模型与回归分析比较对于线性组合中的一个式子与多元回归模型进行比较 可见它们的形式是类似的 但参数的意义与自变量的性质不同 两者的比较详见下页表 应用统计学 精品课程 正交因子模型与回归模型的比较 应用统计学 精品课程 10 4 4关于因子负荷的主要结论由因子模型系数构成的矩阵称为因子负荷矩阵 它具有以下结论 见下页 应用统计学 精品课程 1 因子负荷aij i 1 m j 1 p 是第i个变量Xi与第j个公共因子Fj的协方差 即aij cov Xi Fj 由Xi与Fj标准化的假设 可知aij是Xi与Fj的相关系数 它反映了Xi与Fj的关系的密切程度 2 公共因子F1 Fm是与单因子ui的对同一变量Xi的方差所作的总贡献 由两部分组成 一部分由公共因子组成即称为公共因子方差 另一部分称为单因子方差 即 应用统计学 精品课程 上式也就是即总方差 公共因子方差 单因子方差 应用统计学 精品课程 10 4 5应用实例 应用统计学 精品课程 在10 3节主成份分析的实例中 对于样本相关矩阵 按照两个正交因子的模型 求出其因子负荷矩阵为 试求 1 正交因子模型 2 各个变量的共同度以及对应的单因子方差 3 每个因子的方差贡献率以及两个因子的累计方差贡献率 4 说明两个因子的意义 应用统计学 精品课程 解 1 正交因子模型为 应用统计学 精品课程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 热工技术试题带答案
- 2026-2031年中国扫描仪市场分析及投资战略研究预测可行性报告
- 服装销售贴牌合同范本
- 烟台医院考试题库及答案
- 银行培训考试题库及答案
- 清远护士考编题库及答案
- 水暖维修施工合同范本
- 基于校园一卡通与云课堂数据的学生行为洞察与教育启示
- 水库承包鱼塘合同范本
- 2026-2031全球及中国呼叫中心录音软件行业市场发展分析及前景趋势与投资发展研究报告
- 公司研发储备金管理制度
- 联合验收优化方案(3篇)
- 甄嬛传之非谓语的前世今生 高三英语
- 2024-2025学年广东省惠州市惠城区光正实验学校上学期九年级数学期中考试试卷
- 大型活动现场消防安全措施
- 诗歌生成中的韵律控制-全面剖析
- 网络安全事件应急响应处理流程
- 临床成人床旁心电监测护理规程
- 石膏线条合同协议
- 行政法基础知识培训课件
- 心理健康咨询记录表模板
评论
0/150
提交评论