




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析PrincipalComponentAnalysis 思考1反映地区社会经济发展的指标体系X1 国内生产总值 GDP X2 人均GDPX3 第三产业产值占GDP比重X4 人均出口额X5 工业企业劳动生产率X6 人均社会消费品零售额X7 每万人拥有卫生技术人员数X8 每万人高等学校在校生数X9 教育经费投入占GDP比重X10 人均货运总量X11 人均邮电业务总量X12 每万人电话机装机数X13 人均固定资产投资X14 人均实际利用外资X15 地方财政收入占GDP比重X16 每万人科研机构数X17 科研经费占GDP比重 分析全国31个地区的社会经济发展水平 为了对常用的100种食品的生产进行经营决策 需要就消费者对食品的嗜好程度进行调查 要求每个消费者对食品进行评价 按对食品的喜好程度评分 最受欢迎的给予最高分9分 最不受欢迎的给予最低分1分 思考2 为了较好地满足市场的需要 服装生产厂要了解所生产的一种服装究竟设计几种型号合适 这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益 思考3 服装的定型分类问题 大纲 1 基本思想2 定义3 主成分的性质 计算等4 案例5 主成分回归 E g Hotelling 1939 用两个主成分反映入学考试成绩 文科能力数理能力预备知识 方差为零的变量不能区分总体中的个体成员 可以用一个变量的方差来度量其所传递的信息量 主成分分析的基本概念 一个假设的例子 N 100均数101 6350 71方差109 6355 40标准差10 477 44的均数 0的均数 0 预备知识 向量 等方向都是同一个方向 a b 2a 2b 1 创建 使得尽可能大 即寻找一个方向 使得所有点在此方向上的投影的方差尽可能大 2 创建 使得与不相关尽可能大 即寻找另一个方向垂直于所有点在上的投影方差最大 例1985年中国人口普查资料 各省汉族青年 19 22岁 形态学指标的平均值 如何综合多个随机变量 我们想要一个或几个综合变量 概括6个形态指标的大部分信息 注意 若某指标在人群中方差较大 它就是一个好的指标 寻找综合变量 标准化 1 找第1个最佳的综合变量找适宜的系数 使得与其他线性组合相比 有最大的方差最大我们关心的是之间的比值故限定 2 找第2个最佳的综合变量 找适宜的使得最大限定 3 找第3个最佳的综合变量最大限定原有6个变量 最多可找到6个独立的综合变量 主成分的一般定义 一般地 样本均数样本标准差标准化 1 在所有线性组合中 限定使得最大的便是第1主成分 2 在所有线性组合 中 限定使得最大的便是第2主成分 类似地 我们可以定义第3 第4 直到第p个主成分 主成分的性质 1 主成分之间不相关Corr Ci Cj 0 2 系数 ai1 ai2 aip 是单位向量ai12 ai22 aip2 1 3 方差递降Var C1 Var C2 Var Cp 4 主成分的方差之和等于原变量的方差之和信息总量不增不减 Var C1 Var C2 Var Cp Var x1 Var x2 Var xp p 主成分的计算和解释 1 计算的相关矩阵 2 计算R的特征根 特征值 即求解方程 3 计算特征向量 即求解方程 得到 表1例1的相关矩阵 只有前几个才是名副其实的 主成分 表2例1的相关矩阵的主成分 表4例1的特征向量 主成分的个数 实践中 1 粗略地决定欲保留的方差百分比 仅保留前几个主成分或 2 若某个主成分的方差大于1 就保留它 因为原变量的方差都是1究竟保留几个 取决于课题本身的需要 碎石图 主成分与原变量的相关性 和的关系 主要反映身体的大小 身高 坐高 体重 胸围 反映宽度肩宽和骨盆宽度总之 1 主成分有助于综合多个变量 2 主成分的意义有时不易解释 例 抑郁症问卷的综合得分表1标准CESD问卷的主成分 抑郁症数据 C1 多数条目的加权和C2 反映懒散和精力状况C3 有关 别人怎样看待自己 的感觉 例2关于下颚6个前齿的结石 1 右犬齿2 右 侧门牙3 右 中门牙4 左 侧门牙5 左 中门牙6 左犬齿 PC1 加权和 总的结石状况PC2 门牙与犬齿比较PC3 左右比较 主成分分析的应用 综合评价市场研究定型分类问题 反映地区社会经济发展的指标体系X1 国内生产总值 GDP X2 人均GDPX3 第三产业产值占GDP比重X4 人均出口额X5 工业企业劳动生产率X6 人均社会消费品零售额X7 每万人拥有卫生技术人员数X8 每万人高等学校在校生数X9 教育经费投入占GDP比重X10 人均货运总量X11 人均邮电业务总量X12 每万人电话机装机数X13 人均固定资产投资X14 人均实际利用外资X15 地方财政收入占GDP比重X16 每万人科研机构数X17 科研经费占GDP比重 对全国31个地区上述17项指标的数据进行主成分分析 应用SAS软件进行处理 例1 主成分分析用于综合评价 1 求相关系数矩阵R2 计算R的特征值 3 求特征根所对应的单位特征向量 0 5132250 203116 0 1828580 1936180 2172900 113642 0 164527 0 114637 0 509240 0 0258320 0834710 1325920 1054020 199407 0 181330 0 261367 0 295756 0 0384660 2760200 2436540 2634870 1805460 2908340 2598420 2805230 0942330 2159460 2920160 2882680 2820160 2590060 2167930 2599620 212293 X1X2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X17 Y2 Y1 特征向量 4 主成分的表达式及其含义解释5 计算主成分得分 为了对常用的100种食品的生产进行经营决策 需要就消费者对食品的嗜好程度进行调查 对785名消费者进行调查 要求每个消费者对100种食品进行评价 按对食品的喜好程度评分 最受欢迎的给予最高分9分 最不受欢迎的给予最低分1分 例2市场研究中的应用 将被调查者按性别与年龄分成10组 假若你是该食品加工业决策部门的高级顾问 为了对食品生产作出合理决策 请你对调查资料进行分析 为决策者提供建议 以组为单位 在每组中每个成员都对100种食品给予评分 然后计算每组成员对每种食品评分的平均值 1 5组表示男性 6 10组表示女性1 5 6 10年龄从小到大排序 y1反映了公共平均嗜好程度 y1得分越大 表示大众越喜欢吃此食品 y2反映了年龄的作用 y2得分为正时 表示孩子喜欢吃 y2得分为负时 表示孩子不喜欢吃 y3反映性别的作用 y3得分为正时 表示男性喜欢吃 y3得分为负时 表示女性喜欢吃 主成分的含义 用得分来表示食品嗜好程度可有七成把握 在充分注意到人们普遍的嗜好程度基础上 进一步考虑到青少年和老年人的嗜好程度 对食品业的开发方针作出决策时 将有85 的把握 为了较好地满足市场的需要 服装生产厂要了解所生产的一种服装究竟设计几种型号合适 这些型号的服装应按怎样的比例分配生产计划才能达到较好的经济效益 例3服装的定型分类问题 X1 身长X2 坐高X3 胸围X4 头高X5 裤长X6 下裆X7 手长X8 领围X9 前胸X10 后背X11 肩厚X12 肩宽X13 袖长X14 肋围X15 腰围X16 腿肚 对128名成年男子按16项指标进行测量 y1是刻画尺寸大小的因子 y2反映人的胖瘦情况 是一个体形因子 反映 长 的尺寸前面的系数为正 反映 围 的尺寸前的系数为负 y3系数多数取值很小 接近于0 只有三个系数绝对值较大 y3是反映特殊体形的因子 区分有无畸形 区分有几种型号 分类 各种型号的生产量 比例 要解决的问题 主成分回归 数据分析过程中的一个工具可应用于下列分析的中间过程 多重回归判别分析因子分析聚类分析 回归中的共线性 当自变量高度相关时 回归系数估计值不稳定 结果不易解释 主成分有助于重新组织原变量 高度相关的变量往往会构成同一个主成分 不同主成分之间不相关 将主成分作为自变量 就没有自变量之间相关的问题了 表5孕周和胎儿的形态学指标 Y关于和的回归方程回归系数 头围的系数为负 违背常识 为什么 表6例2的相关矩阵 三个变量高度相关 头围的系数为负是因为它必须挽回和的过度贡献 主成分分析 表7例2的主成分分析 保留前两个主成分和 关于主成分的回归 将和的表达式代入这个回归方程 得到新的回归方程前面直接关于 和回归时出现的问题消失了 小结 1 预备知识 方差为零的变量不能区分总体中的个体成员 可以用一个变量的方差来度量其所传递的信息量 2 如果有多个自变量 我们希望用少数几个综合变量来概括大部分信息 主成分是寻找综合变量的方法之一 3 主成分是原变量的线性组合 第一主成分应当最大 第2主成分是在和第1主成分不相关的前提下方差最大 第3主成分是 4 理论上 若由p个变量 我们可以有p个主成分 但只有前几个主成分才涵盖原来p个变量的部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年吉林省特岗教师招聘考试职位表模拟试卷完整答案详解
- 2025黑龙江东北林业大学党委学生工作部校内招聘4人模拟试卷及答案详解(必刷)
- 2025年泰和县上圯水厂面向社会公开招聘模拟试卷附答案详解(黄金题型)
- 2025春季中国有研科技集团有限公司校园招聘模拟试卷及一套答案详解
- 2025年国网陕西省电力有限公司第二批录用人选模拟试卷及答案详解(典优)
- 2025年湖南邵阳城步县事业单位选调28人考前自测高频考点模拟试题及参考答案详解
- 2025湖南省怀化学院高层次人才公开招聘100人模拟试卷及答案详解(易错题)
- 2025吉林省矿业集团有限责任公司遴选31人考前自测高频考点模拟试题完整参考答案详解
- 2025年中国电信江苏公司春季校园招聘笔试题库历年考点版附带答案详解
- 2025年河北雄安新区新建片区学校公开选聘校长及骨干教师13人考前自测高频考点模拟试题参考答案详解
- 2025贵州毕节威宁自治县面向社会招聘城市社区工作者17人考试参考试题及答案解析
- 建筑工地垃圾清理与处理方案
- 修井现场安全培训内容课件
- 2022届辽宁省大连市高三一模语文试题
- Φ1397套管开窗侧钻操作规程
- 《寻梦环游记(2017)》完整中英文对照剧本
- RB/T 089-2022绿色供应链管理体系要求及使用指南
- 某某集团年度经营计划编制指引
- 山区道路施工施组
- 数控heidenhain说明书TNC直接提供两种加工孔模板的循环
- GB/T 42453-2023信息安全技术网络安全态势感知通用技术要求
评论
0/150
提交评论