多元统计分析的重点和内容和方法_第1页
多元统计分析的重点和内容和方法_第2页
多元统计分析的重点和内容和方法_第3页
多元统计分析的重点和内容和方法_第4页
多元统计分析的重点和内容和方法_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 什么是多元统计分析一 什么是多元统计分析 多元统计分析是运用数理统计的方法来研究多变量 多指标 问题的理论和方法 是一元统计学的推多元统计分析是运用数理统计的方法来研究多变量 多指标 问题的理论和方法 是一元统计学的推 广 广 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科 二 多元统计分析的内容和方法二 多元统计分析的内容和方法 1 简化数据结构 降维问题 简化数据结构 降维问题 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量 使研究问题得到简化但损失的信息又将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量 使研究问题得到简化但损失的信息又 不太多 不太多 1 主成分分析 主成分分析 2 因子分析 因子分析 3 对应分析等 对应分析等 2 分类与判别 归类问题 分类与判别 归类问题 对所考察的变量按相似程度进行分类 对所考察的变量按相似程度进行分类 1 聚类分析 根据分析样本的各研究变量 将性质相似的样本归为一类的方法 聚类分析 根据分析样本的各研究变量 将性质相似的样本归为一类的方法 2 判别分析 判别样本应属何种类型的统计方法 判别分析 判别样本应属何种类型的统计方法 例例 5 根据信息基础设施的发展状况 对世界 根据信息基础设施的发展状况 对世界 20 个国家和地区进行分类 个国家和地区进行分类 考察指标有考察指标有 6 个 个 1 X1 每千居民拥有固定电话数目 每千居民拥有固定电话数目 2 X2 每千人拥有移动电话数目 每千人拥有移动电话数目 3 X3 高峰时期每三分钟国际电话的成本 高峰时期每三分钟国际电话的成本 4 X4 每千人拥有电脑的数目 每千人拥有电脑的数目 5 X5 每千人中电脑使用率 每千人中电脑使用率 6 X6 每千人中开通互联网的人数 每千人中开通互联网的人数 3 变量间的相互联系 变量间的相互联系 一是 分析一个或几个变量的变化是否依赖另一些变量的变化 一是 分析一个或几个变量的变化是否依赖另一些变量的变化 回归分析 回归分析 二是 两组变量间的相互关系 典型相关分析 二是 两组变量间的相互关系 典型相关分析 4 多元数据的统计推断 多元数据的统计推断 点估计点估计 参数估计参数估计 区间估计区间估计 统统 u 检验检验 计计 参数参数 t 检验检验 推推 F 检验检验 断断 假设假设 相关与回归相关与回归 检验检验 卡方检验卡方检验 非参非参 秩和检验秩和检验 秩相关检验秩相关检验 1 假设检验的基本原理 假设检验的基本原理 小概率事件原理小概率事件原理 小概率思想是指小概率事件 小概率思想是指小概率事件 P 0 01 或或 P 2 或 10 或 d 0 即差值的总体均数不为 0 检验水平为 B 计算统计量计算统计量 进行配对设计 t 检验时 t 值为差值均数与 0 之差的绝对值除以差值标准误的商 其中差值标准误为差值标准 差除以样本含量算术平方根的商 C 确定概率 作出判断确定概率 作出判断 以自由度 v 对子数减 1 查 t 界值表 若 P 则还不能拒绝 H0 例例 4 要比较 要比较 50 个人在减肥前和减肥后的重量 这样就有了两个样本 每个都有个人在减肥前和减肥后的重量 这样就有了两个样本 每个都有 50 个数目 个数目 这里不能用前面的独立样本均值差的检验 这是因为两个样本并不独立 这里不能用前面的独立样本均值差的检验 这是因为两个样本并不独立 每一个人减肥后的重量都和自己减肥前的重量有关 但不同人之间却是独立的 令减肥前的重量均值每一个人减肥后的重量都和自己减肥前的重量有关 但不同人之间却是独立的 令减肥前的重量均值 为为 1 而减肥后的均值为 而减肥后的均值为 2 这样所要进行的检验为 这样所要进行的检验为 H0 1 2 H1 1 大于大于 2 一 方差分析的基本思想一 方差分析的基本思想 1 定义 定义 方差分析又称变异数分析或方差分析又称变异数分析或 F 检验 其目的是推断两组或多组资料的总体均数是否相同 检验两个或多个检验 其目的是推断两组或多组资料的总体均数是否相同 检验两个或多个 样本均数的差异是否有统计学意义 样本均数的差异是否有统计学意义 2 了解方差分析中几个重要概念 了解方差分析中几个重要概念 1 观测因素或称为观测变量 观测因素或称为观测变量 如 考察农作物产量的影响因素 农作物产量就是观测变量 如 考察农作物产量的影响因素 农作物产量就是观测变量 2 控制因素或称控制变量 控制因素或称控制变量 进行试验进行试验 实验实验 时时 我们称可控制的试验条件为因素我们称可控制的试验条件为因素 Factor 因素变化的各个等级为水平因素变化的各个等级为水平 Level 影响农作物产量的因素 如品种 施肥量 土壤等 影响农作物产量的因素 如品种 施肥量 土壤等 如果在试验中只有一个因素在变化如果在试验中只有一个因素在变化 其他可控制的条件不变其他可控制的条件不变 称它为单因素试验称它为单因素试验 若试验中变化的因素有两个或两个以上若试验中变化的因素有两个或两个以上 则称为双因素或多因素试验则称为双因素或多因素试验 方差分析就是从观测变量的方差入手 研究诸多控制变量 因素 中哪些变量是对观测变量有显著影方差分析就是从观测变量的方差入手 研究诸多控制变量 因素 中哪些变量是对观测变量有显著影 响的变量响的变量 3 方差分析的基本原理 方差分析的基本原理 设有设有 r 个总体 各总体分别服从个总体 各总体分别服从 假定各总体方差相等 现 假定各总体方差相等 现 从各总体随机抽取样本 透过各总体的样本数据推断从各总体随机抽取样本 透过各总体的样本数据推断 r 个总体的均值是否相等 个总体的均值是否相等 至少有一组数据的平均值与其它组的平均值有显著性差异 至少有一组数据的平均值与其它组的平均值有显著性差异 分析的思路 用离差平方和 分析的思路 用离差平方和 SS 描述所有样本总的变异情况 将总变异分为两个来源 描述所有样本总的变异情况 将总变异分为两个来源 1 组内变动 组内变动 within groups 代表本组内各样本与该组平均值的离散程度 即水平内部 组内 方差 代表本组内各样本与该组平均值的离散程度 即水平内部 组内 方差 2 组间变动 组间变动 between groups 代表各组平均值关于总平均值的离散程度 即水平之间 组间 方差 代表各组平均值关于总平均值的离散程度 即水平之间 组间 方差 即 即 SS 总总 SS 组间组间 SS 组内组内 消除各组样本数不同的影响消除各组样本数不同的影响 离差平方和除以自由度 即均方差 离差平方和除以自由度 即均方差 从而构造统计量 从而构造统计量 方差分析的基本思想就是通过组内方差与组间方差的比值构造的方差分析的基本思想就是通过组内方差与组间方差的比值构造的 F 统计量 将其与给定显著性水平 统计量 将其与给定显著性水平 自由度下的自由度下的 F 值相对比 判定各组均数间的差异有无统计学意义 值相对比 判定各组均数间的差异有无统计学意义 零假设否定域 零假设否定域 例例 2 SIM 手机高 中 低三种收入水平被调查者的用户满意度是否有显著性差异手机高 中 低三种收入水平被调查者的用户满意度是否有显著性差异 即 研究被调查者的收入水平是否会影响其对即 研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度 手机的满意程度 SPSS 处理 处理 Analyze Compare Mean One Way ANOVA 多元方差分析 操作参见书例多元方差分析 操作参见书例 2 1 第 第 36 页 页 SPSS 选项 选项 Analyze General Linear Model Multivariate 可用男 女生的身高 体重 胸围组成的样本均数向量推论该年级男 女生身体发育指标的总体均数向量可用男 女生的身高 体重 胸围组成的样本均数向量推论该年级男 女生身体发育指标的总体均数向量 1 和和 2 相等与否相等与否 得到 得到 F 8 8622 P 0 0008 拒绝该年级男女生身体发育指标的总体均数向量相等的假设 从而可认为该校 拒绝该年级男女生身体发育指标的总体均数向量相等的假设 从而可认为该校 男女生身体发育状况不同 男女生身体发育状况不同 4 方差分析的应用条件 方差分析的应用条件 2 1 N 2 2 N 2 r N 012 r H 1 H 1 SSr F SS 组间 组内 n r 1 rnr FF 1 可比性 若资料中各组均数本身不具可比性则不适用方差分析 可比性 若资料中各组均数本身不具可比性则不适用方差分析 2 正态性 各组的观察数据 是从服从正态分布的总体中随机抽取的样本 即偏态分布资料不适用方差 正态性 各组的观察数据 是从服从正态分布的总体中随机抽取的样本 即偏态分布资料不适用方差 分析 对偏态分布的资料应考虑用对数变换 平方根变换 倒数变换 平方根反正弦变换等变量变换方法变为分析 对偏态分布的资料应考虑用对数变换 平方根变换 倒数变换 平方根反正弦变换等变量变换方法变为 正态或接近正态后再进行方差分析 正态或接近正态后再进行方差分析 3 方差齐性 各组的观察数据 是从具有相同方差的相互独立的总体中抽取得到的 即若组间方差 方差齐性 各组的观察数据 是从具有相同方差的相互独立的总体中抽取得到的 即若组间方差 不齐则不适用方差分析 不齐则不适用方差分析 依据涉及的分析变量多少分为 一元方差分析 多元方差分析依据涉及的分析变量多少分为 一元方差分析 多元方差分析 依据对分析变量的影响因素的数量分为 单因素方差分析 多因素方差分析依据对分析变量的影响因素的数量分为 单因素方差分析 多因素方差分析 一 什么是聚类分析 一 什么是聚类分析 聚类分析聚类分析 P54 是根据是根据 物以类聚物以类聚 的道理 对样品或指标进行分类的一种多元统计分析方法 的道理 对样品或指标进行分类的一种多元统计分析方法 将个体或对象分类 使得同一类中的对象之间的相似性比与其他类的对象的相似性更强 将个体或对象分类 使得同一类中的对象之间的相似性比与其他类的对象的相似性更强 聚类分析的目的聚类分析的目的 P54 使类内对象的同质性最大化和类间对象的异质性最大化 使类内对象的同质性最大化和类间对象的异质性最大化 二 聚类分析的基本思想 二 聚类分析的基本思想 是根据一批样品的多个观测指标 具体地找出一些能够度量样品或指标之间相似程度的统计量 然后利用是根据一批样品的多个观测指标 具体地找出一些能够度量样品或指标之间相似程度的统计量 然后利用 统计量将样品或指标进行归类 把相似的样品或指标归为一类 把不相似的归为其他类 直到把所有的样品统计量将样品或指标进行归类 把相似的样品或指标归为一类 把不相似的归为其他类 直到把所有的样品 或指标 聚合完毕 或指标 聚合完毕 相似样本或指标的集合称为类 相似样本或指标的集合称为类 1 聚类分析的类型有 聚类分析的类型有 对样本分类 称为对样本分类 称为 Q 型聚类分析型聚类分析 对变量分类 称为对变量分类 称为 R 型聚类分析型聚类分析 Q 型聚类是对样本进行聚类 它使具有相似性特征的样本聚集在一起 使差异性大的样本分离开来 型聚类是对样本进行聚类 它使具有相似性特征的样本聚集在一起 使差异性大的样本分离开来 R 型聚类是对变量进行聚类 它使具有相似性的变量聚集在一起 差异性大的变量分离开来 可在相似变型聚类是对变量进行聚类 它使具有相似性的变量聚集在一起 差异性大的变量分离开来 可在相似变 量中选择少数具有代表性的变量参与其他分析 实现减少变量个数 达到变量降维的目的 量中选择少数具有代表性的变量参与其他分析 实现减少变量个数 达到变量降维的目的 2 聚类分析的方法 聚类分析的方法 系统聚类 层次聚类 系统聚类 层次聚类 非系统聚类 非层次聚类 非系统聚类 非层次聚类 系统聚类法包括 凝聚方式聚类 分解方式聚类系统聚类法包括 凝聚方式聚类 分解方式聚类 非系统聚类法包括 模糊聚类法 非系统聚类法包括 模糊聚类法 K 均值法 快速聚类法 等等 均值法 快速聚类法 等等 常用距离 常用距离 1 明考夫斯基距离 明考夫斯基距离 Minkowski distance 明氏距离有三种特殊形式 明氏距离有三种特殊形式 1a 绝对距离 绝对距离 Block 距离 距离 当当 q 1 时时 1b 欧氏距离欧氏距离 Euclidean distance 当当 q 2 时时 1c 切比雪夫距离切比雪夫距离 当当 时时 g p k g jkikij xxd 1 1 p k jkikij xxd 1 1 2 1 1 2 2 p k jkikij xxd q jkik pk ij xxd 1 max 当各变量的单位不同或测量值范围相差很大时 不应直接采用明氏距离 而应先对各变量的数据作标当各变量的单位不同或测量值范围相差很大时 不应直接采用明氏距离 而应先对各变量的数据作标 准化处理 然后用标准化后的数据计算距离 常用的标准化处理 准化处理 然后用标准化后的数据计算距离 常用的标准化处理 其中其中 为第为第 j 个变量的样本均值 个变量的样本均值 为第为第 j 个变量的样本方差 个变量的样本方差 4 马氏距离 马氏距离 1 2 1 2 ijj ij jj xx xinjp s 1 1 n jij i xx n 2 1 1 1 n jjijj i sxx n 2 ji 1 ji xxxx ij d 1 2 ij d 1 ijij xxxx 克服量纲的影响克服量纲的影响 克服指标间相克服指标间相 关性的影响关性的影响缺点 缺点 协方差协方差 矩阵难以确定矩阵难以确定 马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性 如果假定各变量之间相互独马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性 如果假定各变量之间相互独 立 即观测变量的协方差矩阵是对角矩阵 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行立 即观测变量的协方差矩阵是对角矩阵 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行 加权的欧氏距离 因此 马氏距离不仅考虑了观测变量之间的相关性 而且也考虑到了各个观测指标取值的差加权的欧氏距离 因此 马氏距离不仅考虑了观测变量之间的相关性 而且也考虑到了各个观测指标取值的差 异程度 为了对马氏距离和欧氏距离进行一下比较 以便更清楚地看清二者的区别和联系 现考虑一个例子 异程度 为了对马氏距离和欧氏距离进行一下比较 以便更清楚地看清二者的区别和联系 现考虑一个例子 1 类的定义 类的定义 相似样本或指标的集合称为类 相似样本或指标的集合称为类 数学表达见 数学表达见 63 64 页定义页定义 3 1 3 4 2 类的特征描述 类的特征描述 设类设类 G 这一集合有这一集合有 m 为为 G 内的样本数 其特征 内的样本数 其特征 xxx m 21 1 均值 或称为重心 均值 或称为重心 2 协方差矩阵 协方差矩阵 3 G 的直径的直径 d12 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67 d13 13 80 d14 13 12 d15 12 80 d23 24 63 d24 24 06 d25 23 54 d34 2 2 d35 3 51 d45 2 21 1 2 3 4 5 D1 1 0 河南与甘肃的距离最近 河南与甘肃的距离最近 2 11 67 0 先将二者 先将二者 3 和和 4 合为 合为 3 13 80 24 63 0 一类 G6 G2 G4 4 13 12 24 06 2 20 0 5 12 80 23 54 3 51 2 21 0 1 1 m Gi i xx m 1 m GiGiG i sxxxx 1 1 GG s n max Gij i j G Dd 判别分析判别分析 根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法 根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法 如何判断 判断依据 如何判断 判断依据 利用已知类别的样本信息求判别函数 根据判别函数对未知样本所属类别进行判别利用已知类别的样本信息求判别函数 根据判别函数对未知样本所属类别进行判别 判别分析的特点 基本思想 判别分析的特点 基本思想 是根据已掌握的 历史上若干样本的 是根据已掌握的 历史上若干样本的 p 个指标数据及所属类别的信息 总结出该事物分类的规律性 个指标数据及所属类别的信息 总结出该事物分类的规律性 建立判别公式和判别准则 建立判别公式和判别准则 2 根据总结出来的判别公式和判别准则 判别未知类别的样本点所属的类别 根据总结出来的判别公式和判别准则 判别未知类别的样本点所属的类别 判别分析的目的 识别一个个体所属类别判别分析的目的 识别一个个体所属类别 3 判别分析和聚类分析往往联合使用 当总体分类不清楚时 先用聚类分析对一批样本进行分类 再用判 判别分析和聚类分析往往联合使用 当总体分类不清楚时 先用聚类分析对一批样本进行分类 再用判 别分析构建判别式对新样本进行判别 此外判别分析变量情况 别分析构建判别式对新样本进行判别 此外判别分析变量情况 被解释变量为属性变量 被解释变量为属性变量 解释变量是定量变量 解释变量是定量变量 判别分析类型及方法判别分析类型及方法 1 按判别的组数来分 有两组判别分析和多组判别分析 2 按区分不同总体所用的数学模型来分 有线性判别和非线性判别 3 按判别对所处理的变量方法不同有逐步判别 序贯判别 4 按判别准则来分 有费歇尔判别准则 贝叶斯判别准则 距离判别距离判别 基本思想即 首先根据已知分类的数据 分别计算各类的重心即各组 类 的均值 判别的准则是对任给基本思想即 首先根据已知分类的数据 分别计算各类的重心即各组 类 的均值 判别的准则是对任给 样品 计算它到各类平均数的距离 哪个距离最小就将它判归哪个样品 计算它到各类平均数的距离 哪个距离最小就将它判归哪个类 一 两个总体的距离判别法 一 两个总体的距离判别法 1 方差相等 方差相等 先考虑两个总体的情况 设有两个协差阵先考虑两个总体的情况 设有两个协差阵 相同的相同的 p 维正态总体 对给定的样本维正态总体 对给定的样本 Y 判别一个样本 判别一个样本 Y 到到 底是来自哪一个总体 一个最直观的想法是计算底是来自哪一个总体 一个最直观的想法是计算 Y 到两个总体的距离 故我们用马氏距离来给定判别规则 有 到两个总体的距离 故我们用马氏距离来给定判别规则 有 2 当总体的协方差已知 且不相等 当总体的协方差已知 且不相等 2 2 1 2 1 2 2 2 2 2 2 1 2 1 GydGyd GdGdG GdGdG 如待判 如 如 yyy yyy 2 2 1 2 1 2 2 2 2 2 2 1 2 1 GydGyd GdGdG GdGdG 如待判 如 如 yyy yyy 1 1 112 1 22 1 2 2 2 yyyy yyGdGd 1 1 12 1 2 1 2 2 2 yyyy yy GdGd 222 11 yyy 1 2 2 1 1 11 11 yyy 2 2 21 1 21 y 2 21 令 21 p aaa 21 1 贝叶斯贝叶斯 Bayes 判别判别 考计算题考计算题 贝叶斯判别法是通过计算被判样本贝叶斯判别法是通过计算被判样本 x 属于属于 k 个总体的条件概率个总体的条件概率 P n x n 1 2 k 比较比较 k 个概率的大个概率的大 小 将样本判归为来自出现概率最大的总体 或归属于错判概率最小的总体 的判别方法 小 将样本判归为来自出现概率最大的总体 或归属于错判概率最小的总体 的判别方法 一 最大后验概率准则一 最大后验概率准则 例例 7 设有 设有 和和 三个类 欲判别某样本三个类 欲判别某样本 属于哪一类 已知属于哪一类 已知 G1G2G3x0 现利用后验概率准则计算现利用后验概率准则计算 属于各组的后验概率 属于各组的后验概率 x0 贝叶斯公式贝叶斯公式 所谓所谓 Fisher 判别法 就是用投影的方法将判别法 就是用投影的方法将 k 个不同总体在个不同总体在 p 维空间上的点尽可能分散 同一总体内的维空间上的点尽可能分散 同一总体内的 各样本点尽可能的集中 用方差分析的思想则可构建一个较好区分各个总体的线性判别法各样本点尽可能的集中 用方差分析的思想则可构建一个较好区分各个总体的线性判别法 只作了解只作了解 例 设先验概率 误判损失及概率密度如下 例 设先验概率 误判损失及概率密度如下 30 0 65 0 05 0 321 qqq10 0 01 xf63 0 02 xf 4 2 03 xf 004 0 1345 1 005 0 4 230 0 63 0 65 0 10 0 05 0 10 0 05 0 3 1 0 011 01 i ii xfq xfq xGP 361 0 1345 1 4095 0 4 230 0 63 0 65 0 10 0 05 0 63 0 65 0 3 1 0 022 02 i ii xfq xfq xGP 635 0 1345 1 72 0 4 230 0 63 0 65 0 10 0 05 0 4 230 0 3 1 0 033 03 i ii xfq xfq xGP ii ii i BPBAP BPBAP ABP 为为为 G1 G2 G3 G1 C 1 1 0 C 2 1 20 C 3 1 80 G2 C 1 2 400 C 2 2 0 C 3 2 200 为 为 为 G3 C 1 3 100 C 2 3 500 C 3 3 0 为为为为 P1 0 55 P2 0 15 P3 0 30 为为为为 f1 0 46 f2 1 5 F3 0 70 试用贝叶斯判别法将样本试用贝叶斯判别法将样本 x0 判到判到 G1 G2 G3 中的一个 考虑与不考虑误判损失的结果如何 中的一个 考虑与不考虑误判损失的结果如何 1 考虑误判损失 误判到 G1 的平均损失为 ECM1 0 55 0 46 0 0 15 1 5 400 0 30 0 70 100 误判到 G2 的平均损失为 ECM2 0 55 0 46 20 0 15 1 5 0 0 30 0 70 50 误判到 G3 的平均损失为 ECM3 0 55 0 46 80 0 15 1 5 200 0 30 0 70 0 其中 ECM2 最小 故将 x0 判别到 G2 2 不考虑误判损失 将 x0 判别到 G1 的条件概率为 P G1 x0 0 55 0 46 0 55 0 46 0 15 1 5 0 30 0 70 将 x0 判别到 G2 的条件概率为 P G2 x0 0 15 1 5 0 55 0 46 0 15 1 5 0 30 0 70 将 x0 判别到 G3 的条件概率为 P G3 x0 0 30 0 70 0 55 0 46 0 15 1 5 0 30 0 70 其中 P G1 x0 取值最大 故将 x0 判别到 G1 主成分分析的重点主成分分析的重点 1 掌握什么是主成分分析 2 理解主成分分析的基本思想和几何意义 3 理解主成分求解方法 协方差矩阵与相关系数矩阵的差异 4 掌握运用 SPSS 或 SAS 软件求解主成分 5 对软件输出结果进行正确分析 主成分分析 将原来较多的指标简化为少数几个新的综合指标的多元统计方法 主成分 由原始指标综合形成的几个新指标 依据主成分所含信息量的大小成为第一主成分 第二主 成分等等 主成分分析得到的主成分与原始变量之间的关系 1 主成分保留了原始变量绝大多数信息 2 主成分的个数大大少于原始变量的数目 3 各个主成分之间互不相关 4 每个主成分都是原始变量的线性组合 满足如下的条件 1 每个主成分的系数平方和为 每个主成分的系数平方和为 1 即 即 2 主成分之间相互独立 即无重叠的信息 即 主成分之间相互独立 即无重叠的信息 即 1 22 2 2 1 piii uuu pjijiFFCov ji 210 3 主成分的方差依次递减 重要性依次递减 即 主成分的方差依次递减 重要性依次递减 即 F1 F2 Fp 分别称为原变量的第一 第二 第 p 个主成分 根据旋转变换的公式 IUUUU 1 旋转变换的目的 旋转变换的目的 为了使得 n 个样品点在 Fl 轴方向上的离散程度最大 即 Fl 的方差最大 总体主成分的求解及其性质总体主成分的求解及其性质 矩阵知识回顾 矩阵知识回顾 1 特征根与特征向量 特征根与特征向量 A 若对任意的 若对任意的 k 阶方阵阶方阵 C 有数字 有数字 与向量与向量 满足 满足 则称 则称 为为 C 的特征根 的特征根 为为 C 的相应于的相应于 的特征向量 的特征向量 B 同时 方阵 同时 方阵 C 的特征根的特征根 是是 k 阶方程阶方程 的根 的根 2 任一 任一 k 阶方阵阶方阵 C 的特征根的特征根 的性质 的性质 3 任一 任一 k 阶的实对称矩阵阶的实对称矩阵 C 的性质 的性质 A 实对称矩阵 实对称矩阵 C 的非零特征根的数目 的非零特征根的数目 C 的秩的秩 B k 阶的实对称矩阵存在阶的实对称矩阵存在 k 个实特征根个实特征根 C 实对称矩阵的不同特征根的特征向量是正交的 实对称矩阵的不同特征根的特征向量是正交的 D 若 若 是实对称矩阵是实对称矩阵 C 的单位特征向量 则的单位特征向量 则 若矩阵若矩阵 是由特征向量 是由特征向量 所构成的 则有 所构成的 则有 因子分析的重点因子分析的重点 1 什么是因子分析 什么是因子分析 2 理解因子分析的基本思想 理解因子分析的基本思想 3 因子分析的数学模型以及模型中公共因子 因子载荷变量共同度的统计意义 因子分析的数学模型以及模型中公共因子 因子载荷变量共同度的统计意义 4 因子旋转的意义 因子旋转的意义 5 结合 结合 SPSS 软件进行案例分析软件进行案例分析 1 什么是因子分析 什么是因子分析 因子分析是主成分分析的推广 也是利用降维的思想 由研究原始变量相关矩阵或协方差矩阵的内部依因子分析是主成分分析的推广 也是利用降维的思想 由研究原始变量相关矩阵或协方差矩阵的内部依 赖关系出发 把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法 赖关系出发 把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法 2 因子分析的基本思想 因子分析的基本思想 21p FVarFVarFVar cossin sincos 212 211 xxy xxy x U 2 1 2 1 cossin sincos x x y y 正交矩阵 即有为旋转变换矩阵 它是 U C 0 IC j 对角线上的元素之和矩阵CCtr k j j 1 j jjj C j k jjC 0 0 1 把每个研究变量分解为几个影响因素变量 将每个原始变量分解成两部分因素 一部分是由所有变量共把每个研究变量分解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论