




文档简介
1 主成份分析 主成分的推导及性质主成分的推导及性质 一 两个线性代数的结论一 两个线性代数的结论 1 若A是p阶实对称阵 则一定可以找到正交阵U 使 pp p 00 00 00 2 1 AUU 1 pi i 2 1 其中是A A的特征根 2 若上述矩阵的特征根所对应的单位特征向量 为 pppp p p uuu uuu uuu 21 22221 11211 p1 uuU 则实对称阵属于不同特征根所对应的特征向 量是正交的 即有 p1 uu 令 A IUUUU 二 主成分的推导 一 第一主成分 一 第一主成分 设X的协方差阵为 2 21 2 2 221 112 2 1 ppp p p x 由于 x为非负定的对称阵 则有利用线性代数的 知识可得 必存在正交阵U 使得 p 0 0 1 U U X 其中 1 2 p为 x的特征根 不妨假设 1 2 p 而U恰好是由特征根相对应的特 征向量所组成的正交阵 pppp p p uuu uuu uuu 21 22221 11211 p1 uuU piii uuu 21i U i Pi 2 1 下面我们来看 由U的第一列元素所构成为原始 变量的线性组合是否有最大的方差 设有P维正交向量 11111pp Fa Xa X a X 1 2 1 1111 aUUaaa p FV 121111 p aaa a 1 2 p 1 2 112p1 p u u au u ua u 2 p i i 1 2 1 ua p i ii 1 1 auua aUUa 1 a a 1 1 1 p iii i a u u a 2 1 p ii i a u 当且仅当a1 u1时 即时 有最大的方差 1 因为Var F1 U 1 xU1 1 如果第一主成分的信息不够 则需要寻找第二主 成分 ppX uXuF 11111 二 第二主成分 二 第二主成分 在约束条件下 寻找第二主成分0 cov 21 FF pp XuXuF 21122 因为 所以 0 cov cov 121122121 uuuuxuxuFF 则 对p维向量 有 0 12 u u p i ii p i iii uuFV 1 2 2 1 22222 uuuuuu p i i 2 2 2 uu2 2 u p i ii 1 22 uuuu2 22 uUUu 2 222 u u 2 pp XuXuXuF 22221122 所以如果取线性变换 则的方差次大 2 F 类推 pppppp pp pp XuXuXuF XuXuXuF XuXuXuF 2211 22221122 12211111 写为矩阵形式 XUF pppp p p uuu uuu uuu 21 22221 11211 p1 uuU 21 p XXX X 主成分的性质主成分的性质 一 均值一 均值 UU xE 二 方差为所有特征根之和二 方差为所有特征根之和 p i i FVar 1 22 2 2 121pp 说明主成分分析把P个随机变量的总方差分解成 为P个不相关的随机变量的方差之和 协方差矩阵 的对角线上的元素之和等于特征根 之和 3 三 精度分析三 精度分析 1 贡献率 第i个主成分的方差在全部方差中所占 比重 称为贡献率 反映了原来P个指标多大 的信息 有多大的综合能力 p i ii 1 2 累积贡献率 前k个主成分共有多大的综合能 力 用这k个主成分的方差和在全部方差中所占比重 来描述 称为累积贡献率 p i i k i i 11 我们进行主成分分析的目的之一是希望用尽可能 少的主成分F1 F2 Fk k p 代替原来的P个指 标 到底应该选择多少个主成分 在实际工作中 主 成分个数的多少取决于能够反映原来变量80 以上的信 息量为依据 即当累积贡献率 80 时的主成分的个数 就足够了 最常见的情况是主成分为2到3个 四 原始变量与主成分之间的相关系数变量与主成分之间的相关系数 pmmj 2 1 1111211 2212222 12 p p pppppp xuuuF xuuuF xuuuF XUF XUF ppjjjj xuxuxuF 2211 1122 ijiiippjijj Cov x FCov u Fu Fu F Fu i jij ji jij ji uu Fx 可见 和的相关的密切程度取决于对 应线性组合系数的大小 i x j F 五 原始变量被主成分的提取率原始变量被主成分的提取率 前面我们讨论了主成分的贡献率和累计贡献率 他 度量了F度量了F1 1 F F2 2 F Fm m分别从原始变量X分别从原始变量X1 1 X X2 2 X XP P 中提取了多少信息 那么X中提取了多少信息 那么X1 1 X X2 2 X XP P各有多少信息 分别F 各有多少信息 分别F1 1 F F2 2 F Fm m被提取了被提取了 应该用什么指标来度 量 我们考虑到当讨论F1分别与X1 X2 XP的关系 时 可以讨论F1分别与X1 X2 XP的相关系数 但 是由于相关系数有正有负 所以只有考虑相关系数的平 方 4 1122 iiiipp Var xVar u Fu Fu F 22222 1 122iiimmippi uuuu 则 jij u 2 22 ijij u 如果我们仅仅提出了m个主成分 则第i 原始 变量信息的被提取率为 m j ij m j iijji u 1 2 1 22 是Fj 能说明的第i 原始变量的方差 是Fj 提取的第i 原始变量信息的比重 例例设的协方差矩阵为 321 xxx 200 052 021 解得特征根为 83 5 1 00 2 2 17 0 3 000 0 924 0 383 0 1 U 1 0 0 2 U 000 0 383 0 924 0 3 U 第一个主成分的贡献率为5 83 5 83 2 00 0 17 72 875 尽管第一个主成分的贡献率并不小 但在本题 中第一主成分不含第三个原始变量的信息 所以应该取两 个主成分 信息提 取 平方 Xi与F2的相关 系数 平方 Xi与F1的 相关系数 111003 0 996000 996 0 9982 0 855000 8550 9251 xi11 ii Fx 2 1 i 2 2i 22 iiF x i 925 01383 0 83 5 2 111111 u 998 05 924 0 2 2 221112 u 0 13 定义 如果一个主成分仅仅对某一个原始 变量有作用 则称为特殊成分 如果一个主 成分所有的原始变量都起作用称为公共成分 该题无公共因子 六 载荷矩阵六 载荷矩阵 11121 21222 12 m m pppm uuu uuu uuu 主成分分析的步骤主成分分析的步骤 在实际问题中 X的协方差通常是未知的 可根据样本计 算样本协方差 21 21 nlxxx plll l X pp jjl n l iilx xxxx n 1 1 1 第一步 由X的协方差阵 x 求出其特征根 即解方 程 可得特征根 0 21 p 一 基于协方差矩阵 0 I 5 第二步 求出分别所对应的特征向量U1 U2 Up piii uuu 21i U 第三步 计算累积贡献率 给出恰当的主成分个数 21pkkiF XUi i 第四步 计算所选出的k个主成分的得分 将原始数据的 中心化值 代入前k个主成分的表达式 分别计算出各单位k个主 成分的得分 并按得分值的大小排队 ppiii xxxxxx 2211 XXX ii 二 基于相关系数矩阵 如果变量有不同的量纲 则必须基于相关系数矩阵进 行主成分分析 不同的是计算得分时应采用标准化后的 数据 因子分析 因子分析模型 一 数学模型 因子分析模型 一 数学模型 设个变量 如果表示为 i X 2 1 pi p 11iiiimmi Xa Fa F pm 11111211 1 22212222 2 12 m m pppppmp m XF XF XF 或 X AF或 称为公共因子 是不可观测的变量 他们的系数称为因子载荷 是特殊因子 是不能被 前m个公共因子包含的部分 并且满足 m FFF 21 i IFD 1 1 1 cov 0 F F即不相关 m FFF 21 即互不相关 方差为1 2 2 2 2 1 p D 即互不相关 方差不一定相等 0 2 ii N 6 用矩阵的表达方式 X AF E F0 E 0 Var FI 222 12 p Vardiag 1 1121 2 1222 12 cov p p pppp E FE FE F E FE FE F E E FE FE F F F 0 二 因子分析模型的性质 1 原始变量X的协方差矩阵的分解 X AF VarVarVar X AF A x AA D A是因子模型的系数 222 12 p Vardiag D D的主对角线上的元素值越小 则公共因子共享的成 分越多 2 模型不受计量单位的影响 将原始变量X做变换X CX 这里 C diag c1 c2 cn ci 0 C X C AF CXC CAF C XC CAF C X A F FF E F0 E 0 Var FI 222 12 p Vardiag cov E F F 0 3 因子载荷不是惟一的 设T为一个p p的正交矩阵 令A AT F T F 则模型可以表示为 X A F E T F0 E 0 VarVarVar FT FTF TI 222 12 p Vardiag cov E F F 0 且满足条件因子模型的条件 三 因子载荷矩阵中的几个统计特征 1 因子载荷a 三 因子载荷矩阵中的几个统计特征 1 因子载荷aij ij的统计意义 的统计意义 因子载荷是第i个变量与第j个公共因子的相关系数 ij a 模型为 imimii FaFaX 11 在上式的左右两边乘以 j F 再求数学期望 11jijmimjjijjiji FEFFEaFFEFFEaFXE 根据公共因子的模型性质 有 ijFx ji 载荷矩阵中第i行 第j列的元素 反映了 第i个变量与第j个公共因子的相关重要性 绝对值越 大 相关的密切程度越高 7 2 变量共同度的统计意义 定义 2 变量共同度的统计意义 定义 变量的共同度是因子载荷矩阵的第i行的元 素的平方和 记为 i X 统计意义 统计意义 imimii FaFaX 11 两边求方差 2 1 1 2 im imi i VarFVaraFVaraXVar m j iij a 1 22 1 所有的公共因子和特殊因子对变量的贡献为1 如果非常 靠近1 非常小 则因子分析的效果好 从原变量空间到公共因 子空间的转化性质好 i X m j ij a 1 2 2 i m j ij a 1 2 m j iji ah 1 22 3 公共因子方差贡献的统计意义3 公共因子方差贡献的统计意义 j F 因子载荷矩阵中各列元素的平方和 称为所有的对的方差贡献和 衡量 的相对重要性 p i ijj aS 1 2 1 mj j Fi X j F 因子载荷矩阵的估计方法因子载荷矩阵的估计方法 设随机向量的均值为 协方差为 为 的特征根 为对应的 标准化特征向量 则 p xxx 21 x 0 21 p p21 u u u 1 2 p UUAA D 一 主成分分析法 一 主成分分析法 上式给出的 表达式是精确的 然而 它实际上是毫 无价值的 因为我们的目的是寻求用少数几个公共因子 解释 故略去后面的p m项的贡献 有 21111mmmmmmp 1122pp u uu uu uuuu u p 2 u u u uuu p pp 2 11 2211 1 1 0 0 p 2 12p p u u uuu u 12 mmm 1122 AA Du uu uu uD 11 2 1122 mm p m pm m p 2 u u uuuDAAD u 上式有一个假定 模型中的特殊因子是不重要的 因 而从 的分解中忽略了特殊因子的方差 222 12 p diag D 其中 22 1 m iiiij j sa 注 残差矩阵 SAAD 其中S为样本的协方差矩阵 8 二 主因子法 二 主因子法 主因子方法是对主成分方法的修正 假定我 们首先对变量进行标准化变换 则 R AA D R AA R D 称R 为约相关矩阵 为约相关矩阵 R 对角线上的元素是对角线上的元素是 而不是1 2 i h 2 1121 2 2122 2 12 p p ppp hrr rhr R rrh R D 直接求R 的前p个特征根和对应的正交特征向量 得如下 的矩阵 1122pp Auuu 1 0 p R 特征根 12 p u uu 正交特征向量 2 1 2 2 2 p RR 当特殊因子的方差不为且当特殊因子的方差不为且已知的 问题非常好解决 i 11 22 1122 pp pp u u uuu u 1122mm Auuu 2 1 2 1 1 0 0 p h h D 在实际的应用中 个性方差矩阵一般都是未知的 可以通过一组样本来估计 估计的方法有如下几种 估计的方法有如下几种 首先 求的初始估计值 构造出 2 i h R 1 取 在这个情况下主因子解与主成分解等 价 2 取 为xi与其他所有的原始变量xj的复 相关系数的平方 即xi对其余的p 1个xj的回归方程的 判定系数 这是因为xi与公共因子的关系是通过其余 的p 1个xj的线性组合联系起来的 1 2 i h 22 ii Rh 2 i R 2 取 这意味着取xi与其余的xj 的简单相关系数的绝对值最大者 max 2 ijrh iji 4 取 其中要求该值为正数 p jij iji r p h 1 2 1 1 5 取 其中是的对角元素 ii i rh 1 2 ii r 1 R 9 三 极大似然估计法 略 如果假定公共因子F和特殊因子 服从正态分 布 那么可以得到因子载荷和特殊因子方差的极大 似然估计 设为来自正态总体Np 的 随机样本 n21 x x x AA 2 1 exp 1 1 2 ii n i n p 2XX 12 n Lff Xf Xf X A DX 2 1 exp 2 1 21 2 1 ii p n i xx 它通过 依赖 和 上式并不能唯一确定 为此 可添加一个唯一性条件 这里 式一个对角矩阵 用数值极大化的方法可以得 到极大似然估计 极大似然估计 将使为对角阵 且似然函数达到最大 相应的共同度的似然估计为 第J个因子对总方差的贡献 1 和 x 和 1 22 2 2 1 2 imiii aaah 22 2 2 1 2 pjjjj aaaS 例例假定某地固定资产投资率 通货膨胀 率 失业率 相关系数矩阵为 试用主成分分析法求因子分析模型 1 x 2 x 3 x 15 25 1 5 215 1 5 15 11 特征根为 55 1 1 85 0 2 6 0 3 6 0707 085 0331 055 1629 0 6 0707 085 0331 055 1629 0 085 0883 055 1475 0 A 707 0331 0629 0 707 0331 0629 0 0883 0475 0 U 548 0305 0783 0 548 0305 0783 0 0814 0569 0 可取前两个因子F1和F2为公共因子 第一公因 子F1物价就业因子 对X的贡献为1 55 第一公因子 F2为投资因子 对X的贡献为0 85 共同度分别为 1 0 706 0 706 211 814 0569 0FFx 3212 548 0305 0783 0FFFx 3213 548 0305 0783 0FFFx 假定某地固定资产投资率 通货膨胀率 失业率 相关系数矩阵为 试用主因子分析法求因子分析模型 假定用 代替初始的 1 x 2 x 3 x 15 25 1 5 215 1 5 15 11 max 2 ijrh iji 2 i h 5 2 1 5 1 2 3 2 2 2 1 hhh 221 251 111 5 1 5 25 25 1 5 215 1 5 15 15 1 R 10 特征根为 9123 0 1 0877 0 2 0 3 对应的非零特征向量为 261 0657 0 261 0657 0 929 0369 0 0877 0261 09123 0657 0 0877 0261 09123 0657 0 0877 0929 09123 0369 0 077 0628 0 077 0628 0 275 0352 0 1211 275 0352 0 FFx 2212 077 0625 0 FFx 3211 077 0682 0 FFx 新的共同度为 18129 0275 352 0 222 1 oh 3966 0077 0625 0 222 2 h 4710 0077 0682 0 222 3 h 4 因子旋转 正交变换 建立了因子分析数学目的不仅仅要找出公共因子以 及对变量进行分组 更重要的要知道每个公共因子的 意义 以便进行进一步的分析 如果每个公共因子的 含义不清 则不便于进行实际背景的解释 由于因子 载荷阵是不惟一的 所以应该对因子载荷阵进行旋转 目的是使因子载荷阵的结构简化 使载荷矩阵每列或 行的元素平方值向0和1两极分化 有三种主要的正交 旋转法 四次方最大法 方差最大法方差最大法和等量最大法 一 为什么要旋转因子 一 为什么要旋转因子 百米跑成绩 跳远成绩 铅球成绩 跳高成绩 400米跑成绩 百米跨栏 铁饼成绩 撑杆跳远成绩 标枪成绩 1500米跑成绩 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 奥运会十项全能运动项目 得分数据的因子分析 奥运会十项全能运动项目 得分数据的因子分析 102 017 002 001 039 018 008 009 007 0 124 034 018 013 017 044 021 011 0 124 033 023 039 024 036 020 0 132 017 027 073 031 028 0 134 046 036 052 040 0 129 019 049 063 0 138 051 034 0 142 035 0 159 0 1 变量共同度 0 6910 217 0 58 0 2060 84 0 7890 184 0 1930 0920 7 0 7020 5350 047 0 1750 8 0 6740 1340 1390 3960 65 0 620 551 0 084 0 4190 87 0 6870 042 0 1610 3450 62 0 621 0 5210 109 0 2340 72 0 5380 0870 4110 440 66 0 434 0 4390 372 0 2350 57 0 1470 5960 658 0 2790 89 1 F 2 F 3 F 4 F 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 因子载荷矩阵可以看出 除第一因子在所有的变量在公共因子 上有较大的正载荷 可以称为一般运动因子 其他的3个因子不太 容易解释 似乎是跑和投掷的能力对比 似乎是长跑耐力和短跑速 度的对比 于是考虑旋转因子 得下表 11 变量共同度 0 844 0 1360 156 0 1130 84 0 631 0 194 0 515 0 0060 7 0 243 0 825 0 223 0 1480 81 0 2390 15 0 750 0 0760 65 0 797 0 0750 1020 4680 87 0 4040 153 0 635 0 170 62 0 186 0 814 0 147 0 0790 72 0 0360 176 0 762 0 2170 66 0 048 0 735 0 110 1410 57 0 045 0 0410 112 0 934 0 89 1 F 2 F 3 F 4 F 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 通过旋转 因子有了较为明确的含义 百米跑 跳远和400米跑 需要爆发力的项目在有较大的 载荷 可以称为短跑速度因子 铅球 铁饼和标枪在上有较大的载荷 可以 称为爆发性臂力因子 百米跨栏 撑杆跳远 跳远和为跳高在上 有较大的载荷 爆发腿力因子 长跑耐力因子 2 X 5 X 1 F 1 F 3 X 7 X 9 X 2 F 6 X 8 X 2 X 4 X 3 F 3 F 4 F 1 X 变换后因子的共同度变换后因子的共同度 设 正交矩阵 做正交变换正交矩阵 做正交变换 AB 1 m l ljilppij ab B m j m j m l ljiliji abh 111 222 B m j m l m j m l m lj t tjljitilljil aaa 1 11 1 1 22 2 111 222 A i m l m j m l illjil haa 变换后因子的共同度没有发生变化 变换后因子的共同度没有发生变化 二 旋转方法 二 旋转方法 变换后因子贡献变换后因子贡献 设 正交矩阵 做正交变换 正交矩阵 做正交变换 AB 1 q l ljilppij ab B p i p i q l ljilijj abS 111 222 B p i q l p i q l q lt t tjljitilljil aaa 1 11 1 1 22 p i q l q l ljjljil Sa 111 2222 A 变换后因子的贡献发生了变化 变换后因子的贡献发生了变化 1 方差最大法 方差最大法从简化因子载荷矩阵的每一列出发 使和每个 因子有关的载荷的平方的方差最大 当只有少数几个变量在某个 因子上又较高的载荷时 对因子的解释最简单 方差最大法从简化因子载荷矩阵的每一列出发 使和每个 因子有关的载荷的平方的方差最大 当只有少数几个变量在某个 因子上又较高的载荷时 对因子的解释最简单 方差最大的直观 意义是希望通过因子旋转后 使每个因子上的载荷尽量拉开距 离 一部分的载荷趋于 1 另一部分趋于0 21 2221 1211 pp aa aa aa A 2211 2221212 2121111 FaFaX FaFaX FaFaX ppp cossin sincos T设旋转矩阵为 cossin sincos AATB则 cossinsincos cossinsincos 1121 12111211 pppp aaaa aaaa 2 1 12 11 pp aa aa 12 1 2 1 2 ij ij i a dip j h 令 2 1 1 p jij i dd p 这是列和 max 1 2 1 2 m j p i jij ddV 简化准则为 0 0 V 令 则可以解出 00 00 cossin sincos T旋转矩阵为 max 8 4 2 123m 即 V V V V 100 0cossin 0sincos T 100 0cossin 0sincos T 1 1 1 TT 1 四次方最大旋转 四次方最大旋转是从简化载荷矩阵的行出发 通过旋转初始 因子 使每个变量只在一个因子上又较高的载荷 而在其它的 因子上尽可能低的载荷 1 四次方最大旋转 四次方最大旋转是从简化载荷矩阵的行出发 通过旋转初始 因子 使每个变量只在一个因子上又较高的载荷 而在其它的 因子上尽可能低的载荷 如果每个变量只在一个因子上又非零 的载荷 这是的因子解释是最简单的 四次方最大法通过使因子载荷矩阵中每一行的因子载荷平 方的方差达到最大 max 1 2 11 2 p i m j ij m bQ简化准则为 p i m j ijij p i m j ij m b m b m bQ 11 2 24 2 11 2 11 2 1 p i m j p i m j ij p i m j ij m b m b 1111 2 2 11 4 11 2 p i m j p i m j ij p i m j ij m b m b 1111 2 2 11 4 11 2 p i m j ij m p b 11 4 2 MAXbQ p i m j ij 11 4 最终的简化准则为 3 等量最大法 等量最大法把四次方最大法和方差最大 法结合起来求Q和V的加权平均最大 等量最大法把四次方最大法和方差最大 法结合起来求Q和V的加权平均最大 MAXpbbE p i m j m j p i ijij 1111 224 最终的简化准则为 权数 等于m 2 因子数有关 5 因子得分因子得分 一 因子得分的概念 一 因子得分的概念 前面我们主要解决了用公共因子的线性组合来表示一 组观测变量的有关问题 如果我们要使用这些因子做其他 的研究 比如把得到的因子作为自变量来做回归分析 对 样本进行分类或评价 这就需要我们对公共因子进行测 度 即给出公共因子的值 13 人均要素变量因子分析人均要素变量因子分析 对我国32个省市自治区的要素状 况作因子分析 指标体系中有如下指标 X1 人口 万人 X2 面积 万平方公里 X3 GDP 亿元 X4 人均水资源 立方米 人 X5 人均生物量 吨 人 X6 万人拥有的大学生数 人 X7 万人拥有科学家 工程师数 人 Rotated Factor Pattern FACTOR1 FACTOR2 FACTOR3 X1 0 21522 0 27397 0 89092 X2 0 63973 0 28739 0 28755 X3 0 15791 0 06334 0 94855 X4 0 95898 0 01501 0 07556 X5 0 97224 0 06778 0 17535 X6 0 11416 0 98328 0 08300 X7 0 11041 0 97851 0 07246 高载荷指标因子命名 因子1 X2 面积 万平方公里 X4 人均水资源 立方米 人 X5 人均生物量 吨 人 自然资源因子 因子2 X6 万人拥有的大学生数 人 X7 万人拥有的科学家 工程师数 人 人力资源因子 因子3X1 人口 万人 X3 GDP 亿元 经济发展总量因子 X1 0 21522F1 0 27397F2 0 89092F3 X2 0 63973F1 0 28739F2 0 28755F3 X3 0 15791F1 0 06334F2 0 94855F3 X4 0 95898F1 0 01501F2 0 07556F3 X5 0 97224F1 0 06778F2 0 17535F3 X6 0 11416F1 0 98328F2 0 08300F3 X7 0 11041F1 0 97851F2 0 07246F3 Standardized Scoring Coefficients FACTOR1FACTOR2FACTOR3 X1 0 05764 0 060980 50391 X2 0 22724 0 09901 0 07713 X3 0 146350 129570 59715 X4 0 479200 112280 17062 X5 0 455830 074190 10129 X6 0 054160 486290 04099 X7 0 057900 485620 04822 F1 0 05764X1 0 22724X2 0 14635X3 0 47920X4 0 45583X5 0 05416X6 0 05790X7 F2 0 06098X1 0 09901X2 0 12957X3 0 11228X4 0 07419X5 0 48629X6 0 48562X7 F3 0 50391X1 0 07713X2 0 59715X3 0 17062X4 0 10129X5 0 04099X6 0 04822X7 F1 0 05764X1 0 22724X2 0 14635X3 0 47920X4 0 45583X5 0 05416X6 0 05790X7 F2 0 06098X1 0 09901X2 0 12957X3 0 11228X4 0 07419X5 0 48629X6 0 48562X7 F3 0 50391X1 0 07713X2 0 59715X3 0 17062X4 0 10129X5 0 04099X6 0 04822X7 REGIONFACTOR1FACTOR2FACTOR3 beijing 0 081694 23473 0 37983 tianjin 0 474221 31789 0 87891 hebei 0 22192 0 358020 86263 shanxi1 0 48214 0 32643 0 54219 neimeng0 54446 0 66668 0 92621 liaoning 0 205110 463770 34087 jilin 0 214990 10608 0 57431 heilongj0 10839 0 11717 0 02219 shanghai 0 200692 38962 0 04259 前三个因子得分 因子分析的数学模型为 m pmpp m m n F F F X X X 2 1 21 22221 11211 2 1 原变量被表示为公共因子的线性组合 当载荷矩阵旋 转之后 公共因子可以做出解释 通常的情况下 我们还 想反过来把公共因子表示为原变量的线性组合 因子得分函数 pjpjj XXF 11 mj 1 可见 要求得每个因子的得分 必须求得分函数的系数 而由于p m 所以不能得到精确的得分 只能通过估计 1 巴特莱特因子得分 加权最小二乘法 巴特莱特因子得分 加权最小二乘法 把看作因变量 把因子载荷矩阵 看成自变量的观测 把某个个案的得分看着最小二乘 法需要求的系数 ii x pmpp m m 21 22221 11211 ij F 1 巴特莱特因子得分计算方法的思想 14 mmpmpppip mmi mmi fafafax fafafax fafafax 2211 2222212122 1121211111 由于特殊因子的方差相异 所以用加权最小二乘法求 得分 每个各案作一次 要求出所有样品的得分 需 要作n次 p j imimiiiij fafafax 1 2 2 2211 1 m ff 使上式最小的是相应个案的因子得分 用矩阵表达 x AF 1 min x AF Dx AF 满足上式的F是相应个案的因子得分 2 1 1 2 2 0 0 D 其中 111 D x D AF D 1 1 1 AD x A D AF AD 1 1 A D x A D AF 1 1 1 A D AA D x F 1 0 x AF Dx AF F 1 2 0 A Dx AF 1 0 A D 2 得分估计的无偏性 如果将f和 不相关的假定加强为相互独立 则 1 E 1 1 A D AA DAF F 1 EE 1 1 F FA D AA D x F 1 1 1 A D AA D AF 11 1 A DAAD AF F 3 F的估计精度 1 FF 1 1 A D AA DAF F 1 1 1 A D AAD E F F F F 11 E 1 1 1 1 A D AAD D A AD A 11 1 1 1 1 A D AA D DD A A D A 1 1 A D A 2 回归方法 nmnmnn m m n F F F X X X 2 1 2 1 21 22221 11211 2 1 pjpjj XbXbF 11 mj 1 m mpmm p p bbb bbb bbb b b b 2 1 21 22221 11211 1 思想 15 jiFxij FXE ji 11pjpji XbXbXE ipjpij bb 11 jp j j ipii b b b rrr 2 1 21 则 我们有如下的方程组 pj j j jp j j pppp p p a a a b b b 2 1 2 1 21 22221 11211 j 1 2 m 矩阵为原始变量的相关系数 pppp p p 21 22221 11211 个因子得分函数的系数为第j b b b jp j j 2 1 列为载荷矩阵的第j a a a pj j j 2 1 注 共需要解注 共需要解m次才能解 出 所有的得分函数的系数 次才能解 出 所有的得分函数的系数 矩阵表示方法 在因子模型中 假设服从 m p 元 的正态分布 有 F E E E FF0 xx VE FF Fx xx EE EE FFF x x Fx x IE E F x x F IE E F AF AF F IA A E 1 1 2 F x A A x 21 xx这是一个 对于给定的 的多元回归模型 1 A x 122 E 1 1 1122212222 x x x 1 FA AA D x 可见 16 2 估计的有偏性 11 E F F F FI AD A 3 平均预报误差 11 E F FF I AD A F 补充 变量聚类分析补充 变量聚类分析 一 简介一 简介 在实际工作中 变量聚类的应用也十分重要 在系统分析或评估过程中 为了避免某些重要 因素的遗漏 人们往往在一开始选取指标时 尽可能多地考虑所有的相关因素 而这样做的 结果 则是变量过多 变量相关度高 给系统 分析与建模带来很大的不便 因此 人们常常 希望能研究变量间的相似关系 按照变量的相 关关系把他们聚合为若干类 从而观察和解释 影响系统的主要原因 SAS VARCLUS过程试图把一组变量分 为不重叠的一些类 所以VARCLUS过程可 以用来压缩变量 用信息损失很少的类分 量来代替含有很多变量的变量集 例如 一种教育情况的检查可能包括有50项指 标 VARCLUS分析将这些项分为几类 比 如5个类 每类做部分检查 检查类分量的 得分 二 变量聚类的步骤二 变量聚类的步骤 VARCLUS过程开始把所有变量看为一个类 然后重复下 面的步骤 1 首先挑选一个将被分裂的类 首先挑选一个将被分裂的类 VARCLUS过程首先找出该大类的第一和第二公共因子 这两个公共因子经过正交坐标变换 即因子分析中常用 的Quartimax 四次方最大方法 按行简化因子载荷矩阵 每行的结构 旋转 让原始变量仅仅在一个公共因子上有 高载荷 变量被指定归入一个与其相关系数的平方较高的 公共因子 如此原有的大类被分裂为二 2 变量重新归类 变量重新归类 两个 或两个以上的 之中的一个类被选中 照 第一步的方法再分裂为二 这个被选中的类通常拥有 最大的第二特征根 或者是拥有最小的可被类向量解 释的变异数百分比 3 第一步和第二步不停的交互进行 第一步和第二步不停的交互进行 直至类内 变量之间的第二特征根或可被类向量解释的变异数百 分比达到预设定的标准为止 典型相关分析 17 一 想法 考虑两组变量的向量 1212 pq x xxyyy Z 其协方差阵为 p q pq 1112 2122 其中 11是第一组变量的协方差矩阵 22是 第二组变量的协方差矩阵 是X和Y的其协方 差矩阵 1221 如果我们记两组变量的第一对线性组合为 11 u a X 11 v b Y 其中 11211 p aaa 1 a 11211 q bbb 1 b 122 1VarVar 1111 vb Y bb b 1 11 Cov u vCov 11 u v11121 a X Y ba b 所以 典型相关分析就是求 1和b b1 使 uv达到最大 1 1Var uVar 111111 aX aa a 二 典型相关系数和典型变量的求法 在约束条件 1Var u 11 a a 1Var v 22 b b 下 求a a1 1和b和b1 1 使 uv达到最大 令 1 2 11 a 1 2 22 b 1 2 11 a 1 2 22 b 1 1 利用柯西不等式有 2 12 a b 1 21 2 111222 2 1 21 21 21 2 111222111222 1 21 21 21 2 221211111222 1 211 2 2221111222 记m为 12的秩 则 1 211 2 2221111222 rank 1 21 2 11122212 rankrankm 1 211 2 2221111222 m 有 个正特征根 222 12 0 m 记为 相应的特征向量为 2 m1 其余的零特征根对应的向量为 2 mmq 1 由特征向量可以构成一个正交矩阵T 有 有 2 12 a b 1 211 2 2221111222 2 1 m iii i 2 1 1 m ii i 222 111 TT 18 若取 1 1 11 22 11112221 1 则 11 1 11 22 12122 1 1 1111 2222 12212211111221 1 1 1 11 22 122211112221 2 11 1 1 11 1 211 2 2221111222 的正特征根 222 12 0 m 相应的特征向量为 2 m1 1 1 11 22 11112221 1 1 2 1111 a 1 2 1221 b a1和和b1分别构成了第一组变量和第二组变量的 第一对典型变量的系数 分别构成了第一组变量和第二组变量的 第一对典型变量的系数 第一对典型相关变量提取了原始变量x组 和y组之间相关的主要部分 那么这部分的信 息不够 则还可以在剩余相关中提取第二对 典型变量 2 u a x 2 v b x 在以下的约束条件下 12111 cov 0u u 1111 a x a xax a xa a 121 cov0v v 1111 b y b yb y b yb b 1 a a1 b b 求 12 kk u v a x b ya b 1 2 11 a 22 1 2 b 则 约束条件等价于 1 1 0 i 0 i 1 2 ik 1 2 11 a 22 1 2 b 2 2 1 21 2 1122 1212 a b 1 21 21 2 2211122 212 1 21 21 2 2211122 212 2 1 m iii i 2 1 m iii i 22 222 111 mmm iiiiiki iii 22 kk TT 当取 k aa k b b 1 21 2 11212122kkkk a ba b 1 21 21 2 2221111222 1 kk k 2 1 kkkk k 这时uk和vk达到最大值 k 称它为第k个典型 相关系数 称ak和bk为第k对典型变 系数 19 1 211 2 2221111222 的正特征根 222 12 0 m 相应的特征向量为 2 m1 1 kk k 11 22 111222 k 1 2 11kk a 1 2 22kk b ak和和bk分别构成了第一组变量和第二组变量的 第 分别构成了第一组变量和第二组变量的 第k对典型变量的系数 对典型变量的系数 注 有相同的特征根 而可以验证 1 1 11122221 1 1 22211112 1 211 2 2221111222 2 2 1 1 1 1112222111 2 kkk 1 2 1 1 2222211112 b 是相对于特征根的正交特征向量 根据线性代数的思想 下 矩阵 2 1122kkk 1 2 1 1 221221 a 是相对于特征根的正交特征向量 方法二方法二 根据数学分析中条件极值的求法 引入Lagrange乘 数 求极值问题 则可以转化为求 11 1 1 1 22 a b 112111111221 a ba ab b 的极大值 其中 和 是 Lagrange乘数 1 1 0 2 0 a 121111 211221 b a a b 3 121111 211221 b a 0 a b 0 将上面的3式分别左乘和 1 a 1 b 11211111 12111221 a b a a 0 b a b b 0 11 u v 1121 a b 将左乘 3 的第二式 得 1 1222 0 1 1 12222111222221 a b 0 1 1222211121 a b 并将第一式代入 得 0 12 1222211111 a a 0 1 12 1112222111 a a 的特征根 是 相应的特征向 量为 21 1 2212 1 11 2 1 1121 1211 a b b a 0 1 2111211121 b a 0 12 2111121221 b b 将左乘 3 的第一式 并将第二式代入 得 1 1112 1 0 1 12 222111121 b b 1 1 111122221 1 1 222211112 M M 令 2 1 2 2 M a a M b b 的特征根 是 相应的特征向 量为 21 1 1112 1 22 2 1 20 结论 既是M1又是M2的特征根 和是相应于M1 和M2的特征向量 2 1 1 至此 典型相关分析转化为求M1和M2特征根和特征 向量的问题 第一对典型变量提取了原始变量X与Y之间相关的主 要部分 如果这部分还不能足以解释原始变量 可以在剩 余的相关中再求出第二对典型变量和他们的典型相关系 数 在剩余的相关中再求出第二对典型变量和 他们的典型相关系数 设第二对典型变量为 2 u 2 a x 22 v b y 在约束条件 2 1Var u 2112 a a 2 1Var v 2222 b b 12 cov cov 0u u 121112 a x a xa a 12 cov cov 0v v 121112 b y b yb b 求使达到最大的和 22 cov u v 2122 a b 2 a 2 b 典型相关系数的检验 1 假设有X组和Y组变 样本容 为n 假设 X1 Y1 X2 Y2 Xn Yn 观测 值矩阵为 nqnnpn qp qp qp qp yyxx yyxx yyxx yyxx yyxx Z 11 441441 331231 221221 111111 yyyx xyxx SS SS nn1 1 1 1 ZZ样本的协方差 qnqnpnpn qqpp qqpp qqpp qqpp yyyyxxxx yyyyxxxx yyyyxxxx yyyyxxxx yyyyxxxx 1111 41414141 31312131 21212121 11111111 Z 2 计算特征根和特征向量 求M1和M2的特征根 对应的特征向 量 则特征向量构成典型变量的系 数 特征根为典型变量相关系数的平方 11 1yxyyxyxx SSSSM 令 11 2xyxxyxyy SSSSM 令 22 2 2 1r 2 1 ri ii 和 六 典型相关系数的检验 典型相关分析是否恰当 应该取决于两组原变量之间是否 相关 如果两组变量之间毫无相关性而言 则不应该作典型 相关分析 用样本来估计总体的典型相关系数是否有误 需 要进行检验 一 整体检验 0 0 10 xyxy HH 0 yyxx SS S 0 10 r H 不为零中至少 11 2 1 riH i 检验的统计量 21 yyyx xyxx SS SS S I0 SSI SS SS ISS 0I xy 1 xx yyyx xyxx 1 xxyx xy 1 xxyxyy xx SSSS0 0S 所以 两边同时求行列式 有 yyyx xyxx xy 1 xx yyyx xyx
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025调味品销售合同书样本
- 化工厂培训总结课件模板
- 2025解除购销合同申请书模板
- 2025年标准租房合同模板
- 历城区食品安全培训课件
- 大雁归来优翼课件
- 2025红薯生产购销合同
- 2025建筑项目合作协议范文
- 卵巢肿瘤病理课件
- 2025职员劳务合同协议书
- 2025年高考英语真题完全解读(全国一卷)(真题解读)
- 湖北省武汉市硚口区2025-2026学年高三上学期7月起点质量检测化学试卷(含答案)
- (新教材)人教版一年级上册小学数学教学计划+教学进度表
- 火化证管理办法河北
- 小学生法律知识课件
- 2025至2030中国组网专线行业市场发展现状及发展趋势与投资前景预测报告
- 新解读《城镇供水管网运行安全风险评估规范 T-CAS 737-2023》
- 桡骨远端骨折健康宣教
- 2024年急性ST段抬高型心肌梗死诊断和治疗指南
- GB/T 5974-2025起重机械钢丝绳用套环
- DB37∕T 4726-2024 轻烃生产企业安全生产风险管控和隐患排查治理体系建设实施指南
评论
0/150
提交评论