




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 2 1 试述多元联合分布和边缘分布之间的关系 设是 p 维随机向量 称由它的 q 0 2 0 0 其他 1 1 2 2 1 2 1 1 2 2 1 2 2 2 2 2 2 1 1 2 2 1 2 1 1 2 2 1 2 2 2 2 2 2 2 1 1 2 2 1 2 1 1 2 2 1 1 1 1 2 2 2 2 1 2 1 1 2 2 1 所以指数部分变为 1 2 1 1 1 2 1 2 2 1 2 2 2 1 1 2 2 1 令 t 2 2 1 2 2 1 1 1 2 1 1 1 2 2 2 1 1 2 2 1 2 1 2 1 2 1 2 1 1 2 2 2 1 1 2 2 1 1 2 2 exp 1 2 1 1 1 2 2 2 1 exp 1 2 1 1 1 2 2 2 1 1 0 1 0 其他 同理 exp 1 2 2 2 2 2 2 2 2 2 0 2 0 其他 2 3 已知随机向量的联合分布密度函数为 1 2 其中 f 1 2 2 1 2 2 1 2 2 2 求 1 2 1 随机变量各自的边缘密度函数 均值与方差 解 1 f 1 2 2 2 1 2 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2 2 1 同理 2 f 1 2 1 2 1 2 2 1 2 2 2 1 1 b a ba dx ab xxfxxE 2 1 111111 同理可得 2 2 dc xE b a ba dx ab ba xxdxfxExxD 12 1 2 2 1 2 1111 2 111 同理可得 12 2 2 dc xD 2 随机变量的协方差和相关系数 E 1 1f 1 1 1 1 1 2 E 2 2f 2 2 2 1 2 2 E 12 1 2f 1 1 1 2 1 1 1 3 2 2 E 22 2 2f 2 2 2 2 1 2 1 3 2 2 D E 1 12 E 1 2 1 12 2 D E 2 22 E 2 2 1 12 2 Cov E 1 2 1 2 E 1 E 2 E 1 2 1 1 2 f 1 2 2 1 6 2 1 6 2 1 9 2 2 Cov 1 2 1 36 Cov 1 2 D 1 D 2 1 36 1 12 1 3 3 判断是否独立 f 1 f 2 1 1 f 1 2 1 2不相互独立 2 4 设随机向量服从正态分布 已知其协差阵为对 1 2 角阵 证明的分量是相互独立的随机变量 11 22 不相关 0 与 又服从正态分布 1 2 相互独立 与 1 2 2 5 解 依据题意 X 1 6 E X 1 6 1 35650 12 33 17325 152 5 D X 1 6 1 416 67 32415 66710 8889 29 833 25 29 833 5 583 注 利用注 利用 S 其中其中 1 1 pn n 1XX 1 nnn n 1 1X IX 10 01 n I 在 SPSS 中求样本均值向量的操作步骤如下 1 选择菜单项 Analyze Descriptive Statistics Descriptives 打开 Descriptives 对话 框 将待估计的四个变量移入右边的 Variables 列表框中 如图 2 1 图 2 1 Descriptives 对话框 2 单击 Options 按钮 打开 Options 子对话框 在对话框中选择 Mean 复选框 即 计算样本均值向量 如图 2 2 所示 单击 Continue 按钮返回主对话框 图 2 2 Options 子对话框 3 单击 OK 按钮 执行操作 则在结果输出窗口中给出样本均值向量 如表 2 1 即 样本均值向量为 35 3333 12 3333 17 1667 1 5250E2 表 2 1 样本均值向量 在 SPSS 中计算样本协差阵的步骤如下 1 选择菜单项 Analyze Correlate Bivariate 打开 Bivariate Correlations 对话框 将三个变量移入右边的 Variables 列表框中 如图 2 3 图 2 3 Bivariate Correlations 对话框 2 单击 Options 按钮 打开 Options 子对话框 选择 Cross product deviations and covariances 复选框 即计算样本离差阵和样本协差阵 如图 2 4 单击 Continue 按钮 返回主对话框 图 2 4 Options 子对话框 3 单击 OK 按钮 执行操作 则在结果输出窗口中给出相关分析表 见表 2 2 表 中 Covariance 给出样本协差阵 另外 Pearson Correlation 为皮尔逊相关系数 矩阵 Sum of Squares and Cross products 为样本离差阵 2 6 均值向量和协差阵的最大似然估计量具有哪些优良性质 1 即是的无偏估计 E X X 即不是的无偏估计 11 n E nn S 1 n S 而 即是的无偏估计 1 1 E n S 1 1n S 2 分别是 的有效估计 X 1 1n S 3 或 分别是 的一致估计 相合估计 X 1 n S 1 1n S lim 1 lim 1 1 E X 2 7 试证多元正态总体 的样本均值向量 证明 1 1 1 1 2 1 2 2 8 试证多元正态总体 的样本协差阵 为 的无偏估 1 1 计 证明 E 1 1 1 1 1 1 1 1 1 1 是 的无偏估计 S n 1 为 的无偏估计 1 1 2 9 设 是从多元正态总体 中独立抽 1 2 取的一个随机样本 试求样本协差阵 的分布 1 1 解 且相互独立 则样本离 ap NX na 2 1 差阵 其中 1 1 n aap a Wn SXX XX 1 1 n a a n XX 的分布为 1 样本协差阵 1 1 2 10 设 是来自的数据阵 i 1 2 k 1 已知 且 求 的估计 1 1 和 2 已知 求 和 的估计 1 1 这道题我对自己的答案不是很确定 第三章 3 1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤 其基本思想和步骤均可归纳为 答 第一 提出待检验的假设和 H1 0 第二 给出检验的统计量及其服从的分布 第三 给定检验水平 查统计量的分布表 确定相应的临界 值 从而得到否定域 第四 根据样本观测值计算出统计量的值 看是否落入否定域中 以便对待判假设做 出决策 拒绝或接受 均值向量的检验 统计量 拒绝域 均值向量的检验 在单一变量中 当已知 2 0 X zn 2 zz 当未知 2 0 X tn S 2 1 ttn 作为的估计量 22 1 1 1 n i i SXX n 2 一个正态总体 00 H 协差阵已知 212 000 Tnp X X 22 0 T 协差阵未知 2 1 1 1 np TF p np np 2 1 np TF np 21 00 1 Tnnn X SX 两个正态总体 012 H 有共同已知协差阵 212 0 n m Tp nm XY XY 22 0 T 有共同未知协差阵 2 2 1 1 2 nmp FTF p nmp nmp FF 其中 21 2 n mn m Tnm nmnm XYSXY 协差阵不等 mn 1 np n FF p np p Z S ZFF 协差阵不等 mn 1 np n FF p np p Z S ZFF 多个正态总体 k H 210 单因素方差 1 1 SSA k FF knk SSE nk FF 多因素方差 1 p nk k EE TAE 协差阵的检验 检验 0 0p H I 2 21 exp 2 np ne tr n SS 00p H I 2 2 1 exp 2 np ne tr n SS 检验 12k 012k H 统计量 2 2 2 2 11 i i kk nn pnnp kii ii nn SS 3 2 试述多元统计中霍特林分布和威尔克斯 分布分别与一元统计中 t 分布和 F 分布的 2 关系 答 霍特林分布是 t 分布对于多元变量的推广 2 而若设 且与 2 221 2 n X tn XSX S p NX p WnS X 相互独立 则称统计量的分布为非中心霍特林 T2分布 Spn 2 1 若 且与相互独立 令 则 p NX0 p WnS XS 21 Tn X S X 2 1 1 np TF p np np 2 威尔克斯 分布在实际应用中经常把 统计量化为统计量进而化为统计量 2 TF 利用统计量来解决多元统计分析中有关检验问题 F 与统计量的关系 F p 1 n 2 n 统计量及分别F 任意任意1 11 1 1 1 1 1 1 1 npp n F p np pp n 任意任意2 1 1 1 1 1 2 2 2 2 p nnp Fpnp pp n 1任意任意 112 21 212 1 1 1 nn n F n n nn n 2任意任意 12 1 21 2 12 1 2 1 2 2 1 2 n nn Fnn nn n 3 3 试述威尔克斯统计量在多元方差分析中的重要意义 答 威尔克斯统计量在多元方差分析中是用于检验均值的统计量 012k H 1ij Hij 至少存在使 用似然比原则构成的检验统计量为 给定检验水 1 p nk k EE TAE 平 查 Wilks 分布表 确定临界值 然后作出统计判断 第四章 4 1 简述欧几里得距离与马氏距离的区别和联系 答 设 p 维欧几里得空间中的两点 X X 和 Y Y 则欧几里得距离 1 2 1 2 为 欧几里得距离的局限有 在多元数据分析中 其度量不合理 会受 1 2 到实际问题中量纲的影响 设 X YX Y 是来自均值向量为 协方差为的总体 G 中的 p 维样本 则马氏距离为 D X Y 当即单位阵时 D X Y 1 1 即欧几里得距离 1 2 因此 在一定程度上 欧几里得距离是马氏距离的特殊情况 马氏距离是欧几里得距 离的推广 4 2 试述判别分析的实质 答 判别分析就是希望利用已经测得的变量数据 找出一种判别函数 使得这一函数具有 某种最优性质 能把属于不同类别的样本点尽可能地区别开来 设 R1 R2 Rk 是 p 维 空间 R p 的 k 个子集 如果它们互不相交 且它们的和集为 则称为的一 1 2 个划分 判别分析问题实质上就是在某种意义上 以最优的性质对 p 维空间构造一个 划分 这个 划分 就构成了一个判别规则 4 3 简述距离判别法的基本思想和方法 答 距离判别问题分为 两个总体的距离判别问题和 多个总体的判别问题 其基本思想 都是分别计算样本与各个总体的距离 马氏距离 将距离近的判别为一类 两个总体的距离判别问题 设有协方差矩阵 相等的两个总体G G1 1和G G2 2 其均值分别是 1 1和 2 2 对于一个新的样品 X X 要判断它来自哪个总体 计算新样品X X到两个总体的马氏距离D D2 2 X X G G1 1 和 D D2 2 X X G G2 2 则 X X D2 X X G G1 1 D2 X X G G2 2 1 X X D2 X X G1 D2 X X G G2 2 2 具体分析 22 12 DGDG XX 11 1122 111111 111222 111 211122 2 2 2 X X X X X XX X XX X 11 211212 1 12 12 2 2 2 2 2 X X X X 记 则判别规则为 W X X X X W X 1 0 X X W X 0 2 多个总体的判别问题 设有个总体 其均值和协方差矩阵分别是 k 21 和 k k GGG 21 k 21 且 计算样本到每个总体的马氏距离 到哪个总体的距离最小就 k 21 属于哪个总体 具体分析 21 DG XX X 111 1 2 2 C X X X X XI X 取 I 1 1 2 1 Ck 2 1 可以取线性判别函数为 WC XI Xk 2 1 相应的判别规则为 若 i G X 1 max i k WC XI X 4 4 简述贝叶斯判别法的基本思想和方法 基本思想 设 k 个总体 k GGG 21 其各自的分布密度函数 假设 21 xxx k fff k 个总体各自出现的概率分别为 设将本来属于总体的 k qqq 21 0 i q1 1 k i i q i G 样品错判到总体时造成的损失为 kji 2 1 j G ijC 设个总体 k GGG 21 相应的维样本空间为 kp 21k RRRR 在规则下 将属于 i G的样品错判为的概率为R j G xx dfRijP j R i jikji 2 1 则这种判别规则下样品错判后所造成的平均损失为 k j RijPijCRir 1 ki 2 1 则用规则来进行判别所造成的总平均损失为 R k i i RirqRg 1 k i k j i RijPijCq 11 贝叶斯判别法则 就是要选择一种划分 k RRR 21 使总平均损失达到极小 Rg 基本方法 k i k j i RijPijCqRg 11 xx dfijCq k i k j R ii j 11 k j R k i ii j dfijCq 11 xx 令 则 1 k iij i qC j i fh xx k j R j j dhRg 1 xx 若有另一划分 2 1 k RRRR k j R j j dhRg 1 xx 则在两种划分下的总平均损失之差为 k i k j RR ji ji dhhRgRg 11 xxx 因为在上上对一切成立 故上式小于或等于零 是贝叶斯判别的解 i R xx ji hh j 从而得到的划分为 21k RRRR 1 min iij j k Rhh xxx ki 2 1 4 5 简述费希尔判别法的基本思想和方法 答 基本思想 从个总体中抽取具有个指标的样品观测数据 借助方差分析的思想构 k p 造一个线性判别函数 1122 pp Uu Xu Xu X Xu X 系数可使得总体之间区别最大 而使每个总体内部的离差最小 将新 21 p uuu u 样品的个指标值代入线性判别函数式中求出值 然后根据判别一定的规则 就可 p U X 以判别新的样品属于哪个总体 4 6 试析距离判别法 贝叶斯判别法和费希尔判别法的异同 答 费希尔判别与距离判别对判别变量的分布类型无要求 二者只是要求有各类母体的 两阶矩存在 而贝叶斯判别必须知道判别变量的分布类型 因此前两者相对来说较为简单 当 k 2 时 若则费希尔判别与距离判别等价 当判别变量服从正态分布时 1 2 二者与贝叶斯判别也等价 当时 费希尔判别用作为共同协差阵 实际看成等协差阵 此与距离判 1 2 1 2 别 贝叶斯判别不同 距离判别可以看为贝叶斯判别的特殊情形 贝叶斯判别的判别规则是 X X W X 1 X X W X lnd 2 距离判别的判别规则是 X X W X 1 0 X X W X 0 即样品 X X 属于总体 1 1 4 8 某超市经销十种品牌的饮料 其中有四种畅销 三种滞销 三种平销 下表是这十种 品牌饮料的销售价格 元 和顾客对各种饮料的口味评分 信任度评分的平均数 销售情况产品序号销售价格口味评分信任度评分 12 258 22 567 33 039 畅销 43 286 52 876 63 587平销 74 898 81 734 92 242滞销 102 743 根据数据建立贝叶斯判别函数 并根据此判别函数对原样本进行回判 现有一新品牌的饮料在该超市试销 其销售价格为 3 0 顾客对其口味的评分平均 为 8 信任评分平均为 5 试预测该饮料的销售情况 解 增加 group 变量 令畅销 平销 滞销分别为 group1 2 3 销售价格为 X1 口味评 分为 X2 信任度评分为 X3 用 spss 解题的步骤如下 1 在 SPSS 窗口中选择 Analyze Classify Discriminate 调出判别分析主界面 将左边的变量列表中的 group 变量选入分组变量中 将 X1 X2 X3变量选入 自变量中 并选择 Enter independents together 单选按钮 即使用所有自变量进 行判别分析 2 点击 Define Range 按钮 定义分组变量的取值范围 本例中分类变量的范围 为 1 到 3 所以在最小值和最大值中分别输入 1 和 3 单击 Continue 按钮 返回 主界面 如图 4 1 图 4 1 判别分析主界面 3 单击 Statistics 按钮 指定输出的描述统计量和判别函数系数 选中 Function Coefficients 栏中的 Fisher s 给出 Bayes 判别函数的系数 注意 这个选项不是 要给出 Fisher 判别函数的系数 这个复选框的名字之所以为 Fisher s 是因为按 判别函数值最大的一组进行归类这种思想是由 Fisher 提出来的 这里极易混淆 请读者注意辨别 如图 4 2 单击 Continue 按钮 返回主界面 图 4 2 statistics 子对话框 4 单击 Classify 按钮 弹出 classification 子对话框 选中 Display 选项栏中的 Summary table 复选框 即要求输出错判矩阵 以便实现题中对原样本进行回判 的要求 如图 4 3 图 4 3 classification 对话框 5 返回判别分析主界面 单击 OK 按钮 运行判别分析过程 1 根据判别分析的结果建立 Bayes 判别函数 Bayes 判别函数的系数见表 4 1 表中每一列表示样本判入相应类的 Bayes 判别函数系数 由此可建立判别函数如下 Group1 3761 162297 121689 11843 811XXXY Group2 3086 172361 131707 10536 942XXXY Group3 3447 62960 4 1194 2 449 173XXXY 将各样品的自变量值代入上述三个 Bayes 判别函数 得到三个函数值 比较这三个函数值 哪个函数值比较大就可以判断该样品判入哪一类 Classification Function Coefficients group 123 x1 11 689 10 707 2 194 x212 29713 3614 960 x316 76117 0866 447 Constant 81 843 94 536 17 449 Fisher s linear discriminant functions 表4 1 Bayes判别函数系数 根据此判别函数对样本进行回判 结果如表4 2 从中可以看出在4种畅销饮料中 有3种被 正确地判定 有1种被错误地判定为平销饮料 正确率为75 在3种平销饮料中 有2种被 正确判定 有1种被错误地判定为畅销饮料 正确率为66 7 3种滞销饮料均正确判定 整体的正确率为80 0 Classification Resultsa Predicted Group Membership group123Total 13104 21203 Count 30033 175 025 0 0100 0 233 366 7 0100 0 Original 3 0 0100 0100 0 a 80 0 of original grouped cases correctly classified 表4 2 错判矩阵 2 该新饮料的 将这3个自变量代入上一小题得到的Bayes0 31 X82 X53 X 判别函数 的值最大 该饮料预计平销 也可通过在原样本中增加这一新样本 2Y 重复上述的判别过程 并在classification子对话框中同时要求输出casewise results 运 行判别过程 得到相同的结果 4 9 银行的贷款部门需要判别每个客户的信用好坏 是否未履行还贷责任 以决定是否给 予贷款 可以根据贷款申请人的年龄 受教育程度 现在所从事工作的年数 1 X 2 X 未变更住址的年数 收入 负债收入比例 信用卡债务 3 X 4 X 5 X 6 X 其它债务 等来判断其信用情况 下表是从某银行的客户资料中抽取的部分 7 X 8 X 数据 根据样本资料分别用距离判别法 Bayes 判别法和 Fisher 判别法建立判别函数和 判别规则 某客户的如上情况资料为 53 1 9 18 50 11 20 2 02 3 58 对其进 行信用好坏的判别 目前信用 好坏 客户 序号 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 123172316 600 341 71 2341173598 001 812 91 3422723414 600 94 94 43911954813 101 934 36 已履行还 贷责任 535191345 000 401 30 6371132415 101 801 82 7291131427 401 461 65 83221167523 307 769 72 928223236 400 191 29 未履行还 贷责任 10261432710 502 47 36 解 令已履行还贷责任为 group0 未履行还贷责任为 group1 令 53 1 9 18 50 11 20 2 02 3 58 客户序号为 11 group 未知 用 spss 解题步骤 如下 1 在 SPSS 窗口中选择 Analyze Classify Discriminate 调出判别分析主界面 将左 边的变量列表中的 group 变量选入分组变量中 将变量选入自变量中 61XX 并选择 Enter independents together 单选按钮 即使用所有自变量进行判别分析 2 点击 Define Range 按钮 定义分组变量的取值范围 本例中分类变量的范围为 0 到 1 所以在最小值和最大值中分别输入 0 和 1 单击 Continue 按钮 返回主界面 3 单击 Statistics 按钮 指定输出的描述统计量和判别函数系数 选中 Function Coefficients 栏中的 Fisher s 和 Unstandardized 单击 Continue 按钮 返回主界面 4 单击 Classify 按钮 定义判别分组参数和选择输出结果 选择 Display 栏中的 Casewise results 以输出一个判别结果表 其余的均保留系统默认选项 单击 Continue 按钮 5 返回判别分析主界面 单击 OK 按钮 运行判别分析过程 1 用费希尔判别法建立判别函数和判别规则 未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分 所以该系数使用起来比标准化的系数要方便一些 具体见表 4 3 表 4 3 未标准化的典型判别函数系数 由此表可知 Fisher 判别函数为 8383 2 7792 0 6710 0 5024 0 4357 0 3173 0 2687 6 132 0 794 10XXXXXXXXY 用计算出各观测值的具体坐标位置后 再比较它们与各类重心的距离 就可以得知Y 分类 如若与 group0 的重心距离较近则属于 group0 反之亦然 各类重心在空间中 的坐标位置如表 4 4 所示 表 4 4 各类重心处的费希尔判别函数值 用 bayes 判别法建立判别函数与判别规则 由于此题中假设各类出现的先验概率相等 且误判造成的损失也相等 所以距离判别法与 bayes 判别完全一致 如表 4 5 所示 group 栏中的每一列表示样品判入相应列的 Bayes 判别函数系数 由此 可得 各类的 Bayes 判别函数如下 8504 377994 106723 135969 24943 4 3033 12070 941340 0693 1180XXXXXXXXG 8116 497133 7 6182 175086 3 4681 6 3874 1 2660 1261184 0 296 1711XXXXXXXXG 表 4 5 Bayes 判别函数系数 将各样品的自变量值代入上述两个 Bayes 判别函数 得到两个函数值 比较这两个函数值 哪个函数值比较大就可以判断该样品该判入哪一类 2 在判别结果的 Casewise Stastics 表中容易查到该客户属于 group0 信用好 4 10 从胃癌患者 萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的 化验 血清铜蛋白 蓝色反应 尿吲哚乙酸和中性硫化物 数据见 1 X 2 X 3 X 4 X 下表 试用距离判别法建立判别函数 并根据此判别函数对原样本进行回判 类别病人序号 1 X 2 X 3 X 4 X 12281342011 22451341040 32001671227 417015078 胃癌患者 51001672014 6225125714 7130100612 815011776 91201331026 胃炎患者 萎缩性 10160100510 11185115519 1217012564 1316514253非胃炎患者 1510011772 解 令胃癌患者 萎缩性胃炎患者和非胃炎患者分别为 group1 group2 group3 由于此 题中假设各类出现的先验概率相等且误判造成的损失也相等 所以距离判别法与 bayes 判 别完全一致 用 spss 的解题步骤如下 1 在 SPSS 窗口中选择 Analyze Classify Discriminate 调出判别分析主界面 将左边的变 量列表中的 group 变量选入分组变量中 将 X1 X2 X3 X4变量选入自变量中 并选择 Enter independents together 单选按钮 即使用所有自变量进行判别分析 2 点击 Define Range 按钮 定义分组变量的取值范围 本例中分类变量的范围为 1 到 3 所以在最小值和最大值中分别输入 1 和 3 单击 Continue 按钮 返回主界面 3 单击 Statistics 按钮 指定输出的描述统计量和判别函数系数 选中 Function Coefficients 栏中的 Fisher s 给出 Bayes 判别函数的系数 4 单击 Classify 按钮 弹出 classification 子对话框 选中 Display 选项栏中的 Summary table 复选框 即要求输出错判矩阵 以便实现题中对原样本进行回判的要求 5 返回判别分析主界面 单击 OK 按钮 运行判别分析过程 根据判别分析的结果建立 Bayes 判别函数 Bayes 判别函数的系数见表 4 6 表中每一列表示样本判入相应类的 Bayes 判别函数系数 由此可建立判别函数如下 Group1 4073 0 3778 0 2753 01164 0 212 791XXXXY Group2 4012 0 3317 0 2595 0 1130 0 721 462XXXXY Group3 4059 0 3100 0 2637 01130 0 598 493XXXXY 将各样品的自变量值代入上述三个 Bayes 判别函数 得到三个函数值 比较这三个函数值 哪个函数值比较大就可以判断该样品判入哪一类 表 4 6 Bayes 判别函数系数 根据此判别函数对样本进行回判 结果如表4 7 从中可以看出在5个胃癌患者中 有4个被 正确地判定 有1个被错误地判定为非胃炎患者 正确率为80 在5个萎缩性胃炎患者中 有4个被正确判定 有1个被错误地判定为非胃炎患者 正确率为80 在5个非胃炎患者中 有4个被正确判定 有1个被错误地判为萎缩性胃炎患者 整体的正确率为80 0 表 4 7 错判矩阵 第五章 5 1 判别分析和聚类分析有何区别 答 即根据一定的判别准则 判定一个样本归属于哪一类 具体而言 设有 n 个样本 对 每个样本测得 p 项指标 变量 的数据 已知每个样本属于 k 个类别 或总体 中的某一 类 通过找出一个最优的划分 使得不同类别的样本尽可能地区别开 并判别该样本属于 哪个总体 聚类分析是分析如何对样品 或变量 进行量化分类的问题 在聚类之前 我 们并不知道总体 而是通过一次次的聚类 使相近的样品 或变量 聚合形成总体 通俗 来讲 判别分析是在已知有多少类及是什么类的情况下进行分类 而聚类分析是在不知道 类的情况下进行分类 5 2 试述系统聚类的基本思想 答 系统聚类的基本思想是 距离相近的样品 或变量 先聚成类 距离相远的后聚成类 过程一直进行下去 每个样品 或变量 总能聚到合适的类中 5 3 对样品和变量进行聚类分析时 所构造的统计量分别是什么 简要说明为什么这样 构造 答 对样品进行聚类分析时 用距离来测定样品之间的相似程度 因为我们把 n 个样本看 作 p 维空间的 n 个点 点之间的距离即可代表样品间的相似度 常用的距离为 一 闵可夫斯基距离 1 1 p q q ijikjk k dqXX q 取不同值 分为 1 绝对距离 1q 1 1 p ijikjk k dXX 2 欧氏距离 2q 2 1 2 1 2 p ijikjk k dXX 3 切比雪夫距离 q 1 max ijikjk kp dXX 二 马氏距离 三 兰氏距离 对变量的相似性 我们更多地要了解变量的变化趋势或变化方向 因此用相关性进行衡量 将变量看作 p 维空间的向量 一般用 一 夹角余弦 二 相关系数 21 ijijij dM XX XX 1 1 p ikjk ij k ikjk XX dL pXX 1 22 11 cos p ikjk k ij pp ikjk kk X X XX 1 22 11 p ikijkj k ij pp ikijkj kk XXXX r XXXX 5 4 在进行系统聚类时 不同类间距离计算方法有何区别 选择距离公式应遵循哪些原则 答 设 dij表示样品 Xi与 Xj之间距离 用 Dij表示类 Gi与与 Gj之间的距离 1 最短距离法 min ikjr krij XGXG Dd min kpkq DD 2 最长距离法 max ipjq pqij XGXG Dd max ikjr krij XGXG Dd max kpkq DD 3 中间距离法 其中 1 4 0 4 重心法 2 pqpqpq DXXXX 1 qqpp r r XnXn n X 2222 2 pqpq krkpkqpq rrr nnn n DDDD nnn 5 类平均法 22 1 ipjj pqij XGXG pq Dd n n 22 1 ikjr krij XGXG kr Dd n n 22pq kpkq rr nn DD nn 6 可变类平均法 其中 是可变的且 1 7 可变法 ij GXGX ij dD jjii min 2222 2 1 2 1 pqkqkpkr DDDD 2222 1 pq krkpkqpq rr nn DDDD nn 其中 是可变的且 1 2222 1 2 krkpkqpq DDDD 8 离差平方和法 1 t n tittitt t SXXXX 2 2222kpkq k krkpkqpq rkrkrk nnnn n DDDD nnnnnn 通常选择距离公式应注意遵循以下的基本原则 1 要考虑所选择的距离公式在实际应用中有明确的意义 如欧氏距离就有非常明确的空 间距离概念 马氏距离有消除量纲影响的作用 2 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法 如在进行聚类分析 之前已经对变量作了标准化处理 则通常就可采用欧氏距离 3 要考虑研究对象的特点和计算量的大小 样品间距离公式的选择是一个比较复杂且带 有一定主观性的问题 我们应根据研究对象的特点不同做出具体分折 实际中 聚类分析 前不妨试探性地多选择几个距离公式分别进行聚类 然后对聚类分析的结果进行对比分析 以确定最合适的距离测度方法 5 5 试述 K 均值法与系统聚类法的异同 答 相同 K 均值法和系统聚类法一样 都是以距离的远近亲疏为标准进行聚类的 不同 系统聚类对不同的类数产生一系列的聚类结果 而 K 均值法只能产生指定类 数的聚类结果 具体类数的确定 离不开实践经验的积累 有时也可以借助系统聚类法以一部分样品 为对象进行聚类 其结果作为 K 均值法确定类数的参考 5 6 试述 K 均值法与系统聚类有何区别 试述有序聚类法的基本思想 答 K 均值法的基本思想是将每一个样品分配给最近中心 均值 的类中 系统聚类对不 同的类数产生一系列的聚类结果 而 K 均值法只能产生指定类数的聚类结果 具体类数 的确定 有时也可以借助系统聚类法以一部分样品为对象进行聚类 其结果作为 K 均值法 确定类数的参考 有序聚类就是解决样品的次序不能变动时的聚类分析问题 如果用表示 2 1 n XXX 个有序的样品 则每一类必须是这样的形式 即 其中且n 1 jii XXX 1ni 简记为 在同一类中的样品是次序相邻的 一般的步骤是nj 1 jiiGi 1 计算直径 D i j 2 计算最小分类损失函数 L p l k 3 确定分类个数 k 4 最优分类 5 7 检测某类产品的重量 抽了六个样品 每个样品只测了一个指标 分别为 1 2 3 6 9 11 试用最短距离法 重心法进行聚类分析 1 用最短距离法进行聚类分析 采用绝对值距离 计算样品间距离阵 0 1 2 3 4 5 6 0 1 1 0 2 2 1 0 3 5 4 3 0 4 8 7 6 3 0 5 10 9 8 5 2 0 6 由上表易知 中最小元素是 于是将 聚为一类 记为 0 12 23 1 1 2 3 7 计算距离阵 1 7 4 5 6 0 7 3 0 4 6 3 0 5 8 5 2 0 6 中最小元素是 2 于是将 聚为一类 记为 1 56 5 6 8 计算样本距离阵 2 7 4 8 0 7 3 0 4 6 3 0 8 中最小元素是 于是将 聚为一类 记为 2 47 48 3 4 7 8 9 因此 2 用重心法进行聚类分析 计算样品间平方距离阵 2 0 1 2 3 4 5 6 0 1 1 0 2 4 1 0 3 25 16 9 0 4 64 49 36 9 0 5 100 81 64 25 4 0 6 易知 中最小元素是 于是将 聚为一类 记为 2 0 212 223 1 1 2 3 7 计算距离阵 2 1 7 4 5 6 0 7 16 0 4 49 9 0 5 81 25 4 0 6 注 计算方法 其他以此类推 247 6 1 3 1 2 1 2 中最小元素是 4 于是将 聚为一类 记为 2 1 256 5 6 8 计算样本距离阵 2 2 7 4 8 0 7 16 0 4 64 16 0 8 中最小元素是 于是将 聚为一类 记为 2 2 247 248 16 4 7 8 9 因此 5 8 下表是 15 个上市公司 2001 年的一些主要财务指标 使用系统聚类法和 K 均值法分别 对这些公司进行聚类 并对结果进行比较分析 公 司 编号 净资产 收益率 每股净 利润 总资产 周转率 资产负 债率 流动负 债比率 每股净 资产 净利润 增长率 总资产 增长率 111 090 210 0596 9870 531 86 44 0481 99 211 960 590 7451 7890 734 957 0216 11 300 030 03181 99100 2 98103 3321 18 411 580 130 1746 0792 181 146 55 56 32 5 6 19 0 090 0343 382 241 52 1713 5 3 36 6100 470 4868 4864 7 11 560 85 710 490 110 3582 9899 871 02100 2330 32 811 12 1 690 12132 14100 0 66 4454 39 62 75 93 410 040 267 8698 511 25 11 25 11 43 101 160 010 5443 71001 03 87 18 7 41 1130 220 160 487 3694 880 53729 41 9 97 128 190 220 3830 311002 73 12 31 2 77 1395 79 5 20 5252 3499 34 5 42 9816 52 46 82 1416 550 350 9372 3184 052 14115 95123 41 15 24 18 1 160 7956 2697 84 81 533 89 27 74 解 令净资产收益率为 X1 每股净利润 X2 总资产周转率为 X3 资产负债率为 X4 流动负 债比率为 X5 每股净资产为 X6 净利润增长率为 X7 总资产增长率为 X8 用 spss 对公司 聚类分析的步骤如下 a 系统聚类法 1 在 SPSS 窗口中选择 Analyze Classify Hierachical Cluster 调出系统聚类分析主 界面 并将变量移入 Variables 框中 在 Cluster 栏中选择 Cases 单选按钮 X8 X1 即对样品进行聚类 若选择 Variables 则对变量进行聚类 在 Display 栏中选择 Statistics 和 Plots 复选框 这样在结果输出窗口中可以同时得到聚类结果统计量和 统计图 图 5 1 系统分析法主界面系统分析法主界面 2 点击 Statistics 按钮 设置在结果输出窗口中给出的聚类分析统计量 我们选择 Agglomeration schedule 与 Cluster Membership 中的 Range of solution 2 4 如图 5 2 所示 点击 Continue 按钮 返回主界面 其中 Agglomeration schedule 表示在结果中给出聚类过程表 显示系统聚类的 详细步骤 Proximity matrix 表示输出各个体之间的距离矩阵 Cluster Membership 表示在结果中输出一个表 表中显示每个个体被分配到的类别 Range of solution 2 4 即将所有个体分为 2 至 4 类 3 点击 Plots 按钮 设置结果输出窗口中给出的聚类分析统计图 选中 Dendrogram 复选框和 Icicle 栏中的 None 单选按钮 如图 5 3 即只给出聚类树形图 而不给 出冰柱图 单击 Continue 按钮 返回主界面 图 5 2 Statistics 子对话框子对话框 图 5 3 Plots 子对话框子对话框 4 点击 Method 按钮 设置系统聚类的方法选项 Cluster Method 下拉列表用于指 定聚类的方法 这里选择 Between group inkage 组间平均数连接距离 Measure 栏用于选择对距离和相似性的测度方法 选择 Squared Euclidean distance 欧氏距离 单击 Continue 按钮 返回主界面 图 5 4 Method 子对话框子对话框 图 5 5 Save 子对话框子对话框 5 点击 Save 按钮 指定保存在数据文件中的用于表明聚类结果的新变量 None 表 示不保存任何新变量 Single solution 表示生成一个分类变量 在其后的矩形框中 输入要分成的类数 Range of solutions 表示生成多个分类变量 这里我们选择 Range of solutions 并在后面的两个矩形框中分别输入 2 和 4 即生成三个新的分 类变量 分别表明将样品分为 2 类 3 类和 4 类时的聚类结果 如图 5 5 点击 Continue 返回主界面 6 点击 OK 按钮 运行系统聚类过程 聚类结果分析 下面的群集成员表给出了把公司分为2类 3类 4类时各个样本所属类别的情况 另外 从 右边的树形图也可以直观地看到 若将15个公司分为2类 则13独自为一类 其余的为一类 若分为3类 则公司8分离出来 自成一类 以此类推 表5 1 各样品所属类别表各样品所属类别表 图5 6 聚类树形图聚类树形图 b K 均值法的步骤如下 1 在 SPSS 窗口中选择 Analyze Classify K Means Cluster 调出 K 均值聚类分析主 界面 并将变量 X1 X8 移入 Variables 框中 在 Method 框中选择 Iterate classify 即使用 K means 算法不断计算新的类中心 并替换旧的类中心 若选择 Classify only 则根据初始类中心进行聚类 在聚类过程中不改变类中心 在 Number of Cluster 后面的矩形框中输入想要把样品聚成的类数 这里我们输入 3 即将 15 个 公司分为 3 类 Centers 按钮 则用于设置迭代的初始类中心 如果不手工设置 则系统会自动 设置初始类中心 这里我们不作设置 图 5 7 K 均值聚类分析主界面均值聚类分析主界面 2 点击 Iterate 按钮 对迭代参数进行设置 Maximum Iterations 参数框用于设定 K means 算法迭代的最大次数 输入 10 Convergence Criterion 参数框用于设定算 法的收敛判据 输入 0 只要在迭代的过程中先满足了其中的参数 则迭代过程 就停止 单击 Continue 返回主界面 图 5 8 Iterate 子对话框子对话框 3 点击 Save 按钮 设置保存在数据文件中的表明聚类结果的新变量 我们将两个复 选框都选中 其中 Cluster membership 选项用于建立一个代表聚类结果的变量 默认变量名为 qcl 1 Distance from cluster center 选项建立一个新变量 代表各观 测量与其所属类中心的欧氏距离 单击 Continue 按钮返回 图 5 9 Save 子对话框子对话框 4 点击 Options 按钮 指定要计算的统计量 选中 Initial cluster centers 和 Cluster information for each case 复选框 这样 在输出窗口中将给出聚类的初始类中心 和每个公司的分类信息 包括分配到哪一类和该公司距所属类中心的距离 单击 Continue 返回 图 5 10 Options 子对话框子对话框 5 点击 OK 按钮 运行 K 均值聚类分析程序 聚类结果分析 以下三表给出了各公司所属的类及其与所属类中心的距离 聚类形成的类的中心的各 变量值以及各类的公司数 由以上表格可得公司 13 与公司 8 各自成一类 其余的公司 为一类 通过比较可知 两种聚类方法得到的聚类结果完全一致 5 9 下表是某年我国 16 个地区农民支出情况的抽样调查数据 每个地区调查了反映每人平 均生活消费支出情况的六个经济指标 试通过统计分析软件用不同的方法进行系统聚类分 析 并比较何种方法与人们观察到的实际情况较接近 地区食品衣着燃料住房 交通和 通讯 娱乐教 育文化 北京190 3343 779 7360 5449 019 04 天津135 236 410 4744 1636 493 94 河北95
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化学工业中有机化学反应工程与工艺流程题解集
- 现代诗的结构与意象解读:课文白桦林教案
- 一世笑红尘1500字(15篇)
- 前人给我们留下的阴凉400字9篇范文
- 《语文古典诗歌欣赏教案:唐诗三首》
- 《艺术欣赏:西方绘画技法教学教案》
- 智能硬件系统集成服务合同协议
- 开国典礼读写课:初中记叙文教学与写作教案
- 走进自然感受生活记事作文14篇范文
- 八月十五放鞭炮活动方案
- xx县精神病医院建设项目可行性研究报告
- ECMO技术参数要求
- 城市轨道交通供电技术442页完整版教学课件汇总全书电子教案
- 高填深挖路基稳定性监控观测方案
- 安全标准化现场评审所需资料清单(共14页)
- 班组会议运作技巧ppt课件
- 链家房屋买卖合同范本(共10篇)
- 柱上变压器台与设备安装标准
- 技术比武理论复习题(继电保护)
- 锯齿形板式热水冷却器的设计3.
- 科室医疗质量安全管理与持续改进记录本模板.doc
评论
0/150
提交评论