编号:47112096
类型:共享资源
大小:744.30KB
格式:PDF
上传时间:2020-01-28
上传人:u****c
IP属地:浙江
6
积分
- 关 键 词:
-
应用
多元
统计分析
课后
答案
建平
- 资源描述:
-
应用多元统计分析课后答案 朱建平版 2 1 试叙述多元联合分布和边际分布之间的关系 解 多元联合分布讨论多个随机变量联合到一起的概率分布状况 的联 合分布密度函数是一个p维的函数 而边际分布讨论是的子向量的概率 分布 其概率密度函数的维数小于p 2 2设二维随机向量服从二元正态分布 写出其联合分布 解 设的均值向量为 协方差矩阵为 则其联合分布密度函数为 2 3已知随机向量的联合密度函数为 其中 求 1 随机变量和的边缘密度函数 均值和方差 2 随机变量和的协方差和相关系数 3 判断和是否相互独立 1 解 随机变量和的边缘密度函数 均值和方差 所以 由于服从均匀分布 则均值为 方差为 同理 由于服从均匀分布 则均值为 方差为 2 解 随机变量和的协方差和相关系数 3 解 判断和是否相互独立 和由于 所以不独立 2 4设服从正态分布 已知其协方差矩阵为对角阵 证明其分量是相互 独立的随机变量 解 因为的密度函数为 又由于 则 则其分量是相互独立 2 6 渐近无偏性 有效性和一致性 2 7 设总体服从正态分布 有样本 由于是相互独立的正态分布随机 向量之和 所以也服从正态分布 又 所以 2 8 方法1 方法2 故为的无偏估计 2 9 设是从多元正态分布抽出的一个简单随机样本 试求的分布 证明 设为一正交矩阵 即 令 所以 且有 所以独立同分布 又因为 因为 又因为 所以原式 故 由于独立同正态分布 所以 2 10 设是来自的简单随机样本 1 已知且 求和的估计 2 已知求和的估计 2 解之 得 第三章 3 1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步 骤 其基本思想和步骤均可归纳为 第一 提出待检验的假设 和H1 第二 给出检验的统计量及其服从的分布 第三 给定检验水平 查统计量的分布表 确定相应的临界 值 从而 得到否定域 第四 根据样本观测值计算出统计量的值 看是否落入否定域中 以便对待判假设做出决策 拒绝或接受 均值向量的检验 统计量 拒绝域 均值向量的检验 在单一变量中 当已知 当未知 作为的估计量 一个正态总体 协差阵已知 协差阵未知 两个正态总体 有共同已知协差阵 有共同未知协差阵 其中 协差阵不等 协差阵不等 多个正态总体 单因素方差 多因素方差 协差阵的检验 检验 检验 统计量 3 2 试述多元统计中霍特林 分布和威尔克斯 分布分别与一元统计中t分布和F分布的关系 答 霍特林 分布是t分布对于多元变量的推广 而若设 且与相互独立 则称统计量 的分布为非中心霍特林T2分布 若 且与相互独立 令 则 2 威尔克斯 分布在实际应用中经常把 统计量化为统计量进而化为统计量 利用统计量来解决多元统计分 析中有关检验问题 与统计量的关系 统计量及分别 任意任意1 任意任意2 1任意任意 2任意任意 3 3 试述威尔克斯统计量在多元方差分析中的重要意义 答 威尔克斯统计量在多元方差分析中是用于检验均值的统计量 用似然比原则构成的检验统计量为 给定检验水平 查Wilks分布表 确定临界值 然后作出统计判断 第四章 4 1 简述欧几里得距离与马氏距离的区别和联系 答 设p维欧几里得空间 中的两点X 和Y 则欧几里得距离为 欧几里得距离的局限有 在多元数据分析中 其度量不合理 会受 到实际问题中量纲的影响 设X Y是来自均值向量为 协方差为 的总体G中的p维样本 则马氏距离为D X Y 当 即单位阵时 D X Y 即欧几里得距离 因此 在一定程度上 欧几里得距离是马氏距离的特殊情况 马氏 距离是欧几里得距离的推广 4 2 试述判别分析的实质 答 判别分析就是希望利用已经测得的变量数据 找出一种判别函数 使得这一函数具有某种最优性质 能把属于不同类别的样本点尽可能地 区别开来 设R1 R2 Rk是p维空间R p的k个子集 如果它们互不 相交 且它们的和集为 则称 为 的一个划分 判别分析问题实质上就是在某种意义上 以最优的性质对 p维空间 构造一个 划分 这个 划分 就构成了一个判别规则 4 3 简述距离判别法的基本思想和方法 答 距离判别问题分为 两个总体的距离判别问题和 多个总体的判别 问题 其基本思想都是分别计算样本与各个总体的距离 马氏距离 将距离近的判别为一类 两个总体的距离判别问题 设有协方差矩阵 相等的两个总体G1和G2 其均值分别是1和 2 对于一 个新的样品X 要判断它来自哪个总体 计算新样品X到两个总体的马氏 距离D2 X G1 和D2 X G2 则 X D2 X G1 D2 X G2 X D2 X G1 D2 X G2 具体分析 记 则判别规则为 X W X X W X 0 多个总体的判别问题 设有个总体 其均值和协方差矩阵分别是 和 且 计算样本到每个总体的马氏距离 到哪个总体的距离最小就属 于哪个总体 具体分析 取 可以取线性判别函数为 相应的判别规则为 若 4 4 简述贝叶斯判别法的基本思想和方法 基本思想 设k个总体 其各自的分布密度函数 假设k个总体各自出现的概率分别为 设将 本来属于总体的样品错判到总体时造成的损失为 设个总体 相应的维样本空间为 在规则下 将属于 的样品错判为的概率为 则这种判别规则下样品错判后所造成的平均损失为 则用规则来进行判别所造成的总平均损失为 贝叶斯判别法则 就是要选择一种划分 使总平均损失达到极小 基本方法 令 则 若有另一划分 则在两种划分下的总平均损失之差为 因为在上对一切成立 故上式小于或等于零 是贝叶斯判别的解 从而得到的划分为 4 5 简述费希尔判别法的基本思想和方法 答 基本思想 从个总体中抽取具有个指标的样品观测数据 借助方差 分析的思想构造一个线性判别函数 系数可使得总体之间区别最大 而使每个总体内部的离差最小 将新样 品的个指标值代入线性判别函数式中求出值 然后根据判别一定的规 则 就可以判别新的样品属于哪个总体 4 6 试析距离判别法 贝叶斯判别法和费希尔判别法的异同 答 费希尔判别与距离判别对判别变量的分布类型无要求 二者只 是要求有各类母体的两阶矩存在 而贝叶斯判别必须知道判别变量的分 布类型 因此前两者相对来说较为简单 当k 2时 若 则费希尔判别与距离判别等价 当判别变量服从正态分布时 二者与贝 叶斯判别也等价 当 时 费希尔判别用 作为共同协差阵 实际看成等协差阵 此与距离判别 贝叶斯判别不 同 距离判别可以看为贝叶斯判别的特殊情形 贝叶斯判别的判别规则 是 X W X X W X lnd 距离判别的判别规则是 X W X X W X 0 二者的区别在于阈值点 当 时 二者完全相同 4 7 设有两个二元总体 和 从中分别抽取样本计算得到 假设 试用距离判别法建立判别函数和判别规则 样品X 6 0 应属 于哪个总体 解 即样品X属于总体 第五章 5 1 判别分析和聚类分析有何区别 答 即根据一定的判别准则 判定一个样本归属于哪一类 具体而言 设有n个样本 对每个样本测得p项指标 变量 的数据 已知每个样本 属于k个类别 或总体 中的某一类 通过找出一个最优的划分 使得 不同类别的样本尽可能地区别开 并判别该样本属于哪个总体 聚类分 析是分析如何对样品 或变量 进行量化分类的问题 在聚类之前 我 们并不知道总体 而是通过一次次的聚类 使相近的样品 或变量 聚 合形成总体 通俗来讲 判别分析是在已知有多少类及是什么类的情况 下进行分类 而聚类分析是在不知道类的情况下进行分类 5 2 试述系统聚类的基本思想 答 系统聚类的基本思想是 距离相近的样品 或变量 先聚成类 距 离相远的后聚成类 过程一直进行下去 每个样品 或变量 总能聚到 合适的类中 5 3 对样品和变量进行聚类分析时 所构造的统计量分别是什么 简要 说明为什么这样构造 答 对样品进行聚类分析时 用距离来测定样品之间的相似程度 因为 我们把n个样本看作p维空间的n个点 点之间的距离即可代表样品间的 相似度 常用的距离为 一 闵可夫斯基距离 q取不同值 分为 1 绝对距离 2 欧氏距离 3 切比雪夫距离 二 马氏距离 三 兰氏距离 对变量的相似性 我们更多地要了解变量的变化趋势或变化方向 因此 用相关性进行衡量 将变量看作p维空间的向量 一般用 一 夹角余弦 二 相关系数 5 4 在进行系统聚类时 不同类间距离计算方法有何区别 选择距离公 式应遵循哪些原则 答 设dij表示样品Xi与Xj之间距离 用Dij表示类Gi与Gj之间的距离 1 最短距离法 2 最长距离法 3 中间距离法 其中 4 重心法 5 类平均法 6 可变类平均法 其中是可变的且 1 7 可变法 其中是可变的且 1 8 离差平方和法 通常选择距离公式应注意遵循以下的基本原则 1 要考虑所选择的距离公式在实际应用中有明确的意义 如欧氏距 离就有非常明确的空间距离概念 马氏距离有消除量纲影响的作用 2 要综合考虑对样本观测数据的预处理和将要采用的聚类分析方 法 如在进行聚类分析之前已经对变量作了标准化处理 则通常就可采 用欧氏距离 3 要考虑研究对象的特点和计算量的大小 样品间距离公式的选择 是一个比较复杂且带有一定主观性的问题 我们应根据研究对象的特点 不同做出具体分折 实际中 聚类分析前不妨试探性地多选择几个距离 公式分别进行聚类 然后对聚类分析的结果进行对比分析 以确定最合 适的距离测度方法 5 5试述K均值法与系统聚类法的异同 答 相同 K 均值法和系统聚类法一样 都是以距离的远近亲疏为标 准进行聚类的 不同 系统聚类对不同的类数产生一系列的聚类结果 而K 均值 法只能产生指定类数的聚类结果 具体类数的确定 离不开实践经验的积累 有时也可以借助系统聚 类法以一部分样品为对象进行聚类 其结果作为K 均值法确定类数的 参考 5 6 试述K均值法与系统聚类有何区别 试述有序聚类法的基本思想 答 K均值法的基本思想是将每一个样品分配给最近中心 均值 的类 中 系统聚类对不同的类数产生一系列的聚类结果 而K 均值法只能 产生指定类数的聚类结果 具体类数的确定 有时也可以借助系统聚类 法以一部分样品为对象进行聚类 其结果作为K均值法确定类数的参 考 有序聚类就是解决样品的次序不能变动时的聚类分析问题 如果用表示 个有序的样品 则每一类必须是这样的形式 即 其中且 简记为 在 同一类中的样品是次序相邻的 一般的步骤是 1 计算直径 D i j 2 计算最小分类损失函数 L p l k 3 确定分类个数k 4 最优分类 5 7 检测某类产品的重量 抽了六个样品 每个样品只测了一个指标 分别为1 2 3 6 9 11 试用最短距离法 重心法进行聚类分析 1 用最短距离法进行聚类分析 采用绝对值距离 计算样品间距离阵 0 1 0 2 1 0 5 4 3 0 8 7 6 3 0 10 9 8 5 2 0 由上表易知 中最小元素是 于是将 聚为一类 记为 计算距离阵 0 3 0 6 3 0 8 5 2 0 中最小元素是 2 于是将 聚为一类 记为 计算样本距离阵 0 3 0 6 3 0 中最小元素是 于是将 聚为一类 记为 因此 2 用重心法进行聚类分析 计算样品间平方距离阵 0 1 0 4 1 0 25 16 9 0 64 49 36 9 0 100 81 64 25 4 0 易知 中最小元素是 于是将 聚为一类 记为 计算距离阵 0 16 0 49 9 0 81 25 4 0 注 计算方法 其他以此类推 中最小元素是 4 于是将 聚为一类 记为 计算样本距离阵 0 16 0 64 16 0 中最小元素是 于是将 聚为一类 记为 因此 第六章 6 1 试述主成分分析的基本思想 答 我们处理的问题多是多指标变量问题 由于多个变量之间往往存在 着一定程度的相关性 人们希望能通过线性组合的方式从这些指标中尽 可能快的提取信息 当第一个组合不能提取更多信息时 再考虑第二个 线性组合 继续这个过程 直到提取的信息与原指标差不多时为止 这 就是主成分分析的基本思想 6 2 主成分分析的作用体现在何处 答 一般说来 在主成分分析适用的场合 用较少的主成分就可以得到 较多的信息量 以各个主成分为分量 就得到一个更低维的随机向量 主成分分析的作用就是在降低数据 维数 的同时又保留了原数据的大部 分信息 6 3 简述主成分分析中累积贡献率的具体含义 答 主成分分析把个原始变量的总方差分解成了个相互独立的变量的方 差之和 主成分分析的目的是减少变量的个数 所以一般不会使用所有 个主成分的 忽略一些带有较小方差的主成分将不会给总方差带来太大 的影响 这里我们称 为第个主成分的贡献率 第一主成分的贡献率最 大 这表明综合原始变量的能力最强 而的综合能力依次递减 若只取 个主成分 则称 为主成分的累计贡献率 累计贡献率表明综合的能 力 通常取 使得累计贡献率达到一个较高的百分数 如85 以上 6 4 在主成分分析中 原变量方差之和等于新的变量的方差之和 是否正 确 说明理由 答 这个说法是正确的 即原变量方差之和等于新的变量的方差之和 6 5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区 别 答 从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同 的 从协方差矩阵 出发的 其结果受变量单位的影响 主成分倾向于多归纳方差大的变量 的信息 对于方差小的变量就可能体现得不够 也存在 大数吃小数 的 问题 实际表明 这种差异有时很大 我们认为 如果各指标之间的数 量级相差悬殊 特别是各指标有不同的物理量纲的话 较为合理的做法 是使用R代替 对于研究经济问题所涉及的变量单位大都不统一 采用 R代替 后 可以看作是用标准化的数据做分析 这样使得主成分有现实 经济意义 不仅便于剖析实际问题 又可以避免突出数值大的变量 6 6 已知X 的协差阵为 试进行主成分分析 解 0 计算得 当 时 同理 计算得 时 易知 相互正交 单位化向量得 综上所述 第一主成分为 第二主成分为 第三主成分为 6 7 设X 的协方差阵 p 为 0 p 1 证明 为最大特征根 其对应的主成分为 证明 为最大特征根 当 时 所以 第七章 7 1 试述因子分析与主成分分析的联系与区别 答 因子分析与主成分分析的联系是 两种分析方法都是一种降维 简化数据的技术 两种分析的求解过程是类似的 都是从一个协方差 阵出发 利用特征值 特征向量求解 因子分析可以说是主成分分析的 姐妹篇 将主成分分析向前推进一步便导致因子分析 因子分析也可以 说成是主成分分析的逆问题 如果说主成分分析是将原指标综合 归 纳 那么因子分析可以说是将原指标给予分解 演绎 因子分析与主成分分析的主要区别是 主成分分析本质上是一种线 性变换 将原始坐标变换到变异程度大的方向上为止 突出数据变异的 方向 归纳重要信息 而因子分析是从显在变量去提炼潜在因子的过 程 此外 主成分分析不需要构造分析模型而因子分析要构造因子模 型 7 2 因子分析主要可应用于哪些方面 答 因子分析是一种通过显在变量测评潜在变量 通过具体指标测评抽 象因子的统计分析方法 目前因子分析在心理学 社会学 经济学等学 科中都有重要的应用 具体来说 因子分析可以用于分类 如用考试 分数将学生的学习状况予以分类 用空气中各种成分的比例对空气的优 劣予以分类等等 因子分析可以用于探索潜在因素 即是探索未能观察 的或不能观测的的潜在因素是什么 起的作用如何等 对我们进一步研 究与探讨指示方向 在社会调查分析中十分常用 因子分析的另一个 作用是用于时空分解 如研究几个不同地点的不同日期的气象状况 就 用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而 判断各自的影响和变化规律 7 3 简述因子模型 中载荷矩阵A的统计意义 答 对于因子模型 因子载荷阵为 与的协方差为 若对作标准化处理 因此 一方面表示对的依赖程度 另一方面也反映了变量对公共因子 的相对重要性 变量共同度 说明变量的方差由两部分组成 第一部分为共同度 它描述了全部公共 因子对变量的总方差所作的贡献 反映了公共因子对变量的影响程度 第二部分为特殊因子对变量的方差的贡献 通常称为个性方差 而公共因子对的贡献 表示同一公共因子对各变量所提供的方差贡献之总和 它是衡量每一个 公共因子相对重要性的一个尺度 7 4 在进行因子分析时 为什么要进行因子旋转 最大方差因子旋转 的基本思路是什么 答 因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合 理解释 但有时直接根据特征根 特征向量求得的因子载荷阵难以看出 公共因子的含义 这种因子模型反而是不利于突出主要矛盾和矛盾的主 要方面的 也很难对因子的实际背景进行合理的解释 这时需要通过因 子旋转的方法 使每个变量仅在一个公共因子上有较大的载荷 而在其 余的公共因子上的载荷比较小 最大方差旋转法是一种正交旋转的方法 其基本思路为 A 其中令 的第列元素平方的相对方差可定义为 最大方差旋转法就是选择正交矩阵 使得矩阵所有m个列元素平方的相 对方差之和达到最大 7 5 试分析因子分析模型与线性回归模型的区别与联系 答 因子分析模型是一种通过显在变量测评潜在变量 通过具体指 标测评抽象因子的统计分析方法的模型 而线性回归模型回归分析的目 的是设法找出变量间的依存 数量 关系 用函数关系式表达出来 因子分析模型中每一个变量都可以表示成公共因子的线性函数与特 殊因子之和 即 该模型可用矩阵表示为 而回归分析模型中多元线性回归 方程模型为 其中 是常数项 是偏回归系数 是残差 因子模型满足 1 2 即公共因子与特殊因子是不相关的 3 即各个公共因子不相关且方差为1 4 即各个特殊因子不相关 方差不要求相等 而回归分析模型满足 1 正态性 随机误差 即残差 e服从均值 为 0 方差为 的正态分布 2 等方差 对于所有的自变量x 残差 e的条件方差为 且为常数 3 独立性 在给定自变量x的条件 下 残差e的条件期望值为0 本假设又称零均值假设 4 无自相 关性 各随机误差项e互不相关 两种模型的联系在于都是线性的 因子分析的过程就是一种线性变 换 7 6 设某客观现象可用X 来描述 在因子分析时 从约相关阵出发计算出特征值为 由于 所以找前两个特征值所对应的公共因子即可 又知 对应的正则化特征向量分别为 0 707 0 316 0 632 及 0 0 899 0 4470 要求 1 计算因子载荷矩阵A 并建立因子模型 2 计算共同度 3 计算第一公因子对X 的 贡献 解 1 根据题意 A 建立因子模型为 2 3 因为是从约相关阵计算的特征值 所以公共因子对X的 贡献 为 第八章 相应分析 8 1 什么是相应分析 它与因子分析有何关系 答 相应分析也叫对应分析 通常意义下 是指两个定性变量的多 种水平进行相应性研究 其特点是它所研究的变量可以是定性的 相应分析与因子分析的关系是 在进行相应分析过程中 计算出 过渡矩阵后 要分别对变量和样本进行因子分析 因此 因子分析是相 应分析的基础 具体而言 式表明Zuj为相对于特征值 的关于因素A各水平构成的协差阵 的特征向量 从而建立了相应分析中R型因子分析和Q型因子分析 的关系 8 2试述相应分析的基本思想 答 相应分析 是指对两个定性变量的多种水平进行分析 设有两 组因素A和B 其中因素A包含r个水平 因素B包含c个水平 对这两组因 素作随机抽样调查 得到一个的二维列联表 记为 要寻求列联表列因 素A和行因素B的基本分析特征和最优列联表示 相应分析即是通过列联 表的转换 使得因素A 和因素B具有对等性 从而用相同的因子轴同时 描述两个因素各个水平的情况 把两个因素的各个水平的状况同时反映 到具有相同坐标轴的因子平面上 从而得到因素A B的联系 8 3 试述相应分析的基本步骤 答 1 建立列联表 设受制于某个载体总体的两个因素为和 其中因素包含个水平 因素 包含个水平 对这两组因素作随机抽样调查 得到一个的二维列联表 记为 2 将原始的列联资料K kij r c变换成矩阵Z zij r c 使得zij对因素A 和列因素B具有对等性 通过变换 得 3 对因素B 进行因子分析 计算出的特征向量 及其相应的特征向量 计算出因素B的因子 4 对因素A 进行因子分析 计算出的特征向量 及其相应的特征向量 计算出因素A的因子 5 选取因素B 的第一 第二公因子 选取因素A 的第一 第二公因子 将B因素的c个水平 A因素的r个水平 同时反应到相同坐标轴的因子平面上上 6 根据因素A和因素B各个水平在平面图上的分布 描述两因素及各 个水平之间的相关关系 8 4在进行相应分析时 应注意哪些问题 答 要注意通过独立性检验判定是否有必要进行相应分析 因此在 进行相应分析前应做独立性检验 独立性检验中 因素和因素是独立的 因素和因素不独立 由上面的假设所构造的统计量为 其中 拒绝区域为 应该注意几个问题 第一 这里的是原始列联资料通过相应变换以后得到的资料阵的元 素 说明与统计量有着内在的联系 第二 关于因素和因素各水平构成的协差阵和 这里表示矩阵 的迹 第三 独立性检验只能判断因素和因素是否独立 如果因素和因素 独立 则没有必要进行相应分析 如果因素和因素不独立 可以进一步 通过相应分析考察两因素各个水平之间的相关关系
- 内容简介:
-
-
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。