版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精品文档精品文档1主成分分析的目的是什么?主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。2、主成分分析基本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来 指标。同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。设p个原始变量为Xi,X2,,X,新的变量(即主成
2、分)为 yi,; , y p ,砌为第i个主成分卅和原 棄的第j个变量旳之间的 线性相关系数,称为载 荷(loading).比如,眄 表示第4主成分和原来的 第彳个变量之间的相关系 数,衍“表示第2主成分 和原来的第1个变量之间 的相关系数主成分和原始变量之间的关系表示为?Ji =讣+ eg +十形=角1石十如兀4h 口QpE + ap2x2 + + %主成分分析的数学模型3、在进行主成分分析时是否要对原来的p个指标进行标准化? SPSS软件是否能对数据自动进行标准化?标准化的目的是什么?需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没, 导致主成分偏差较大,所以要
3、进行数据标准化;进行主成分分析时 SPSS可以自动进行标准化; 标准化的目的是消除变量在水平和量纲上的差异造成的影响。求解步骤对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响根据标准化后的数据矩阵求出相关系数矩阵求出协方差矩阵的特征根和特征向量确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国31个省市自治区2006年的6项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每张表可以得出哪些结论,进行主成分分析,找出主成分并进行适当 的解释:(下面是SPSS的输出结果,请根据结果写出结论)表一:数据输入界面ABCDEFG1人均GDF(元)财取收入 万兀)固定
4、资产投资(亿元)年耒总人口 厉人)居民消费水平社合消费晶零騎额(5c/A)(低)二2北京50467111715143295. 41531167703275.2P天S4116341704791妙51075105641356.64河北16962620534054T0. 2639343453397.45山函1412358337522255.733T548431613.46内慕古20053343377433&3. 2239758001595.37辽宁217G891767185539. £427169293434.6表二:数据输出界面a)均)p mgdn费资 定投 固产純An居费戕总
5、嗥PD 耶 人 on ati elF co00370263091w.967436706700o23 s56039692426323800387239910550387ji n-JI6067717 s9396.32766 n-J001424K 罰 s 费 BE 自 tt63A.92423977144200此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。观察各相关系数,若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析。Totnl Variance ExplahedComponentInitial EigenvaluesExtracti
6、or Sums of Squared LoadingsTotal% of VarianceCumulative %Total% ofVarianceCumulative %3.96366.05266.0523.95366.05266.0522177129.51995.570177129.51895.5703/I 282.12697.6994.0951.59999.2975.026433997206017.290100.000Extraction Method: Principal Component Analysis.表三为各成分的总解释方差表。comp on e nt为各成分的序号;ini
7、tial Eige nvalues是初始特征值,total是各成分的特征值,% of varianee是各成分的方差占总方差的百分比(贡献率)。Cumulative%是累计贡献率,表明前几个成分可以解释总方差的百分数。Extraction sums是因子提取结果。一般来说,当特征根需大于1,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分。由表可知,第一个主成分的特征根为3.963,方差贡献率为66.052%,这表示第一个主成分解释了原始6个变量66.052%的信息,可以看出前两个成分所解释的方差占总方差的95.57%,仅丢失了 4.43%的信息。因此最后结果是提取两
8、个主成分。在extraction sums of squared loadings 栏,自动提取了前两个公因子,因为前两个公因 子就可以解释总方差的绝大部分95.6%。表四是表示各成分特征值的碎石图。可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大。而因子 3、4、5之间的特征值差值都比较小,可以初步得出保留两个因子将能概括绝大部分信息。明显的拐点为 3,因此提取2个因子比较合适。证实了表 三中的结果。碎石图(Scree Plot),从碎石图可以看到 6个主轴长度变化的趋势。 实践中,通常选择碎 石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即
9、可。Coniponent Mjfrix3Component12人均GDP.670.725财瑚攵入.976.055固定资产投资.896-.351年末总人口.633-.728居民消费水平.674.721社会消费品零售总额.950-.263Extraction Method: Principal ComponentAnaiysisa. 2 components extracted.表五是初始提取的成分矩阵,它显示了原始变量与各主成分之间的相关系数,表中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aj。比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一
10、个变量(人均GDP)之间的线性相关系数。这个系数越大,说明主成分对该变量的代表性就越大。第一主成分(component 1)对财政收入,固定资产投资,社会消费品零售总额有绝对 值较大的相关系数;第二主成分(component 2)对人均gdp,年末总人口,居民消费水平有 绝对值较大的相关系数。可以分另恻其进行命名。« =0.670% +0.976X2 +0.896x3 +0.633X4 +0.674X5 +0.950x6y2 U0.725X! +0.055x2 0.351x3 -0.728x4 +0.721x5 0.263x6版本一:根据我国 31个省市自治区2006年的6项主要经济
11、指标数据,进行因子分析,对 因子进行命名和解释,并计算因子得分和排序。表一数据输入界面:ABCDEFG1地区人均GDP元)财政收入 (万兀)固定资产投资(亿元)年末总人口 厉人)居民消费水平 阮从)社合消费品零昔总额亿元)2北京5O45T111715143296.41581167703275.23:天it4116341704791020 5107510564139.84:河北1696262053405470.268934945339T,45山西1412358337522255.733754S431613.46:内萤古20D5334337743363.2239758001595.37:辽宁217
12、8881767185689.6427169293434.6表二因子分析SPSS输出界面a)KMO and Bdifletl's TestKaiser-Meyer*Olkin Measure of Sampling Adequacy695Bartlett's Test ofApprox. Chi-Sciuare277 025Sphericitydf15Sig.000KMO统计量为0.695,接近0.7,表明6个变量之间有较强的相关关系。适合作因子分析。 Bartlett球度检验 统计量为277.025。检验的P值接近0,拒绝原假设,认为相关系数与单 位阵有显著差异。可以因子分析。
13、表三因子分析SPSS输出界面b)CoiniininalitiesInitialExtraction人均GDP1.000.975财现攵入1.000.956固軽产投瓷1 000.927年末总人口1.000.930居民消费水平1 000.974社会消费品零售总额1 000.972Extraction Method: Principal Component Aralysis.表三为公因子提取前和提取后的共同度表,initial列提取因子前的各变量的共同度;extraction列是按特定条件(如特征值>1 )提取公因子时的共同度,表中的共同度都很高,说明提取的成分能很好的描述这些变量。所有变量的共
14、同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的。变量Xi的信息能够被k个公因子解释的程度 表四因子分析SPSS输出界面c)nitial EigervaluesExtraction Sums of Squared LoadingsRotation Sums ot SquaredLoadingsComp QnentTotalV 讲ionceCumlative %Total% of VarianceCumulative%Total% of VarianceCumulative %13 96366J05266.0523J96366.05266.0523d 9753.2945
15、328421.7712951B95.570'-129.518955702.53742.296S557031282.12897.6984.09515S999.2675.026.43399.7206017280IOOjOOOExlraction Method: Principal Component Analysis.表四为各成分的总解释方差。 Component表示按特征值大小排序的因子编号。Initial下分别给出了相关系数矩阵的特征值、方差贡献率和累计方差贡献率。Extraction是所提取的公因子未经旋转情况下的特征值,方差贡献了和累计方差贡献率。Rotation项下是旋转后的。“
16、 Rotation Sums of Squared Loadings部分是因子旋转后对原始变量方差的解释情况。旋转后 的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。95.57%表明提取的两个公共因子的方差可以解释总方差的95.57%。第j个公因子对变量Xi的提供的方差总和,反映第 j个公因子的相对重要程度Rotated Component MJrtiix*Component12人均GDP112.931财政收入.755.622固宦资产投浇.931.247年末总人口.941-.213居民消费水平.117.380社会消费品零售总颔922349Extraction MetTio
17、d: Principal Component AnalysisRotati n Method: Varimaxwith Kaiser Normalization.Rotation converged in 3 Iterations.旋转后成分矩阵。第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这几个载荷系数较大,主要解释了这几个变量。从实际意义上看,可以把因子1姑且命名 为“经济水平”因子。而第二个因子与人均GDP、居民消水平这两个变量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑且命名为“消费水平”因子i=0.112£+ 0.981f.:=0
18、.755Z+ 0.6223 二 0.931/i+ 0.247A4 = 0.941-0.2135 二 0.117+ 0.9806 = 0.922z+ 0.349表达式中的Xj己经 不是原始变量,而 是标准化变量子分析的数学模型Scoi e Coefficieirt M<itn ixComponent12人坨GM-.1 05.430财政收入.1 80J 71固定浇产投资.300-.026年末穆人口.372-.237居民消赞水平-.1 04.429社会消费品零售怠颤.201.022Extraction Method!: FriniCiipal CorrnpOini©nt Analys
19、is.Roistion Metliotli varimax with Kaiser Normalization.表五是因子得分系数矩阵。根据因子得分和原始变量的标准化值可计算每个观测量的各因子 的分数。 由因子得分系数矩阵,可以将公因子表示为a得到的因子得分函数为£ =-0J05 +0.180i2 +0.300可 +O.372x4 -0.104x5 +0.28 lx6 f2 =0A30x1 +0.171x2-0.026x3 -0237x4+0,429,r5 +0.022x6因子得分函数上面表达式中的為标淮代变量.根据这一表达式便可以计算每个地区对应 的第一个因子和第二个因子的取值也称
20、为因子得分(factor score), 有了因子得分*就可以对每个地区分别按照前面命名的“经济水平戶 因子和“消费水平刁因子进行评价和排序4、因子分析基本思想?因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具 有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的基本思想是根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量可以分解为两部分之和的形式,一部分是少数几个不可测的所谓公共
21、因子的线性函数,另一部分是与公共因子无关的特殊因子。x x x设p个原始变量为2, k,要寻找的m个因子(mvk)为仃,f2,,fm ,因子和原始变量之间的关系表达式为?x!=叭人 州 f2 aim fm ' eiX2 = a21 f1 a22f2a2m fm e2xk _ ak1 f1ak2 f2akm fm em系数a为第个i变量与第k个因子之间的线性相关系数,反映变量与因子之间的相关程度,也称为载荷(loading)。由于因子出现在每个原始变量与因子的线性组合中,因此也称为公因子。为特殊因子,代表公因子以外的因素影响5、因子分析的目的是什么?因子分析是从多个变量指标中选择出少数几
22、个综合变量指标,以较少的几个因子反映原始资料的大部分信息的一种降维的多元统计方法。求解步骤1)对原始数据标准化2)建立相关系数矩阵 R (因子提取)3)求R的单位特征根 入与特征向量U ;4)因子旋转求因子载荷矩阵 A ;5)写出因子模型X=AF+E6)建立因子得分矩阵 P7)写出因子得分模型 F=P'X(因子提取的方法:主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因 子法;旋转方法为:方差最大正交旋转、四次方最大正交旋转、平方最大正交旋转、斜交旋 转、Promax :该方法在方差最大正交旋转的基础上进行斜交旋转)6、什么是变量共同度?写出变量共同度的表达式。变量Xi的
23、信息能够被k个公因子解释的程度,用k个公因子对第i个变量人的方差贡献率表示mp222222Di = ai! + ai2 + aim =无 aijhi =昱 aij (j =1,2, , k)j吕i7、什么是公共因子方差贡献率?写出公共因子方差贡献率表达式。第j个公因子对变量Xi的提供的方差总和,反映第 j个公因子的相对重要程度kg:八 a2 (i =1,2,-, p)jm8因子分析中 KMO检验主要检验什么?KMO越接近1,变量间的相关性越强KMO在0.8以上,说明该问题适合做因子分析。KMO统计量在0.7以上时,因子分析效果较好;KMO统计量在0.5以下时,因子分析效果很差KMO ( Kai
24、ser-Meyer-Olkin) 检验统计量是用于比较原始变量间简单相关系数和偏相 关系数的指标。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1,KMO越接近1,变量间的相关性越强。当所有变量间的简单相关系数平方和接 近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适 合作因子分析。Kaiser给出了常用的 kmo度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。Bartlett球度检验:以变量的相关系数矩阵为基础,假设相关系数矩阵是单位阵(对角线元素 不为0,非对角线元素
25、均为 0)。如果相关矩阵是单位阵,则各变量是独立的,无法进行因子 分析。9、因子分析中公因子个数确定的依据是什么?用公因子方差贡献率提取:一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该公因子的解释力度太弱,还不如使用原始变量的解释力度大碎石图中变化趋势出现拐点的前几个主成分10、因子分析中因子旋转(factor rotation)的目的是什么? 什么是因子得分(factor score)?因子旋转的目的 使得因子载荷系数尽可能两极分化,使因子载荷系数向_1或0靠近,使得某一个变量值在某一个因子上的载荷系数大
26、,从而更清楚地看出各因子与原始变量的相关性大小,使因子的含义更加清楚,以便于对因子的命名和解释。因子得分 就是每个观测量的共同因子的值。根据因子得分系数和原始变量的标准化值可以计算每个观测量的各因子的分数,因子得分=x1*对应权重+x2*对应权重+xn*对应权重,根据因子得分我们可以写出因子表达式。二32X2bpXpPiXi F22X2b2pXp-bkiXi - bk2X2 -bkpXp因子得分是各变量的线性组合11、简述因子分析与主成分分析的区别。主成分分析和因子分析是两种把变量维度降低以便于描述、理解和分析的方法。1在SPSS分析中,因子分析必须进行因子旋转,主成分分析不一定要旋转。故公共
27、因 子往往可以找到实际意义,而主成分一般不能解释实际意义;2因子分析法是对你所分析的变量的抽取(因子),主成分分析法是对你所分析的变量的概括(指标);3因子模型中除了公共因子还有特殊因子,公共因子只解释了原变量的部分方差,而主成分解释了原变量全部方差;4因子分析是把变量表示成各因子的线性组合,而主成分则是把主成分表示成各变量的线性组合;5主成分分析中不需要有一些专门假设,因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关, 共同因子和特殊因子之间也不相关;6提取主因子的方法不仅有主成分法,还有极大似然法,基于这些不同算法得到的结果一般也不同。而主成分只能用
28、主成分法提取;7主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋转得到不同的因子;8在因子分析中,因子个数需要分析者指定 (spss根据一定的条件自动设定, 只要是特 征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分 的数量是一定的,一般有几个变量就有几个主成分。12、聚类分析基本思想及分类聚类分析就是按照对象之间的相似”程度把对象进行分类。聚类分析的对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量。对样品的分类称为 Q型聚类;对变量的分类,则称为R型聚类Q聚类是根据被观测对象的
29、各种特征,即反映被观测对象的特征的各变量值进行分类。R聚类是根据所研究的问题选择部分变量对事物的某一方面进行研究。按对象的相似”程度分类对变量进行聚类可以用夹角余弦、Pearson相关系数等工具,也称为相似系数对样本聚类则使用距离”求解步骤1)先对数据进行变换处理,消除量纲对数据的影响;2)认为各样本点自成一类(即n个样本点一共有n类),然后计算各样本点之间的距离, 并将距离最近的两个样本点并成一类;3)选择并计算类与类之间的距离,并将距离最近的两类合并;4)重复上面作法直至所有样本点归为所需类数为止;5)最后绘制聚类图。13、相似性的度量1)在对样本进行分类时,度量样本之间的相似性使用点间距
30、离。欧式距离p(Xi -yi)2V 7绝对值距离pzi 7xi - yj切比雪夫距离maxxi - yi明氏距离xi - Yiq兰氏距离2)在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有夹角余弦送Xj%cosxv = i |任忍y2Pearson相关系数迟(x -刃(Yi -Ysixy 店(x -刃2迟(yy)2夹角余弦,如果Xi与Xj比较相似,则他们的夹角接近0,从而COSxy接近1。Pearson相关系数,相关系数越接近于1或-1,越相似;彼此无关的变量,他们的相关系数接近0。15、系统聚类和快速聚类的特点分别是什么?(版本一)系统聚类事先不确定要分多少类,而是先把每一个
31、对象作为一类,然后一层一层进行分 类。根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样, 只是方向相反。快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的类别中。类别数目的确定具有一定的主观性,究竟分多少类合适,取决于研究者对研究问题的了解程度、相关知识和经验。快速聚类特点:处理速度快,占用内存少,适用于大样本的聚类分析。16、七个样品之间的相似系数矩阵如下,试对这七个样品进行聚类,并画出谱系图。12345671广120.51130.940.83140.810.910.86150.970.010.540.74160.200.670.920.150.52
32、170240.410.200.300.160.241答案:X1X5X3X2X4X6X717、层次聚类法(合并法和分解法)计算类间距离有多种方法,试写出两种方法。最短距离袪 (Nearest neighbor)Dki min </尤泻巧£旳 7最长距离袪 (Furthest neighbor)Dtl = max普3卢g 7重心袪(Centroid clustering)-XfUlc 旳)组间平均距离(Between-groups linkage)离差平方和袪 (Ward's method)最短距离法(最近邻法):首先合并最近的或最相似的两类,用两类间最近点的距离代 表两类
33、之间的距离。最长距离法:用两类间最远点的距离代表两类之间的距离。重心法:用两类重心之间的距离表示两类之间的距离。组间平均距离法:SPSS默认,是用两类中间各个数据点之间的距离的平均来表示两类 之间的距离,既不是最大距离也不是最小距离。离差平方和距离法:常用,使各类别中的离差平方和较小,而不同类别之间的离差平方 和较大。18、K-均值聚类是针对样品(CASE )的聚类还是针对变量的聚类?K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。19、判别分析简述Fisher's判别的原理。建立 Fisher判别函数的准则是什么?再进行分类(Fisher判别,亦称典则
34、判别,是将自变量投影到较低维度的空间,相当于将自变量先提取几个主成分,只需根据主成分分类。Fisher准则:使得综合指标Z在A类的均数ZA与在B类的均数ZB的差异ZA _ZB尽可能大,而两类内综合指标 Z的变异sA - sB尽可能小) 解读spss输出结果。判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数 据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。求解步骤Step 01计算需要用到的一些反映样品特征的值,比如均值、协方差 阵*等等.根据一定的原则建立判别函数V = C1.T|-K2,V3 + + 为 判别函数的一骰形式,建立判别函数就是要
35、确定这些系数.确定判别准则.有的判别准肌需要计算一些判别时用到的参 数,比如阿对吨判别需要计算临界值.对待判样昌判别归类*20、常用判别方法1) 距离判别法:基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待 判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。判别函数为:W(x)=D(x,G2)-D(x,G1)X G ,当 W(x) 0x G2 ,当 W(x) :0判别准则为:待判,当W(x)=°注意:距离一般采用马氏距离; 适合对自变量均为连续变量的情况进行分类;对各类的分布无特定的要求。2) Fisher判别法:基本思想是通过将多维数据投影至某个方向上
36、,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。所谓的投 影实际上是利用方差分析的思想构造也一个或几个超平面,使得两组间的差别最大, 每组内的差别最小。费歇尔判别函数为:y =(Xi -X2)跖xx:=Gyy2,yy°xG2yiy2,y:y。xG2%:y2, yy其判别准则是xGy:y2, y:y°Fisher判别对各类分布、方差都没有限制。但当总体个数较多时,计算比较麻烦。建立Fisher判别函数的准则是:使得综合指标Z在A类的均数ZA与在B类的均数 ZB的差异ZA -ZB尽可能大,而两类内综合指标Z的变异SA +SB尽可能小
37、3) Bayes判别法:基本思想是:设有两个总体,它们的先验概率分别为q1、q2,各总体的密度函数为f1(x)、f2(x),在观测到一个样本 x的情况下,可用贝叶斯公式计算它来自第k个P(Gk/x) = 2qkfk(x)k=1,2送 qkfk(x)总体的后验概率为:k 4一种常用判别准则是:对于待判样本X,如果在所有的 P(Gk/x)中P(Gh/x)是最大的,则判定x属于第h总体。通常会以样本的频率作为各总体的先验概率。Bayes判别主要用于多类判别,它要求总体呈多元正态分布4) 逐步判别法:逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考
38、虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。21、对Bayes判别法与Fisher判别法作比较(1) (2) (k)(1) 当k个总体的均值向量 x ,x ,x 共线性程度较高时,Fisher判别法可用较 少的判别函数进行判别,因而比Bayes判别法简单。另外,Fisher判别法未对总体的分布提 出什么特定的要求。(2) Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。而这不足恰是Bayes判别法的优点,但值得指出的是,如果给定的
39、先验概率不符合客观实际时,Bayes判别法也可能会导致错误的结论。22、简述判别分析与聚类分析的区别。判别分析 已知研究对象分为若干个类别,并且已经取得每一类别的若干观测数据,在此基 础上寻求出分类的规律性,建立判别准则,然后对未知类别的样品进行判别分类。聚类分析一批样品划分为几类事先并不知道,需要通过聚类分析来给以确定分几种类型。 判别分析与聚类分析不同点在于,判别分析要求已知一系列反映事物特征的数值变量的值, 并且已知各个体的分类。28、K-均值聚类是否需要在聚类之前先做标准化处理?K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。各变量的取值不应有数量级上的
40、过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,尔后再进行聚类)各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时, 就加大了它们的贡献,而其他变量则相对被削弱33、简述多元线性回归中,写出两种多重共线性的诊断方法和解决方案。诊断方法:检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。如果出现下列情况,暗示存在多重共
41、线性模型中各对自变量之间显著相关当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 回归系数的正负号与预期的相反。解决方案:将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关;如果要在模型中保留所有的自变量,则应避免根据t统计量对单个参数进行检验;对因变量值的推断(估计或预测)的限定在自变量样本值的范围内。34、一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数 x3和固定资产投资额 x4的线性回归方程,并解释各回归系数的含 义AB
42、cDEFG 11SUMMARY OUTPUT23回归蛻计4Multiple R0. 09315R Squar e:0. 79766Adjusted R Sqmmre0.75717标唯俣差1 7TB88观测值2S910方差分析11dfssMSFSiii f i cance F12回归斗249 371262.342819 TWO1.O354E-0E13残差2063.2T923.164014总计24312.&5041516Coeffi eients标准误差t StatF-valueLower 95養Upptr 95%17Intsrcept-1 02160.7824-1.30580.2064-
43、2. EB3B0.S10418X Variable 10. 04000.01043.83750.00100,01330.061819X Variable 20. 1480o.oree1.8T670.0749-0.01630 312420X Vurible 30. OUS0.08300. LT500.3629-0.15870. 187721X Variable 4-0.02SE0.0151-1 3680 0&70-0.06060.0022上表是计算机输出的结果。试写出多元线性回归模型,并进行统计学检验。概述表中,看到 R Square=0.7976, Adjusted R Square=
44、0.7571表示模型的拟合优度很好。方差分析表中,对方程的显著性检验F对应的sig=1.035E-06,小于0.05,说明回归方程有统计意义。Coefficients是各个变量的系数,由P-value值可以判定,只有变量1的p-value小于0.05,说明变量1与因变量y有显著相关关系。回归模型:Y=0.04*X Variable 1-1.0216.38、简述logistic回归的原理和适用条件。Logistic回归,是指因变量为二级计分或二类评定的回归分析。因变量Y是一个二值变量自变量X1 , X2 ,XmP表示在m个自变量作用下事件发生的概率。1P(y " xi,x2Xm) = i e”。1x7-冷适用条件:因变量只有两个值,发生(是)或者不发生(不是)。自变量数据最好为多元正态分布,自变量间的共线性会导致估计偏差。实际上属于判别分析,因拥有很差的判别效率而不常用。适用于流行病学资料的因素分析(验室中药物的剂量-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山西运城农业职业技术学院单招综合素质考试题库带答案详解(综合卷)
- 2026年山西管理职业学院单招职业技能考试题库附答案详解(突破训练)
- 2026年广州铁路职业技术学院单招职业技能考试题库附答案详解(模拟题)
- 2026年广东工贸职业技术学院单招职业倾向性测试题库带答案详解(培优b卷)
- 2026年山西省晋城市单招职业倾向性考试题库含答案详解(满分必刷)
- 2026年广西交通职业技术学院单招综合素质考试题库附答案详解(综合题)
- 2026年广东南华工商职业学院单招职业适应性考试题库附答案详解(a卷)
- 2026年广东水利电力职业技术学院单招职业技能测试题库及答案详解一套
- 2026年广东茂名农林科技职业学院单招职业适应性考试题库附答案详解(培优b卷)
- 2026年平凉职业技术学院单招职业适应性考试题库带答案详解(精练)
- Unit 1 Time to relax(复习课件)英语新教材人教版八年级下册
- 低压电工证理论试题库及答案
- 起重司索信号工培训课件
- 肥胖患者麻醉管理专家共识(2025版中国麻醉学指南与专家共识)
- 2025年智能窗帘电机静音五年技术评估报告
- 2026年湖南城建职业技术学院单招职业技能考试备考试题带答案解析
- 焦化厂电工培训课件教学
- 纪念币反假培训课件
- 《建筑结构检测技术标准》
- 2026年南京交通职业技术学院单招职业倾向性测试题库带答案详解
- 2026我的寒假我做主-寒假生活主题班会
评论
0/150
提交评论