应用多元统计分析实验报告_第1页
应用多元统计分析实验报告_第2页
应用多元统计分析实验报告_第3页
应用多元统计分析实验报告_第4页
应用多元统计分析实验报告_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元统计分析实验报告学院名称 理学院 专业班级 应用统计学14-2 学生姓名 张艳雪 学 号 1 第一章 多元正态分布1.1 从某企业全部职工中随机抽取一容量为6的样本,该样本中个职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示:职工编号目前工资(美元)受教育年限(年)初始工资(美元)工作经验(月)12345657000420021450219004500028350151612815827000187501200021000120001443638119013826设职工总体的以上变量服从多元正态分布,根据样本资料利用SPSS软件求出均值向量和协方差矩阵的最大似然估计。注1:最大

2、似然估计公式为: ,;一SPSS操作步骤:第一步:利用spss建立数据集第二步:分析-描述统计-描述 计算样本均值向量第三步:分析-相关-双变量 计算样本协方差阵与样本相关系数二输出结果:描述性统计量均值标准差N目前工资29650.0018763.4756受教育年限12.333.6156初始工资37125.0046827.2766工作经验152.50129.2106相关性目前工资受教育年限初始工资工作经验目前工资Pearson 相关性1.184-.126.042显著性(双侧).727.812.937平方与叉积的和.00062500.000-.000.000协方差.00012500.000-.0

3、00.000N6666受教育年限Pearson 相关性.1841-.510-.077显著性(双侧).727.302.885平方与叉积的和62500.00065.333-.000-179.000协方差12500.00013.067-86250.000-35.800N6666初始工资Pearson 相关性-.126-.5101.114显著性(双侧).812.302.829平方与叉积的和-.000-.000.000.000协方差-.000-86250.000.000.000N6666工作经验Pearson 相关性.042-.077.1141显著性(双侧).937.885.829平方与叉积的和.000

4、-179.000.00083475.500协方差.000-35.800.00016695.100N6666三实验结果分析:样本均值为 样本的协方差 如此就可以按照极大似然估计方程: ,得出均值向量与协方差向量的最大似然估计结果。第三章 聚类分析3.1 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K均值法利用SPSS软件分别对这些公司进行聚类,并对结果进行比较分析。公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7

5、890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.43101.160.010.5443.7

6、1001.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.311002.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.052.14115.95123.4115-24.18-1.160.7956.2697.84.81-533.89-27.74一、实验原理:1.系统聚类的基本思想是:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离

7、相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据。2.K-均值聚类法:K-均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。二SPSS操作步骤:(一)系统聚类基本操作步骤如下:1.点击分析分类系统聚类,进入系统聚类对话框。2.将净资产收

8、益率、每股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。输出框中保持默认选项,选中统计量和图。3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。4.最后点击确定按钮,得系统聚类结果。(二)K-均值法基本操作步骤如下:1. 点击分析分类K-均值聚类,进入K-均值聚类对话框。2.将净资产收益率、每

9、股净利润、总资产周转率、资产负债率、流动负债比率、每股净资产、净利润增长率、总资产增长率8个变量选入变量框中,将公司编号选入标注个案框中。根据系统聚类的结果,聚类数改为3,其他部分保持默认选项。3.迭代部分保持默认选项,点击继续按钮;点击保存按钮,选中聚类成员、与聚类中心的距离,点击继续按钮;选项部分中保持默认选项,点击继续。 4.最后点击确定按钮,得K-均值聚类结果。三输出结果:系统聚类法:表1 案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比12100.00.012100.0a. 平方 Euclidean 距离 已使用b. 平均联结(组之间)表2 聚类表阶群集组合系数首次出现阶群

10、集下一阶群集 1群集 2群集 1群集 2169363.2800022261189.69701332121492.5322044243976.32830552107995.87440767149315.36000871213588.43405881728034.8797699111.98980101018.326901111113.8611000K均值法:表3 初始聚类中心聚类123净资产收益率95.7911.1230.22每股净利润-5.20-1.69.16总资产周转率.50.12.40资产负债率252.34132.1487.36流动负债率99.34100.0094.88每股净资产-5.42-

11、.66.53净利润增长率-9816.52-4454.39729.41总资产增长率-46.82-62.75-9.97表4 迭代历史记录a迭代聚类中心内的更改1231.000.000834.1342.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 2。初始中心间的最小距离为 5184.300。表5最终聚类中心聚类123净资产收益率95.7911.126.48每股净利润-5.20-1.69.08总资产周转率.50.12.39资产负债率252.34132.1471.48流动负债率99.34100.0092.06每股净资产-5.

12、42-.661.90净利润增长率-9816.52-4454.39-103.94总资产增长率-46.82-62.7511.91表6 每个聚类中的案例数聚类11.00021.000313.000有效15.000缺失.000四,实验结果分析:(一)系统聚类法:表2聚类表是对每一阶段聚类结果的反应。图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。如果选择分为2类,分类结果为:13号公司单独一类,1-12号公司为一类;如果选择分为3类,分类结果为:13、1、14、2、3、4、5、6、7、8、9、10、11、12、15。由表中数据可以发现,13号公司资产负债率最高,净利润

13、增长率最低,1号和14号公司的主要财务指标都比较好,可以认为系统聚类根据经营情况对公司进行分类的。(二)K均值法:表3出始聚类中心,表示最初种类的重心,也就是种子点。表5最终聚类中心,表示K-均值聚类之后各类的重心,可以看到,1类资产负债率高,净利润增长率低,3类各项指标值都比较好。由数据集输出结果知分类结果为:1类13、2类8、3类1、2、3、4、5、6、7、9、10、11、12、14、15。与系统聚类的结果不完全相同,K-均值聚类将8号公司单独作为一类。由数据表可以发现8号公司资产负债率较高,净利润增长率较低,与其他公司之间有较大差别,单独分为一类也比较符合实际。3.2 下表是2003年我

14、国省会城市和计划单列市的主要经济指标:人均GDP(元)、人均工业产值(元)、客运总量(万人)、货运总量(万吨)、地方财政预算内收入(亿元)、固定资产投资总额(亿元)、在岗职工占总人口的比例()、在岗职工人均工资额(元)、城乡居民年底储蓄余额(亿元)。试利用SPSS软件进行系统聚类分析,并比较何种方法与人们观察到的实际情况较接近。城市北京31886331683052030671593200037.8253126441天津264334373235073467920593418.8186481825石家庄15134131591184310008494169.5123061044太原157521583

15、12975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈阳23268154466612146368155714.8149611423大连2914527615110012108111140714.7175601310长春18630210456999108924629412.513870831哈尔滨148257561645895187642317.7124511154上海4658677083721263861899227421.0273056055南京2754743853167901480513679415.422190

16、1134杭州3266749823213491681515071711.8246671466宁波3254347904249381379713955510.9236911060合肥106211171460344641362458.313901359福州2228121310968082506737611.815053876厦门5359093126444130557023838.619024397南昌142219205572844543121011.013913483济南23437226345810143547642913.516027758青岛2470535506146663055312054814

17、.515335908郑州16674140231070978476637312.7135381048武汉212781708311882166108062317.4137301286长沙15446887310609106316043410.016987705广州48220554042975128859275108925.1288053727深圳10989679329187569.6310532199南宁8176339070165893361708.313171451海口1644214553132843304129916.514819284重庆71905076582903245016211876.5

18、124401897成都17914928972793287989078811.9152741494贵阳11046103501851153184023115.812181345昆明16215116015126123386034214.614255709西安1314089131141393926544615.9135051211兰州1445917136220955812120318.013489468西宁706656052788203787610.114629175银川1178711013214621271213421.913497193乌鲁木齐22508171372188127544118026.

19、116509420南宁31886331683052030671593200037.8253126441海口264334373235073467920593418.8186481825资料来源:中国统计年鉴2004一、实验原理:系统聚类的基本思想:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据二SPSS操作步骤:1.点击分析分类系统聚类,进入系统聚类对话框。2.将

20、x1、x2、x3、x4、x5、x6、x7、x8、x9,9个变量选入变量框中,将城市选入标注个案框中。输出框中保持默认选项,选中统计量和图。3.统计量部分保持默认选项,点击继续按钮;点击绘制按钮,进入系统聚类-绘制对话框,选中树状图,其他部分保持默认,点击继续按钮;点击方法按钮,进入聚类分析-方法对话框,转换值框中标准化选择Z得分,聚类方法中有7种方法可供选择,分别进行选择,其他部分保持默认选项,点击继续按钮;保存部分保持默认选项,点击继续按钮。4.最后点击确定按钮,得系统聚类结果。经过比较得类平均法的组间联接法的结果与人们观察到的实际情况较接近,输出结果见表1、表2,图1、图2。三输出结果:表

21、1 案例处理摘要a案例有效缺失合计N百分比N百分比N百分比37100.0%00.0%37100.0%a. 平方 Euclidean 距离 已使用表2 聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 21237.00000282136.000003231417.08100441425.11830115830.11900862031.1420097532.23400158815.26950139920.270061410621.2800021111433.3064022121213.311001913818.33980161439.409091815534.440702216

22、822.49613018172629.53000241838.610141621191112.6570122920435.73900262136.76218102522514.79215112423719.9460028245261.06322172525351.41921242626341.9582520302727282.425003428272.59412329292114.48628193030236.284292631312169.911300343212310.71920333311019.305320353422720.888312735351242.47833343636124

23、100.4223500图1 冰状图图2 树状图四实验结果分析:表2聚类表是对每一阶段聚类结果的反应。如第一行表示,第一阶段时第二个样品(天津)与第37个样品(海口)聚为一类,其他以此类推。图1冰状图,图2树状图,是反应样品聚类情况的图,从图中可以由分类个数得到分类情况。如果选择分为2类,分类结果为:深圳单独一类,其他城市为一类;如果选择分为3类,分类结果为:1类深圳、2类北京、南宁、广州、上海、3类其他城市为一类。由表中数据可以发现,深圳各项经济指标都比较好,且人均GDP远高于其他各城市,所以单独聚为一类,北京、南宁、广州、上海各项经济指标在全国各省份地区的平均水平之上,故聚为一类。可以从经济

24、发展水平来理解所做的分类,1类是经济最发达的地区,2类是经济比较发达的地区,3类是经济发展水平一般的地区。第四章 判别分析4.1 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其它债务(X8)等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据。 根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则; 某客户的如上情况资料为(53,1,9,18,50

25、,11.20,2.02,3.58),对其进行信用好坏的判别。目前信用好坏客户序号已履行还贷责任123172316.600.341.712341173598.001.812.913422723414.600.94.9443911954813.101.934.36535191345.000.401.30未履行还贷责任6371132415.101.801.827291131427.401.461.6583221167523.307.769.72928223236.400.191.2910261432710.502.47.36一、实验原理:1.费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要

26、求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。2.当k=2时,若,则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。3.当,时,费希尔判别用作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。4.距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是。贝叶斯判别的判别规则是。二者的区别在于阈值点。当时,。二者完全相同。二SPSS操作步骤:判别分析的基本操作步骤如下:1.点击分析分类判别,进入判别分析对话框。2.类别y选入分组变量框中,定义范围,最小值为1,最大值为2,将x1、x2、x3、x4、x5、x

27、6、x7、x8,8个变量选入自变量框中,其它选项保保持默认。3.点击统计量按钮,进入判别分析-统计量对话框,选中均值、组内相关、函数系数部分选中Fisher、为标准化,点击继续按钮;点击分类按钮,进入判别分析-分类对话框,选中摘要表、合并组,其他部分保持默认,点击继续按钮;点击保存按钮,进入判别分析-保存对话框,选中预测组成员,点击继续按钮。4.最后点击确定按钮,得判别分析结果。(1)建立判别函数。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据,用1代表已履行还贷责任,用2代表未履行还贷责任,定义新的变量y类别。三输出结果及结果分析:表1 特征值函数特征值方差的 %累积 %正则相关性

28、17.422a100.0100.0.939a. 分析中使用了前 1 个典型判别式函数。表2 Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1.1198.5238.384表3 标准化的典型判别式函数系数函数1x1-.190x23.344x3.968x4-2.358x5.418x63.869x71.694x8-6.847表4 典型判别式函数系数函数1x1-.032x26.687x3.173x4-.357x5.024x6.710x7.792x8-2.383(常量)-10.794非标准化系数结果分析表1特征值表,反应判别函数的特征根、解释方差的比例和典型相关系数。 表

29、2 Wilks 的 Lambda表,是对两个判别函数的显著性检验。认为第一个判别函数在0.05的显著性水平上没有通过显著性检验。表3标准化的典型判别式函数系数, 表4典型判别式函数系数,分类统计量输出结果:表5 分类处理摘要已处理的10已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中10表6 组的先验概率目前信用好坏先验用于分析的案例未加权的已加权的1.50055.0002.50055.000合计1.0001010.000表7 分类函数系数目前信用好坏12x1.340.184x294.070126.660x31.0331.874x4-4.943-6.681x52.9693.086x6

30、13.72317.182x7-10.994-7.133x8-37.504-49.116(常量)-118.693-171.296Fisher 的线性判别式函数表8 分类结果a目前信用好坏预测组成员合计12初始计数15052055%1100.0.0100.02.0100.0100.0a. 已对初始分组案例中的 100.0% 个进行了正确分类。结果分析表5分类处理摘要表,概括了分类过程,说明10个观测值都参与分类。表6组的先验概率表,说明各组的先验概率,此处在分类选项中选择所有组的先验概率相等。表7分类函数系数,是每组的分类函数,也称费歇尔线性判别函数。表8分类结果表,可以发现,没有发生误判,判别准

31、确率很高。 某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。将该客户作为11号,将该客户的资料输入数据集数据视图窗口,重复以上操作,进行判别分析,输出结果见表9。表9 判别结果客户序号所属类别判别类别1112113114115116227228229221022111由表9得,11号客户的被判别为1类。4.2 从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行四项生化指标的化验:血清铜蛋白(X1)、蓝色反应()、尿吲哚乙酸和中性硫化物,数据见下表。试用距离判别法建立判别函数,并根据此判别函数对原样本进行回判。类别病人序号 胃

32、癌患者12281342011224513410403200167122741701507851001672014 萎缩性胃炎患者622512571471301006128150117769120133102610160100510 非胃炎患者1118511551912170125641316514253141351082121510011772一实验原理:按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。二SPSS操作步骤:打开SPSS软件,在数据窗口依次定义变量,并输入以上数据,用1代表胃癌患者,用2代表萎

33、缩性胃炎患者,用3代表非胃炎患者,定义新的变量y类别。判别分析的基本操作步骤如下:1.点击分析分类判别,进入判别分析对话框。2.类别y选入分组变量框中,定义范围,最小值为1,最大值为3,将x1、x2、x3、x4,4个变量选入自变量框中,其它选项保保持默认。3.点击统计量按钮,进入判别分析-统计量对话框,选中均值、组内相关、函数系数部分选中Fisher、为标准化,点击继续按钮;点击分类按钮,进入判别分析-分类对话框,选中摘要表、合并组,其他部分保持默认,点击继续按钮;点击保存按钮,进入判别分析-保存对话框,选中预测组成员,点击继续按钮。4.最后点击确定按钮,得判别分析结果。三输出结果及结果分析:

34、表1 特征值函数特征值方差的 %累积 %正则相关性13.044a93.693.6.8682.207a6.4100.0.414a. 分析中使用了前 2 个典型判别式函数。表2 Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1 到 2.20516.6498.0342.8281.9783.577表3 标准化的典型判别式函数系数函数12x1.453-.175x2.596-.811x3.662.600x4.299.608表4 典型判别式函数系数函数12x1.010-.004x2.040-.055x3.176.160x4.031.062(常量)-8.7845.448非标准

35、化系数结果分析表1特征值表,反应判别函数的特征根、解释方差的比例和典型相关系数。 表2 Wilks 的 Lambda表,是对两个判别函数的显著性检验。认为第一个判别函数在0.05的显著性水平上是显著的,第二个判别函数则没有通过显著性检验。表3标准化的典型判别式函数系数,表4典型判别式函数系数,分类统计量输出结果:表5 分类处理摘要已处理的15已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中15表6 组的先验概率y类别先验用于分析的案例未加权的已加权的1.33355.0002.33355.0003.33355.000合计1.0001515.000表7 分类函数系数y类别123x1.16

36、4.130.130x2.753.595.637x3.778.317.100x4.073.012-.059(常量)-79.212-46.721-49.598Fisher 的线性判别式函数结果分析表5分类处理摘要表,概括了分类过程,说明15个观测值都参与分类。表6组的先验概率表,说明各组的先验概率,此处在分类选项中选择所有组的先验概率相等。表7分类函数系数,是每组的分类函数,也称费歇尔线性判别函数。图1 合并组图表8 分类结果ay类别预测组成员合计123初始计数140152041530145%180.0.020.0100.02.080.020.0100.03.020.080.0100.0a. 已对

37、初始分组案例中的 80.0% 个进行了正确分类。结果分析图1合并组图,是分类结果图。从图中可以看到,1类胃癌患者与2类萎缩性胃炎患者和3类非胃炎患者可以很清晰的区分开,2类萎缩性胃炎患者与3类非胃炎患者两者之间存在重合区域,即存在误判。表8分类结果表,可以发现,1类中有1个误判到3类中,2类中有1个误判到3类中,3类中有1个误判到2类中,误判率为20%。表根据此判别函数对原样本进行回判,有数据集数据视图输出界面得回判结果见表9。表9 回判结果病人序号实际组别判别组别111211311413511622722823922102211321233133314331533由表9得,出现误判的病人是4

38、号、8号、11号,分别误判到了3号、3号、2号。第五章 主成分分析5.1 利用主成分分析法,综合评价六个工业行业的经济效益指标。单位:(亿元)行业名称资产总计固定资产净值平均余额产品销售收入利润总额煤炭开采和选业6917.23032.7683.361.6石油和天然气开采业5675.93926.2717.533877黑色金属矿采选业768.1221.296.513.8有色金属矿采选业622.4248116.421.6非金属矿采选业699.9291.584.96.2其它采矿业1.60.50.30一实验原理:主成分分析的基本思想:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的

39、相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取止。这就是主成分分析的基本思想。打开SPSS软件,在数据窗口依次定义变量,并输入以上数据。二SPSS操作步骤:1.点击分析降维因子分析,进入因子分析对话框。2.将资产总计、固定资产净值平均余额、产品销售收入、利润总额4个变量选入变量框中。3.得分部分选中显示因子得分系数矩阵,点击继续按钮,描述、抽取、旋转、选型部分都保持默认选项。4.点击确定按钮,得主成分分析结果三输出结果及结果分析:表1 公因子方差初始提取资产总计1.000.898固定资产净值平均余额1.000.999产品销售收入1.000.972利润总

40、额1.000.592提取方法:主成份分析。表2 解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %13.46086.49986.4993.46086.49986.4992.53713.43499.9333.002.06099.9934.000.007100.000提取方法:主成份分析。表3 成份矩阵a成份1资产总计.947固定资产净值平均余额.999产品销售收入.986利润总额.769提取方法 :主成份。a. 已提取了 1 个成份。表4 成份得分系数矩阵成份1资产总计.274固定资产净值平均余额.289产品销售收入.285利润总额.222提取方法 :主成份。表

41、5 成份得分协方差矩阵成份111.000提取方法 :主成份。结果分析表1公因子方差表,给出了该次分析中每个原始变量中提取的信息,可以看到除利润总额损失较大外,主成分几乎包含了各个原始变量至少90%的信息。表2解释的总方差,显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,本题中可以看到保留一个主成分为宜,这1个主成分集中了4个原始变量信息的86.499%,可见效果比较好。表3成分矩阵,给出了标准化原始变量用求得的主成分线性表示的近似表达式,用y1表示主成分,则有标准化的资产总计=0.947y1,其他可以此类推。表4成分得分系数矩阵,可以写出主成分用标准化后的原始变量

42、表示的表达式。用x1、x2、x3、x4分别表示资产总计、固定资产净值平均余额、产品销售收入、利润总额,则表达式为:由数据集数据视图结果得,各行业的得分如表6所示。表6 主成分得分行业名称得分名次煤炭开采和选业0.957526石油和天然气开采业1.568491黑色金属矿采选业-0.584833有色金属矿采选业-0.576032非金属矿采选业-0.589514其它采矿业-0.775655由表6得,各行业的排名为:石油和天然气开采业、有色金属矿采选业、黑色金属矿采选业、非金属矿采选业、其它采矿业、煤炭开采和选业。经济效益指标最好的行业是石油和天然气开采业,我国是人口大国,工业和日常经济发展都需要大量

43、的石油和天然气,煤炭虽然也是重要的能源,但早期的需求量比较大,近几年逐渐被石油和天然气取代,结果比较符合实际。5.2 下表是我国2003年各地区农村居民家庭平均每人主要食品消费量,试用主成分方法对各主要食品和地区进行分类。地区粮食蔬菜食油猪牛羊肉家禽蛋类及其制品水产品食糠酒北京134.0592.789.1514.62.1710.134.252.9214.42天津150.269.991011.070.8410.88.350.7210.14河北216.7255.976.597.10.546.362.250.657.29山西218.9180.875.725.360.246.150.471.152.59内蒙207.370.772.7921.181.413.821.451.3410.77辽宁194.39178.595.916.452.519.594.490.7310.8吉林255.99115.26.2711.423.238.643.60.7513.64黑龙江195.08111.77.627.852.616.263.350.915.09上海189.4476.68.5916.377.47.5116.112.1216.77江苏2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论