数据分析大作业讲解_第1页
数据分析大作业讲解_第2页
数据分析大作业讲解_第3页
数据分析大作业讲解_第4页
数据分析大作业讲解_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数据描述分析(一)目的与要求:掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。(二)重点与难点:掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。掌握多元数据的数字特征及相关性的判断,并会应用程序结果。1.1某小学60名11岁学生的身高(单位:cm)数据如下:计算均值、方差、标准差、变异系数、偏度、峰度;计算中位数、下和上四分位数、四分位极差、三均值;作出直方图;作出茎叶图;进行正态W检验();进行经验分布函数的检验。1261491431411271231371321351341461421351411501371441371341391481441421371471381401321491311391421381451471371351421511461291201431451421361471281421321381391471281391461391311381491.21949-1980年全国历年人口(单位:亿人)如下:计算均值、方差、标准差、变异系数、偏度、峰度;计算中位数、下、上四分位数、四分位极差、三均值;作出直方图;作出茎叶图;找出异常值。进行正态W检验();进行经验分布函数的检验。5.41675.51965.63005.74825.87966.02666.14656.28286.46536.59946.72076.62076.58596.72956.91727.04997.25387.45427.63687.85348.06718.29928.52298.71778.92119.08599.24209.37179.49749.62599.75429.870510.007210.154110.249510.347510.45321.31978年至1999年我国居民消费数据如表1.3所示计算均值、方差、标准差、变异系数、偏度、峰度;计算中位数、下、上四分位数、四分位极差、三均值;作出直方图;作出茎叶图;找出异常值。19781841384051979207158434198023617849619812621995621982284221576198331124660319843542836621985437347802198648537692019875504171089198869350814311989762553156819908035711686199189662119251992107071823561993133185530271994174611183891199523361434487419962641176854301997283418765796199829721895621719993180197366511.42002年11月以及1至11月全国各省、市、区财政预算收入数据如下:计算均值、方差、标准差、变异系数、偏度、峰度;计算中位数、下、上四分位数、四分位极差;作出直方图;作出经验分布函数图;X1和X2的观测值的pearson相关系数与spearman相关系数。北京35.22499.80天津10.41161.37河北17.22273.29山西10.70134.79内蒙古10.2990.92辽宁18.66348.99吉林4.41106.89黑龙江6.24196.44上海49.72656.95江苏47.70580.70浙江36.55518.10安徽14.85179.41福建19.46250.16江西10.93122.06山东40.26552.74河南19.82268.20湖北19.49221.43湖南16.01197.68广东99.321080.26广西14.77160.60海南3.9639.51重庆10.49111.76四川21.71250.09贵州13.0695.87云南20.34183.62西藏0.776.08陜西11.38133.50甘肃3.6664.86青海1.2118.30宁夏2.3123.81新疆3.24103.811.5对某民族的21人测量其血液4种成分的含量,观测数据如下:求总体均值向量及总体协方差矩阵的估计。18.828.15.135.117.425.64.933.916.027.45.032.219.329.51.729.117.427.44.535.615.325.33.632.216.725.84.433.017.426.74.433.016.225.72.333.916.726.76.435.018.228.03.229.716.726.72.134.918.126.74.331.516.726.03.032.718.130.27.034.920.230.54.834.420.229.55.536.221.531.55.836.518.830.65.435.421.627.85.434.121.329.55.835.81.7一组人体的胸部、腹部、手臂部分皮肤的有关数据如下:(1)计算观测数据均值向量和中位数向量;(2)计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。9.012.03.08.515.03.013.019.03.010.07.04.07.013.02.515.528.55.022.520.04.55.58.53.025.035.06.515.019.04.012.520.03.017.019.55.016.017.56.020.020.07.512.017.04.022.020.06.017.028.05.516.018.03.021.027.56.013.014.04.021.013.09.021.06.03.513.56.53.55.07.53.516.020.05.514.514.54.010.023.06.011.013.06.010.512.03.515.015.53.09.012.55.023.024.06.514.021.06.516.011.03.016.517.04.016.015.03.012.015.53.59.04.02.012.06.05.05.014.03.017.015.04.516.011.03.017.518.03.011.515.03.04.03.02.017.515.04.59.511.52.526.038.04.015.013.04.519.012.03.0第二章线性回归分析(一)目的与要求:掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。(二)重点与难点:会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。2.4某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:箱)与该城市中适合使用该化妆品的人数X1(单位:千人)以及他们人均月收入X2(单位:元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:(1)求回归系数的最小二乘估计和误差方差的估计,写出回归方程并对回归系数作解释;(2)求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方的值并解释其意义;(3)分别求和的置信度为95%的置信区间;(4)对,分别检验人数X1及收入X2对销量Y的影响是否显著,利用与回归系数有关的一般假设方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著;(5)该公司欲在一个适宜使用该化妆品的人数X01=200,人均月收入X02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;(6)求Y的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性。1622742450120180325422337538021312052838678623471692653782819830081923302450116195213755532560252430402023237244271442362660103157208821237026052.5下面的数据是由特定模型产生的20组模拟数据(1)首先拟合Y关于X的线性回归模型,结果如何?通过残差分析(尤其是残差图分析)并参考Y与X的散点图,选择你认为合理的回归函数形式,拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性,最后,将你所拟合的回归方程与真实模型()比较,你是否给出了正确的模型形式。(2)如果对因变量作BOX-COX变换,求变换参数的值,拟合变换后的变量关于X的简单线性回归模型,结果如何?你对BOX-COX变换有何新的认识?0.055.94210.155.46910.255.87240.355.18150.455.19550.555.24870.655.13560.755.22600.855.08130.955.22361.054.73491.154.59491.255.15431.355.28441.455.34481.555.14621.655.40911.755.65001.856.02561.955.53502.6在林业工程中,研究树干的体积与离地面一定高度的树干直径和树干高度之间的关系具有重要的实用意义,下面给出了31棵树的相关数据:(1)首先拟合线性回归模型,通过残差分析考察模型的合理性,是否需要对数据作变换?(2)对因变量Y作BOX-COX变换,求变换参数的值。对变换后的因变量重新拟合与X1,X2的线性回归模型并作残差分析,BOX-COX变换的效果如何?8.37010.38.66510.38.86310.210.57216.410.78118.810.88319.711.06615.611.07518.211.18022.611.27519.911.37924.211.47621.011.47621.411.76921.312.07519.112.97422.212.98533.813.38627.413.77125.713.86424.914.07834.514.28031.714.57436.316.07238.316.37742.617.38155.417.58255.717.98058.318.08051.518.08051.020.68777.02.9某医院为了了解病人对医院工作的满意程度和病人的年龄、病情的严重程度和病人的忧虑程度之间的关系,随机调查了该医院的23位病人,得数据如下:(1)拟合线性回归模型,通过残差分析考察模型及有关误差分布正态性假定的合理性;(2)若(1)中模型合理,分别在(i)、(ii)和(iii)准则下选择最优回归方程,各准则下的选择结果是否一致?(3)对,用逐步回归法选择最优回归方程,其结果和(2)中的是否一致?(4)对选择的最优回归方程作残差分析,与(1)中的相应结果比较,有何变化?50512.34836462.35740482.26641441.87028431.88949542.93642502.24645482.45452622.92629502.17729482.48943532.46738552.24734512.35153542.25736492.06633562.57929461.98833492.16055512.44929522.37744582.95243502.360第三章方差分析(一)目的与要求:能利用原始数据与误差分析作方差分析,并能理解各因素对观测的影响和作用;能根据SAS输出结果进行有无交互效应的分析。(二)重点与难点:理解观测数据在单因素和两因素下的总平方和分解表达式,两因素中无交互效应的分析,能利用方差分析的SAS过程解决有关实际应用问题。3.4考察四种不同催化剂对某一化工产品得率的影响,在四种不同催化剂下分别作了6次试验,得数据如下:假定各种催化剂下产品的得率服从同方差的正态分布,试在下,检验四种不同催化剂对该化工产品的得率有无显著影响。a10.88a10.85a10.79a10.86a10.85a10.83a20.87a20.92a20.85a20.83a20.90a20.80a30.84a30.78a30.81a30.80a30.85a30.83a40.81a40.86a40.90a40.87a40.78a40.793.5为了了解生产某种电子设备的公司在过去三年中的科研经费投入(分为低、中、高三档)对当年生产能力提高的影响,调查了共计27家生产该设备的公司,对当年生产能力较之三年前的提高量作评估,得数据如下:(1)建立方差分析表,在显著水平下检验过去三年科研经费投入的不同是否对当年生产力的提高有显著影响。(2)分别以和记在过去三年科研经费投入为低、中、高情况下当年生产能力提高量的均值,分别给出和的置信度为95%的置信区间以及差值、和的置信度不小于95%的Bonferroni置信区间。是否过去三年科研经费投入越高,当年生产能力的改善越显著?a17.6a18.2a16.8a15.8a16.9a16.6a16.3a17.7a16.0a26.7a28.1a29.4a28.6a27.8a27.7a28.9a27.9a28.3a28.7a27.1a28.4a38.5a39.7a310.1a37.8a39.6a39.53.6为研究两种形式的铁离子(Fe3+和Fe2+)在不同计量下在动物体内的存留量是否有显著不同,进行了如下试验:将108只小白鼠随机地分为6组,每组均为18只,其中3组分别给以三种不同剂量(高、中、低剂量)的三价铁Fe3+;另3组给以相应剂量的二价铁Fe2+。经过一段时间后,测量各小白鼠体内两种铁离子的存留量关于最初服用剂量的百分比,其数据如下:(1)求出各组合水平的观测值的样本均值和标准差。各水平组合上的标准差差异是否明显?你认为假定误差的等方差性是否合理?(2)对观测数据作自然变换,再进行(1)中分析。此时,各组合水平上的标准差是否趋于一致?(3)对变换后的数据进行方差分析,建立方差分析表,在显著水平下,因素的交互效应是否显著?各因素的交互效应是否显著?各因素的影响是否显著?(4)分别求各因素在其不同水平上的均值的置信度为95%的置信区间以及两两均值之差的置信度不小于95%的Bonferroni置信区间,并对结果作解释。a1b10.71a1b11.66a1b12.01a1b12.16a1b12.42a1b12.42a1b12.56a1b12.60a1b13.31a1b13.64a1b13.74a1b13.74a1b14.39a1b14.50a1b15.07a1b15.26a1b18.15a1b18.24a1b22.20a1b22.93a1b23.08a1b23.49a1b24.11a1b24.95a1b25.16a1b25.54a1b25.68a1b26.25a1b27.25a1b27.90a1b28.85a1b211.96a1b215.54a1b215.89a1b218.30a1b218.59a1b32.25a1b33.93a1b35.08a1b35.82a1b35.84a1b36.89a1b38.50a1b38.56a1b39.44a1b310.52a1b313.46a1b313.57a1b314.76a1b316.41a1b316.96a1b317.56a1b322.82a1b329.13a2b12.20a2b12.69a2b13.54a2b13.75a2b13.83a2b14.08a2b14.27a2b14.53a2b15.32a2b16.18a2b16.22a2b16.33a2b16.97a2b16.97a2b17.52a2b18.36a2b111.65a2b112.45a2b24.04a2b24.16a2b24.42a2b24.93a2b25.49a2b25.77a2b25.86a2b26.28a2b26.97a2b27.06a2b27.78a2b29.23a2b29.34a2b29.91a2b213.46a2b218.40a2b223.89a2b226.39a2b32.71a2b35.43a2b36.38a2b36.38a2b38.32a2b39.04a2b39.56a2b310.01a2b310.08a2b310.62a2b313.80a2b315.99a2b317.90a2b318.25a2b319.32a2b319.87a2b321.60a2b322.253.7为研制一种治疗枯草热病的药物,将两种成分(A和B)各按三种不同剂量(高、中、低)混合,将36位自愿受试患者随机分成9组,每组4人服用各种剂量混合下的药物,记录其病情缓解的时间(单位:小时)如下:(1)计算每个水平组合(Ai,Bj)上的均值的估计值,做出形如图3.2的图形,判断A与B的交互效应是否显著?(2)假设所给数据服从方差分析模型,建立方差分析表,A与B的交互效应在是否显著?(3)A与B的交互效应显著,分别就A的各水平Ai(i=1,2,3),给出在B的各水平Bj上的均值的置信度为95%的置信区间以及两两均值之差的置信度不小于95%的Bonferroni置信区间。固定B的各水平Bj,关于因素A作类似分析,你能选出最佳是水平组合?a1b12.4a1b12.7a1b12.3a1b12.5a1b24.6a1b24.2a1b24.9a1b24.7a1b34.8a1b34.5a1b34.4a1b34.6a2b15.8a2b15.2a2b15.5a2b15.3a2b28.9a2b29.1a2b28.7a2b29.0a2b39.1a2b39.3a2b38.7a2b39.4a3b16.1a3b15.7a3b15.9a3b16.2a3b29.9a3b210.5a3b210.6a3b210.1a3b313.5a3b313.0a3b313.3a3b313.23.8有四名工人Wi,i=1,…,4,分别操作机床A1,A2,A3各一天,生产同样产品,其日产量(单位:件)如下:(1)建立方差分析表,在下,四名工人的日产量有无显著差异?各台机床对日产量有无显著差异?(2)分别求各工人的平均日产量的两两之差以及机床平均日产量的两两均值之差的置信度不小于90%的Bonferroni置信区间,并对结果作解释。a1w150a1w247a1w347a1w453a2w163a2w254a2w357a2w458a3w152a3w242a3w341a3w448第四章主成分分析与典型相关分析(一)目的与要求:能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别;能根据SAS输出结果选出满足要求的几个主成分。能利用原始数据作典型相关分析,能根据SAS输出结果分析典型相关对。(二)重点与难点:理解标准化主成分与原始数据主成分的区别,会求主成分和典型相关对,能解释主成分和典型相关对的含义,即会综合解释指标。4.4从1975年1月至1976年12月,对纽约政券交易所的三种化工股票和两种石油股票的周反弹率进行连续100周的观测,周反弹率=(本周五收盘价-上周五收盘价)/上周五收盘价求得其样本相关系数矩阵为(1)从R出发做主成分分析,求各主成分及其贡献率。(2)前两个主成分的累计贡献率为多少?你能否给出这两个主成分的合理解释。x11.0000.5770.5090.3870.462x20.5771.0000.5990.3890.322x30.5090.5991.0000.4360.426x40.3870.3890.4361.0000.523x50.4620.3220.4260.5231.0004.5下面给出了1991年我国30个省、区、市城镇居民的月平均消费数据(单位:元/人)X1:人均粮食支出;X2:人均副食品支出;X3:人均烟酒茶支出;X4:人均其它副食品支出;X5:人均衣着商品支出;X6:人均日用品支出;X7:人均燃料支出;X8:人均非商品支出;(1)求样本相关系数矩阵R。(2)从R出发做主成分分析,求各主成分及其贡献率。(3)求出前两个主成分并解释其意义。按第一主成分得分将30个省、区、市排序,结果如何?山西8.3523.537.518.6217.4210.001.0411.21内蒙古9.2523.756.619.1917.7710.481.7210.51吉林8.1930.504.729.7816.287.602.5210.32黑龙江7.7329.205.429.4319.298.492.5210.00河南9.4227.938.208.1416.179.421.559.76甘肃9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81河北9.0928.127.409.6217.2611.122.4912.65陕西9.4128.205.7710.8016.3611.561.5312.17宁夏8.7028.127.2110.5319.4513.301.6611.96新疆6.9329.854.549.4916.6210.651.8813.61湖北8.6736.057.317.7516.6711.682.3812.88云南9.9837.697.018.9416.1511.080.8311.67湖南6.7738.696.018.8214.7911.441.7413.23安徽8.1437.759.618.4913.159.761.2811.28贵州7.6735.718.048.3115.137.761.4113.25辽宁7.9039.778.4912.9419.2711.052.0413.29四川7.1840.917.328.9417.6012.751.1414.80山东8.8233.707.5910.9818.8214.731.7810.10江西6.2535.024.726.2810.037.151.9310.39福建10.6052.417.709.9812.5311.702.3114.69广西7.2752.653.849.1613.0315.261.9814.57海南13.4555.855.507.459.559.522.2116.30天津10.8544.687.3214.5117.1312.081.2611.57江苏7.2145.797.6610.3616.5612.862.2511.69浙江7.6850.3711.3513.3019.2514.592.7514.87北京7.7848.448.0020.5122.1215.731.1516.61西藏7.9439.6520.9720.8222.5212.411.757.90上海8.2864.348.0022.2220.0615.120.7222.89广东12.4776.395.5211.2414.5222.005.4625.504.6下面是49位女性在空腹情况下三个不同时刻的血糖含量(用X1,X2,X3表示)和在摄入等量食糖一小时后的三个时刻的血糖含量(用Y1,Y2,Y3表示)的观测值(单位:mg/100ml),数据如下:分别从样本协方差矩阵S和样本相关系数矩阵R出发做主成分分析,求各主成分及其贡献率。在两种情况下,你认为应保留几个主成分,其意义如何解释?就此题,基于S和R的分析哪个更为合理?16069629769982565384103781073806976669913045580908085114562756811613091674647010910110376471667710213087370641151101099686775768511910698274721331271160676113013412112707478150158100136674781501311421483707499981051568669011985109167863751649813817103777716011712118776874144711531966776877828920707072114931222175657177701092291749311811515023667573170147121247582761531321152574716614310510026767064114113129277490867310611628747780116817729677169638770307875801051328031646671839413332718076818786336375731208959349010374107109101356076619911198364877751131249737669397136112122387470761098810539607471729071406375661301019041668086130117144427767748392107437067100150142146447376811191201194578907712215514946736880102901224772836810469964865607011994894952707692941004.8从某校初一学生中随机选取n=140名,考察四个指标,学生的得分值的样本相关系数矩阵如下:X1:阅读速度;X2:阅读理解力;Y1:计算速度;Y2:计算正确程度;求各典型变量对及典型相关系数;给定显著水平,检验各典型变量对是否显著相关,并解释显著相关的典型变量对的意义。x11.000.630.240.06x20.631.00-0.060.07y10.24-0.061.000.42y20.060.070.421.004.9下面是25个家庭的成年长子的头长、头宽与成年次子的头长、头宽的观测数据:试分别从样本协方差矩阵和样本相关系数矩阵R出发做典型相关分析,求各典型变量对及典型相关系数,检验各典型变量对是否显著相关()。两种情况下的结果有何异同。119115517914521951492011523181148185149418315318814951761441711426208157192152718915019014981971591891529188152197159101921501871511117915818614812183147174147131741501851521419015919515715188151187158161631371611301719515518315818186153173148191811451821462017514016513721192154185152221741431781472317613917614324197167200158251901631871504.10下面是49位女性在空腹情况下三个不同时刻的血糖含量(用X1,X2,X3表示)和在摄入等量食糖一小时后的三个时刻的血糖含量(用Y1,Y2,Y3表示)的观测值(单位:mg/100ml),数据如下:对X=(X1,X2,X3)T和Y=(Y1,Y2,Y3)T作典型相关分析,求各典型变量对及典型相关系数,检验各典型变量对是否显著相关(),并解释显著相关的典型变量对的意义。1606962976998256538410378107380697666991304558090808511456275681161309167464701091011037647166771021308737064115110109968677576851191069827472133127116067611301341211270747815015810013667478150131142148370749998105156866901198510916786375164981381710377771601171211877687414471153196677687782892070707211493122217565717770109229174931181151502366757317014712124758276153132115257471661431051002676706411411312927749086731061162874778011681772967716963877030787580105132803164667183941333271807681878633637573120895934901037410710910135607661991119836487775113124973766939713611212238747076109881053960747172907140637566130101904166808613011714442776774839210743706710015014214644737681119120119457890771221551494673688010290122477283681046996486560701199489495270769294100第五章判别分析(一)目的与要求:能对两个总体与多个总体建立判别函数,并作判别分析。理解距离判别与Bayes判别的条件与结果的区别。(二)重点与难点:掌握分类的方法并能应用;能针对多个总体协方差相等与不相等两种情况建立判别函数,并能利用判别函数作具体的分析。5.1下面是某地区气象综合因子的观测数据,假定两总体的协方差相等,进行判别分析,并给出误判率的回代估计与交叉确认估计。G124.8-2.0G124.1-2.4G126.6-3.0G123.5-1.9G125.5-2.1G127.4-3.1G222.1-0.7G221.6-1.4G222.0-0.8G222.8-1.6G222.7-1.5G221.5-1.0G222.1-1.2G221.4-1.35.3下面给出了1991年我国30个省、区、市城镇居民的月平均消费数据(单位:元/人),设前20个省份为第1类G1,21-27号为第2类G2,最后三个省份待判:进行距离判别,给出线性及二次判别函数,并给出误判率的回代估计与交叉确认估计。山西G18.3523.537.518.6217.4210.001.0411.21内蒙古G19.2523.756.619.1917.7710.481.7210.51吉林G18.1930.504.729.7816.287.602.5210.32黑龙江G17.7329.205.429.4319.298.492.5210.00河南G19.4227.938.208.1416.179.421.559.76甘肃G19.1627.989.019.3215.999.101.8211.35青海G110.0628.6410.5210.0516.188.391.9610.81河北G19.0928.127.409.6217.2611.122.4912.65陕西G19.4128.205.7710.8016.3611.561.5312.17宁夏G18.7028.127.2110.5319.4513.301.6611.96新疆G16.9329.854.549.4916.6210.651.8813.61湖北G18.6736.057.317.7516.6711.682.3812.88云南G19.9837.697.018.9416.1511.080.8311.67湖南G16.7738.696.018.8214.7911.441.7413.23安徽G18.1437.759.618.4913.159.761.2811.28贵州G17.6735.718.048.3115.137.761.4113.25辽宁G17.9039.778.4912.9419.2711.052.0413.29四川G17.1840.917.328.9417.6012.751.1414.80山东G18.8233.707.5910.9818.8214.731.7810.10江西G16.2535.024.726.2810.037.151.9310.39福建G210.6052.417.709.9812.5311.702.3114.69广西G27.2752.653.849.1613.0315.261.9814.57海南G213.4555.855.507.459.559.522.2116.30天津G210.8544.687.3214.5117.1312.081.2611.57江苏G27.2145.797.6610.3616.5612.862.2511.69浙江G27.6850.3711.3513.3019.2514.592.7514.87北京G27.7848.448.0020.5122.1215.731.1516.61西藏*7.9439.6520.9720.8222.5212.411.757.90上海*8.2864.348.0022.2220.0615.120.7222.89广东*12.4776.395.5211.2414.5222.005.4625.505.4在有关地震预报的研究中,遇到砂基液化的问题。选择了7个有关因素X1-X7。今从已液化和未液化的地层中得到容量分别为12与23的训练样本,第1组为液化,第2组为未液化,数据如下。假定各总体服从正态分布且协方差矩阵相等,进行距离判别,给出线性判别函数,并给出误判率的回代估计与交叉确认估计。G16.6391.06.060.1220G16.6391.06.0120.1220G16.1471.06.060.0812G16.1471.06.0120.0812G18.4322.07.5190.3575G17.261.07.0280.3030G18.41133.56.0180.1575G17.5521.06.0120.1640G17.5523.57.560.1640G18.31130.07.5350.12180G17.81721.03.5140.2145G17.81721.53.0150.2145G28.4321.05.040.3575G28.4322.09.0100.3575G28.4322.54.0100.3575G26.3114.57.530.2015G27.084.54.590.2530G27.086.07.540.2530G27.081.56.010.2530G28.31611.54.040.0870G28.31610.52.510.0870G27.263.54.0120.3030G27.261.03.030.3030G27.261.06.050.3030G25.562.53.070.1818G28.41133.54.560.1575G28.41133.54.580.1575G27.5521.06.060.1640G27.5521.07.580.1640G28.3970.06.050.15180G28.3972.56.050.15180G28.3890.06.0100.16180G28.3561.56.0130.25180G27.81721.03.560.2145G27.82331.04.560.18455.5考察鸢尾属植物中三个不同品种的花的如下四个形状指标:X1萼片长度;X2萼片宽度;X3花瓣长度;X4花瓣宽度。从这三个品种(记为1,2,3)各取50株,测得上述指标的取值如下。假定三个品种的这4个指标均服从4维正态分布。(1)只考虑指标X2和X4,假定各总体协方差矩阵不全相等,进行距离判别,给出二次判别函数,并给出误判率的回代估计与交叉确认估计。(2)只考虑指标X2和X4,假定各总体协方差矩阵相等,进行距离判别,给出线性判别函数,并给出误判率的回代估计与交叉确认估计。(3)假定有新样品,在(1),(2)下,该样品分别被判归哪个总体?(4)利用全部4个指标重复(1),(2)的分析,结果如何?是否所用指标越多,分类效果越好?1503314214634143146361021513317515535132148311621523414214936141144321321503516614430132147321621483014315138162148341921503016215032122143301111584012215138194149301421513514215034164146321421574415415036142154341541524215115542142149311521543917415034152144291421473213214631152151341521503513314931151154371521543913415135143148341621483014114523133157381731513815315434172151371541523515215337152265284615262224515259324818261304614260275116256253911257284513263334716270324714264324515261284013255243811254304515258264012255264412250233310267314414256304515258274110260294515257263510257194213249243310256274213257304212266294613252273914260344516250203510255243710258273912262294313259304215260224010267314715263234413256304113263254915261284712264294313251253011257284113261294714256293613269314915255254013255234013266304414268284814267305017364285622367315624363285115369315123365305220365305518358275119368325923362345423377386722367335725376306621349254517367305223359305118363255019364325323379386420367335721377286720363274918372326018361304918361265614364285621362284818377306123363345624358275119372305816371305921364315518360304818363295618377266923360225015369325723374286119356284920373296318367255818365305822369315421372366125365325120364275319368305521357255020358285124363336025第六章聚类分析(一)目的与要求:理解并能运用聚类分析方法,对实际问题进行分类。(二)重点与难点:能根据实际问题采用恰当的距离进行聚类;会根据实际问题确定分几类最合适,并能解释每个类的特点及类与类之间的区别。1976年74个国家和地区出生率和死亡率的观测数据如下,其中数据是每10万人的出生数和死亡数。试对这74个国家与地区按出生率和死亡率进行快速聚类分析。给出聚3类的结果,并画出的散点图,该图是否反映了各类的集聚性?聚4的结果如何?给出用绝对距离(距离)快速聚类的相应于(1)(2)的结果。阿富汗5230阿尔及利亚5016安哥拉4723阿根廷2210澳大利亚168奥地利1213孟加拉国4719比利时1212巴西3610保加利亚1710缅甸3815喀麦隆4222加拿大167智利227中国3111台湾265哥伦比亚3410古巴206捷克斯洛伐克1911厄瓜多尔4211埃及3913埃塞俄比亚4823法国1411前东德1214前西德1012加纳4614希腊169危地马拉4014匈牙利1812印度3615印度尼西亚3816伊朗4212伊拉克4814意大利1410象牙海岸4823日本166肯尼亚5014朝鲜4312韩国266马达加斯加4722马来西亚306墨西哥407摩洛哥4716莫桑比克4518尼泊尔4620荷兰138尼日利亚4922巴基斯坦4414秘鲁4013菲律宾3410波兰209葡萄牙1910罗德西亚4814罗马尼亚1910沙特阿拉伯4919南非3612西班牙188斯里兰卡269苏丹4917瑞典1211瑞士129叙利亚4714坦桑尼亚4717泰国3410土耳其3412前苏联189乌干达4817英国1212美国159上伏塔5028委内瑞拉366越南4217南斯拉夫188扎伊尔45186.4下面为1978年至1999年我国居民消费水平数据进行快速聚类分析,全国居民、农村居民、城镇居民的消费水平分别为给出聚3类的结果,并画出与图,它们是否反映了各类的集聚性?用绝对距离(距离)快速聚类聚为3的结果如何?给出的相应于(1)(2)的结果。19781841384051979207158434198023617849619812621995621982284221576198331124660319843542836621985437347802198648537692019875504171089198869350814311989762553156819908035711686199189662119251992107071823561993133185530271994174611183891199523361434487419962641176854301997283418765796199829721895621719993180197366516.5下面为鸢尾属植物花的形状数据的150个样品,利用欧氏距离作快速聚类分析。用聚类;用聚类;用聚类;将聚类结果与数据集中的实际分类情况比较,是否所用变量越多,聚类效果越好?15033142146341431463610215133175155351321483116215234142149361411443213215035166144301321473216214830143151381621483419215030162150321221433011115840122151381941493014215135142150341641463214215744154150361421543415415242151155421421493115215439174150341521442914214732132146311521513415215035133149311511543715215439134151351431483416214830141145231331573817315138153154341721513715

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论