




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实用多元统计分析课程报告-水样分类之系统聚类法和判别分析中 国 地 质 大 学研究生课程论文封面课程名称 多元统计分析 教师姓名 研究生姓名 研究生学号 研究生专业 所在院系 类别: 专业硕士 日期: 2014年 12月 29 日 评 语对课程论文的评语:平时成绩:课程论文成绩:总 成 绩:评阅人签名:注:1、无评阅人签名成绩无效;2、必须用钢笔或圆珠笔批阅,用铅笔阅卷无效;3、如有平时成绩,必须在上面评分表中标出,并计算入总成绩。水样分类之系统聚类法和判别分析摘 要:地质工作者在野外工作分为很多内容,其中,研究一个地方的水环境情况如何,则会在当地分散着取很多水样,对水样进行研究,然后得出当地整体水环境如何。而我们取的水样会有很多,主要是测定水样里的阴阳离子含量、pH值和TDS(矿化度),其中也会有很多水样的成分与质量都差不多,这时,我们就要将水样进行分类,减少水样的个数,方便研究。本文主要采用系统聚类法对水样进行聚类,结果表明,系统聚类法对于水样分类这一问题有重要贡献。关键词:水样分类 系统聚类法 判别分析法一、 研究背景1、阴阳离子含量天然水是成分极其复杂的溶液。天然水中一般含有可溶性物质和悬浮物质(包括悬浮物、颗粒物、水生生物等)。可溶性物质的成分十分复杂,主要在岩石风化过程中,经水溶液迁移的地壳矿物物质。天然水中主要离子组成:K+、Na+、Ca2+、Mg2+、HCO3-、Cl-、SO42-,占天然水中离子总量的95%99%。水中这些主要的离子的分类,常用来作为表征水体主要的化学特征性指标。2、pH值pH值,亦称氢离子浓度指数、酸碱值,是溶液中氢离子活度的一种标度,也就是通常意义上溶液酸碱程度的衡量标准。有很多方法来计算pH值:使用pH试纸,其有广泛试纸和精密试纸,用玻棒沾一点待测溶液到试纸上,然后根据试纸颜色的变化并对照比色卡可以得到溶液的pH值,但试纸不能够显示出油分的pH值,由于pH试纸以氢离子制成和以氢离子来量度待测溶液的pH值,但油中没有含有氢离子,因此pH试纸不能够显示出油分的pH值;使用pH计,pH计是一种测量溶液pH值的仪器,它通过pH值选择电极(如玻璃电极)来测量出溶液的pH值,可以精确到小数点后三位。pH值计算式为:式中,指的是溶液中氢离子的物质的量的浓度,单位为mol/L,在稀溶液中,氢离子活度约等于氢离子的浓度,也可以用氢离子浓度来进行近似计算。人体血液的pH值通常在7.357.45之间,地下水的pH值通常在68.5之间。3、TDS矿化度又称溶解性总固体,指水中溶解组分的总量,包括溶解于地下水中各种离子、分子、化合物的总量,但不包括悬浮物和溶解气体。矿化度的单位以g/L表示。一般测定方法是将1L水加热到105110,使水全部蒸发,剩下残渣质量即为地下水矿化度。 水中的TDS来源于自然界、下水道、城市和农业污水污水以及工业废水。为了防止结冰在路面上铺撒的盐类也可增加水中TDS的量。自然来源的TDS受不同地区矿石含盐量的影响差异十分巨大,可从300mg/L到多则6000mg/L1。二、 数据来源由于我和导师的项目目前还处于未公开阶段,其中的水样数据我不能擅自公开,则一下数据我是摘自水文地质学基础的其中一个表格,内容对我采用系统分析法没有干扰,与我在实际项目中应用没有多大区别,在此向老师解释下。水样的数据如下表所示:表1 水样数据指标样号K+Na+Mg2+Ca2+HCO3-Cl-SO42-pHTDS11.431.0119.8432.0845.38210.37261.170.0589.6521.517.880.9621.3823.4067.24273.370.2374.9631.319.894.9926.0030.49126.80253.840.3448.3041.429.0120.2432.8146.80218.06261.170.5596.8951.429.0118.6433.2946.09223.83261.170.691.8461.327.8118.2332.5643.96214.21261.170.0487.6571.427.0127.4525.0343.96206.53263.610.581.1781.428.4119.4433.2946.09214.21263.610.4592.6391.428.4119.4431.8348.93208.45261.170.487.03104.632.956.5129.5148.93210.3770.780.122.21 现需将以上样本进行分类,确定各个样本的共同特征,进而由此样本估计出各地区的水样特征。为了将以上数据样品进行合理的分类,下面将采用系统聚类分析方法进行分类,并采用判别分析进行回判。3、 分析过程1、问题分析该问题利用SPSS系统聚类的Q型聚类方法,对10个地区的水样的调查数据进行分析。其中个案距离采用平方欧氏距离,由于不同变量间存在较大的数量级的差别,因此对数据变量采取Z得分值标准化的方法进行标准化,在输出结果设置中,选择显示冰挂图和树形图,并在数据文件中新建分类变量。2、操作步骤Step 1 读入数据文件;Step 2 主对话框进行选择;Step 3 “Statistics”对话框的选择;Step 4 “Plots”对话框的选择;Step 5 “Method”对话框的选择;Step 6 “Save”对话框的选择;Step 7 执行聚类分析。3、聚类结果分析(1)距离矩阵下表列出的是10个个案的距离矩阵,这些矩阵的数值是系统聚类分析的基础。从距离矩阵中可以看出,第4个个案和第8个个案的距离最小,系统聚类分析时,4和8最先分在一类,也就是4号地区和8号地区的水样首先分为一类。当然,仅有距离矩阵是不能完全确定系统聚类的结果的,还必须知道个案和类之间的距离。 表2 距离矩阵(Proximity Matrix)Squared Euclidean Distance123456789101.00033.89718.65010.0557.715.5258.6258.1653.47028.270233.897.0004.30635.46938.38030.62525.83233.23733.33655.037318.6504.306.00015.95119.48615.91012.90514.45816.40042.666410.05535.46915.951.0005.09810.2578.903.2895.32339.03257.71538.38019.4865.098.0007.8464.6275.7651.31634.9846.52530.62515.91010.2577.846.0008.6028.0973.57329.87078.62525.83212.9058.9034.6278.602.0009.3533.42736.64388.16533.23714.458.2895.7658.0979.353.0005.07437.74693.47033.33616.4005.3231.3163.5733.4275.074.00030.8061028.27055.03742.66639.03234.98429.87036.64337.74630.806.000下表显示的是系统聚类分析的类成员聚类表,从表中可以知道,类数从2到5时个案所属的类别。例如类数为4时,根据图表可知,10号水样单独一类,1号、6号在一类,2号、3号在一类,4号、5号、7号、8号、9号在一类。表3 系统聚类分析的类成员聚类表Cluster MembershipCase5 Clusters4 Clusters3 Clusters2 Clusters1: 111112: 222213: 322214: 433115: 543116: 611117: 743118: 833119: 9431110: 105432(2) 凝聚状态表下表是系统聚类的凝聚状态表。表中,第一列表示聚类分析的第几步;第二、三列表示本步骤类中哪两个个案或者小类聚成一类;第四列是个案距离或小类距离;第五、第六列表示本步骤类中参与聚类的是个案还是小类,0表示个案,非0表示有第几步骤类生成的小类参与本步骤类;第七列标识本步聚类的结果将在以下第几步中用到。此表显示了10个地区水样的聚类情况。在聚类分析的第一步中,个案序号为4和8的聚成一小类,它们之间的距离(平方欧氏距离)是0.289,这个小类将在下面第6步用到,同理,聚类分析的第6步,序号为5的个案再与第一步聚成的小类合并,又聚成一个小类,它们的距离(平均组间链锁距离)是6.586,形成的小类将在下面第7步用到。经过9个聚类过程,10个个案最后聚成了一个大类。表4系统聚类的凝聚状态表Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 2148.289006216.5250073591.3160044574.0273065234.3060086456.5861477147.64126881224.610759911037.228800(3) 聚类分析的谱系图下图显示的是系统聚类分析中的谱系图,从中可以看出在系统聚类的过程中,从每个个体为单独的一类,逐次合并,一直到全部合并成一个大类,整个过程都在谱系图中得到了体现。 图1 聚类分析的谱系图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+-+-+-+-+-+4488559977116622331010(4) 聚类分析的冰挂图 下图是一副纵向显示的冰挂图。从该图中可以很容易的看出任何类数时的分类结果。例如当聚类类数为4时,在图的第4行中可以看到,3号和2号所在的列的冰柱连为一体,这时可以确定这两个地区的水样应该属于一类,再向后看7号、9号、5号、8号、4号连为一体,属于同一类,同理,6号、1号属于一类,10号单独为一类。这与我们在类成员聚类表中得到的结果是一致的。图2 聚类分析的冰挂图Vertical IcicleNumber of clustersCase103279584611XXXXXXXXXXXXXXXXXXX2XXXXXXXXXXXXXXXXXX3XXXXXXXXXXXXXXXXX4XXXXXXXXXXXXXXXX5XXXXXXXXXXXXXXX6XXXXXXXXXXXXXX7XXXXXXXXXXXXX8XXXXXXXXXXXX9XXXXXXXXXXX4、 判别分析法结果(1)基本数据信息下表为基本信息:将聚类分析的结果与实际情况相结合决定把10个水样分成三类。表5 基本信息Group Statistics编号MeanStd. DeviationValid N (listwise)UnweightedWeighted第一类钾离子1.3857.0378077.000钠离子28.65711.2474777.000镁离子1.2047E23.1532777.000钙离子31.55572.9306577.000碳酸氢根离子45.88711.7252877.000氯离子2.1367E25.9469777.000硫酸根离子2.6187E21.1906077.000PH.3557.2230077.000TDS2.3241E2247.5576777.000第二类钾离子1.4000.1414222.000钠离子18.80001.4142122.000镁离子87.97509.9207122.000钙离子23.69003.2668322.000碳酸氢根离子26.94505.0133922.000氯离子97.020042.1152822.000硫酸根离子2.6360E213.8098022.000PH.2500.0707122.000TDS4.1163E251.8592122.000第三类钾离子4.6000.a11.000钠离子32.9000.a11.000镁离子56.5100.a11.000钙离子29.5100.a11.000碳酸氢根离子48.9300.a11.000氯离子2.1037E2.a11.000硫酸根离子70.7800.a11.000PH.1000.a11.000TDS22.2100.a11.000Total钾离子1.71001.017021010.000钠离子27.11004.710851010.000镁离子1.0757E222.846691010.000钙离子29.77804.196901010.000碳酸氢根离子42.40308.488361010.000氯离子1.9001E251.220501010.000硫酸根离子2.4311E260.735991010.000PH.3090.202561010.000TDS2.4723E2230.126691010.000a. Insufficient data(2) 判别函数的有效性检验表下表为WilksLambda统计量,该统计量进行检验的零假设是各组各变量均数相等。P0.001原假设成立的概率极小。说明该判别函数能将两类很好的区分开。表中自左至右各列:比较的函数编号;WilksLambda统计量值范围0-1,越大表示组均值差异越小,值为1个组均值相等;Chi-square是对WilksLambda的卡方转换,用于确定其显著性;df用于计算显著性水平的自由度;最后一列Sig是假设检验成立的概率两个函数的Sig都很小,说明判别函数具有统计显著性。该表是对两个判别函数的显著性检验。1到2是表示两个判别函数的平均数在3个组别间的差异情况。可知Wilk Lambda的值为0.000很小,近似分布卡方值为61.648,相伴概率为0.000,认为判别函数在0.05的显著水平下是有效的。“2”表示排除第一个判别函数以后,第二个判别函数在3个组别间的差异情况,伴概率为0.036,认为判别函数在0.05的显著水平下是有效的。表6 WilksLambda统计量Wilks LambdaTest of Function(s)Wilks LambdaChi-squaredfSig.1 through 2.00061.64814.0002.03413.5086.036(3) 类中心表由下表可以知道:第一类水样中心的函数值为y1=-94.811,y2=2.641;第二类水样中心的函数值为y1=-180.920,y2=-8.584;第三类水样中心的汗水值为y1=1.026E3,y2=-1.320.表7 各水样中心函数值 Functions at Group Centroids编号Function12第一类-94.8112.641第二类-180.920-8.584第三类1.026E3-1.320Unstandardized canonical discriminant functions evaluated at group means(4) 各类的分类函数的系数下表是用判别函数对观测量分类的结果,显示了Fishen线性判别函数的系数。根据系数表可以总结出各类判别函数如下:第一类水样:F1=1.265E5*钾离子-3.131E3*钠离子-485.418*镁离子-1.029E3*钙离子+679.294*碳酸氢根离子+292.238*氯离子-2.790E4*PH-8.188E4第二类水样:F2=9.880E4*钾离子-2.451E3*钠离子-356.622*镁离子-764.949*钙离子+516.074*碳酸氢根离子+533.961*氯离子-2.171E4*PH-5.152E4第三类水样:F3=4.854E5*钾离子-1.201E4*钠离子-2.231E3*镁离子-4.548E3*钙离子+2.809E3*碳酸氢根离子+2.764E3*氯离子-1.084E5*PH-1.143E6使用Fishen判别法的方法是测得一种水样的7个自变量:钾离子、钠离子、镁离子、钙离子碳酸氢根离子、氯离子、PH的值,将7个自变量代入上述3个函数式,得到3个函数值。比较这3个函数值,哪个值大就可以判断被测量的水样属于哪一类。表8 判别函数对观测量的判别结果Classification Function Coefficients编号第一类第二类第三类钾离子1.265E59.880E44.854E5钠离子-3.131E3-2.451E3-1.201E4镁离子-485.418-356.622-2.231E3钙离子-1.029E3-764.949-4.548E3碳酸氢根离子679.294516.0742.809E3氯离子692.238533.9612.764E3PH-2.790E4-2.171E4-1.084E5(Constant)-8.188E4-5.152E4-1.143E6Fishers linear discriminant functions(5) 分析中的先验概率下表是判别分析中的先验概率表,由于在Classification对话框中现在的是各组先验概率相等,因此各为0.333,分析中使用的观测量数加权与未加权的也都是相等的。表9 先验概率表Prior Probabilities for Groups编号PriorCases Used in AnalysisUnweightedWeighted第一类.33377.000第二类.33322.0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件转包合同(标准版)
- 客户反馈响应策略框架
- 土地流转使用年限为期的合同书
- 农村简易购房合同(标准版)
- 园林景观小品与雕塑设计方案
- 景观园路设计与布局方案
- 2025年公安机关基本级执法资格考试200题【附答案】
- 隧道通风与排水系统设计方案
- 景观广场绿地布局方案
- 2025年鹤岗市市级机关公开遴选考试真题
- 2025中美关税战时政述评-初中《道法》25年时政述评课件
- 鼻部解剖结构及其临床表现
- 生鲜农产品配送商业计划书模板
- 2025年股东退股权益申请协议书范例
- 小学生乘坐飞机安全
- 机耕路施工方案与技术措施
- 《主动脉夹层动脉瘤》课件
- 泵管架搭设施工方案
- 腹膜透析基本操作技术
- 项目二任务2:选用视觉传感器(课件)
- JB-T 8881-2020 滚动轴承 渗碳轴承钢零件 热处理技术条件
评论
0/150
提交评论