毕业设计——属性数据建模分析

上传人：仙*** IP属地：河南上传时间：2020-04-12 格式：DOC 页数：31 大小：746.82KB 积分：17 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录中文摘要2 英文摘要31引言31.1 研究背景和意义31.2 数据来源和预处理41.3 属性数据的相关概念61.3.1属性数据的定义61.3.2 名义变量和有序变量的区别61.4 SPSS和SAS介绍72基本理论72.1 相关系数的定义72.2 相关系数的显著性检验82.3 Kendall的相关系数的定义82.4 聚类分析的定义102.5 聚类分析的统计量102.5.1距离系数112.5.2 聚类分析的方法132.6 用VARCLUS过程进行变量聚类142.6.1 VARCLUS过程的原理142.6.2 VARCLUS过程的步骤143结果和分析153.1 相关性分析在SPSS中的实现153.1.1 相关性分析的结果分析163.2 聚类结果解释分析173.2.1聚类分析的结论274总结275谢辞296参考文献30属性数据建模分析某项调查数据的统计分析中文摘要摘要：本文的目的是通过对问卷调查中的数据进行相关性分析和聚类分析，以便探索出影响女性健康的因素。首先，本文把问卷中的20个问题作为变量，并用SPSS软件计算它们的Kendall的相关系数。其次，运用SAS软件实现对这20个问题的聚类分析。最终得出一些结论，如精神比较衰弱的女性心慌气短和胸闷的可能性较大，泌尿系统受感染的患者一般会有尿黄、尿频的症状等等。因此相关性分析和聚类分析对医生诊断以及开药都具有很大的指导性，故本文建议医生在诊断时要善于参考相关性分析和聚类分析的结果。关键词：属性数据；女性健康；相关性分析；聚类分析1Attribute data modeling and analysis- statistical analysis of a survey data英文摘要Abstract： The task of this paper is to explore the factors that affect womens health, so it needs to the correlation analysis and cluster analysis of questionnaire data. First of all, 20 questions in the questionnaire as 20 variables, and it uses SPSS software calculate the Kendall correlation coefficient. Secondly, it uses SAS software to achieve a cluster analysis of these 20 questions. Finally，it draws some conclusions，such as，mentally weak women are more likely to feel chest tightness and shortness of breath, Urinary system of infected female patients usually have dark urine and frequent urination，and so on. Therefore, the correlation analysis and cluster analysis have a lot guidance for doctors to diagnose and prescribe medication, so this article suggests that doctors should refer to the results of correlation analysis and cluster analysis.Kewords：attribute data；womens health；correlation analysis；cluster analysis1 引言1.1 研究背景和意义专门针对属性数据的分析方法起源于20世纪初的英国，20世纪早期，属性数据领域的研究主要集中于变量间的关联性。其后，Yule提出了属性变量关联性的优势比度量。同为统计学家和遗传学家的Fisher于1922年引入了刻画卡方分布族特征的自由度，并于1934年引入了Fisher精确检验。针对属性数据的模型最早出现在20世纪30年代，probit模型在处理毒理学中二分响应的应用中流行起来。1938年R.A.Fisher和Frank Yates提出了log(1-)变换。同是医师及统计学家的Joseph Berkson于1944年为该变换引入了术语“logit”。1951年，Jerome Cornfield通过该模型，在案例对照研究中使用优势比去近似相对风险，logistic模型逐步流行起来。20世纪50年代和60年代早期，出现了大量有关多向列联表关联性和交互结构的工作，这激起了1965至1975年间人们对对数线性模型的研究。近来，属性数据领域的研究焦点在于对聚簇关联响应数据拟合logistic回归模型。这些研究一方面对聚簇关联数据的边缘进行建模，另一方面利用广义线性混合模型进行建模。近年来，随着计算机技术的迅猛发展，针对属性数据的特殊统计方法的应用日益广泛，尤其是在生物医学和社会科学领域。这个现象一定程度上反映了过去几十年里属性数据分析方法的发展，同时也反映了科学家和应用统计学家方法论的日益精湛。随着社会分工的日益复杂，人们的工作压力日益增大，由压力而引发的健康问题也逐渐受人关注。往往，疾病的产生是有迹象的，这种迹象就蕴藏在生活的细节之中。为此，我们对感到身体不适的女性患者做了详细的问卷调查,目的是通过一系列问题来探索出影响女性健康的因素。我们的问卷遍布女性生活的各个方面，比如有常见的问题1，“您会疲乏困倦吗？”。也有心理因素方面的问题17，“您会无缘无故叹气吗？”。对于这些问题的回答，我们设立5个单选项，分别是从不、偶尔、有时，经常和总是。对于这些选项，我们赋予了有序变量类型的值，从1到5。此外，我们也对被调查者的文化水平做了详细的记录，同时也赋予有序变量类型，从1到5依次变高。1代表“小学、初中、无”，2代表“高中、中专、职高、中技、职工”，3代表“专科、大专、大学、大本、本科”，4代表“研究生、硕士、硕研”，5代表“博士”。因此，这篇文章主要分析问卷中问题的相关性以及对问题的聚类分析。1.2 数据来源和预处理本文的实测数据来源于XXX，该数据为女性健康信息。在统计学的研究中，数据可以说是至关重要的。对于庞大的数据，如何利用适合该数据的数据处理软件是统计分析一开始必须做的工作。适合数据类型的数据库可以大大简化统计分析的过程，同时可以很方便地得到正确的结论。因此，我们准备选用MS Excel软件对数据进行初步处理。Microsoft Excel是微软公司的办公软件Microsoft office的组件之一，是由Microsoft为Windows和Apple Macintosh操作系统的电脑而编写和运行的一款试算表软件。Excel是微软办公套装软件的一个重要的组成部分，它可以进行各种数据的处理、统计分析和辅助决策操作，广泛地应用于管理、统计财经、金融等众多领域。由于我们的数据的来源是调查问卷，因此我们利用Excel强大的赋值和筛选功能可以大大简化我们的程序，使文字化的数据变为属性数据。为了简单起见，对有缺失值的数据通过Excel筛选功能直接删除，最后将剩下的问卷中20个问题的的数据采集输入到Excel软件中。具体数据情况如表1.1所示。表1.1 Excel数据整理情况人员编号文化程度文化程度赋值问题1问题19问题201硕士42112大专33223初中12114大专33225中专24226高中22117大专32228高中22119大专3223 . . . . . . . . . . . . . . . . . . . . .1024硕士42411025大学32311026大学33231027大学3231表1.1显示了Excel中数据井然有序的状态。选择好整理数据的软件以后，我们还要选择软件对数据进行统计学的分析，比如相关性分析和聚类分析。同时，为了便于分析类别，我们把这20个问题制成表2.1以供查阅。表2.1 问卷调查中的问题列表1 您会疲乏困倦吗？2您会心慌气短（呼吸急促，接不上气）吗？3您患感冒的频率如何？4您喜欢安静、懒得说话（喜欢懒言）吗？5您稍一活动就出虚汗吗?6您感到全身或手脚怕冷吗？7您受冷、进冷食时拉肚子吗？8您白天尿多、色清吗？9您夜间小便2次以上吗？10您感到手脚心发热或手脚心出汗吗？11您感到口唇发干或口干喝水多吗？12您面部潮红或偏红吗？13您大便秘结或干燥吗？14您小便时尿道有发热感、或尿色深浓吗？15您感到情绪低沉或情感脆弱吗?16您会精神紧张、焦虑不安吗?17您会无缘无故叹气吗？18您月经前感到乳房胀痛吗？19您面部油腻或鼻部油腻吗？20您舌苔厚腻吗？1.3 属性数据的相关概念 1.31属性数据的定义首先我们定义属性数据，属性变量是具有由类的集合组成的度量表。例如，政治哲学可分为“自由主义者”，“温和主义者”或“保守者”；住房类型的选择可分为“独立住宅”，“套房”或“公寓”；对文化水平可分为“小学，“中学”，“大学”和“研究生”。属性量表在调查态度和意见的社会学科中十分普遍，同时，属性量表也经常出现在保健学、行为学、教育学、公共健康和动物学等领域。当被研究问题的结果能够按是否符合特定的标准而划分为不同的类别时，属性变量就产生了。1.32 名义变量和有序变量的区别属性数据的度量量表主要有两种类型。许多属性量表具有自然的顺序，例如，治疗效果（很好，好，一般，差）、公司存货水平的评估（太低，合理，太高）、感到焦虑症状的频率（从不，偶尔，经常，总是）等。具有有序量表的属性变量就称为有序变量。非有序量表的属性变量则称作名义变量，例如，宗教信仰（天主教徒，犹太教徒，新教教徒，其他）、喜爱的音乐类型（古典，乡村，摇滚，爵士，民族）等。对于名义变量，各类别的排序并不重要。统计分析并不依赖于各个类的排列顺序。针对名义变量的分析方法所得的结果并不因为各类别排列顺序的改变而异，针对有序变量的分析方法要依赖各个类排序的顺序。大多数情况下，各类别由低水平到高水平排列还是由高水平到低水平排列并不会对结果造成影响，但若按其它方式重新排列各个类别，结果便会改变。适用于有序变量的分析方法并不适用于名义变量，因为名义变量并不具有有序的类别。名义变量和有序变量均可用名义变量分析法，因为它们仅要求具有属性量表即可。然而，当使用名义变量分析有序变量时，并没有利用有序变量各类别顺序的信息，这可能会导致严重的功效损失。通常，我们最好针对数据真实的量表类型使用相应的分析方法。属性数据一般是定性的，它区别于诸如体重、年龄和收入等数值变量或定量变量。我们将发现把有序数据当作定量变量处理通常是有利的，例如，给各类别分配有序得分。1.4 SPSS和SAS介绍 SPSS（Statistical Package for the Social，社会科学统计软件包）是由美国斯坦福大学开发的统计分析软件，它使用Windows的窗口方式展示各种管理和分析数据的方法，可方便地用于特定的科研统计。其基本功能包括数据管理、统计分析、图表分析、输出管理等，它在社会科学、自然科学的各个领域都能发挥巨大的作用，并已经应用于经济学、生物学、教育学、医学以及体育、农业、林业等各个领域。SAS（Statistics Analysis System）软件是在20世纪70年代由北卡罗莱纳州立大学编写出来的，当时用来处理数据，作生物分析用。随着SAS的发展，SAS内部自带函数和过程一直在增加，功能逐渐强大和完善。目前，SAS主要应用在金融、数学、通信、经济、生物医药和科研院所等领域。在统计分析领域，SAS是世界上公认的最具权威的统计分析工具之一，其统计分析指标得到国际公认。 2 基本理论2.1 相关系数的定义相关系数是变量之间相关程度的指标，根据相关性可以衡量变量之间相关程度的强弱。若相关系数是根据总体全部数据计算的，称为总体相关系数，记为；总体相关系数的计算公式为：式中，为变量X和Y的协方差，和分别是X和Y的方差。若相关系数是根据样本数据计算的，则称为样本相关系数（简称为相关系数），记为r。总体相关系数的计算公式为：一般情况下，总体相关系数是未知的，我们通常是将样本相关系数r作为的近似估计值。相关系数有如下性质：相关系数的取值范围：-1r1，若0r1，表明X与Y之间存在正线性相关关系；若-1r0，表明X与Y之间存在负线性相关关系。若r=1，表明X与Y之间存在完全正线性相关关系；若r=-1，则表明X与Y之间存在完全负线性相关关系；若r=0，说明二者之间不存在线性关系。当-1r1时，为说明两个变量之间的线性关系密切程度，通常将相关程度分为如下几种情况：当|r|0.8时，可视为高度相关；0.5|r|0.8时，可视为中度相关；0.3|r|0.5时，可视为低度相关；当|r|0.3时，说明两个变量之间的相关程度很弱，可视为不相关。但这种解释不需建立在对相关系数进行显著性检验的基础之上。2.2 相关系数的显著性检验相关系数的显著性检验也就是检验总体相关系数是否显著为0，通常采用费歇尔（Fisher）提出的t分布检验，该检验可以用于小样本，也可以用于大样本。检验的步骤如下：提出假设：假设样本是从一个不相关的总体样本中抽出的，即 :=0 ;: 0 由样本观测值计算检验统计量：的观测值和衡量结果的极端性的p值：进行决策：比较p和检验水平作判断：p，拒绝原假设；p，不能拒绝原假设。在这个定义中，Kendall的相关系数的取值范围为-1和1之间。值越接近于1，则越倾向于认为正相合；若越接近于-1，则越趋向于负相合。2.3 Kendall的相关系数的定义由于本文20个问题选项的数据类型为有序的属性数据，不像传统意义上的数据那样能实现四则运算。因而我们必须找出适用于属性数据相关系数的定义。经过查阅相关资料，我们了解到Kendall的相关系数可以度量有序属性数据的相关性。其相关系数的定义如下：设有成对的有序属性数据，, ,则它们的Kendall的相关系数为：其中符号函数sign的定义如下：由于成对数据来自于连续型随机变量，为简化起见，假设数据中没有相等的情况。所以z的最大值和最小值分别为和。从而的值正在-1和1之间。的值越接近于1，则越趋向于认为和正相关，它们之间有同步上升或同步下降的趋势。反之，的值越接近于-1，越趋向于认为和负相关，一个上升时，另一个则有下降的趋势；或一个下降时，另一个有上升的趋势。下面讨论如何定义度量列联表相合关系的Kendall的相关系数。令显然，。由于，所以有。从而得出于是度量列联表相合关系的Kendall的相关系数的定义为的值在-1和1之间。其值越接近于1，则越倾向于认为正相合；若越接近于-1，则越趋向于负相合。2.4 聚类分析的定义设有n个样品（多元观测值），每个样品测得m项指标（变量），得到观测数据，如图2-1所示。其中数据又称为观测数据阵或简称为数据阵，列向量表示第j项指标（j=1,2,m）;行向量表示第i个样品（i=1,2,n）。图3.1观测数据聚类分析是将样本个体或指标变量按具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标（变量）之间存在着程度不同的相似性（亲疏关系），于是可根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量划分类型的依据，把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或变量）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到所有的样品（或指标）聚合完毕，这就是分类的基本思想。由此可知，聚类分析的任务有两个：一是寻找合理的度量事物相似性的统计量，常用的聚类统计量有距离系数和相似系数两类。距离系数一般相对于对样品分类，而相似系数一般用于对变量聚类；二是寻找合理的分类方法。2.5 聚类分析的统计量聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量，故聚类的第一步需要给出两个指标或两个样品之间相似性度量的统计量。用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的，前者用的统计量是距离系数，后者用的统计量是相似系数。距离系数的定义有很多，如欧氏距离、极端距离、绝对距离等。同样，相似系数的定义也很多，如相关系数、夹角余弦、联列系数等。下面2.5.1将给出它们的计算公式。2.5.1距离系数设有n个样品，p个指标，数据矩阵为：因每个样品有p个指标，故可以将每个样品看成p维空间中的一个点，n个样品就构成了p维空间中的n个点。因此，我们可以用距离来度量样品之间接近的程度。令是第i个样本观察值，是第j个样本观察值，那么这两个样本和之间的距离常用的有以下几个。（1）明氏（Minkowski）距离当q=1时，为绝对距离；当q=2时，为欧氏距离；当q=3时，为切比雪夫距离。当各变量的测量值相差悬殊时，采用明氏距离并不合理，而需要先对数据标准化，然后用标准化后的数据计算距离：其中：明氏距离，特别是其中的欧氏距离是人们较为熟悉的，也是使用最多的距离。但明氏距离亦存在不足之处，主要表现在两个方面：第一，它与各指标的量纲有关；第二，它没有考虑指标之间的相关性，欧氏距离也不例外。（2）马氏（Mahalanobis）距离设表示指标的协方差阵，即其中如果存在，则两个样品之间的马氏距离为:这里的为样品的P个指标组成的向量，即原始资料阵的第i行向量。样品类似。顺便给出样品X到总体G的马氏距离定义为：其中为总体得均值向量，为协方差阵。马氏距离既排除了各指标之间相关性的干扰，而且还不受各指标量纲的影响。除此之外，它还有一些优点，如可以证明，将原数据作一线性交换后，马氏距离仍不变，等等。（3）兰氏距离此距离仅使用于一切的情况。这个距离有助于克服各指标之间量纲的影响，但没有考虑指标之间的相关性。计算任何两个样品和之间的距离，其值越小，表示两个样品的接近程度越大；值越大，表示两个样品的接近程度越小。如果把任何两个样品的距离都算出来，则可排成距离阵D：其中，。D是一个实对称阵，所以只须计算上三角部分或下三角部分。根据D可以对n个点进行分类，距离近的点归为一类，距离远的点归为不同类。（4）类间距离类间距离是用来度量一个类（一组样本）与另一个类（另一组样本）之间距离的统计量。类间距离的定义方法很多，它们都是以距离系数为依据的。令类A中有a个样本，类B中有b个样本，为类A、B中一对样本之间的距离，。假设为类A和类B之间的距离，那么，常用的几种类间距离定义的方法如下。最短距离法。定义类间距离等于两类中距离最小的一对样本之间的距离，即: 最长距离法。定义类间距离等于两类中距离最大的一对样本之间的距离，即：平均距离法。定义类间距离等于两类中所有样本对距离的中间值，即：重心距离法。定义类间距离等于两类的重心之间的距离，即：其中，分别为类A和类B的重心，这里的重心指的是类内所有样本的均值坐标。中间距离法。定义类间距离等于两类中所有样本对距离的中间值，即： 2.52 聚类分析的方法聚类方法大致有系统聚类法（谱系聚类）、分解法（最优分割法）、逐步聚类法、有序样品的聚类等方法。当然，采用不同的分类方法会得到不同的分类结果，有时即使是同一种聚类方法，因距离的定义方法不同也会得到不同的分类结果。对任何观测数据都没有唯一正确的分类方法，故在实际应用中，由实际工作者决定所需要的分类数和分类情况。在聚类分析中，根据分类对象的不同，聚类分析分为两种：样本聚类：样本聚类是对样品（观测）进行的分类处理，又称为Q型分类，相当于对观测数矩阵按行分类。变量聚类：变量聚类是对变量（指标）进行的分类处理，又称为R型分类，相当于对观测数矩阵按列分类。本文是对问题进行聚类分析，故而是针对变量的聚类分析，下面着重介绍变量（指标）聚类。变量聚类对k个变量（指标）进行的具体步骤如下：确定各类的类内指标总变异被类分成所解释的最低比例P。把所有的的指标看成一类，计算类内指标总变异被类内成分所解释的比例，如果所解释的比例大于或等于P，则聚类停止，否则进行。将这个类分解成两类，分类的原则是使得每一类内的指标总变异尽可能地被该类的类成分所解释，且类间相关系数达到最小，计算每一类的类内指标总变异被类成分所解释的比例，如果所解释的比例大于或等于P，则聚类停止，否则进行。最后解释比例最小的一类，再继续进行分解。重复以上步骤，直到所有类的类内指标总变异被类成分所解释的比例都大于或等于P为止。2.6 用VARCLUS过程进行变量聚类SAS提供的VARCLUS过程是专门用于进行分类的，它根据相关阵或协方差阵对变量进行分裂聚类或谱系聚类。类的选择原则根据主成分分析和因子分析的思想，使每一类的类分量（第一主成分或重心分量）所解释的方差为最大。2.6.1 VARCLUS过程的原理VARCLUS过程对变量聚类的原理是使原始变量总方差中由类分量所解释的部分达到最大化，其中会用到对相关系数矩阵或协方差矩阵的分析。若用相关系数矩阵（默认）进行分析，则全部变量具有完全相同的重要性，对分析结果的影响等，若用协方差矩阵进行分析（使用选项COVARIANCE），则具有较大方差的变量会对分析结果有更大的影响。2.6.2 VARCLUS过程的步骤如果没有为VARCLUS过程提供初始分类的情况， VARCLUS过程开始把所有变量看成一个类，然后它重复一下步骤：首先挑选一个将被分裂的类。通常这个被选中的类的类分量所解释的方差百分比最小（选项PRECENT=）或者同第二主成分有关的特征值为最大（选项MAXETGH=1）。把选中的类分裂成两类。首先计算前两个主成分，再进行斜交旋转，并把每个变量分配到旋转分量对应的类里，分配的原则是使变量与这个主成分的相关系数为最大。变量重新归类。通过多次反复循环，变量被重新分配到这些类里，使得由这些类分量所解释的方差为最大。当每一类满足用户规定的准则时，VARCLUS过程终止。所谓准则，或者是每个类分量所解释的方差的百分比，或者是每一类的第二个特征值达到预先设定的标准为止。如果没有规定准则，则当每个类只有一个特征值大于1时，VARCLUS过程终止。3 结果和分析3.1 相关性分析在SPSS中的实现有了上面的知识准备，我们就可以开始相关性分析了。若能分析出20个问题中一些关联度较大的问题，就能对医生诊断患者提供非常有效的参考依据。SPSS软件给我们提供了相关性的计算功能。具体步骤为在“分析”菜单的“相关”子菜单中选择“双变量”命令，在弹出的如图1-1所示“双变量相关”对话框中，从对话框左侧的变量列表中依次选择q1至q20变量使它们进入“变量框”。再在“相关系数”框中选择Kendall的tua-b，显著性检验选择默认的双侧检验。然后点击“确定”，就可以得到相关性计算表格。图3.1“双变量相关”对话框3.11 相关性分析的结果分析因考虑到得到的相关系数计算表格比较大，在word文档中不便给出，故只给出部分的相关系数的计算表格，见表3.1和表3.2。从SPSS的相关性计算表格中，我们能得出一些有用的信息。表3.1 q1与q2至q20的相关系数表q2q3q4q5q6q7q8q9q10相关系数.316.099.141.254.193.188.072.095.111Sig.(双侧).000.000.000.000.000.000.007.001.000N102710271027102710271027102710271027续表3.1q11q12q13q14q15q16q17q18q19q20.201.087.159.164.282.285.291.162.136.190.000.002.000.000.000.000.000.000.000.0001027102710271027102710271027102710271027注：*在置信度（双侧）为0.01时，相关性是显著的，*在置信度（双侧）为0.01时，相关性是显著的。由表3.1可以看出，q1与q2的相关系数为0.316，在这个数据的旁边有两个星号，表示用户指定的显著水平为0.01时，统计检验的相伴概率小于等于（在表格中显示为“.000” ）0.01，即q1与q2显著正相关。同理可得，q1除与q8、q9和q12显著不相关外，与其他的均显著相关。于是若要对问题1“您会感到疲乏困倦吗？”进行研究，则可以把问题1固定住，再以0.25为界就能筛选出与问题1相关性较强的问题有四个。它们分别为问题2“您会心慌气短吗（呼吸短促，接不上气）吗？”，问题15“您感到情绪低沉或情感脆弱吗?”，问题16“您会精神紧张、焦虑不安吗？”，问题17 “您会无缘无故叹气吗？”。这说明问题2、问题15、问题16、问题17与问题1的相关性比较大。表3.2 q3与q4至q20的相关系数表q4q5q6q7q8q9q10q11相关系数.049.139.121.153.075.072.096.143Sig.(双侧).078.000.000.000.006.012.001.000N10271027102710271027102710271027续表3.2q12q13q14q15q16q17q18q19q20.109.155.127.055.044.082.041.085.091.000.000.000.048.122.004.126.002.001102710271027102710271027102710271027同时，问题3“您患感冒的频率如何？”也值得我们研究，感冒一般是身体虚弱的女生中常见的疾病，因此我们对这一症状进行相关性分析。通过查看相关系数表3.2，我们可知与问题3相关性排在前三位的问题是问题7“您受冷、进冷食时拉肚子吗？”，问题11“您感到口唇发干或口干喝水多吗？”，问题13“您大便秘结或干燥吗？”。在这三个问题中我们容易知道，这是由于女性患者气虚和免疫力下降引起的，而经常感冒可能也与这个原因相关。这一相关性研究也对医生治疗患者给予了启示。3.2 聚类结果解释分析把整理好的数据文件通过菜单文件中的“import data”导入SAS中，然后根据弹出的对话框一步一步的往下做，将导入的数据保存在Sausuer（永久型）数据集下，并命名。接下来在命令窗口输入相应的聚类分析的SAS程序，运行后，便得到聚类结果，其结果分析如下：（1）如图3.2所示。是基本信息，包括样本数、指标变量个数以及对分类的要求。当不使用proportion选择项时，maxeigen自动设置为1。图3.2基本信息（2）第一步：如图2-1所示。这是用分解法思想进行斜交主成分分聚类的第一步，把全部20个变量聚成一类，能解释的方差为4.416329，占总方差20的22.08%，第二特征值为1.3487，并预告这一分类会被分裂。图3.3斜交主成分聚类第一步（3）第二步：由于SAS软件设置的关系F4、F5、F6、F7、F8、F9、F10、F11、F12、F13、F14、F15、F16、F17、F18、F19、F20、F21、F22、F23分别代表我们原来的问题q1、q2、q3、q4、q5、q6、q7、q8、q9、q10、q11、q12、q13、q14、q15、q16、q17、q18、q19、q20。将一类分成F4、F5、F7、F8、F9、F10、F18、F19、F20和F6、F11、F12、F13、F14、F15、F16、F17、F21、F22、F23两大类，图2-3给出聚类概要表明各类中的Variation Explaned（解释方差，即第一特征值）、Second Eigenvalue（类中的第二特征值）等。此时能解释的方差为5.695241，占总方差的28.48%。图3.4聚类概要图3.4给出了相关系数的平方，其中第3列R-Squared With Own Cluster是指每个变量与所属类分量之间的相关系数的平方，如：变量F4在第一类中，它与第一类分量（相当于主成分分析中的第一主成分）之间的是0.4045,同理可理解该列中其他相关系数的含义。如：F4与第二类分量之间的相关系数平方为0.1046，该值越小，说明分类越合理。第五列R-squared with 1-R*2Ratio是由同一行的数据求得：如：（1-0.4045）/（1-0.1046）=0.6651,此值越小，说明分类越合理。从此列可看出，所有比值都较大，说明这20个变量分为两类是很不合适的。图3.5相关系数的平方图3.5给出从标准化变量预测类分量的标准回归系数。若设、分别为第一和第二类分量，则 =0.204718F4+0.187281F5+0.130763F7+0.180037F8+0.141927F9+0.131624F10+0.236183F18+0.235504F19+0.216062F20=0.135218F6+0.165245F11+0.135870F12+0.186653F13+0.221408F14+0.182641F15+0.205780F16+0.221775F17+0.126748F21+0.206258F22+0.234315F23。图3.6给出的类结构相当于因子分析中的因子模型，即每个标准化变量可以表示成全部类分量的线性组合。如：F4=0.204718。而类内相关就是类分量之间的相关系数矩阵，这个相关系数越小，聚类则越合理。由图2-7可以得到最大的第二特征值为1.143087，它大于Maxeigen=1，因此要继续进行分类。图3.6标准回归系数图3.7类结构图3.8 类内相关（4）第三步：将20个变量分为三类，其聚类概要和相关系数的平方分别如图2-8、2-9所示：图3.9聚类概要图3.10相关系数的平方而相关系数矩阵见图3.11，可得到最大第二特征值1.079389大于1，因而需要进一步进行分类。图3.11类内相关（5）第四步：将20个变量分为四类，其聚类概要和相关系数的平方分别如图3.12、3.13所示：图3.12聚类概要图3.13相关系数的平方其相关系数矩阵而相关系数矩阵见图3.14，可得到最大第二特征值为1.013294大于Maxeigen=1，因而需要进一步进行分类。图3.14类内相关（6）第五步：首先给出将四类分为五类的聚类概要。五类分别为F7、F18、F19、F20；F6、F13、F14、F15、F16、F17；F21、F22、F23；F11、F12；F4、F5、F8、F9、F10。此时能解释的方差为8.777689，占总方差20的43.89%，如图3.15所示。接着给出各变量与类间的相关系数的平方（见图3.16）、标准回归系数（见图3.17）以及类分量之间的相关系数矩阵（见图3.18）。图3.15聚类概要图3.16相关系数的平方图3.17标准回归系数图3.18类分量之间的相关系数矩阵此时已达到默认的停止分裂的临界值，即每个类中只有一个特征值大于1，所以停止分裂。令、表示5个类成分，则由标准回归系数（见图2-16）可得到类成分关于指标变量的线性组合表达式： =0.217580F7+0.392611F18+0.387452F19+0.339637F20=0.227398F6+0.282853F13+0.311251F14+0.288979F15+0.305991F16+0.332269F17=0.3963344F21+0.526952F22+0.481256F23=0.634959F11+0.634959F12=0.341435F8+0.2545568F9+0.268512F10图3.19汇总信息最后，给出整个聚类过程的汇总信息（见图2-18）。它列出了分成1类、2类、3类、4类和5类等聚类结果的统计量。从中可以看出，总体变异被所有聚类成分所解释的比例随类别数的增加而增大，分别为22.08%、28.48%、33.70%、38.95%和43.89%；类内总体变异被该聚类成分所解释的比例的最小值随类别数的增加而增大，分别是22.08%、23.53%、26.65%、32.29%和32.29%；最大的第2特征值随类别数的增加而减小，分别为1.348663、1.143087、1.079389、1.013294和0.938634；指标变量的自身相似系数的最小值随类别数的增加而增大，分别是0.0756、0.1076、0.1638、0.1722和0.1941；1减去自身的与1减去相邻的比值随类别数的增加而减小，后两种聚类分别是0.8616和0.8463。图3.20聚类树状图、（7）第六步：图3.20是聚类树状图，它显示了各种可能的聚类方法。图的横轴（下方）是聚类的个数，纵轴（右边）是指标变量名。从纵轴的任意一点画一条垂直直线，观察图形被这条垂直直线分割成了几个部分，每个部分包含了哪几个指标变量。从图中可以直观地看出，将这20个变量聚成3类是相对合理的。第一类包括:F6、F11、F12、F13、F14、F15、F16、F17；第二类:F21、F22、F23第三类：F4、F5、F7、F8、F9、F10 、F18、F19、F20。所以根据上面的聚类分析结果我们可以看出，这20个问题应分为三大类，聚类结果如表3.2所示。表3.2 聚类结果类别表类别问题类别1q1、q2、q4、q5、q6、q7、q15、q16、q17类别2q3、q8、q9、q10、q11、q12、q13、q14类别3q18、q19、q203.2 .1 聚类分析的结论我们来分析一下类别一发现，问题1、问题4、问题15、问题16和问题17都是精神方面的问题，且问题2也在类别一中。所以可认为精神方面比较衰弱的女性心慌气短的可能性比较大。这给了医生一个指导性的建议，当发现女性患者有心慌气短的症状时，应试图了解她们的精神状况，这样在治疗时可以注意使用一些改善精神状况的药品。类别二中的问题8、问题9、问题10和问题14都是由泌尿系统感染引起的，这也符合我们的常识，一般泌尿系统感染患者会有尿频、尿黄等症状，同时还可能会出现由自身免疫力下导致内分泌失调而引起的问题11、问题12和问题13。我们再研究一下类别三，类别三中问题18、问题19和问题20都是与人体器官发生异常方面的问题。如问题18和问题19都是由于性腺分泌紊乱引起的，问题20是由肠胃的消化功能减退导致积滞有宿食而引起的。由此我们可以看出，聚类分析的意义很大，它对医生诊断以及开药具有有效的指导性，所以我们建议医生在诊断时要善于参考聚类分析的结果。4 总结本文的主要工作可大致分为三个部分：第一部分第一章，主要介绍论文的研究背景及意义、属性数据的相关概念和简要介绍用到的统计软件SPSS与SAS；第二部分为第二章，主要涉及相关系数的定义和相关系数种类的选择，同时详细地讨论了聚类分析的定义、步骤和方法等相关理论知识；第三部分为第三章，主要是对用SPSS和SAS软件来处理数据的结果进行分析，从而得出相应的结论。本文通过对女性患者数据进行相关性分析和聚类分析，得出以下结论：（1）对于属性数据的相关性分析不可以简单地使用传统意义上的相关系数，而要恰当的选择Kendall的相关系数来进行相关性分析。（2）聚类分析可以让凌乱的问题变得简单且有条理，医生在进行患者的病理分析时可以采用这种方法。（3）医生在诊断女性患者时要注意内外兼治，不能只看到外部的症状表现，同时还应关注女性患者的心理状态。毕业设计基本达到了预期的效果，但由于专业知识和时间不足的关系，还有很多不足之处。例如，SAS软件的功能很多都不会运用，因而没能够通过Logistic回归模型对问题与症状之间建立模型来建立问题与症状之间的回归预测模型。同时，也没能够单独考虑高学历女性生理健康，从而分析高学历女性的特殊性。5 谢辞本毕业设计是在我的指导导师XXX学态度、严谨的治学精神、精益求精的工作作风一直是我学习的榜样，同时也深深地感染和激励着我，让我受益匪

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

毕业设计——属性数据建模分析

文档简介

温馨提示

最新文档

评论

毕业设计——属性数据建模分析

文档简介

温馨提示

最新文档

评论

相关文档