第六章 统计学实践.doc_第1页
第六章 统计学实践.doc_第2页
第六章 统计学实践.doc_第3页
第六章 统计学实践.doc_第4页
第六章 统计学实践.doc_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

正点商务统计系统商务调查与统计实践 http:/www.SquareS第六章 统计学实践6.1 描述性统计应用描述性统计量在对总体现象进行分析中,可以说明被研究总体在一定时间、地点条件下所达到的规模和水平,也用来反映现象间的数量联系程度。总的来讲,描述性统计量可以看作和对现象离中的趋势进行度量。例如,企业职工的工资是统计研究的重要的经济现象之一,无论某一个企业全体职工的工资总额,或是个别职工的工资额,都具有一定意义。但是,不同企业职工的工资总额,或个别职工的工资额都是不相同的。工资颇依据工人的熟练程度、经验、技艺等而发生变动或变异。因此,为了回答企业中每个职工的月工资是多少这个问题,或者为了比较不同企业或不同时期职工的工资,我们应该度量工资的集中趋势,即计算平均工资。6.1.1 集中趋势的基本概念和作用(一)基本概念集中趋势亦称趋中性,它是统计学中一个特有的概念,由于它表明同类现象在一定时间、地点条件下,所达到的一般水平与大量单位的综合数量特征,如用平均工资说明工人工资收入的般水平,用平均单位面积产量说明农作物生产的一般水平等,因而在统计学中,集中趋势由均值(平均指标)给出度量,均值也叫代表值,它有三个特点: 1它是用一个代表数值来综合反映总体各单位某种标志值的一般水平或代表水平。 2它将总体各单位某种标志值之间的差异抽象掉了。3一般用有单位的名数表示,其计量单位与标志值的计量单位相一致。(二)作用集中趋势在统计分析研究中主要作用有:1可以比较若干总体的某种标志数值的平均水平。例如,各地区、各单位粮食单产、劳动生产率的对比,不同文化程度的职员收入水平的对比等等,从而说明各单位或各部门、各地区某一数量标志般水平上的差异。2可以研究总体某种标志数值的平均水平在时间上的变化情况,用以说明该总体发展水平的发展趋势和规律。例如,研究我国公民家庭历年的平均每人纯收入,可以看出国民收入逐步提高的过程。研究我国历年粮食平均亩产,可以反映出粮食生产增长的基本趋势。3可以分析社会经济现象之间的依存关系。要发挥这方面的作用,必须和分组法相结合。例如研究的目的如果是分析某乡农民家庭生活水平的高低与农民家庭人口数多少的相互关系。这时,我们需将该乡的家庭户数按平均每人每月生活费收入分组,在此基础上再计算各组的平均每户人口数(见表61)。表61 某乡1987年第一季度农民家庭生活情况按平均每人每月生活费收入分组(元)调查户(户)家庭人数(人)平均每户人口数(人)15以下15-2020-2525-3030-5050以上99319669125449162403239356.03.52.9合计2269424.2从上表可以看出,农民家庭生活水平的高低与农民家庭人口数的多少成反方向变化,即家庭人口多的,平均每人每月生活费收入少;反之,则生活费收人高。4可以作为研究和评价事物优劣的数量标准。5可以用以计算和估算其他重要的经济指标。6.1.2 集中趋势描述性统计量度量集中趋势的平均指标,可从两种途径获得,从而有两类均值位置均值和计算均值。位置均值又可分为众值、中位值和分位值,在计算均值中,包括算术均值、调和均值和几何均值等。下面分别加以介绍。 (一)众值 是指现象总体中最常遇到的数,也就是在一个变量数列中,出现次数最多的标志值。例如,在某种产品生产上,大多数职工所达到的水平;在商品市场供应上,大多数消费者对某种商品所需要的尺寸;在集市上,某种商品最普遍的成交价格等等就是众值。它不受变量数列极端数值的影响,也不受变量数列中开口组的影响。在统计研究中,从某种意义上来说,具有次数最多的标志值,用以描述集中趋势,其代表面比较大,在工商业产销分析和决策中,众值应用较多。但众值的计算只有在总体单位数足够多,而且又具有明显的集中趋势时,才有意义。 由变量数列确定众值的方法,需要根据所掌握的资料是单项变量数列还是组距变量数列而定。 在单项变量数列中,确定众值比较简单,只要观察哪个变量值的次数居多,这个变量值就是众值。根据组距变量数列确定众值,如果是等距变量数列,可分两步计算众值:第一步确定次数最多的一组为众值组;第二步利用公式计算众值。如果是不等组距变量数列时则有一个先将它换算为标准组距的次数问题。 (二)中位值 将一组变量值按大小顺序排列,位于变量数列中间位置的变量值即为中位值由于中位值位置居正中,所以可以作为代表一般水平和集中趋势的均值。在标志变异度较大的情况下,它可以避免极端数值的影响。这种特点使中位值在社会经济分析中具有特定的适用性。例如,某城镇居民家庭平均收入水平,用计算均值反映时,受极高极低两端变量值影响很大,因而代表性并不一定高,如果把所有居民家庭按收入水平排列,取中位值作为该城镇居民一般收入水平,则比较可信。关于由变量数列确定中位值的方法,要视所掌握的资料而定。如果所掌握的资料是单项变量数列,这时,需首先按标志值大小对资料进行排列,处在次数正中间一项所对应的变量值,即为中位值。(三)分位值是指将一组变量值排列后划分为若干相等部分的分割点数值。有三种:四分位值、十分位值和百分位值。(四)算术平均值它是最常用的集中趋势描述统计量,之所以如此,其原因有二:是因为它的计算方法与许多客观现象中的个别现象与总体现象之间存在的数量关系相符合:二是用算术平均值作为一组变量值的集中值,不仅考虑到变量值的次数,而且还考虑到变量值的大小。变量数列中任何次数和变量值大小的变化,都会引起算术平均值的改变。(五)调和平均值是当算术平均值计算公式中的分母项“总体单位数”未知时,算术平均值无法直接算得,这时要用调和平均法计算,但当各变量值对平均数所起的作用不同时,其计算式为:此计算式从形式上看,是以各变量值的倒数1/x来计算的,故亦称倒数平均值。(六)几何平均值这是与算术平均值不同的另一种平均值。主要适用于环比发展速度或比率均值的计算。如果掌握的资料未经分组,应采用简单几何平均值的计算方法。其计算公式为:式中 MG几何平均值 xi各项变量值(I=1,2,3,n) n变量值的项数即n个变量值连乘积,再开以n次方,其正方根为几何平均值。例如,某机械厂有四个流水连续作业的车间(毛坯车间、粗加工车间、精加工车间和装备车间),1995年3月份第一车间制品合格率为96%,第三车间合格率为90%,第四车间合格率为85%,求车间制品平均合格率。车间制品平均合格率= =91.15%6.1.3 算术平均值、中位值和众值的比较度量集中趋势的几种描述性统计量,以算术平均值、中位值和众值最为主要。它们在次数分布中的位置关系和数量关系有几种不同情况。当次数分布完全对称时,算术平均值、中位值、众值三者重叠。即当次数分布偏态时,三者背离,这时有右偏分布和左偏分布两种情况(见图61,图62)。在偏态分布中三者的数量关系为:利用此式可作相互推算。右偏分布 左偏分布图 61 图 626.1.4 离中趋势描述性统计量的目的与方法所谓离中趋势是指一组变量值分布的特征。在社会经济统计中,离中趋势分析和离中趋势分析常被结合应用。度量现象中的目的有以下几方面:(一)描述总体内部差异程度,反映社会经济活动过程的均衡性,为管理决策提供信息 设甲、乙两厂2002年第一季度各月完成供货计划情况如下(见表62):表62厂名供货计划完成情况(%)一月二月三月全季甲厂乙厂322034303450100100上表资料表明,甲、乙两厂第一季度的供货计划虽都已完成,但执行计划过程中的情况则不同,甲厂全季均衡地完成了供货计划,各月计划完成率变异程度小;而乙厂则前松后紧,各月计划完成串变异程度较大。这时,离中趋势指标就成为衡量管理工作质量的一个重要数据。(二)衡量和比较均值指标的代表性高低离中趋势指标数值的大小和均值代表性的高低之间的关系表现为:离中趋势指标数值愈大,均值的代表性愈小:反之,离中趋势指标数值愈小,均值的代表性愈大。兹假定某车间有甲、乙、丙三个班组,每组都是5人,生产同一种产品,每人每日生产件数如下;甲组 73 74 75 76 77 乙组 50 65 70 90 100丙组 75 75 75 75 75为了比较三个班组职工的生产水平,需分别计算每人平均生产件数。只看均值,三个组职工的平均生产件数都是75件人,如果结合离中趋势指标来看,甲组5个职工之间生产件数相差不多,乙组5个职工生产件数相差悬殊,丙组5个职工生产件数完全相同。因此,均值75件人对于甲组代表性就大,对于乙组代表性就小,对于丙组具有完全的代表性。由此可见,要说明均值代表性的大小,必须与离中趋势指标结合起来运用(三)为抽选样本单位数提供依据如果总体各单位标志值变异度愈小,即被研究总体愈一致,那么为了获得代表性资料,就可以抽选较少的样本单位;反之,当标志值的变异度很大时,那么为了获得代表性资料,就需要抽选较多的样本单位。离中趋势度量的方法:一是按总体内单位标志值差异距离。例如,极差和四分位差等;二是异众比率;三是按总体各单位标志值的平均离差。例如,平均差和标准差等。离中趋势的度量由变异指标给出,变异指标可以是绝对数,也可以是相对数。6.1.5 极差R 极差又称全距,是指在一个变量数列中,两个极端数值之差。用公式表示:极差=最大标志值一最小标志值例如,在上述例子中所举的甲、乙、丙三组职工生产件数资料的极差为: 甲组:R7773=4件 乙组:R10050=50件 丙组:R=7575=0可见,乙组的变异指标数值远远大于其他两组。如果统计资料经过整理,并形成为组距分布数列,由于不能确知实际的最大标志值与最小标志值,通常只能用最大组的上限与最小组的下限之差作为极差的近似值,其计算公式为:极差=最大组的上限一最小组的下限极差是度量离中趋势的一种粗略方法。极差小,表示均值代表性大;极差大表示均值代表小。它计算简便,易于了解。但由于它的值是由两个极端标志值决定的,因此,个别远离群体的异值,在很大程度上会影响极差,以至使度量的结果往往不能充分反映现象的实际离散程序(见图63)。 图63 极差示意图在实际工作中,极差适用于度量变化比较稳定的现象的离中趋势。例如,在正常生产条件下用于检查产品质量的稳定性和进行质量控制等标准差标准差亦称根方差,其平方称为方差,即。其计算式为:(简单式)或(加权式)标准差为的正根。如果方差用Dx表示,则标准差=6.1.6 偏斜度的描述性统计量均值反映次数分布的集中趋势,变异指标反映次救分布的离中趋势。但是,当两个分布的均值和变异指标都相同时,其分布的形态可能不完全一样,其中一个为常态分布,另一个为偏态分布,这时两者的比较就要用到另一个重要指标偏斜度。偏度除了用中心位置和离散程度来描述一组数据的分布之外,还有几个方面是应该注意的。例如,有的分布具有两个众数。如果一个分布在中位数左右两侧是形状对称,则称该分布是对称的。一般情况下,对称分布的平均数、中位数和众数都相等。但有些分布不是对称的。分布的对称性可用偏度来度量。偏度a3的定义为:在上式中,s为标准差,为平均值。根据a3的取值,可分为:右偏:a30;无偏倚:a3=0;左偏:a33.2mm叶丝的比例,必须提高叶片结构中12.7mm叶片的比例,而12.7mm的叶片又由25.4mm的叶片和12.7-25.4mm的叶片所组成。考察哪一部分对叶丝结构的影响更为显著,可采用方差分析。另一个例子是,调查吸水剂、生根粉处理对对照。经方差分析得出,各处理的差异显著与苗木本身无关,对苗木存活率的影响差异显著。在金融分析中也常常用到方差分析。例如,要研究“不同风格的基金的表现是否具有差异”这一问题,计算不同风格基金的平均净值增长率,可以用方差分析的方法,对不同风格基金的表现是否存在差异进行统计检验。有学者对2002年不同风格基金的表现进行方差分析,从统计检验结果看,不能拒绝不同风格基金表现无差异的假设,也就是说,不同风格基金在表现上的差异在统计上是不可分辨的,这一结果也在一定程度上印证了“中国基金无风格”的说法。方差分析还常用在教育活动研究中,比如,为优化幼儿园美术活动结构,分成实验班和对比班进行对照,方差分析结果表明,实验班创设实施的教育与对比班有显著差异,应提倡实验班的方法。在“互联网使用与做作业时间”问题上,统计说明,青少年用户平均每天做作业87.1980分钟,非用户每天平均做99.4434分钟,方差分析检验用户与非用户在做作业时间多少上没有显著差异,说明互连网使用对作业时间无重要影响。单因素方差分析和双因素方差分析在市场营销中也有具体应用。 1单因素方差分析 单因素方差分析只检验一个变量的影响。例如某服装公司拟通过市场调研检验不同年龄的消费者对该公司生产的T牌休闲服购买量有无显著性差异,以决定是否细分市场。于是选择了一组调查对象,将调查对象按年龄因素分为老(A1)、中(A2)、青(A3)三个水平。随机调查了该公司下辖的十五个专卖店在某一段时间内不同年龄消费者的购买情况,获得资料,进行方差分析,结论是不同年龄组对T牌休闲服的购买量有一定的影响,但显著性不强,因此对厂家而言,如果单从年龄因素考虑的话,没有必要细分市场。 2双因素方差分析 前面介绍的单因素方差分析法只考察了一个变量的影响,但在许多实际问题中,往往不能只考察单一因素各水平下的影响,而必须同时考察几种因素的影响作用,比如前面我们已经验证不同年龄的消费者对T牌休闲服的购买量存在一定的影响(不显著),事实上除年龄这个因素外,其它因素诸如消费者收入水平、消费者偏好、交通便利情况等也会对销售量产生影响,甚至是显著性影响。假如人们再将前面15家专卖店按交通便利情况分成5组,每组3家进行考察,则除年龄因素外,交通便利情况也构成了影响销售量的一大因素,必须考虑用双因素方差分析进行检验。双因素方差分析法与单因素方差分析法在某些方面虽然存在着本质的区别,但其基本思想和基本方法大致相同。这里我们把年龄因素设为A因素,交通便利情况设为B因素,分析结论是消费者年龄因素影响不显著,但交通便利情况因素影响显著,所以选址十分重要。 6.4 聚类分析人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。统计学中常用的分类统计方法主要是聚类分析与判别分析。聚类分析是一种分类方法,目的是在于将相似的事物归类,可以将变量分类,但更多的是将个体或样本分类,使同类中的事物相对于某些变量来说是相同的、相似的或是同质的,而类与类之间却有着显著的差异或者是异质的。在大规模基因表达数据的分析工作,聚类分析一直是重要的方法在医学实践中经常需要做分类的工作,如根据病人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙类病的检查;等等,这里就需要进行聚类分析。运用聚类分析结合其它技术,还可以成功地鉴别真药、劣药和假药。聚类分析是一种十分有效的分析方法,经常运用到诸如市场细分,研究消费者行为,寻找新的潜在市场,选择实验的市场等市场研究中。可以用聚类分析对客户进行分组,对其采取特定的措施。聚类分析方法还是股市板块分析中的一种有效、实用的方法。在改善交通环境方面,利用主成分分析聚类分析法对城市交叉口交通运行现状进行合理的评价研究,可以针对每一类别的特点,实行分级治理的措施,提高工作效率。在地质地理方面,聚类分析可根据多种地学要素对地理实体进行类别划分,对不同的要素划分类别往往反映不同目标的等级序列,如土地分等定级、水土流失强度分级等。在气象预报方面,用聚类分析方法改进后的动力诊断方法对预报员提高预报准确性有很大的帮助。中国科学家利用中子活化分析(NAA)和模糊聚类分析的方法,判定由唐代到元代的800多年里,中国古代名瓷“古耀州瓷胎”的原料产地有着長期稳定、集中,但又彼此相对独立的显著特点。从而为古耀州瓷的鉴定、仿制提供了重要的科学依据。6.5 判别分析应用判别分析是根据已知类别(两类以上)的事物的性质(表明观察量特征的变量值),建立函数式,利用已建立的函数式对未知类别的新事物进行判断,并将之归入已知的类别的分析方法。其应用非常广泛。例如,如果教育者想判别高中毕业生中(1)哪些决定上大学,(2)哪些决定上商业或技术专科学校,(3)哪些决定参加工作,就可以应用判别分析方法。判别分析还可应用于运动员挑选, 例如“马家军”中的屡破世界记录者就是用聚类和判别分析所做的选材模型挑选出来的。 在化工工程中判别分析还用于烃类化合物分类及汽油样品的族组成分析。在工程抢险中,例如裂缝抢险,首先要进行险情判别,分析其严重程度。先要分析判断产生裂缝的原因,是滑坡性裂缝,还是不均匀沉降引起;是施工质量差造成,还是由振动引起。而后要判明裂缝的走向,是横缝还是纵缝,等等;判别分析在此可以大显身手。企业信用风险的评估一直是金融经济学理论与实务界关注和探讨的问题。判别上市公司信用风险程度也要用到判别分析。在大地构造与成矿学中,研究表明:含矿 (赋矿 +矿化 )断裂的特征元素组合为:Au、Ag、As、Sb、Pb;非矿断裂的特征元素组合为:Cr、Mn、Ti、V。将已知的赋矿、矿化和非矿断裂。作为母体,利用多类判别分析建立了非矿、矿化和赋矿的判别函数,进而转化为找矿指标。 在医学影像技术中, SPN的恶性概率接近100%,就要手术切除;恶性概率接近0,良性可能性大,则不必手术,也不必作活检。这个临界值可以通过预测患者的生存期,手术治愈率及与手术相关的死亡率构成的判别分析决定。在对网站发展情况的研究中,对网站经营前景可进行判别分析。在邮票鉴定实验中,有人编写了X射线荧光分析技术对珍贵邮票快速鉴定的在线分析程序,该程序将测量、数据获取、判别分析、邮票数据库调整等工作集中在一起,在测量的同时可完成数据获取和判别分析等工作。在法医人类学研究中,根据对成人骨盆和头骨的形态观察作出性别鉴定,准确率还不能令人满意,成人骨盆性别鉴定的准确率为95%,成人颅骨性别鉴定的准确率仅为80%。近年来,应用测量分析、判别分析、分级判别分析等方法进行性别鉴定,准确性大大增加。在生物研究中,根据香蕉分子系统图,以RAPD数据为基础,采用判别分析,可以对香蕉种质进行判别和鉴定分析。判别分析还应用于心理学研究中,在对移民的心理承受能力的探讨中,由于只知道心理承受能力的部分信息转业承受能力,而且这部分信息只取布人尔值,回归的效果是很差的。因此考虑用费尔判别分析的方法,建立判别函数,用判别函数去近似心理承受能力。判别分析还被应用于各种各样的市场研究中。例如进行品牌形象研究, 使用判别分析对主要竞争品牌的属性评价值进行分析,形成品牌定位图。6.6 主成分分析应用主成分分析是将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法。以便利用主成分描述数据集内部结构,实际上也起着数据降维的作用。该方法广泛应用于各项研究中。例如,在用科技统计数据分析我国地区科技情况的过程中,对科技人员人数、人均专利数(衡量科技人员专利产出效率)等多项指标用主成分分析方法进行简化,将多个指标转换为少数几个不相关的综合指标(称为主成分),消除数据相关性,简化数据结构,便于对数据进行分析比较。在沙尘暴的遥感监测与灾情评估中,沙尘在反射率和温度等方面都与地表、水体、积雪、云系等有一定的差异,利用主成分分析方法的特性,使原来卫星图像数据中多波段包函的综合信息进行分信息段贮存于各主分量中,对各主分量来说,含概的信息相对较少,且对某一信息而言,主要集中于某一个或两个主分量中,再针对某一信息根据其特征向量对某一个或两个主分量进行聚类分析,可以分离出沙尘的遥感信息,从而达到监测沙尘的目的。 有一种处理多年气象观测数据的新方法,以地理信息系统为技术支撑,以数字图像处理和标准主成分分析为核心,适用于处理空间分布广、时间序列长的多类型气象观测数据。为更好地描述水稻叶片机动细胞硅酸体的形态特征及其在籼、粳亚种间的差异,科学家对栽培稻机动细胞硅酸体形态性状进行主成分分析。 借助遥感数据,对内蒙古高原东南缘森林-草原过渡带进行研究,利用19921993年间12个月份的资料,通过主成分分析方法,对数据进行降维,提取前两个主分量,其中第一主分量代表NDVI的累计,第二主分量代表NDVI的年内变动程度。结果表明,由荒漠化草原带到森林带,在其第一主分量逐步增加的同时,第二主分量也随着增加。最后,再利用上述所得的两个分量对研究区进行监督分类,分类结果较为满意。在主成分分析基础上进一步筛选可持续发展指标,达到精减指标个数和便于计算可持续发展程度的目的,同时又能最大限度地保持原始信息量以完整描述可持续发展特征。 用主成分分析法进行系统测量数据建模和传感器故障检测、故障诊断、故障重构及确定最优主成分数,结果表明:主成分分析法具有很好的故障检测、故障诊断能力。 运用主成分分析的方法计算各省、市的综合实力,并依此建立等级层次,最后结合定性分析确定各省区域开发的经济增长极。运用主成分分析法建立农村信用社综合风险指标。当样品在不同环境进行评价,利用主成分分析,用于描述种质资源中的表现型多样性的模式,并进行聚类,进而建立核心样品。6.7 因子分析应用因子分析:因子分析是20世纪初期在心理学领域发展出来的一种多变量统计技术,最初应用的范围偏重于人类行为的研究,以后逐渐扩展到社会学、气象学、政治学、医学、地理学及管理学的领域。在这些领域的研究中往往需要对反映事物的多个变量进行大量的观察,收集大量的数据以便进行分析,寻找规律。在大多数情况下,许多变量之间存在一定的相关关系。因此,需要用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此不相关,这些代表各类信息的综合指标称为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少的几个因子反映原资料的大部分信息的统计学方法。因子分析的用途很广,主要有两个方面:是寻求基本结构,简化观测系统;二是用于分类,将变量或者样本进行分类,根据因子得分值,在因子轴所构成的空间内进行分类处理。所谓的因子分析变量的分类作用,就是把各种距离相近的变量进行归类。比如对领导能力评价的各种变量可以归结为两类,一类是所谓的任务技巧,另一类是所谓的人员技巧。因子分析对于样本的分类作用则可以将样本按其在主要因子上的得分划分为几类,便于以后的分析。比如可以根据不同员工对于管理人员在人员技巧和任务技巧不同属性上的打分,进行因子分析。然后根据不同管理人员在这两个因子上的得分进行分类。比如有的管理人员在人员技巧(人际沟通)上得分很高,而在任务技巧上得分偏低,这说明这些人可以主要从事于内部人员的管理,而有的人在任务技巧上的得分高而人员技巧上得分低,说明这些人处理具体事物的能力较高,而与员工的沟通上有待提高。而如果有人在人员技巧和任务技巧上得分都很高,说明他具有全面的领导能力。而如果有人在两个因子上的得分都低,那么这个人将是不称职的。在农业研究中,测定播种前耕层土壤的全氮、速效氮、全磷、速效磷、有机质、0100cm土壤各期含水量(播种前、分蘖期、拔节期、灌浆期、收获前)和小麦的经济产量等11个指标,然后利用因子分析法,可以找出影响春小麦产量的主要因子,为采取相应的农业措施提供依据。在消费者消费行为类型分析中,可以通过因子分析,将测试语句进行分组。即:将这一系列的语句进行综合,根据消费者的回答情况,将这些语句分为几大类,根据实际情况,找出每一类型中的共同因子,对这些类型的含义进行合理解释。因子分析的另一个应用是基于相似购买方式的产品分组归类。应用因子分析,可以找出交叉和捆绑销售的机会。区域可持续发展能力是一个综合性的指标。选取几十个指标作为某省各个地市可持续发展能力的原始评价指标,运用因子分析方法对原始指标进行降维处理,可得到能充分反映原始指标信息的几个综合指标 ,进行比较分析。科学家测定了105味植物类中药中的15种稀土元素,应用因子分析对数据进行了多变量分析,证实了一个2因子模型能合理理解稀土元素之间的相关系数。“中国城市谁的竞争力最强?沪京深位居前三甲”, 这个结论也是运用因子分析方法及其相应模型得到的。因子分析还被用来分析互联网使用对开放观念及行为的影响。在地质学中,人们用多元统计方法中的R型因子分析和Q型因子分析方法分析长江中下游地区中-酸性岩浆岩的成因及其与成矿关系。通常人们对第三产业的各个方面进行一般性的类比分析,这样对第三产业各单项指标有较为清楚的认识。如果运用因子分析法,通过建立因子分析模型,对第三产业进行综合评判, 可以从综合性的角度给出一个更令人满意的评价结论。6.8 典型相关分析典型相关分析是研究两组变量之间相关关系的一种多元统计方法。当两组变量较多时,在每一组变量中都选择若干个综合指标,通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。在社会、政治、经济各个领域,典型相关分析有着很多应用。例如,各部门社会总产值与投资性变量之间的相关关系,科研投入与产出的相关关系,房地产指标与社会经济综合发展水平的相关关系,都要用到典型相关分析。有学者在建立海南省农村住户结构特性、经济活动特性、经济活动后果三者评价指标体系的基础上,依据海南省第一次农业普查资料,利用多元统计中的主成分分析和典型相关分析方法,对上述三者的各指标体系进行分析,发现它们之间有很可强的相关性。在医学界,对200例慢性肝病患者的8个血清免疫学指标和9个与肝纤维化有关的血清生化指标进行典型相关分析,结论是:机体的免疫功能和肝纤维化密切相关。 气象学家利用典型相关理论,分析了云南8月低温与当年春季气温场之间的关系,得出了一些有意义的结果。还用典型相关分析作出了热带气旋路径集成预报。在企业管理中,研究领导型态与工作满意度的相关性,可作为公司研拟人力资源发展政策之重要参考。利用典型相关分析可以研究教师对学校的一般组织变革的态度。在体育科学中,典型相关分析被用于分析男子十项全能跳跃类与投掷类指标间的关系。 两系杂交稻产量与品质性状间的典型相关分析,被应用于杂交饲料稻组合的筛选研究中。在生物农业研究中,瘦肉猪育种及工程技术要用到猪活体性状与胴体性状间的典型相关分析。在病虫害防治中,要进行线虫侵入率与其他性状的典型相关分析。 在学校效能比较中,通过典型相关建立因变量与自变量之间的线性关系模型,然后计算出每个学校的各个特征变量同总体平均水平的差异,综合获得效能指标。有学者采用典型相关分析,对区域性土地利用结构及其驱动因子进行了统计分析。定量诊断出各驱动因子对该区土地利用结构分布贡献作用的大小。同时运用典型相关系数和冗余度分析,对诊断结果进行了检验。林业科学研究院利用典型相关分析,研究树木生长与环境因子间的相关关系。在城市居住实态调查中,人们对卫生间及洁具资料进行典型相关分析。在大气科学中,应用波谱分析和典型相关分析研究早春降温过程。 在心理卫生研究中,专家根据中学生心理应激的典型相关分析,分析学生的逆反心理与疏导对策。政府部门对财政收入与支出项目作典型相关分析,以究明财政收与支的关系。6.9 多选变量分析应用在当前社会实践活动中大量存在这样的变量,对于一个确定的观测对象,该变量有有几个值与之对应。例如,当问到你喜欢什么颜色时,你可能既喜欢红色,也喜欢兰色和绿色。如果让你按照喜欢程度排一下顺序时,你回答是:红色第一,兰色第二,绿色第三。这就构成了对一个问题(变量)的多个选择。目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。多选变量分析的定义设置,可以分为多响应二分变量设置和多响应分类变量的设置。也可以分为多响应二分变量的应用及多响应分类变量的应用。例如,某次向顾客发放的颜色调查,在选择服装时你喜欢什么颜色作为主体颜色,“是”为1,“否”为0。一共有9种烟袋、颜色作为选项来选。1:你喜欢红色吗?2:你喜欢橙色吗?3:你喜欢黄色吗?4:你喜欢绿色吗?5:你喜欢青色吗?6:你喜欢蓝色吗?7:你喜欢紫色吗?8:你喜欢黑色吗?9:你喜欢白色吗?对这9个问题需要放在一起分析,就要组成变量集,称为多响应二分变量集。这样的问题设计的优点是每个回答者对每种颜色均可以表示他的态度。问题明确,回答时可以很少考虑,答题迅速,答题的要求容易被接受。多响应分类变量集有若干个分类变量组成。每个分类变量都有两个以上的值作为回答者的答案的代码。这些分类变量共同反映了回答者对问题的看法。例如,作为服装主体颜色,你可以选择最喜欢的三种,并且可用1代表红色,2代表黄色,3代表绿色。将每个题的若干答案组成一个综合变量即变量集,然后对综合变量的各种取值进行分析。有一个晚饭后的主要活动调查,按照你的习惯选择三个晚饭后的主要活动,有6个选择。看电视,睡觉,轻微活动,打牌,散步,其他(继续工作,看电影,跳迪斯科或应酬等)。可以建立三个变量,作为第一选择,第二选择,第三选择。如果选择是二分模式,可以得出在三种选择中,某种活动占的百分比例多大。比如,看电影这个活动在三种选择中的比例是多少。如果选择是分类模式,那么可以看到,在三种选择中,每种活动所占的百分比比例。还可以对多选变量集,进行交叉表分析。比如,晚饭后的6种主要活动作为多选变量集,把它作为一个列变量。并且可以选择一个“性别”变量作为行变量;还可以选择一个“学历”变量作为层变量。这样,利用交叉表分析,可以得到更精确的结论。例如,在学历为“高等学历“的层次下,在性别为“男“或性别为“女“的情况下,得到的晚饭后这类人所喜好的主要活动所占的比例是多少。也可以在在学历为“初等学历“的层次下,在性别为“男“或性别为“女“的情况下,得到的晚饭后这类人所喜好的主要活动所占的比例是多少。6.10 信度分析应用信度又叫可靠性,是指测验的可信程度。它主要表现测验结果的一贯性,一致性,再现性和稳定性。一个好的测量工具,对同一事物反复多次测量,其结果应该始终保持不变才可信。比如,我们用一把尺子测量一批物品,如果今天测量的结果与明天测量的结果不同,那么我们就会对这把尺子的可信性产生怀疑。信度分析一般在心理学中应用较多,另外在学生考试试卷,社会问卷调查的有效性分析中也会涉及。信度只受随机误差影响,随机误差越大,测验的信度越低。因此,信度亦可视为测量结果受随机误差影响的程度。例如,在一次心理学中研究运动员意志品质的调查问卷中,问卷中有50个题目,即50个项目。对312人进行了问卷调查。根据数据资料进行项目分析,根据项目分析的结果分为五个维度。这五个维度包括的项目是自觉性维度,果断性维度,自制力维度,坚韧性维度,主动性维度。其中,自觉性维度有8题,对这8道题分别进行等级评分1(完全不符合),2(不太符合),3(说不清楚),4(比较符合),5(完全符合)。同理,对其余的4个维度的题目分别进行等级评分。我们可以采用Alpha信度系数分析模式,对这调查问卷的五个维度分别进行信度分析。最后得到自觉性维度系数为0.1439,果断性维度系数为0.3532,自制力维度系数为0.2710,坚韧性维度系数为0.4599,主动性维度系数为0.0424。项目总的维度系数为0.6361。从以上的信度系数看,五个维度的信度系数都偏低,需要进行问卷的修改。此外,总量表的信度系数是0.6361,代表该量表的信度一般。如果要提高五个维度的信度,可以对项目的内容词句进行修饰,修改,如果时间允许,可以增删项目,让312名受试者测试一次。例如,有某大学班级38名同学的卫生统计学期末考试成绩,要对此进行考试试卷的信度分析。这份试卷分为A20分填空题,B10分选择题,C30分简答题,D10分综合题1,E15分综合题2,F15分综合题3等6个项目。利用Alpha信度系数分析,得到将相应项目删除后的输出结果,均值输出结果,方差输出结果,该题与总分的相关系数和Alpha系数的改变情况。其中,可以看到10分综合题1的相关系数非常低,表明它与总分的相关性不大,可与删除概题,并进行重新设计,提高试卷的信度。从输出结果可以看出选择题和综合题1的相关系数较低。分析其原因,在于选择题是送分题,考生都答的比较好,分不出优劣。而综合题1出的比较偏,导致成绩好的学生不一定该题得分。所以,应当对选择题与综合题1加与更换。最后给出的是Alpha系数,等于0.823。一般来说,信度系数在0.8以上就可以认为相应问卷信度较高,因此,该试卷是一份比较好的卫生统计学试卷。6.11 非参数统计应用在实际生活中,常常遇到总体的分布假定不是能随便做出的。有时数据并不是来自所假定分布的总体,或者样本数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的或者甚至灾难性的结论。于是,人们希望在不假设总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。非参数统计应用领域非常广泛,它们包括:农业,动物学,人类学,考古学,审计学,人口统计学,生态学,经济计量学,教育学,预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,工业,法律,心理学,社会学,调查研究,分类学,和气象学。非参数统计可以分为8种检验统计方法,它们是卡方检验,二项分布检验,游程检验,单样本柯斯检验,两个独立样本检验,两个相关样本检验,多个独立样本检验,多个相关样本检验。6.11.1 卡方检验卡方检验是根据以往的经验或实际的观测数据的分布情况,推断总体可能服从某种分布函数,利用这些样本数据来具体检验该总体分布函数。它是一种用来检验给定的概率值下数据来自同一总体的无效假设的方法,卡方检验一直应用于极其广阔的应用领域。在医药方面,例如,已知100名健康成年女子的血清总蛋白含量,其中8人的血清总蛋白含量为6.60,8人的血清总蛋白含量为6.80, 11人的血清总蛋白含量为7.00,25人的血清总蛋白含量为7.20,24人的血清总蛋白含量为7.40,10人的血清总蛋白含量为7.60,7人的血清总蛋白含量为7.80,7人的血清总蛋白含量为8.00。如果要知道样本数据是否服从正态分布,则可用现有样本的均数及标准差作为隶属总体的均数及标准差的无偏估计,得到各组的理论期望值为:6.37,9.54,15.67,20.07,19.44,14.64,8.62,5.65。通过卡方检验,得到的概率p值为0.49,因大于0.05,故血清蛋白含量服从正态分布。在农业方面,例如,大麦的杂交后代关于芒性的比例应是无芒:长芒:短芒=9:3:4。而实际的观测值为335:125:160。对于给定水平a=0.05,得到卡方统计量值为5.991。而由样本观测值可算出卡方值为1.362,因为1.362小于5.991,故大麦芒性的分离符合9:3:4的比例。在社会学方面,例如,某地调查了120名十二岁男孩的身高(数据略),由观测值算得总体均值为139.5,标准差为7.42,输入相应理论期望值,得到卡方统计量值为6.132。而给定的水平a=0.05,得到的卡方值为12.592,因6.132小于12.592,所以认为十二岁的男孩身高服从正态分布。在遗传学方面,例如,要进行一个遗传学上的实验,已知这个实验结果应有3种表现形式,理论上认为三者比例应为1:2:1;观测到的频数为14:50:16。所得频数比是否对应1:2:1这一分裂规律?得到卡方值为5.10,检验概率p值大于0.05,因此在给定a=0.05水平下,频数比是对应于1:2:1这一分裂规律。为了解某条公路的流量,在50分钟内,记录每15秒内通过公路口的汽车的辆数,如下数据。辆数0,1,2,3,4;频数92,68,28,11,1,0;如果想知道每15秒内通过公路口的汽车的辆数是否服从泊松分布?先计算出泊松分布的理论概率,0.44709,0.35991,0.14486,0.03887,0.00927这些数值将用于设置期望频数。利用卡方检验,得到近似的显著性概率为0.725,远大于0.05。因此认为每15秒内通过公路口的汽车的辆数服从泊松分布。6.11.2 二项分布检验二项分布检验用于检验满足二项分布的变量落入第一项和第二项的概率是否为某给定概率。它是一种用来检验在给定的落入二项式中第一概率值的前提下数据来自二项分布的无效假设的方法。在体育运动中,例如掷一枚球类比赛中用的挑边器31次,出现的正面,反面的结果(数据略)。根据得到的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论