6.社会科学数据处理软件应用5.doc_第1页
6.社会科学数据处理软件应用5.doc_第2页
6.社会科学数据处理软件应用5.doc_第3页
6.社会科学数据处理软件应用5.doc_第4页
6.社会科学数据处理软件应用5.doc_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 五 章 假设检验5.1 假设检验概述5.1.1假设检验的基本思想由于对总体的不了解,任何有关总体的叙述,都只是假设而已(统计假设)。除非进行全面普查,否则一个统计假设是对或错根本就不可能获得正确的答案。但因为绝大多数情况是不允许也无法进行普查,所以才会透过抽样调查,用抽查结果所获得的数据,来检验先前的统计假设,以判断其对或错。假设检验是根据样本的信息来判断总体分布是否具有指定的特征,在管理方面有时称之为古典决策。在质量管理中经常用到它,例如检验新产品质量是否有显著提高,利用各种控制图判断工序是否出现异常现象等。在数理统计中,把需要用样本判断正确与否的命题称为一个假设。根据研究目的提出的假设称为原假设,记为H0;其对立面假设称为备择假设(或对立假设),记为H1。提出假设之后,要用适当的统计方法决定是否接受假设,称为假设检验或统计假设检验。在进行各种统计假设检验时,检验者通常将要否定(放弃)的事实当作虚拟假设(nullhypothesis,以。代表)。既然希望它是不对,而将其否定,那就表示会有一个希望它是对的对立假设(alternatiVehypothesis,hypothesis,以H1或Ha为代表)。当检验结果,得否定该虚拟假设时,就等于接受对立假设。注意,虚拟假设与对立假设间必须是互斥,其间绝无重叠的模糊地带,也无任何无法涵盖的真空地带。如:0:121:12若安排成:0:121:12就有等相等时会发生重叠,而无法互斥。但若安排成:0:121:12则当两者恰好相等时,就变成真空地带,没有被任一个假设涵盖。如果检验后发现抽样结果与统计假设间的差异很大,就无法接受该统计假设(即否定或放弃该假设)。反之,若检验后发现抽样结果与统计假设间的差异不大,就无法放弃(否定该统计假设。不过通常检验者会比较保守的说:无充分证据证明该假设是错的,而不直接说接受该统计假设。 5.1.2 假设检验的基本步骤一般来说,假设检验需要经过以下操作步骤:(1)构造假设。(2)确定检验的统计量及其分布。(3)确定显著性水平。(4)确定决策规则。(5)判断决策。5.1.3假设检验的类型与单双尾检验1等于与不等于的双尾检验。 0:121:12无论检验统计量的观察值落在左侧或右侧的危险域(或称放弃域、拒绝域),均表示12。更详细一点,若落在左侧的危险域,表示12。2等于与大于的右侧单尾检验。0:121:12或0:121:12当检验统计量的观察值在右侧的危险域,均表示123等于与小于的左侧单尾检验。0:121:12或0:121:12当检验统计量的观察值在右侧的危险域,均表示125.2 excel的假设检验5.2.1单一总体平均值检验5.2.1.1大样本Z检验单一总体,若总体标准差已知,其各项检验所使用的检验统计量为:如果处理对象为大样本(n30),且总体标准差未知,则可使用样本标准差s来替代:统计知识专栏所有的检验统计都是正态分布的吗并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。在未使用电脑的情况下,可以查 “标准正态分布表”,如果Z值大于查表所得的临界值(critical value),则放弃虚拟假设。例子:为自全班随机抽取几位学生的成绩,在a=0.05的显著水平,是否可接受全班成绩为70分的假设。传统做法的处理步骤为:608078708080547885888585808556822585787578824783608078708278607580887883909049821设定虚拟假设00:1702,设定对立假设11:170,为双尾检验(既要检验1是否小于70,还要检验1是否大于70)3,决定显著水平(a)。 a=0.054,选择适当的检验统计量,以及决定危险域。用Z检验统计量,采用双尾检验,应查a=0.025的表。查“标准正态分布表”,累积概率为0.475时,其放弃域的临界点为1.96。所以,若Z检验统计量1.96,就应该放弃虚拟假设。5,计算所选的检验统计量的观察值。将所计算的样本平均值与样本标准差=75S=1369及已知的=70,代入Z检验统计量的公式,结果Z=2.336,结论检验统计量的观察值Z=2.331.96的临界值,已落入危险域,故应放弃虚拟假设0:170。也就是应接受其对立假设1:170。所以无法接受全班成绩为70分的假设。6080787080805478858885858085568225857875788247836080787082786075808878839090498270样本平均数75.05 - =AVERAGE(A1:H5)样本标准差S13.69 - =STDEV(A1:H5)样本数n40 - =COUNT(A1:H5)检验统计量Z2.33 - =(D8-C7)/(D9/SQRT(D10)右尾概率0.0098 - =1-NORMSDIST(2.33)ZTEST()函数求若使用Excel,此检验结果可直接用ZTEST()函数来计算。其语法为:ZTEST(序列,)ZTEST(array,sigma)将返回单尾z检验的P值(正态分布的单尾概率值)。即:1-NORMSDIST(z)的结果。式中z即正态分布的z值。所以本函数即算出:1-自标准正态分布的左尾累加到Z值处的概率,见右图:序列是要检验相对于的数组或数据区域是要检验的总体平均值。是总体己知的标准差。若输入有,本函数的公式为:若省略,则自动使用样本标准差,本函数的公式将为:比如:ztest(序列,),表示用样本标准差代替总体标准差,取抽样的序列的平均值与总体平均值()进行检验。判断检验结果时很简单,只需看此P值是否小于所指定的a值(单尾检验),或小于所指定的a值的一半(双尾检验)。如:在双尾检验时,p若为0.014(a/2=0.025),即表示在a=0.05时,此检验结果要放弃虚拟假设,接受对立假设。统计知识专栏P值的统计学意义结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标:P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的P值通常被认为是可接受错误的边界水平。所以,上例应输入函数:=ZTEST(A1:H5,70),返回结果是0.00980.025(双尾检验,取a2),即可判定要放弃虚拟假设止:0:170,也就是应接受其对立假设1:170。60807870808054788588858580855682258578757882478360807870827860758088788390904982ZTEST0.0098 ,将会返回大于051的值。如将上例的改为80,其结果为0.9899,若将改为84的任一值,其结果将恒为1。60807870808054788588858580855682258578757882478360807870827860758088788390904982ZTEST - =ZTEST(A1:H5,C7)700.00980.009835720.07940.079448740.31380.31384760.66960.330402780.91350.086504800.98890.011115820.99930.0006638411.78E-058612.12E-078811.1E-09 ,均可算出正确值。如上例可使用:编号每次运动时间/分1120210304120512061571508309010011601230131201412015120ZTEST-P值0.31002=MIN(ZTEST(I3:I17,75),1-ZTEST(I3:I17,75)=MIN(ZTEST(A1:H5,70),1- ZTEST(A1:H5,70)当为80(),ZTEST()的结果为0.0111。不再是先前的09889。其结论当然完全不同。例子2 假设5年前大学生每周平均运动时间为75分钟,是否可显示本年度运动时间已经明显增加(a=0.05)?解:0:1751:175,为右尾单尾检验。a=0.05右尾单尾检验,直接以a=0.05进行判定。ZTEST-P值=0.0460.01被认为是具有统计学意义,而0.01P0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。5.2.1.2小样本T分布如果样本为抽取自正态总体的小样本(n30),且总体标准差和总体平均值未知。其各项检验使用的检验统计量为 T分布的自由度为n-1。假设5年前行政院公布大学生每月平均外食品费用为400元。假设其分布为正态,是否可证明学生每月平均外食品费用超过400元?(a=0.05),检验步骤为:1设定虚拟假设00:14002,设定对立假设11:1400,3,决定显著水平(a)。 a=0.054,选择适当的检验统计量,以及决定危险域。用t检验统计量,采用右尾检验,样本数n=15,应查t(14),a=0.05的表。查 “t分布的临界值”,自由度为14,右尾概率为0.05,其放弃域的临界点为1.761。或者输入函数:=TINV(0.05*2,14),返回1.761所以,若t检验统计量1.761,就应该放弃虚拟假设。5,计算所选的检验统计量的观察值。将所计算的样本平均值与样本标准差=602.67S=287.94及已知的=400,代入t检验统计量的公式,结果t=2.726。6,结论检验统计量的观察值Z=2.7261.761的临界值,已落入危险域,故应放弃虚拟假设0:1400。也就是应接受其对立假设1:1400。所以每月平均外买食品费用超过400元。T分布TDIST()t分布TDIST()函数的语法为:TDIST(t,自由度,单尾或双尾), 或TDIST(t,degrees of freedom,tails)t是要用来计算累计概率的t值。自由度(dfdegrees of freedom)是指一统计量中各变量可以自由变动的个数,当统计量中每多一个限制条件(即t已知条件),自由度就减少一个。(t分布的自由度为样本数-1,即为n-1)统计知识专栏t-分布t-分布(T-distribution),是一种非正态但连续对称分布,是由英国学者WSGosset以Student笔名发表的,故也称student t distribution。其特点是以0对称分布,且具有比正态分布大的方差。其分布的状态又取决于样本的大小。在很多研究中,由于对总群体的标准差未知,再加上对大样本采样的不易,所以通常用小样本数据来评估总群体的标准差。为了避免小样本采样的平均值及标准差所产生的误差,故才有t分布的产生。单尾或双尾指定要返回单尾或双尾的累计概率:值为1,表示返回单尾分布;值为2,表示返回双尾分布。5.2.2 Z检验:双样本平均差检验若曾用“工具(T)加载宏(1)”,加入“分析工具库”。则可以用“工具(T)数据分析(D)”来选择“Z检验:双样本平均差”,进行检验两个总体的平均值差异。不过,先决条件是总体方差必须为已知。若处理对象为大样本(n30),而且总体方差未知,则可使用样本方差来替代。现有“男女的饮料花费”数据,检验男女的平均一周饮料花费是否有显著差异,1.得先用VAR()求得男女的饮料花费的方差78.76与60.81。2.设立虚拟假设与对立假设0:1-2=0,或者 1=21:1-20,或者12 为双尾检验。3,决定显著水平(a)。a=0.054停在“性别”列,单击“升序排序”按钮根据性别升序排序,使相同性别的数据能集中在一起。别担心,所求得的标准差并不会因此而改变。男女平均9.3287677.744094已知协方差78.7660.81观测值73127假设平均差0z1.26968P(Z=z) 单尾0.102099z 单尾临界1.644854P(Z数据分析(D)”。6选择“z检验:双样本平均差检验”,单击确定按钮。4,在“变量1的区域”位置设定男性组数据的区域(B2:B74)。5在“变量2的区域”位置设定女性组数据的区域(B75:B201)。6,在“假设平均差”位置输入0,两平均值若相等其差为0。7,在“变量1的方差”与“变量2的方差”位置,输入样本方差(7875.85与60.8130,因总体方差未知,使用样本方差来替代)。8不单击“标志(L)”(因两组数据均不含字符串标志)。9,a维持0.05。10设定输出区域。11单击确定按钮结束,即可获得检验结果。12在F9、G9输入性别字符串,使报表更易看得懂。13.本例检验是否相等,所以是一个双尾检验,根据结果:z值1.269678双尾临界值1.959961(或P(Za=0.05),所以无法放弃虚拟假设,即男女的一周饮料花费平均值并无显著差异。5.2.2.1 双样本等方差假设两样本平均数的t检验,旨在比较方差相同的两个总体间平均数的差异,或比较来自同一总群的两个样本的平均值的不同。如果两总群体的方差相同(=),是采用汇总方差t检验(pooled-variancettest)。例子:现有一组成绩数据,假定,班上男女生成绩的方差相同。是否可证明在a=0.05的显著水平下,男女生的成绩无差异存在?由于方差相同,t检验的类型为等方差双样本检验,而且虚拟假设与对立假设分别为:0:1-2=0,或者 1=21:1-20,或者12 为双尾检验。方法1:TTEST()检验TTEST()函数语法:=TTEST(第一个数据集,第二个数据集,单尾或双尾,类型)或=TTEST(array1,array2,tails,type)是用来进行两组小样本(n30),t分布就接近正态分布。所以检验时可改查正态分布表。在本例中,B15单元格输入=TTEST(B2:B11,C2:C9,2,2),可见,TTEST()函数所返回的p值是0.019a/2=0.025,故要放弃男女成绩相等的虚拟假设,换句话说,a=0.05的显著水平下,男女生的成绩存在显著差异,女性明显高于男性。方法2:用宏工具t-检验: 双样本等方差假设男女平均75.581.625方差38.944446.267857观测值108合并方差24.64844假设平均差0df16t Stat-2.600879P(T=t) 单尾0.009653t 单尾临界1.745884P(T数据分析(D)”。2选“t检验:双样本等方差假设”,然后单击确定。3在“变量1的区域”与“变量2的区域”设定两组数据的区域(B1:B11与C1:C9)。4在“假设平均差”输入0,两平均值如果相等其差为0。5勾选“标志(L)” (因两组数据均含“男”、“女”的字符串标记)。6a维持0.05。7设定输出区域,本例安排在目前工作表的E2位置。8.单击确定按钮。结果见右图结果解释:由于本例是检验是否相等,所以是一个双尾检验。可见自由度为16(10男+8女-2),t统计值的绝对值2.601双尾临界值2.120,p值0.019a/2=0.025,所以要放弃男女成绩平均值相等的虚拟假设,换句话说,两者存在明显差异,女性明显高于男性。5.2.2.2 双样本异方差假设如果两总群体的方差不同(),则采用个别方差t统计量。例子:现有甲乙两个班的成绩数据,甲班的成绩均值为83.57,乙班的均值为77.40,假定,甲乙两个班的成绩的方差不同。是否可证明在a=0.05的显著水平下,甲班成绩优于乙班?由于方差不同,t检验的类型为3,即异方差双样本检验,且虚拟假设与对立假设分别为:0:12,1:12, 为右侧单尾检验。方法1:TTEST()检验如右图,在b15单元格中输入函数:=TTEST(B2:B8,C2:C11,1,3)结果解释:由TTEST()函数所获得的p值为0.023a=0.05,所以需要放弃甲班成绩乙班成绩的虚拟假设,换句话说在a=0.05的显著水平下,甲班平均成绩优于乙班平均成绩。方法2:用宏工具例子:现有甲乙两个班的成绩数据,甲班的成绩均值为83.57,乙班的均值为77.40,假定,甲乙两个班的成绩的方差不同。是否可证明在a=0.05的显著水平下,甲班成绩优于乙班? (同上)t-检验: 双样本异方差假设甲班乙班平均83.571477.4方差29.61937.6观测值710假设平均差0df14t Stat2.18312P(T=t) 单尾0.02327t 单尾临界1.76131P(T数据分析(D)”。2选“t检验:双样本异方差假设”,然后单击“确定”按钮。3在“变量1的区域”与“变量2的区域”设定两组数据的区域(B1:B8与C1:C11)。4在“假设平均差”输入0,两平均值如果相等其差为0。5勾选“标志(L)” (因两组数据均含“甲班”、“乙班”的字符串标记)。6a维持0.05。7设定输出区域,本例安排在目前工作表的E2位置。8.单击“确定”按钮。结果见右图结果解释:由于本例是检验甲班成绩均值是否大于乙班均值,所以是一个右侧单尾检验。可见自由度为14,t统计值2.183单尾临界值1.761,p值0.023a=0.05,所以要放弃甲班成绩乙班成绩的虚拟假设,换句话说在a=0.05的显著水平下,甲班平均成绩优于乙班平均成绩。5.2. 3 成对样本t检验前面两类“双样本平均差检验”,无论其方差是否相等,其共同点为两组受测样本间为独立,并无任何关联。如: 甲乙班、男女生、两不同年度、都市与乡村但若同组人受培训后的打字速度是否高于受培训前。同一部车,左右使用不同品牌轮胎,经过一段时间后,检查其磨损程度,看甲品牌的轮胎是否优于乙品牌?诸如此类的例子,两组受测样本间为相互关联(同一个人、同一部车)就要使用成对样本的t检验。其相关公式为: 其中(为同一成对的两数据相减的差) 例子:假定要比较两品牌轮胎的寿命。抽7部车,左右使用不同品牌轮胎,每车各由同一个人驾驶(同一驾驶习惯),经过一段时间后,获得下列轮胎磨损的成对数据(以千分之一寸为单位,是否可证明在a=005的显著水平下,甲品牌的轮胎磨损程度比乙厂牌大?(见下图)由于是成对样本,t检验的类型为1,且虚拟假设与对立假设分别为:0:d0,1:d0, 为右侧单尾检验。方法1:TTEST()检验如右图,在b12单元格中输入函数:=TTEST(B2:B8,C2:C8,1,1)结果解释:由TTEST()函数所获得的p值为0.03a=0.05,所以需要放弃甲乙厂轮胎的耐磨程度相等的虚拟假设,换句话说在a=0.05的显著水平下,甲厂轮胎磨损程度比乙厂大。t-检验: 成对双样本均值分析甲厂乙厂平均96.00 87.43 方差1257.33 999.29 观测值7.00 7.00 泊松相关系数0.96 假设平均差0.00 df6.00 t Stat2.30 P(T=t) 单尾0.03 t 单尾临界1.94 P(T数据分析(D)”。2选“t检验:平均值的成对二样本分析”,然后单击“确定”按钮。3在“变量1的区域”与“变量2的区域”设定两组数据的区域(B1:B8与C1:C8)。4在“假设平均差”输入0,两平均值如果相等其差为0。5勾选“标志(L)” (因两组数据均含“甲厂”、“乙厂”的字符串标记)。6a维持0.05。7设定输出区域,本例安排在目前工作表的f2位置。8.单击“确定”按钮。结果见右图结果解释:由于本例是检验甲品牌轮胎磨损程度是否大于乙品牌,所以是一个右侧单尾检验。可见自由度为6,t统计值2.30单尾临界值1.94,p值0.03a=0.05,所以不能放弃甲班乙班成绩的总体方差相等的虚拟假设,换句话说在a=0.05的显著水平下,甲乙两班成绩的总体方差相等。方法2:用宏工具例子:现有甲乙两个班的成绩数据,在a=0.05的显著水平下,检验甲班乙班成绩的总体方差是否相同? (同上)1执行“工具(T)数据分析(D)”。F-检验 双样本方差分析甲班乙班平均7276.8方差293.5189.7333观测值910df89F1.546908P(F=f) 单尾0.264224F 单尾临界3.2295832选“F-检验:双样本方差分析”,然后单击“确定”按钮。3在“变量1的区域”与“变量2的区域”设定两组数据的区域(B1:B10与C1:C11)。4勾选“标志(L)” (因两组数据均含“甲班”、“乙班”的字符串标记)。5a维持0.05。6设定输出区域,本例安排在目前工作表的E2位置。8.单击“确定”按钮。结果见右图结果解释:自由度为(8,9),F值1.55a=0.05,(也可以用FINV()函数求F值),所以可知道甲乙班的方差并无显著差异。(无法放弃两方差相等的虚拟假设)FTEST()函数实际上是以公式:计算求得F值,再代入FDIST()以(n1-1,n2-1)为自由度,求其右尾概率。如用上面的例子=9、=10、 =293.5、 =189.73此值恰等于用FINV()函数所计算的结果。将其代入FDIST()以(8,9)为自由度,求得其右尾概率为0.2642,恰等于用FTEST()函数所计算的结果(该值是将双尾概率除以2)。5.2.3.3 单因素方差分析(ANOVA)对公司的整体满意度(满分为100)北区中区南区756585627086508087588590828295817888758575459086658470方差分析的另一种用途,是用来检验多组(2)总群平均值是否相等。即Z与t检验是用两组数据比较平均值差异时,而比较两组以上的平均值是否相等时,就需使用方差分析。其虚拟假设与对立假设为:用宏工具例子:现有一组调查各地区对公司政策的整体满意程度的数据,(满分为100分),试以a=0.01的显著水平,检验各地区的满意程度是否存在显著差异。(见右图)1执行“工具(T)数据分析(D)”。2选“单因素方差分析”,然后单击“确定”按钮。方差分析:单因素方差分析SUMMARY组观测数求和平均方差北区1066366.3159.567中区971979.888962.3611南区869286.531.7143方差分析差异源SSdfMSFP-valueF crit组间1941.092970.54310.80 0.00 3.40 组内2156.992489.8745总计4098.07263在“输入区域”位置,设定三组数据的区域,选取可包括所有数据的最小区域即可。(本例为B2:D12,别管其中可能仍含有空白单元格)在“变量1的区域”与“变量2的区域”设定两组数据的区域(B1:B10与C1:C11)。4将“分组方式”安排为“列(C)”。5勾选“标志在第一行(L)”。 (因各组数据均含标题的字符串标记)6a设定为0.01。7设定输出区域,本例安排在当前工作表的G2位置。8单击“确定”按钮结束,即可获得单因子方差分析的ANOVA表。结果解释:自由度为(2,24),F值10.80临界值3.40,P值0.00a=0.01,所以可知3个地区的整体满意度存有显著差异。南区的满意度86.5要比其余两区(66.30与79.89)高。5.3 Spss的均数间的比较5.3.1Means过程5.3.1.1界面说明5.3.1.2结果解释5.3.2One-Samples T Test过程5.3.2.1界面说明5.3.2.2结果解释5.3.3Independent-Samples T Test过程5.3.3.1界面说明5.3.3.2结果解释5.3.4Paired-Samples T Test过程5.3.4.1界面说明5.3.4.2分析实例5.3.4.3结果解释5.3.5One-Way ANOVA过程5.3.5.1界面说明5.3.5.2分析实例5.3.5.3结果解释知道吗?在计算机领域中有个著名的80/20规则,也就是在奔腾及更早的CPU所采用的CISC指令集中,有80%的任务是被20%的最常用指令所完成的;换言之,另外80%的复杂指令只完成20%的不常用任务。好了,言归正传。现在我要非常高兴的向大家宣布:80/20规则在SPSS的使用中同样有效!仅以Analyze菜单为例,其中最常用的子菜单为: Discriptive Statistics Compare Means General Linear Model(第一项) Correlate Regression(前半截)只要掌握了它们的使用秘籍,你就可以理直气壮的宣称你已经可以用SPSS解决80%的统计学难题。好,言归更正传。在以上五个菜单中,Compare Means是最简单的一个,但使用频率却几乎最高!因此,他的重要性也就不用我多说了吧。下面让我们大家一起踏上Compare Means之旅。该菜单集中了几个用于计量资料均数间比较的过程。具体有:Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比较。 One-Samples T Test过程 进行样本均数与已知总体均数的比较。 Independent-Samples T Test过程 进行两样本均数差别的比较,即通常所说的两组资料的t检验。 Paired-Samples T Test过程 进行配对资料的显著性检验,即配对t检验。 One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。5.3.1Means过程和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。显然要方便的多。5.3.1.1界面说明【Dependent List框】用于选入需要分析的变量。【Independent List框】用于选入分组变量。【Options钮】弹出Options对话框,选择需要计算的描述统计量和统计分析:l Statistics框可选的描述统计量。它们是:1. sum,number of cases 总和,记录数2. mean, geometric mean, harmonic mean 均数,几何均数,修正均数3. standard deviation,variance,standard error of the mean 标准差,均数的标准误,方差4. median, grouped median 中位数,频数表资料中位数(比如30岁组有5人,40岁组有6人,则在计算grouped median时均按组中值35和45进行计算)。5. minimum,maximum,range 最小值,最大值,全距6. kurtosis, standard error of kurtosis 峰度系数,峰度系数的标准误7. skewness, standard error of skewness 偏度系数,偏度系数的标准误8. percentage of total sum, percentage of total N 总和的百分比,样本例数的百分比l Cell Statistics框 选入的描述统计量。 l Statistics for First layer复选框组1. Anova table and eta 对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值。2. Test for linearity 检验线性相关性,实际上就是上面的单因素方差分析。5.3.1.2结果解释Means过程的输出看起来就不太困难了。以第一章的数据为例,输出如下:MeansCase Processing Summary CasesIncludedExcludedTotalNPercentNPercentNPercent犯罪学 * 性别37100.0%0.0%37100.0%上表还是缺失值报告。Report犯罪学性别MeanNStd. Deviation188.1875165.29426289.7619213.54831Total89.0811374.39304常用统计描述量报表。这里按默认情况输出均数,样本量和标准差。由于我们选择了分组变量,因此三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。ANOVA Table Sum of SquaresdfMean SquareFSig.Between Groups(Combined)22.510122.5101.172.286Within Groups672.2473519.207 Total694.75736 上表为单因素方差分析表。在选择了Anova table and eta或Test for linearity复选框时出现。实际上就是在检验各组间均数有无差异。上面各项的具体含义将在单因素方差分析一节中解释。Measures of Association EtaEta Squared.180.032相关性度量指标,给出Eta值以及Eta值的平方根。5.3.2One-Samples T Test过程One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较,可以自行定义已知总体均数为任意值,该对话框的界面非常简单。5.3.2.1界面说明【Test Variables框】用于选入需要分析的变量。【Test Value框】在此处输入已知的总体均数,默认值为0。【Options钮】弹出Options对话框,用于定义相关的选项,有:l Confidence Interval框 输入需要计算的均数差值可信区间范围,默认为95%。如果是和总体均数为0相比,则此处计算的就是样本所在总体均数的可信区间。 l Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analys

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论