Mean过程和T检验过程.doc_第1页
Mean过程和T检验过程.doc_第2页
Mean过程和T检验过程.doc_第3页
Mean过程和T检验过程.doc_第4页
Mean过程和T检验过程.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、Means过程1简单介绍Means过程计算指定变量的综合描述计量,包括均值、标准差、总和、观测量数、方差等一系列单变量描述统计。当观测量按一个分类变量分组时,Means过程可以进行分组计算。例如,要计算某地区高考的数学成绩,Sex变量把考生分为男生和女生两组,Means过程可以分别计算男女生的数学成绩。Means过程还可以给出方差分析表和线性检验结果。使用Means过程求若干组的描述统计量的目的在于比较,因此必须求均值。这是与Descriptive过程不同之处。2完全窗口分析Means过程的大部分功能可以完全由窗口实现,这给用户带来了很大的方便。(1)Means主对话框按Analyze Compare Means Means的顺序单击,即可打开“Means”主对话框,如图1所示。图1 Means主对话框(2)Dependent框该框中的变量作为因变量,通常认为受自变量影响或决定,因此被用来预测或建模。要从源变量框中选取变量进入该框,只需选中所要选取的变量,然后按向右的箭头即可。(3) Independent框该框中的变量是自变量,又被称为预测变量或解释变量。要运行Means过程,该框中必须至少有一个变量。要从源变量框中选取变量进入该框,同样只需激活所要选取的变量,然后按向右的箭头即可。选中变量进入该框后,可以看到上方的【Next】按钮有效,单击该按钮进入下一层,在下一层的自变量将再细分样本。要回到上一层,单击【Previous】按钮即可。(4)Options 对话框单击Options按钮,即可打开“Options”对话框,如图2所示。图2 Options 对话框 Cell Statistics框从左边框中选择要输出的统计量进入该框,该框中的统计量是输出时显示的统计量,其排列顺序即是输出时显示的顺序。可供选择的统计量的意义如下:Sum(总和)、Number of cases(观测量数目)、Mean(均值)、Median(中位数)、Grouped median(分组中位数)、Standard error of the mean(均值标准误差)、Minimum(最小值)、Maximum(最大值)、Range(范围)、Standard deviation(标准差)、Variance(方差)、Kurtosis(峰度)、Standard error of kurtosis(峰度的标准差)、Skewness(偏度)、Standard error of Skewness(偏度的标准差)、First(首值)、Last(尾值)、Percentage of total sum(占总和的百分比)、Percentage of total N(占观测量总数的百分比)、Geometric mean(几何均数)、Harmonic mean(调和均数)。 Statistics for First Layer该栏中有两个复选框,决定对第一层自变量的有关分析。l ANOVA table and eta复选框选中该复选项对第一层自变量给出方差分析表和eta统计量和2。方差分析的零假设是,第一层自变量各水平上的因素量均值都相等。统计量表明因变量和自变量之间联系的强度。2是因变量中不同组中差异所解释的方差比,是组间平方和与总平方和之比。l Tests for linearity复选框选中该复选框产生R和R2。只有早控制变量有基本的数量级(例如自变量表示年龄或人种,不能是房子颜色或居住城市等),且自变量有三个水平以上。其检验的假设是因变量均值是第一层自变量值的线性函数。R和R2测度线性拟合的良好度。R是观测值与预测值之间的相关系数。3例题分析某医师测得如下血红蛋白值(g%),用Means过程对其做基本的描述性统计分析。表1 血红蛋白值编号性别年龄血红蛋白编号性别年龄血红蛋白111813.662121611.36211810.572211612.78311612.562311815.0942179.87242188.6752178.99252178.56621711.352621812.56711714.562721711.56811612.402811614.6792168.05291167.881011814.033011812.351121812.833111613.651211615.50322169.871321812.253321810.091421710.063421812.551511610.883511816.04161189.653611813.78172168.363711711.671811811.663811710.98192188.54392168.78202177.784011611.35(1)操作步骤 激活数据管理窗口,输入数据文件,定义变量名:性别为sex,年龄为age,血红蛋白值hb。按顺序输入数据(sex变量中,男为1,女为2)。 按Analyze Compare Means Means 的顺序单击,即可打开“means”主对话框。 在对话框左侧的变量中选hb,单击向右按钮使之进入Dependent List框,选sex单击向右按钮使之进入Independent List框。 单击败【Options】按钮打开“Options”对话框,从中选择统计项目:在Cell Displays项中,选中Mean、Standard deviation、Variance、Number of Cases和Sum五个复选框。 在Statistics for First Layer项中,将为第一层的分组选择计算方差分析(ANOVA table and eta)和线性检验(Test of linearity)。单击【Continue】按钮返回“Means”主对话框。 选age单击向右按钮使之进入Independent List框。重复和步骤,返回“Means”主对话框。 在主对话框中单击【OK】钮完成。(2)输出结果及分析表2是我们造已熟悉的观测量摘要表,说明了观测量总个数为40,其中有效值为40 个,无效值有0。表2 观测量摘要表Case Processing Summary Cases IncludedExcludedTotal NPercentNPercentNPercent血红蛋白值*性别*年龄40100.0%0.0%40100.0%表3分为三部分,第一、第二部分先按性别分组(分男性和女性),再按年龄分组(16,17,18岁三组)计算观测值合计、均值、标准差、方差和个数;第三部分是之按年龄分组,最后一行表示40个观测值合计为457.79,均数为11.4448,标准差为2.2690,方差为5.1484,个数为40。若在Independent List中未分层次,即sex和age一起在Layer 1of 1中,则结果是分别计算男性与女性(不作年龄分组)。16、17、18岁三组(不作性别分组)的观测值合计、均值、标准差、方差和个数,如表4、5所示。表3 分组描述统计量Report血红蛋白值性别年龄MeanNStd. DeviationVarianceSum男1612.407892.24555.042111.671712.403331.89933.60737.211812.981192.09334.382116.83Total12.6529212.05314.215265.71女169.284051.34941.82146.42179.738671.40361.97068.171811.070071.91583.67077.49Total10.1095191.69892.886192.08Total1611.2921142.46496.076158.091710.5380101.94213.772105.381812.1450162.18274.764194.32Total11.4448402.26905.148457.79表4 按性别分组的描述统计量Report血红蛋白值性别MeanNStd. DeviationVarianceSum男12.6529212.05314.215265.71女10.1095191.69892.886192.08Total11.4448402.26905.148457.79表5 按年龄分组的描述统计量Report血红蛋白值年龄MeanNStd. DeviationVarianceSum1611.2921142.46496.076158.091710.5380101.94213.772105.381812.1450162.18274.764194.32Total11.4448402.26905.148457.79表6是方差分析表,共有六列,第一列说明方差的来源,Between Groups是组间的,Within Groups是组内的,Total是总的。第二列为平方和,其大小说明了各方差来源作用的大小。第三列为自由度。第四列为均方,即平方除以自由度。第五列F值只F统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的显著性,如果不显著说明模型对指标的变化没有解释能力。第六列是F值统计量的显著值,由于这里显著性小于0.05(我们的检验水平),所以模型是显著的,性别对血红蛋白有显著影响。由于性别分组只有两个水平,所以没有设计计算线性检验。表6 方差分析表ANOVA TableSum of SquaresdfMean SquareFSig.血红蛋白值*性别Between Groups(Combined)64.526164.52617.995.000Within Groups136.261383.586Total200.78739a With fewer than three groups, linearity measures for 血红蛋白值*性别 cannot be computed.表7是eta统计量表,统计量表明因变量和自变量之间联系的强度,0.567的值处于中等水平,2是因变量中不同组间差异所解释的方差比,是组内平方和与总平方和之比,即由64.5256除以200.787得到。表7 eta统计量Measures of AssociationEtaEta Squared血红蛋白值*性别.567.321表8、表9是将年龄作为第一层自变量得到的方差分析表和eta统计量表。表8中多了两行,Linearity是假设因变量均值是第一层自变量值的线性函数,Deviation from Linearity是不能由线性模型解释的部分。表9中是R和R2测度线性拟合的良好度,R是观测值与预测值之间的相关系数。表8 按年龄分组的方差分析表ANOVA TableSum of SquaresdfMean SquareFSig.血红蛋白值*年龄Between (Combined)16.39428.1971.645.207GroupsLinearity5.95215.9521.194.282Deviation from Linearity10.441110.4412.095.156Within Groups184.394374.984Total200.78739表9 按年龄分组的eta统计量表Measures of AssociationRR SquaredEtaEta Squared血红蛋白值*年龄.172.030.286.082二、单一样本T检验1简单介绍单一样本T检验(One-Sample T Test)是检验单个变量的均值是否与假设检验值(给定的常数)之间存在差异。例如,研究某地区高考数学平均分数与去年分组(定值)的差异。如果已知总体均数,进行样本均数与总体均数之间差异显著性检验也属于单一样本的T检验。例如,研究某地区高考数学平均分数与全省高考数学平均分数的差异,这样的问题就是依靠进行样本均数与总体均数之间差异显著性检验,即进行单一样本的T检验来解决的问题。单一样本T检验过程对每个检验变量给出的统计量包括观测量个数、均值、标准差和均值的标准差,它还给出了每个数据值与假设检验值之间的差的平均值以及进行该差值为0的T检验和该差值的置信区间,并且用户可以指定这个显著性水平。2完全窗口分析(1)One-Sample T Test主对话框按Analyze Compare Means One Sample T Test的顺序单击,就可以打开主对话框,如图3所示。图3 单一样本T检验主对话框(2)Test Variable框Test Variable框中的变量是要作检验的变量,要从源变量框中选取变量进入该框,只需选中所要选的变量,然后按向右的箭头即可。(3)Test Valeu参数框在该框中输入一个定值作为假设检验值。(4)Options对话框在主对话框中单击【Options】键,即可打开“Options”对话框,如图4所示。图4 Options对话框 Confidence Interval参数框在该框中输入置信区间,必须在199之间,一般取为90、95、99等,过程将给出这个置信区间的上下限。需要说明的是,计算置信区间的变量不是样本值,而是样本值和假设检验值(Test Value)的差。 Missing Value框在该框中选择缺失值的处置方式。l Exclude cases analysis by analysis选中该框,在检验变量中含有缺失值的观测将不被计算。l Exclude cases listwise选中该框,在任何一个变量中含有缺失值的观测都将不被计算。3例题分析仍以上例来说明。已知另一地区1618岁少年血红蛋白平均值为11.657g%,检验这一地区1618岁少年血红蛋白值是否与另一地区的平均值相等。(1)操作步骤 按Analyze Compare Means One Sample T Test的顺序单击,就可以打开主对话框。 将变量hb选入Test Variable框。 在Test Value框中输入11.657。单击【OK】完成。(2)输出结果及分析表10是血红蛋白值的一些统计量,包括观测量个数、均值、标准差和均值标准误差。表10 单个样本统计量One-Sample StatisticsNMeanStd. DeviationStd. Error Mean血红蛋白值4011.44482.2690.3588从表11中可以看出,t值为0.592,自由度为39,显著值为0.558,样本均值与检验值的差为0.2122,该差值95%的置信区间是0.93790.5134。表11 单个样本检验One-Sample TestTest Value = 11.657tdfSig. (2-tailed)Mean Difference95% Confidence Interval of the DifferenceLowerUpper血红蛋白值-.59239.558-.2122-.9379.5134三、独立样本T检验1简单介绍独立样本T检验(Independent Samples T Test)用于检验对于两组来自独立总体的样本,其独立总体的均值或中心位置是否一样。如果两组样本彼此不独立,应该使用陪对T检验(Paired Samples T Test)。如果分组比止一个,应该使用One-Way ANOVA过程进行单变量方差分析。如果想比较的变量是分类变量,应该使用Crosstable功能。独立样本T检验还要求总体服从正态分布,如果总体明显不服从正态分布,则应该使用一种非参数检验过程(Nonparametric test)。2完全窗口分析在完全窗口分析过程中将要遇到的各个对话框和选择项如下。(1)主对话框按Analyze Compared Means Independent-Samples T Test的顺序单击,即可打开“Independent-Samples T Test”主对话框,如图5所示。图5 独立样本T检验主对话框(2)Test Variable框Test Variable框中的变量是要作检验的变量,要从源变量框中选取变量进入该框,只需选中所要选取的变量,然后按向右的箭头即可。(3)Grouping Variable框该框中的变量是分组变量,只能有一个,该变量将样本分为两组来检验。分组变量必须是两值变量或具有某种分类特征的变量,前者如性别,后者如体重,例如以60kg为分界值分为两组。(4)Define Groups对话框在主对话框中单击【Define Groups】,打开Define Groups对话框。 Use Specified Values选中该栏,在Group 1和Group 2后的框中分别输入分组变量的取值调价,就把样本按该分组变量分成了两组。例如,如果分组变量是性别,“1”代表“男”,“2”代表“女”,那么在Group 1后的框中输入“1”,Group 2后的框中输入“2”,就按性别把样本分成了两组。 Cut Point选中该框,并在参数框中输入分界点值,即把样本按该分界点分成了两组。例如,如果分组变量是体重,选中该框并输入60kg,就把样本分成了两组。(5)Options对话框在主对话框中单击【Options】即可打开Options对话框。该框中可以设置置信区间和对缺失值的处理方法(参见单一样本T检验中的Options对话框操作)。3例题分析仍以上述为例来说明。(1)操作步骤 按Analyze Compared Means Independent-Samples T Test的顺序单击,即可打开“Independent-Samples T Test”主对话框。 将变量hb选入Test Variable框中作为检验变量。 将变量sex选入Grouping Variable框作为分组变量。 单击【Define Groups】,打开Define Groups对话框。在Group 1后的框中输入“1”,Group 2后的框中输入“2”,单击【Continue】返回。 单击【OK】结束。(2)结果输出及分析输出结果见表12和表13。表12是分组统计量表,列出的统计量包括观测量个数、均值、标准差和均值的标准误差。表12 分组统计量Group Statistics性别NMeanStd. DeviationStd. Error Mean血红蛋白值男2112.65292.0531.4480女1910.10951.6989.3898表13是独立样本T检验结果,Equal variances assumed行是假设方差相等进行的检验,当方差相等是非分明考察这一行的结果;Equal variances not assumed行是假设方差不等进行的检验,当方差不等时考察这一行的结果。在Livenes Test for Equality of Variance列中,显著值为0.5440.15,可认为方差是相等的,所以应考察第一行的结果。可以看到,显著值为0.0000.05,所以认为均值是不等的。表13 独立样本T检验结果Independent Samples Test Levenes Test for Equality of Variancest-test for Equality of MeansFSig.tdfSig. (2-tailed)Mean DifferenceStd. Error Difference95% Confidence Interval of the DifferenceLowerUpper血红蛋白值Equal variances assumed.376.5444.24238.0002.5434.59961.32963.7571Equal variances not assumed 4.28337.722.0002.5434.59381.34093.7458四、配对样本T检验1简单介绍配对样本T检验(Paired-Sample T Test)用于检验两个相关的样本是否来自具有相同均值的总体。比如考察同一组人在参加一年的长跑锻炼前后的心率是否有显著差异。这里,每个人一年前的心率和一年后的心率是相关的,心率较快的人锻炼后仍然相对其他人较快。所以,检验这样的成对总体的均值不能使用独立样本T检验的办法,因为独立性条件不再满足。这时,我们可以检验两个变量间的差值的均值是否为零,这等价于检验两组测量值的平均水平有无显著差异。例如,我们想知道MATH和ENGLISH这两门考试的成绩有无显著差异(MATH平均值为84.5,ENGLISH平均值为80.6,我们希望知道差异是否显著),因为这两个成绩是同一个学生的成绩,所以它们之间是相关的(学得好的学生两科一般都好,学得差的一般两科都差),不能用独立两个样本的t检验,但可以计算两变量间的差DMEMATHENGLISH,检验差值变量的均不值是否为零。2完全窗口分析(1)Paired Sample T Test主对话框按Analyze Compared Means Paired-Samples T Test的顺序单击,即可打开“Paired Sample T Test”主对话框,如图6所示。图6 Paired Sample T Test主对话框(2)Paired Variables框在主对话框中可以看到Paired Variables框,该框中的变量作为分析变量,总是成对出现。要从左边源变量框中选择变量进入此框,只需在源变量框中选择两个变量,此时,可以在Current Selections栏中看到所选择的变量,然后单击向右键即可在Paired Variables框中看到这两个变量,中间用“-”相连。例如,在源变量框中选择好两个变量MATH和ENGLISH,此时,可以在Current Selections栏中看到所选择的变量,然后单击向右键即可在Paired Variables框中看到“MATH-ENGLISH”。(3)Current Selections栏在该栏中显示被选中的成对变量,在源变量框中选择两个变量后,就可以在Current Selections栏中看到所选择的变量。(4)Options对话框在主对话框中单击【Options】即可打开“Options”对话框,如图7所示,该框的主要功能是确定置信水平和对缺失值的处理办法(参见单一样本T检验中的Options对话框操作)。图7 Options对话框3例题分析某单位研究饲料中缺乏维生素E与肝中维生素A含量的关系,将大白鼠按性别、体重等配为8对,每对中两只大白鼠分别喂给正常饲料和维生素E缺乏饲料,一段时间后测定其肝中的维生素A含量(mol/L)如下,现在想知道饲料中缺乏维生素E对鼠肝中维生素A含量有无影响。表14 配对样本T检验数据大白鼠配对编号肝中维生素A含量(mol/L)正常饲料组维生素E缺乏组137.225.7220.925.1331.418.8441.433.3539

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论