SPSS与次数分布及数据检查.docx_第1页
SPSS与次数分布及数据检查.docx_第2页
SPSS与次数分布及数据检查.docx_第3页
SPSS与次数分布及数据检查.docx_第4页
SPSS与次数分布及数据检查.docx_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Analyze、Graphs部分用法1. Analyze简要介绍Analyze 是SPSS主要的分析工具,下面有多个菜单:报告Rports描述性统计分析Descriptive Statistics菜单表格Tables均数间的比较Compare Means菜单一般线性模型General Linear Model菜单相关分析Correlate菜单多元线性回归与曲线拟合 Regression菜单对数线性模型Loglinear菜单聚类分析与判别分析Classify菜单因子分析与对应分析Data Reduction菜单信度分析与多维尺度分析Scale菜单非参数检验Nonparametric Tests菜单时间序列分析Time series2. 描述性统计分析(Descriptive Statistics)的用法 描述性统计分析(Descriptive Statistics)是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析(比如说GRAPH中就直接可以做散点图)但专门为该目的而设计的几个模块则集中在Descriptive Statistics(描述统计)菜单中,主要包括以下几种:Frequencies(频数分布分析):频数分析过程,通过频数分布表、直方图、以及集中趋势、离散趋势的各种统计量,描述数据的分布特征。(主要针对分类变量);Descriptives(描述性统计分析):数据描述过程,进行一般性的统计描述(主要针对数值型变量),除了用来描述集中趋势和离散趋势的各种统计量之外(比方说均值、标准差、最大值、最小值之外),还有一个重要的功能就是对变量做标准化变化,也就是Z变换。Explore(探索性分析):数据探察过程,用于对数据概况不清时的探索性分析,主要作用是对数据进行初步检查,判断有没有极端值,是否符合正太分布等。探索分析时在对数据的基本特征统计量有了初步了解的基础上,对数据进行的更为深入详细的描述性观察分析,在上面所进行的一般描述性统计指标的基础上,增加了有关数据的其他特征的文字与图形描述,显得更加细致与全面 ,有助于使用者对数据进行进一步分析的方案。Crosstabs:多维频数分布交叉表分析(列联表分析)Ratio statistics:比率分析下面对Frequencies(频数分布分析)、Explore(探索性分析)的用法进行介绍1)频数分析(Frequencies):基本统计分析往往从频数分析开始。目的:通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。基本任务:频数分析的第一个基本任务是编制频数分布表。即变量值落在某个区间(或某个类别)中的次数;频数分析的第二个任务是绘制统计图,可绘制的统计图包括:条形图(Bar Chart,用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定序和定类变量的分析);饼图(Pie Chart,用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利于研究事物内在结构组成等问题);直方图(Histograms,用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析)SPSS基本操作:频数分析的基本操作(1)选择菜单AnalyzeDescriptive StatisticsFrequencies。(2)将若干频数分析变量选择到Variable(s)框中。(3)单击statistics集中趋势分布形态离散趋势 图 Statistics对话框单击Chart按钮选择绘制统计图形,在Chart Values框中选择条形图中纵坐标(或饼图中扇形面积)的含义,其中Frequencies表示频数;Percentages表示百分比。图 Chart对话框单击Format可得下面的对话框,对频数表中的排列顺序进行设置;此外可以选择处理多种变量的方式。具体入下:处理多个变量的方式:第一种是界定多个同一报表并列比较;第二个是界定各变量分别处理报表输出控制频数表输出的分类数量,也就是某变量超过几个类别就不输出次数分布表,默认为10 调整频数分布表中数据的输出顺序(Order by):频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values),按频数的升序输出( Ascending counts),按频数的降序输出( Descending counts)。 multiple variables单选框组: 如果选择了两个以上变量作频数表,则compare variables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;organize output by variables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。压缩频数分布表(Suppress tables with more than n categories)如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS默认,如果变量取值的个数或取值区间的个数大于10,则不输出相应的频数分布表,应用中可以修改该值。具体实例操作(英文视窗版SPSS与行为科学研究):了解474名企业员工在任职年资(year)这个变量上的次数分布情形,并计算四分位数,以及百分比等级27及73所对应的百分位数,同时绘制任职年资的直方图 。操作步骤:Analyzedescriptive statisticsfrequency选中year 点击statistics-quartiles、percenties(27,73)continue点击charts-选中直方图histogramscontinue Ok统计量YEARN有效474缺失0百分位数255.00275.00508.007311.757512.00结果分析474名有效样本,百分等级,百分之25对应的百分位数为5年,百分等级27对应的百分位数为5年,(因为选了四分位,又选了27、73的百分位数,所以有25、50、75、27、73)。需要注意的是百分等级27、73多对应的百分位数的计算,可以根据这个指标对数据的高中低的数值进行了解。YEAR频率百分比有效百分比累积百分比有效2183.83.83.83347.27.211.04418.68.619.65377.87.827.46357.47.434.87275.75.740.586613.913.954.496112.912.967.310163.43.470.711112.32.373.012265.55.578.513214.44.482.91471.51.584.415245.15.189.516112.32.391.817112.32.394.118122.52.596.619163.43.4100.0合计474100.0100.0第一列是指样本在变量year上的编码值,也就是实际任职年限,第二列是该编码值出现的次数,第三列是出现的次数所占得百分比,第四列排除缺失值后出现的次数所占的百分比,第五列是累计百分比。对直方图的解释:横轴:任职年限,纵轴是实际次数。曲线为理论的正太分布曲线,如果变量的实际分布次数与该曲线吻合,就表示该变量的概率分布越接近正太分布,从分析的结果可以看出,低年资的比例较多,呈现正偏态。最后图中还显示出年资的均值为8.8,标准差为4.523,有效观察值数为474。除了制作次数分布表和直方图,之外,frequency这个指令还有其他的功能。比如,在一些行为科学的研究中,研究者想要利用方差分析来探讨两个连续变量之间的因果关系,比如说成绩在成就上的差异,由于这个自变量是连续变量,而因变量是类别变量,在做分析时就需要把连续性变量转换称类别变量,就是将成绩的分值划分为不同的组别,比如说按27、73的百分位进行划分,这时候研究者就能知道这三组间的临界分数,然后利用上次讲到的transform-visual binning将观察值进行分组,然后再探讨两者之间的关系。2)Explore(探索性分析)数据探察过程,用于对数据概况不清时的探索性分析,主要作用是对数据进行初步检查,判断有没有极端值,是否符合正太分布等。探索分析时在对数据的基本特征统计量有了初步了解的基础上,对数据进行的更为深入详细的描述性观察分析,在上面所进行的一般描述性统计指标的基础上,增加了有关数据的其他特征的文字与图形描述,显得更加细致与全面 ,有助于使用者对数据进行进一步分析的方案。那我们看看初步的数据检查工作怎么展开:analyze - descriptive statistics-explore图Explore对话框选中要进行数据检查的变量移到dependent list,这里可以同时移入多个变量进行数据检查工作。如果想要根据某一类别(比如性别、种族)分别对dependent list中列出的变量进行数据检查,可以点击该类别变量后移入factor list。选好想要进行数据检查的变量之后,点击右侧Statistics:图explore- Statistics对话框在这个对话框中,第一个descriptives 就是描述性,如果选择了这一项,就会生成一个描述性统计表格,表中会显示样本数据的描述统计量,包括平均值、中位数、标准误差、最大值、最小值、组距、四分位数、峰度、偏度等。下面的这个事均值的置信区间,系统默认的置信度为95%。下面的M估计量(M-estimators):如果选择这项的话,将会计算并生成文件估计量,M估计在计算时对所有观测量赋予权重,权重会跟随观测量距离分布中心的远近而变化,通过给远离中心至的数据赋予较小的权重来减少异常值的影响。Outliers 界外值,如果选择了这一项,就会将输出分析数值中的5个最大值和5个最小值作为异常嫌疑值或者异常值。极端值可能就是那些与绝大部分观察值有极大差异的观察值,造成这种极端值的原因可能是数据填写时的问题,数据录入时的问题等。最后一个百分位数:选择这一项会计算制定的百分位数,包括5%,10%,25%等。一般数组应遵循正态分布,但一列数组中有可能会出现异常值,从而影响数据的方差和统计结果,因此挡在SPSS中输入数据后,首先要检查数据中是否存在异常值。点击右侧plots: 图explore-plot对话框“箱图(Boxplots)栏(单选项组)”:箱图,又称箱锁图。 “按因子水平分组(Factor levels together,系统默认)”:选择此项,将为每个因变量创建一个箱锁图,在每个箱锁图内根据分组变量的不同水平的取值创建箱形单元。 “不分组(Dependents together)”:选择此项,将为每个分组变量的水平创建一个箱锁图,在每个箱锁图内用不同的颜色区分不同因变量所对应的箱形单元,方便用户进行比较。 “无(None)”:选择此项,不创建箱图。“描述性(Descriptive)栏”:选择该组内的选项,可以生成茎叶图和(或)直方图。 “茎叶图(Stem-and-leaf,系统默认)”:茎叶图主要由3个部分组成,即频率(Frequency)、茎(Stem)和叶(Leaf),在图中按从左到右的顺序依次排列,在图的底端,注明了茎的宽(Stem Width)和每一叶所代表的观测量数(Each Leaf)。 “直方图(Histogram)”:直接绘制直方图 “带检验的正态图(Normality plots with test,复选框)”:选择此项,将进行正态性检验,并生成正态Q-Q概率图和无趋势正态Q-Q概率图。“伸展与级别Levene检验(Spread vs level with Levene Test)栏(单选项组)”:对所有的展布-水平图进行方差齐性检验和数据转换,同时输出回归直线的斜率及方差齐性的Levene检验,但如果没有指定分组变量,则此选项无效。点击右侧Option:图explore-options在这个对话框中,可选择缺失值的处理方式,SPSS提供了3种处理方式: “按列表排除个案(Exclude cases listwise,系统默认)”:选择此项,对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据; “按对排除个案(Exclude cases pairwise)”:同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据,在其他分析过程中可能包含缺失值; “报告值(Report values)”:选择此项,将分组变量的缺失值单独分为一组,在输出频数表的同时输出缺失值。具体操作:了解男性企业员工在起薪变量上的分布是否符合正太性的假设,同时检查数据中是否出现了极端值。操作步骤 :第一步:选择男性:dataselect cases -if condition is satisfied-continueok 第二步:数据检验:analyze-descriptive statistics-explore选中起薪begsal-移到dependent list(因变量)中,这时还可以选中code 移到label cases by 中用作报表输出时辨认极端值在数据文件中的编号 在statistics中点击discriptive,outliers-continuePlot-stem-and-leaf, normally plots with tests (正太图)-continue输出结果分析:案例处理摘要案例有效缺失合计N百分比N百分比N百分比BEGSAL216100.0%00.0%216100.0%描述统计量标准误BEGSAL均值5226.6076.462均值的 95% 置信区间下限5075.89上限5377.315% 修整均值5139.83中值4950.00方差1262836.306标准差1123.760极小值3600极大值9996范围6396四分位距1248偏度1.334.166峰度2.039.330极值案例号CODE值BEGSAL最高14617589996245086698003317377992441331979925477137800a最低1217921360022064593600319024536004223754390052204913900ba. 上限值表中仅显示一部分具有值 7800 的案例。b. 下限值表中仅显示一部分具有值 3900 的案例。SPSS输出了10个可能的极端值,(outlier)的统计结果,由表可知,可能的极端值的编码最大者是原数据文件中的第461笔数据,他的员工识别码是758,值为9996,其次依次是员工识别码为866、737、319、713的观察值,这是初步的数据检查,那么观察者也可以进行进一步的检查数据,确定观察值在起薪这个变量上是极端值的原因。图中下端注解的意思:编码值为7800的观察值,只列出了一部分。正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.BEGSAL.142216.000.886216.000a. Lilliefors 显著水平修正用来检验数据是否服从正太性的统计量为Kolmogorov-Smirnov,Kolmogorov-Smirnov当检验结果达到显著性水平时,可以拒绝原假设(原假设为是正太性分布)Shapiro-Wilk,Shapiro-Wilk主要用于研究的样本为小样本时,采用这个方法进行正太性检验,较不容易出现偏差。可以在表中看到,满足a=0.05,sig值的意思就是显著性(significance),也就是说不服从正太分布。BEGSAL Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 3 . 666999999 46.00 4 . 0000000000000000000000222223333333333333334444 58.00 4 . 5555555555555555555555555566666668888888888888888888999999 39.00 5 . 111111111111122222234444444444444444444 19.00 5 . 5555555677777777778 12.00 6 . 000001133333 12.00 6 . 666666679999 8.00 7 . 22222222 4.00 7 . 5555 9.00 Extremes (=7800) Stem width: 1000 Each leaf: 1 case(s)茎叶图:Frequency :出现的次数;9.00 Extremes (=7800):大于7800的观察值共有9名,经与其他观察值相较后,都被归于极值。 Stem width: 1000,表示组距1代表1000。正太概率分布图,可以先将分布图表的右上角及左下角亮点的对角线画出,这一45度角的对角线就是理论的正太累计概率分布线,再与圆圈构成的实际累计概率分不限相比较,由图可知,圆圈构成的实际累计概率分布线偏离45度角对角线特别多,因此违反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论