




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 SPSS基本统计分析基本统计分析 描述性统计分析描述性统计分析 描述性统计分析是统计分析的第一步,做好这第一步是描述性统计分析是统计分析的第一步,做好这第一步是 下面进行正确统计推断的先决条件。下面进行正确统计推断的先决条件。SPSS的许多模块均可的许多模块均可 完成描述性分析,但专门为该目的而设计的几个模块则集中完成描述性分析,但专门为该目的而设计的几个模块则集中 在在Descriptive Statistics菜单中,包括:菜单中,包括: Frequencies:频数分析过程,特色是产生频数表(主 要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述 (主
2、要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探索 性分析 Crosstabs:多维频数分布交叉表分析(列联表分析) Ratio statistics:比率分析 4.1 频数分析 4.1.1 频数分析的目的和基本任务频数分析的目的和基本任务 1、目的:基本统计分析往往从频数分析开始。通过频数分、目的:基本统计分析往往从频数分析开始。通过频数分 析能够了解变量取值的状况,对把握数据的分布特征是非析能够了解变量取值的状况,对把握数据的分布特征是非 常有用的。常有用的。 2、基本任务、基本任务 (1)频数分析的第一个基本任务是)频数分析的第一个基本任务是编制频数分布表编制频
3、数分布表。 频数(频数(Frequency):即变量值落在某个区间(或某 个类别)中的次数 百分比(百分比(Percent):即各频数占总样本数的百分比 有效百分比(有效百分比(Valid Percent):即各频数占有效样本 数的百分比,这里有效样本数总样本缺失样本数有效样本数总样本缺失样本数 累计百分比(累计百分比(Cumulative Percent):即各百分比 逐级累加起来的结果。最终取值为100。 (2)频数分析的第二个任务是)频数分析的第二个任务是绘制统计图绘制统计图 条形图(条形图(Bar Chart):用宽度相同的条形的高度 或长短来表示频数分布变化的图形,适用于定序和 定类
4、变量的分析。 饼图(饼图(Pie Chart):用圆形及圆内扇形的面积来 表示频数百分比变化的图形,以利于研究事物内在 结构组成等问题。 直方图(直方图(Histograms):用矩形的面积来表示频 数分布变化的图形,适用于定距型变量的分析。 注:变量的计量尺度:注:变量的计量尺度: a 定类定类 (Category Scale):只能计次):只能计次 b 定序定序 (Ordinal Scale):计次、排序):计次、排序 c 定距(定距(Interval Scale):计次、排序):计次、排序 、加减、加减 d 定比定比 (Ratio Scale):计次、排序、):计次、排序、 加减、乘除加
5、减、乘除 4.1.2 频数分析的基本操作频数分析的基本操作 (1)选择菜单)选择菜单AnalyzeDescriptive StatisticsFrequencies。 (2)将若干频数分析变量选择到)将若干频数分析变量选择到Variable(s)框框 中。中。 (3)单击)单击Chart按钮选择绘制统计图形,在按钮选择绘制统计图形,在 Chart Values框中选择条形图中纵坐标(或饼框中选择条形图中纵坐标(或饼 图中扇形面积)的含义,其中图中扇形面积)的含义,其中Frequencies表示表示 频数;频数;Percentages表示百分比。表示百分比。 输出百分位数: 输出四分位数,显示2
6、5%、50%、 75%的百分位数; 将数据平均分为所设定的相等等份 ,可输入2100 的整数,如键入4 则输出第25、50、75百分位数 自定义百分位数,可输入0100 的整数。 离散趋势分布形态栏 集中趋势栏 输出统计量对话框 4.1.3 SPSS频数分析的扩展功能频数分析的扩展功能 1、计算分位数(、计算分位数(Percentile Values) 分位数是变量在不同分位点上的取值。分位点在分位数是变量在不同分位点上的取值。分位点在0 100之间。一般使用较多的是四分位点(之间。一般使用较多的是四分位点(Quartiles) ,即将所有数据按升序排序后平均等分成四份,各分位点,即将所有数据
7、按升序排序后平均等分成四份,各分位点 依次是依次是25,50,75。于是四分位数便分别是。于是四分位数便分别是25 ,50,75点所对应的变量值。此外,还有八分位点所对应的变量值。此外,还有八分位 数、十六分位数等。数、十六分位数等。 SPSS提供了计算任意分位数的功能,用户可以指定提供了计算任意分位数的功能,用户可以指定 将数据等分为将数据等分为n份(份(Cut points for n equal groups )。还可以直接指定分位点()。还可以直接指定分位点(Percentile)。)。 2、计算其他基本描述统计量、计算其他基本描述统计量 SPSS频数分析还能够计算其他基本统计频数分析
8、还能够计算其他基本统计 量,其中包括描述集中趋势(量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度)的基本统计量、描述离散程度 (Dispersion)的基本统计量、描述分布形)的基本统计量、描述分布形 态(态(Distribution)的基本统计量等。)的基本统计量等。 Format 对话框 控制频数表输出的分类数量。默认为10 多变量框中可设定多变量表格输出 的格式 设置频数表输出的格式 选择频数表中排列顺序 按变量升序排列,此为默 认 按变量降序排列 按变量各种取值发生的频 数的升序排列 按变量各种取值发生的频 数的降序排列 3、频数分布表格式(、频
9、数分布表格式(Format)的定义)的定义 (1)调整频数分布表中数据的输出顺序()调整频数分布表中数据的输出顺序( Order by):频数分布表中的内容的输出顺序):频数分布表中的内容的输出顺序 可以按变量值的升序输出(可以按变量值的升序输出(Ascending values),按变量值的降序输出(),按变量值的降序输出( Descending values),按频数的升序输出),按频数的升序输出 ( Ascending counts),按频数的降序输),按频数的降序输 出(出( Descending counts)。)。 (2)multiple variables单选框组:单选框组: 如
10、果选择了两个以上变量作频数表,则如果选择了两个以上变量作频数表,则 compare variables可以将所有变量的结果可以将所有变量的结果 在同一个频数表过程输出结果中显示,便于互在同一个频数表过程输出结果中显示,便于互 相比较;相比较;organize output by variables 则将结果在不同的频数表过程输出结果中显示则将结果在不同的频数表过程输出结果中显示 ,每一个变量一张表。,每一个变量一张表。 (3)压缩频数分布表()压缩频数分布表(Suppress tables with more than n categories) 如果变量取值的个数或取值区间的个数太如果变量取
11、值的个数或取值区间的个数太 多,频数分布表将很庞大,此时可以压缩它。多,频数分布表将很庞大,此时可以压缩它。 SPSS默认,如果变量取值的个数或取值区间默认,如果变量取值的个数或取值区间 的个数大于的个数大于10,则不输出相应的频数分布表,则不输出相应的频数分布表 。应用中可以修改该值。应用中可以修改该值。 4.2 计算基本描述统计量 4.2.1 基本描述统计量基本描述统计量 常见的基本描述统计量有三大类:常见的基本描述统计量有三大类: 刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量 1、刻画集中趋势的描述统计量、刻画集中趋势的描述统计量 集中趋势是集中趋势是指一组数据向某一
12、中心值靠拢指一组数据向某一中心值靠拢 的倾向。的倾向。 (1)均值()均值(Mean):即算术平均数,是反映):即算术平均数,是反映 某变量所有取值的集中趋势或平均水平的指标某变量所有取值的集中趋势或平均水平的指标 。如某企业职工的平均月收入。其计算公式为。如某企业职工的平均月收入。其计算公式为 : 1 1 n i i xx n (2)中位数()中位数(Median):即一组数据按升序):即一组数据按升序 排序后,处于中间位置上的数据值。如评价社排序后,处于中间位置上的数据值。如评价社 会的老龄化程度时,可用中位数。会的老龄化程度时,可用中位数。 (3)众数()众数(Mode):即一组数据中出
13、现次数):即一组数据中出现次数 最多的数据值。如生产鞋的厂商在制定各种型最多的数据值。如生产鞋的厂商在制定各种型 号鞋的生产计划时应该运用众数。号鞋的生产计划时应该运用众数。 2、刻画离散程度的描述统计量、刻画离散程度的描述统计量 离散程度是离散程度是指一组数据远离其指一组数据远离其“中心值中心值” 的程度。的程度。 如果数据都紧密地集中在如果数据都紧密地集中在“中心值中心值”的周的周 围,数据的离散程度较小,说明这个围,数据的离散程度较小,说明这个“中心值中心值 ”对数据的代表性好;相反,如果数据仅是比对数据的代表性好;相反,如果数据仅是比 较松散地分布在较松散地分布在“中心值中心值”的周围
14、,数据的离的周围,数据的离 散程度较大,则此散程度较大,则此“中心值中心值”说明数据特征是说明数据特征是 不具有代表性的。不具有代表性的。 常见的刻画离散程度的描述统计量如下:常见的刻画离散程度的描述统计量如下: (1)全距()全距(Range):也称极差,是数据的最):也称极差,是数据的最 大值(大值(Maximum)与最小值()与最小值(Minimum )之间的绝对离差。)之间的绝对离差。 (2)方差()方差(Variance):也是表示变量取值):也是表示变量取值 离散程度的统计量,是各变量值与算数平均数离散程度的统计量,是各变量值与算数平均数 离差平方的算术平均数。其计算公式为:离差平
15、方的算术平均数。其计算公式为: 22 1 1 () n i i xx n (3)标准差()标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程):表示变量取值距离均值的平均离散程 度的统计量。其计算公式为:度的统计量。其计算公式为: 标准差值越大,说明变量值之间的差异越标准差值越大,说明变量值之间的差异越 大,距均值这个大,距均值这个“中心值中心值”的离散趋势越大。的离散趋势越大。 2 1 1 () n i i sxx n (4)均值标准误差()均值标准误差(Standard Error of Mean):): 描述样本均值与总体均值之间的平均差异程
16、度的统计量描述样本均值与总体均值之间的平均差异程度的统计量 。其计算公式为:。其计算公式为: 其中:其中: 为总体标准差,为总体标准差,n为样本单位数为样本单位数 2 2 () . () xX S E of Mean M xE x Mn 3、刻画分布形态的描述统计量、刻画分布形态的描述统计量 数据的分布形态主要指数据分布数据的分布形态主要指数据分布是否对称是否对称 ,偏斜程度如何,分布陡峭程度,偏斜程度如何,分布陡峭程度等。等。 刻画分布形态的统计量主要有两种:刻画分布形态的统计量主要有两种: (1)偏度()偏度(Skewness):描述变量取值):描述变量取值分分 布形态对称性布形态对称性的
17、统计量。其计算公式为:的统计量。其计算公式为: 33 1 1 () / n i i Skewnessxx n 当分布为对称分布时,正负总偏差相等,当分布为对称分布时,正负总偏差相等, 偏度值等于偏度值等于0;当分布为不对称分布时,正负;当分布为不对称分布时,正负 总偏差不相等,偏度值大于总偏差不相等,偏度值大于0或小于或小于0。偏度。偏度 值大于值大于0表示正偏差值大,称为表示正偏差值大,称为正偏或右偏正偏或右偏; 偏度值小于偏度值小于0表示负偏差值大,称为表示负偏差值大,称为负偏或左负偏或左 偏偏。偏度绝对值越大,表示数据分布形态的偏。偏度绝对值越大,表示数据分布形态的偏 斜程度越大。斜程度
18、越大。 (2)峰度()峰度(Kurtosis):描述):描述变量取值分布形态陡峭变量取值分布形态陡峭 程度程度的统计量。其计算公式为:的统计量。其计算公式为: 当数据分布与标准正态分布的陡峭程度相同时,当数据分布与标准正态分布的陡峭程度相同时, 峰度值等于峰度值等于0;峰度大于峰度大于0表示数据的分布比标准正态表示数据的分布比标准正态 分布更陡峭,为尖峰分布;峰度小于分布更陡峭,为尖峰分布;峰度小于0表示数据的分表示数据的分 布比标准正态分布平缓,为平峰分布。布比标准正态分布平缓,为平峰分布。 44 1 1 () /3 n i i Kurtosisxx n 4.2.2 计算基本描述统计量的操作
19、计算基本描述统计量的操作 (1)选择菜单)选择菜单AnalyzeDescriptive StatisticsDescriptives,出现如下窗口:出现如下窗口: (2)将需计算的)将需计算的数值型变量数值型变量选择到选择到Variable(s)框中。框中。 (3)单击)单击Option按钮指定计算哪些基本描述统计量,出现按钮指定计算哪些基本描述统计量,出现 如下窗口:如下窗口: Options 对话框 基本统计量 当Variables框中有多个变量时,此框确定其 输出顺序: 按Variables框中的排列顺序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列 分布 在上面窗口中
20、,用户可以指定分析多变在上面窗口中,用户可以指定分析多变 量时结果输出的次序(量时结果输出的次序(Display Order)。)。 其中,其中,Variable list表示按变量在数据窗口表示按变量在数据窗口 中从左到右的次序输出;中从左到右的次序输出;Alphabetic表示按表示按 字母顺序输出;字母顺序输出;Ascending Means表示按表示按 均值升序输出;均值升序输出;Descending Means表示按表示按 均值降序输出。均值降序输出。 至此,至此,SPSS便自动计算所选变量的基便自动计算所选变量的基 本描述统计量并显示到输出窗口中。本描述统计量并显示到输出窗口中。
21、4.3 交叉分组下的频数分析 4.3.1 目的和基本任务目的和基本任务 1、目的:交叉分组下的频数分析又称、目的:交叉分组下的频数分析又称列联表分析列联表分析。通。通 过前面的频数分析能够掌握单个变量的数据分布情况过前面的频数分析能够掌握单个变量的数据分布情况 ,在实际分析中,不仅要了解单个变量的分布特征,在实际分析中,不仅要了解单个变量的分布特征, 还要分析多个变量不同取值下的分布,进而分析变量还要分析多个变量不同取值下的分布,进而分析变量 之间的相互影响和关系。对于这种之间的相互影响和关系。对于这种涉及两个或两个以涉及两个或两个以 上变量分布情况上变量分布情况的研究通常要利用交叉分组下的频
22、数的研究通常要利用交叉分组下的频数 分析来完成。分析来完成。 2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列)根据收集到的样本数据,产生二维或多维交叉列 联表;联表; (2)在交叉列联表的基础上,对两两变量间是否存在)在交叉列联表的基础上,对两两变量间是否存在 一定的相关性进行分析。一定的相关性进行分析。 4.3.2 交叉列联表的主要内容交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个编制交叉列联表是交叉分组下频数分析的第一个 任务。交叉列联表是两个或两个以上的变量交叉分组任务。交叉列联表是两个或两个以上的变量交叉分组 后形成的频数分布表。后形成的频数分布表。
23、 例:职工基本情况数据按职称和文化程度编制的二维例:职工基本情况数据按职称和文化程度编制的二维 交叉列联表(见下页表):交叉列联表(见下页表): 职职 称称 * * 文文 化化 程程 度度 C Cr ro os ss st ta ab bu ul la at ti io on n 11103 33.3%33.3%33.3%.0%100.0% 25.0%25.0%20.0%.0%18.8% 6.3%6.3%6.3%.0%18.8% 13004 25.0%75.0%.0%.0%100.0% 25.0%75.0%.0%.0%25.0% 6.3%18.8%.0%.0%25.0% 20136 33.3%
24、.0%16.7%50.0%100.0% 50.0%.0%20.0%100.0%37.5% 12.5%.0%6.3%18.8%37.5% 00303 .0%.0%100.0%.0%100.0% .0%.0%60.0%.0%18.8% .0%.0%18.8%.0%18.8% 445316 25.0%25.0%31.3%18.8%100.0% 100.0%100.0%100.0%100.0%100.0% 25.0%25.0%31.3%18.8%100.0% Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化
25、程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total 高级工程师 工程师 助理工程师 无技术职称 职称 Total 本科专科高中初中 文化程度 Total 上表中的职称变量称为上表中的职称变量称为行变量(Row),文化程度称,文化程度称 为为列变量(Column)。行标题和列标题分别是两个变量分别是两个变量 的变量值(或分组值)。表格中间是的变量值(或分组值)。表格
26、中间是观测频数( Observed Counts)和各种和各种百分比。16名职工中,本科名职工中,本科 、专科、高中、初中的人数分别为、专科、高中、初中的人数分别为4,4,5,3,构成的,构成的 分布称为交叉列联表的分布称为交叉列联表的列边缘分布;高级工程师、工程师;高级工程师、工程师 、助理工程师、无技术职称的人数分别为、助理工程师、无技术职称的人数分别为3,4,6,3, 构成的分布称为交叉列联表的构成的分布称为交叉列联表的行边缘分布;4个本科学历个本科学历 职工中各职称的人数分别是职工中各职称的人数分别是1,1,2等,这些频数构成的等,这些频数构成的 分布称为分布称为条件分布,即在行变量(
27、列变量)取值条件下的,即在行变量(列变量)取值条件下的 列变量(行变量)的分布。列变量(行变量)的分布。 在交叉列联表中,除了频数外还引进了各种百分比。在交叉列联表中,除了频数外还引进了各种百分比。 例如表中第一行中的例如表中第一行中的33.3, 33.3, 33.3分别是分别是 高级工程师高级工程师3人中各学历人数所占的比例,称为人中各学历人数所占的比例,称为行百分比 (Row percentage),一行的百分比总和为,一行的百分比总和为100;表;表 中第一列的中第一列的25.0,25.0,50.0分别是本科学历分别是本科学历4 人中各职称人数所占的比例,称为人中各职称人数所占的比例,称
28、为列百分比(Column percentage),一列的列百分比总和为,一列的列百分比总和为100,表中的,表中的 6.3,6.3,12.5等分别是总人数等分别是总人数16人中各交叉人中各交叉 组中人数所占的百分比,称为组中人数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为,所有格子中的总百分比之和也为100 。 4.3.3 交叉分组下的频数分析的基本操作交叉分组下的频数分析的基本操作 (1)菜单选项)菜单选项AnalyzeDescriptive StatisticsCrosstabs,出现窗口如下:,出现窗口如下: 该框中的变量 作为分布表中 的
29、行变量和列 变量。 该框中的变量作为 控制变量,决定频 数分布表中的层, 可有多个控制变量 。 显示每一 组中各变 量的分类 条形图。 只输出统计 量,不输出 多维列联表 。 Crosstabs 对话框 (2)如果进行二维列联表分析,则将行变量选)如果进行二维列联表分析,则将行变量选 择到择到Row(s)框中,将列变量选择到框中,将列变量选择到 Column(s)框中。如果框中。如果Row(s) 和和 Column(s)框中有多个变量名,框中有多个变量名,SPSS会将会将 行列变量一一配对后产生多张二维列联表。如行列变量一一配对后产生多张二维列联表。如 果进行三维或多维列联表分析,则将其他变量
30、果进行三维或多维列联表分析,则将其他变量 作为控制变量选到作为控制变量选到Layer框中。多控制变量间框中。多控制变量间 可以是同层次的,也可以是逐层叠加的,可通可以是同层次的,也可以是逐层叠加的,可通 过过Previous或或Next按钮确定控制变量间的层次按钮确定控制变量间的层次 关系。关系。 (3)选择)选择Display clustered bar charts选项,指定绘选项,指定绘 制各变量交叉分组下频数分布条形图。制各变量交叉分组下频数分布条形图。Suppress tables表示不输出列联表,在仅分析行列变量间关系表示不输出列联表,在仅分析行列变量间关系 时可选择该选项。时可选
31、择该选项。 (4)单击)单击Cells按钮指定列联表单元格中的输出内容,按钮指定列联表单元格中的输出内容, 窗口如下:窗口如下: Crosstabs的Cell Display 对话框 选择在列联表中输出的统计量,包括观测 量数、百分比、残差 输出观测量的实际数量 如果行和列变量在统计上是独立 的或不相关的,那么会在单元格 中输出期望的观测值的数量。 输出单元格中观测量的数目占整行全部观 测量数目的百分比 输出单元格中观测值的数目占整列全部观 测量数目的百分比 输出单元格中观测量的数目占全部观测量 数目的百分比 计算非标准化残差 计算标准化残差 计算调整后残差 SPSS默认列联表单元格中只输出默
32、认列联表单元格中只输出观测频数( Observed)。为便于分析,通常还应指定输出。为便于分析,通常还应指定输出 Percentage框中的框中的行百分比(Row)、列百分比( Column)、总百分比(Total)。Counts框中的框中的 Expected表示输出期望频数;表示输出期望频数;Residuals框中的各个框中的各个 选项表示在各个单元格中输出剩余。其中,选项表示在各个单元格中输出剩余。其中, Unstandardized为非标准化剩余,定义为为非标准化剩余,定义为观测频数 期望频数;Standardized为标准化剩余,又称为标准化剩余,又称 Pearson剩余,定义为:,定
33、义为: 0 .Re e e ff Stdsiduals f (5)单击)单击Format按钮指定列联表各单元格的输出排列按钮指定列联表各单元格的输出排列 顺序。顺序。Ascending表示以行变量取值的升序排列,是表示以行变量取值的升序排列,是 SPSS默认项;默认项;Descending表示以行变量取值的降序表示以行变量取值的降序 排列。排列。 (6)单击)单击Statistics按钮指定用哪种方法分析行变量和按钮指定用哪种方法分析行变量和 列变量间的关系,窗口如下,其中,列变量间的关系,窗口如下,其中,Chi-Square为卡为卡 方检验。方检验。 4.3.4 交叉列联表行列变量间关系的分
34、析交叉列联表行列变量间关系的分析 对交叉列联表中的行变量和列变量之间关系进行对交叉列联表中的行变量和列变量之间关系进行 分析是交叉分组下频数分析的第二个任务。分析是交叉分组下频数分析的第二个任务。 为了理解行、列变量之间的关系,可以从分析两为了理解行、列变量之间的关系,可以从分析两 个极端的例子出发:个极端的例子出发: (1)年龄与工资收入的交叉列联表(一)年龄与工资收入的交叉列联表(一) 工工 资资 收收 入入 年年 龄龄 段段 低低中中高高 青青40000 中中04000 老老00400 (2)年龄与工资收入交叉列联表(二)年龄与工资收入交叉列联表(二) 表一中表示年龄与工资收入呈正相关关
35、系,表二表一中表示年龄与工资收入呈正相关关系,表二 表示年龄与工资收入呈负相关关系。但大多数情况下表示年龄与工资收入呈负相关关系。但大多数情况下 ,观测频数分散在列联表的各个单元格中,不容易直,观测频数分散在列联表的各个单元格中,不容易直 接发现行列变量之间的关系强弱程度,此时就要借助接发现行列变量之间的关系强弱程度,此时就要借助 非参数检验方法。通常用的方法是非参数检验方法。通常用的方法是卡方检验卡方检验。 工工 资资 收收 入入 年年 龄龄 段段 低低中中高高 青青00400 中中04000 老老40000 交叉列联表的卡方检验交叉列联表的卡方检验 卡方检验属假设检验的范畴,步骤如下:卡方
36、检验属假设检验的范畴,步骤如下: (1)建立原假设)建立原假设 在列联表分析中卡方检验的原假设为行变在列联表分析中卡方检验的原假设为行变 量与列变量独立量与列变量独立 (2)选择和计算检验统计量)选择和计算检验统计量 列联表分析卡方检验统计量是列联表分析卡方检验统计量是Pearson 卡方统计量卡方统计量,其数学定义为:,其数学定义为: 0 H 其中,其中,r为列联表的行数,为列联表的行数,c为列联表的列数;为列联表的列数; 为观察频数,为观察频数, 为期望频数(为期望频数(Expected Count)。期望频数的计算方法是:)。期望频数的计算方法是: 其中,其中,RT是指定单元格所在行的观
37、测频数合计,是指定单元格所在行的观测频数合计,CT是指定是指定 单元格所在列的观测频数合计,单元格所在列的观测频数合计,n是观测频数的合计。是观测频数的合计。 期望频数的分布反映的是行列变量互不相干下的分布。期望频数的分布反映的是行列变量互不相干下的分布。 02 2 11 () e rc ijij e ij ij ff f 0 f e f e RTCTRTCT fn nnn 职职 称称 * * 文文 化化 程程 度度 C Cr ro os ss st ta ab bu ul la at ti io on n 11103 33.3%33.3%33.3%.0%100.0% 25.0%25.0%20
38、.0%.0%18.8% 6.3%6.3%6.3%.0%18.8% 13004 25.0%75.0%.0%.0%100.0% 25.0%75.0%.0%.0%25.0% 6.3%18.8%.0%.0%25.0% 20136 33.3%.0%16.7%50.0%100.0% 50.0%.0%20.0%100.0%37.5% 12.5%.0%6.3%18.8%37.5% 00303 .0%.0%100.0%.0%100.0% .0%.0%60.0%.0%18.8% .0%.0%18.8%.0%18.8% 445316 25.0%25.0%31.3%18.8%100.0% 100.0%100.0%10
39、0.0%100.0%100.0% 25.0%25.0%31.3%18.8%100.0% Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total Count % within 职称 % within 文化程度 % of Total 高级工程师 工程师 助理工程师 无技术职称 职称 Total 本科专科高中初中 文
40、化程度 Total 例如,具有本科学历的高级工程师的期望频数是例如,具有本科学历的高级工程师的期望频数是 0.75的计算公式是的计算公式是3*4/16=0.75。这里,期望。这里,期望 频数可以理解为,总共频数可以理解为,总共16个职工的学历分布是个职工的学历分布是 25%:25%:31.3%:18.8%,如果遵从这,如果遵从这 种学历的总体比例关系,高级职称三人的学历分布种学历的总体比例关系,高级职称三人的学历分布 也应为也应为25%:25%:31.3%:18.8%,于是,于是 期望频数为期望频数为3*25%、3*25%、3*31.3%、 3*18.8%。同理可以理解,总共。同理可以理解,总
41、共16个职工的职个职工的职 称分布为称分布为18.8%:25%:37.5%:18.8%, 本科学历本科学历4人的期望频数分别为人的期望频数分别为4*18.8%、 4*25%、4*37.5%、4*18.8%。 卡方统计量观测值的大小取决于两个因素:第一:列卡方统计量观测值的大小取决于两个因素:第一:列 联表的单元格子数;第二:观测频数与期望频数的总联表的单元格子数;第二:观测频数与期望频数的总 差值。在列联表确定的情况下,卡方统计量观测值的差值。在列联表确定的情况下,卡方统计量观测值的 大小取决于观测频数与期望频数的总差值。当总差值大小取决于观测频数与期望频数的总差值。当总差值 越大时,卡方值也
42、就越大,实际分布与期望分布的差越大时,卡方值也就越大,实际分布与期望分布的差 距越大,表明行列变量之间越相关;反之表明行列变距越大,表明行列变量之间越相关;反之表明行列变 量之间越独立。那么,在统计上卡方统计量的观测值量之间越独立。那么,在统计上卡方统计量的观测值 究竟达到什么程度才能断定行列变量不独立呢?由于究竟达到什么程度才能断定行列变量不独立呢?由于 该检验中的该检验中的pearson卡方统计量近似服从卡方分布,卡方统计量近似服从卡方分布, 因此可依据卡方理论找到某自由度和显著性水平下的因此可依据卡方理论找到某自由度和显著性水平下的 卡方值,即卡方临界值。卡方值,即卡方临界值。 (3)确
43、定显著性水平()确定显著性水平(Significant Level) 和临界值和临界值 显著性水平显著性水平 是指原假设为真却将其拒是指原假设为真却将其拒 绝的风险,即弃真的概率。通常设为绝的风险,即弃真的概率。通常设为0.05或或 0.01。在卡方检验中,由于卡方统计量服从。在卡方检验中,由于卡方统计量服从 自由度为(行数自由度为(行数1)(列数(列数1)的卡方)的卡方 分布,因此,在行列数目和显著性水平确定时分布,因此,在行列数目和显著性水平确定时 ,卡方临界值是可唯一确定的。,卡方临界值是可唯一确定的。 (4)结论和决策)结论和决策 对统计推断做决策通常有两种方式:对统计推断做决策通常有
44、两种方式: 根据统计量观测值和临界值比较的结果进行决策。根据统计量观测值和临界值比较的结果进行决策。 如果卡方观测值大于临界值,则认为实际分布与期如果卡方观测值大于临界值,则认为实际分布与期 望分布之间的差距显著,可以拒绝原假设,断定列望分布之间的差距显著,可以拒绝原假设,断定列 联表的行列变量间不独立,存在相关关系;反之,联表的行列变量间不独立,存在相关关系;反之, 接受原假设。接受原假设。 根据统计量观测值的概率根据统计量观测值的概率p值和显著性水平值和显著性水平 比较比较 的结果进行决策。如果的结果进行决策。如果p值小于等于值小于等于 ,则认为卡,则认为卡 方观测值出现的概率是很小的,拒
45、绝原假设,断定方观测值出现的概率是很小的,拒绝原假设,断定 列联表的行列变量间不独立,存在依存关系;反之列联表的行列变量间不独立,存在依存关系;反之 ,接受原假设。,接受原假设。 什么是什么是P 值值? 1. 是一个概率值;是一个概率值; 2. 如果原假设为真,如果原假设为真,P-值是抽样分布中大于或小值是抽样分布中大于或小 于样本统计量的概率;于样本统计量的概率; 3. 被称为观察到的被称为观察到的(或实测的或实测的)显著性水平。显著性水平。 双侧检验的P 值 左侧检验的P 值 右侧检验的P 值 利用 P 值进行检验 (决策准则) n若p-值 ,不拒绝 H0 n若p-值 , 拒绝 H0 5.
46、3.5 交叉分组下的频数分析应用举例交叉分组下的频数分析应用举例 利用居民储蓄调查数据进行分析,实现以利用居民储蓄调查数据进行分析,实现以 下目标:下目标: 1、分析城镇和农村储户对、分析城镇和农村储户对“未来收入状况的未来收入状况的 变化趋势变化趋势”是否持相同的态度。是否持相同的态度。 2、分析城镇和农村储户对什么合算的认同是、分析城镇和农村储户对什么合算的认同是 否一致。否一致。 分析:分析:1、该问题列联表的行变量为户口,列变量、该问题列联表的行变量为户口,列变量 为未来收入状况,在列联表中输出各种百分比、期为未来收入状况,在列联表中输出各种百分比、期 望频数、剩余、标准化剩余,显示各
47、交叉分组下频望频数、剩余、标准化剩余,显示各交叉分组下频 数分布柱形图,并利用卡方检验方法,对城镇和农数分布柱形图,并利用卡方检验方法,对城镇和农 村储户对该问题的态度是否一致进行分析。村储户对该问题的态度是否一致进行分析。 2、该问题列联表的行变量为户口,列变量为什、该问题列联表的行变量为户口,列变量为什 么合算,在列联表的基础上进行卡方检验。么合算,在列联表的基础上进行卡方检验。 户口 * 未来收入情况 Crosstabulation户口 * 未来收入情况 Crosstabulation 6514018223 29.1%62.8%8.1%100.0% 84.4%70.4%48.6%71.2
48、% 20.8%44.7%5.8%71.2% 12591990 13.3%65.6%21.1%100.0% 15.6%29.6%51.4%28.8% 3.8%18.8%6.1%28.8% 7719937313 24.6%63.6%11.8%100.0% 100.0%100.0%100.0%100.0% 24.6%63.6%11.8%100.0% Count % within 户口 % within 未来收入情 况 % of Total Count % within 户口 % within 未来收入情 况 % of Total Count % within 户口 % within 未来收入情 况
49、% of Total 城镇户口 农村户口 户口 Total 增加基本不变减少 未来收入情况 Total 未来收入情况 * 户口 Crosstabulation未来收入情况 * 户口 Crosstabulation 651277 84.4%15.6%100.0% 29.1%13.3%24.6% 20.8%3.8%24.6% 14059199 70.4%29.6%100.0% 62.8%65.6%63.6% 44.7%18.8%63.6% 181937 48.6%51.4%100.0% 8.1%21.1%11.8% 5.8%6.1%11.8% 22390313 71.2%28.8%100.0% 1
50、00.0%100.0%100.0% 71.2%28.8%100.0% Count % within 未来收入情 况 % within 户口 % of Total Count % within 未来收入情 况 % within 户口 % of Total Count % within 未来收入情 况 % within 户口 % of Total Count % within 未来收入情 况 % within 户口 % of Total 增加 基本不变 减少 未来 收入 情况 Total 城镇户口农村户口 户口 Total Chi-Square TestsChi-Square Tests 15.8
51、19a2.000 15.7292.000 15.2961.000 313 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Valuedf Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.64. a. 5.3.6 SPSS中列联表分析的其他方法中列联表分析的其他方法 对列联表中行列变量的分析,除上述卡方检验方对列联表中行列变量的
52、分析,除上述卡方检验方 法之外,法之外,SPSS还提供了其他测度变量间相关关系的还提供了其他测度变量间相关关系的 检验方法,包括:检验方法,包括: 适用于两定类变量的方法:适用于两定类变量的方法:Nominal框中列出的方法属该类框中列出的方法属该类 方法。方法。 适用于两定序变量的方法:适用于两定序变量的方法:Ordinal框中列出的方法属该类框中列出的方法属该类 方法。方法。 适用于一定类变量、一定距变量的方法:适用于一定类变量、一定距变量的方法:Nominal by interval框中的框中的Eta方法属该类方法。方法属该类方法。 其他方法。其他方法。 5.4 多选项分析(频数分析和交
53、叉分析) 多选项问题的概念:多选项问题是根据实际调查的需多选项问题的概念:多选项问题是根据实际调查的需 要,要求被调查者从问卷给出的若干个可选答案中选要,要求被调查者从问卷给出的若干个可选答案中选 择一个以上的答案。目前,市场研究或许多领域对某择一个以上的答案。目前,市场研究或许多领域对某 事物评价的研究中常常遇到这样的问题。事物评价的研究中常常遇到这样的问题。 可以选多个,分为限选和不限选:可以选多个,分为限选和不限选: n限选:如在限选:如在1111种工作种类中,选你喜欢的,最多可种工作种类中,选你喜欢的,最多可 选选4 4种(种(Var1-Var4)Var1-Var4);求所有人喜欢各种
54、工作的频数;求所有人喜欢各种工作的频数 或频率。或频率。 n不限选:如在所列的不限选:如在所列的2020种电器中,你家所拥有的电种电器中,你家所拥有的电 器,不限选(器,不限选(Var1-Var20Var1-Var20),求所有被调查家庭拥),求所有被调查家庭拥 有各种电器的频数或频率。有各种电器的频数或频率。 5.4.1 多选项问题的分解 多多选项二分法及其编码(multiple dichotomies method): 多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个 变量值有0或1两个取值,分别表示选择了该答案和不选择该答案。如对 下面问题有9个可能的答案,每个可选择的
55、答案由一个变量表示,每个变 量的值只能有表明“是”和“否”的两个代码0或者1。 编号编号 调查内容调查内容 选选 项项 1 1 您喜欢红色吗您喜欢红色吗 是是 否否 2 2 您喜欢橙色吗您喜欢橙色吗 是是 否否 3 3 您喜欢黄色吗您喜欢黄色吗 是是 否否 4 4 您喜欢绿色吗您喜欢绿色吗 是是 否否 5 5 您喜欢青色吗您喜欢青色吗 是是 否否 6 6 您喜欢蓝色吗您喜欢蓝色吗 是是 否否 7 7 您喜欢紫色吗您喜欢紫色吗 是是 否否 8 8 您喜欢黑色吗您喜欢黑色吗 是是 否否 9 9 您喜欢白色吗您喜欢白色吗 是是 否否 左边的表格为向顾客发放的颜色调 查,在选择服装时,您喜欢什么颜色
56、作为主体颜色,在答案的“”中打“” (可多选) 这是一组问题,每个问题均有两个 答案,回答者只能选择其中一种。在 建立数据文件时,变量名使用相同的 变量主名,后面加以不同序号组成, 本组问题的9个变量名可以是color1- color9。而答案的编码规则为:回答“ 是”变量值为1,回答“否”变量值为0, 其他值为缺失值。 n多选项分类法及其编码选项分类法及其编码(multiple category multiple category method method ):多选项分类法中,首先应估计多选项问题最):多选项分类法中,首先应估计多选项问题最 多可能出现的答案个数;然后为每个答案设置一个多可
57、能出现的答案个数;然后为每个答案设置一个SPSSSPSS变变 量,变量取值为多选项问题中的所有可选答案。如上面有量,变量取值为多选项问题中的所有可选答案。如上面有 关选择服装的主体颜色,您可以选择喜欢的三种,在提供关选择服装的主体颜色,您可以选择喜欢的三种,在提供 的的1010种答案前上选择。种答案前上选择。 1、红 2、橙 3、黄 4、绿 5、青 6、蓝 7、紫 8、黑 9、白10说不清 这是一个问题,可以有三个答案。在建立数据文件时 ,要建立三个变量color1-color3表示回答者选择的三个颜 色。如选择结果为1、红、6、蓝、8、黑,则变量color1的 值为1,变量color2的值为
58、6,变量color3的值为8。 如果采用多选二分法则有6个选项,故应设6个变量,运用0-1编码方法编码,即: 1,0,1,0,1,1。 如果采用多选分类法,则编码为1,3,5,6,0,0。 1 3 5 6 问题问题2:择业中考虑的主要因素:择业中考虑的主要因素(多选)(多选) 1经济收入经济收入 2专业对口专业对口 3发展前途发展前途 4地理区位地理区位 5个人爱好个人爱好 6风险大小风险大小 7劳动强度劳动强度 8社会福利社会福利 9其他其他 编码应为:1,0,1,1,1,0,1,1,0。 或1,3,4,5,7,8,0,0,0。 1 3 6 问题问题3 3:您择业中考虑的主要因素有(限选三项
59、):您择业中考虑的主要因素有(限选三项) 1经济收入经济收入 2 专业对口专业对口 3发展前途发展前途 4地理区位地理区位 5个人爱好个人爱好 6风险大小风险大小 7劳动强度劳动强度 8社会福利社会福利 9社会地位社会地位 10其他其他 因为限选三项,故应设三个变量,编码依次为1, 3,6。 5.4.2 多选项分析的基本操作 首先将每个题的若干答案组成一个综合变量即首先将每个题的若干答案组成一个综合变量即变量集变量集 (Set)(Set),然后对综合变量的各种取值进行分析。只有通过定义,然后对综合变量的各种取值进行分析。只有通过定义 多选项变量集,多选项变量集,spssspss才能确定应对哪些
60、变量取相同值的个案才能确定应对哪些变量取相同值的个案 数进行累加。数进行累加。 n多选项分析在SPSS中是通过Analyze - Multiple Response 中的各项功能实现的。 1.Define Sets: (1)从左边的变量中将多选变量集的变量选择到 variables in sets框中,建立多选二分变量集或多选分 类变量集。 (2)在variables are coded as框中指定多选变量集中的 变量是按照那种方法编码的。Dichotomies表示以多选二 分法编码,并在counted value中输入用哪个数值来表示 选中该选项。categories表示以多选分类法编码,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贷款借款合同书范本
- 2025电子产品销售代理合同范本
- 楼道扶梯工程合同范本
- 宠物无偿领养合同范本
- 2025股权转让合同示范范文
- 2025标准购房合同协议书写才有效
- 装修换租房合同范本
- 2025汽车租赁合同及车辆安全管理规范
- 易装修合同范本
- 铁矿购销石合同范本
- 2025年匹克球裁判试题及答案
- 2025秋苏教版科学三年级上册教学设计(附目录)
- 2025国家能源投资集团有限责任公司审计中心社会招聘12人笔试参考题库附带答案详解(10套)
- 《初中必读名著导读:《水浒传》核心知识点与深度解读》
- 深圳微利房管理办法
- 诊断学血管检查
- 大连市甘井子区社区工作者招聘笔试真题2024
- 生产安全会议纪要
- 哪个团队收益大+课件2025-2026学年+北师大版(2024)八年级数学上册
- 制作瓷器培训课件
- 初中情景教学法教案课件
评论
0/150
提交评论