




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2019/5/15,基本统计分析,2.1 SPSS简介 2.2 SPSS数据的管理 2.3 SPSS数据的预处理 2.4 SPSS基本统计分析,2.4.1 频数分析 2.4.2 计算基本描述统计量 2.4.3 交叉分组下的频数分析(重点) 2.4.4 多选项分析(自学) 2.4.5 比率分析(自学) 2.4.6 探索性分析(自学),2.4 SPSS基本统计分析,2.4.1 频数分析,频数分析的目的和基本任务 频数分析的基本操作 频数分析的应用举例,1、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 2、基本任务 (1) 频数分析的第一个基本任务是编制频数分布表; (2) 频数分析的第二个任务是绘制统计图:条形图、饼图、直方图。,1) 频数分析的目的和基本任务,2) 频数分析的基本操作,(1) 选择菜单分析Analyze描述统计Descriptive Statistics频率Frequencies。 (2) 将若干频数分析变量选择到变量Variable(s)框中。 (3) 单击图表Chart按钮选择绘制统计图形,在图表值Chart Values框中选择条形图中纵坐标(或饼图中扇形面积)的含义,其中Frequencies表示频数;Percentages表示百分比。,数据加工(职工数据).sav,目标一:分析储户的户口和职业的基本情况 (1)户口和职业两个变量都是定类变量,可通过基本频数分析实现。 (2)职业变量的取值(分类)数目较多,为使频数分布表更一目了然,应对内容的输出顺序进行调整,单击格式Format按钮,选择Descending counts按频数的降序输出。 (3)单击图形Chart按钮指定输出户口变量的饼图和职业变量的条形图。,户口的基本情况-操作,户口的基本情况-输出结果,职业的基本情况-操作,居民储蓄调查数据.sav,职业的基本情况-输出结果,目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。 1、分析思路: (1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。 (2)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。,2、分析过程: (1)数据分组,将存(取)款金额重新分成五组,五组区间分布为,少于500元,5002000元,20003500元,35005000元,5000元以上。分组后进行频数分析并绘制带正态曲线的直方图。 (2)利用SPSS的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到城镇户口和农村户口的存(取)款金额的四分位数。,存款金额分布-数据分组操作,居民储蓄调查数据.sav,分组结果,存款金额分布-频数分布操作,存款金额分布-输出结果,存款金额城乡比较-数据拆分操作,居民储蓄调查数据.sav,数据拆分结果:数据按户口进行了排序,且后面的操作都是按拆分变量的不同组分别进行分析计算。,存款金额城乡比较-四分位数操作,城乡比较-数据拆分后的输出结果,未拆分的数据输出结果,恢复全部数据的分析,2.4.2 计算基本描述统计量,基本描述统计量 基本描述统计量的基本操作 基本描述统计量的应用举例,4.2.1 基本描述统计量,常见的基本描述统计量有三大类: 刻画集中趋势的统计量 刻画离散程度的统计量 刻画分布形态的统计量,离散趋势,分布形态栏,集中趋势栏,上节频数分析中-统计量对话框,2) 基本描述统计量的操作,(1) 选择菜单分析Analyze描述统计Descriptive Statistics描述Descriptives,出现如下窗口:,基本统计量,当Variables框中有多个变量时,此框确定其输出顺序: 按Variables框中的排列顺序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列,分布,选项对话框,3) 应用举例,1. 利用居民储蓄调查数据,对一次存款金额变量计算基本描述统计量。有以下分析目标:计算存款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较 分析:首先按照户口对数据进行拆分(Split file),然后计算存(取)款金额的基本描述统计量。,数据拆分操作,居民储蓄调查数据.sav,输出结果,2.4.3 交叉分组下的频数分析,目的和任务 交叉列联表的主要内容 交叉列联表行列变量间关系的分析 基本操作 应用举例 SPSS中列联表分析的其他方法,问题描述,假定从A地铁站到B地铁站共有三条路径可以选择,三条路径的行车时间、等待时间和换乘次数有所差异。 问题:分析乘客的性别、年龄、职业、家庭收入等因素对其选择三条路径的影响。 问题的一般化,1) 目的和基本任务,1、目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。,2、基本任务: 1)根据收集到的样本数据,产生二维或多维交叉列联表; 2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。,2) 交叉列联表的主要内容,编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。 例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):,3) 交叉列联表行列变量间关系的分析,对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。 大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法。通常用的方法是卡方检验。,交叉列联表的思想-卡方检验,卡方检验属假设检验的范畴,步骤如下: (1) 建立原假设 在列联表分析中卡方检验的原假设为行变量与列变量独立 (2) 选择和计算检验统计量 列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:,其中,r为列联表的行数,c为列联表的列数; 为观察频数, 为期望频数(Expected Count)。期望频数的计算方法是: 其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。 期望频数的分布反映的是行列变量互不相干下的分布。,(3) 确定显著性水平和临界值,显著性水平(Significant Level) 是指原假设为真却将其拒绝的风险,即弃真的概率。通常设为0.05或0.01。在卡方检验中,由于卡方统计量服从自由度为(行数1)(列数1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的。,(4) 结论和决策,对统计推断做决策通常有两种方式: 根据统计量观测值和临界值比较的结果进行决策。如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,接受原假设。 根据统计量观测值的概率p值和显著性水平 比较的结果进行决策。,利用p值进行检验(决策准则),若p-值 ,不拒绝 H0 若p-值 , 小概率事件发生,拒绝 H0,p值是抽样分布中大于或小于样本 统计量的概率;被称为观察到的 (或实测的)显著性水平。,4) 基本操作,(1) 菜单选项分析Analyze描述统计Descriptive Statistics 交叉表Crosstabs,出现窗口如下:,该框中的变量作为分布表中的行变量和列变量,该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量。,显示每一组中各变量的分类条形图。,只输出统计量,不输出多维列联表。,交叉表Crosstabs 对话框,数据加工(职工数据).sav,(2) 如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。,单元显示Cell Display 对话框,输出观测量的实际数量 输出期望的观测值的数量,输出单元格中观测量的数目占整行全部观测量数目的百分比 输出单元格中观测值的数目占整列全部观测量数目的百分比 输出单元格中观测量的数目占全部观测量数目的百分比,统计量和格式对话框,指定用哪种方法分析行变量和列变量间的关系,输出排列顺序,5) 应用举例,利用居民储蓄调查数据进行分析,实现以下目标: 1、分析城镇和农村储户对“未来收入状况的变化趋势”是否持相同的态度。 2、分析城镇和农村储户对什么合算的认同是否一致(自己练习)。,居民储蓄调查数据.sav,分析:1、该问题列联表的行变量为户口,列变量为未来收入状况,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析。 2、该问题列联表的行变量为户口,列变量为什么合算,在列联表的基础上进行卡方检验。,1. 未来收入状况的态度操作,居民储蓄调查数据.sav,1. 未来收入状况的态度输出结果,p值小于0.05拒绝原假设,认为行列变量之间相关,户口对未来收入看法有影响,6) SPSS中列联表分析的其他方法,对列联表中行列变量的分析,除上述卡方检验方法之外,SPSS还提供了其他测度变量间相关关系的检验方法,包括: 适用于两定类变量的方法:名义Nominal框中列出的方法属该类方法。 适用于两定序变量的方法:有序Ordinal框中列出的方法属该类方法。 适用于一定类变量、一定距变量的方法:按区间标定Nomi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 心态富足申论题目及答案
- 心理岗面试题目及答案
- 校园保安面试题目及答案
- 史记中的历史事件讲解与课文教学
- 人教版四年级上册第一单元1.3《十进制计数法》课时练(含答案)
- 月夜作文800字8篇范文
- 妈妈的爱100字(12篇)
- 纪念白求恩课件开场白
- 秋天的怀念600字9篇
- 我爱森林600字9篇
- 安装电工电气调试员安全技术操作规程
- 2乳的验收与预处理解析
- 三峡大学级本科电气工程及其自动化二本培养方案
- 柴芍六君子汤加减治疗脾胃病三则
- GB/T 778.1-2018饮用冷水水表和热水水表第1部分:计量要求和技术要求
- GB/T 11547-2008塑料耐液体化学试剂性能的测定
- 伤口造口新进展课件
- (完整版)人工智能介绍课件
- 恶性骨肿瘤化疗及注意事项(58张幻灯片)课件
- 国有企业采购规范和示范文本
- Fisher DVC2000定位器培训课件
评论
0/150
提交评论