4 描述性统计.ppt_第1页
4 描述性统计.ppt_第2页
4 描述性统计.ppt_第3页
4 描述性统计.ppt_第4页
4 描述性统计.ppt_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,数据分析:描述性统计分析,在做数据分析的时候,一般首先要对数据进行描述性统计分析,以便于描述测量样本的各种特征及其所代表的总体的特征以及发现其数据的内在规律,再选择进一步分析的方法。 描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 描述性统计(Descriptive Statistics),是对收集的数据的整理、描述、汇总和解释。,SPSS 的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在【Descriptive Statistics】菜单中。最常用的是列在最前面

2、的五个过程 Frequencies:产生频数表。 Descriptive:进行基本的统计描述分析。 Explore:探索性分析。 Crosstabs:列联表分析。 Ratio statistics:比率统计分析。,一、Frequencies:频数分析,利用Frequencies功能整理数据,得到一系列描述数据分布状况的统计量,即频数表,获得数据的分布特征和内部结构的粗略了解。 Frequencies 过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值以及常用的条图、饼图等统计图。 同时,SPSS的频数分析还可以进行集中趋势、离散趋势的各种基本统计量等

3、计算功能。,频数分析的基本操作流程,Step01:打开主窗口 选择菜单栏中的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Frequencies(频率)】命令,弹出【Frequencies(频率)】对话框,这是频数分析的主操作窗口。 Step02:选择分析变量 在【Frequencies(频率)】对话框的左侧的候选变量列表框中,选取一个或多个待分析变量,将它们移入右侧的【Variable(s)(变量)】列表框中。 Step03:输出频数分析表 勾选【Display frequency tables(显示频数表格)】复选框,输出频数分析表。,Step0

4、4:其他基本统计分析 在对话框中还可以单击【Statistics(统计量)】和【Chars(图表)】等按钮。这些选项提供了丰富的统计输出结果。 Step05:输出格式选择 单击【Format】按钮,在弹出的对话框中设置频数表的输出格式。 Step06: 完成操作,分布指标,百分位数指标,集中趋势指标,离散趋势指标,计算百分数时选此项,应用举例,P65 应用举例 分析1:分析被调查者的户籍以及他们认为房价的变化状况 分析2:分析月住房开销的分布,并对不同居住类型进行比较 数据文件“商品房购买意向调查模拟数据.sav”,二、Descriptive:描述统计分析,Descriptive 过程是连续资

5、料统计描述应用最多的一个过程,它可对变量进行描述性统计分析计算,并列出一系列相应的统计指标。这和其他过程相比并无不同。 描述性统计分析没有图形功能,也不能生成频数表。 但该过程还有个特殊功能,就是可将原始数据转换成标准化值,并以变量的形式保存。,描述性统计量的分类,集中趋势,定义 在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。 度量方法 集中趋势的度量包括了均值(mean),中位数(median),众数(mode)。,均值、中位数、众数用那一个去度量平均水平呢?以及为什么?,均值、中位数、众数,定义 均值:表示一系列数据或统计总体的平均特征的值 中位数:将总体

6、单位的某一数量标志的各个数值按照大小顺序排列,居于中间位置的那个数值就是中位数。 众数:众数是指变量数列中出现次数最多或频率最大的变量值。,25,20, 19,17, 16,16,16,14,14,9,7,众数、中位数、均值的比较,均值比中位数、众数对数据的概括能力要强。 相对于中位数和众数而言均值对数据的灵敏度较大。 均值比中位数、众数便于计算和分析。 均值的抗耐性较差,极容易受个别和少数极端值的影响。 均值适用范围比中位数、众数窄。,数据类型与集中趋势测度值,为该数据类型最适合用的测度值.,如果一只脚放在摄氏1度的水里,另一只脚放在摄氏79度的水里,平均水温40度。你感觉舒服极了!?,这只

7、是一个笑话。说明了只了解数据的集中趋势是不够的。还需要看数据的变异(离散)程度。,变异(离散)趋势,1. 变异趋势的各测度值是对数据离散程度所做的描述 2. 反映各变量值远离其中心值的程度,因此也称为离中趋势 3. 从另一个侧面说明了集中趋势测度值的代表程度。,离散趋势测度指标,1、全距 2、四分位差 3、标准差 4、方差,四分位差是四分位数中间两个分位之差。,总体各单位标志值对其算术平均数离差平方的算术平均数的平方根又称均方差或均方根差,标准差的平方即为方差,一组变量值的最大值与最小值之差,分布形状,峰度(Kurtosis) : 是描述某变量所有取值的分布形态陡缓程度的统计量,而峰度对陡缓程

8、度的度量是与正态分布进行比较的结果。如果峰度等于 0 ,其数据分布的陡缓程度与正态分布相同 ;峰度大于 0,其数据分布比正态分布更陡峭;峰度小于0,其数据分布比正态分布更平坦。 偏度( Skewness ) 是描述数据分布对称性的统计量 ,而且也是与正态分布的对称性相比较而得到的。如果分布的偏度等于0 ,则其数据分布的对称性与正态分布相同 ;如果偏度大于0,则其分布为正偏或右偏,即在峰的右边有大的偏差值,使右边出现一个拖得较远的尾巴;如果偏度小于 0,则为负偏或左偏,即在峰的左边有大的偏差值,使左边出现一个拖得较远的尾巴。,正态曲线,正态分布的标准差,各有50%的数落在平均数两边,正态曲线,正

9、态分布的标准差,“68-95-99.7”原则,Descriptive的基本操作流程,Step01:打开主窗口 选择菜单栏中的【Analyze(分析)】 【Descriptive Statistics(描述性统计)】【Descriptives(描述)】命令,弹出 【Descriptives(描述)】对话框,该对话框是描述性统计分析的主操作窗口。 Step02:选择分析变量 Step03:计算基本描述性统计量 单击【Options】按钮,弹出【Options(选择)】对话框,该对话框用于指定输出的描述性统计量。这些统计量的含义是:均数(Mean)、总和(Sum)、标准差(Std.deviation

10、)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误差(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis)。,Step04:保存标准化变量 勾选【Save standardized values as variables(保存标准化变量值)】复选框。 Step05: 完成操作,变量列表顺序 字母顺序 均数升序 均数降序,应用举例,P71 应用举例 分析1:计算月住房开销的基本描述统计量,并对不同居住类型进行比较 分析2:分析月住房开销的数量是否存在不均衡的现象 数据文件“商品房购买意向调查模拟数据.sav”,

11、练习题,打开数据“人力资源管理概论课程学生成绩表.xls”。 (1)请建立SPSS数据文件; (2)计算全班同学考试成绩的基本描述统计量,并对不同的修读情况进行比较; (3)作出课程总评成绩的直方图(按三七开计算),从直方图大致判断其偏度、峰度是大于0还是小于0,然后计算各自的偏度和峰度,并与你的估计作比较; (4)分析平时成绩和考试成绩中是否存在不均衡的现象;,三、Explore:探索性分析,探索性数据分析(Exploratary Data Analysis,简称EDA)的基本思想是从数据本身出发,不拘泥于模型的假设而采用非常灵活的方法来探讨数据分布的大致情况,也可以为进一步结合模型的研究提

12、供线索,为传统的统计推断提供良好的基础和减少盲目性。 一般来说,进行探索性分析主要考察以下内容。 (1)检查数据是否有错。 (2)获得数据分布特征。 (3)对数据的初步观察,发现一些内在规律。,探索性分析的操作界面,(1)Depend List框 选择待分析的变量,可以同时选择多个变量。注意:选择的变量必须是数值型变量,(2)Factor List框 选择分组变量,根据该变量的取值不同,分组分析Dependlist框中的变量。可以不选,也可以多选。,(3)statistics按钮:设置输出的统计量; Plots按钮:设置输出的图形; Option按钮:设置缺失值的处理。,Explore的基本操

13、作流程,Step01 :打开主窗口 选择菜单栏中的【Analyze(分析)】 【Descriptive Statistics(描述性统计)】【Explore(探索)】命令,弹出【Explore(探索)】对话框,该对话框是探索性分析的主操作窗口。 Step02 :选择分析变量 Step03 :选取分组变量,Step04: 选择标签值 从候选变量列表框中选择一个变量作为标识变量,并将其移入【Label Cases by(标注个案)】列表框中。选择标识变量的作用在于,若系统在数据探索时发现异常值,便可利用标识变量加以标记,便于用户找这些异常值。如果不选择它,系统默认以id变量作为标识变量。 Step

14、05 :选择输出类型 【Display】选项组中可以选择输出项。 Both:输出图形以及描述性统计量。 Statistics:只输出描述统计量。选择此项后激活【Statistics】功能按钮。 Plots:只输出图形。选择此项后激活【Plots】功能按钮。,Step06: 描述性统计量结果输出 在【Explore(探索)】对话框中还可以单击 【Statistics】按钮,弹出【Explore:Statistics】对话框,该对话框中提供了各类基本描述性统计输出结果。 Step07 :统计图形结果输出 在【Explore(探索)】对话框中还可以单击【Plots】按钮,弹出【Explore:Plo

15、ts】对话框。该对话框中提供了图形输出的类型。 Step08 :选择缺失值的处理方式 Step09 :操作完成,应用举例,中国南北城市的温度差异.sav,茎叶图,频数,树茎,树叶,茎叶图相当于横置的直方图,但它可以保留原始数据的信息。,箱线图,中位数与上四分位数的距离,下四分位数与众位数间的距离,判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布,如何看数据是否服从正态分布呢?,四、Crosstabs:列联表分析,频数表可以描述一个变量的分布情况,但是在实际中研究者往往希望对两个,甚至多个变量的频数分析进行联合观察。 列联表是两个变量(

16、或以上)交叉分组后形成的频数分布表(一个变量用来对行分类,第二个变量用来对列分类)。 列联表非常重要,它经常被用来分析调查结果。它有两个基本任务:第一,根据收集到的样本数据产生二维或多维交叉列联表;第二,在列联表基础上,对两两变量间是否存在一定的相关性进行分析。,交叉列联表,交叉列联表的检验问题是行、列变量的独立性检验。 独立性检验指的是对列联表中行变量和列变量无关这个零假设进行的检验,即检验行、列变量之间是否彼此独立。,一般采用的检验方法是卡方(2)检验,它的计算公式为:,其中,f0表示实际观察频数,fe表示期望频数。,Crosstabs的基本操作流程,Step01:打开主窗口 选择菜单栏中

17、的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Crosstabs(列联表)】命令,弹出【Crosstabs(列联表)】对话框,这是列联表分析的主操作窗口。 Step02:选择行、列变量 在【Crosstabs(列联表)】对话框左侧的候选变量列表框中,选取一个或多个待分析变量,将它们移入右侧的【Row(s)(行)】列表框中,作为列联表的行变量。同理,选择若干候选变量移入右侧的【Column(s)(列)】列表框中,作为列联表的列变量。 Step03:选择层变量 如果要进行三维或多维列联表分析,可以根据需要选择控制变量进入【Layer(层)】列表框中。,

18、Step04:列联表输出格式的选择 在【Crosstabs(列联表)】对话框下面有两个复选框,用来选择列联表的输出格式。 Display clustered bar charts:显示各变量交叉分组下频数分布条形图。 Suppress tables:只输出统计量,而不输出列联表。 Step05:行、列变量相关程度的度量 在【Crosstabs(列联表)】对话框中单击【Statistics】按钮,在弹出的对话框中可以根据数据类型选择不同的独立性检验方法和相关度量。在对话框中选择输出统计量,完成后单击【Continue】按钮,返回主对话框。,Step06:选择列联表单元格的输出类型 在【Cross

19、tabs(列联表)】对话框中单击 【Cell】按钮,在弹出的对话框中可以选择显示在列联表单元格中的统计量,包括观测数量、百分比和残差。在对话框中选择相应选项,完成后单击【Continue】按钮,返回主对话框。 Step07:选择列联表单元格的输出排列顺序 在【Crosstabs(列联表)】对话框中单击 【Format 】按钮,在弹出的对话框中可以选择各单元格的输出排列顺序。 Step08:完成操作,交叉列联表分析操作界面,卡方检验:选择是否对行变量和列变量的独立性进行卡方检验 。,相关系数检验:选择是否计算相关系数,用于检验两个变量的线性相关程度。,Nominal选项组:用于定义分类变量的相关

20、性指标,Ordinal选项组:用于定义有序变量的相关性系数,应用举例:大学生身体素质调查,在一次上海大学生身体素质的实际调查中,选择了部分大专院校的学生进行实际问卷调查。 调查内容主要包括:性别、出生日期、身高、体重、血型、教育背景、学科、男女身高级别和男女体重级别等内容。请根据调查数据分析下面问题: 进行“性别”和“体重级别”双因素交叉作用下的列联表分析,并研究“性别”对“体重级别”有无显著性影响。,实例操作过程,实例结果,练习题,1、对上述大学生身体素质调查数据,进行“教育背景”和“身高级别”双因素交叉作用下的列联表分析,并研究“教育背景”对“身高级别”有无显著性影响。 2、课本P98,例

21、4-3(数据文件“动物实验统计数据.sav”) -此例适用于无原始数据的情况,五、Ratio statistics:比率统计分析,在实际问题中,研究者有时除了希望了解变量自身的统计特征外,还希望得到两个变量相对比之间的统计描述特征 比率分析主要用于对两个变量间变量值的比率变化进行描述性分析。 比率分析生成比率变量,并对该比率变量计算基本描述性统计量(如均值、中位数、标准差、全距等),进而刻画出比率变量的集中趋势和离散程度。,Ratio statistics基本操作流程,Step01:打开主窗口 选择菜单栏中的【Analyze(分析)】【Descriptive Statistics(描述性统计)】【Ratio(比率)】命令,弹出【Ratio(比率)】对话框,这是比率分析的主操作窗口。 Step02:选择分子变量 在左侧的候选变量列表框中选取一个分析变量作为比率分析的分子,将它移入右侧的【Numerator(分子)】列表框中。 Step03:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论