应用统计学统计描述.ppt_第1页
应用统计学统计描述.ppt_第2页
应用统计学统计描述.ppt_第3页
应用统计学统计描述.ppt_第4页
应用统计学统计描述.ppt_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,统计描述,在数据收集、整理完毕后,进行深入统计分析之前,首要的工作就是去了解这个数据的整体情况,随后考虑作深入的推断。用少量数字(描述指标)概括大量原始数字,对数据进行描述的统计方法即为描述性统计分析。,统计描述,连续变量的统计描述 分类变量的统计描述,集中趋势的描述指标,算术均数:适合单峰和基本对称的分布 中位数:适用于任意分布类型 截尾均数:数据中有极端值,用截尾均数更好 几何均数:适用于原始数据分布不对称,但经过对数转换 后呈对称分布的资料 众数(Mode):样本数据中出现频次最大的那个数字 调和均数(H):较少使用,观察值x倒数之均数的倒数, 常用于完成的工作量相等而所用时间不 同,求平均速度的情况,全距 大体了解数据的分布范围,用于预备性检查 方差和标准差 适用于正态分布 百分位数 如中位数(P50)、四分位数(P25、P50、P75) 四分位间距 即P75-P25,适用于任意分布类型,不受极端值影响 变异系数(CV) S/ ,适用于测量尺度相差太大或数据量纲不同时, 比较两组数据离散程度的大小,离散趋势的描述指标,SPSS的许多模块均可完成统计描述的任务,除各种用于统计推断的过程会附带进行相关的统计描述外,SPSS还专门提供了几个用于连续变量统计描述的过程,均集中于AnalyzeDescriptive Statistics子菜单中。,Frequencies 过程,Descriptives 过程,Explore 过程,Ratio 过程,Frequencies:产生原始数据的频数表,并能计算各种百分数,并可绘制频数图,如连续型变量的直方图,或分类变量的饼图或条图。下面以demo.sav为例,对人群的年龄数据(age)进行描述。,Frequencies 过程,若无变量标签,则列表框中只显示变量名,对话框中,从左边变量列表中选择要分析的变量, 放入右边的Variables(变量)列表中,至少一个变量选入后,OK按钮才可使用,Frequencies 过程,变量标签,变量名,鼠标右键单击变量,可以获得更多变量信息,选择下拉按钮,显示所有定义的值标签,Frequencies 过程,:表示该变量为数值型变量,: 表示该变量为字符型变量,且右下角的表示短字符, 即变量长度=8位,Frequencies 过程,Statistics:设定要分析的统计量,分位数值,集中趋势,离散趋势,分布指标,若数据为组中值,将其选中,本例选择四分位数和5、95分位数,Frequencies 过程,本例选中绘制直方图,图表类型:箱式图、饼图、直方图等,Frequencies 过程,Charts:设定要绘制的统计图,Format:在SPSS对话框中,用于设定结果文件中的 数据格式,通常默认即可。,数据排序方式,多变量分析时的显示方式,设定组别超过n组时不显示表格,Frequencies 过程,通过大纲视图可以快速定位各项结果 例如:点击大纲视图上的Histogram,则可快速定位至 age的频数直方图,Frequencies 过程,分析结果,(1) 统计量,人群年龄无缺失值,四分位数为33岁、41岁、51岁,即人群中有1/4小于33岁,1/2小于41岁,1/4大于51岁。另外,90的人在2464岁之间。,Frequencies 过程,Frequencies 过程,分析结果,(2) 频数表,Frequency:频数 Percent:百分比 当前频数/总数(包括缺失值) Valid Percent:有效百分比 当前频数/有效总数(不包括缺失值) Cumulative Percent:累积百分比 累积频数/有效总数(不包括缺失值),Frequencies 过程,分析结果,(3)频数直方图,Descriptive:一般性统计描述,相对于Frequencies,它不能绘制统计图,所能计算的统计量也较少,适用于对服从正态分布的连续型变量进行描绘。同样以demo.sav为例,对人群的年龄数据(age)进行描述。,Descriptives 过程,单击中间的箭头,可以实现变量从一张表移入另一张表, 现将变量age移入右边variable列表中,Descriptives 过程,Options:设定要分析的统计量及数据的显示顺序,本例选择: 均数、标准差、最大值、最小值、峰度系数、偏度系数等,Descriptives 过程,人群年龄的最小值为18岁,最大值为77岁,均数42.06岁,标准差12.29岁,偏度系数0.299,峰度系数-0.602,基本近似正态。,Descriptives 过程,分析结果,描述性统计量,Explore:对连续型资料分布不清楚时的探索性分析,可以分类别进行描述(Frequencies和Descriptives不行),计算多种描述统计量,给出各种统计图,进行简单参数估计。以demo.sav为例,对男女性(gender)的年龄(age)分别进行描述。,Explore 过程,要进行分析的应变量:age,分类变量:gender,Explore 过程,点估计中的稳健估计:M估计,极端值,百分位数,一般描述,默认情况下,选择的是Descriptives,本例选择默认,Explore 过程,箱式图,用于正态性检验的QQ图,茎叶图,直方图,Levenes方差齐性检验选项,Explore 过程,缺失值的设置,一般默认即可,Explore 过程,本例无缺失值,有效人数女性3179人,男性3221人,Explore 过程,分析结果,(1) 缺失值报告,现仅对女性的分析结果依次解释,查看详情,Explore 过程,分析结果,(2) 统计量,集中趋势指标、离散趋势指标 分布特征指标、参数估计,Explore 过程,分析结果,集中趋势指标:3179名女性的平均年龄为41.74岁(Mean),去掉两侧各5的极端值后,截尾均数为41.45岁(5 Trimmed Mean),中位数41.00岁(Median),本例上述三指标值基本相同,可推测数据应当是对称分布的。,Explore 过程,离散趋势指标:年龄的方差为142.988岁2(Variance),其平方根即标准差为11.958岁(Std.Deviation)。全部女性中最小的18岁(Minimum),最大的76岁(Maximum)。两者之差即全距58岁(Range),中间一半女性的年龄差即四分位数间距17岁(Interquartile Range)。,分布特征指标:表明数据偏离正态分布程度的偏度系数(Skewness)为0.327,峰度系数(Kurtosis)为-0.534。偏度系数大于0为正偏态,峰度系数小于0表明峰比正态低,本例偏度和峰度系数均接近0,因此认为近似正态分布。,参数估计:均数(Mean)的标准误(Std.Error)为0.212岁,相应的总体均数95可信区间(95Confidence Interval for Mean)为41.3242.15岁,表明有95%的可能性认为该区间包含了总体均数。,Explore 过程,Explore 过程,分析结果,(3) 茎叶图,Explore 过程,分析结果,(4) 箱式图,最小值:18岁,最大值:76岁,四分位间距: 17岁,Ratio:功能较特殊,用于对两个连续性变量计算相对比指标,它可以计算一系列非常专业的相对比描述指标,相对而言使用面较窄,在此不详述。,Ratio 过程,SPSS的许多分析过程均可完成统计描述的任务,还专门提供了用于分类变量统计描述的过程,均集中于AnalyzeDescriptive Statistics子菜单中。,Frequencies 过程,Crosstabs 过程,Frequencies:主要针对分类输出频数表,从而得到频数、百分数、累计百分比,给出原始频数表,众数,条图,饼图等。以demo.sav为例,分别对人群的教育水平(ed)、职业满意度(jobsat)进行描述。,Frequencies 过程,6400人的教育水平和职业满意度的数据都是完整的, 无缺失值。,Frequencies 过程,分析结果,(1) 缺失值报告,Frequencies 过程,分析结果,(2) 频数表,Crosstabs:用于输出交叉列联表,以demo.sav为例,描述人群的婚姻情况marital(0、1)、退休状况retire( 0、1)的交叉频数分布,Crosstabs 过程,用于分类变量统计推断时的参数设定,此例暂不使用,Crosstabs 过程,行变量:ed,列变量:jubocat,Cells:在SPSS对话框中,对于单元格要显示的参数进行设定,合计,百分位数,残差,非整权重设置,Crosstabs 过程,6400人的婚姻状况和退休状况的数据都是完整的, 无缺失值。,Crosstabs 过程,分析结果,(1) 缺失值报告,婚姻状况(行)和退休状况(列)的交叉表,Crosstabs 过程,分析结果,(2) 交叉表,行百分比,列百分比,交叉分组下的频数分析Crosstabs 过程应用,目的:掌握多变量的联合分布特征,分析变量间的关系。 功能: 产生描述多变量联合分布的列联表 比较两个(或以上)样本率或比例差异(卡方检验) 变量间的关联度分析,1、变量关系概述,变量间的关系:有关与无关。 有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化 无关:如果一个变量的变化不引起另一个变量的变化。,性别与四级英语考试通过率的相关统计,表述:结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。 自变量的不同取值在因变量上有差异,两变量有关。,表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。,2、双变量关系的统计类型,观测频数,行变量,列边缘分布,行边缘分布,列变量,期望频数,列联表的格式,列联分析行列变量间的关系,两变量是否相互独立。 两变量是否有共变趋势。 一变量的变化多大程度上能由另一变量的变化来解释。,卡方测量的原理: 卡方测量用来考察两变量是否独立(无关)。 其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。,在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘概率的乘积。反之,则两变量有关,或两变量不独立。,由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越相关。因此, Pearson卡方的表达式如下: 当为四格表时, 卡方的取值在0之间。卡方值越大,行列变量的关联性越强。,列联表的产生: AnalyzeDescriptive StatisticsCrosstabs,界面说明,【Rows】:用于选择行*列表中的行变量。 【Columns】:用于选择行*列表中的列变量。 【Layer】:层变量。 【Display clustered bar charts】:显示复式条图。 【Suppress table】:不输出行*列表。 【Exact】:针对2*2以上的行*列表设定计算确切概率的方法。 注:安装SPSS时除非特别选定,否则Exact模块一般不安装。,列联表所研究的问题,城镇和农村的储户收入水平状况相同吗? 行变量:户口 列变量:月收入 不同年龄段的储户对物价水平的看法一致吗? 行变量:年龄段 列变量:物价水平 城乡储户认为存钱合算的比例是否相同? 行变量:户口 列变量:什么合算,回答城乡储户收入水平是否相同的问题,需要引入卡方检验。,1、卡方检验步骤,提出假设H0:行、列变量独立(对立假设为?) 计算检验统计量(卡方统计量服从(r-1)*(c-1)个自由度的卡方分布) 确定检验水平与界值 结果判断:查界值表、看P值大小,卡方检验操作:Statistics选项,【Cells】:用于定义列联表单元格中需要计算的指标: Counts:是否输出实际观察数(Observed)和理论数(Expected); Percentages:是否输出行百分数(Row)、列百分数(Column)以及合计百分数(Total); Residuals:选择残差的显示方式; 【Format】:用于选择行变量是升序还是降序排列。,结果:城乡储户的收入水平没有明显差异。,Pearson卡方值的影响因素,实际频数与期望频数之差 期望频数的大小 列联表的单元格子数 样本量大小,2、卡方检验的校正,自由度为1时,期望频数均大于5 :连续性校正(Continuity Correction ) 20%的单元格期望频数小于5:似然比卡方检验( Likelihood Ratio ) T5 and n40或 T1时:确切概率法(Fishers Exact Test ),例1:城镇对象感到存钱合算的比例是否高于农村对象?,例2:城乡储户对“未来收入的变化趋势”的态度是否相同,3、行列变量的关联度分析,该关联度类似于参数检验中相关系数的含义,取值多在(1,1)区间 可描述行列变量的关联强度,多数是对Pearson卡方测量值进行的修正。 为两变量相关研究中的非参数方法,卡方检验中的关联度分析不太常用。,3.1、两定类变量的关联度,列联系数(Contingency coefficient):取值01,其取值随着行列数的增加而增大 Phi系数:取值-11,适用于四格表,对样本量进行了修正 V系数:取值01,对样本量和行列数进行修正;四格表时,等于Phi系数,例:居民储蓄调查中了解城乡户口与“买东西还是存钱合算”的关联度,3.2、两定序变量的关联度,同序对数(P)、异序对数(Q) :当一个变量为升序排列时,另一变量序列中有后面的一个变量值大于前面的一个变量值,则记为一个同序对;否则为异序对。 Kendalls tau-b: 行列数相等时 Kendalls tau-c: 任意列联表 Gamma系数:四格表检验,例3:居民收入水平与对物价水平评价的关联度,评价关联度主要看Value值大小。,3.3、其他关联度,一个定类变量,一个定距变量的关联度:Eta系数,类似方差分析的非参数检验 两定距变量(或定序变量)的关联度:相关(Correlations):计算Pearson和Spearman相关系数,4、配对计数资料的卡方检验,例子:海尔公司的市场调查数据:对每个消费者调查两个问题:1、是否购买过海尔冰箱(是、否) ?2、是否购买过海尔洗衣机(是、否) ? 问1:海尔冰箱和洗衣机的购买率是否有差别? 问2:每位消费者对海尔冰箱和洗衣机的购买一致性程度如何?,4、配对计数资料的卡方检验,McNemar:配对计数资料的卡方检验。零假设为两变量的阳性率无差别 Kappa一致性检验:系数取值11。测量同一观测对象在两变量(两变量服从二项分布)上取值的一致性程度。其绝对值越接近1,说明一致性程度越高。一般来说: 系数=0.7,一致性程度较高; 0.40.7,一致性程度一般; 0.4,一致性较弱,例:两种方法同时检测患者乙肝抗体的阳性率,两种方法的阳性率有无差别? 两种方法的检测情况是否一致?,五、多选项分析,目的:解决问卷设计中的多选项问题的分析 多选项分析步骤: 先将多选项问题分解,分解方法(是否丢失信息、是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论