第讲统计描述_第1页
第讲统计描述_第2页
第讲统计描述_第3页
第讲统计描述_第4页
第讲统计描述_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第讲统计描述第一页,共46页。基本概念第二页,共46页。2026/7/52第三讲SPSS统计描述参数和统计量参数——刻画总体特征的指标称为总体参数用来确定某一分布的特征;如总体均数,总体阳性率往往是未知的统计量——刻画样本特征的指标称为统计量,由观察资料计算出来的量;可以用来近似的反映总体参数统计的任务——由样本估计总体,由样本统计量估计总体参数第三页,共46页。2026/7/53第三讲SPSS统计描述总体(Population)随机抽样统计推断抽样误差参数(μσ)统计量()第四页,共46页。2026/7/54第三讲SPSS统计描述变量变量类型连续型变量(定距型)——取值范围是一个区间,连续取值离散型变量——取值范围是有限个值或一个数列构成。表示分类情况的离散型变量又称为分类变量:无序变量(名义型):两分类和多分类如血型,也可用数字进行编码,但没有大小关系。有序变量(定序型):取值为互不相容的类别,而且在研究背景下有等级顺序,如疗效(无效、有效、显效)第五页,共46页。2026/7/55第三讲SPSS统计描述连续变量的统计描述工具频数表Frequency直观的方法:分布类型分布特征看出集中趋势与离散趋势发现特大与特小值便于进一步计算统计指标和做统计处理第六页,共46页。2026/7/56第三讲SPSS统计描述连续变量的统计描述工具统计指标集中趋势Centraltendency均数mean几何均数G中位数median众数mode离散趋势Dispersiontendency全距Range方差Variance标准差std.deviation变异系数CV百分位数适用于各种分布分布指标Distribution偏度系数Skewness正态峰/正偏态/负偏态峰度系数Kurtosis正态峰/平阔峰/尖峭峰其他在SPSS中出现的指标M-estimators的四个指标,Outlier第七页,共46页。2026/7/57第三讲SPSS统计描述连续变量的统计描述工具描述工具统计表统计图直方图(Histogram)散点图(ScatterPlot)箱式图(boxplot)茎叶图(stem-and-leaf)QQ图第八页,共46页。2026/7/58第三讲SPSS统计描述集中趋势的描述算术平均数简称均数(mean),有总体均数和样本均数之分适用于对称分布,特别是正态分布的资料,不适用于偏态分布的资料计算方法第九页,共46页。2026/7/59第三讲SPSS统计描述集中趋势的描述中位数一组观察值的位置平均数,用于描述偏态分布资料的集中位置,不受两端极值的影响计算方法直接法n为奇数,观察值从小到大排序后中间位置观察值n为偶数,从小到大排序后中间两个观察值的算术均数加权法用频数表计算中位数时先据频数表计算累计频数和累计频率,50%百分之五十分位数即为中位数L为中位数所在组段的下限,i为改组段的组距;f为该组段的频数;ΣfL为小于L的各组段的累计频数,n为总例数第十页,共46页。2026/7/510第三讲SPSS统计描述其他集中趋势的描述指标1.截尾均数(trimmedmean)数据排序后按照一定比例去掉两端的数据求均数适用于两端有极端值的资料常用5%截尾均数第十一页,共46页。2026/7/511第三讲SPSS统计描述其他集中趋势的描述指标几何均数(geometricmean,Mg)适用于等比资料或对数正态分布的资料观察值不能同时有正有负同一资料算得的几何均数小于算术均数计算方法直接法加权法第十二页,共46页。2026/7/512第三讲SPSS统计描述其他集中趋势的描述指标众数(mode)样本数据中出现频次最高的数字适用于单峰对称的数据,反映出现频次最高的数据情况调和均数观察值倒数的均数的倒数,较少使用第十三页,共46页。2026/7/513第三讲SPSS统计描述离散趋势的指标3组同龄男孩体重(Kg)如下均数相等,但各组差异不同对连续变量的描述,需要将集中趋势和离散趋势结合起来,才能对其分布有全面的认识描述离散趋势的指标常用的有:全距、四分位数间距、方差、标准差和变异系数等指标组别Sub1Sub2Sub3Sub4Sub5均值甲组262830323430乙组242730333630丙组262930313430第十四页,共46页。2026/7/514第三讲SPSS统计描述离散趋势的指标全距(Range,R)又称极差,即最大和最小观察值之间的间距,用全距描述资料的离散程度简单明了但它不能反映观察值的整个变异度,样本的例数越多,极差越大,不够稳定所以在样本含量相差悬殊时不宜使用第十五页,共46页。2026/7/515第三讲SPSS统计描述离散趋势的指标离均差平方和(sumofsquaresofdeviationsfrommean,SS)可用来描述资料的变异度SS的均数(即方差)不受观察值个数的影响,用来描述资料的离散程度更好实际中,得到的常是样本资料,总体均数未知,只能用样本均数代替,得到样本方差第十六页,共46页。2026/7/516第三讲SPSS统计描述离散趋势的指标标准差(standarddeviation)因方差的单位是原单位的平方,使用仍不方便。其算术平方根,即标准差,是一个更好的指标标准差也有总体标准差和样本标准差之分方差和标准差适合于对对称分布,特别是正态分布及近似正态分布资料标准差可用于描述变量值的离散程度,与均数结合还可描述资料的分布情况,此外还可用于求参考值范围和计算标准误第十七页,共46页。2026/7/517第三讲SPSS统计描述离散趋势的指标百分位数(percentile)百分位数是一个位置指标,Px表示是资料分布数列的百等份分割值用于描述样本或总体观察值序列某百分位置的水平,应用中注意,样本例数不够多时,两端的百分位数不稳定用于确定参考值范围(referencerange)第十八页,共46页。2026/7/518第三讲SPSS统计描述离散趋势的指标四分位数间距(quartileinterval)四分位数是特定的百分位数,其中P25为下四分位数QL,P75为上四分位数Qu。Q=Qu-QL四分位数间距比极差稳定,但仍未考虑每个观察值的变异度。适用于偏态分布的资料,特别是末端无确切数据时第十九页,共46页。2026/7/519第三讲SPSS统计描述离散趋势的指标变异系数(coefficientofvariance,CV)当比较多组资料的变异度均数相差悬殊时资料的单位不同实际上是标准差占均数的百分比例第二十页,共46页。2026/7/520第三讲SPSS统计描述统计描述的模块Descriptivestatistics模块Frequencies过程Descriptive过程Explore过程Crosstabs过程分类变量资料的统计描述一般的统计检验(卡方检验)Ratio过程用于两个连续变量计算相对比指标第二十一页,共46页。2026/7/521第三讲SPSS统计描述Frequencies过程产生频数表,对连续变量和分类变量资料都适用计算常用的统计指标和按要求给出某百分位点的数值常用的条图,圆图等统计图。变异系数CV需手工计算第二十二页,共46页。2026/7/522第三讲SPSS统计描述Frequencies过程(3.1.sav)是否给出频数表第二十三页,共46页。2026/7/523第三讲SPSS统计描述Frequencies过程第二十四页,共46页。2026/7/524第三讲SPSS统计描述Frequencies过程第二十五页,共46页。2026/7/525第三讲SPSS统计描述Frequencies过程第二十六页,共46页。2026/7/526第三讲SPSS统计描述Descriptive过程一般性的统计描述,适用于正态分布资料用于连续型变量Z值的产生,Option子对话框计算z分数第二十七页,共46页。2026/7/527第三讲SPSS统计描述Explore过程(3.1.sav)主要用于对资料的性质、分布特点等完全不清楚时主对话框:加入分组变量Statistics子对话框plot子对话框Option子对话框第二十八页,共46页。2026/7/528第三讲SPSS统计描述Explore过程第二十九页,共46页。2026/7/529第三讲SPSS统计描述Explore过程输出五个最大值与五个最小值作中心趋势的粗略最大似然稳健估计,输出四个不同权重的最大似然估计值第三十页,共46页。2026/7/530第三讲SPSS统计描述Explore过程正态分布图正态分布的检验有分组变量时绘制水平图,设置变量的转换方式,并进行组间方差齐性检验第三十一页,共46页。2026/7/531第三讲SPSS统计描述Explore过程处理缺失值的三种方法第三十二页,共46页。2026/7/532第三讲SPSS统计描述统计描述实例3.2student.sav数据文件:问卷调查数据student.savExplore过程分析统计描述指标参数估计百分位数和极端值统计图Frequencies过程:生成Z值Descriptive过程第三十三页,共46页。2026/7/533第三讲SPSS统计描述连续变量的参数估计正态分布当样本量越来越大,并且组距越来越小时直方条的顶缩成点并且各个直方条的顶连接成一条曲线即正态分布曲线概率密度曲线段的面积就是相应的累计概率,频率(面积)趋向概率。第三十四页,共46页。2026/7/534第三讲SPSS统计描述第三十五页,共46页。2026/7/535第三讲SPSS统计描述连续变量的参数估计正态分布特征正态分布以均数为中心,左右对称正态曲线为单峰,在横轴上方均数处达最高正态分布有两个参数,均数μ和标准差σ用N(μ,σ)表示均数为μ,标准差σ为的正态分布用N(0,1)表示均数为0,标准差为1的正态分布正态峰的矮阔和尖峭与标准差有关正态曲线下的面积分布有一定的规律第三十六页,共46页。2026/7/536第三讲SPSS统计描述连续变量的参数估计标准正态分布U变换或Z转换标准正态分布(U分布或Z分布)Descriptive过程可以进行Z转换第三十七页,共46页。2026/7/537第三讲SPSS统计描述连续变量的参数估计参数点估计矩法:直接用样本统计量作为参数的估计值极大似然估计法:稳健估计值:M估计,Explore过程第三十八页,共46页。2026/7/538第三讲SPSS统计描述连续变量的参数估计参数区间估计标准误:描述参数估计值与真实值的距离总体均数的可信区间根据样本均数符合正态分布的特点(当样本含量较大时,u分布代替t分布)得到总体均数的100(1-α)%可信区间Explore过程会输出标准误和可信区间第三十九页,共46页。2026/7/539第三讲SPSS统计描述分类变量的统计描述指标频数分布情况的描述频数、百分比、累积频数、累积百分比集中趋势的描述众数相对数比、构成比、率第四十页,共46页。2026/7/540第三讲SPSS统计描述分类变量的统计描述指标相对数比:任何量个相关联的变量A与B之比构成比:指事物内容某一组成部分的观察单位数与该事物个组成部分观察单位总数之比,常用来说明事物内部各组成部分所占的比重或分布情况率:说明一段时间(单位时间)内某个事件发生的频率或强度第四十一页,共46页。2026/7/541第三讲SPSS统计描述SPSS中的相应功能Frequencies过程:频数表:频数、百分比、累积百分比、众数、统计图Crosstabs过程分类变量资料的统计描述:分类变量的联合描述统计检验:卡方检验等第四十二页,共46页。2026/7/542第三讲SPSS统计描述分类变量统计描述实例使用Frequencies过程输出频数表频数表:频数、百分比、累积百分比、众数、统计图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论