连续变量的统计描述与参数估计_第1页
连续变量的统计描述与参数估计_第2页
连续变量的统计描述与参数估计_第3页
连续变量的统计描述与参数估计_第4页
连续变量的统计描述与参数估计_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

连续变量的统计描述与参数估计演示文稿第1页,共36页。(优选)连续变量的统计描述与参数估计第2页,共36页。参数和统计量◆参数:刻画总体特征的指标称为总体参数。

用来确定某一分布的特征;如总体均数,总体分布

往往是已知的◆统计量:刻画样本特征的统计描述指标称为统计量。由观察资料计算出来的量;可以用来近似的反映总体参数◆统计的任务:由样本估计总体,由样本统计量估计总体参数第3页,共36页。一.连续变量的统计描述的工具(一)频数表Frequency直观的方法:分布类型分布特征看出集中趋势与离散趋势发现特大与特小值便于进一步计算统计指标和做统计处理第4页,共36页。(二)统计指标集中趋势Centraltendency

均数mean、中位数median、众数mode等离散趋势Dispersiontendency

全距Range、方差Variance、标准差std.deviation、百分位数、变异系数CV等第5页,共36页。分布特征Distributiontendency

偏度系数Skewness、峰度系数Kurtosis等其他在SPSS中出现的指标

M统计量

第6页,共36页。(三)统计表(四)统计图直方图(Histogram)

箱式图(boxplot)

茎叶图(stem-and-leaf)

QQ图第7页,共36页。1.集中趋势的描述指标算术平均数(arithmeticmean)

◆简称均数(mean),有总体均数(PopulationMean,)和样本均数之分

◆适用于对称分布,特别是正态分布的资料,不适用于偏态分布的资料。

◆对于严重偏态分布的资料,均数将失去它应有的代表性。第8页,共36页。中位数(Median)

◆是一组观察值的位置平均数,

◆用于描述偏态分布资料的集中位置,它不受两端特大、特小值的影响,当分布末端无确切数据时也可计算。◆对于没有分组的原始数据,必须先将标志值按大小顺序排序,第9页,共36页。截尾均数(trimmedmean)◆数据排序后按照一定比例去掉两端的数据求均数

◆适用于两端有极端值的资料

◆常用5%截尾均数第10页,共36页。几何均数(geometricmean,G)

◆适用于呈倍数关系的等比资料或对数正态分布的资料,尤其是对数正态分布的计量资料

◆应用中应注意观察值不能同时有正有负

◆同一资料算得的几何均数小于算术均数第11页,共36页。(1)直接法第12页,共36页。众数(mode)◆样本数据中出现频次最高的数字◆适用于单峰对称的数据,反映出现频次最高的数据情况调和均数(H)

◆观察值倒数的均数的倒数,较少使用第13页,共36页。3组同龄男孩体重(KG)如下◆甲组2628303234◆乙组2427303336◆丙组2629303134◆均数相等,但各组差异不同◆对连续变量的描述,需要将集中趋势和离散趋势结合起来,才能对其分布有全面的认识。2.离散趋势的描述指标第14页,共36页。全距(Range,R)◆又称极差,即最大和最小观察值之间的间距,◆用全距描述资料的离散程度简单明了,但它不能反映观察值的整个变异度,样本的例数越多,极差越大,越不够稳定。◆所以一般只用于预备性检查,大致了解数据的分布范围。第15页,共36页。方差(variance)与标准差(standarddeviation)◆离均差平方和(sumofsquaresofdeviatonsfrommean,SS):可用来描述资料的离散程度。◆SS的均数(即方差)不受观察值个数的影响,用来描述资料的离散程度更好。第16页,共36页。◆实际中,得到的常是样本资料,总体均数未知,只能用样本均数代替,得到样本方差S2◆n-1为自由度(degreeoffreedom)第17页,共36页。◆因方差的单位是原单位的平方,所以使用仍不方便。方差的算术平方根,即标准差(standarddeviation)是一个更好的指标。◆标准差也有总体标准差和样本标准差之分:第18页,共36页。◆适用范围:◆方差和标准差适合于对称分布,特别是正态分布及近似正态分布资料◆标准差可用于描述变量值的离散程度,与均数结合还可描述资料的分布情况,此外还可用于求参考值范围和计算标准误。第19页,共36页。◆描述分布偏离正态分布的程度,即偏离对称的程度。偏(斜)度(Skewness):偏度系数

◆Skewness>0:正偏或右偏(长尾在右边)

Skewness<0:负偏离左偏(长尾在左边)第20页,共36页。◆描述分布变量取值分布形态陡缓程度的统计量。峰(峭)度(Kurtosis)峰度系数

◆Kurtosis>0分布集中趋势强

Kurtosis<0分布离心趋势强第21页,共36页。百分位数(percentile)◆百分位数是一个位置指标,Px表示是资料分布数列的百等份分割值。◆中位数是特定的百分位数,即P50◆用于描述样本或总体观察值序列某百分位置的水平,应用中注意,样本例数不够多时,两端的百分位数不稳定。◆还用于确定参考值范围(referencerange)。第22页,共36页。四分位数间距(quartileinterval)◆四分位数是特定的百分位数,其中P25为下四分位数QL,P75为上四分位数Qu。◆Q=Qu-QL◆四分位数间距比极差稳定,但仍未考虑每个观察值的变异度。◆更适用于偏态分布的资料,特别是末端无确切数据时第23页,共36页。变异系数(coefficientofvariance,CV)◆当比较多组资料的变异度,均数相差悬殊时使用◆资料的单位不同时使用◆实际上是标准差占均数的百分比例。第24页,共36页。二.连续变量的参数估计(90页)1.参数的点估计:◆用一个适当的样本统计量作为参数的估计量,并计算出估计值;◆矩估计;◆极大似然估计法;◆稳健估计值:M估计(Explore过程会输出)第25页,共36页。◆标准误:描述参数估计值与真实值的距离的统计量;◆总体均数的100(1-α)%可信区间;◆Explore过程会输出标准误和可信区间2.区间估计第26页,共36页。三.SPSS统计描述的模块用于两个连续变量计算相对比指标分类变量资料的统计描述及一般的统计检验(卡方检验)第27页,共36页。例:以问卷调查数据student.sav为例来阐述各过程Explore过程分析统计描述指标参数估计百分位数和极端值统计图Frequencies过程Descriptive过程:生成Z值(将原变量变换为标准正态分布下的得分,选Descriptive左下角的Savestandardizedvalueasvariables)第28页,共36页。1.Explore过程主要用于对连续型资料的性质、分布特点等完全不清楚时的探索性分析;可计算许多描述统计量,给出各种统计图,并进行简单的参数估计。Statistics子对话框plot子对话框Option子对话框第29页,共36页。对男生和女生的身高进行描述需要分析的变量分组变量第30页,共36页。第31页,共36页。Statistics子对话框Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。M-estimators复选框:作中心趋势的粗略最大似然稳健估计,输出四个不同权重的最大似然估计值。Outliers复选框:输出五个最大值与五个最小值。Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。第32页,共36页。plot子对话框◆Boxplots单选框组:确定箱式图的绘制方式按组别分组绘制(Factorlevelstogether),

不分组绘制(Depentendstogether)不绘制(None)◆Descriptive复选框组:茎叶图(Stem-and-leaf)和直方图(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论