医学统计学02定量资料的统计描述_第1页
医学统计学02定量资料的统计描述_第2页
医学统计学02定量资料的统计描述_第3页
医学统计学02定量资料的统计描述_第4页
医学统计学02定量资料的统计描述_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定量资料的统计描述,贾 睿:成都中医药大学公共卫生学院,学习要求,掌握内容,频数分布表的编制和应用描述数据分布平均水平的指标掌握算术均数、几何均数、中位数的意义、用途及计算方法。描述数据分布变异程度的指标掌握极差、四分位数间距、方差、标准差、变异系数的意义、用途及计算方法。,熟悉内容,描述数据分布平均水平的指标熟悉百分位数、众数、调和均数的意义、用途及计算方法。了解内容描述分布形态的指标偏度系数峰度系数,2,3,1.频数表的绘制,4,从上表可以看出:“某市某年8岁男孩” 同质观察对象这些男孩的身高并不完全相等 同质的基础上存在变异“120名” 样本,5,频数(frequency)观察数据的个数频数分布(frequency distribution) 观察数据在其取值范围内的分布情况定量资料的频数分布情况可以用频数表(frequency distribution table)或直方图表示。,6,步骤:计算极差134.5-112.3=22.2cm确定组数、组距和组段通常815组组距:极差/组数(可调整)组段的起点叫“下限”,终点叫“上限”。首尾组段分别包含最小值和最大值列表划记计算频数、频率、累计频数和累计频率,7,同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。,2.频数表的应用,描述分布类型描述分布特征发现离群值简化计算陈述资料,9,10,2.1描述分布类型,对称分布强调:近似正态分布(中间高、两边低,左右对称,近似钟型) 本例为近似正态分布,11,12,不对称分布强调:偏态分布正偏态分布:频数集中在数据小侧负偏态分布:数据集中在数据大侧本例为正偏态分布医学资料常见偏态分布。,13,2.2描述分布特征,平均水平(集中趋势):描述频数分布集中的位置,本例数据集中在122124cm之间变异程度(离散程度):描述数据分散状况,本例数据分布在112136cm之间,18,19,2.3发现离群值,离群值为资料的特大值或特小值。,20,3.描述平均水平,定量资料的平均水平指资料的集中位置,其大小用平均数表示。平均数(average)是一个指标体系,包括:算术均数、几何均数、中位数、第x百分位数、众数、调和均数等。平均数的计算必须以同质为基础。,21,3.1算术均数(简称均数mean),22,总体均数 ;样本均数 代表每组观察值的平衡点,也就是重心。适用于单峰对称分布资料,直接法:适用于样本含量较小的未分组资料说明:x表示变量值,表示求和,n表示样本含量,23,加权法:适用于样本含量较大的频数表资料 说明:此处x表示组中值,f表示频数,表示求和例:120名8岁男孩的身高资料,24,3.2中位数(median,M),例:4 4 5 5 6 6 4 4 5 5 6 6 70 x1 x2 x3 x4 x5 x6 x7定义: 将一组观察值按从小到大的顺序进行排列,位置居中的数就是中位数。,25,直接法:样本含量较小的未分组资料。n为奇数时:n为偶数时:4 4 5 5 6 6 1704 4 5 5 6 6 ?,26,加权法:适用于样本含量较大的频数表资料公式:说明:L表示M所在组段的下限;i表示该组段的组距;f表示该组段的频数;n表示样本含量;fL表示小于该组段的累计频数。例:M=12+12/56(150/2-23) =23.14(小时),27,适用情况:任何分布类型,尤其适用于下列情况偏态分布开口资料分布不清,28,3.3百分位数(percentile,PX),定义公式例:P50 =12+12/56(15050%-23) =23.14(小时)P25 =12+12/56(15025%-23) =15.11(小时)P75=24+12/38(15075%-79) =34.58(小时),29,3.4几何均数(geometric mean,G),资料A: 2 4 6 8 10资料B: 2 4 8 16 32适用情况:标准情况:等比级数资料扩展情况:正偏态分布,变量值跨越多个数量级,30,直接法 加权法,31,注意事项几何均数常用于等比级资料或对数正态分布资料。观察值中若有0或负值,则不宜直接使用几何均数。观察值一般同时不能有正值和负值。若全是负值,计算时可先将负号去掉,得出结果后再加上负号。,32,变量变换2 4 8 16 32lg2 lg4 lg8 lg16 lg320.30 0.60 0.90 1.20 1.51等比级数资料可以通过对数变换,转化为正态分布,33,3.5众数(mode),指总体中出现机会最高的数值,样本中出现次数最高的数字。,34,众数、均数、中位数之间的关系,对称分布三者相等正偏态分布众数中位数均数,35,3.6调和均数(harmonica mean,H),先求原始数据的倒数的算术均数,该算术均数的倒数即称为原始数据的调和均数。适用于变异程度较大的资料,36,你还知道哪些描述平均水平的指标?,37,4.描述变异程度,例:两个资料如下:A:1 3 5 7 9 11 13B:6 6 6 7 8 8 8两资料均为对称分布,可选用均数描述平均水平,且均为7,但资料A的数据分布较资料B分散,7对资料的代表性相对较差。,38,4.1平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差,变异程度是指各观察值之间参差不齐的程度,反映资料的变异程度。常用指标:极差、四分位间距、离均差平方和、方差、标准差、变异系数等。反映平均水平和变异程度的指标结合起来,全面认识事物。,40,4.2极差(range,R,又称全距),一组观察值中最大值与最小值之差,单位与观察值相同。极差越大,变异程度越大。如上例:A:1 3 5 7 9 11 13 R12B:6 6 6 7 8 8 8 R2,41,适用情况:描述单峰对称分布小样本资料的变异程度;初步了解资料的变异程度。,42,不足之处:只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大,因此样本含量悬殊时不宜用全距比较。如上例资料B改为:B:1 6 6 7 8 8 13 R12,则无法区分与资料A的变异程度谁大。,43,4.3方差、标准差,A:1 3 5 7 9 11 13B:1 6 6 7 8 8 13由于极差不能反映每个观察值对数据变异程度的影响,拟改用离均差之和(每个观察值与均数的差称为离均差):由于离均差有正有负,离均差之和肯定为0。,44,改用离均差平方和:A资料:(17)2(37)2(137)2112B资料:(17)2(67)2(137)272,45,离均差平方和的优点:能反映每一个观察值对变异程度的影响。把资料B作如下修改:B:1 66 7 88 13(共40个6和40个8)计算得:(17)2(137)2152离均差平方和的缺点:离均差平方和不能消除观察值个数对指标的影响。,46,将离均差平方和进一步修改,考虑观察值个数对指标的影响,得方差(varianc):总体方差:样本方差: 资料A:s2=18.66,资料B:s2=1.85,47,方差的优点:可以反映每个观察值对变异程度的影响;考虑了观察值个数对指标的影响。方差的不足:单位是原观察值单位的平方。,48,进一步修改,得标准差(standard deviation):总体标准差:样本标准差: 资料A:s=4.32,资料B:s=1.36,49,标准差越大,变异程度越大,数据越分散。标准差的优点:可以反映每个观察值对变异程度的影响考虑了观察值个数对指标的影响单位与观察值相同标准差适用于对称分布的资料,通常与均数结合使用。,50,4.4四分位数间距(quartile range,Q),公式 Q=P75-P25 (例:)适用条件:(同中位数),51,4.5变异系数(coefficient of variations,CV),公式:应用条件:两组资料单位不同两组资料均数差异较大,52,例:观察某地100名8岁男孩身高 123.4cm,s4.79cm;体重 23.46Kg,s=2.68Kg。试比较两组资料的变异程度。身高: 3.89%体重: 11.42%体重变异较大。,53,绝对变异受平均水平的影响相对变异排除了平均水平的影响,注意:,55, 重要提示,对称分布平均水平:均数变异程度:标准差不对称分布平均水平:中位数变异程度:四分位数间距等比级数或对数正态分布的资料: 平均水平:几何均数 变异程度:?,56,5.描述分布类型,偏度系数(coefficient of skewness,SKEW)峰度系数(coefficient of kurtosis,KURT),57,6. SPSS下进行统计描述,58,6.1 统计描述的模块,Frequencies过程计算各种常用的描述指标特色是产生频数表对分类资料和定量资料都适用Descriptive 过程一般性的统计描述适用于服从正态分布的定量资料,文彤老师,59,6.1 统计描述的模块,Explore 过程用于对数据分布状况不清时的探索性分析功能极为强大Crosstabs过程完成分类资料和等级资料的统计描述完成分类资料各种各样“常规”的统计检验Ratio过程用于两个连续变量计算相对比指标,很少用PP图和QQ图,文彤老师,60,6.2 Frequencies(频率)过程,计算各种常用的描述指标特色是产生频数表对分类资料和定量资料都适用,61,6.2 Frequencies(频率)过程,Statistics 子对话框,文彤老师,62,6.2 Frequencies(频率)过程,图表子对话框,2013年8月15日,文彤老师,63,6.3 Descriptive(描述) 过程,一般性的统计描述适用于服从正态分布的定量资料可直接计算标准化Z值,2013年8月15日,文彤老师,64,6.3 Descriptive(描述) 过程,65,6.4 Explore (探索)过程,可对变量进行更为深入详尽的描述性分析主要用于对资料的性质、分布特点等完全不清楚时可分组进行描述,2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论