计量资料的描述ppt课件_第1页
计量资料的描述ppt课件_第2页
计量资料的描述ppt课件_第3页
计量资料的描述ppt课件_第4页
计量资料的描述ppt课件_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 计量资料的统计描述,第一节 频数分布 一、频数分布表 将变量值划分为若干个组段,清点并记录各组段变量值的个数,将组段及相应的频数按一定的顺序制成的表格,称为频数表。 了解变量值的分布情况。,例:某市2007年100名18岁男大学生身高(cm)资料如下,请对资料进行描述。,编制频数表的步骤:,1.求极差:也称全距(Range) R=最大值最小值=183.5-162.9=20.6(cm) 2.确定组段数(取10-15组)和组距: 组距(i)=全距组段数=20.610=2.062 3.写出组段: 起始组段取小于或等于最小值的数,最后组段包含最大值。LxU。 4.分组划计并统计频数。,表2-1 某市100名18岁男大学生身高的频数分布,二、频数分布图,对称分布,对称分布,g,负(左)偏态分布,第二节 集中趋势的描述 描述一组同质的变量值的集中位置或平均水平。 常用的有: 算术均数( arithmetic mean,mean, ) 几何均数(geometric mean,G) 中位数(median,M) 还有: 众数( mode ) 调和均数(harmonic mean, H ),(一)算术均数(arithmetic mean),均数(mean):一组性质相同的观察值在数量上的平均水平。 (总体), (样本) 计算:直接法、加权法 适用条件:对称分布特别是正态分布或近似正态分布。,(二)几何均数(geometric mean,G),几何均数:N个数值的乘积开N次方即为这N个数的几何均数。 计算:直接计算法 加权法 适用条件:等比资料、对数正态分布。 例如抗体滴度。 注意:观察值不能为0 、不能同时有正有负、同一资料算得的几何均数小于算术均数(G )。,可取对数、再取反对数来简化计算,表2-4 69例类风湿关节炎患者血清EBV-VCA-lgG抗体滴度的测定结果,2.计算:,结论:69例类风湿关节炎患者血清EBV- VCA-lgG抗体平均滴度为1:150.6。,(三)中位数与百分位数,1.中位数(median) 将一组变量值由小到大依次排列,居以中间位次的观察值。 适用条件:适用各种分布类型资料,尤其是偏态分布资料和一端或两端无确切数值的开口资料,分布情况不明的资料。,x: 5,5, 6, 7, 20, 位次: 1 2 3 4 5,23 6,中位数(M): 6,6.5,2.百分位数(percentile) 是一种位置指标,用 PX 来表示。 将n个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于X%位次的数值即为第X百分位数。 变量值: 5 5 8 89 758 位 次: 1 2 3 75 150 百分位次:0.7% 1.3% 2% 50% 100%,1.直接计算法 用 nx%确定Px 的位次。 当 nx%带有小数位时:,truncated(a)表示对数字取其整数。 当 nX%为整数时:,细菌性痢疾治 愈者(n=120) 1 2 3 4 5 6 7 8 9 117 118 119 120 住 院 天 数 1 2 2 2 3 3 4 4 5 40 40 42 45,2.频数表法,Lx:第 x 百分位数所在组段的下限 ix:第 x 百分位数所在组段的组距 fx:第 x 百分位数所在组段的频数 :第 x 百分位数所在组段上一组段累计频数,表2-5 某地118名链球菌咽喉炎患者潜伏期,众数(mode),在样本中出现次数最多的数值。 1,2,3,4 众数没有 1,2,3,4,4 众数为4 1,2,2,3,3,4 众数为2和3,调和均数 harmonic mean, H,适用于表达呈极严重的正偏态分布资料的平均水平。 多数数据比较接近且数据较小,个别数据特别大。 通过取倒数变换后,使个别特别大的数据在均数中起的作用变小,使求得的均数能更好地反映绝大多数的平均水平。 的倒数,第三节 离散趋势的描述,描述一组同质变量值的离散程度或变异大小。描述计量资料数据间离散程度的指标 变异指标。 常用的指标: 极差(Range,R) 四分位间距(quartile,) 方差(variance,2 ,s2 ) 标准差(standard deviation,SD ,s ) 变异系数(coefficient of variation,CV),一、极差(Range),极差:用(R)表示,即一组数据的R=最大值 最小值 意义:R值越大,表示该组数据的变异越大。 缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。,二、四分位数间距(quartile),四分位数间距:常用Q表示: 计算:用百分位数法计算第P75与P25位百分位数之差。Q=P75%-P25% 意义: Q 值越大,表示该组数据的变异越大。 Q作为变异指标比极差稳定。常用于表示偏态分布资料的变异。 缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。,三、标准差和方差 (Standard deviation and variance),标准差,方差,总体方差,总体标准差,标准差计算公式,总体(理论),样本标准差,标准差的简化计算公式:,例数较少,频数表资料,例2 三组同龄男孩的身高值(cm) R s 甲组 90 95 100 105 110 100 20 7.91 乙组 96 98 100 102 104 100 8 3.16 丙组 96 99 100 101 104 100 8 2.92 标准差的意义: 反映一组数据平均的离散水平,单位相同时,s越小,表示数据的变异程度越小,同时表示该组均数的代表性越大。,4、变异系数(CV),应用:1.单位不同时组间变异程度的比较。,2.比较组单位相同,但均数相差悬殊的组 间变异程度.,意义:CV越大,表示数据变异越大。常用于衡量方法、仪器的精密度。,公式:,1.单位不同时组间变异程度的比较,表5 体脂(%)与胆固醇(mmol)的变异系数,表6 某地不同年龄组男童身高(cm) 年龄组 S CV% 1-2月 56.3 2.1 3.73 5-6月 66.5 2.2 3.31 3-3.5岁 96.1 3.1 3.22 5-5.5岁 107.8 3.3 3.06 结论:随着年龄增加,身高的变异变小。,2.比较组单位相同,但均数相差悬殊的组间变异程度比较,计量数据的统计描述小结,1. 在医学杂志中,正态或近似正态资料,常以 的形式表达,描述和比较数据的平均水平和离散程度。 表7 两组患者年龄(岁)的比较 组别 n 试验组 12 45.9 3.7 对照组 10 50.5 13.0 两组患者随机化后基线情况的比较,2.偏态分布或特定资料(生存时间、病程、潜伏期时间等)用中位数和四分位间距描述。 表达形式:M,(Q)或 M,(最小值,最大值)。 3.等比数据和正偏态数据可用几何均数和几何标准差描述。 表达形式:GsG,定量资料的描述,第四节 正态分布及其应用 (Normal distribution),正态分布(Normal Distribution),正态分布是描述连续型变量值分布的曲线,医学资料许多服从正态分布。 直方图的频数分布与正态分布,图2-4 频数分布与正态分布示意图,一、正态分布的概念和特征,1.正态分布曲线的数学函数表达式:,x为连续性随机变量,为x值的总体均数,2 为总体方差,记为XN( ,2),(-X ),2.正态分布曲线理论上的特征,正态曲线在横轴上方均数处最高;f(x=)为最大值。 正态分布以均数()为中心左右对称; 正态分布有2个参数 : :位置参数 :变异度参数 正态曲线在11处有一拐点; 正态曲线下的面积分布有一定规律性。,正态分布参数位置变化示意图,正态分布变异度不同变化示意图,曲线1:=2.4, =0.8 曲线2:=3.4, =0.8 曲线3:=3.4, =1.2,二、正态曲线下面积(概率)的分布规律,1.曲线下ab区间面积的含义 (1)表示x值在ab区间占全部变量值的百分比; 或表示x值在ab区间出现的概率(P)。 (2)x在曲线下整个面积分布为100%; 或x值在曲线范围内出现的概率为1。,标准正态分布(standard normal distribution),标准正态分布的两个参数:=0,=1,记为 N(0,1) 标准正态分布的曲线是唯一的。,任何正态分布的x通过u值转换后,称为标准化的正态分布,即u N(=0 ,2=1),u为标准化变量值,标准正态分布方程,2.估计曲线下面积的方法,将变量值(x)转换为u值后,查标准正态分布表(P520),可估计曲线下ab区间的面积。,表示从到u值范围内x分布面积,标准正态分布曲线下面积,例:标准正态变量值u=(-1,1)和u=(-1.96,1.96)区间的面积(概率)各为多少?,同理:u=(-2.58,2.58)区间的面积为0.99,记为:,有:,变量值分布的范围表达,x占的百分比(%),68.27,95.00,99.00,任意正态分布变量值(x)理论上分布规律,3.医学常用的三个x 分布范围及u界值,(1)x值分布范围,u0.05/2=1.96 (双侧) u0.01/2=2.58(双侧) u0.05=1.64 (单侧) u0.01=2.33(单侧),(2)统计中常用尾部面积的u值,记 ,称为u界值。,三、正态分布的应用 1.估计正态分布x值在特定值范围内的分布比例。 2.制定某临床指标的参考值范围。 3.利用 估计变量值的范围或对极端值做取舍。 4.许多统计方法的统计推断建立在正态分布基础上。,例题:101名正常成年女子的血清总胆固醇 , 。试估计该总体正常女子血清总胆固醇在4mmol/l以下者的百分比。,解:假定该资料服从正态分布,将x1=4转换为u值,查正态分布表,用,查表,标准正态变量(u1)=0.09,该地正常女子血清总胆固醇在4mmol/l以下者的百分比为46.41%。,医学参考值范围的制定,概念: 医学参考值范围:是指特定健康人群的解剖、生理、生化等各种指标的波动范围。也称正常值范围。 由于存在个体差异,正常值并非为常数,而是在一定范围内波动,医学上常用95%或99%的分布范围作为判定正常和异常的参考标准。,医学参考值范围的制定步骤,1.从“正常人”总体中抽样,明确研究总体。 2.统一测定方法以控制系统误差。 3.判断是否需要分组(如性别、年龄)确定。 4.根据专业知识决定单侧还是双侧。 5.有足够的样本例数(一般不低于100例)。 6.选定合适的百分界限。 7.对资料的分布进行正态性检验。 8.根据资料的分布类型选定适当的方法进行参考值范围的估计。,1.正态分布法 应用条件:正态分布或近似正态分布资料 计算 (双侧) 双侧100(1-)%正常值范围: 单侧100(1-)%正常值范围:,医学参考值范围的制定方法,双侧95%正常值范围: 单侧95%正常值范围:,例2-15 估计例2-1某单位101名正常成年女子血清总胆固醇的参考值范围。假设该资料服从正态分布。 已知: 计算95%的参考范围(双侧) 结论:正常成年女子血清总胆固醇95%的参考值范围为2.785.34(mmol/l)。,2.百分位数法,偏态分布资料医学参考值范围的制定通常采用百分位数法。 双侧95%参考值范围: 单侧95%参考值范围:,或,常用=0.05,上限值,下限值,表 102名3岁以下儿童LgA含量,组段(d) 频数 累计频数 位次范围 0- 29 29 1-29 15- 32 61 30-61 30- 18 79 62-79 45- 14 93 80-93 60- 4 97 94-97 75- 0 97 97 90- 0 97 97 105- 2 99 98-99 120- 1 100 100 135- 2 102 101-102 合计 102,例: 102名3岁以下儿童LgA含量,该地3岁以下儿童LgA含量的分布最小、最大范围为0-135(单位),由上式可见,该资料不服从正态分布。(本资料应该用百分位数计算正常值范围),变量值95%的分布范围,质量控制,控制实验中的检测误差,常以 作为上、下警戒值,以 作为上下控制值。 这里的2s和3s 是1.96 和 2.58的近似值。,统计处理方法的基础,正态分布是许多统计方法的基础。 t检验、方差分析、相关回归分析等均要求分析的指标服从正态分布。 非正态分布的资料统计处理的一个重要途径是先作变量变换,使转换后的资料近似正态分布,然后按正态分布的方法作统计处理。 有些统计处理方法虽不要求资料服从正态分布,但这些资料当样本相当大时,也近似正态分布规律来处理。,正态分布要求,1.正态分布理论上的4点特征 2.能正确使用标准正态分布表(利用u值) 3.掌握正态分布的三个常用的分布规律。 小结: 正态分布法和百分位数法可以对个体做评价,可以了解一定范围x值的比例。,EXCEL软件、SPSS软件在医学科研中的应用,统计描述数值变量,Descriptive StatisticsNumerical Variable,数值变量的分布类型 (一)对称分布 (二)偏态分布 数值变量的统计描述指标 (一)集中趋势指标(均数、几何均数、中位数) (二)离散趋势指标极(极差、方差、标准差、四分位数间距、变异系数) 一、用EXCEL软件计算统计描述指标 二、用SPSS软件计算统计描述指标 三、用SPSS软件作统计图,描述数值变量的分布 (一)直方图(正态曲线) (二)箱式图,数值变量(Numerical Variable):又称为连续变量。定量,一般有单位,表示为数值的大小。 无序分类变量(Nominal Variable) :定性,没有单位,表示为相互独立的类别。 有序分类变量(Ordinal Variable) :变量值是定性的,没有单位,表示为相互独立的类别且各类别具有程度上的差异。 注:无序和有序分类变量,通称为分类变量(Categorical Variable)。,一、常用的三类变量,三种类型的变量之间是可以相互转化的。,由数值变量转化为分类变量,常用的SPSS命令为Recode(重新赋值,即Recode Into different variables )。,例,用EXCEL软件计算统计描述指标,例题见数据文件book1.xls. 此例题仅作为操作说明。,2.计算几何均数,3.计算中位数,4.计算样本标准差,5.计算样本方差,6.计算四分位数间距,操作步骤: 1.选择“Frequencies”,SPSS软件计算统计描述指标,例题见数据文件data1.sav.此例题仅作为操作说明。,2.将变量选入变量框,点击“Statistics”,3.选择相应描述性指标,点击“Continue”,统计结果,注:除了用“Frequencies”外,还可以使用“Descriptives”进行统计描述。,六、SPSS软件作统计图,描述数值变量的分布,(一)直方图(正态曲线) Histogram ( Normal Curve ),例题见数据文件data2.xls. 此例题仅作为操作说明。,用于描述数值变量的分布情况。将变量值分为适当的组段,统计各组段中相应的频数。横轴为变量值,纵轴为频数。用等宽直条的高度表示各组段的频数,直条的宽度表示组距。,操作步骤: 1.选择“GraphsHistogram”菜单,2.将变量alt选入变量框,选中“Display normal curve”,点击O

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论