变异程度的统计描述.ppt_第1页
变异程度的统计描述.ppt_第2页
变异程度的统计描述.ppt_第3页
变异程度的统计描述.ppt_第4页
变异程度的统计描述.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 变异程度的统计描述 ( Measures of Dispersion ),要求: 掌握:标准差的含义及计算方法;变异系数的计算方法和应用。 熟悉:其他描述离散趋势的常用指标。,离散趋势(dispersion tendency)指标 三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,30 30 30,全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用R表示。全距大,说明变异度大;反之,说明变异度小。 甲组 26 28 30 32 34 乙组 24 27 30 33 36,R=8,R=12,全距(range),1.不能全面反映资料的离散程度; 2.不稳定,易受极端值的影响,抽样 误差大。,优点,缺点,1.表示变异范围,简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等; 2.各种分布类型的资料均可用。,全距(range),四分位数间距 (quartile interval),四分位数间距是上四分位数(QU=P75)和下四分位数(QL=P25)之差,用Q表示(QU-QL)。该数值越大,说明变异度越大;反之,说明变异度越小。,某地630名正常女性血清甘油三脂含量(mg/dl),L: 组段的下限; iM: 组距; fx: 频数; fL: Px所在组段之前的累积频数。,1.与中位数配套,用于偏态分布资料及分布的一端或两端无确切数值的资料; 2.比全距稳定。,未考虑到每个观察值的变异度。,优点,缺点,四分位数间距 (quartile interval),方差(variance),自由度n限制条件的个数,用表示。 (n1):当 选定时,n个变量值 中能自由变动的变量值的个数。,二、平均差距指标 (一)平均偏差(Mean Difference) 如对于例3.1: 甲患者: 乙患者:,特点:直观 , 易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。,(二)离均差平方和(Sum of Square,SS) 为了克服平均偏差的缺点,可以不通过取绝对值,而是通过取平方来避免正负抵消,即使用离均差平方和,其计算公式为 SS 通常作为一个中间统计量使用。,(三)方差 (Variance) 方差是将离均差平方和再取平均,即 注意:对于样本资料,分母用的是n-1,称为自由度(degree of freedom,df )。 方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用。,方差越大,资料的离散程度越 大(全面考虑了每个观察值); 不受观察值个数的影响。,优点,缺点,一些资料不适用于以平方表示。,方差(variance),(四)标准差 (Standard Deviation) 将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差: 例如对于例3.1经计算有 甲患者:,同理乙患者:,例 三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,标准差,直接法,标准差,加权法,标准差应用 1.表示观察值分布的离散程度。均数相近、度量单位相同的条件下,S越大,观察值的变异程度越大,均数的代表性越差。 2. 结合均数计算CV。 3.结合均数描述正态分布资料的分布特征和估计医学参考值范围 4. 结合样本含量计算标准误。,(五)变异系数(Coefficient of Variation ) 主要用于对均数相差较大或单位不同的几组观察值的变异程度进行比较。 例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差为10.7mmHg;收缩压均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。,变异系数 Coefficient of variation (CV),应用,1.表示数据分布的相对离散程度 2.比较均数相差悬殊的两组或多组资料的离散程度 3.比较度量衡单位不同的两组或多组 资料的变异程度,某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异程度。 20岁男子体重的变异程度比身高的 变异程度大。,某地不同年龄女童的身高(cm)资料如下表所示 。试比较不同年龄身高的变异程度。 某地不同年龄女童身高的变异程度 年龄组 人数 均数 标准差 CV(%) 12月 100 56.3 2.1 3.7 56月 120 66.5 2.2 3.3 33.5岁 300 96.1 3.1 3.2 55.5岁 400 107.8 3.3 3.1,小结 全距与四分位数间距:后者较稳定,但均不能综合反映各观察值的变异程度。 标准差:最为常用,对正态分布尤为重要 变异系数:可用于多组资料间度量衡单位 不同或均数相差悬殊时作变异度的比较。 以上指标都是数值越小,说明观察值 的变异度越小,均数的代表性越好。 平均指标和变异指标常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位间距,练习:,某市1974年为了解该地居民发汞的基础水平, 为汞污染的环境监测积累资料,调查了留住该市一年以上, 无明显肝、肾疾病,无汞作业接触史的居民238人的发汞含量(mol/kg)如下:,用何种指标说明本资料的集中位置和变异程度较好?并计算之。,某检验师测定了10名正常成年钢铁工人的血红蛋白值(g/dl)和红细胞数(万/mm3)如下,试比较这两个检测项目的结果哪个变异性大?,血红蛋白(g/dL) 13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0 血细胞数(万/mm3) 510 515 517 518 520 522 524 525 528 530,正态分布和医学参考值范围,要求: 掌握:正态分布及其特征,正态曲线下面积分布的规律。 熟悉:医学参考值范围,参考值范围估计的步骤,参考值范围估计的正态分布法和百分位数法。标准正态分布。 了解:参考值范围估计的对数正态分布法。,图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图,一、正态分布(Normal Distribution),正态分布曲线: 高峰位于中央,两侧逐渐下降、低平,左右完全对称、两端不与横轴相交的钟型曲线。 正态分布: 以均数为中心,中间多,两侧呈对称性逐渐减少的钟型分布。,正态分布的密度函数f(x)为:,由上式可见,正态分布的图形由 和 所决定, XN( , 2),主要特征: 1.以 为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异,图3-2 正态分布曲线下的面积,图3-3 三种不同均值的正态分布,图3-4 三种不同标准差的正态分布,正态曲线下的面积F(x)的计算:,标准正态变换(u变换),u为标准正态变量 或标准正态离差,u变换的特点:若X服从正态分布,则u服从 标准正态分布 标准正态分布:指均数为0、标准差 为1的正态分布,记为N(0,1),二、标准正态分布 (Standard Normal Distribution),表中曲线下面积为 - u 的面积;即 P ( u),可以利用标准正态分布表求出与原始变量X 有关的概率值。,1. 标准正态分布:求曲线下(u1,u2)范围 内的面积。,u 0:查表,分别求从-到u2与 从-到u1的面积; 两者之差为所求面积。,u2,u1,例:u1= - 1.50,u2= - 0.31,则(-1.50,- 0.31)范围内的面积,(2) u 0:利用正态分布的对称性求曲线 下从-到u范围的面积。 例:从- 到u=1.76范围内的面积。,0.0392,1-0.0392=0.9608,0.0392,2. 非标准正态分布:求曲线下任意(x1,x2)范围内的面积。,先作标准正态变换; 再查标准正态分布表求得面积。 例:已知110名7岁男童身高 。现欲估计该地身高界于116.5cm到119.0cm范围内7岁男童比 例及110名7岁男童中身高界于此值范 围内的人数。,(1) 标准正态分布变换:,(2) 查表得:,(3) 求D:,估计该地身高界于116.5119.0cm范围内的7岁男童比例为13.92%; 估计110名7岁男童中有15名男童的身高界于116.5119.0cm范围内。,11013.9215,思考题: 该地80%的男孩身高集中的范围?,三、正态分布的应用,1. 估计频数分布 例:出生体重低于2500g为低体重儿。 若由某项研究得某地婴儿出生体重均数为 3200g,标准差为350g,估计该地当年低 体重儿所占的比例。,查表 ,即从-到 2500的比例为2.28%,故估计该地 当年低体重儿所占的比例为2.28%。,2. 制定医学参考值范围 (Reference Value Range) 3. 质量控制 为了控制实验中的误差,实验室的质量控制中,常以 作为上、下警戒限;以 作为上、下控制限。 (2s和3s是1.96s与2.58s的近似值)。 4. 统计处理方法的基础,一、基本概念 通常指正常人(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的:用于临床疾病诊断。最常用的是95%参考值范围。,第三节 医学参考值范围 (Reference Value Range),确定95%参考值范围示意图,二、医学参考值范围的制定方法 (一)选择足够数量的正常人作为参照样本 选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。例如在制定血清谷丙转氨酶活性正常值时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。样本含量一般要较大,如n120。,(二)对选定的参照样本进行准确的测定 为保证原始数据可靠,要严格控制检测误差,包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等,同时必须对测量条件做出统一的规定和说明,如临床化验参考值范围的制定,应对收集样本时的环境和生理条件(温度、季节、体育活动强度、饮食、妊娠等),收集、转运和储藏样品的方法及时间有明确的规定。,(三)决定取单侧范围还是双侧范围值 有些指标如白细胞数过高或过低均属异常(a) ,故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。,(a)白细胞数参考值范围,(b)24小时尿糖参考值范围,(c)肺活量参考值范围,(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。 若主要目的为减少假阳性(如确诊病人)大 减少假阴性(如初筛病人)小,图3-6 正常人和病人数据分布重叠,(五)估计参考值范围的界限 参考值范围估计主要有百分位数法和正态分布法。,表3-2 参考值范围所对应的百分位数,表3-3 参考值范围所对应的正态分布区间,例3.4 若已算得某地正常成年男子红细胞数的均数为4.781012/L,标准差为0.381012/L,试估计该地成年男子红细胞数的95%参考值范围。 例3.5 见第二章表2-4资料。为该地区50岁60岁女性高血脂诊断与治疗提供参考依据,试估计血清甘油三脂含量的95%单侧参考值范围。,下限:,上限:,即95%单侧参考值范围为小于2.098mmol/L。,对数正态分布法 适用于对数正态分布资料,例:某市调查了200例正常成人血铅含量,估计该市成人血铅含量95%医学参考值范围。 单侧上界,小 结 1.描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。 2.衡量变异程度大小的指标有多种: 极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。 3.标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。利

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论