离散程度、正态分布.ppt_第1页
离散程度、正态分布.ppt_第2页
离散程度、正态分布.ppt_第3页
离散程度、正态分布.ppt_第4页
离散程度、正态分布.ppt_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

离散趋势的描述,吴立娟 流行病与卫生统计学系 阶平楼230,对以下三组数据特征进行分析 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,定量描述离散趋势的指标,称为变异指标。反映一组同质的计量资料观察值之间变异程度。 指标 按间距计算:全距和四分位间距 按平均差距计算:离均差平方和、方差、 标准差、变异系数,一、全距(range),优点:简便;计量单位与原变量计量单位相同 缺点:只利用了两个极端值 没有涉及数据的集中位置的信息 不稳定,对离群值敏感 n大,R也会大 用途:一般用于描述单峰对称分布 小样本资料的离散程度或用 于初步了解资料的变异程度,二、四分位数间距,分位数 介于最大值和最小值之间的一个数值,它使得变量的一部分观察值小于或等于它,另一部分观察值大于或等于它。,P100(max) P75 P50(中位数) P25 P0(min),百分位数 是一个位置指标,用Xp%表示。 对样本来说,它表示按照升序排列的数列中,其左侧(即小于Xp%侧)的观察个数在整个样本中所占的百分比为p%,其右侧(即大于Xp%侧)的观察个数在整个样本中所占的百分比为(100-p)%。,百分位数计算,L为第x百分位数所在组的下限 i为第x百分位数所在组的组距 fp为第x百分位数所在组的频数 为第x百分位数所在组的前一段的累积频数 累积频率刚好大于x%的组即为第x百分位数所在的组,P250.9+0.1x(160x25%37)/170.92 P751.3+0.1x(160x75%110)/171.36,四分位数间距(inter-quartile range),将特殊的3个分位数X25%, X50%, X75%统称为四分位数,并且分别称为第一四分位数,第二四分位数和第三四分位数,记为Q1,Q2和Q3. Q3与Q1的差值为四分位间距。,QQ3 Q1= X75%-X25%,四分位数间距常用于描述偏态分布资料,两端无确切值或分布不明确资料的离散程度 四分位数间距较全距稳定,常与中位数一起,描述偏态分布资料的特征。 计量单位与原变量的计量单位相同,且它对离群值的敏感远远低于全距,受样本量的影响较小。 缺点是仅使用了原变量的部分信息。,三、离均差平方和,平均偏差:为了利用每一个观察值的信息,一个自然的设想是计算各观察值偏离平均数的平均差距,为了避免正负抵消,可将每个观察值与均数之差的绝对值相加,然后取平均,称作平均偏差。,离均差平方和(sum of square, ss),四、方差(mean of square,MS),总体方差,样本方差S2,样本均数代替总体均数,导致离均差缩小;英国统计学家Gosset W-S 提出自由度,以n-1代替n。 n-1又称作自由度(degrees of freedom),指随机变量可以“自由”变动的个数。 n-限制条件的数目,五、标准差(standard of deviation, SD),总体标准差,样本标准差S,方差(221.52182.302/160)/(160-1) 0.0869 标准差0.29,标准差的基本内容是 “离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。,R SS MS S 甲组 8 40 10.0 3.16 乙组 12 90 22.5 4.74 丙组 8 34 8.5 2.92,六、变异系数(coefficient of variation),亦称离散系数,是标准差s与均数之比,即:,适用范围 观察指标单位不同,如身高、体重 不同单位资料 均数相差悬殊,例:某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异。,身高 体重,没有单位 反映标准差占均数的百分比或标准差是均数的几倍 可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响 反映的是以均数为基数的相对变异的大小 比较均数相差悬殊的资料的变异度,变异系数的特点及相应的用途,绝对变异受平均水平的影响 相对变异排除了平均水平的影响,平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差,通常,平均数与变异指标一起描述资料的分布特征。 用均数和标准差描述正态分布资料的特征; 用中位数和四分位数间距描述偏态分布资料的特征。,变异指标小结,1极差较粗,适合于任何分布 2标准差与均数的单位相同,最常用,适合于近似正态分布 3变异系数主要用于单位不同或均数相差悬殊资料 4平均指标和变异指标分别反映资料的不同特征, 常配套使用如 正态分布:均数、标准差; 偏态分布:中位数、四分位间距,1. 变异系数主要用于 A比较不同计量指标的变异程度 B. 衡量正态分布的变异程度 C. 衡量测量的准确度 D. 衡量偏态分布的变异程度 E. 衡量样本抽样误差的大小 2. 对于近似正态分布的资料,描述其变异程度应选用的指标是 A. 变异系数 B. 离均差平方和 C. 极差 D. 四分位数间距 E. 标准差 3已知动脉硬化患者载脂蛋白B的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指标应使用 A全距 B. 标准差 C.变异系数 D方差 E.四分位数间距,第五章第四节 正态分布,一、正态分布的概念和特征 二、正态分布的应用,一、正态分布概念和特征,一种连续型随机变量常见而重要的分布 首先由德国数学家德.莫阿弗尔于1733年提出 德国数学家高斯在研究测量误差时也建立了正态分布,并对正态分布的性质作了进一步的研究,因此正态分布也叫高斯分布。,正态分布的图形,某地用随机抽样方法检查了140名成年男子的红细胞数,当取组距为0.05时,,图2.1 140名正常男子红细胞计数的直方图,如果将观察人数逐渐增多,组距也不断缩小,图中直条将逐渐变窄,整个图形将逐渐接近于一条光滑的曲线,即接近于近似正态分布曲线。,连续型随机变量及其概率分布,随机变量X取各种值的概率的规律称为概率分布规律,简称分布,是研究随机事物的工具和统计分析的理论基础 在某一区间内随机变量取值的概率可通过计算积分获得,被积函数则称为连续型随机变量的密度函数 如果X为连续型随机变量,其密度函数为f(x),则其分布函数为,如果连续型随机变量X在实数范围内取值,且具有如下的概率密度函数 和概率分布函数,正态分布的特性,正态分布曲线为位于X轴上方的钟型曲线,且以X=为对称轴左右对称。以X轴为渐近线,两端与X轴永不相交 正态分布曲线在X=处有最大值,其值为 f()=1/ ,X远离,f(X)值越小; 正态曲线在X+ 处有拐点; 正态分布有两个参数,即均数和标准差,不同的、不同的对应于不同的正态分布曲线,恒定时,增大,曲线沿横轴向右移动;减小,曲线沿横轴向左移动,恒定时,越大,曲线越宽,表示数据越分散;越小,曲线越窄,表示数据越集中,标准正态分布 N( 0,1 ) 标准正态分布指数据经标准化后, = 0, = 1时的正态分布 公式 或 任何一个正态分布,都可以通过变换,成为标准正态分布 只要确定服从标准正态分布的随机变量取值及其概率,就可利用这一关系计算一般正态分布的取值概率,正态曲线下面积的分布规律,(1)服从标准正态分布的随机变量在一区间上曲线下的面积与该随机变量在同一区间的取值的概率相等 例 140名成年男子红细胞均数和标准差分别为 4.781012/L和 0.371012/L,求红细胞数在4 1012/L5.3 1012/L范围内所占的比例。,(2)X轴与正态曲线下所夹的面积恒等于1。 (3)如果uN(0,1),根据标准正态分布的分布函数为简化计算制成了附表2,欲求服从标准正态分布的随机变量在区间(-,u)(u0)上曲线下的面积,可直接查表; 对于u0,可根据对称性: (u)=1- (-u) u在区间(u1,u2)取值概率的计算公式: P( u1uu2 )= (u2)- (u1),例 已知z1=-1.76,z2=-0.25, 求标准正态曲线下(-1.76,-0.25)范围内的面积,例 已知z1=-1.20,z2=1.6,求标准正态曲线下(-1.20,1.6)范围内的面积,(4) 正态曲线下面积的分布规律,(5)如果XN(,2),X在区间(X1,X2)上取值的概率为,例 140名成年男子红细胞均数和标准差分别为 4.781012/L和 0.371012/L,求红细胞数在4 1012/L5.3 1012/L范围内所占的比例。,u1=(4-4.78)/0.37= -2.11 u2=(5.3-4.78)/0.37=1.41 P1=0.0174 P2=0.9207 P=0.9207-0.0174=0.9033,mmol/L ,,mmol/L ,,试估计该地正常女子血清甘油三脂在1.10 mmol/L以下者占正常女子血清甘油三脂总人数的百分比。,查附表得:0.4483=44.83%,正态分布的应用,制定医学参考值范围 质量控制 正态分布是许多统计方法的理论基础,医学参考值范围,“正常”人的解剖、生理、生化指标及组织代谢产物含量等数据正常与否的参考值。由于个体差异的存在,人群中的医学参考值有一定波动范围,医学参考值范围是指按一定的概率所确定的医学参考值的波动范围。 目的 基于临床实践,着眼于个体 基于预防医学实践,着眼于人群,医学参考值范围的制定方法,确定观察对象和抽取足够的观察单位 明确研究总体”正常人”总体,指排除了影响所研究变量的疾病和有关因素的同质人群。例如,某市欲制定学龄前儿童血铅的参考值范围,观察对象定为:年龄在3-6岁,在本市居住一年以上;无肝肾等器质性疾病;无铅接触史;无特殊的饮食习惯,测定前三天未进食含铅高的食物 随机抽样 样本量的确定,测定方法应统一、准确 应采用得到公认的或权威机构推荐的标准方法,以利于结果的评价和比较 操作人员必须经过统一的培训 测定时使用灵敏度较高的分析仪器,新仪器、新方法要校正和验证,决定是否分组制定参考值范围 当观察值在性别、年龄、地区、民族、职业组间的分布差别较明显,而差具有实际意义时,应分组制定参考值范围 方法: 频数分布表法,比较各组的分布范围、趋势、高峰位置 假设检验法,决定取单侧范围还是双侧范围,单侧下限-过低异常,单侧上限-过高异常,双侧-过高、过低均异常,选择适当的百分范围(80%、90%、95%、99%),估计参考值范围的界限 百分位数法 正态分布法,例4-22 某地调查正常成年男子200人的红细胞数,均数为55.26*1012/L,标准差为0.38*1012/L,试估计该地成年男子的红细胞数的95%的参考值范围,例4.24 抽样测定某城市125名55-60岁组健康男性居民的血清低密度脂蛋白含量(mmol/L),如表4.26所示,试制定该市55-60岁组健康男性居民的血清LDL-C的95%的参考值范围,表4.6 某市125名5560岁健康居民男性LDL-C的频数分布,P2.5=1.3+0.3/5(125*2.5%-0)=1.49 (mmol /L) P97.5=4.3+0.3/17(125*97.5%-106)= 4.58 (mmol /L) 该市125名5560岁健康居民男性LDL-C的 95%的参考值范围为1.494.5 mmol /L 8,质量控制,一般情况下,实验中的检测误差服从正态分布,故可用正态分布理论来评价和控制食盐的质量 实验观测值得上下警戒线: 实验观测值得上下控制线:,正态分布是许多统计学方法的理论基础,很多统计学方法都是建立在正态分布的基础之 非正态分布资料,对于经对数转化后成为正态分布或近似正态分布,先做变量转换,然后按正态分布的方法尽行处理,练习:假定一组男孩的体重呈正态分布,平均体重均数40kg、体重的标准差4kg,请回答以下问题: 体重低于46.6kg的男孩占百分之几? 体重在33.4kg46.6kg之间的男孩占百分之几? 体重大于什么值的男孩占10%?,查表,得10.04950.05 20.95 0.950.050.90 即体重在33.4kg46.6kg之间的男孩占90%, 以10%0.10先查表,得u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论