正态分布统计学_第1页
正态分布统计学_第2页
正态分布统计学_第3页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章数值变量资料的统计分析卫生学(7)医学统计与流行病学系骆福添第一节数值变量资料的统计描述、数值变量资料的频数分布、平均水平指标三、离散程度指标平均指标描述样本数据的集中趋势(一般水平) 变异指标描述样本数据的离散程度(差别大小)(一)全距(range)全距用R表示,是最大值与最小值之差(又称极差)?优点一简便;缺点一不稳健(重复抽样时结果变化很大), 因只利用了 2个数据的信息;应用一潜伏期、罕见病(偏态小 样本)(二)四分位数间距(quartile interval )四分位数间距用Q表示,是上四分位数QU(P75)和下四分位 数Ql( P25)之差(中间半数个体的全距)?优点一比全距

2、稍稳健;缺点 一仍不够稳健,因多数数据的 信息仍未利用;应用一偏态分布数据例如:用表9-5的数据计算四分位数间距得:P25= 0.75+ (0.2542)(340 25% 81) = 0.77( mmol/L)陆=1.50+ (0.2536)(340 75% 219= 1.75( mmol/L)P95= 2.50+ (0.256 ) (340 95% 322)= 2.54 (mmol/L)(三)方差与标准差方差(varianee):离均差平方的均值(9-8)(9-9)? 2为总体方差,S2为样本方差 ?方差利用了所有数据的信息,反映平均差别(但量纲是平方单 位)?式(9-9)中n1”为自由度,

3、数理统计认为用自由度作分母较 好(无偏估计)标准差(standard deviation ):方差的平方根便是标准差,其 实质是离均差的均值,反映平均差别大小?方差开平方后,使平方单位变为普通的度量单位(9-10)(9-11)为总体标准差,s为样本标准差 方差和标准差的意义:都反映资料的变异程度大小(差别的平均大小)?因为 ss Lxx (X X)2 X2 ( X)2, n(9-12)?推导出计算公式为(9-13)(9-14)X2 ( X)2 nn 1s,例9-8例9-2中,某班级中10名女孩身高(cm)分别为求其求标准差。本例 n=10, X=1422.1 ,X2=202904.37,代入式

4、(9-13)得:8.74(cm)s(202924.37 1422.12 1010 110名女孩身高标准差为0.117kg。例9-9禾U用表9-3中数据计算140名正常成年男子的血清 BUN 浓度标准差。已算得 f=140,fx=616.80,再用第(3)、(4)栏相乘后相加,得fx2=2875.36。代入式(9-14),得:。2875.36 616.802 140s 1.07( mmol / L)V140 1140名正常成年男子的血清 BUN浓度标准差为1.07mmol / L ?标准差的用途: 反映一组观察值的离散程度 用于计算变异系数计算标准误(第三节)估计参考值的范围(第二节)(四)变异

5、系数(coefficient of variation )记为 CV(9-15)CV f 100%例9-10某地40名7岁男童,平均身高121.48cm,标准差为4.65cm;体重均数为22.18kg,标准差2.35kg。试比较其身高和体重的变异程度。身高 CV=(4.65/1221.48) W0%=3.83%体重 CV=(2.35/22.18) 100%=10.60%比较计算所得的两个变异系数,可见该地40名7岁男童,体重的变异度比身高的变异大。第二节正态分布及其应用一、正态分布 正态分布(normal distribution )是一种重要的连续型分布(理论分布、高斯分布,图9-2c)?正

6、态分布来源于实际的频数分布(巴斯荻监狱犯人的身高分 布),如图9-2通过数学上的修匀便可获得正态曲线?许多自然现象和医学现象本身就服从正态分布(可直接应用)?许多非正态分布的数据,只要样本足够大,其样本均数将逼近正态分布 图9-3频数分布逐渐向正态分布接近标准正态分布X?标准化变换:u称为标准化变换?标准正态分布:若X服从正态分布,标准化值u的分布便称为图9-5不同,下正态分布概率密度函数的图形二、正态分布的特征和曲线下面积分布规律(一)正态分布的特征 曲线外观如吊锺型;以均数为中心,左右对称 分布有两个参数,即均数与标准差,均数又称位置参数,决 定曲线的中心位置;标准差又称形状参数,决定曲线

7、的形状 ?标准差变大则曲线中段压低,曲线两头拉宽变高 正态分布的面积分布有一定的规律性(二)正态分布面积分布规律?任意范围内的面积都可用积分或查表方法求得?重要的面积分布规律如表9-6表9-6正态分布和标准正态分布曲线下面积分布规律正态分布(X)标准正态分布(u)面积(或概率)-1 +1-1 +168.27%-1.96 +1.96-1.96 +1.9695.00%-2.58 +2.58-2.58 +2.5899.00%图9-6正态分布和标准正态分布的曲线下面积分布规律三、正态分布的应用(一)估计变量值的频数分布例如估计某范围的个体数目(二)制定参考值范围(referenee ranges)医学

8、参考值是指正常人的各种生理的分布范围制定参考值的基本步骤1 从正常人总体中抽样样本含量要足够大2 控制测量误差 方法、仪器、试剂、操作3 判定是否需要分组确定参考值范围如男女分别估计4. 决定取单侧还是双侧单侧或双侧是根据指标的实际用途和专业知识(骆:对总体的了解)而定?多数指标过高或过低均为异常,用双侧范围(红细胞数)?有些指标过低为异常(肺活量),或过高为异常(尿铅值),用 单侧5. 选定合适的百分界限 把握度 常用95%参考值范围6根据数据的分布类型选定适当的方法进行参考值范围的估计参考值范围的估计方法? 95%的参考值范围为例,常用方法见表 9-7表9-7三种参考值范围估计方法95%参

9、考值范围的计算正态分布法对数正态分布法百分位数法适用对象正态或近似正态对数正态或近似正态偏态分布资料双侧界限值X 1.96Slg 1(XlgX 1.96Sgx)P2.5 和 P97.5单侧上界衣 + 1.645Slg lXlgx+佃6SgX)P95单侧下界X - 1.645Slg1(Xgx-1.646Sgx)P51. 正态法:常见的生理指标例9-11利用表9-1的数据求95%的参考值范围。从图9-1可以看出该数据基本服从正态分布,可采用正态分布法。本例的X=4.41, S=1.07,双侧95%的参考值范围为:x ± 1.96S= 4.41 ±.96 *07 = 2.31 6

10、.51 (mmol/L)习惯上取双向扩展的 方便数:例如()?若数据服从对数正态分布,采用对数正态分布法2. 百分位数法:偏态分布或分布不明例9-12利用例9-7的数据,95%的参考值范围。?男童血铅呈偏态分布,用百分位数法血铅过高才属异常,所以用左侧单侧范围应计算其P95,前已算得P95= 2.54 (mmol/L ),故7岁以下男童血铅值95%的参考值范围为v 2.54 (mmol/L)习惯上取单向扩展的 方便数:v 2.6 (mmol/L)(三八质量控制常以警戒值:X 2S控制值:X 3S(四)、正态分布是很多统计方法的基础 几乎所有统计方法都有“正态近似法表9-8标准正态分布曲线下的面

11、积从-至U(-U)值,(u)=1-(-U)u0.000.010.020.030.040.050.060.070.080.09-3.0.0013.0013.0013.0012.0012.0011.0011.0011.0010.0010-2.9.0019.0018.0018.0017.0016.0016.0015.0015.0014.0014-2.8.0026.0025.0024.0023.0023.0022.0021.0021.0020.0019-2.7.0035.0034.0033.0032.0031.0030.0029.0028.0027.0026-2.6.0047.0045.0044.00

12、43.0041.0040.0039.0038.0037.0036-2.5.0062.0060.0059.0057.0055.0054.0052.0051.0049.0048-2.4.0082.0080.0078.0075.0073.0071.0069.0068.0066.0064-2.3.0107.0104.0102.0099.0096.0094.0091.0089.0087.0084-2.2.0139.0136.0132.0129.0125.0122.0119.0116.0113.0110-2.1-2.0-1.9-1.8-1.7-1.6-1.5-1.4-1.3-1.2-1.1-1.0-0.9

13、-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1-0.0.0179.0174.0170.0166.0162 .01580.1540.150.0146.0143.0228.0222.0217.0212.0207.0202.0197.0192.0188.0183.0287.0281.0274.0268.262.0256.0250.0244.0239.0233.0359.0351.0344.0336.0329.0322.0314.0307.0301.0294.0446.0436.0427.0418.0409.0401.0392.0384.0375.0367.0548.0537.052

14、6.0516.0505.0495.0485.0475.04650.455.0668.0655.0643.0630.0618.0606.0594.0582.0571.0559.0808.0793.0778.0764.0749.0735.0721.0708.0694.0681.0968.0951.0934.0918.0901.0885.0869.0853.0838.0823.1151.1131.1112.1093.1075.1056.1038.1020.1003.0985.1357.1335.1314.1292.1271 .1251.1230.1210.1190.1170.1587.1562.15

15、39.1515.1492 .1469.1446.1423 .1401.1379.1841.1814.1788.1762.1736 .1711.1685.1660.1635.1611.2119.2090.2061.2033.2005.1977.1949.1922.1894.1867.2420.2389.2358.2327.2296 .2266.2236.2206.2177.2148.2743.2709.2676.2643.2611.2578.2546.2514.2483.2451.3085.3050.3015.2981.2946.2912.2877.2843.2810.2776.3446.340

16、9.3372.3336.3300.3264.3228.3192 .3156.3121.3821.3783.3745.3070.3669.3632.3594.3557.3520.3483.4207.4168.4129.4090.4052.4013.3974.3936.3897.3859.4602.4562.4522.4483.4443.4404.4364.4325 .4286.4247.5000.4960.4920.4880.4840.4810.4761.4721.4681.4641结语(应用.要点)一、统计描述内容:1. 统计图表:全面-直观-具体地反映个体分布规律2. 统计指标:(全面)-概

17、括地反映个体分布规律二、变量类型问题:1. 资料性质分类:数值、分类、等级2. 个体分布分类:(数值变量)(1)正态:例如,常见的生理测量数据(2)对数正态:例如,抗体滴度(偏态中的特例)(3)偏态:例如,潜伏期、住院天数三、平均水平指标:1. 均数:总和/例数,适用于正态资料2. 几何均数:实质是均数,对数值均数反对数还原,适用于对 数正态分布数据3. 中位数:分布中心位置,适用于偏态、未知分布数据四、离散程度指标1. 全距(极差):简便但极不稳健(研究结论变化大),适用于小样 本偏态数据,如潜伏期2. 四分位数间距:较全距稳健,适用于一般的偏态数据3. 方差或标准差:最稳健,适用于正态资料五、样本数据特征的表达1. 正态:X

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论