已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章 数值变量资料的统计分析卫生学(7)医学统计与流行病学系 骆福添第一节 数值变量资料的统计描述例9-1 某地随机抽样的方法对140名健康成年男性血清尿素(BUN)浓度进行了检测,所得数据如表9-1,试编制频数表。 表9-1的140个资料,无论多认真审视,也说不清这些男子尿酸浓度的情况怎样、特征如何 统计描述就是解决此问题的方法,即用统计表、统计图和统计指标来描述样本数据的特征表9-1 某地140名健康成年男性血清尿素浓度(mmol/L)6.005.283.905.304.203.905.605.664.104.004.503.774.344.304.225.305.133.794.805.204.702.945.904.502.105.605.902.854.904.225.633.214.663.005.963.453.504.233.903.884.244.534.882.483.403.263.213.602.734.154.604.354.965.615.875.014.335.744.873.963.003.933.155.003.443.502.854.874.603.404.793.026.324.982.895.826.305.205.403.002.804.434.505.526.404.865.904.703.474.664.785.702.264.103.705.403.704.374.206.104.805.105.552.975.113.263.046.015.074.225.395.344.473.585.264.544.073.833.976.054.022.692.525.216.554.284.455.154.455.373.803.734.492.442.763.333.016.433.552.63一、数值变量资料的频数分布(一)编制频数表和频数分布图 频数(frequency):变量值出现的次数,即例数 频数表(frequency distribution table):反映变量值与频数之间关系的统计表 频数表的制作步骤。1计算极差(range):本例R6.55-2.10=4.45 (mmol/L)2列出组段:决定组数、组段和组距(取方便数)3划记归组:列表划记、分组归纳,见表9-2。 从频数表可看出有两个重要的特征:集中趋势(central tendency):多数资料向中间集中离散趋势(tendency of dispersion):少数数据向两端分散表9-2 2002年某市150名正常成年男子尿酸浓度(mmol/L)频数表尿酸(mmol/L) 划记频数累计数频率(%)累计频率(%)2.0221.431.432.4正795.006.432.8正正13229.2915.713.2正正143610.0025.713.6正正正155110.7136.434.0正正正197013.5750.004.4正正正188812.8662.864.8正正正1610411.4374.295.2正正1411810.0084.295.6正正131319.2993.576.0正61374.2897.866.46.831402.14100.00合计140100.00高度=8+1面积=8+1 分布类别(简述)正偏峰分布(峰偏负?尾正偏) 负偏峰分布(峰偏正?尾负偏)图9-2 偏峰分布示意图Luo补充:抗体滴度分布正偏抗体滴度的对数值分布正态因此,称抗体滴度呈“对数正态分布” 正态分布:图9-1可称为正态或近似正态分布(后述图9-2) 对数正态分布:指数据的对数值呈正态分布 偏峰(态)分布:若峰偏向一侧,便被称之为偏峰(态)分布 峰偏左为正偏峰,反之为负偏峰 分类意义:不同分布类型资料,其描述性统计方法不同 统计方法和指标必须“对号入座”(二)频数分布表和频数分布图的用途 频数表:以频数的数值反映变量的分布规律 (频数分布) 频数图:以频数的面积反映变量的分布规律 (频数分布)1. 直观、有序地描述数据特征2. 可考察分布的类型3. 可见分布的特征:集中趋势、离散趋势(及外观形状、对称性)4. 可发现可疑值(特大或特小的“离群值”)二、平均水平指标 2010-3-5羊城晚报a14版统计纷乱房价指数似儿戏。官方统计:去年全国房价上涨1.5%;民间统计中投证劵:同比上涨20%。地产专家韩世同:比较两年的房价变动,月度均价更有意义。 平均数(average):描述数值变量数据平均水平(或集中趋势)的指标 平均数种类:算术平均数(简称均数)、几何平均数、中位数(众数以及调和均数)(一)算术均数(mean) 均数符号:总体均数为m(读作mu),样本均数为1直接法:(9-1) S为求和的符号,读作sigma,xi为观察值,n为例数例9-2 某班级中10名女孩身高(cm)分别为132.40151.30126.80138.10146.60139.50154.20147.50148.10137.60求其算术均数。解:(132.40+151.30+126.80+138.10+146.60+139.50+154.20 +147.50+148.10+137.60)10142.2 (cm)2加权法(weighted method)计算均数 为考察分布类型,应首先编制频数表 加权法(频数表法)基本思想:以组中值代表组内的变量值(近似法),简化计算 (9-2)计算:表9-3中Sfixi=616.80,Sfi =140,得4.41 mmol/L【注】直接法均数为4.38 mmol/L,可见加权法近似效果很好表9-3 140名成年男子血清BUN(mmol/L)均数与标准差计算用表组段频数(fi)组中值(xi)fi xfi xi22.022.24.409.682.472.618.2047.322.8133.039.00117.003.2143.447.60161.843.6153.857.00216.604.0194.279.80335.164.4184.682.80380.884.8165.080.00400.005.2145.475.60408.245.6135.875.4037.20437.326.066.2230.646.46.836.619.80130.68合计140(Sfi )616.8(Sfixi)2875.36(Sfixi2)(二)几何均数(geometric mean) 定义:n个观察值x的乘积再开n次方所得的平方根,记为G 适用条件:观察值呈倍数关或近似倍数关系(对数正态)。如抗体滴度一组观察值不呈正态分布、且其差距较大时(骆?)1直接法:(9-3)例9-3 有8份血清的抗体效价分别为1:200,1:25,1:400,1:800,1:50,1:100,1:50,1:25计算数据为:200,25,400,800,50,100,50,25数据排序为:25,25,50,50,100,200|,400,800 其算术均数206.25,代表性差(偏大.夸大)lg200lg25lg400lg800lg50lg100lg50lg25用几何均数,平均抗体效价为 Glg-1( lg200lg25lg400lg800lg50lg100lg50 lg25 )8 100 即1:100,可见几何均数代表性较算术均数好2加权法:(9-4)例9-4 某地34名儿童接种麻疹疫苗后,血清血凝抑制抗体滴度的测定结果见表9-4,求平均滴度。 即34人的血清平均抗体效价为1:10.206【注】计算几何均数的观察值不能小于或等于0,因为无法求对数(骆?) 先加上一常数即可,如X=KX,则X可取对数,G=GK表9-4 某地112名儿童接种疫苗后血清抗体滴度的计算表抗体滴度(1)频数(2)滴度倒数Xi(3)lgXi(4)flgXi(5)=(2)(4)1:4140.6021 0.6021 1:8380.9030 2.7093 1:1615161.2041 18.0615 1:3232321.5051 48.1632 1:6443641.8062 77.6666 1:128111282.1072 23.1792 1:25652562.4082 12.0410 1:51225122.7093 5.4186 合计112(fi)187.8415(flgX)(三)中位数(median)与百分位数(percentile) 中位数定义:一组观察值按大小顺序排列,位置居中的那个数值称为中位数,记为M 百分位数:一组数据从小到大排列,并分成100等份,第x等份位置的数值称为x百分位数,记为Px 例如:x=50,记为P50,读作“五十百分位数”(即中位数) 适用情况:适用于任意分布,但习惯上用于 偏态分布(如发汞、尿铅) 一端或两端无确定数值 分布情况不明 常用百分位数:P50,P25,P75,P5,P95,P2.5,P97.5 中位数和百分位数的计算方法:1直接法计算中位数: n为奇数时,正中位置的数值就是MMX(n+1)/2(9-5) n为偶数时,居中位置两个数值的平均数就是MMXn/2Xn/2+12(9-6)例9-5 8名食物中毒患者的潜伏期分别为1,2,3,3,4,5,8,16小时,求其中位数。本例n8,为偶数,MXn/2Xn/2+1234 23.5(小时)例9-6 某传染病11名患者的潜伏期(天)分别为1,2,2,3,3,4,5,6,7,7,9 求中位数。 本例n=11,为奇数, MX(n=1)/2X(11+1)2X64(天) 该传染病潜伏期的中位数是4天。2中位数和百分位数的频数表法: (9-7) L为百分位数对应组段的下限值,i为该组段的组距,fx为该组段频数,SfL为前一组累计频数 该组最小值位置SfL1,最大值位置SfLfx例9-7 为了解本地儿童体内铅负荷的现状,某市二保所2006年以随机抽样的方法调查了该市340名7岁以下儿童的血铅含量,结果编成频数表如表9-5,试计算该资料中位数及P25,P75,P95百分位数。 1.25 M=1.25+d(均匀插值法求d) 1.50164位170位219位 首先计算中位数M1.25(0.25/55) (34050%164)1.28 (mmol/L)本段下限 每位间距0.25尚缺位数6位M1.25 0.25 6 1.28Luo:此公式实际上是基于队列的均匀插值方法表9-5 340名7岁以下儿童的血铅含量中位数及百分位数的计算表血铅值(mmol/L)(1)例数f(2)累计频数Sf(3)(秩次)累计频率(%)(4)=(3)/n0.00221226.47 0.2536235817.06 0.5023598123.82 0.75 (P25)428212336.18 1.004112416448.24 1.25 (P50)5516521964.41 1.50 (P75)3622025575.00 1.752825628383.24 2.001528429887.65 2.252429932294.71 2.50 (P95)632332896.47 2.75932933799.12 3.003.253338340100.00 合计340(Sf)同理可求出百分数P25、P75、P95。P25 0.75(0.25/42)(34025%81) 0.77(mmol/L)P75 1.50(0.25/36)(34075%219) 1.75(mmol/L)P95 2.50(0.25/6 )(34095%322) 2.54(mmol/L) 表9-5中组段“1.75”累计频率75.00%,即75%位置对应于此组段上限,故75百分位数等于上限值1.75(这是特例)Luo:关于“加权”法其它教材(权重系数)本教材(权重) 权重系数与权重实质相同,经常混淆,都简称为“权”权w2=0.3权w1=0.1155重x1=15重x2=5权重=权重(w1x1=w2x2) 权重系数重=(f/n)x结语:一、统计描述内容:1. 统计图表:全面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论