




已阅读5页,还剩108页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
定量资料的统计描述 刘 娅 公共卫生学院流病统计教研室 复习 n统计工作的基本步骤 复习 n总体与样本 n参数和统计量 n抽样误差 n小概率事件 复习 n资料的两种类型 n数值变量资料 n分类变量资料 问题:患者的白细胞分类百分比? 定量变量 n关注测定值的大小 注 意 n人们有一种误导作用,即所有的叫“百分比 或百分率”的资料都应当是定性资料。 n变量类型的区分与分析的基本单位有关。 例如,患病与否的问题,若以人为基本测量和分 析单位,它是二项分类变量,但若以乡为基本测 量和分析单位,患病率则为定量变量。 n统计分析的内容 n统计描述:用适当的统计指标和统计图 表来表达资料的特征或规律,是统计推 断的基础 。 n统计推断:用样本信息推断总体特征。 定量资料的统计描述 p频数表和频数图 p集中趋势的统计描述 p离散趋势的统计描述 定量资料的频数表 n频数表(frequency table):将变量值和 相应频数列表,即为频数分布表,简称频 数表。 n在什么情况下需编频数表? 离散型定量变量的频数表 n按变量的取值(次数)为单位分组,再列出 各组的频数 妇女的子女数 引体向上次数 表4.1 2005年某市102名高中男生引体向上完成次数的 频数分布 2002年某市150名2029岁正常成年男子的尿酸浓度(umol/L) 362.6 359.7 285.9 300.2 333.6 334.0 288.8 338.5 341.9 344.6 337.5 298.3 364.2 367.1 338.1 316.9 332.7 324.0 282.6 369.8 398.7 338.7 308.9 392.1 368.7 352.6 378.2 346.1 278.6 318.3 323.2 322.6 382.1 322.6 309.6 352.0 372.5 399.8 335.6 341.1 371.0 355.9 362.7 368.1 332.4 405.6 328.8 358.8 405.9 362.7 316.3 338.7 402.6 379.4 329.6 354.6 331.4 349.6 419.5 324.6 329.8 357.8 312.0 313.6 338.7 328.6 291.3 329.7 361.8 392.4 414.9 319.7 327.6 395.8 358.9 289.4 366.2 387.4 298.4 408.7 389.8 362.5 354.9 352.7 316.6 348.9 348.7 401.6 334.6 308.9 367.0 345.6 401.6 357.1 304.6 338.5 388.2 355.8 329.4 321.1 320.4 313.5 339.8 409.4 387.4 378.5 392.0 352.7 376.2 388.4 344.6 308.6 347.0 428.7 369.1 311.4 376.3 349.4 289.2 366.8 371.0 387.5 413.6 348.7 392.7 401.0 313.6 366.8 387.2 319.7 329.4 357.5 348.5 346.8 406.6 357.6 338.7 341.6 349.8 289.4 366.2 357.5 298.4 336.8 387.5 342.3 366.7 387.6 332.7 329.4 连续型定量变量频数表的编制 n求全距(range):全距又称为极差,是全部 数据中最大值与最小值之差,用符号 R表示 2002年某市150名2029岁正常成年男子的尿酸浓度 (umol/L) 362.6 359.7 285.9 300.2 333.6 334.0 288.8 338.5 341.9 344.6 337.5 298.3 364.2 367.1 338.1 316.9 332.7 324.0 282.6 369.8 398.7 338.7 308.9 392.1 368.7 352.6 378.2 346.1 278.6 318.3 323.2 322.6 382.1 322.6 309.6 352.0 372.5 399.8 335.6 341.1 371.0 355.9 362.7 368.1 332.4 405.6 328.8 358.8 405.9 362.7 316.3 338.7 402.6 379.4 329.6 354.6 331.4 349.6 419.5 324.6 329.8 357.8 312.0 313.6 338.7 328.6 291.3 329.7 361.8 392.4 414.9 319.7 327.6 395.8 358.9 289.4 366.2 387.4 298.4 408.7 389.8 362.5 354.9 352.7 316.6 348.9 348.7 401.6 334.6 308.9 367.0 345.6 401.6 357.1 304.6 338.5 388.2 355.8 329.4 321.1 320.4 313.5 339.8 409.4 387.4 378.5 392.0 352.7 376.2 388.4 344.6 308.6 347.0 428.7 369.1 311.4 376.3 349.4 289.2 366.8 371.0 387.5 413.6 348.7 392.7 401.0 313.6 366.8 387.2 319.7 329.4 357.5 348.5 346.8 406.6 357.6 338.7 341.6 349.8 289.4 366.2 357.5 298.4 336.8 387.5 342.3 366.7 387.6 332.7 329.4 连续型定量变量频数表的编制 n1.求全距(range): R = 428.7278.6 = 150.1(umol/L) n2.划分组段 确定组数 :一般设815个组段。 确定组距:组距=R/组数 确定各组段的上下限 第一组段应包括最小值; 最末组段应包括最大值,并且同时写出其下限与上限; 各组段的起点和终点分别称为下限和上限,某组段的组中 值为该组段的(下限+上限)/2。 划分组段 2002年某市2029岁正常成年男子的尿酸浓度(umol/L) 合计计 420435 405 390 375 360 345 330 315 300 285 270 尿酸(umol/L)频频数 连续型定量变量频数表的编制 n1.求全距 n2.划分组段 n3.统计各组段频数 362.6 359.7 285.9 300.2 333.6 334.0 288.8 338.5 341.9 344.6 337.5 298.3 364.2 367.1 338.1 316.9 332.7 324.0 282.6 369.8 398.7 338.7 308.9 392.1 368.7 352.6 378.2 346.1 278.6 318.3 323.2 322.6 382.1 322.6 309.6 352.0 372.5 399.8 335.6 341.1 371.0 355.9 362.7 368.1 332.4 405.6 328.8 358.8 405.9 362.7 316.3 338.7 402.6 379.4 329.6 354.6 331.4 349.6 419.5 324.6 329.8 357.8 312.0 313.6 338.7 328.6 291.3 329.7 361.8 392.4 414.9 319.7 327.6 395.8 358.9 289.4 366.2 387.4 298.4 408.7 389.8 362.5 354.9 352.7 316.6 348.9 348.7 401.6 334.6 308.9 367.0 345.6 401.6 357.1 304.6 338.5 388.2 355.8 329.4 321.1 320.4 313.5 339.8 409.4 387.4 378.5 392.0 352.7 376.2 388.4 344.6 308.6 347.0 428.7 369.1 311.4 376.3 349.4 289.2 366.8 371.0 387.5 413.6 348.7 392.7 401.0 313.6 366.8 387.2 319.7 329.4 357.5 348.5 346.8 406.6 357.6 338.7 341.6 349.8 289.4 366.2 357.5 298.4 336.8 387.5 342.3 366.7 387.6 332.7 329.4 2002年某市2029岁正常成年男子的尿酸浓度 (umol/L) 统计各组段频数 合计 420435 405 390 375 360 345 330 315 300 285 270 2002年某市2029岁正常成年男子的尿酸浓度(umol/L) 尿酸(umol/L)频频数 划记 正 正正 正正正正 正正正正 正正正正 正 正正正 正正正 正正 正 2 9 11 22 24 27 20 15 11 8 1 150 连续型定量变量频数表的编制 n求全距 n划分组段 n确定组数 n确定组距 n确定各组段的上下限 n统计各组段频数 n计算各组段频率 n计算各组段累计频数和累计频率 2002年某市2029岁正常成年男子的尿酸浓度 (umol/L) 尿酸(umol/L)频频数频频率%累计频计频 数累计频计频 率% 27021.33 21.33 28596.00 117.33 300117.33 2214.66 3152214.67 4429.33 3302416.00 6845.33 3452718.00 9563.33 3602013.33 11576.66 3751510.00 13086.66 390117.33 14194.00 40585.33 14999.33 42043510.67 150100.00 合计计150100.00 频数分布图 n用图形的方法能够直观形象地表达频数分布的信 息,并可与频数表互为补充 n连续型定量变量的频数表可绘制成直方图 频数分布表和频数分布图的主要用途 p揭示频数分布的特征 p揭示频数分布的类型 频数分布的特征 n集中趋势(central tendency) 一组数据向某一个位置聚集或集中的倾向 n离散趋势(dispersion tendency) 一组数据的分散性或变异度,即各个数据 离开集中位置的程度 频数分布的类型 n对称分布:如正态分布 n不对称分布(偏态分布): n正偏态分布(positive skew) n负偏态分布(negative skew) 图4.2 2004年我国麻疹患者的年龄分布 正偏态分布 (positive skew) 图4.3 某市219名乳腺癌患者术后康复期生存质量评分的分布 负偏态分布 (negative skew) 揭示资料的分布类型,以便于选用相应的 统计分析方法; 便于进一步计算指标和统计处理; 便于发现某些特大或特小的可疑值。 集中趋势的统计描述 n描述一组同质观察值的平均水平或中心位置 的指标,有众数、均数、几何均数、中位数 、调和均数。 p众数(mode,M0) n指观察值中出现次数最多的数值。 n在一组数据中,可能没有或出现多个M0 ? 表4.1 2005年某市102名高中男生引体向上完成次数的 频数分布 现有2.1,2.2,2.3等3个观察值,求其 均数 1 XnX+ p 均数(mean) n适用条件:对称分布,特别是正态或近 似正态分布的定量资料。 n符号: 表示样本均数,希腊字母表 示总体均数。 p 均数(mean) 计算方法 n直接法 n频数表法 2002年某市2029岁正常成年男子的尿酸浓度 (umol/L) 尿酸 (umol/L) 组组中值值频频数f 270277.52555.0 285292.592632.5 300307.5113382.5 315322.5227095.0 330337.5248100.0 345352.5279517.5 360367.5207350.0 375382.5155737.5 390397.5114372.5 405412.583300.0 420435427.51427.5 合计计-15052470.0 思考 n同一个资料用直接法和频数表法的计算结 果是否相同? n如果取不同的组距或组段数,结果是否一 样? 均数的特性 n各观察值与均数之差(离均差)的总和等于零 n各观察值的离均差平方和最小 n因此,均数是一组观察值最理想的代表值 。 ( a) 均数的应用 n均数反映一组同质观察值的平均水平,并 可作为样本的代表值与其它样本进行比较 。 n均数适用于描述单峰对称分布,特别是正 态分布或近似正态分布资料的集中趋势。 n均数在描述正态分布特征方面具有重要意 义。 思考 n有6份抗体血清的抗体滴度分别为 1:4、1:8、1:16、1:32、1:64、1 :128,求平均抗体效价? =42 ? 几何均数(geometric mean) n适用条件:某些呈正偏态分布,但数据经 过对数变换后呈正态分布的资料(对数正 态分布) n符号:用G表示 计算方法 n直接法: n频数表法: 直接法 n有6份抗体血清的抗体滴度分别为1:4、1:8、 1:16、1:32、1:64、1:128,求平均抗体效 价? 频数表法 表4.3 75名儿童的平均抗体滴度计算表 几何均数的应用 中位数(median) n适用条件:偏态分布资料以及频数分布的 一端或两端无确切数据资料 n符号:P50 或M 百分位数:PX n计算方法 u直接法 un为奇数时, un为偶数时, u频数表法 n例:9名某病病人的生存期(年)分别为:1、1 、2、2、3、4、6、9、15,求平均生存期。 n若在上例中增加一例病人,其生存期为14年, 则其平均生存期为多少年? M3年 M(3+4)/23.5年 308名6岁以下儿童的尿铅值M和Px的计算 50 75 57.14% 26.30% p50100125 累计频数81 中位数的应用 n中位数可用于各种分布的资料,在正态分布资料 中,中位数=均数;在对数正态分布资料中,中 位数=几何均数 n中位数不受极端值的影响,因此,实际工作中主 要用于不对称分布类型的资料、两端无确切值或 分布不明确的资料 例:三组同性别、同年龄儿童的体重(kg) 如下 : n甲组 26 28 30 32 34 n乙组 24 27 30 33 36 n丙组 26 29 30 31 34 思考 问:仅用均数能否完整描述数据的分布特征? 离散程度的统计描述 n离散度指标反映一组同质观察值的变异度; n常用的指标有全距、四分位数间距、方差、 标准差和变异系数; 极差(range,简记为R) n涵义:也称全距。极差大,说明变异程 度大;反之说明变异程度小 n计算: n适用条件:常由于描述单峰对称分布小 样本资料的变异程度或用于粗估一组资 料的变异程度 不足之处 n只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度; 四分位数间距 n四分位数(quartile,简记为Q) 通过P25,P50,P75将全部观察值等分为四部分 nP25下四分位数,用 表示 nP75上四分位数,用 表示 n四分位数间距(inter-quartile range)为上、下四 分位数之间的差值,即 四分位数间距的计算 例4.13 用例3.9的资料求150名某食物中毒潜伏期的 四分位数间距。 = 34.58-15.11=19.47天 四分位数间距的适用条件 n常用于描述偏态分布资料、两端无确切值或 分布不明确资料的离散程度。 n优缺点:四分位数间距较全距稳定,但 仍未考虑全部观察值的变异度。 方差(variance) n为了全面考虑每个观察值的变异情况,克服 全距和四分位数间距的缺点,引入了“方差” 自由度自由度 自由度 n随机变量能够自由取值的个数 n符号为 , 读作nju:。 n例:ABC,共有n=3个元素,其中只能任选2 个元素的值,故自由度n-1=3-1=2。 标准差(standard deviation) n方差的单位是观察值单位的平方,将方 差开平方即得到标准差。总体标准差用 表示,样本标准差用S 表示 n总体标准差 n样本标准差 标准差的计算 n直接法 n频数表法 直接法 7名正常男子红细胞数(1012/L)如下: 4.67,4.74,4.77,4.88,4.76,4.72,4.92, 计算其标准差。 x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46 x2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=159.99 (1012/L) 频数表法 例3.11 计算120名8岁男孩身高的S。 例:三组同性别、同年龄儿童的体重(kg) 如下: 甲组 26 28 30 32 34 s=3.16 乙组 24 27 30 33 36 s=4.74 丙组 26 29 30 31 34 s=2.92 在论文中均数和标准差以 的形式写出。 方差和标准差的应用条件 n正态或近似正态分布 变异系数(coefficient of variation) n简记为CV n适用: n比较计量单位不同的几组资料的离散程度 n比较均数相差悬殊的几组资料的离散程度 n计算公式 例 某年某市城区120名5岁女孩身高均数为110.10cm, 标准差为5.90cm;体重均数为17.71kg,标准差为 1.44kg,比较身高与体重的离散程度。 身高 体重 可见,该市城区5岁女孩体重的变异大于身高的变异。 例 某年某市城区120名5岁女孩体重均数为17.71kg ,标准差为1.44kg,同年该地120名5个月女孩体重 均数为7.37kg,标准差为0.77kg,比较其离散程度 。 5岁女孩体重 5个月女孩体重 可见,该市城区5个月女孩体重的变异大于5岁女 孩体重的变异。 描述数值变量分布特征的内容 n分布范围 n集中趋势,集中位置 n离散趋势,离散程度 n是否对称 定量资料的统计描述 n定量资料的频数表和频数图 n集中位置的统计描述 n离散程度的统计描述 描述数值变量的指标的正确选择 n正态或近似正态分布的资料 均数和标准差 n偏态分布的资料 中位数和四分位数间距 n等比级数或对数正态分布的资料 几何均数、对数标准差 练习题 1.下面有6只中年大鼠x1谷丙转氨酶(u/L,x1)和x2白蛋白含 量(g/L,x2)的测定结果如下: 鼠号 1 2 3 4 5 6 x1 38.5 36.0 41.1 39.1 43.2 64.8 x2 28.0 26.0 30.0 24.0 28.0 30.0 选用哪个指标,能简捷而粗略的评价两组数据的变异程度大 小。 A 标准差 B 变异系数 C 全距 D 四分位间距 2.原始数据分布不明时,表示集中趋势的指标 A.几何平均数合理 B.均数合理 C.中位数合理 D.几何均数和中位数都合理 3.某医院对30名麻疹易感儿童经气溶胶免疫一个月后,测得其血 凝抑制抗体滴度,结果如下,最合适描述其集中趋势的指标是: 抗体滴度: 1:8 1:16 1:32 1:64 1:128 1:256 合计 例 数: 2 6 5 11 4 2 30 A. 均数 B. 几何均数 C. 百分位数 D. 中位数 E. 标准差 4.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、 30、2、l0、2、24 (小时),问该食物中毒的平均潜伏期 为多少小时: A. 5 B. 5.5 C. 6 D. lO E. 12 5.做频数表时,以组距为5,下列哪项组段划分正确: A0,5,10, B05,510,10, C5,10,15, D04,59,10, E5,7,9, 6.一组计量资料中,每个变量值与其均数均数之差的平方和、 除以变量的个数-1,再开平方所得的值为: A方差 B全距 C四分位数间距 D标准差 E变异系数 医学统计学医学统计学 (Medical StatisticsMedical Statistics) The end ! 正态分布及其应用 n正态分布的概念和特征 n标准正态分布 n正态分布的应用 正态分布的概念 n概念:正态分布(normal distribution )是高峰位于中央(均数所在处)、两侧逐 渐降低且左右对称、不与横轴相交的倒钟 型光滑曲线,也叫高斯分布。 n如身高、体重、红细胞数、血红蛋白等。 正态分布的密度函数,即正态曲线的方程为: N(,2) 图 正态分布位置参数 变化示意图 图 正态分布变异度 变化示意图 正态分布的特征 n正态分布以均数为中心,左右对称,均 数处最高 n正态分布有两个参数,即位置参数和 形态参数,用N(,2)表示 如XN(1.672, 0.2982) n正态曲线下的面积分布有一定的规律 XN( , 2) ,就能按公式求得曲线线下(x1, x2)范围围 内的面积积 正态态曲线线与横轴间轴间 的面积积恒等于1或100%; 以直线为对线为对 称轴轴,各占50%; 曲线线下,区间间 的面积为积为 95.00% ,区间间 内的面积为积为 99.00%。 n正态分布是一个分布族,不同正态分布的 (x1, x2)范围内的面积不同。 n当=0,=1时的曲线N(0, 1)(标准正态分 布) 正态分布和标准正态分布之间有何 联系? 能否把所有的正态分布都转化为标 准正态分布? 思考 标准正态变换 nX向左平移 个单位后再缩小 倍,即按上 式进行变量代换得到标准正态分布ZN(0, 1) Z1,Z2,Z3,Z4 z分布(标准正态分布) 0 0Zx ZN(0, 1) Z f (x) 图图4.5 不同 和 的正态分布示意图 x 标准正态曲线下面积的分布规律 n曲线下横轴上的总面积为100%或1 n采用“定积分法”可求出标准正态变量-到z 的面积(查附表1) 查附表1时注意事项 p表中曲线下面积为-到-z的面积 p当分布不是标准正态分布,但已知,和 X时,先按式 求得Z值,再查表求 得曲线下某区间的面积 图 查表求标准正态曲线下(z1, z2)范围内面积示意图 Z1 Z2 0 n例4.19 已知 , ,求标准正 态曲线下范围内的面积。 n常用的三个区间 1.65区间面积占总面积(或总观察例数)的90%。 1.96区间面积占总面积(或总观察例数)的95%。 2.58区间面积占总面积(或总观察例数)的99%。 正态分布的应用 n估计总体变量值的频率分布 n制定医学参考值范围 n质量控制 n正态分布是许多统计方法的理论基础 估计总体变量值的频率分布 n例4.21 已知120名9岁岁男孩的肺活量 , 欲估计该计该 市肺活
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤矿支护考试题及答案
- 数学旋转考试题及答案
- 康复治疗面试题及答案
- 储能系统运维安全手册
- java自增自减面试题及答案
- 家电公司采购合同管理办法
- 西藏环卫工人考试试题及答案
- 海曙社工面试题及答案
- 咸宁叉车考试题及答案
- 物理磁学考试题及答案
- 2025汽车智能驾驶技术及产业发展白皮书
- 苯职业病防护课件
- 2025年铸牢中华民族共同体意识基本知识测试题及答案
- 2025年湖北省中考道德与法治真题(解析版)
- 2025-2030年中国胃食管反流病行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国苯丙酮尿症(PKU)行业市场发展趋势与前景展望战略研究报告
- 2025至2030年中国PA10T行业市场竞争态势及未来前景分析报告
- 催收新人培训管理制度
- DZ/T 0089-1993地质钻探用钻塔技术条件
- 2025-2030中国铁路道岔行业市场现状供需分析及投资评估规划分析研究报告
- 特种设备安全法培训课件
评论
0/150
提交评论