定量资料的统计描述_第1页
定量资料的统计描述_第2页
定量资料的统计描述_第3页
定量资料的统计描述_第4页
定量资料的统计描述_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二讲定量资料的统计描述 杨土保教授博士中南大学公共卫生学院流行病与卫生统计学系2010 03 12 主要内容 频数分布表和频数分布图集中位置的描述离散程度的描述正态分布及其应用 频数与频数分布 频数与频数分布频数 某个测量值的个 例 数 频数分布表 frequencydistributiontable 又称频数表 是将原始数据值适当分组后得到各组的频数 如表4 1频数分布表 适用样本量较大的资料进行统计描述的常用方法 通过频数表可以显示数据分布的范围与形态 可用手工和计算机软件 如SAS SPSS等 方便制作频数表 频数分布表 frequencytable 用途 用于描述资料的分布特征频数 在一批样本中 相同情形出现的次数称为该情形的频数 表4 3某地150名正常成年男子红细胞数 1012 L 1 频数表的编制步骤 1 求极差 range 即最大值与最小值之差 又称为全距 本例极差 R 5 88 3 79 2 09 1012 L 2 决定组数 组段和组距 根据研究目的和样本含量n确定 组距 极差 组数 通常分10 15个组 为方便计 组距参考极差的十分之一 再略加调整 本例i R 10 2 09 10 0 209 0 2 3 列出组段 第一组段的下限略小于最小值 最后一个组段上限必须包含最大值 其它组段上限值忽略 4 划记计数 用划记法将所有数据归纳到各组段 得到各组段的频数 频数与频数分布 离散型定量变量的频数表某市2005年进行学生体质评价 抽样调查了102名高中男生引体向上完成次数的情况 根据该资料制作频数表 本次调查资料 引体向上完成次数 是离散型定量变量 所以按变量的取值 次数 为单位分组 再列出各组的频数 如表4 1的第 1 2 栏 就能得到相应的频数表 将各组的频数除以总频数所得的值称为频率 见第 3 栏 某组的累计频数是该组与前面各组频数之和 见第 4 栏 显然 第一组的累计频数等于其频数 最后一组的累计频数等于总例数 累计频数除以总频数所得的值称为累计频率 见第 5 栏 频数与频数分布 表4 12005年某市102名高中男生引体向上完成次数的频数分布 频数与频数分布 例4 2在某市2005年进行的小学生体质评价研究中 测定了120名9岁男孩的肺活量 L 资料如下 根据该资料制作频数表 连续型定量变量的频数表 频数与频数分布 手工编制表4 2步骤 1 计算全距 range R 也称为极差 2 确定组段数与组距 组段数一般可在10 15之间选择 一般当观察值的个数n在50以下时可分5到8组 n在50以上时可分9到15组 实际运用时应根据分析的要求 灵活确定组数 本例n为120 拟分11组 组距 上限 下限 R 预计的组段数 本例如果预计取11个组段 则组距长度可取0 130 两端的组段应分别包含最小值或最大值 3 列表做出如表4 2的表格 将选好的组段顺序地列在 1 列 按照 下限 x 上限 的原则确定每一例数据x应归属的组段 表4 22005年某市120名9岁男孩肺活量 L 频数分布 表4 22005年某市120名9岁男孩肺活量 L 频数分布 频数与频数分布 频数分布图 在表4 2的基础上 可以绘制出图4 1 称为直方图 频率直方图 横轴 男孩的肺活量纵轴 频率密度 即频率 组距 直条面积等于相应组段的频率 在组距相等时 直方图中矩形直条的高度与相应组段的频率成正比 频数与频数分布 图4 12005年某市120名9岁男孩肺活量频数分布 频数与频数分布 对称分布 频数最多的组段在中央 图4 1正偏峰分布 峰向左侧偏移的分布 右侧的组段数多于左侧 为右偏峰分布 图4 2负偏峰分布 峰向右侧偏移的分布 左侧的组段数多于右侧 称为左偏峰分布 图4 3 图4 22004年我国麻疹患者的年龄分布 图4 3某市219名乳腺癌患者术后康复期生存质量评分的分布 频数分布表和频数分布图的主要用途1 揭示频数分布的特征两个重要特征 集中趋势 centraltendency 和离散趋势 dispersiontendency 集中趋势是指一组数据向某一个位置聚集或集中的倾向 离散程度则反映的是一组数据的分散性或变异度2 揭示频数分布的类型两种类型 对称型和不对称型偏态分布 正偏态 positiveskew 负偏态 negativeskew 用频数分布表和频数分布图揭示频数分布的类型和特征 便于选用适当的统计方法 4 便于进一步做统计分析和处理 3 便于发现一些特大或特小的可疑值 计量资料的常用统计指标 集中位置 centraltendency 的描述平均数 average 是描述定量变量集中位置的特征值 用来说明数据的平均水平 它反映了一组资料的 一般 大多数 平常 等情况 平均数是一类统计指标的统称 在医学领域中常用的平均数有算术均数 arithmeticmean 几何均数 geometricmean 和中位数 median 算术均数 适合描述对称分布资料的集中位置 也称为平均水平 其计算公式为 计量资料的常用统计指标 1 直接计算法 计算公式为式中X1 X2和Xn为所有观察值 n为样本含量 希腊字母 读作sigma 为求和的符号 例4 3利用例4 2的120名9岁男孩的肺活量资料 用直接法计算平均肺活量 计量资料的常用统计指标 测得8只正常大鼠血清总酸性磷酸酶 TACP 含量 U L 为4 20 6 43 2 08 3 45 2 26 4 04 5 42 3 38 试求其算术均数 算术均数 4 20 6 43 2 08 3 45 2 26 4 04 5 42 3 38 8 3 9075 U L 计量资料的常用统计指标 2 加权频数表法 计算公式为加权均数直接法均数 1 672 L f为权数 均数的特性各观察值与均数之差 离均差 的总和等于零 各观察值的离均差平方和最小 均数的应用1 均数反映一组同质观察值的平均水平 2 均数适用于单峰对称分布资料 特别是正态分布或近似正态分布的资料 3 均数可用来描述正态分布的特征 计量资料的常用统计指标 几何均数 geometricmean G 适用于观察值变化范围跨越多个数量级的资料 医学研究中的某些资料如血清抗体滴度 细菌计数 体内某些微量元素含量等 其特点是原始观察值呈正偏态分布 但经过对数变换后呈正态或近似正态分布 或者其观察值数值相差极大甚至达到不同数量级 此时若计算均数则不能正确描述其集中位置 宜采用几何均数 geometricmean 其计算公式为 几何均数 几何均数 变量对数值的算术均数的反对数 几何均数的适用条件与实例 适用条件 呈倍数关系的等比资料或对数正态分布 正偏态 资料 如抗体滴度资料 例血清的抗体效价滴度的倒数分别为 10 100 1000 10000 100000 求几何均数 此例的算术均数为22222 显然不能代表滴度的平均水平 同一资料 几何均数 均数 2006年某市卫生监督所对33家商场空气中的细菌密度 个 m3 进行了监测 资料如下 试求其平均密度 频数表资料的几何均数 例4 5 几何均数 反对数 72 2471 40 64 00 几何均数的应用1 几何均数常用于变量值间呈倍数关系的偏态分布资料 特别是变量经过对数变换后呈正态分布或近似正态分布的资料 2 因为0不能取对数 所以数据中若有0则不宜直接使用几何均数 此时可将所有观察值加上一个常数k 使 计算出结果后再还原 即 3 观察值若同时有正 负值 可将所有观察值加上一个常数k 使 计算出结果后再还原 即 观察值若全是负值 计算时可先将负号去掉 得出结果后再加上负号 中位数 median 意义 中位数是将一批数据从小至大排列后位次居中的数据值 反映一批观察值在位次上的平均水平 符号 Md适用条件 适合各种类型的资料 尤其适合于 大样本偏态分布的资料 资料有不确定数值 资料分布不明等 中位数计算公式与实例 先将观察值按从小到大顺序排列 再按以下公式计算 特点 仅仅利用了中间的1 2个数据 p51 例4 6 5人潜伏期 2 3 5 8 20 例为研究燃煤型砷中毒患者体内砷负荷状况 某医学院对17名燃煤型砷中毒患者进行了发砷含量测定 结果为 1 61 1 91 2 24 2 24 2 30 2 60 2 84 3 15 3 33 3 75 3 75 3 75 3 81 4 42 6 42 6 42 14 76 试求其平均含量 例7在前述17名燃煤型砷中毒患者发砷含量的基础上 又测得1名燃煤型砷中毒患者的发砷含量为15 39 求这18名燃煤型砷中毒患者发砷含量的中位数 百分位数法计算中位数 频数表资料百分位数的计算公式为式中LX iX和fX分别为第百分位数所在组段的下限 组距和频数 fL为小于各组段的累计频数 LX为总例数 即为中位数的计算公式 频数表资料的中位数 下限值L 上限值U i fm 中位数Md 例为研究乳腺癌患者术后康复期生存质量的状况 某医院对219名术后康复期乳腺癌患者进行了生存质量测定 结果如表4 4 求平均评分 中位数的应用1 中位数可用于各种分布的资料 在正态分布资料中 中位数等于均数 在对数正态分布资料中 中位数等于几何均数 2 中位数不受极端值的影响 因此 实际工作中主要用于不对称分布类型的资料 两端无确切值或分布不明确的资料 均数 中位数二者关系 正态分布时 均数 中位数正偏态分布时 均数 中位数负偏态分布时 均数 中位数 计量资料的常用统计指标 众数 mode 原指总体中出现机会最高的数值 样本众数则是在样本中出现次数最多的数值 调和均数 harmonicmean H 先求原始数据倒数的算术均数 该算术均数的倒数便称为原数据的调和均数 计量资料的常用统计指标 其计算公式为例接受某种处理的5只小鼠生存时间 分钟 分别为49 1 60 8 63 3 63 6和63 6 试计算其调和均数 小结 集中趋势的描述 平均数 平均数 描述一组变量值的集中位置或平均水平的指标体系 不同的分布使用不同的指标 算术 均数 正态或近似正态或观察值相差不大的小样本资料几何均数 对数正态分布或等比级数资料中位数 一般偏态分布 传染病发病的潜伏期 描述离散趋势的特征数 变异 variation 指标 反映数据的离散度 Dispersion 即个体观察值的变异程度 常用的指标有 1 极差 Range 全距 2 百分位数与四分位数间距PercentileandQuartilerange3 方差Variance4 标准差StandardDeviation5 变异系数CoefficientofVariation 计量资料的常用统计指标 离散程度的描述例某医学院用自编生存质量量表测得三组同年龄 同性别中年知识分子的躯体功能维度得分 资料如下 甲组88910111212乙组56810121415丙组125101518193组的例数都是7例 均数和中位数都是10分 但凭直观就可以发现三组数据变异的程度是不相同的 这在分析资料时须加以考虑 例 设甲 乙 丙三人 采每人的耳垂血 然后红细胞计数 每人数5个计数盘 得结果如下 万 mm3 甲 乙 丙 极差 Range 全距 120 40 20 符号 R意义 反映全部变量值的变动范围 优点 简便 如说明传染病 食物中毒的最长 最短潜伏期等 缺点 1 只利用了两个极端值2 n大 R也会大3 不稳定适用范围 任何计量资料 是参考变异指标 计量资料的常用统计指标 极差是最简单但又较粗略的变异指标 可用于各种分布的资料 但它只涉及两个极端值 没有利用全部数据的信息 不能反映组内其他观察值的变异 同时由于样本含量较大时抽到极大值或极小值的可能性较大 也可能较大 故极差一般常用于描述单峰对称分布小样本资料的离散程度 或用于初步了解资料的变异程度 当样本含量相差较大时 不宜用极差来比较资料的离散程度 例4 10计算例4 9中三组中年知识分子躯体功能维度得分的极差 甲组12 8 4乙组15 5 10丙组19 1 18甲组数据离散程度最小 丙组数据离散程度最大 乙组居中 百分位数与四分位数间距Percentileandquartilerange 百分位数 数据从小到大排列 在百分尺度下 所占百分比对应的值 记为Px 四分位间距 定义 P53 Q P75 P25四分位半间距quartiledeviation QD QR 2 P100 max P75P50 中位数 P25P0 min Px 频数表资料的百分位数 下限值L 上限值U i fm 百分位数Px P25 6 6x 145x25 17 46 8 51 h P75 18 6x 145x75 101 32 19 45 h Q 19 45 8 51 10 94 h 四分位数间距常用于描述偏态分布资料 两端无确切值或分布不明确资料的离散程度 百分位数的应用 确定医学参考值范围 referencerange 如95 参考值范围 P97 5 P2 5 表示有95 正常个体的测量值在此范围 中位数Md与四分位半间距QD一起使用 描述偏态分布资料的特征 定量变量的特征数 3 方差方差 variance 也称均方差 meansquaredeviation 反映一组数据的平均离散水平 离均差 每一个变量值与均数的差值 离均差平方和 sumofsquares 离均差平方后相加得到的值方差 离均差平方和除以得到的值总体方差用表示 样本方差为什么要除以 n 1 数理统计证明 n代替N后 计算出的样本方差对总体方差的估计偏小 对于样本资料 对离均差平方和取平均时分母用n 1代替n 分母为n 1 称为自由度 能自由取值的变量的个数 标准差 标准差 standarddeviation 即方差的正平方根 其单位与原变量X的单位相同 加权法用于频数表资料 例4 16用加权法计算2005年某市120名9岁男孩肺活量的标准差 由表4 2资料计算组中值X 标准差是描述单峰对称分布资料离散程度最常用的指标 标准差大 表示观察值之间变异程度大 即一组观察值的分布较分散 标准差小 表示观察值之间变异程度小 即一组观察值的分布较集中 对于经对数变换后呈正态分布或近似正态分布的资料 应将原始观察值取对数值后计算几何标准差 标准差的计算 方差 3476 48 719 82 150 150 1 0 1503标准差 0 39 1012 L 例4 12 5 变异系数 coefficientofvariation 符号 CV 适用条件 观察指标单位不同 如身高 体重 同单位资料 但均数相差悬殊 意义 挑选指标时变异系数越小 指标越好 P56例4 13 1 比较计量单位不同的几组资料的离散程度例4 17某年某市城区120名5岁女孩身高均数为110 10cm 标准差为5 90cm 体重均数为17 71kg 标准差为1 44kg 比较身高与体重的离散程度 身高体重 2 比较均数相差悬殊的几组资料的离散程度例4 18某年某市城区120名5岁女孩体重均数为17 71kg 标准差为1 44kg 同年该地120名5个月女孩体重均数为7 37kg 标准差为0 77kg 比较其离散程度 5岁女孩体重5个月女孩体重 变异指标小结 1 极差较粗 适合于任何分布2 标准差与均数的单位相同 最常用 适合于近似正态分布3 变异系数主要用于单位不同或均数相差悬殊资料4 平均指标和变异指标分别反映资料的不同特征 常配套使用如正态分布 均数 标准差 偏态分布 中位数 四分位半间距 分布形态特征数描述分布形态的统计量 偏度系数与峰度系数 偏度系数 coefficientofskewness SKEW 理论上总体偏度系数为0时 分布是对称的 取正值时 分布为负偏峰 取负值时分布为正偏峰 样本偏度系数计算公式 峰度系数 coefficientofkurtosis KURT 理论上 正态分布的总体峰度系数为0 取负值时 其分布较正态分布的峰平阔 取正值时 其分布较正态分布的峰尖峭 样本峰度系数 1 正态分布的概念和特征如果随机变量的分布服从概率密度函数 正态分布及其应用 2 正态分布的图形正态分布曲线呈对称的钟形 在均数处最高 两侧不断降低 逐渐与横轴接近 但不会与横轴相交 即以横轴为渐近线 3 正态分布有两个参数 即位置参数 m 和形态参数 s 若固 定 s 改变 m 值 曲线沿着 X 轴平行移动 其 形状不变 若固定 m s 越小 曲线越陡峭 反之 s 越大 曲线越平坦 图4 4概率密度曲线示意图 图4 5不同和的正态分布示意图 图 4 5 1 正态分布形态变换示意图 4 正态曲线下的面积分布有一定的规律 X 轴与正态曲线所夹面积恒等于 1 或 100 区间 的面积为 99 00 见图 图 4 6 正态曲线面积分布示意图 标准正态分布 正态分布是一个分布族 对应于不同的参数 m 和 s 会产生不同位置 不同形状的正态分布 为了应用方便 令 若X服从正态分布 经此变换后 则Z就服从均数为0 标准差为1的正态分布N 0 1 称为标准正态分布 standardnormaldistribution 或Z分布 图4 7查表法求标准正态曲线下面积示意图 例4 19已知 求标准正态曲线下范围内的面积 查附表2 得范围内面积 范围内面积 因此范围内的面积为 正态分布的应用估计总体变量值的频率分布例4 21已知120名9岁男孩的肺活量 欲估计该市肺活量介于1 200 1 500L范围内的9岁男孩的比例 估计该市肺活量在1 200 1 500L范围内的9岁男孩的比例为22 39 制定医学参考值范围参考值是具有明确背景资料的参考人群某项指标的测定值 医学参考值范围 medicalreferencerange 指包括绝大多数正常人的人体形态 功能和代谢产物等各种生理及生化指标观察值的波动范围 一般在临床上用作判定正常和异常的参考标准 制定医学参考值范围的步骤和注意事项如下 确定观察对象和抽取足够的观察单位制定医学参考值范围中的所谓 正常人 不是指机体器官组织和功能都完全健康的人 而是指排除了影响所研究变量的疾病和有关因素的同质人群 一般要求每组应在100例以上 如果影响研究变量的因素较复杂 数据变异度大 还应适当增加样本含量 测定方法应统一 准确决定是否分组制定参考值范围确定取双侧或单侧参考值范围范围选定适当的百分界限 医学参考值范围涉及到采用单侧界值还是双侧界值的问题 这通常依据医学专业知识而定 双侧 血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧 血清转氨酶仅过高异常肺活量仅过低异常 医学参考值范围有 等 最常用的为 计算医学参考值范围的常用方法 正态分布法百分位数法 二 方法 1 正态分布法 许多生物医学数据服从或近似服从正态分布 如同年龄同性别儿童的身高值 体重值 同性别健康成人的红细胞数等 有些医学资料虽然呈偏态分布 但若能通过适当的变量变换转换为正态分布 也可采用正态分布法制定参考值范围 适用 正态分布资料 表4 5参考值范围的制定 例4 22某地调查正常成年男子200人的红细胞数 试估计该地正常成年男子红细胞数的95 参考值范围 因红细胞数过多或过少均属异常 故按双侧估计该地正常成年男子红细胞数的95 参考值范围为 该地正常成年男子红细胞数的95 参考值范围为54 52 1012 L 56 00 1012 L 百分位数法适用各种分布资料特别是偏态分布资料例4 24抽样测定某城市125名55 60岁组健康男性居民的血清低密度脂蛋白 LDL C 含量 mmol L 如表4 6所示 试制定该市55 60岁组健康男性居民的血清LDL C的95 参考值范围 先判定资料的分布类型 根据表4 6可见资料呈负偏态的分布 故应使用百分位数法计算参考值范围 因血清LDL C过高过低均为异常 应制定双侧95 参考值范围 该市55 60岁组健康男性居民的血清LDL C的95 参考值范围为1 49 4 58mmol

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论