医学统计学 定量资料的统计描述课件_第1页
医学统计学 定量资料的统计描述课件_第2页
医学统计学 定量资料的统计描述课件_第3页
医学统计学 定量资料的统计描述课件_第4页
医学统计学 定量资料的统计描述课件_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 定量资料的统计描述 引子 统计学 例2 2抽样调查某地120名18 35岁健康男性居民血清铁含量 mol L 数据如下 目的 提取该组男性居民血清铁的分布信息 问题1 该组男性血清铁是怎样分布的 问题2 血清铁主要集中在哪个范围 问题4 变异情况 最高 最低 问题3 该组男性血清铁的平均水平 离散趋势 统计描述 从数据资料中获取信息最基本的方法 把握资料基本的特征为统计分析打下基础 包括 第一节频率分布表与频率分布图 频数 frequency 指在一个抽样资料中 某变量值出现的次数 一 离散型定量变量的频率分布 例2 11998年某山区96名孕妇产前检查次数资料 频率分布表 frequencydistributiontable 将当变量值的个数较多时 对各变量出现的频率列表即为频率分布表 简称频率表 频率是表示频数出现机率的指标 可用百分数或小数表示 频率的和为100 或1 频数表作用 简化数据 方便阅读 显示数据的分布类型和分布特征 频率直条图 frequencydistributionfigure 根据频数分布表 以变量值为横坐标 频数为纵坐标 绘制的直方图 图2 1某地96名妇女产前检查次数频率分布 例2 2抽样调查某地120名18 35岁健康男性居民血清铁含量 mol L 数据如下 步骤 求全距 Range 简记R 是一组资料中最大值 Xmax 与最小值 Xmin 之差 亦称极差 R Xmax Xmin 29 64 7 42 22 22 mol L 2 定组距 将全距分为若干段 称为组段 每个组段有其上限和下限 上限和下限之差为组距 用小写i表示 原则 1 组段 数一般为10个左右 2 一般用等距分组 3 组距 一般为R 10取整 本例题 组距 i 全距 预分组段 22 22 10 2 22 2 3 写组段 即确定各组段的上 下限 原则 1 第一组段要包括Xmin 最末组段包括Xmax 2 每组段均用下限值加 表示 最终组段同时注明上下限 注 各组段连续但不能重叠 每一组段均为半开半闭区间 0 4 列表划记 用划记的方法整理原始资料 清点各组段内的数据频数 表2 2120名正常成年男子血清铁含量 mol L 频数 另 用计算各组段的频率 累计频数和累计频率 频率直方图 frequencydistributionfigure 图2 2120例健康成年男子血清铁含量 mol L 的频率分布图 7911131517192123252729 频率密度图 以变量值为横坐标 以频率与组距的比值为纵坐标作出的直方图 1 由于该直方图的纵轴表示在每个组段内单位长度所占有的频率 相当于频率密度 因此将此图称为频率密度图 面积 频率由于频率总和为100 或1 故该曲线下横轴面积为100 或1 三 频率分布表 图的用途 1 揭示资料的分布类型 频数分布 偏峰分布 正偏 负偏 集中部位在中部 两端渐少 左右两侧的基本对称 为对称 正态 分布 对称分布 集中部位偏于较小值一侧 左侧 较大值方向渐减少 为正偏峰分布 集中部位偏于较大值一侧 右侧 较小值方向渐减少 为负偏峰分布 2 描述资料的分布特征 离散趋势 tendencyofdispersion 集中趋势与离散趋势结合能全面反映频数的分布特征 集中趋势 centraltendency 7911131517192123252729 4 样本含量足够大时 以频率作为概率的估计值 3 便于发现某些特大或特小的可疑值 5 作为陈述资料的形式 图3 1某市101名8岁男童身高 cm 的频数分布 身高 cm 频数 第二节描述集中趋势的统计指标 算术均数几何均数中位数 集中趋势 用于描述一组计量资料的集中位置 说明这种变量值大小的平均水平 常用平均数 average 表示 注意 1 同质的事物或现象才能求平均数 平均数 应根据资料分布状态选用适当的均数 一 算术平均数 arithmeticmean 简称 均数 mean 使用条件 数据分布比较均匀呈正态分布或近似正态分布 样本均数用符号 X表示 总体均数用符号 表示 计算方法有两种 直接法 小样本 和加权法 大样本 举例 某地10名18岁健康男大学生身高为 cm 168 7 178 4 170 0 170 4 172 1 167 6 172 4 170 7 177 3 169 7求平均身高 答 1 直接法 方法 将观察值X1 X2 X3 Xn直接相加 再除以观察值的个数n 公式 适用范围 小样本资料 n 30 例2 2抽样调查某地120名18 35岁健康男性居民血清铁含量 mol L 求平均数 2 频率表法 加权法 计算各组段的组中值xi fxi和 fx 答 mol L 频率表法 方法 计算各组段的组中值xi fxi 后除以总频数 f 公式 适用范围 样本含量较大的数据集 算术平均数的适用范围 它适用描述一组性质相同的 单峰 且对称分布的 特别是正态分布的 且观察值之间差异不大的定量资料 此时均数最能反映分布的集中趋势 位于分布的中心 练习 求120例正常人血浆125I T3树脂摄取比值的均数 答 一 编制频数分布表 全距 R Xmax Xmin 1 24 0 78 0 46 1 求全距 R 组距 i 全距 预分组段 0 46 10 0 05 3 定组段 3 划表列记 二 用加权法计算均值 均值 举例 设有5份血清样品 滴度分别为 1 1 1 10 1 100 1 1000 1 10000求其平均滴度 几何均数 二 几何均数 geometricmean G 概念 对一组观察值 先进行对数变换 按算术均数计算方法求其对数值的均数 该均数的反对数值即几何均数 G 使用条件 用于原始数据分布呈偏态分布 等比资料 倍数变化 或对数正态分布资料的平均数的计算 表示符号 G 计算方法 直接法和加权法 1 直接法 方法 将n个观察值 X1 X2 X3 Xn 直接相乘再开n次方 公式 适用范围 小样本资料 用对数形式表示为 举例 设有5份血清样品 滴度分别为 1 1 1 10 1 100 1 1000 1 10000求其平均滴度 答 G 或G lg 1 lg1 lg10 lg100 lg1000 lg10000 5 lg 1 0 1 2 3 4 5 lg 12 100 即 平均滴度为1 100 较好地代表了观察值的平均水平 2 频率表法 公式 适用范围 大样本含量的分组资料或频数表资料 G lg 1 flgX f 答 即52例慢性肝炎患者的HBsAg滴度的几何均数为1 119 75 例2 652例慢性肝炎患者的HBsAg滴度数据如下表示 试计算滴度的平均数 计算几何均数 G 注意事项 1 观察值不能为0 2 观察值不能同时有正有负 3 同一组资料求得的几何均数小于算术均数 练习题 1 有8份血清的抗体效价分别为 1 5 1 10 1 20 1 40 1 80 1 160 1 320 1 640求平均抗体效价 2 有50人的血清抗体效价 分别为 5人1 10 9人1 20 20人1 40 10人1 80 6人1 160求平均抗体效价 解答 1 有8份血清的抗体效价分别为 1 5 1 10 1 20 1 40 1 80 1 160 1 320 1 640求平均抗体效价 答 将各抗体效价的倒数代入公式 所以血清的抗体平均为1 56 57 解答 2 有50人的血清抗体效价 分别为 5人1 10 9人1 20 20人1 40 10人1 80 6人1 160求平均抗体效价 答 将各抗体效价的倒数代入公式 所以该50人的血清抗体效价为1 41 70 中位数 的概念 P50 M 050100 小 大 P0P50P100 中位数 三 中位数 Median M 概念 将原始观察值从小到大排序后 位次居中的那个数叫中位数 用M表示 使用条件 适用于任何分布的定量资料 特别是偏态分布 末端分布有特大特小值或无法确定 甚至分布不清的资料 表示符号 M 计算方法 直接法和加权法 1 直接法 由原始数据计算中位数 举例 有7个人的血压 收缩压mmHg 测定值为 120 123 125 127 128 130 132求中位数 练习 1 某病患者9名 发病潜伏期分别为顺序2 3 3 3 4 5 6 9 16d 求中位数 2 某病患者8名 发病潜伏期从小到大排分别为5 6 8 9 11 11 13 16d 求平均潜伏期 答案 2 用频数表法计算中位数 百分位数 Percentile Px 一个数值 它将原始观察值分成两部分 理论上有x 的值小于Px 另有1 x 的观察值大于Px 故它是一个位置指标 P50 M 百分位数 Px 计算公式 例2 8 50例链球菌咽峡炎患者的潜伏期 小时 如下表示 试计算潜伏期的中位数 P5 P95 答 即 该组潜伏期资料的中位数是54 55小时 3 同样方法 可求P5 P95 练习 求238名正常人发汞值的中位数 和百分位数P25 P75 答案 中位数的特点及应用 特点 中位数是一位置指标 它对信息资料的利用率较低 故准确度不算术均数 几何均数 例2 11998年某山区96名孕妇产前检查次数资料 四 众数 Mode 概念 总体众数指在总体中出现机会最高的数值 样本众数指在样本中出现次数最多的数值 偏峰分布 正态分布 问 算术均数 中位数及众数在以下分布中的大小关系 第三节描述离散趋势的统计指标 举例 有三组数据 A组 26 28 30 32 34B组 24 27 30 33 36C组 26 29 30 31 34 集中 说明集中趋势是数据分布的一个重要特征 但单有集中趋势指标还不能很好地描述数据的分布规律 而且还要看数据的变异程度 观察值的离散趋势 离散程度大说明均数代表性差离散程度小说明均数代表性好 离散趋势 用于描述一组数值变量观察值之间参差不齐的程度 即变异程度 包括 极差 Range R 四分位数间距 Quartile Q 方差 Variance 标准差 Standarddeviation S2 变异系数 Coefficientofvariation CV 一 极差 Range 简称R 计算 R 最大值 最小值 Xmax Xmin 意义 反映观察值的全范围 条件 对各种分布类型资料都适用 优点 计算简单 方便使用 缺点 只利用最大值和最小值的信息 不能反映其它观察值的变异情况 建议 与其他离散指标共同使用 2 样本例数越多 抽到极大值和极小值的可能性越大 故样本例数悬殊时不易比较极差 极差的缺点 1 R只考虑最大值和最小值之差 不能反映组内其它观察值的变异度 3 即使样本例数不变 极差的抽样误差亦较大 即不够稳定 四分位数间距 Quartilerange 用Q表示 小 大 1255075100 P1P25P50P75P100 QL QU 下四分位数上四分位数 QU QL 四分位数间距 二 四分位数间距 uartile 简称 计算 P75 P25 意义 中间一半观察值的极差 条件 对各种分布类型的资料都适用 但常用于偏峰分布资料 优点 类似 值但比其稳定 缺点 仍未考虑资料中每个观察值的变异度 建议 与其他离散指标共同使用 例2 8 50例链球菌咽峡炎患者的潜伏期 小时 如下表示 试计算潜伏期的四分位数间距 四分位数间距Q QU QL P75 P25 2 求P25 P75 1 求P25 P75 Q P75 P25 73 20 40 91 32 29 小时 三 方差 Variance 简称 公式及来源 极差和四分位间距未考虑全部观察值的变异度 应考虑总体中每个变量值x与总体均数 之差 x 称为离均差 为解决这个问题 给每项离均差平方后再相加 称离均差平方和 即 x 2 可表示为SS或Lxx 但每个变量值与均数相减所得差值有正有负 有 这样就不能反映变异的大小 甲 2628303234 证明 x 2的大小 除与变异度有关外 还与观察值的个数 N 有关 为在N不等时进行比较 x 2还要除以N 所得值在就称为方差 又称均方差 meansquaredeviation 用Var X 用 2表示 总体方差 以样本均数代表 用样本例数n代表总体例数N 所得方差称样本方差 用S2表示 n 1 称为自由度 degreeoffreedom 用希腊字母 nju 表示 表示随机变量能够自由取值的个数 方差 分总体方差 样本方差S2 计算 意义 克服了 值和Q值的不足 考虑了每个变量值的离散情况并消除了 的影响 优点 全面地考虑每个变量值的离散情况 缺点 其单位是原度量单位的平方 总体方差 样本方差 四 标准差 Standarddeviation SD或S 方差的单位是原度量单位的平方 不便使用 将方差公式展开 并开方 即得到另一个重要的离散趋势的指标 即标准差 简写为S 公式来源 总体标准差 样本标准差 标准差的计算 利用 a b 2展开原理 直接法 频数表法 举例分别求A B C三组数据的标准差 A组 26 28 30 32 34B组 24 27 30 33 36C组 26 29 30 31 34 1 直接法 用于小样本资料 2 频数表法 用于大样本资料或频数表资料 例2 2求120名18 35岁健康男性居民血清铁含量的标准差 答 五 变异系数 简称CV 概念 是同一组资料的标准差与均数之比 又叫变异度或离散系数 计算 实际含义 标准差相对于同组均数的百分比 优点 CV消除了度量衡单位 用于比较1 单位不同的多组资料的变异度 2 均数相差悬殊的多组资料的变异度 身高 体重 说明其体重的变异度大于身高的 即身高比体重稳定 例2 15 某1985年通过十省调查得知 农村刚满周岁的女童体重均数为8 42kg 标准差为0 98kg 身高的均数为72 4cm 标准差3 0cm 试问其体重 身高的哪个指标更稳定些 例2 试分析下组资料变异程度的变化趋势 附表某地不同年龄儿童身高 cm 的变异度 第四节描述分布形态的统计指标 频数分布 偏峰分布 正偏 负偏 集中部位在中部 两端渐少 左右两侧的基本对称 为对称 正态 分布 对称分布 集中部位偏于较小值一侧 左侧 较大值方向渐减少 为正偏峰分布 集中部位偏于较大值一侧 右侧 较小值方向渐减少 为负偏峰分布 一 偏度系数 coefficientofskewness SKEW 二 峰度系数 coefficientofkurtosis SURT 意义 小结 为描述定量变量的分布规律 可将观察值编制频数表 绘制频数分布图 要描述资料的分布特征 集中趋势及离散趋势 和分布类型 集中趋势描述的主要指标是平均数 常用平均数及其适用资料 3 描述频数分布离散程度的指标有 极差与四分位数间距 后者较稳定 但均不能综合反映个观察值的变异程度 适用于各种分布类型的资料 但更常用于描述偏峰分布资料 方差和标准差最常用 对正态分布尤重要 变异系数 可用于多组资料间单位不同或均数相差较大时 变异度的比较 注意 变异指标的大小这与平均指标值的大小无关 4 平均指标和变异指标相结合 能对各种分布的资料作很好的描述 5 常用描述资料分布形态的统计指标包括偏度系数与峰度系数 符号小结 总体均数 样本均数 总体标准差 S 样本标准差 n 1 自由度 Px 第X位百分位数 M 中位数 f 频数 n 样本含量 R 全距 i 组距 G 几何均数 CV 变异系数 QU QL 四分位数间距 学习要求 了解频数分布表的编制方法及应用 掌握定量变量资料的集中趋势 离趋势常用描述指标 及各自的适用范围 掌握正态分布资料 及偏峰分布资料的分布特征 分布类型的描述方法 案例讨论 1 某市1974年测定的238人的发汞值 mol Kg 检测结果如下表示 试进行统计描述 2 为描述其集中和离散趋势 某研究者采用均数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论