计量资料的统计描述(一和二)_第1页
计量资料的统计描述(一和二)_第2页
计量资料的统计描述(一和二)_第3页
计量资料的统计描述(一和二)_第4页
计量资料的统计描述(一和二)_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中南大学2016级研究生 医学统计学 课程授课教师 杨芳副教授中南大学公共卫生学院 第二章计量资料的统计描述DescriptionsofMeasurementData Content FrequencydistributionDescriptionofcentraltendencyMeasuresofdispersionNormaldistributionRangeofreferencevalue 第一节频数分布 一 频数分布表 frequencytable 频数 在一批样本中 相同情形出现的次数称为该情形的频数 频数表 将所有 互相排斥的情形 的频数毫无遗漏地排列在一起 由频数与组段组成 例2 1某医院用随机抽样方法检查了138名正常成年女子的红细胞数 测量结果如下 试编制频数分布表 编制步骤如下 1 求极差 极差 range 也称全距 即最大值和最小值之差 记作R 本例 2 30 2 60 4 分组段划记并统计频数 用划记法将所有数据归纳到各组段 得到各组段的频数 二 频数分布图 三 频数表和频数分布图用途 1 描述频数分布的类型 1 对称分布 若各组段的频数以频数最多组段为中心左右两侧大体对称 就认为该资料是对称分布 2 偏态分布 1 右偏态分布 skewedtotherightdistribution 也称正偏态分布 positiveskewnessdistribution 右侧的组段数多于左侧的组段数 频数向右侧拖尾 2 左偏态分布 skewedtotheleftdistribution 也称负偏态分布 negativeskewnessdistribution 左侧的组段数多于右侧的组段数 频数向左侧拖尾 2 描述频数分布的特征 集中趋势 离散趋势 变化的范围在3 07 5 46 3 便于发现一些特大或特小的可疑值4 便于进一步做统计分析和处理 第二节集中趋势的描述 集中趋势 centraltendency 变量值集中位置 平均水平指标 统计上使用平均数 average 这一指标体系来描述一组变量值的集中位置或平均水平 常用的平均数有 算术均数 arithmeticmean 几何均数 geometricmean 中位数 median 与百分位数 percentile 一 算术均数 算术均数 简称均数 mean 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值 符号 总体样本 1 应用背景 适用于对称分布 特别是正态分布资料 2 计算方法 1 直接计算法公式 例2 2用直接法计算例2 1某医院随机抽查的138名正常成年女子的红细胞数的均数 2 频数表法 公式 式中k表示频数表的组段数 及分别表示各组段的频数和组中值 如表2 1第1个组段的组中值为 其余类推 见表2 1的第 3 栏 在这里 频数起到了 权 weight 的作用 即某个组段频数多 权数就大 其组中值对均数的影响也大 反之 影响则小 例2 3利用表2 1计算138名正常成年女子的红细胞数的均数 二 几何均数 几何均数 geometricmean 可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平 适用于成等比级数的资料 特别是对数正态分布资料 1 应用背景 2 计算方法 直接计算法 公式 或 几何均数 变量对数值的算术均数的反对数 例2 4某地5例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为10 20 40 40 160 求几何均数 同一资料 几何均数 均数 2 加权法 公式 例2 569例类风湿关节炎 RA 患者血清EBV VCA lgG抗体滴度的分布见表2 5第 1 2 栏 求其平均抗体滴度 故该例中类风湿关节炎患者血清EBV VCA lgG抗体的平均滴度为 1 150 6 三 中位数与百分位数 应用背景 1 各种分布类型的资料2 特别是大样本偏态分布资料和开囗资料 一端或两端无确切数值的资料 中位数 median 是将变量值从小到大排列 位置居于中间的那个变量值 例 1 3 7 5 100中位数为多少 一 中位数 中位数计算方法 公式 n为奇数时n为偶数时 例2 67名病人患某病的潜伏期分别为2 3 4 5 6 9 16天 求其中位数 本例n 7 为奇数例2 78名患者食物中毒的潜伏期分别为1 2 2 3 5 8 15 24小时 求其中位数 本例n 8 为偶数 二 百分位数 百分位数 percentile 是一种位置指标将一组数据按照从小到大的顺序排列并等分为100等分 位于第x分位的数叫做第x百分位数 记做一个百分位数将全部变量值分为两部分 在不包含的全部变量值中有的变量值比它小 变量值比它大 百分位数示意图 百分位数 percentile 1 直接计算法 设有个原始数据从小到大排列 设j为整数部分 g为小数部分 则当时 2 7 当时 2 8 例2 9对某医院细菌性痢疾治愈者的住院天数统计 119名患者的住院天数从小到大的排列如下 试求第5百分位数和第99百分位数 患者 123456789 116117118119住院天数 112223445 39404042 用公式2 7计算 得 例2 9对某医院细菌性痢疾治愈者的住院天数统计 119名患者的住院天数从小到大的排列如下 试求第5百分位数和第99百分位数 患者 123456789 116117118119住院天数 112223445 39404042 用公式2 8计算 得 2 频数表法 公式 式中 和 分别为第 X 百分位数所在组段 的下限 组距和频数 为小于 各组段的累计频数 n 为总例数 例2 10某地118名链球菌咽喉炎患者的潜伏期频数表见表2 6第 1 2 栏 试分别求中位数及第25 第75百分位数 百分位数的应用 中位数用于反映一组数据的趋中位置或平均水平百分位数可用来描述资料的观测值序列在某百分位置的水平 小结 集中趋势的描述 平均指标 平均数 描述一组变量值的集中位置或平均水平的指标体系 不同的分布使用不同的指标 算术 均数 正态或近似正态或观察值相差不大的小样本资料几何均数 对数正态分布或等比级数资料中位数或百分位数 一般偏态分布 第三节离散趋势的描述 离散趋势 tendencyofdispersion 变量值围绕集中位置的分布情况 离 中心 位置越远 频数越小 变异水平指标 有两组男子身高如下 其均数相等 问两组身高 特征 是否一样 甲组 170 175 180 185 190均数 180 cm 乙组 160 170 180 190 200均数 180 cm 例2 11三组同龄男孩的身高值 cm 常用统计指标 1 极差 range 全距 2 四分位数间距 quartilerange 3 方差 variance 4 标准差 standarddeviation 5 变异系数 coefficientofvariation 极差 用R表示 即一组变量值最大值与最小值之差 一 极差 优点 简便缺点 1 只利用了两个极端值2 样本量大 R也会大3 不稳定 二 四分位数间距 quartilerange 百分位数数据从小到大排列 在百分尺度下 所占百分比对应的值 记为Px 四分位间距QR P75 P25 P100 max P75P50 中位数 P25P0 min 例2 12续例2 10 已知P25 39 2 P75 67 7 计算118名链球菌咽喉炎患者潜伏期的四分位数间距 天 四分位数间距可以看成大小在中间的一半变量值的全距 R 三 方差与标准差 1 方差 variance 也称均方差 meansquaredeviation 反映一组数据的平均离散水平 样本方差用表示 2 总体标准差用表示公式 样本标准差用表示公式 标准差的公式还可以写成 利用频数表计算标准差的公式为 例2 12续例2 11 计算三组资料的标准差 甲组 例2 13计算表2 1某医院随机抽查的138名成年女子的红细胞数的标准差 1 直接计算法 2 频数表法 四 变异系数 变异系数 coefficientofvariation 记为多用于观察指标单位不同时 如身高与体重的变异程度的比较 或均数相差较大时 如儿童身高与成人身高变异程度的比较 某地7岁男孩身高的均数为123 10cm 标准差为4 71 体重均数为22 59kg 标准差为2 26kg 比较其变异度 观察指标单位不同 1 极差较粗 适合于任何分布2 标准差与均数的单位相同 最常用 适合于近似正态分布3 变异系数主要用于单位不同或均数相差悬殊资料4 平均指标和变异指标分别反映资料的不同特征 常配套使用如正态分布 均数 标准差 偏态分布 中位数 四分位间距 小结 离散趋势的描述 变异指标 第四节正态分布 图2 4直方图逐渐接近正态分布图示意 正态分布 又称为Gauss分布 Gaussiandistribution 设想当原始数据的频数分布图的观察人数逐渐增加且组段不断分细时 图2 4中的直条就不断变窄 其顶端则逐渐接近于一条光滑的曲线 这条曲线形态呈钟形 两头低 中间高 左右对称 近似于数学上的正态分布 在处理资料时 我们就把它看成是正态分布 一 正态分布的概念和特征 1 正态分布曲线的数学函数表达式如果随机变量的分布服从概率密度函数 2 17 2 正态分布的特征 位置参数 决定曲线的位置 形态参数 决定曲线的形态 4 正态曲线下的面积分布有一定的规律 对公式 2 17 积分 2 18 X轴与正态曲线所夹的面积等于1或者100 区间的面积为68 27 区间的面积为95 00 区间的面积为99 00 见图2 7 正态分布是一个分布族 对应于不同的参数和会产生不同位置 不同形状的正态分布 为了应用方便 令 2 19 2 20 二 标准正态分布 即将的正态分布转化为的标准正态分布 standardnormaldistribution 式中的称为标准正态变量 其分布函数为 2 21 u 附表1 p695 就是根据此公式和图形制定的 根据公式2 21可制成附表1 欲求一定区间标准正态分布曲线下的面积只需查表即可 且有 曲线下面积分布规律 查附表1 p707 例2 15对例2 1 例2 2和例2 14已计算出某医院随机抽查的138名正常成年女性的红细胞数均数 标准差试估计正常成年女性的红细胞数 在以下者占正常成年女性总人数的百分比 在之间者占正常成年女性总人数的百分比 在以上者占正常成年女性总人数的百分比 由于此例样本含量大 故用代替 代替 将测量值X 4 0 X 5 00分别代入公式 2 19 得 查附表1得 故正常成年女性的红细胞数在以下者 估计占总人数的30 50 在之间者 估计占总人数的65 14 在以上者 估计占总人数的4 36 正态分布的应用 1 估计医学参考值范围2 估计频数分布3 质量控制4 正态分布是许多统计方法的理论基础 第五节医学参考值范围的制定 一 基本概念医学参考值 referencevalue 是指包括绝大多数正常人的人体形态 机能和代谢产物等各种生理及生化指标常数 也称正常值 由于存在个体差异 生物医学数据并非常数而是在一定范围内波动 故采用医学参考值范围 medicalreferencerange 作为判定正常和异常的参考标准 医学参考值范围涉及到采用单侧界值还是双侧界值的问题 这通常依据医学专业知识而定 双侧 例2 1的红细胞数无论过低或过高均属异常 应采用双侧参考值范围制定下侧和上侧界值 单侧 血清转氨酶仅过高异常 肺活量仅过低异常 应采用单侧参考值范围制定下侧和上侧界值 医学参考值范围有 等 最常用的为 计算医学参考值范围的常用方法 1 正态分布法2 百分位数法 二 方法 1 正态分布法 许多生物医学数据服从或近似服从正态分布 如同年龄同性别儿童的身高值 体重值 同性别健康成人的红细胞数等 有些医学资料虽然呈偏态分布 但若能通过适当的变量变换转换为正态分布 也可采用正态分布法制定参考值范围 适用 正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论