




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章数值变量资料的统计描述 2 1数值变量资料的频数表 个体变异的规律性 个体变异 individualvariation 是同质观察对象间表现出的差异 变异是生物体在一种或多种 已知或未知的不可控因素作用下所产生的综合反映 个体变异的规律性 分布 就每个观察单位而言 其观察指标的变异是不可预测的 或者说是随机的 random 就总体而言 个体变异是有规律的 变异规律的体现 分布 distribution 何为分布 刀鱼分布在长江下游水域熊猫分布在温暖多雨的山区 尤以中国西南部 例1 某市1997年12岁男童120人的身高 cm 资料如下 原因 由于个体变异的存在 医学研究中某指标在各个体上的观察结果不是恒定不变的 但也不是杂乱无章的 而是有一定规律的 呈一定的分布 distribution 现状 医学研究得到的原始数据 rawdata 往往是庞大的 混乱的 解决 频数分布表的基本思想 将原始数据按照一定的标准划分为若干各组 合计各组的频数 得到频数分布表 在将频数表绘制成频数分布图 图某市120名12岁男童身高的频数分布 2 频数表的用途 可揭示资料的分布特征和分布类型分布类型 对称 均数在正中 左右频数对称偏态 正偏态 如以儿童为主的传染病的患者年龄负偏态 如一些慢性病的患者年龄 120名7岁男童身高的频数分布图 对称分布 人数 发汞含量 mol kg 239人发汞含量的频数分布 偏态分布 人数 自评分 某城市892名老年人生存质量自评分的频数分布 偏态分布 人数 生存时间 月 102名黑色素瘤患者的生存时间频数分布 人数 死亡年龄 岁 某地某年10000例死亡者年龄分布 2 频数表的用途 进一步计算其它统计指标和统计分析处理 便于发现某些可疑值弃却最大一个数Xn 若r Xn Xn 1 Xn X1 1 3弃却最小一个数X1 若r X2 X1 Xn X1 1 3 2 频数表的用途 2 2集中趋势的描述 平均数 average 平均数用来说明某种现象或事物数量的中等水平 求平均数必须注意 同质的事物或现象才能求平均数 由资料的分布选用适当的平均数 一 算术均数 arithmeticmean 1 计算方法一 直接法样本观察值X1 X2 Xn 例10名7岁男童体重 kg 分别为 17 3 18 0 19 4 20 6 21 2 21 8 22 5 23 2 24 0 25 5 求平均体重 2 计算方法二 加权法 加权均数 weightedmean 均数是加权均数的一个特例 均数的特性 各离均差Xi 之和 0即 X 0 适用于对称分布资料 尤其是正态分布资料 对于偏态资料则不理想 二 几何平均数 geometricmean 1 适用范围 某些医学资料 如抗体的滴度 率或比的变化速度等 频数分布明显偏态 尤其适用于一些对数正态分布资料要求观察值中不能有0 且不可正负值均有 2 计算方法 直接法 例5人的血清滴度为1 2 1 4 1 8 1 16 1 32 求平均滴度 先求平均滴度的倒数 平均滴度为1 8 加权法 资料中相同观察值的个数f较多时 如频数表资料 例40名麻疹易感儿接种麻疹疫苗后一个月 血凝抑制抗体滴度如下 求平均滴度 G lg 11 6782 48平均滴度为1 48 三 中位数 median 和百分位数 percentile 1 将一组观察值从小到大排列 位次居中的观察值称为中位数 记作M 百分位数 记Px 将总体或样本的所有观察值分成两部分 理论上有x 的观察值比它小 有 100 x 的值比它大 描述集中位置的指标 百分位数 百分位数 percentile X PX 100 X 50 分位数就是中位数25 75 分位数称四分位数 quartile 2 适用范围 1 描述偏态分布资料的集中位置2 资料呈显著偏态或有个别特大特小值3 一端或两端有不确定的数值 3 计算 直接由原始数据计算中位数将观察值依顺序排列X 1 X 2 X n n奇M X n 1 2 n偶M X n 2 X n 2 1 2 中位数例 9例正常人的发汞值 1 1 1 83 54 24 85 65 97 110 5M 4 810例正常人的发汞值 1 1 1 83 54 24 85 65 97 110 516 3M 4 8 5 6 2 5 2 中位数例 对于某项风险较高的新手术术后的生存时间进行跟踪 共调查了7人 6人死亡之前分别生存了5天 6天 10天 16天 25天 29天 还有一人术后30天随访时仍存活 本资料属于 开口 资料 本例数据已经按从小到大的升序排列 n 7 为奇数 其中位数为16天 用频数表计算中位数和百分位数l按所分组段 由小到大计算累计频数和累计频率 找出Px所在的组段l求百分位数其中fx为Px所在组段的频数i为该组段的组距 L为其下限 fL为小于L各组段的累计频数 四 众数 mode 指一组观察值出现次数最多的值 观察例数较少时 众数无实际意义 一组观察值可能有几个众数 2 3离散程度的描述 平均数并不能使我们全面地认识事物 只用平均数描述资料的弊病 甲组2629303134均数30kg乙组2427303336均数30kg丙组2628303234均数30kg 只用平均数描述资料的弊病 IthasbeensaidthatafellowwithonelegfrozeniniceandtheotherleginboilingwateriscomfortableONAVERAGE 一 全距 range 极差R max min 优点 简单缺点 只用到最大 最小值 样本信息没能充分利用 当资料呈明显偏态时 最大 最小值不稳定 样本例数越多 R可能越大 2组观察值例数悬殊时不用R比较 二 四分位间距 inter quartilerange Q 极差不稳定 主要是受两端的极值影响 所以有人建议将两端数据截去一定比例 如各去掉25 Q p75 p25 Qu QL用于偏态分布 三 方差 variance 2 总体方差 2 在样本中 未知 常用替代 S2 四 标准差 standarddeviation 总体标准差 样本标准差 n 1 自由度 degreeoffreedom 例求甲 丙两组数据的标准差 甲组2629303134乙组2427303336丙组2628303234极差方差标准差甲组88 502 92乙组1222 504 74丙组810 003 16 五 变异系数 coefficientofvariation C V 适用于各组观察值单位不同或单位虽同而平均数相差很大的情况 例如1同年龄同性别学生的身高和体重两组观察值 2同年龄同性别学生的身高和胸围两组观察值 3不同年龄儿童的身高的几组观察值 例某地不同年龄女童的身高资料如下 比较不同年龄身高的变异程度 表某地不同年龄女童身高 cm 的变异程度 不同指标间变异度的比较 正确应用 1 算数均数 适用于单峰对称分布资料 几何均数 适合于作对数变换后单峰对称分布资料 中位数和百分位数 适用于任何分布的资料 中位数和百分位数在样本含量较少时不稳定 越靠两端越不稳定 中位数在抗极端值的影响方面 比均数具有较好的稳定性 但不如均数精确 因此 当资料适合计算均数或几何均数时 不宜用中位数表示其平均水平 不同质的资料应考虑分别计算平均数 正确应用 2 极差不稳定 不灵敏标准差的基本内容是离均差 它显示一组变量值与其均数的间距 故标准差直接地 总结地 平均地描述了变量值的离散程度 在同质的前提下 标准差大表示变量值的离散程度大 即变量值的分布分散 不整齐 波动较大 反之 标准差小表示变量值的离散程度小 即变量值的分布集中 整齐 波动较小 变异系数派生于标准差 其应用价值在于排除了平均水平的影响 并消除了单位 平均数与变异度 均数 标准差 min max 中位数 四分位数间距 min max 变异
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论