




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章数值变量资料的统计描述 第一节数值变量资料的频数表 频数就是观察值的个数 频数分布就是观察值在其取值范围内分布的情况 要了解数值变量资料的分布规律 当观察单位较多时 可编制频数分布表 简称频数表 和绘制直方图 一 频数表 frequencytable 的编制 1 找出观察值中的最大值 Max 最小值 Min 和极差 R R Max Min2 确定组段数 即组数 组距 频数表一般设8 15个组段 组距 classinterval R 组段数 往往取近似值 3 确定组段 列表划记 每个组段的起点称下限 终点称上限 第一组段要包括最小值 最后一个组段要包括最大值 各组段从本组段的 下限 开始 不包括本组段的 上限 最末一组段应同时写出其上下限 例2 1某市1982年110名7岁男童的身高 cm 资料 112 4117 2122 7123 0113 0108 2118 2108 2118 9118 1123 5118 3120 3116 2114 7119 7114 8119 6113 2120 0119 7116 8119 8122 5119 7120 7114 3122 0117 0122 5119 8122 9128 0121 5126 1117 7124 1129 3121 8112 7120 2120 8126 6120 0130 5120 0121 5114 3124 1117 2124 4116 4119 0117 1114 9129 1118 4113 2116 0120 4112 3114 9124 4112 2125 2116 3125 8121 0115 4121 2117 9120 1118 4122 8120 1112 4118 5113 0120 8114 8123 8119 1122 8120 7117 4126 2122 1125 2118 0120 7116 3125 1120 5114 3123 1122 4110 3119 3125 0111 5116 8125 6123 2119 5120 5127 1120 6132 5116 3130 8 2 1110名7岁男童身高 cm 频数表 二 频数分布的两个特征 从频数表可以看出频数分布的两个重要特征 集中趋势 centraltendency 身高向中央部分集中 以中等身高者居多 是为集中趋势 离散趋势 tendencyofdispersion 从中央部分到两侧频数分布逐渐减少 是为离散趋势 集中和离散趋势是频数分布的两个重要侧面 其可较全面地分析所研究的事物 三 频数分布的类型 对称分布 集中位置在正中左右两侧频数分布大体对称 如正态分布 偏态分布 集中位置偏向一侧 频数分布不对称 正偏态分布负偏态分布不同类型的分布 应采用相应的统计分析方法 四 频数表的用途 1 揭示资料的分布特征和分布类型 2 便于进一步计算指标和统计分析处理 3 便于发现某些错误 第二节集中趋势的描述 平均数 average 是用于描述一组同质的定量变量值集中趋势的一系列指标 它反映一组变量值的平均水平 医学研究中常用的平均数有算术均数 几何均数 中位数 一 算术均数 简称均数mean 总体均数记作 样本均数记作 该指标适用于对称分布 尤其是正态或近似正态分布的资料 计算方法 l直接法 当观察单位的个数不多时可直接计算 公式为 l加权法 当资料中相同观察值的个数较多时 可将相同观察值的个数 即频数f 乘以该观察值X 以代替相同观察值逐个相加 加权法用于频数表资料时 式中 f为组段频数 x为组中值 组中值 例2 2对表2 1资料用加权法求平均身高 计算方法如下 表2 2110名7岁男童身高均数的计算 加权法 二 几何均数 geometricmean 记作G 该指标适用于 变量值呈等比级数关系的资料 如血清抗体滴度的资料 对数正态分布的资料 即某些偏态分布的资料 当将变量值取对数后又呈现正态分布的资料 计算方法 l直接法 当观察单位的个数不多时可直接计算 公式为 l加权法 当资料中相同观察值的个数较多时 如频数表资料 可用下式计算 例2 440名麻疹易感儿接种麻疹疫苗后一个月 血凝抑制抗体滴度见表2 3第 1 2 栏 求平均滴度 表2 3平均滴度的计算lgG 72 2471 40 1 8064G lg 11 8064 64即平均抗体滴度为1 64 抗体滴度 1 人数 f 2 滴度倒数 X 3 lg X 4 flgX 5 2 4 1 4 1 4 0 6021 0 6021 1 8 5 8 0 9031 4 5155 1 16 6 16 1 2041 7 2246 1 32 2 32 1 5051 3 0102 1 64 7 64 1 8062 12 6434 1 128 10 128 2 1072 21 0720 1 256 4 256 2 4082 9 6328 1 512 5 512 2 7093 13 5465 合 计 40 72 2471 计算几何均数应注意的问题 数据中不能有零 数据中不能同时有正值和负值 但若均为负值时 可先去掉负号进行计算 再在计算结果上加上负号 三 中位数 median 和百分位数 percentile 中位数 median 将一组观察值由小到大顺序排列 位次居中的变量值即为中位数 记作M 中位数适用于 明显偏态分布 总体分布型不明的资料 开放型数据 中位数的计算方法 l直接法 先将观察值按大小顺序排列 再按下式计算 n为奇数时n为偶数时l频数表法 当观察值的个数较多时 可先将资料整理为频数表 再按下式计算 式中 L为中位数所在组段的下限 i为频数表中的组距 f为中位数所在组段的频数 为中位数所在组段以前的累积频数 例2 5151例慢性胃炎患者住院时间如表2 4 求其平均住院天数 表2 4151例慢性胃炎患者住院时间的频数分布平均住院天数为16 53天 住院天数 0 15 30 45 60 75 90 105 115 频 数 70 54 16 5 4 1 0 1 百分位数 percentile 以Px表示一个百分位数Px将总体或样本的全部观察值分成两部分 理论上有x 的观察值比它小 有 100 x 的观察值比它大 故百分位数是一个界值 也是分布数列的百等份分割值 P50分位数也就是中位数 因此 中位数是一个特定的百分位数 百分位数计算方法 计算公式 Px L i fx nx fL 式中 L为Px所在组段的下限 i为频数表中的组距 fx为Px所在组段的频数 fL为Px所在组段以前的累积频数 例2 6某市大气中SO2的日平均浓度 g m3 见表2 5第 1 2 栏 分别求第25 75 95百分位数和中位数 表2 5某市大气中SO2日平均浓度的百分位数和中位数计算 计算累计频数及累计频率 见第 3 4 栏 P25 50 25 67 361 25 39 69 12P75 125 25 45 361 75 233 145 97P95 250 25 6 361 95 341 258 12P50 M 100 25 63 361 2 170 104 17 四 平均数指标的正确应用 上述各平均数指标 均有其相应的适用条件 应依据资料分布类型和数据情况正确选用 一般情况下可通过对同一资料中几个指标间的关系 粗略判断资料的分布类型 对称分布 尤其是正态分布资料中 均数与中位数相接近 即 偏态分布时 均数与中位数相差较大 对某一偏态分布资料 若其中位数与几何均数接近 即 则说明此资料为对数正态分布资料 总之 对称分布 尤其正态或近似正态分 资料应首选均数 对数正态分布资料应首选几何均数 其它分布情况则使用中位数 第三节离散程度的描述 集中趋势和离散趋势是频数分布的两个重要特征 要把两者结合起来才能全面地认识事物 离散趋势分析实例 例2 7三组同性别 同年龄儿童的体重 Kg 如下 分析其集中趋势与离散趋势 甲组2628303234甲 30Kg乙组2427303336乙 30Kg丙组2629303134丙 30Kg三组数据的集中位置都是30Kg 但三组数据的离散程度不同 这在分析资料时不能不加以考虑 说明离散程度的指标有极差 四分位数间距 方差 标准差 变异系数等 其中方差 标准差最为常用 一 极差 亦称全距range 它反映一组观察值的波动范围 记作R 该指标适用于任何分布类型的资料 但因其只受两侧极端值的影响 故反映一组观察值的变异程度时较粗糙 二 四分位数间距 quartile 四分位数间距 quartile 记作Q 公式表达为 Q QU QL式中 QU为上四分位数 即P75 QL为下四分位数 即P25 四分位数间距可看成中间一半观察值的极差 它和极差类似 数值越大说明变异度越大 如例2 6中 P25 69 12 g m3 P75 145 97 g m3 故其四分位间距为Q QU QL 145 97 69 12 76 85 g m3 该指标的适用条件同中位数 而且通常与中位数 亦称第50百分位数 结合 全面描述偏态及不明分布资料的特征 应用时需注意 当样本含量不够大时 该指标不够稳定 故不宜选用 三 方差 variance 总体方差记作 2 样本方差记作S2 计算公式为 该指标常在方差分析中应用 四 标准差 standarddeviation 将方差开平方即为标准差 总体标准差记作 样本标准差记作S 标准差的适用条件与均数相同 而且通常与均数结合全面描述正态或近似正态分布资料的特征 标准差越大 说明变量值越分散 即变异度越大 反之 则说明变量值越集中 即变异度越小 此时样本均数对该组变量值的代表性就越好 样本标准差的计算 直接法 求例2 7中甲 丙两组数据的标准差 甲组n 5 X 26 28 30 32 34 150 X2 262 282 302 322 342 4540S 3 16丙组n 5 X 150 X2 4534 S 2 92 kg 甲组体重的标准差3 16kg 大于丙组的2 92kg 可见甲组的变异度大于丙组 也就是甲组均数的代表性比丙组均数的代表性差 加权法 例2 8求表2 2中110名7岁男童身高的标准差 由表2 2 已知 f 110 fx 13194 再由 3 4 栏相乘后求和 得 fx2 1584990 代入公式得 4 72 cm 五 变异系数 coefficientofvariation 变异系数记作CV 适用条件 两观察指标单位不同 单位相同但均数相差较大 变异系数是相对数 没有单位 计算方法 例2 10
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 期中专题复习-词汇句型训练-2025-2026学年 译林版2024 英语八年级上册 解析卷
- 河南省洛阳市涧西区2024-2025学年三年级下册期末英语试题(含答案无听力原文无听力音频)
- 2025七年级试卷第三单元 秦汉时期:统一多民族封建国家的建立和巩固 单元试卷(含答案)
- 中考语文小说阅读赏练-包利民小说(含解析)
- 达旗安全培训教育基地课件
- 基于数字孪生的仪表系统全生命周期运维模式创新与成本效益悖论
- 城市密集区微型分类屋的适老化设计与无障碍使用场景重构
- 国际能源署标准与本土油气管网能效评价体系兼容性矛盾解析
- 噻吩基丙酮衍生物的绿色合成路径与工业级成本效益平衡研究
- 可降解生物材料在分体筷标准型筷柄中的产业化应用瓶颈分析
- 口腔科病历书写规范课件
- 2025年湖南科技职业学院单招职业适应性测试题库必考题
- 《社会工作伦理》课件:实践原则与案例分析
- 建筑工程三级安全教育内容
- 采购作业流程管理细则
- 泥工 清包合同
- 儿童肥胖症心理干预-全面剖析
- 光伏扶贫项目合同范例
- 2025年人教版七年级下册英语入学考试试卷(含答案无听力原文及音频)
- 心脑血管科普知识
- 高考英语长难句解析省公开课一等奖全国示范课微课金奖课件
评论
0/150
提交评论