




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2 2 统计资料的整理与描述统计资料的整理与描述原始资料杂乱无章【例例2.1】 2011年某市120名7岁男童身高(cm)资料如下,试编制频数表。分类资料的整理 列出类别,计算频数,列表2.1 频数表频数表资料整理的必要性 条理化,系统化,显示数量特征、分布规律,便于进一步统计分析数值变量资料的整理2.1.1. 频数表的编制 【例例2.1】 2011年某市120名7岁男童身高(cm)资料如下,试编制频数表。频数表的编制方法如下频数表的编制方法如下 :(1)找出观察值中的最大值和最小值,并求出极差极差 (2)决定组段数、组段和组距 确定组段数要以充分反映数据的分布特征为原则 组距26.6/102
2、.66可以参考斯特奇斯(Sturges)提出的经验公式来确定分组数cmcmcmR6 .264 .1170 .144组数极差组距 2lglg1nk(3)列表划记:计算各组段包含的观察单位个数2.1.2 频数分布的图示 图图2.1 2011年某地年某地120名名7岁男童身高的频数分布岁男童身高的频数分布 2.1.3. 频数分布的分析对频数表的分析,主要在于以下几个方面: (1)有无可疑值 通过对频数分布的分析,发现某些特大或特小的离 群值、可疑值 (2)分布的类型 频数分布可分为对称分布和偏态分布两种类型. 不同类型的分布,应采用不同的统计分析方法 对称分布,是指观察值向中央部分集中,以中等数据居
3、多,左右两侧分布大体对称。 如:正常人身高、体重,脉搏,血红蛋白等的分布所谓偏态分布,是指观察值偏离中央所谓偏态分布,是指观察值偏离中央 尾部偏向数轴正侧(或右侧),称正偏态(或右偏态); 如:食物中毒引起腹泻的潜伏期尾部偏向数轴负侧(或左侧),称负偏态(或左偏态) 如:慢性病患者年龄的分布(3)分布特征分布特征 分布的两个重要特征:集中趋势和离散趋势 总体中的个体总是具有同质性,这些同质性使得观察值应趋向同一数值(即集中趋势)。同一总体中的个体之间又普遍存在着各种差别,使得个体观察值不会完全相同。2.2 集中趋势的描述集中趋势的描述平均数反映一组观察值的集中趋势、中心位置或平均水平它是该组数
4、据的代表,能对一群同类事物或现象的数量特征作出概括的说明,是统计学中应用最广泛、最重要的一个指标体系。常用的平均数有(算术)均数,几何均数和中位数 2.2.1 均数均数 均数是算术均数的简称,习惯上用希腊字母 表示总体均数;用 表示样本均数。均数反映一组观察值在数量上的平均水平,最适合单峰对称分布资料的平均水平的描述。1)未分组资料(原始资料)的均数的计算方法: 将所有的观察值直接相加,再除以总观察数nX2)分组资料的均数计算法 有时我们面对的资料不是原始数据,而是经过加工整理后的分组资料。这时用加权法求均数。 iiiikkfXffXfXfXfX2211 式中 fi是第 i 组的频数,fi表示
5、各组段频数之和,即总观察数 n; Xi是第 i 组的组中值,即该组的(下限+上限)/2。 由于只知道有 fi个观察值属于该组段,而不知道具体的数值,故该组的 fi个观察值均以组中值代替。 【例例 2.3 】 求表2.1中资料的均数2.2.2 几何均数几何均数 有些医学资料,如抗体的滴度,细菌计数等,其频数分布呈明显偏态,各观察值之间呈倍数变化(等比关系),算术均数对这类资料集中趋势的代表性就差,这时宜用几何均数反映其平均增(减)倍数。几何均数一般用G表示,适用于各变量值之间成倍数关系,但作对数变换后指标成单峰对称分布的资料。 (1) 未分组资料的几何均数计算法。将 n 个观察值 X1,X2,X
6、n直接相乘 再开 n 次方,即为几何均数。以公式表示: nnXXXG 21 nXininXnXXXGlg121110lglglglglglg【例例2.4 】 5人的血清抗体滴度分别为1:10,1:20,1:40,1:40,1:160,求平均滴度。8 .34160404020105G8 .345160lg40lg40lg20lg10lglg1G(2)分组资料的几何均数计算法。 nXffXfXfXfGiiikklglglglglglg122111 【例例2.5 】 某地107人接种疫苗后抗体滴度见表2.2第(1)(2)栏,求平均滴度。表表2.2 107例试验受试者免疫后麻疹例试验受试者免疫后麻疹H
7、I抗体滴度及平均滴度计算抗体滴度及平均滴度计算计算几何均数时注意 变量值中不能有0,因为0与任何数的乘积均为0,且0不能取对数。 同一组变量值不能同时存在正、负值。 若变量值全为负值,可在计算时将负号除去,算出结果后再冠以负号 2.2.3 中位数与百分位数中位数与百分位数 资料是偏态分布的,资料中的少数数据过分偏大(或偏小),分布不规则,一端或两端有不确定数据(开口资料)时,用中位数表示他们的集中趋势比算术均数合理。 中位数(median,简记为M)是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数百分位数(percentile)是一种位置指标,以 表示,一个百分位数 将总体或样本的
8、全部观察值分为两个部分,理论上有X的观察值比 小,有(100-X)观察值比 大XPXPXPXP中位数与百分位数的计算(1)未分组资料的中位数计算法 设个观察值X1,X2,Xn已按从小到大的顺序排列,则:【例2.6 】 9名沙门菌食物中毒患者的潜伏期(小时)为:2,5,9,12,14,15,18,24,60。求其中位数。为偶数当为奇数当nXXXMnnn2/n12/2/2/1【例2.7】 8名杆菌痢疾治愈者的住院天数如下,求其中位数。 4,9,10,12,14,20,24,61(2)分组资料的中位数和百分位数计算法 百分位数的计算公式:LxxfXnfiLP%例 2.8 157 名杆菌痢病治愈者的住
9、院天数如表 2.3 第(1)(2)栏所示,试计算其中位数及25和 75百分位数。 表 2.3 157 名杆菌痢病治愈者的住院天数 住院天数 治愈人数 累计频数 累计频率(%) (1) (2) (3) (4) 0 3 3 1.9 5 38 41 26.1 10 49 90 57.3 15 24 114 72.6 20 13 127 80.9 25 8 135 86.0 30 7 142 90.4 35 4 146 93.0 40 4 150 95.5 45 1 151 96.2 50 1 152 96.8 55 2 154 98.1 60 1 155 98.7 65 1 156 99.4 70
10、0 156 99.4 75 1 157 100.0 2.3 离散程度的描述离散程度的描述【例例2.9】 三组同性别、同年龄儿童的体重(kg)如下,试分析其集中趋势和离散程度。 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 kgXkgXkgX303030丙乙甲 三组的的均数相同,但显然5个数据间参差不齐的程度是不一样的。二者结合,才能全面全面认识事物。 描述离散程度的指标有极差、四分位数间距、方差、标准差及变异系数 2.3.1. 极差极差极差(range,记为R)亦称全距。即一组数据中最大值与最小值之差。反映个体的变化范围。极差大,说
11、明变异度大;反之,说明变异度小 优点:优点:计算简单,意义明确。 缺点:缺点:1. 除了最大值和最小值外,不能反映组内其它数据的变异程度 ;2. 样本例数悬殊时不宜比较极差;3. 抽样误差较大,极不稳定。 2.3.2 四分位数间距四分位数间距 四分位数四分位数(quartile,记为Q),是特定的百分位数,即P25(下四分位数)和P75(上四分位数) 四分位数间距(inter-quartile range)就是上四分位数与下四分位数之差 QQUQL 四分位数间距可看成中间一半观察值的极差 用四分位数间距反映变异程度的大小 优点:优点:比极差稳定, 缺点:缺点:但仍未考虑全部观察值的变异程度。
12、适用场合:适用场合:如集中趋势用中位数描述,则相应的离散趋势用四分位数间距描述。2.3.3 方差与标准差方差与标准差 离均差 :总体中每个变量值X与总体均数之差,X-,称为离均差 离均差平方和:将离均差平方后再相加,得(X-)2,称为离均差平方和(sum of squares) ,其除了与变异度有关,还与变量值的个数N有关。 总体方差: NX22 方差的度量单位是原变量值度量单位的平方 总体标准差 : 方差标准差越大说明个体的变异度越大;反之,说明个体的变异度就越小NXNii12)( 样本标准差s : 实际计算时用公式:12nXXs1/22nnXXs 分组资料用公式 :1/X22nnfXfs2
13、.3.4. 相对离散度相对离散度为什么要引进相对离散度?常用的相对离散度指标有:极差与中位数之比;四分位数间距(QU-QL)与(QU+QL)之比;而最常用的是变异系数(coefficient of variation,记为CV)。 变异系数(离散系数): 主要用于 :1. 度量衡单位不同的几组资料间的比较 2. 均数相差悬殊的几组资料间的比较 %100XsCV注解:”来表达。四分位数间距适合用“中位数布。此类资料可以认定资料呈偏态分或远大于均数,若计算出的标准差大于正态分布的资料是用来表达呈标准差平均数;sx 2.4 分类资料的率和比分类资料的率和比分类资料常用的描述性指标是相对数表表 2.4
14、 某市某年各区急性传染病发生数及其相对数某市某年各区急性传染病发生数及其相对数 市区市区 年平均年平均 人口数人口数 急性传染急性传染病发生数病发生数 各区与各区与 I 区区 发病数之比发病数之比 各区急性传染病各区急性传染病发生数构成 (发生数构成 (%) 各区急性传染各区急性传染病发病率 (病发病率 (1/万)万) (1) (2) (3) (4) (5) (6) I 636723 2433 18.9 38.21 II 389540 3033 1.25 23.5 77.86 III 699712 1650 0.68 12.8 23.58 IV 328363 1503 0.62 11.6 45
15、.77 V 286967 1282 0.53 10.0 44.67 VI 317504 1853 0.76 14.4 58.36 VII 153838 1130 0.46 8.8 73.45 合计合计 2812647 12884 100.0 45.81 2.4.1 比比 (相对比相对比 )比亦称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几。 比A/B例如:新生婴儿(全人口)性别比,医护比,病床数与医护人员之比,医院的门诊人数与病床数之比,发展速度和增长速度等等。2.4.2 2.4.2 构成比构成比 说明一种事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为: 如:
16、班级女生比例,不及格比例,死因构成比%100观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比2.4.3 2.4.3 率率u如:流感发生有季节性;南部非洲是爱滋病的重灾区,说明现象发生的强度是有差异的 说明某现象发生的频率或强度.常以百分率()、千分率()、万分率(1/万)、十万分率(1/10万)等表示。计算公式为: 比例基数的选取:至少保留一二位整数 医学中有些频率指标的定义并不符合率的定义)比例基数(单位总数可能发生某现象的观察单位数实际发生某现象的观察率K2.4.4. 2.4.4. 应用相对数时应注意的问题应用相对数时应注意的问题1.1. 计算相对数的分母不宜过小计算相对数的
17、分母不宜过小 原理:频率的稳定性 实际应用中,如果观察例数小于20时,都不宜计算相对数。 发生率的大小对抽样研究中的样本的大小有指导意义 设计的周密程度,实验条件的严格控制不同时对研究对象的例数要求不同2.2.分析时不能以构成比代替率(强度相对数)分析时不能以构成比代替率(强度相对数) 构成比(构成相对数)只能说明事物各组成部分的比重,并不说明某现象发生的频率或强度3.3.当各分组的观察单位数不等时当各分组的观察单位数不等时,不能直接将各不能直接将各分组的率相加求其平均而成为总率分组的率相加求其平均而成为总率 4.4.对比时应注意资料的可比性对比时应注意资料的可比性 除研究因素外,其他的重要影
18、响因素应相同或相近 观察对象同质,时间相近,研究方法相同,以及地区、民族等客观条件一致 其它影响因素在各组的内部构成应相近2.4.5 2.4.5 标准化法标准化法(1)(1)标准化法的概念标准化法的概念 当比较两类事物的总率时,如果此两同类事物的内部构成,特别是某项能影响指标水平的重要特征在构成上不同,往往会造成总率的上升或下降,在这种情况下,冒然进行两总率的比较,会产生错误的结论,此时,必须设法消除这种内部构成上的差别,才能进行比较。统计学上特将这种方法称为率的标准化,即采用统一的标准对内部构成不同的各组频率进行调整和对比的方法,调整后的率为标准化率,简称为标化率,亦称调整率。 表表 2.5
19、 某市某市甲乙两甲乙两院院各各科出院和治愈人数科出院和治愈人数 甲甲 院院 乙乙 院院 科室科室 出院人数出院人数 治愈人数治愈人数 治愈率治愈率(%) 出院人数出院人数 治愈人数治愈人数 治愈率治愈率(%) (1) (2) (3) (4) (5) (6) (7) 内科内科 876 295 33.67 329 104 31.61 外科外科 305 292 95.74 702 657 93.59 妇科妇科 564 492 87.23 591 501 84.77 儿科儿科 329 301 91.49 263 233 88.59 合计合计 2074 1380 66.54 1885 1495 79.31 表 2.6 计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 行政管理经济法必考题总结
- 2025年市政工程计划与管理试题及答案
- 经济法考试技巧与试题及答案
- (高清版)DB35∕T 2228-2024 科技成果转化效果评估导则
- 行政管理与公共关系的互动性探讨试题及答案
- 2025-2030年集装箱制造行业市场发展分析及政策建议与策略研究报告
- 2025-2030年隐形眼镜护理液行业市场深度调研及发展前景趋势与投融资研究报告
- 2025-2030年钢铁信息化行业市场发展分析及政策建议与策略研究报告
- 2025-2030年辅助护肝食品行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年货轮行业市场现状供需分析及投资评估规划分析研究报告
- 足球公园计划书
- 离婚案件中夫妻房产分割问题研究
- 2024年高等教育经济类自考-00100国际运输与保险笔试历年真题荟萃含答案
- APQP全套表格范例
- 玻璃清洁机器人的研发-吸附机构设计
- 艺术留学作品集合同模板
- 2024-2025年上海中考英语真题及答案解析
- 《马说》复习课件
- GB/T 19510.213-2023光源控制装置第2-13部分:LED模块用直流或交流电子控制装置的特殊要求
- 2024年桥式起重机司机(中级)职业技能考试题库(职校培训)
- 工程建设公司QC小组道路沥青混凝土面层裂缝的控制成果汇报书
评论
0/150
提交评论