版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、个体变异与变量分布 医学统计学 个体变异(individual variation) 是同质观察对象间表现出的差异。 变异是生物体在一种或多种、已知或未知的不可 控因素作用下所产生的综合反映。 就个体而言:变异是随机的(random)。 就总体而言:个体变异是有规律的。 一个原始资料 某市1997年12岁男童120人的身高(cm)资料如下。 142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1 150.3 13
2、3.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4 140.9 14
3、1.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 132.1 145.9 146.7 144.0 135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1 140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.9 频数表编制步骤
4、求极差 选定适当的组段数后估计组距 列出组段 划记归组获得频数 求频率,完成频数表 频数分布表的编制 求极差或全距(Range): R=Xmax-Xmin R = 160.9-125.9=35(cm) 选定适当的组段数后估计组距( i ) 组段数的选取以能反映资料的分布特征为宜 一般取8 12组 i =35/10=3.54(cm) 频数分布表的编制 列出组段 组段的含义:包括组段的下限而不含组段的上限 。 如:124 等价于 124,128) 第一个组段应包含最小值 最后一个组段应包含最大值 频数分布表的编制 划记归组获得频数 常用的划记方法: “正” ;“|” 求频率,完成频数表 相应的频数
5、除以总数即为频率 各组段的频率总和为1或者100% 计量资料的频数、频率分布 组 段 频 数 频 率 12410.0083 12820.0167 132100.0833 136220.1834 140370.3083 144260.2167 148150.1250 15240.0333 15620.0167 16010.0083 合 计1201.0000 计量资料的频数分布图-直方图 124132140148156164 0 10 20 30 40 人 数 图 某市120名12岁男童身高的频数分布 频数分布表和频数分布图的用途 描述分布类型 描述分布的特征 便于发现特大、特小的可疑值 便于计算
6、有关指标、统计分析与处理 频数分布类型 对称分布:以正态分布较为常见 非对称分布:偏态分布 正偏态:右侧左侧 向右侧拖尾 负偏态:左侧右侧 向左侧拖尾 频数分布特征 数据分布的范围: 125.9160.9cm 集中趋势:中等大小人数居多,向中间集中 数据最集中的区间:140.0144.0 cm 离散趋势:以中等大小的区间为中心,向两侧 逐渐分散 分布形态:基本对称 同一组资料,不同的人编制的频数表,结 果不尽相同,允许几个合理的结果并存。 定性及等级资料的频数分布 离散型频数表 离散型频数图直条图 频数分布表 血型频数频率(%) O205 40.43 A112 22.09 B150 29.59
7、 AB 40 7.89 合计507100.00 频数分布图 OABAB 图 239人发汞含量的频数分布 1 3 5 7 9 11 13 15 17 19 21 发汞含量(umol/kg) 70 60 50 40 30 20 10 0 人 数 图 某城市892名老年人生存质量自评分的频数分布 0 10 20 30 40 50 60 70 80 90 100 自评分 400 300 200 100 0 人 数 图 102名黑色数瘤患者的生存时间频数分布 1 5 10 15 20 25 30 35 40 45 生存时间(月) 40 30 20 10 0 人 数 图 某地19901992年男性死亡年龄
8、分布 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 死亡年龄(岁) 2500 2000 1500 1000 500 0 课后习题 P355: 练习2.1 定量资料的统计指标定量资料的统计指标 集中趋势的描述 离散趋势的描述 集中位置的描述-平均数 (average) 均数(arithmetic mean, mean) n XXX X n 21 均数的几何意义 均数代表每组观察值的平衡点,也就是重心。如:(1,4, 7,8)则均数为5。则图示如下: 均数的重要特性:离均差(各观察值与均数之差)总和等 于零 12345678 平均数(ave
9、rage) 加权均数(weighted mean) 均数是加权均数的一个特例 nnnn n XXXX w 1 2 1 1 1 1 nnw XwXwXwX 2211 平均数(average) 几何均数(geometric mean) X n X XG n XXX X ln 21 ln exp lnlnln n n XXXG 21 几何均数例 1:10, 1:20, 1:40, 1:80, 1:160 4016080402010 5 G 40 6889. 3 5 160ln80ln40ln20ln10ln 6889. 3 ln eG X X 平均数(average) 中位数(median) 将一组
10、数据按从小到大的顺序排列,位置居中的数 即是中位数。 为偶数当 为奇数当 n n 2/ )( 12/2/ 2/ )1( nn n XX X M 中位数例 9例正常人的发汞值(mol/kg ): 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 M=4.8 10例正常人的发汞值: 1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3 M=(4.8+5.6)/2=5.2 平均数(average) 百分位数(percentile) LP1P2P3P4HP97P98P99 1%1%1%1%1%1%1% 同样有十分位数、四分位数同样有十分位数、四
11、分位数 M = P50 排序数据:按从小到大顺序排列排序数据:按从小到大顺序排列 X%( 100-X ) % PXHL Lx:Px所在组下限 ix:Px所在组组距 fx:Px所在组频数 n:样本例数 fL:小于Px所在组的各组段累计频数 L x x x fxn f i LP% 50 4 140120 50%35142.70() 37 MPcm 140144 3572 37 12050%=60 求求P50 百分位数例 利用表2.1,求P50,P25,P75 50 4 140120 50%35142.70() 37 Pcm )(09.13913%25120 22 4 136 25 cmP 75 4
12、 144120 75%72146.78() 26 Pcm 平均数应用的注意事项 同质的资料计算平均数才有意义 根据资料分布的特征选用适当的平均数 均数:单峰对称分布的资料 几何均数:等比资料、滴度资料、对数正态分布资料 中位数:理论上可用于任何分布资料,但当资料适合计 算均数或几何均数时,不宜用中位数。 (偏态分布、分布不明资料、有不确定值的资料) 平均数应用的注意事项 计算几何均数时: 变量值中不能有0 同一组变量值不能同时存在正、负值 若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用 思考题: 在太阳、地球和月球组
13、成的体系中: 太阳的质量为 2.01030kg 地球的质量为 6.01024kg 月球的质量为 7.31022kg 请问:三者平均质量为多少? 只用平均数描述资料的弊病 It has been said that a fellow with one leg frozen in ice and the other leg in boiling water is comfortable ON AVERAGE ! 看一个例子: 有甲、乙两组同性别同年龄儿童体重(kg): 甲组 26,28,30,32,34 =30 kg n甲=5 乙组 24, 27, 30, 33, 36 =30 kg n乙=5 上
14、述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值离均数的远近不同 甲X 乙X 离散趋势的描述 全距(Range) 亦称极差,记为R,是一组变量值中最大值 与最小值之差。 优点:简单明了 缺点:不灵敏、不稳定 离散趋势的描述 四分位数间距(interquartile range) 定义为: QUQL,即中间一半观察值的极差。 四分位数(quartile)是两个特定的百分位数:第25分位数 P25,和第75分位数P75,分别记为QL和QU。 四分位数间距较全距稳定,常与中位数一起,描述不对称 分布资料的特征。 25%25%25%25% 排序数据:按从小到大顺序排列排序数据:
15、按从小到大顺序排列 MQLQU inter-quartile range Q2Q1Q3 离散趋势的描述 方差(Variance)和标准差(Standard Deviation) N X 2 2 N X 2 1 2 n XX s “离均差平方之和 平均后的方根” “均方根” n-1 称为(标准差的)自由度,即“可以自由变异的程度” 因为任一离均差均可以用另外n-1个离均差表示,所以 “只有n-1个独立的离均差”。 标准差大:分布分散、不整齐、波动大; 标准差小:分布集中、整齐、波动较小。 离散趋势的描述 变异系数(coefficient of variation) 亦称离散系数(coeffici
16、ent of dispersion),是标准 差s与均数之比,即: %100 X s CV 变异系数的两个特点及相应的用 途 没有单位 反映标准差占均数的百分比或标准差是均数的几倍 可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响 反映的是以均数为基数的相对变异的大小 比较均数相差悬殊的资料的变异度 某地20岁男子100人,身高均数为166.06cm,标准差为 4.95cm;体重均数为53.72kg,标准差为4.96kg,试比较 身高和体重的变异。 身高 体重 4.95 100%2.98% 166.06 CV %23.9%100 72.53 96.4 CV 绝对变异受平均水平的影响
17、相对变异排除了平均水平的影响 表 2.4 某地年龄儿童身高(cm)的变异 年龄组 人数 均数 标准差 变异系数() 12 月 100 56.3 2.1 3.7 56 月 120 66.5 2.2 3.3 3 3.5 岁 300 96.1 3.1 3.2 5 5.5 岁 400 107.8 3.3 3.1 平均数与变异度的关系 平均数表示的集中性与变异度表示的离散性,是 从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差 平均数与变异度的关系 通常,平均数与变异指标一起描述资料的 分布特征。 用均数和标准差描述正态分布资料的特征
18、; 用中位数和四分位数间距描述偏态分布资料的特征。 资料的指标描述 是统计描述的一个重要的组成部分 定量资料的统计指标 平均水平指标:算术均数、几何均数、中位数 等。 离散程度指标:全距、四分位数间距、方差、标准差、变异系数。 定性资料或等级资料的统计指标 相对数指标 绝对数的概念与意义 调查研究和实验研究得到的定性资料或等级资料经过整理, 清点数目得到的数值称为绝对数。 如某病的发病人次数、医院收容人数、治愈人数等。 绝对数反映一定条件下某种事物的规模或水平,是计划或总 结工作的依据。 绝对数是计算相对数与平均数的基础。 绝对数往往不便于比较。 例:调查得某年小学生中流脑发病: 甲地区63例
19、,乙地区35例。 v甲地区流脑流行比乙地区严重 v如已知小学生总人数:甲地区50051人,乙地 区14338人,可算出两个发病率: v甲地区流脑发病率:63/500511000=1.26 v 乙地区流脑发病率:35/14338 1000=2.44 v乙地区流脑流行比甲地区严重乙地区流脑流行比甲地区严重 相对数的概念 和意义 概念:相对数是两个有联系的指标之比。 两个特点: 表示事物出现的频度。 把基数化作相等,便于比较。 常用相对数 率 构成比 相对比 率 率(rate)又称频率指标,用以说明某事物或某现象 在其可能发生的范围内实际发生的频率或强度。 计算公式为: )(K比例基数 单位总数可能
20、发生该现象的观察 单位数实际发生某现象的观察 率 K BA A 率 表 2.5 某市某年各区急性传染病发生数及其相对数 市区 年平均 人口数 急性传染 病发生数 各区与 I 区 发病数之比发病数之比 各区急性传染病 发生数构成比发生数构成比(%) 各区急性传染病 发病率发病率(1/万万) (1) (2) (3) (4) (5) (6) I 636723 2433 18.9 38.21 II 389540 3033 1.25 23.5 77.86 III 699712 1650 0.68 12.8 23.58 IV 328363 1503 0.62 11.6 45.77 V 286967 128
21、2 0.53 10.0 44.67 VI 317504 1853 0.76 14.4 58.36 VII 153838 1130 0.46 8.8 73.45 合计 2812647 12884 100.0 45.81 关于率的几点说明(一) 分子和分母都是计数值,从定义上来看,分子应为分母的 一部分,但在实际应用中一些率的指标可能并不符合率的 定义,但它们是约定俗成、沿习使用的。 根据频率的稳定性,分母较大时,可以用率作为该事件发 生机会(即概率)的近似值。 例如:医治100例病人,90例痊愈,则:治愈率=90/100=90%。 它近似的反映了病人治愈机会的大小。 K 该时点人口数 现患病人总
22、数观察时点内发现的某病 某病患病率 关于率的几点说明(二) 0 rate1 率常以百分率(%)、千分率()、万分率(1万)、十万分率(l10万)等 表示。 比例基数(K )可以是100、1000、,其选取是根据习惯用法和需 要选用,主要使算得的率至少保留12位整数,便于阅读。 患病率、发病率、感染率 : 百分率(%) 人口出生率与死亡率:千分率() 肿瘤死亡率:十万分率(l10万) 构成比 构成比(proportion) 又称构成指标,表示某一事物 内部各组成部分所占的比重或分布,常以百分数 表示,计算公式为: %100 观察单位总数同一事物各组成部分的 的观察单位数事物内部某一组成部分 构成
23、比 设某事物个体数的合计由A1,A2,Ak个部分组成,构成比计算为: %100 %100 %1002 %1001 21 21 2 21 1 个构成比的合计为 构成比 构成比 构成比 K AAA A K AAA A AAA A k K k k 表表2.2 507名傣族人血型的频数分布名傣族人血型的频数分布 血型血型 频数频数 频率频率(%) O 205 40.43 A 112 22.09 B 150 29.59 AB 40 7.89 合计合计 507 100.00 构成比的特点: 同一事物内部的k个组成部分构成比总和为100%。 各部分构成比之间是相互影响的,某一部分比重 的变化受到两方面因素的
24、影响:其一是这个部分 自身数值的变化,其二受其他部分数值变化的影 响。 比 比(ratio)亦称相对比,是 A、B两个有关指标之比。 v说明A为B的若干倍或百分之几,它是对比的最简 单形式。A、B两个指标可以是绝对数,也可以是 相对数;可以性质相同,也可以性质不同;可以 是定性资料,也可以是定量资料。 B A 比 人口统计中常用的比的指标 受精时性别比(第一性比例)一般为110170,平均120; 出生时性别比(第二性比例)绝大多数国家为103107,平 均106;婚龄期性别比(第三性比例)约为100; 100 女性人口数 男性人口数 性别比 性别比性别比(sex ratio) 又称性比例,是
25、指男性人口与女性人口的比值。 人口统计中常用的比的指标 抚养比又称人口负担系数,是反映劳动人口负担程度的 指标,此数值取决于人口年龄结构类型。 %100 6415 65140 岁人数 岁及以上人数岁人数 抚养比 正确应用相对数(一) 计算相对数的分母不宜过小 例数较少,相对数波动较大。如:0/2,1/2,2/2 例数较少时,宜用绝对数表示,必须用相对数时,可 同时列出其可信区间。 分析时不能以构成比代替率 率反映的是频率或者强度 构成比反映的是比重或分布 正确应用相对数(二) 正确应用相对数(三) 正确计算合并率 对观察单位数不等的几个率,不能直接相加 求其平均率(或称总率) 例如用某疗法治疗肝炎,第一次治疗150人,治愈 30人,治愈率20%;第二次治疗100人,治愈30人, 治愈率30%。试计算两批的合并治愈率。 观察单位数相等时? 正确应用相对数(四) 计算率时要注意资料的同质性 对比分析时应注意资料的可比性 v 所谓可比,就是说除了要对比的因素外(如不同药物),其余的影响因素应 尽可能的相同、相似或接近。 观察对象同质,研究方法相同,观察时间相等,以及地区、周围环境、风俗习惯 和经济条件应一致或相近。 观察对象内部构成是否相同,若两组资料的年龄、性别构成不同,可以分组或进 行标准化后再作比较。 正确应用相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 糕点方便食品行业深度研究报告
- 高塔行业深度研究报告
- 省考图形推理真题及答案
- 压铸件质量控制与检验流程方案
- 水厂工程风险评估报告
- 风电场项目竣工验收与移交方案
- oem清洗合同范本
- 建筑工地文明施工管理
- 个人代售汽车协议书
- 上门助餐协议书范本
- 院感护理概述课件
- 岗位人才画像(标准版)
- 江宁区新苏科版六年级上册《劳动》全一册全部教案
- 2023年新教科版五年级上册科学全册练习题(一课一练)
- 医学心理学危机干预与心理咨询详解演示文稿
- 食物营养谷物薯类豆类坚果
- 杨绛散文集《我们仨》
- 2022年信阳市第六人民医院医护人员招聘笔试试题及答案解析
- 2021年郑州公用事业投资发展集团有限公司招聘笔试试题及答案解析
- 2021年国开证券股份有限公司校园招聘笔试试题及答案解析
- 体育心理学考试复习内容
评论
0/150
提交评论