版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 个体变异与变量分布,一、个体变异 二、频数分布 三、定量资料的统计指标 四、定性资料与等级资料的统计指标,1,PPT学习交流,个体变异(individual variation),是同质观察对象间表现出的差异。 变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。 就个体而言:变异是随机的(random)。 就总体而言:个体变异是有规律的。,2,PPT学习交流,幻灯片 1,个体变异是统计学应用的前提,3,PPT学习交流,(一)定量资料的频数分布,例: 某市 1997 年 12 岁男童 120 人的身高 (cm) 资料,4,PPT学习交流,1.频数分布表的制作步骤 (
2、 1)计算极差( R ) R= Xmax Xmin=160.9-125.9=35 ( cm ) ( 2)确定组数、组距: 组数: 8 12 组距:i= R/ 组数 =35 / 10 =3.5 4 ( cm ) ( 3)确定组段:含下限,不含上限 第一组段下限 Xmin 最后一组上限 Xmax ( 4)划记:计算频数、频率 2.分布图,5,PPT学习交流,1997 年某市 120 名 12 岁男童的身高 (cm) 频数分布,划记,正正,正正正正 正正正正正正正 正正正正正 正正正正正,上一张幻灯片,6,PPT学习交流,某市 120 名 12 岁男童身高的频数分布,7,PPT学习交流,定性资料的整
3、理:根据指标的自然属性归类,计数频数 等级资料的整理:根据指标的不同等级归类,计数频数,507 名傣族人血型的频数分布,(二)定性资料及等级资料的频数分布,8,PPT学习交流,709 对肺癌患者和非肺癌患者吸烟情况,此表是Doll和Hill于1948年至1952年间采用回顾性配对调查方法研究了吸烟与肺癌的关系 得到的资料(此表分类方法是交叉分类),9,PPT学习交流,例:某医院探讨不同期次矽肺的胸部平片肺门密度变化,资料如下表,问矽肺患者肺门密度的增加与矽肺期次有无关系?,245, 1 96 72 169, 6 17 55 78,合 计 50 301 141 492,合计,矽肺期次,10,PP
4、T学习交流,描述分布类型 描述分布的特征 便于发现特大、特小的可疑值 便于计算有关指标、统计分析与处理,频数分布表和频数分布图的用途,11,PPT学习交流,(三)数据的分布类型,对称分布: 非对称分布(偏态分布) 对称分布:频数以中间最多,两侧逐渐减少,基本对称 右偏态(正偏态):高峰在左侧,尾部拖在右侧 左偏态(负偏态):高峰在右侧,尾部拖在左侧 单峰分布: 双峰或多峰分布:,正偏态(右),负偏态(左),分布的对称,峰的多少,12,PPT学习交流,某市 120 名 12 岁男童身高的频数分布,13,PPT学习交流,发汞含量( ),239 人发汞含量的频数分布,人 数,14,PPT学习交流,自
5、评分,某城市 892 名老年人生存质量自评分的频数分布,人数,15,PPT学习交流,生存时间 (月),102 名黑色素瘤患者的生存时间频数分布,人 数,16,PPT学习交流,人数,死亡年龄 (岁),某地某年 10000 例死亡者年龄分布,17,PPT学习交流,分布类型,对称分布 正偏态(右) 负偏态(左),幻灯片 1,18,PPT学习交流,集中位置的描述 离散趋势的描述,三、定量资料的统计指标,19,PPT学习交流,是描述一组变量值的集中趋势或平均水平的统计指标。是一组变量值的集中水平的代表值。 种类:算术均数、几何均数、中位数、众数、加权均数等 注意:同质的变量值才能在一起求平均数!,平均数
6、(集中位置描述),20,PPT学习交流,(一)算术均数(arithmetic mean)简称均数(mean) 1 .适用条件:单峰对称分布、正态分布的资料 2 .计算公式: 小样本:,加权系数,例:某门功课的成绩:平时占 0.2 ,期中占 0.3,期末占 0.5 则平均成绩为:,21,PPT学习交流,大样本:,各组段的频数 各组段的组中值,22,PPT学习交流,1997 年某市 120 名 12 岁男童的身高 (cm),组中值,126 130 134 138 142 146 150 154 158 162,23,PPT学习交流,例:五人血清抗体滴度: 1:10, 1:100 , 1:1000
7、, 1:10000, 1:100000,看一个实例,24,PPT学习交流,1 适用条件:各变量值成倍数或对数正态分布的资料 2 公式:,3 计算,(二)几何均数(geometric mean ),25,PPT学习交流,例、有 5 份血清的抗体效价分别为 1:10 , 1:20 , 1:40 , 1:80 , 1:160 , 求平均抗体效价?,此 5 人血清的平均抗体效价为 1 : 40 。,26,PPT学习交流,使用注意: (1)变量值中不能有 0; (2)同一组变量值不能同时存在正,负值; (3)若变量全为负值,计算时将负号除去,算完后再加上。,有 25 份血清的抗体效价分别为 抗体效价 1
8、:10 , 1:20 , 1:40 , 1:80 , 1:160 , 人数 2 5 8 7 3,所以,这 25 份血清的平均效价是 1:44.7 。,27,PPT学习交流,(三)中位数(median)及百分位数(percentile) 将一组变量值从小到大排列,居中的那个变量值。 1 .适用条件:任何分布(偏态、分布不明、两端无界限) 2 .计算公式: 小样本:,当 n 为偶数,例、有 10 人的发汞值( ) 1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.3,当 n 为奇数:,28,PPT学习交流,L : M 所在组的下限 i : M 所在组的组距 fm :
9、M 所在组的频数 : M 所在组前一组累积频数,大样本:,5,7,发汞值,60,M,5,7,29,PPT学习交流,例 2.16 在某市测得 239 名正常人发汞,资料见表 2.11 ,试计算其 95 参考值范围。 表 2.11 某市 239 名正常人发汞值,某市 239 名正常人发汞值,累积 频数,30,PPT学习交流,百分位数,0 Px M 100%,百分位数是一个位置指标,以 PX 表示。 一个百分位数将全部观察值分为两部分: x%的变量值小于 PX ;( 100 -x )%的变量值大于 PX 。 有 10 人的发汞值(umol/Kg) 1.1, 1.8, 3.5, 4.2, 4.8, 5
10、.6, 5.9, 7.1, 10.5,16.3,31,PPT学习交流,某市 239 名正常人发汞值,发汞值 男性 女性 合计频数 累积频数,32,PPT学习交流,应用中位数和百分位数时注意事项: 所有分布类型的资料均可计算中位数和百分位数; 例数较少时,接近两端的百分位数不稳定,不宜用两端 的百分位数估计频数分布范围; 中位数抗极端值的影响,比均数好,但不及均数精确; 当资料可计算均数或几何均数时,不宜计算中位数。,33,PPT学习交流,描述集中趋势的指标:平均数 种类 适用条件 计算公式 正态分布 对数正态 任何分布,34,PPT学习交流,有甲、乙两组同性别同年龄儿童体重 (公斤) : 甲组
11、 26 , 28 , 30 , 32 , 34 乙组 24 , 27 , 30 , 33 , 36,看一个实例,上述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值与均数的差值不同,35,PPT学习交流,离散趋势的描述,全距(range) 四分位数间距( interquartile range Q ) 方差、标准差(variance and standard deviation) 变异系数(coefficient of variation),36,PPT学习交流,1.全距(极差) R=Xmax- Xmin 反映资料的分布范围 R 大变异程度大, R 小变异程度小 优点:简
12、单明了 缺点:不灵敏:只考虑了最大、最小值 抽样误差大,不稳定,37,PPT学习交流,2.四分位数间距(Q) 即 P75 与 P25 之差 P25 :1/4 的观察值小于它,称下四分位数 P25 QL。 P75 :1/4 的观察值大于它,称上四分位数 P75 QU。 Q=QU-QL,其间包含了中间的 50% 变量值,即 中间 50% 变量值的极差。,Q 值大变异程度大, Q 小变异程度小,偏态分布资料,集中趋势中位数 离散趋势四分位数,38,PPT学习交流,3.方差与标准差,离均差总和,离均差平方和,方差,标准差,自由度,39,PPT学习交流,( 1-4 )+( 2-4 )+( 3-4 )+(
13、 4- -3-2-1+0+1+2+3 0,对于对称分布或正态分布资料其离均差总和恒等于 0 。,4 )+( 5-4 )+( 6-4 )+( 7-4 ),例: 1 、 2 、 3 、 4 、 5 、 6 、 7,40,PPT学习交流,计算公式:,甲组: 26 , 28 , 30 , 32 , 34 乙组: 24 , 27 , 30 , 33 , 36,标准差表示一组变量值与均数的平均距离 直接、全面、平均地描述一组变量值的离散程度。,41,PPT学习交流,标准差是描述变量值变异程度的指标。 标准差大 变异程度大 均数的代表性差 标准差小 变异程度小 均数的代表性好,用途 1 表示变异程度的大小
14、2 计算标准误、变异系数 3 估计正常值范围,幻灯片 31,标准差的意义,42,PPT学习交流,一个实例,例:某地 20 岁男子 100 人,身高均数为 166.06 cm ,标准差为 4.95 cm ;体重均数为 53.7 kg ,标准差为 4.96 kg,问:体重和身高,哪个变异大?,43,PPT学习交流,使用条件: 均数相差较大时,比较各组资料的变异度; 度量衡单位不同时,比较各组资料的变异程度。,4.变异系数(离散系数),44,PPT学习交流,某地 6 岁以下儿童身高 (cm) 的变异,绝对变异受平均水平的影响 相对变异排除了平均水平的影响,45,PPT学习交流,描述离散程度的指标 种
15、类 应用条件 计算公式 R 任何资料 R= Xmax- Xmin Q 偏态分布资料 S2 ( S ) 正态,单位同 均数相差不大 CV 单位不同,均数差大,46,PPT学习交流,小结:定量资料的描述,列表描述:频数分布表、一览表 图形描述:频数分布图、趋势图 指标描述 定量资料 集中位置:算术均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、方差、标准差 定性或等级资料 相对数指标:率、构成比、比,47,PPT学习交流,平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对
16、各变量值的代表性越差,48,PPT学习交流,平均数与变异度的关系,通常,平均数与变异指标一起描述资料的分布特征。 用均数和标准差描述正态分布资料的特征; 用中位数和四分位数间距描述偏态分布资料的特征。,49,PPT学习交流,绝对数的概念与意义,调查研究和实验研究得到的定性资料或等级资料经过整理,清点数目得到的数值称为绝对数。 如某病的发病人次数、医院收容人数、治愈人数等。 绝对数反映一定条件下某种事物的规模或水平,是计划或总结工作的依据, 绝对数是计算相对数与平均数的基础。 绝对数往往不便于比较。,50,PPT学习交流,例:调查得某年小学生中流脑发病:甲地区 63例,乙地区35例。,甲地区流脑
17、流行比乙地区严重,如已知小学生总人数:甲地区50051人,乙地区14338人,可算出两个发病率: 甲地区流脑发病率:63/500511000=1.26 乙地区流脑发病率:35/14338 1000=2.44,乙地区流脑流行比甲地区严重,51,PPT学习交流,相对数的概念 和意义,概念:相对数是两个有联系的指标之比。 两个特点: 表示事物出现的频度。 把基数化作相等,便于比较。 常用相对数 率、构成比、相对比,52,PPT学习交流,率,率(rate)又称频率指标,用以说明某事物或某现象在其可能发生的范围内实际发生的频率或强度。计算公式为:,53,PPT学习交流,表 1.5 某市某年各区急性传染病
18、发生数及其相对数 市区 年平均 急性传染病 各区与区 构成比 发病率 人口数 发生数 发病数之比 () (/万) 1 636723 2433 1.00 18.9 38.21 2 389540 3033 1.25 23.5 77.86 3 699712 1650 0.68 12.8 23.58 4 328363 1503 0.62 11.6 45.77 5 286967 1282 0.53 10.0 44.67 6 317504 1853 0.76 14.4 58.36 7 153838 1130 0.46 8.8 73.45 合计 2812647 12884 100.0 45.81,54,PP
19、T学习交流,关于率的几点说明(一),分子和分母都是计数值,从定义上来看,分子应为分母的一部分,但在实际应用中一些率的指标可能并不符合率的定义,但它们是约定俗成、沿习使用的。 根据频率的稳定性,分母较大时,可以用率作为该事件发生机会(即概率)的近似值。 例如:医治100例病人,90例痊愈, 则:治愈率=90/100=90%。 它近似的反映了病人治愈机会的大小。,55,PPT学习交流,关于率的几点说明(二),0 rate1 率常以百分率(%)、千分率()、万分率(1万)、十万分率(l10万)等表示。 比例基数(K )可以是100、1000、,其选取是根据习惯用法和需要选用,主要使算得的率至少保留1
20、2位整数,便于阅读。 患病率、发病率、感染率 :百分率(%) 人口出生率与死亡率: 千分率() 肿瘤死亡率: 十万分率(l10万),56,PPT学习交流,构成比,构成比(proportion) 又称构成指标,表示某一事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为:,57,PPT学习交流,设某事物个体数的合计由A1,A2,Ak个部分组成,构成比计算为:,58,PPT学习交流,构成比的特点:,同一事物内部的k个组成部分构成比总和为100%。 各部分构成比之间是相互影响的,某一部分比重的变化受到两方面因素的影响:其一是这个部分自身数值的变化,其二受其他部分数值变化的影响。,59,PP
21、T学习交流,相对比,相对比(ratio)亦称比,是 A、B两个有关指标之比。 说明A为B的若干倍或百分之几,它是对比的最简单形式。A、B两个指标可以是绝对数,也可以是相对数;可以性质相同,也可以性质不同;可以是定性资料,也可以是定量资料。,60,PPT学习交流,正确应用相对数(一),计算相对数的分母不宜过小 例数较少,相对数波动较大。如:0/2,1/2,2/2 例数较少时,宜用绝对数表示,必须用相对数时,可同时列出其可信区间。,61,PPT学习交流,分析时不能以构成比代替率 率反映的是频率或者强度 构成比反映的是比重或分布,正确应用相对数(二),62,PPT学习交流,正确应用相对数(三),正确计算合并率 对观察单位数不等的几个率,不能直接相加求其平均率(或称总率) 例如用某疗法治疗肝炎,第一次治疗150人,治愈30人,治愈率20%;第二次治疗100人,治愈30人,治愈率30%。试计算两批的合并治愈率。 观察单位数相等时?,63,PPT学习交流,正确应用相对数(四),计算率时要注意资料的同质性 对比分析时应注意资料的可比性 所谓可比,就是说除了要对比的因素外(如不同药物),其余的影响因素应尽可能的相同、相似或接近。 观察对象同质,研究方法相同,观察时间相等,以及地区、周围环境、风俗习
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年妖精的女孩的测试题及答案
- 2026年语文小升初模拟测试题及答案
- 2026年台湾初中地理测试题及答案
- 企业信息管理框架模板
- 武汉市武珞路中学七年级生物期末真题试卷含答案及解析
- 天津市实验小学一年级语文第二次月考试卷含答案及解析
- 餐饮行业食品安全管控规范手册
- 顾客满意度提升服务方案
- 三角形的中位线课件2025-2026学年苏科版数学八年级下册
- 小学劳动实践生活技能说课稿
- 第12课 辽宋夏金元时期经济的繁荣(说课稿)七年级历史下册同步高效课堂(统编版2024)
- 教改项目答辩课件
- 电力交易员基础知识培训课件
- 机械补贴协议书
- 火电精益管理办法
- 卡西欧手表5123机芯中文使用说明书
- DB64∕T 1696-2020 宁夏1:2000地理信息要素规范
- 根管治疗技术指南
- GB/T 42231-2022综合客运枢纽通用要求
- CJ/T 409-2012玻璃钢化粪池技术要求
- T/ZHCA 502-2020保健食品抗氧化功能的斑马鱼检测方法
评论
0/150
提交评论