02-第2章定量资料统计描述85页_第1页
02-第2章定量资料统计描述85页_第2页
02-第2章定量资料统计描述85页_第3页
02-第2章定量资料统计描述85页_第4页
02-第2章定量资料统计描述85页_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章 定量资料的统计描述,第1页,医 学 统 计 学,主讲 程 琮,泰山医学院预防医学教研室 ccta0509,医学本科生用,第2章 定量资料的统计描述,第2页,The teaching plan for medical students,Professor Cheng Cong,Dept. of Preventive Medicine Taishan Medical College,MEDICAL STATISTICS,第2章 定量资料的统计描述,第3页,医学统计学教授,硕士生导师。男,1959年6月出生。汉族,无党派。1982年12月,山东医学院公共卫生专业五年本科毕业,获医学学士学位。

2、1994年7月,上海医科大学公共卫生学院研究生毕业,获医学硕士学位。2003年12月晋升教授。现任预防医学教研室副主任。主要从事医学统计学、预防医学,医学人口统计学等课程的教学及科研工作,每年听课学生800-1000人。自2000年起连续10年,为硕士研究生开设医学统计学、SPSS统计分析教程、卫生经济学等课程,同时指导研究生的科研设计、开题报告及科研资料的统计处理与分析。发表医学统计学及预防医学的科研论文50多篇。代表作有“锌对乳癌细胞生长、增殖与基因表达的影响”,“行列相关的测度” 等。主编、副主编各类教材及专著10部,代表作有医学统计学、SPSS统计分析教程。获得院级科研论文及科技进步奖

3、8项,院第四届教学能手比赛二等奖一项,院教学评建先进工作者一项。获2004年泰山医学院首届十大教学名师奖。医学统计学为校级和省级精品课程。,程琮教授简介,第2章 定量资料的统计描述,第4页,医学统计学目录,第1章 绪论 第2章 定量资料的统计描述 第3章 总体均数的区间估计和假设检验 第4章 方差分析 第5章 定性资料的统计描述 第6章 总体率的区间估计和假设检验 第7章 二项分布与Poisson分布 第8章 秩和检验 第9章 直线相关与回归 第10章 实验设计 第11章 调查设计 第12章 统计表与统计图,第2章 定量资料的统计描述,第5页,第二章 目录,第一节 频数分布,第三节 离散趋势的

4、描述,第四节 正态分布,第二节 集中趋势的描述,第2章 定量资料的统计描述,第6页,掌握:频数分布表的意义、编制步骤及方法。 熟悉:频数分布表的用途。 掌握:集中趋势的概念、意义及计算方法。 掌握:集中趋势的特点及适用条件。 了解:百分位数的意义及特点。 掌握:离散趋势的概念、意义及计算方法。 掌握:离散趋势的特点及适用条件。 掌握:正态分布的概念、意义和特点;正态曲线下面积的分布规律。 熟悉:医学参考值的概念、意义、制定原则及方法。,第2章 教学要求,第2章 定量资料的统计描述,第7页,1、统计描述:是用统计图表、统计指标来描述资料的分布规律及其数量特征。 2、频数分布表(frequency

5、 distribution table):主要由组段和频数两部分组成表格。,第一节 频数分布表,第二章 定量资料的统计描述,第2章 定量资料的统计描述,第8页,例2.1 某年某市120名12岁健康男孩身高资料如表2-1,试编制频数分布表。,第2章 定量资料的统计描述,第9页,一、频数分布表的编制,编制步骤 : 1. 计算全距 (range): 一组变量值最大值和最小值之差称为全距(range),亦称极差,常用R表示。 2. 确定组距(class interval): 组距用i表示; 3. 划分组段: 每个组段的起点称组下限,终点称组上限。一般分为815组。 ; 4. 统计频数: 将所有变量值通

6、过划记逐个归入相应组段 ; 5.频率与累计频率: 将各组的频数除以n所得的比值被称为频率。累计频率等于累计频数除以总例数。,第2章 定量资料的统计描述,第10页,第2章 定量资料的统计描述,第11页,二、频数分布表的用途,1、揭示资料的分布类型 2、观察资料的集中趋势和离散趋势 3、便于发现某些特大或特小的可疑值 4、便于进一步计算统计指标和作统计处理,第2章 定量资料的统计描述,第12页,第2章 定量资料的统计描述,第13页,第二节 集中趋势的描述,1、集中趋势 :代表一组同质变量值的集中趋势 或平均水平。它是指一组平均指标。 2、常用的平均数有算术均数、几何均数和中位数。 3、另外还有:众

7、数,调和平均数和调整均数等。,第2章 定量资料的统计描述,第14页,一、算术均数,1、算术均数 (arithmetic mean): 简称均数。 2、适用条件:对称分布或正态分布的资料。 习惯上以希腊字母表示总体均数(population mean), 以英文字母 表示样本均数(sample mean)。,第2章 定量资料的统计描述,第15页,1、直接法:用于变量X所取的观察值个数不多时。,计算方法,2、例题:测量3人的身高数据(cm)。试计算均数。,第2章 定量资料的统计描述,第16页,2.加权法(weighting method):用于变量值个数较多时。当频数f大于1时使用。,注意:权数即

8、频数f,为权重权衡之意。,例题:测量8人的身高数据(cm)。试计算均数。,第2章 定量资料的统计描述,第17页,第2章 定量资料的统计描述,第18页,结果:120名12岁健康男孩身高均数为143.07cm。 注意:均数是一个综合指标,反映群体的情况。,计算结果,第2章 定量资料的统计描述,第19页,第2章 定量资料的统计描述,第20页,1、几何均数(geometric mean,简记为):指将n个变量值(X1 ,X2 ,X3 ,Xn)的乘积开n次方。用G表示其平均水平。 2、适用条件:对于变量值呈倍数或等比关系、或呈对数正态分布(正偏态分布)的资料。如抗体效价及抗体滴度,某些传染病的潜伏期,细

9、菌计数等。 3、计算公式:有直接法和加权法。,二、几何均数,第2章 定量资料的统计描述,第21页,1.直接法:用于变量值的个数n较少时,第2章 定量资料的统计描述,第22页,直接法计算实例,第2章 定量资料的统计描述,第23页,2.加权法 :用于资料中相同变量值的个数f(即频数)较多时。公式中增加了f。,第2章 定量资料的统计描述,第24页,例2.5 某地50名儿童接种了麻疹疫苗,测定其血凝抑制抗体滴度(见表2-5),求其平均抗体滴度。,第2章 定量资料的统计描述,第25页,结果:50名儿童麻疹疫苗接种后平均血凝抑制抗体滴度为1:60.55。,计算结果:将有关已知数据代入公式有,第2章 定量资

10、料的统计描述,第26页,(1)变量值中不能有0; (2)不能同时有正值和负值; (3)若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,计算几何均数注意事项:,第2章 定量资料的统计描述,第27页,中位数 1、定义:将一组变量值从小到大按顺序排列,位次居中的变量值称为中位数(median,简记为M)。 2、适用条件:变量值中出现个别特小或特大的数值;资料的分布呈明显偏态,即大部分的变量值偏向一侧;变量值分布一端或两端无确定数值,只有小于或大于某个数值;资料的分布不清。,三、中位数及百分位数,第2章 定量资料的统计描述,第28页,1、定义:百分位数(percentile)是一种位置指标,

11、以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M 。, 百分位数,第2章 定量资料的统计描述,第29页,(1)描述一组资料在某百分位置上的水 平; (2)用于确定正常值范围; (3)计算四分位数间距。,百分位数的应用条件:,第2章 定量资料的统计描述,第30页,计算方法:有直接法和加权法,1、直接法:用于例数较少时,n为奇数时,n为偶数时,第2章 定量资料的统计描述,第31页,例题:调查得到身高测量值。试计算中位数。,n为奇数时: 例 150、151、152、

12、160、170 中位数为: 152,n为偶数时: 例 150、151、158、160、170 、175 中位数为: 159,第2章 定量资料的统计描述,第32页,2、频数表法:用于例数较多时,中位数,百分位数,第2章 定量资料的统计描述,第33页,表2-6 145例食物中毒病人潜伏期分布表,第2章 定量资料的统计描述,第34页,例2.8 现有145例食物中毒病人潜伏期分布。如表2-6。 求中位数。,第2章 定量资料的统计描述,第35页,先找到包含Px的最小累计频率; 该累计频率同行左边的组段值为L; L同行右边的频数为fx(或fm); L前一行的累计频数为fL; 将上述已知条件代入公式计算Px

13、或P50 。,计算中位数及百分位数的步骤与技巧:,第2章 定量资料的统计描述,第36页,计算结果:,第2章 定量资料的统计描述,第37页,计算结果:,第2章 定量资料的统计描述,第38页,定义:用M0表示(Mode)。指一组观察值中出现次数或频数最多的那个数值。可用于各种资料。 特点:众数可以不存在,也可以不止一个。在轻度偏态分布中,它与均数和中位数的关系为:,四、众数(补充),第2章 定量资料的统计描述,第39页,定义:用表示(harmonic mean)。指一组数据倒数的平均数据倒数。 特点:主要用于非常偏态或速度变化的资料。如计算汽车速度的均值。 公式:,五、调和均数(补充),第2章 定

14、量资料的统计描述,第40页,定义:(trimmed mean,Mtr5%)也称为切尾均数。把一组数据排序,去除一定比例的小值和大值,再计算剩余数据的算术均数。 特点:主要用于数据两端有极端的值的资料。一般计算5%调整均数。5%是指一端去除的数据比例。两端应去除10%的数据。 例如:电视台歌手大获赛。设有11个评委。则某选手的得分计算为:去掉一个最高分,去掉一个最低分,选手的平均分为92分。共去除二个评委的评分。一个评委约占9%。则此选手的得分为9%调整均数。,六、调整均数(补充),第2章 定量资料的统计描述,第41页,定义:用来说明变量值的离散程度或变异程度。 注意:仅用集中趋势尚不能完全反映

15、一组数据的特征。故应将集中趋势和离散趋势结合起来才能更好地反映一组数据的特征。 常用离散指标有五个: (1)极差,(2)四分位数间距, (3)标准差, (4)方差,(5)变异系数。,第三节 离散趋势的描述,第2章 定量资料的统计描述,第42页,A组: 184 186 188 190 192 B组: 180 184 188 192 196 分析:两组篮球运动员的平均身高都是188cm,但A组球员身高比较集中,B组球员身高比较分散。为了说明离散趋势,就要用离散指标。,实例分析,第2章 定量资料的统计描述,第43页,极差(range,简记为R)亦称全距,即一组变量值中最大值与最小值之差 。 特点:计

16、算简单,容易理解,应用广泛。但不稳定,不全面,易受极端值影响。可用于各种分布类型的资料。,一、极差,第2章 定量资料的统计描述,第44页,二、四分位数间距,公式: Q= P75P25 =Q3 Q1 特点:比极差稳定,只反映中间50%数据的两端值的差异。 计算不太方便。可用于各种分布的资料。主要用于偏态分布的资料。,第2章 定量资料的统计描述,第45页,三、方差和标准差,1.离均差之和: 2.离均差绝对值之和: 3.离均差平方和:,第2章 定量资料的统计描述,第46页,方差(variance),总体方差,样本方差,第2章 定量资料的统计描述,第47页,自由度(degree of freedom)

17、的概念,n-1是自由度,用希腊小写字母表示,读作nju:。 定义1:在N维或N度空间中能够自由选择的维数或度数。 定义2:在合计值不变的情况下,n个变量值中能自由变动的变量值的个数。 例:ABC,共有n=3个元素。当合计值不变时,其中只能任选2个元素的值,故自由度n-1=3-1=2。,第2章 定量资料的统计描述,第48页,方差的特点,充分反映每个数据间的离散状况,意义深刻; 指标稳定,应用广泛,但计算较为复杂,不易理解; 方差的单位与原数据不同,是原单位的平方。有时使用时不太方便; 在方差分析中应用甚广而极为重要。,第2章 定量资料的统计描述,第49页,(二)标准差 (standard dev

18、iation,S,SD),总体标准差:,样本标准差:,第2章 定量资料的统计描述,第50页,牢记:离均差平方和展开式:,第2章 定量资料的统计描述,第51页,标准差的特点:,意义同方差,是方差的开平方; 标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称标准差。,第2章 定量资料的统计描述,第52页,标准差的计算方法:可分为直接法和加权法。,1.直接法 : 用于小样本。,2.加权法: 用于大样本。,第2章 定量资料的统计描述,第53页,直接法:标准差计算实例(一):,例题:测得3个身高数据(cm):159、160、161。 测得3个体重数据

19、(kg): 49、 50、 51。 试计算标准差。,身高:,体重:,第2章 定量资料的统计描述,第54页,直接法:标准差计算实例(二):,例2.12 测得7名正常男子红细胞数(1012/L)如下: 4.67, 4.74, 4.77, 4.88,4.76, 4.72, 4.92, 试计算标准差。 x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46 x2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=159.99,第2章 定量资料的统计描述,第55页,计算结果:,x = 33.46 , x2 = 159.99,第2章 定量资料

20、的统计描述,第56页,例2.13 对表2-4资料用加权法计算120名12岁健康男孩身高值的标准差。,加权法:标准差计算实例,在表2-4中已算得fx=17168,fx2 =2460040, 代入公式,第2章 定量资料的统计描述,第57页,1.变异系数(coefficient of variation): 简记为CV 。指一组数据的标准差占其平均数的百分比。为无量纲指标。,四、变异系数,2.应用条件:(1)变异系数为无量纲单位,可以比较不同单位指标间的变异度; (2)变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。注意:CV一般不大于20-30%。否则,说明指标

21、不太稳定。,第2章 定量资料的统计描述,第58页,例2.14 某地20岁男子160人,身高均数为166.06 cm,标准差为4.95 cm; 体重均数为53.72 kg,标准差为4.96 kg。 试比较身高与体重的变异程度。 分析:由于身高与体重的单位不同,故直接比较标准差不合适。可以比较变异系数。,变异系数 计算实例,第2章 定量资料的统计描述,第59页,身高:,体重:,变异系数 计算结果,第2章 定量资料的统计描述,第60页,例2.15 某地不同年龄女童的身高资料如表2-7。试比较不同年龄身高的变异程度。,第2章 定量资料的统计描述,第61页,第四节 正态分布,一、正态分布的概念和特征,正

22、态分布(normal distribution):也称高斯分布,是医学和生物学最常见的连续性分布。如身高、体重、红细胞数、血红蛋白等。,第2章 定量资料的统计描述,第62页,图2-1 120名12岁健康男孩身高的频数分布,第2章 定量资料的统计描述,第63页, 正态分布的函数和图形,正态分布的密度函数,即正态曲线的方程为:,第2章 定量资料的统计描述,第64页,图2-2 频数分布逐渐接近正态分布示意,第2章 定量资料的统计描述,第65页,为了应用方便,常按下面公式作变量变换,u 值称为标准正态变量或标准正态离差,国外参考书也将 u 值称为 z 值。,第2章 定量资料的统计描述,第66页,经u变

23、换,一般的正态分布就变换为标准正态分布 (standard normal distribution),标准正态分布:应用极为广泛。一定大小的u值所对应的标准正态分布下的面积,可以查阅u值表获得。,第2章 定量资料的统计描述,第67页,图2-3 正态分布的面积与纵高,图2-3中:a为一般的正态分布。纵轴为f(X)。 b为标准正态分布。纵轴为(u)。,第2章 定量资料的统计描述,第68页, 正态分布的特征,集中性: 正态曲线的高峰位于正中央,即均数所在的位置。 对称性:正态曲线以均数为中心,左右对称, 正态分布有两个参数:即均数和标准差。 决定了分布的左右位置; 决定了曲线的高矮或胖瘦。 正态曲线

24、下面积:有一定的分布规律。可查阅u值表得到横坐标某u值所对应左侧的面积。 【注意】标准正态分布曲线下的面积,是由分布的左侧即u=-向右侧积分到u=+。分布下积分的总面积为100%或1。,第2章 定量资料的统计描述,第69页,正态分布下面积实例,【例1】 在标准正态分布下,常用u值所对应分布的左侧面积如下。 当u=-时,面积为0。当 u=+时,面积为1。 当u=-2.58时,面积为0.005。当 u=+2.58时,面积为0.995。 当u=-1.96时,面积为0.025。当 u=+2.58时,面积为0.975。 当u=-1.64时,面积为0.05。当 u=+1.64时,面积为0.95。 当u=-

25、1.0时,面积为0.1587。当 u=+1.0时,面积为0.8413。,第2章 定量资料的统计描述,第70页,图2-4 不同标准差的正态分布示意,第2章 定量资料的统计描述,第71页,二、正态曲线下面积的分布规律,第2章 定量资料的统计描述,第72页,标准正态分布表(u值表),标准正态分布曲线下的面积,由此表可查出曲线下某区间的面积。查表时应注意: (1)表中曲线下面积为-到u 的下侧累计面积; (2)当已知、和X时,先按公式(2.19)求得u值,再查表;当和未知时,并且样本例数在100例以上,常用样本均数和标准差S分别代替和 ,按公式(2.19)求得u值; (3)曲线下横轴上的总面积为100

26、%或1.0000。,第2章 定量资料的统计描述,第73页,例2.16 前例2.1中,某年某市120名12岁健康男孩身高,已知均数=143.07cm,标准差S=5.70cm。 (1)估计该地12岁健康男孩身高在135cm以下者占该地12岁男孩总数的百分数; (2)估计身高界于135cm150cm范围内12岁男孩的比例; (3)分别求出均数1S、均数1.96S、均数2.58S范围内12岁男孩人数占该120名男孩总数的实际百分数,说明与理论百分数是否接近。,第2章 定量资料的统计描述,第74页,根据题意,按公式(2.19)作u变换,u=-1.42, 面积为0.0778,即占7.78%。 u=1.22

27、, 面积为0.8888。 135-150cm之间面积为:0.8888-0.0778=81.10 即占百分比为:81.10%。,第2章 定量资料的统计描述,第75页,身高范围所占面积,故估计该地12男孩身高在135cm以下者约占7.78; 身高界于135cm150cm范围内者约占81.10。,第2章 定量资料的统计描述,第76页,医学参考值(reference value):参考值范围也称为正常值范围。医学上常把绝大数正常人的某指标范围称为该指标的正常值范围。这里的“绝大多数”可以是90、95、99,最常用的是95。 制定方法:有两种。 (1)正态分布法:数据服从正态分布。 (2)百分位数法:数据不服从正态分布时。包括偏态分布,分布不明等资料。,(一)医学参考值范围的制定,三、正态分布的应用,第2章 定量资料的统计描述,第77页,1. 正态分布法公式为:,双侧:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论