




已阅读5页,还剩72页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章定量资料的统计分析,2,连续型变量:如:身高,体重,离散型变量:如子女数,脉搏数,3,统计工作的步骤:,4,统计分析的内容统计描述:是用统计表、统计图、统计指标来描述资料的分布规律及其数量特征。把握资料的基本特征;为统计分析打下基础。统计推断:在医学科学研究中通常应用抽样研究的方法,即对总体中随机抽取的部分观察单位(样本)进行研究,然后用样本信息推断总体特征,即统计推断。,第一节频数分布表和频数分布图第二节集中趋势的统计描述第三节离散趋势的统计描述第四节正态分布及其应用,本章内容,6,第一节频数分布表和频数分布图,一、频数分布表二、频数分布图,7,一、频数分布表,对一个随机事件进行重复观察,其中某变量值出现的次数被称作频数(frequency)。把变量值及相对应的频数列成表格即频数分布表,简称频数表(frequencytable)。在观察值个数(即样本含量n)较多时,为了解一组同质观察值的分布规律和便于指标的计算,可编制频数分布表。,8,(一)离散型定量变量的频数表,连续变化的变量被称为连续型变量。身高是一个连续变化的量。其取值是不连续的变量被称为离散型变量。其取值是0,1,2等不连续的量。已婚育龄妇女的现有子女数;引体向上完成次数。离散型变量的频数表编制较为简单,每一组段往往是一个取值。表4.1的第(1)、(2)栏。,9,10,11,(二).连续性变量的频数表的编制,例4.2在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。,你能看出资料有什么规律?,12,编制步骤:,确定全距(range)全部观察值中最大值与最小值之差,用符号R表示。又称极差。本例极差:R=2.406-0.980=1.417(L)。,14,划分组段确定组数:根据观察单位的多少及其全距来定,组数不宜太多或者太少。确定组距:一般采用等距分组,组距R/组数。本例i=R/12=1.417/11=0.1290.130确定各组段上下限:每个组段的起点称为该组的下限(lowlimit),终点称为上限(upperlimit)。第一组段必须包含最小值。最后一个组段上限必须包含最大值,并且同时写出其下限与上限。其它组段上限值忽略。注意各组段不能重叠。,15,统计各组频数采用计算机或手工划记汇总,得到各组段相应的频数。,16,根据这些数据编制成的频数表能显示出这组数据分布的特征,17,二、频数分布图,以观测变量为横轴,频数(或频率)为纵轴所作的直方图,称为频数分布图。横轴依次以等距标出各组段的起点,在各组段上方分别绘制宽度等于组距、高度等于相应频数的长方形。用途与频数表类似,但更直观、形象。,18,图4.12005年某市120名9岁男孩肺活量频数分布,19,1)频数分布的特征集中趋势(centraltendency):一组数据向某一个位置聚集或集中的倾向。例如本例,肺活量有大有小,但中等居多,此为集中趋势。离散程度(dispersion):一组数据的分散性或变异度。离“中心”位置越远,频数越小;即少数人具有较大或较小的肺活量,表现了肺活量分布的离散趋势。,20,集中趋势:高峰组段的位置离散趋势:观察值的分布范围,21,2)频数分布的类型对称分布:集中位置在正中,左右两侧大体对称。偏态分布:集中位置偏向一侧,频数分布不对称。正偏态分布*分布类型不同,采用的统计方法不同,负偏态分布,频数分布高峰(集中位置)位于中部、两边低、左右对称。,1.对称分布:,实例,23,图4.22004年我国麻疹患者的年龄分布,2.正偏态分布:,集中位置偏向数值小的一侧,高峰偏于左侧,长尾向右延伸。,24,图4.3某市219名乳腺癌患者术后康复期生存质量评分的分布,频数,评分,集中位置偏向数值大的一侧,高峰偏于右侧,长尾向左延伸。,3.负偏态分布:,25,(三)频数分布表和频数分布图的用途,1.反映频数分布的两个重要特征;集中趋势:变量值的中心数值或中心位置所在。离散趋势:变量值围绕中心数值或中心位置的分布情况。2.揭示资料的分布类型;对称分布:频数分布高峰位于中部;偏态分布:高峰偏于一侧。3.便于发现某些特大或特小的可疑值;4.便于进一步计算指标和统计分析处理。,26,第二节、集中趋势的描述,描述一组同质观察值的平均水平或中心位置的常用的指标有算术均数、几何均数、中位数等。,27,1、算术均数,mean,适用条件:单峰对称分布,特别是正态或近似正态分布的定量资料。符号:表示样本均数,希腊字母表示总体均数。,28,计算方法:,(1)直接法(小样本),29,例4.37名正常女子血清总胆固醇(mmol/L)分别为:4.21,3.32,5.35,4.17,4.14,3.58,4.34。试计算其平均数。,30,(2)频数表法(加权法),当观察值个数较多时,可先把原始资料分组,列出频数表,计算均数时将各组频数乘以相应组的组中值,逐个相加求和,除以总例数。,X1,X2,Xk:频数表资料中各组段的组中值;f1,f2,fk:相应组段的频数。,31,表4.2120名9岁男孩肺活量均数的计算,32,均数的特性:,各观察值与均数之差(离均差)的总和等于零,即。各观察值的离均差平方和最小,即以上两个特性表明均数是一组观察值最理想的代表值。,33,均数的应用范围及条件:,1.均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。,2.均数适用于单峰对称分布,尤其是正态分布资料,这时均数位于分布的中央,能反映观察值的集中趋势,即其平均水平。也可用于近似正态分布。,34,适用于数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料。如医学实验中的抗体滴度;食品中农药含量;疾病的潜伏期等。计算方法有:直接法和频数表法。,2、几何均数,geometricmean,G,35,直接法,由原始变量值直接计算几何均数。设变量值为X1,X2Xn,几何均数G为:,36,例有5份血清的滴度为1:4,1:8,1:16,1:32,1:64,求平均滴度?该5份血清的平均滴度为1:16。,37,2.频数表法(加权法),当资料中出现相同观察值的个数较多时,或资料为频数表资料,则用加权法计算几何均数。变量及频数如下,符合几何均数的适用条件:X1,X2,Xkf1,f2,fk则几何平均数G为:,38,例4.5某医院预防保健科用流脑疫苗为75名儿童进行免疫接种,1个月后测定其抗体滴度如表4.3所示,求平均滴度。,39,其血凝抗体滴度的平均滴度为1:27.35。,表4.375名儿童的平均抗体滴度计算表,40,应用注意事项:,适用资料:经对数变换后呈正态或近似正态分布的资料;用于等比资料;注意:根据对数的性质:零与负数没有对数1)变量值不能有0;2)变量值不能同时有正值与负值。,41,一组观察值从小到大排列,位次居中的观察值即中位数,是一个位置指标。符号:P50或M,3.中位数(median),42,中位数计算方法,直接法:将观察值由小到大排列,按下式计算。,43,例4.617名砷中毒患者发砷含量,例4.7在4.6基础上,又测1名名砷中毒患者发砷含量为15.39,44,例某病患者9名,其发病的潜伏期(天)为:3,4,4,5,6,7,7,9,11,求中位数。本例n=9,为奇数,按式(4.6)得:(天)若在该例基础上再继续观察,在第20天又发现1例患者,则n=10,为偶数,按式(4.7)得:(X5+X6)/2=(6+7)/2=6.5(天),45,(2)频数表法,L为P50所在下限;i为该组的组距;fM为该组频数;为比该组段略小的组段的累计频数。,46,求n/2;计算累计频数;两者比较确定M所在组;根据公式计算。,计算步骤,47,表4.4219名乳腺癌患者康复期生存质量评分,例4.8为研究乳癌患者术后康复期生存质量的状况,某医院对219名术后康复期乳癌患者进行了生存质量测定,结果如表4.4,求平均评分。,48,M=70+10/63(21950%-48)=79.76(分),49,50,第三节、离散程度的描述,集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异散程度。,例:采甲、乙、丙三人的耳垂血,然后进行红细胞计数,每人数5个计数盘,得结果如下(万/mm3),甲,乙,丙,52,离散程度:反映一群变量值的变异程度或参差不齐的程度。离散程度大,均数的代表性差,离散程度小,均数的代表性好。,53,常用的指标,(1)极差(range)(2)四分位数间距(quartileinterval)(3)方差和标准差(varianceandstandarddeviation)(4)变异系数(coefficientofvariation),54,1、极差/全距,range,R=Xmax-Xmin优点:简单明了缺点:1)只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度2)样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大,因此样本含量悬殊时不宜用全距。,55,2、四分位数间距,inter-quartilerange,常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。1)百分位数(percentile):是指将观察值从小到大排列后处于第x百分位置上的数值,亦是位置指标,用Px表示。Px表示将全部观察值分为两部分,有x%的观察值比Px小,有(100x)%的观察值比Px大。P50即中位数。,56,2)四分位数(quartile,Q):特定的百分位数,把一组观察值分为四等份。下四分位数:QL=P25上四分位数为:QU=P75四分位数间距:QUQL,57,直接法:(自学),频数表法:,见教材P48,例4.11,58,表4.4219名乳腺癌患者康复期生存质量评分,QU=80+10/60(21975%-111)=88.88(分)Q=QUQL=88.88-71.07=17.81,QL=70+10/63(21925%-48)=71.07(分),例4.13,59,四分位数间距越大,变量值的变异程度或离散程度越大;四分位数间距比极差稳定,但仍未考虑每个观察值的变异;四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。,四分位数间距的意义,60,.方差和标准差,为了全面考虑每个观察值的变异情况,克服全距和四分位数间距的缺点,引入了“方差”,61,为了衡量每个变量值的变异,先选择一个数值作为比较标准;谁合适呢?均数最有代表性。,甲,乙,丙,62,()方差,variance,衡量每个观察值相对均数的偏差,构造出综合描述资料离散程度的指标。方差说明观察值的变异程度,方差越大,观察值得变异程度较大,反之,观察值得变异程度较小。,63,在实际工作中,总体均数往往是未知的,故只能用样本均数作为总体均数的估计值,用样本例数n代替N,这样计算的结果通常比实际的2低。英国统计学家提出用n-1代替n来校正,这就是样本方差s2。式中的n-1称为自由度(degreeoffreedom)是统计学中的一个常用术语,用表示。,64,自由度,例:有一个4个数据的样本,在自由取值4、2、5三个数据后,第四个数据只能是9,65,()标准差,standarddeviation,因方差的度量单位是原度量单位的平方,故将方差开方,恢复成原度量单位,得总体标准差。标准差大,表示观察值的变异度大;标准差小,表示观察值的变异度小。,66,样本标准差(s):,67,标准差的计算,直接法加权法,68,直接法,甲组:88910111212n7,69,(2)加权法,当相同观察值的个数较多时,或资料为频数表资料,可用加权法计算标准差,其公式为:,其中X为各组段的组中值,f为相应的频数。,70,例4.16计算例4.2中120名9岁男孩肺活量资料的标准差。,我们常用标准差描述一组对称资料的离散趋势。,4.变异系数(coefficientofvariation,CV),(1)意义:标准差与均数之比,用百分数表示。变异系数是相对数,没有单位。(2)适用条件:观察指标单位不同,如身高、体重;同单位资料,但均数相差悬殊。(3)公式:,72,例4.17,某年某市城区120名5岁女孩身高均数为110.15(cm),标准差为5.86(cm);体重均数为17.71(kg),标准差为1.44(kg),比较其离散程度。身高体重该市城区5岁女孩体重的变异大于身高的变异。,73,某年某市城区120名5岁女孩体重均数为17.71(kg),标准差为1.44(kg),同年该地120名5个月女孩体重均数为7.37(kg),标准差为0.77(kg),比较其离散程度。5岁女孩体重5个月女孩体重该市城区5个月女孩体重的变异大于5岁女孩体重的变异。,变异指标小结,1极差较粗,适合于任何分布;2四分位间距比极差稳定,但仍未考虑每个观察值的变异。最常用于:偏态分布;分布不明确;分布末端无确切值。3标准差与均数的单位相同,最常用,适合于近似正态分布;4变异系数主要用于单位不同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化展示中心施工进度管理实施方案
- 土壤改良材料运输存储方案
- 低热值煤发电项目技术方案
- 校园防暴安全教育目标
- 生活垃圾焚烧预处理技术方案
- 智算中心边缘节点协同部署方案
- 节能型阻水电缆生产线项目施工方案
- 高速公路养护技术方案
- 农村生态景观建设与绿化美化方案
- 解析2025年美妆护肤电商供应链优化升级关键因素研究
- 夫妻忠诚协议书8篇
- 双重上市公司“管理层讨论与分析”披露差异:剖析与弥合
- 集装箱货物高效清关代理服务合同范本
- 2025年结构上岗试题及答案
- 教科版小学五年级上册科学实验报告20篇
- 2025-2026学年人教版(五线谱)(2024)小学音乐三年级上册教学计划及进度表
- 江西省宜春市2025年上半年事业单位公开遴选试题含答案分析
- 代销理财管理办法
- 医院物业管理质量标准及服务流程
- DR培训考试题及答案
- 脑卒中并发吞咽障碍个案护理
评论
0/150
提交评论