定量资料的统计描述-医学统计学.ppt_第1页
定量资料的统计描述-医学统计学.ppt_第2页
定量资料的统计描述-医学统计学.ppt_第3页
定量资料的统计描述-医学统计学.ppt_第4页
定量资料的统计描述-医学统计学.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学,定量资料的统计描述,案例,第二章定量资料的统计描述,利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。,第一节频数与频数分布,频数与频数分布频数:重复观察某个变量,其中某个取值的个数。频数分布表(frequencydistributiontable):又称频数表。是将原始数据值适当分组后得到各组的频数,如表2-1频数分布表。适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。,频数与频数分布,连续型定量变量的频数分布例2-2抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L),将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。,频数与频数分布,数据,频数与频数分布,手工编制表2-2步骤。(1)计算全距(range,R),也称为极差R=最大值最小值=29.64-7.42=22.22(mol/L)(2)确定组段数与组距:组段数一般可在815之间选择。组距=上限下限=R/(预计的组段数)。本例如果预计取12个组段,则组距长度约为22.22/12=1.85,取整数2。两端的组段应分别包含最小值或最大值;(3)确定组限,列表做出如表2-2的表格,将选好的组段顺序地列在(1)列。按照“下限x上限”的原则确定每一例数据x应归属的组段。,表2-2120名正常成年男子血清铁含量的频数分布表,一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一,13681220271812841,组段,划记,频数,120,频率,累计频数,累计频率,频数与频数分布,频数分布图:在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。横轴:血清铁含量纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。,频数与频数分布,直方图,频数分布的两个特征,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18这个组段,这种现象为集中趋势。,离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近6,最高的接近30,这种现象称为离散趋势。,由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。,离散趋势或变异程度是指观察值之间参差不齐的程度。,频数与频数分布,对称分布:频数最多的组段在中央,图2-1偏态分布:正偏峰分布:峰向左侧偏移的分布,右侧的组段数多于左侧,为右偏峰分布。图2-2负偏峰分布:峰向右侧偏移的分布,左侧的组段数多于右侧,为左偏峰分布。图2-3,频数分布的两个类型,频数与频数分布,离散型定量变量的频数分布例2-11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7等共96个数值,频数与频数分布,表2-1:96名妇女产前检查次数分布的频数分布表,频数与频数分布,图2-1,直条图,频数表的用途1.揭示频数分布的分布特征和分布类型。文献中常将频数表作为陈述资料的形式。2.便于进一步计算统计指标和进行统计分析处理。3.便于发现某些特大或特小的可疑值。4.当样本含量比较大时,可用各组段的频率作为概率的估计值。,第二节定量变量的特征数,集中趋势统计指标平均数对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数(Mean):适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为,定量变量的特征数,1)直接计算法:计算公式为式中X1,X2和Xn为所有观察值,n为样本含量,(希腊字母,读作sigma)为求和的符号。,定量变量的特征数,例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L),定量变量的特征数,定量变量的特征数,2)加权频数表法:计算公式为加权均数=2228/120=18.57(mol/L)直接法均数=18.61(mol/L)。,定量变量的特征数,几何均数(geometricmean,G)适用于观察值变化范围跨越多个数量级的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。在医学研究中常适用于免疫学的指标。其计算公式为,定量变量的特征数,例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。,定量变量的特征数,加权法计算几何均数。频数表资料例2-652例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。,定量变量的特征数,定量变量的特征数,52例慢性肝炎患者的HBsAg滴度的几何均数为1119.74705。,定量变量的特征数,中位数(median,M)可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。奇数:偶数:,定量变量的特征数,百分位数法计算中位数:频数表资料百分位数的计算公式为式中LX、iX和fX分别为第百分位数所在组段的下限、组距和频数,fL为小于该组段的累计频数,n为总例数。即为中位数的计算公式,定量变量的特征数,例2-8试利用表2-2的频数表求例2-2中血清铁含量的中位数。从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(mol/L)如果按(2-7)式计算,结果为18.99(mol/L)。,定量变量的特征数,离散趋势统计指标例2-11试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。将三组数据分别点在直线上,如图2-4所示。,定量变量的特征数,1.极差(Range,R)极差:一组变量值最大值与最小值之差。极差不能反映所有数据的变异大小,且受样本含量的影响较大,N大,极差值相差也大,故其稳定性较差。例2-11中三组数据的极差A组R=34-26=8B组R=36-24=12C组R=34-26=8,定量变量的特征数,2.四分位数间距(Quartilerange,Q)四分位数是把全部变量值分为四部分的百分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距(quartilerange)是由第3四分位数和第1四分位数相减而得,记为Q。它一般和中位数一起描述偏态分布资料的分布特征。,定量变量的特征数,3.方差方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。离均差:每一个变量值与均数的差值,离均差平方和(sumofsquares):离均差平方后相加得到的值方差:离均差平方和除以观察例数得到的值,定量变量的特征数,方差计算公式为4、标准差(Standarddeviation),定量变量的特征数,例2-14分别计算例2-11中三组数据的标准差。按照公式(2-11)与标准差的定义A组B组C组C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大,定量变量的特征数,5.变异系数变异系数(coefficientofvariation)记为,多用于观察指标单位不同时的变异程度或均数相差很大的时候的比较。其计算公式为,定量变量的特征数,例2-16通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与体重的变异系数。体重的相对变异要大于身高的相对变异,例2-17由下表资料可知,虽然儿童身高的标准差随着年龄的增大而增加,但不同年龄儿童身高的均数相差较大,在比较身高的变异度时,不能只看标准差的大小。若用变异系数分析,就可看出6岁以下儿童随着年龄增加,其身高的变异程度逐渐减少。,小结,掌握内容:频数分布表的编制及用途,频数分布的两大特征和频数分布的类型,描述定量资料的几个常用指标的意义和适用范围,如何编制描述性统计表熟悉内容:各种指标的计算方法,软件操作,SPSS(StatisticalPackagefortheSocialScience,StatisticalProductandServiceSolutions)SAS(StatisticalAnalysisSystem)STATA(DataAnalysisandStatisticalSoftware),案例讨论,某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?,根据统计显示,多数车祸发生在车子行驶于一般车速的时候,只有少数发生在车速超过每小时150公里以上的时候。这是否表示开快车比较安全?调查显示,脚较大的儿童识字能力也比较好,这是否表示儿童脚的大小,可以测量出他的识字能力?,煤矿工作的工人与非损伤工种的工人的寿命一样长,是否可以说明煤矿工作不会影响寿命?如果统计显示在亚利桑那州有较多的人死于肺部疾病,这是否表示和别的州比较起来,亚利桑那的气候比较容易感染肺部疾病?,A、B两市,一研究者分别从两市市立医院的出生记录中获取100名儿童的出生体重,经计算A市100名儿童平均出生体重为3.0kg,B市100名儿童平均出生体重为3.1kg。请评价以下说法是否正确,为什么?(1)B市儿童平均出生体重高于A市。(2)B市市立医院100名儿童平均出生体重高于A市市立医院100名儿童平均出生体重。(3)B市市立医院儿童平均出生体重高于A市市立医院。,习题1.反映定量变量观察数据集中位置的指标是()A标准差B标准误C频率D均数2.在正态分布条件下,表示变量值变异情况的指标最常用的是()A标准差B标准误C变异系数D百分位数,3.变异系数越大说明()A标准差越大B标准差、平均数都大C以均数为准变异程度大D平均数小4.在服从正态分布N(,2)条件下,样本标准差S的值()A与集中趋势有关B与观察例数n无关C与平均数有关D与个体的变异程度有关5.已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,12,其潜伏期的平均水平约为()A9天B9.5天C10天D11天,6.描述一组偏态分布资料的变异度,以()指标较好。A.全距B.标准差C.变异系数D.四分位数间距E方差7.用均数和标准差可以全面描述()资料的特征。A.正偏态分布B.负偏态分布C.正态分布D.对称分布E对数正态分布8.各观察值均加(或减)同一数后()。A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变E以上都不对,9.比较身高和体重两组数据变异度大小宜采用()。A.变异系数B.方差C.极差D.标准差E四分位数间距10.偏态分布宜用()描述其分布的集中趋势。A.算术均数B.标准差C.中位数D.四分位数间距E方差11.各观察值同乘以一个不等于0的常数后,()不变。A算术均数B.标准差C.几何均数D.中位数E变异系数,12.()分布的资料,均数等于中位数。A.对数正态B.正偏态C.负偏态D.偏态E正态(对称分布的一种)13.对数正态分布是一种()分布。(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)A.正态B.近似正态C.左偏态D.右偏态E对称14.最小组段无下限或最大组段无上限的频数分布资料,可用()描述其集中趋势。A.均数B.标准差C.中位数D.四分位数间距E几何均数15.血清学滴度资料最常用来表示其平均水平的指标是()。A.算术平均数B.中位数C.几何均数D.变异系数E标准差,16观察单位为研究中的()。A样本B.全部对象C影响因素D.个体17抽样的目的是()。A研究样本统计量B.由样本统计量推断总体参数C研究典型案例研究误差D.研究总体统计量18参数是指()。A参与个体数B.总体的统计指标C样本的统计指标D.样本的总和,19关于随机抽样,下列那一项说法是正确的()。A抽样时应使得总体中的每一个个体都有同等的机会被抽取B研究者在抽样时应精心挑选个体,以使样本更能代表总体C随机抽样即随意抽取个体D为确保样本具有更好的代表性,样本量应越大越好20.以下指标中()可用来描述计量资料的离散程度。A.算术均数B.几何均数C.中位数D.标准差21.变异系数CV的数值()。A.一定大于1B.一定小于1C.可大于1,也可小于1D.一定比标准差小22.数列8、-3、5、0、1、4、-1的中位数是()。A.2B.1C.2.5D.0.5,23.关于标准差,那项是错误的()。A.反映全部观察值的离散程度B.度量了一组数据偏离平均数的大小C.反映了均数代表性的好坏D.不会小于算术均数24.中位数描

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论