第二节 数值变量资料的统计分析-一、二、三课件_第1页
第二节 数值变量资料的统计分析-一、二、三课件_第2页
第二节 数值变量资料的统计分析-一、二、三课件_第3页
第二节 数值变量资料的统计分析-一、二、三课件_第4页
第二节 数值变量资料的统计分析-一、二、三课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节数值变量资料的统计分析

统计描述第二节数值变量资料的统计分析-一、二、三一数值变量资料的频数表二集中趋势三离散趋势四正态分布五抽样误差与参数估计六假设检验本节结构

第二节数值变量资料的统计分析-一、二、三数值变量资料的描述方法:1、频数表与频数分布2、统计指标

⑴、集中趋势指标:平均指标(算术均数、几何均数、中位数、众数、调和均数)

⑵、离散趋势指标:变异指标(极差、四分位间距、方差、标准差、变异系数)3、统计表、统计图第二节数值变量资料的统计分析-一、二、三一数值资料的频数分布

frequencydistribution(一)、频数分布表频数分布:指观察值在某组段出现的次数;频数表:为了解一组同质观察值的分布规律,在观察值个数(即样本含量,n)较多时,可编制频数分布表,简称频数表。

第二节数值变量资料的统计分析-一、二、三[例7-1]某校诊断学基础教研室为研究健康成年女性体温正常值,随机抽取102名健康(非排卵期)女大学生测试其体温,下列是测试午饭后休息一小时口腔温度(℃)的结果,试编制频数分布表。第二节数值变量资料的统计分析-一、二、三

例7-1120名健康成年女性的口腔温度测定结果(℃)编号口腔温度编号口腔温度137.0……236.96136.5337.2……437.19736.6537.09836.9636.89936.9736.810036.9……10136.74137.510236.8第二节数值变量资料的统计分析-一、二、三1.频数表的编制步骤(1)求全距(range):即最大值与最小值之差,又称为极差。本例极差:R=37.5-36.5=1.0(℃)(2)确定组距和组限:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一,再略加调整。本例i=R/10=1.0/10=0.1。列出组限,即组界限。每个组段的起点称下限,终点称上限。第一组段的必须包含最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(3)列表归组:用划记法将所有数据归纳到各组段,得到各组段的频数。第二节数值变量资料的统计分析-一、二、三组段(1)划记(2)频数,f(3)组中值,X(4)

fX(5)=(3)×(4)fx2

(6)=(3)×(4)236.5~一136.5536.551335.902536.6~336.65109.954029.667536.7~正536.75183.756752.812536.8~正正1236.8511.0516295.070036.9~正正正1736.95442.2023210.142537.0~正正正正正2537.05926.2534317.562537.1~正正正一1637.15594.4022081.960037.2~正正一1137.25409.7515263.187537.3~正737.35261.459765.157537.4~437.45149.805610.010037.5~37.6一137.5537.551410.0025合计---102---3779.80140071.4750第二节数值变量资料的统计分析-一、二、三(二)、频数分布图(直方图)第二节数值变量资料的统计分析-一、二、三(三)频数分布特征①集中趋势(centraltendency):变量值集中位置。本例在组段“37.0~”。平均水平指标②离散趋势(tendencyofdispersion):变量值围绕集中位置的分布情况。离“中心”位置越远,频数越小;且围绕“中心”左右对称。变异水平指标从不同角度说明被研究的事物。第二节数值变量资料的统计分析-一、二、三(四)频数分布类型

①正态分布:集中位置在正中,左右两侧基本对称。②

偏态分布:集中位置偏向一侧,频数分布不对称。

正偏态分布负偏态分布分布类型不同,采用的统计方法不同。第二节数值变量资料的统计分析-一、二、三正态分布:中间高、两边低、左右对称正偏态分布:长尾向右延伸负偏态分布:长尾向左延伸第二节数值变量资料的统计分析-一、二、三(五)、频数分布表的用途1、揭示资料的分布类型;2、显示频数分布的两个重要特征;

集中趋势(Centraltendency)

离散趋势(Tendencyofdispersion)3、根据频数分布的不同类型,选择适当的统计方法,进行计算与分析;4、利于发现某些特大或特小的可疑值。第二节数值变量资料的统计分析-一、二、三二、

集中趋势指标1、算术均数2、几何均数3、中位数第二节数值变量资料的统计分析-一、二、三平均数(average)

描述一组性质相同的变量值的集中趋势或者集中水平的指标称为平均数,它是样本变量值或者总体变量值的代表值。根据资料的频数分布不同,可分别计算算术均数、几何均数和中位数。

第二节数值变量资料的统计分析-一、二、三(一)算术均数

(arithmeticmean)

算术均数是最常用的集中趋势指标,简称为均数(mean),是描述一组正态分布或者近似正态分布资料集中趋势的指标。样本均数以x表示,总体均数以μ表示。

第二节数值变量资料的统计分析-一、二、三样本均数的计算方法1.小样本不分组资料(直接法)2.大样本分组资料(加权法)(weightingmethod)第二节数值变量资料的统计分析-一、二、三

均数的特性各观察值与均数之差(离均差)的总和等于零即各观察值的离均差平方和最小,即

以上两个特性表明均数是一组观察值最理想的代表值。第二节数值变量资料的统计分析-一、二、三均数的应用1、均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。2、均数适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势。3、均数在描述正态分布特征方面具有重要意义。第二节数值变量资料的统计分析-一、二、三(二)几何均数

(geometricmean)

当变量值的变化呈等比级数关系,特别是变量值的频数分布呈偏态分布,但经过对数转换后呈正态分布,即对数正态分布资料,适合于用几何均数描述其集中趋势,以符号G表示。

第二节数值变量资料的统计分析-一、二、三几何均数的计算方法1.小样本不分组资料(直接法)或2.大样本分组资料(加权法)第二节数值变量资料的统计分析-一、二、三应用几何均数注意事项

1、几何均数常用于等比级数资料,如抗体平均滴度和药物平均效价、卫生事业平均发展速度、人口的几何增长等,或用于对数正态分布资料;2、观察值不能有0,因为0不能取对数,不能与任何其它数呈倍数关系;3、观察值不能同时有正值和负值。若全是负值,计算时可把负号去掉,得出结果后再加上负号。4、同一资料,几何均数<均数。第二节数值变量资料的统计分析-一、二、三

血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数第二节数值变量资料的统计分析-一、二、三(三)中位数(median)

把n个变量值由小到大顺序排列,位次居中的变量值称为中位数。适用于描述偏态分布资料和资料分布的末端无确切数据的开口资料的集中趋势,用符号M表示。中位数是一个特定的百分位数P50。第二节数值变量资料的统计分析-一、二、三中位数的计算方法1.小样本不分组资料

当n为偶数时:

当n为奇数时:2.大样本分组资料(频数表法)第二节数值变量资料的统计分析-一、二、三中位数的应用

当数据分布对称时,理论上中位数等于算术均数,当数据经对数转换后分布对称时,理论上中位数等于几何均数。因此,中位数可用于任何分布的定量资料。此外,中位数还可用于所谓“开口资料”(即数据分布末端无确切数据的资料),也不受两端特大或特小值的影响。但对于能用算术均数或几何均数描述集中趋势的资料,应尽量使用算术均数或几何均数。

第二节数值变量资料的统计分析-一、二、三附:百分位数(percentile)

把n个变量值由小到大顺序排列,第x百分位次相对应的变量值称为第x百分位数,常用以描述一组偏态分布资料在某百分位置上的水平,以符号Px表示。一个百分位数将总体或样本的全部变量值分为两部分,理论上有x%的变量值比它小,有(100-x)%的变量值比它大。注意:样本含量过少,计算的百分位数误差较大,不稳定,宜慎用。第二节数值变量资料的统计分析-一、二、三百分位数的计算百分位数常用以描述一组偏态分布资料在某个百分位置上的水平。

计算公式:第二节数值变量资料的统计分析-一、二、三百分位数的应用

1、确定医学参考值范围,(referencerange):可用于任何分布类型的资料。如双侧95%参考值范围=P2.5-P97.5;表示有95%正常个体的测量值在此范围内。

2、中位数M与四分位数间距Q一起使用,描述偏态分布资料的基本特征。第二节数值变量资料的统计分析-一、二、三运用平均数的注意事项:平均数是描述一群同质变量值集中位置的特征值,用来说明某现象或事物数量的中等水平。1.同质的事物或现象才能求平均数有人研究某药物的利尿作用,观察了二条狗、三头兔子用药前后的排尿滴数,曾将狗与兔子的排尿滴数加在一起求平均数。由于狗体大,排尿滴数较兔子的多,得到的平均数对狗来说似嫌少,而对兔子来说又显得太多,这是虚构平均数。2.用组平均数补充总平均数如病人平均住院天数。3.根据资料的分布选用适当的平均数计量资料如是单峰对称分布,宜用均数,亦可用中位数。若是偏态分布则中位数的代表性常较均数为好。某些传染病的潜伏期、抗体滴度、细菌计数、率或比的变化速度及某些物质浓度等,其频数分布明显偏态,但经对数代换后近于正态分布的,应计算几何均数以描述其中等水平。第二节数值变量资料的统计分析-一、二、三三、离散趋势指标反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:

(一).极差(Range)(全距)

(二).四分位数间距

Quartilerange

(三).方差

Variance

(四).标准差StandardDeviation

(五).变异系数

CoefficientofVariation第二节数值变量资料的统计分析-一、二、三(一)、全距(range)(1).符号:R(2).计算:R=最大值-最小值(3).优点:简单明了(4).缺点:不能反映组内所有数据的变异度,并易受个别特大或特小值的影响。样本含量越大,其抽样误差越大。第二节数值变量资料的统计分析-一、二、三(二)、四分位数间距

(quartileinterval)(1).适用资料:⑴偏态分布资料,⑵资料分布的末端无确切数据的开口资料(2).符号:Q,(3).计算:Q=P75-P25,Qu上四分位数,QL下四分位数(4).意义:其间包含了50%的变量值。此间距越大,变量值的离散趋势越大。(5).优缺点:比极差稳定,但仍未考虑到每个观察值的变异度。第二节数值变量资料的统计分析-一、二、三(三)、方差(variance)(1).适用资料:正态分布或近似正态分布资料。(2).符号:样本S2,总体σ2。(3).意义:当两组或多组资料进行比较时,若各组均数相近,度量衡单位相同的条件下,方差小,说明变量值围绕在均数的周围,变异度小;反之,方差大,说明变量值远离均数,变异度大。(4).计算:⑴直接法⑵加权法第二节数值变量资料的统计分析-一、二、三样本方差为什么要除以(n-1)?自由度(degreeoffreedom,简记为DF)(1)定义:随机变量能自由取值的个数(2)计算公式:υ=n-限制条件个数例:有一四个(n=4)数据样本,受到的条件限制,在自由确定4,2,5三个数据后,第四个数只能是9,因而υ=n-1=3。第二节数值变量资料的统计分析-一、二、三(四)、标准差

(standarddeviation)

(1).适用资料:正态分布或近似正态分布资料。(2).符号:样本S,总体σ。(3).意义:当两组或多组资料进行比较时,若各组均数相近,度量衡单位相同的条件下,标准差小,说明变量值围绕在均数的周围,变异度小;反之,标准差大,说明变量值远离均数,变异度大。(4).计算:⑴直接法⑵加权法

第二节数值变量资料的统计分析-一、二、三标准差的计算因方差的度量单位是原度量单位的平方,故将方差开方,恢复成原度量单位,得总体标准差σ和样本标准差S。

总体标准差

样本标准差第二节数值变量资料的统计分析-一、二、三样本标准差的计算方法1.小样本不分组资料2.大样本分组资料(加权法)第二节数值变量资料的统计分析-一、二、三

标准差的应用1、描述正态分布资料的变异程度;2、衡量样本均数的代表性:单位相同,均数相近的条件下,标准差大,表示变量值离均数较远,均数的代表性差。文献中表示为:X±S或X±SD;3、结合均数描述正态分布的基本特征,可以概括地估计变量值的频数分布;标准差与均数相结合,按照正态分布的规律性,制定医学参考值范围;4、计算变异系数和标准误。第二节数值变量资料的统计分析-一、二、三(五)、变异系数

(coefficientofvariation)

是描述一组正态分布或近似正态分布资料的离散趋势或变异程度(相对变异程度)的指标,以CV(%)=S/x×100%表示。适用于变量值单位不同或均数相差悬殊时,来比较两组或多组资料的变异程度大小。第二节数值变量资料的统计分析-一、二、三变异指标小结1.极差较粗,适合于任何分布2.标准差与均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用。如正态分布资料:均数±标准差;偏态分布资料:中位数(四分位数间距)。第二节数值变量资料的统计分析-一、二、三

正态分布偏态分布对数正态分布

或开口资料集中趋势均数中位数几何均数

离散趋势标准差四分位数间距对数标准差变异系数数值变量资料的描述指标总结第二节数值变量资料的统计分析-一、二、三复习思考题各平均数的适用条件标准差的应用第二节数值变量资料的统计分析-一、二、三反映计量资料集中趋势的指标是:A.平均数B.标准差C.标准误D.频率E.全距在列频数表时,分的组段数一般为:A.5~10个B.10~15个C.10~30个D.15~20个E.>20个AB第二节数值变量资料的统计分析-一、二、三计算抗体滴度的平均滴度习惯上用:A.中位数B.几何均数C.众数D.算术均数E.百分位数计算平均潜伏期宜用:A.算术均数B.全距C.离均差积和D.中位数E.变异系数BD第二节数值变量资料的统计分析-一、二、三表示一组观察值分布的离散程度大小最常用的指标是:A.全距B.离均差C.方差D.标准差E.离均差平方和计量资料的标准差这个指标:A.不会比均数大B.不会比均数小C.要比标准误小D.不决定于均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论