定量资料的统计学描述_第1页
定量资料的统计学描述_第2页
定量资料的统计学描述_第3页
定量资料的统计学描述_第4页
定量资料的统计学描述_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高职高专“十四五”医学检验技术专业系列教材—医学统计学医

学高职高专“十四五”医学检验技术专业系列教材第三章

数值变量资料统计分析许广涛 山东药品食品职业学院目

录第一节数值变量资料的频数分布01第二节数值变量资料的统计指标02第三节正态分布及其应用03学习目标知识目标能力目标素质目标了解频数分布的类型、频数分布表和频数分布图的用途,了解正态分布的应用;理解正态分布的概念;掌握描述集中趋势的统计指标、描述离散趋势的统计指标和正态曲线下面积分布规律。能编制频数表,绘制频数分布图;会计算医学数据的算数平均数、几何平均数、中位数和百分位数等描述集中趋势的统计指标;会计算医学数据的极差、方差、标准差和变异系数等描述离散趋势的统计指标;能绘制正态曲线和正态曲线下面积分布规律图。培养学生的统计思想;培养学生一切用数据说话、实事求是的科学精神;养成学生严谨、周密的理性思维习惯。数值变量资料的频数分布第一节案例3-1为保证人民群众健康,加强重大慢性病管理,预防慢性病,2023年某地开展居民慢性病及危险因素调研工作,随机抽取本地290名居民进行体检,得到体检数据见SPSS数据库。为开展心脑血管疾病的研究,现从数据库中取出290名居民的血清总胆固醇含量数据,见表3-1。对这组数据如何进行整理,可得到血清总胆固醇含量的分布情况?血清总胆固醇含量的分布情况如何?血清总胆固醇含量与该地心脑血管疾病的发病情况有无关系?不同性别、不同年龄的居民总胆固醇含量有无不同?表3-12023年某地290名居民血清总胆固醇含量(mmol/L)3.283.783.505.204.225.273.243.502.806.183.254.362.983.103.244.773.773.684.664.333.893.713.035.733.214.803.672.784.334.133.503.683.904.926.005.733.903.354.204.953.953.534.154.192.903.763.664.444.763.084.554.453.714.763.645.014.723.224.574.423.314.544.395.023.535.696.164.786.443.433.195.295.174.906.314.094.414.163.583.446.674.225.566.335.334.664.115.406.165.913.395.705.434.255.494.313.613.194.364.302.983.334.864.954.495.374.014.353.734.223.134.564.554.254.635.733.294.414.264.173.974.974.043.755.214.664.262.975.564.354.915.184.415.935.074.913.863.364.434.762.853.625.744.733.734.435.504.774.404.445.303.725.323.853.814.273.793.205.373.773.424.173.073.994.233.314.663.703.623.953.925.273.534.302.864.423.243.723.943.653.143.793.094.334.493.334.515.235.233.483.245.925.313.755.635.454.883.944.295.983.704.043.835.473.524.784.564.275.235.135.814.434.355.074.353.765.114.063.723.643.434.334.236.385.783.714.895.133.925.384.063.384.003.194.745.204.344.385.235.314.904.574.033.905.653.422.954.364.575.844.655.134.184.565.313.375.845.824.434.663.894.273.524.253.534.044.575.545.705.104.235.685.234.764.703.594.755.993.984.655.046.004.284.984.664.984.494.244.434.53当获得一组医学资料后,首先要判定资料的类型。案例3-1的研究指标为血清总胆固醇含量,它是有单位的连续变量,故该资料为数值变量资料。资料确定为数值变量资料后,先将其整理成频数表,作频数分布图,并判断其分布的类型;再根据资料的分布类型,用反映资料集中趋势和离散趋势的指标进行统计学描述;最后在对数值变量资料进行初步统计分析的基础上,进行假设检验、方差分析和相关性分析。一、数值变量资料的频数分布通过调查或实验所获得的原始数据通常是杂乱的,需要对原始资料进一步整理,使其更加条理化、系统化。如果观察例数较多,可以对数据进行分组,制作频数表或者频数分布图,显示数据的分布规律。所谓频数就是观察值的个数,频数表(frequencytable)即由组段和频数构成的表格。频数分布就是变量在其取值范围内各组段的分布情况。

编制案例3-1的频数表总胆固醇(nmol/L)划记频数频率(%)累计频率(%)2.7~正正134.484.483.1~正正正3110.6915.173.5~正正正正正正正正正4615.8631.033.9~正正正正正正正正正4716.2147.244.3~正正正正正正正正正正正5518.9766.214.7~正正正正正3211.0377.245.1~正正正正正3211.0388.285.5~正正正止196.5594.835.9~正正103.4598.286.3~6.7正51.72100.00合计-290100.00-表3-22023年某地290名居民血清总胆固醇含量(mmol/L)2.频数分布图的绘制将数值资料的频数表,以观察值为横轴,以各组频数为纵轴,每一组段画一直方,如下图所示,称为直方图。直方面积与该组段频数成正比。

2023年某地290名居民血清总胆固醇含量3.频数分布类型医学研究中常见数值变量资料的频数分布类型可以分为三种类型:(1)正态分布正态分布(normaldistribution)图形高峰位于中心,左右逐步下降,呈现左右对(如下图a)。(2)正偏态分布正偏态分布(skewedpositivelydistribution)图形高峰偏左侧,即频数主要集中在观察值较小的一端(如下图b)。(3)负偏态分布负偏态分布(skewednegativelydistribution)图形高峰偏右侧,即频数主要集中在观察值较大的一端(如下图c)。

常见的频数分布类型示意图4.频数分布表和频数分布图的用途(1)将原始数据以相对直观、有序的表格或图形的形式表达出来,以便揭示数值变量资料的分布类型;(2)揭示数值变量资料的两个重要特征,即集中趋势(centraltendency)和离散趋势(tendencyofdispersion)。如表3-2可见,150名病人尿酸含量向中央集中,以345~组段附近居多,为集中趋势;从中央到左右两侧,频数分布逐渐减少,为离散趋势。(3)便于发现资料中某些特大或特小的可疑值。数值变量资料的统计指标第二节

我们通过资料整理得到频数分布表或统计图形等,可以大致了解资料分布的形状和特征,但要对资料分布的特征和规律进行全面深入分析和定量研究,就需要了解反映资料分布特征不同侧面的统计指标。下面我们重点介绍数值变量资料分布的两个最重要数字特征:描述集中趋势的统计指标和描述离散趋势的统计指标。(一)描述集中趋势的统计指标描述集中趋势的指标也叫平均数(average),是一组用于描述数值变量资料平均水平或集中趋势的指标,又被称为变量分布的位置度量。常用的平均数有算数均数、几何均数和中位数等,其中应用最多的是算数均数。1.算术均数算术均数(arithmeticmean)简称为均数(mean),总体均数一般用希腊字母表示,样本均数用(读作x-bar)表示。适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能够反映全部观察值的平均水平,特别是对服从正态分布或近似正态分布变量,均数具有非常重要的作用。均数的计算方法有直接法和加权法。(1)直接法对未经整理的原始数据,可采用直接法。直接法就是直接将所有原始观察值相加后,再除以总例数,其公式为:

式中

为观察值,

为样本含量,希腊字母

(读作sigma)为求和符号。例3-1

有10名30-40岁正常成年女子的血清甘油三酯(

)的测定值分别为1.36,2.11,1.70,0.72,1.65,1.54,1.35,1.15,2.70,1.42,求其算术均数。解:(2)加权法当观察例数较多,可以先将原始数据编制成频数分布表,再用加权法计算,其公式为:式中

为频数表资料中各组段的组中值(组段的中间值,即该组段下限和上限之和除以2),

为对应组段的频数。这里频数

起到“权重”的作用,即某个组频数越多,其权重就越大,其组中值对均数的影响也大,反之亦然。利用表3-2的资料,用加权法计算2023年某地290名居民血清总胆固醇含量的均数。

上述性质表明,均数是误差最小的总体数据的代表值,因此当数据分布为对称或近似对称时,均数是集中趋势的最好代表值。但是当数据分布的偏斜程度较大时,均数易受数据极端值的影响,不能很好地反映数据的集中趋势,此时需要考虑使用中位数等其它反映集中趋势的统计指标。

①②

例3-2有8份血清的某抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,1:256,求8份血清的平均抗体效价。解:将各抗体效价的倒数代入公式得

其公式为:(2)加权法

当观察例数较多或者资料为频数表资料时,可采用加权法计算,例3-3某地34名8月龄儿童接种麻疹疫苗6个月后,血清血凝抑制抗体滴度的测定结果见下表,求平均滴度。解:按公式,几何均数为表3-4某地34名8月龄儿童接种麻疹疫苗后血清血凝抑制抗体滴度的计算表抗体滴度(1)频数()(2)滴度倒数(3)(4)(5)=(2)×(4)1:2.532.50.39791.19371:5.075.00.69904.89301:10.01410.01.000014.00001:20.0620.01.30107.80621:40.0440.01.60216.4084合计34()--34.3013()公式为:①几何均数常用于等比数列资料或对数正态分布资料。②所有观察值中不能有0。③观察值不能同时出现正值和负值,如果观察值全部为负值,则可以在计算时将负号去除,待得出结果后再冠以负号。④同一组资料求得的几何均数小于均数。(3)使用几何均数注意事项:

该10片药片直径的中位数为14.45。例3-4现从某药厂某日生产的药片中随机抽取10片,测得其直径分别为(单位:mm)

14.1,14.7,14.9,14.4,14.6,14.5,14.4,14.8,14.2,14.4

试计算其均值。解:因为

,为偶数,

所以

(2)频数表法当观察例数较多时,计算中位数和百分位数,可以先将数据编制成频数表,按照所分组段分别计算累计频数和累计频率,从累计频率中找到中位数或者某百分位数所在的组段,按照下列公式计算中位数或者百分位数:

例3-5为掌握某地区儿童体内铅的水平,该市妇幼保健所于2017年采取随机抽样的方式调查了该市308名6岁以下儿童的尿铅含量(

),现将资料编制成频数表(表3-5),试计算该资料的中位数及百分位数

。尿铅值()(1)例数(2)累计频数(3)累计频率(%)(4)=(3)/n0~27278.7725~548126.3050~9517657.1475~5523175.00100~3927087.66125~2129194.48150~1230398.38175~5308100.00合计308()--表3-52017年某市308名6岁以下儿童的尿铅含量频数表解:根据第(2)栏,计算出累计频数和累计频率,根据累计频率,找出中位数、

分别在50~、25~和150~三个组段中,代入公式得:③一般情况下,在例数较多时,分布在中间的百分位数较稳定,靠近两端的百分位数,仅在样本量足够大时才稳定,所以当样本量较小时不宜用靠近两端的百分位数来估计频数的分布范围。(3)中位数和百分位数的应用及注意事项①中位数和百分位数的计算对资料没有特殊的要求,所以任何资料均可以计算。描述数值变量集中趋势的指标有均数、几何均数、中位数等,在具体问题中,指标的选择要依据资料的分布类型。正态分布的资料选择均数,对数正态分布的资料选择几何均数,而偏态分布的资料则常选择中位数。②中位数只受到位置居中的变量值影响,与两端的极端值无关,因此,在对极端值的影响方面,中位数比均数具有较好的稳定性,但不如均数精确。(二)描述离散趋势的统计指标

描述数值变量资料离散趋势的指标也称为描述变异程度的统计指标,常用的有极差、四分位数间距、方差、标准差和变异系数等。

1.极差

极差反映变量分布的范围,极差越大,说明数据分布范围越大,离散程度越大,极差越小,说明数据分布范围越小,数据间离散程度越小。解:从集中趋势分析,上述三组资料的均数相等,即集中趋势相同,三个人的红细胞计数水平没有差别,但是我们容易看出,各组资料的离散程度是不同的,因此,需要计算三组资料极差,从而比较三组资料的离散程度。例3-6设甲、乙、丙三人,采某人的耳垂血,然后进行红细胞计数,每人数5个计数盘,结果见下表,试评价谁的计数更准确。根据极差定义,计算三组资料的极差得可以看出,丙的极差最小,说明丙的观察值比甲和乙的观察值更集中;甲的极差最大,说明甲的观察值比乙和丙的观察值更分散。观察者第一次第二次第三次第四次第五次甲4.44.65.05.45.65.0乙4.84.95.05.15.25.0丙4.94.95.05.15.15.0

四分位数间距(quartilerange)用

表示,就是上四分位数与下四分位数之差,即

。对来说,有25%的观察值大于它,称为上四分位数,记为

;对来说,有25%的观察值小于它,称为下四分位数,记为

,故有

2.四分位数间距四分位数间距反映了中间50%数据的离散程度,其数值越小,说明中间数据越集中,数值越大,说明中间数据越分散,它具有不受极端值影响的特点,在一定程度上克服了用极差描述离散程度的不足,但它只考虑中间50%数据的变异度,未考虑到所有数据的变异度。四分位数间距常与中位数联用描述偏态分布资料的特征。

3.方差

方差的大小反映所有观察值的变异情况,方差越大,观察值的变异度越大,即离散程度越大。方差适合于描述对称分布,尤其是正态分布资料的离散趋势。

4.标准差(2)标准差的用途①反映一组计量资料的离散程度,标准差越大,变量值分布越分散,均数的代表性越差,反之亦然。②用于计算变异系数和标准误。③结合均数与正态分布的规律,估计参考值范围。对频数表资料用加权法计算标准差的公式可以写成:

变异系数是无量纲的相对变异性的统计量,其大小反映了数据偏离其均值的相对离散程度。在比较不同总体,特别是不同量纲或者均数相差较大的两组数据的离散程度时,通常不能用方差、标准差等变异性统计量,而应该用变异系数。5.变异系数例3-7现有某高职学院刚入学的男大学生100人,测得其身高的均值为171.5cm,标准差为8.68cm;体重的均值为65.34kg,标准差为5.62kg,试比较身高与体重的变异程度。解:由于身高和体重的量纲不同,故不能直接由标准差比较其离散程度,而应该由变异系数比较其相对离散程度。可见,该学院男大学生体重的相对变异较大,或者说身高比体重分布相对更集中。描述数值变量离散趋势的指标有极差、四分位数间距、方差、标准差、变异系数等,但指标的选择要依据资料的分布类型。正态分布的资料常选择标准差,偏态分布的资料选择极差和四分位数间距,而不同性质和度量衡单位不同的资料之间的比较则常选择变异系数。正态分布及其应用第三节1.正态分布正态分布(normaldistributioncurve)是统计学中最重要的连续型分布之一,也是医学研究中常见的资料分布,是统计学原理的基础,许多统计学方法都依赖于正态分布。正态分布是数理统计中发展最为完善的一种分布,许多非正态分布的资料,当观察例数足够多时,也可以用正态分布作为它的极限分布形式。有时也将一些非正态分布资料通过数理转化为正态分布来处理。正态分布的曲线是以均数为中心,中间高,两边逐渐降低,左右完全对称的钟形曲线,曲线两端越来越接近横轴,但永远不会与横轴相交。

正态分布曲线的特点:(1)关于

对称。(2)在

处取得该概率密度函数的最大值,在

处有拐点,表现为钟形曲线。(3)曲线与横轴之间的面积为1。(4)

为曲线的位置参数,决定曲线在横轴上的位置,

增大,曲线沿横轴向右移;反之

减小,曲线沿横轴向左移。如右图所示。(5)

为曲线的形状参数,决定曲线的形状,当

恒定时,

越大,数据越分散,曲线越“矮胖”;

越小,数据越集中,曲线越“瘦高”。如右图所示。

正态分布曲线位置、形状与、关系示意图2.正态曲线下面积分布规律正态曲线下面积分布有一定的规律性,如下图所示:(1)正态曲线与横轴间所夹面积恒等于1或100%。(2)以直线为

对称轴,

范围内曲线下的面积相等,各占50%。(3)区间

的面积为68.27%。(4)区间

的面积为95%。(5)区间

的面积为99%。为了应用方便,对于任何一个服从均数为

,标准差为

的正态分布变量

,可以通过变量的标准化变换

,转化为均数为0,标准差为1的标准正态分布

。也就是将正态分布曲线的原点移动到0的位置,并使新的坐标的横轴尺度以

为单位。

的概率密度函数为:

标准正态分布曲线如下图所示:正态分布标准正态分布面积或概率(%)标准正态分布曲线下面积的规律与正态分布相似,具体如下:

医学参考值范围(referencerange)也称为正常值范围(normalrange),是“正常人”的解刨、生理生化等指标的波动范围,在临床上用作判定正常或异常的参考标准。所谓“正常人”不单纯指机体所有器官系统功能和器质均正常的人,也包括排除了可能影响所研究指标的疾病或因素的人,即符合特定正常标准的人群。(2)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论