《医学统计学》教学课件-计量资料的统计描述_第1页
《医学统计学》教学课件-计量资料的统计描述_第2页
《医学统计学》教学课件-计量资料的统计描述_第3页
《医学统计学》教学课件-计量资料的统计描述_第4页
《医学统计学》教学课件-计量资料的统计描述_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章计量资料的统计描述,主讲:黄品贤,第二章计量资料的统计描述,第一节频数分布第二节计量资料的统计指标第三节正态分布第四节医学参考值范围的制定例题和SPSS电脑实验,学习目的,通过对本章的学习,能够根据计量资料的分布类型与特征,选用适宜的统计指标对计量资料进行描述。,频数分布,集中趋势、离散趋势常用描述指标,正态分布的概念、特征,医学参考值范围的制定方法。,学习要点,第一节频数分布,一、频数分布表在医学研究中,当观察对象的样本量较大时,需要将收集到的数据进行整理。通常是将计量资料中的观察值按某属性进行分组,统计不同组别观察值的例数,观察值的例数称为频数(frequency),表示各组别内观察值的频数分布,再按分组的标准及其相应的频数列表,即为频数分布表,简称频数表(frequencytable)。频数表可以显示数据的内在分布规律。,【例2-1】某地2009年随机抽取102名成年男子测量其血红蛋白含量(g/L)的资料如下,试编制其血红蛋白的频数表。,编制频数表的步骤,1.求极差:也称全距(Range)R=最大值(xmax)最小值(xmin)=173-103=70(g/L)2.确定组段数(取10-15组)和组距:组距(i)=全距组段数=7010=7(g/L)3.写出组段:起始组段取小于或等于最小值的数,最后组段包含最大值。LXU。4.分组划计并统计频数。,频数图:是在频数表基础上,以直方的面积大小表示频数的多少,以直方面积在总面积中的比例表示频率大小的图形。主要用于描述或探察数据潜在分布类型特征。,二、频数分布图,二、频数分布图,图2-1某地2009年102名成年男性的血红蛋白含量,三、频数表与频数分布图的用途,对称分布(symmetricdistribution)正态分布(normaldistribution)非正态分布(non-normaldistribution)非对称分布(dissymmetricdistribution)正偏态(positiveskewness)负偏态(negativeskewness)单峰分布双峰或多峰分布,(一)描述频数分布的类型,对称分布,正(右)偏态分布,负(左)偏态分布,(二)展示频数分布的特征,频数分布有两个重要特征集中趋势:指一组变量值的集中倾向或中心位置。离散趋势:即一组变量值的离散倾向。集中趋势和离散趋势是揭示数据分布的类型和正确进行统计描述与统计推断的前提。,(三)异常值的识别,频数表有助于发现某些极小或极大的异常值。如在频数表的两端连续出现几个组段的频数为0后,又出现一些极小值或极大值,应怀疑这些资料的准确性,需对这些数据进一步核对和复查,若发现错误,及时改正。,(四)有利于进一步对资料进行统计描述与分析,不同分布类型的资料,采用的统计描述指标及统计推断方法各不相同。基于频数表反映出的数据分布类型与特征,便于进一步对资料进行统计描述与分析。,第二节计量资料的统计描述,一、集中趋势的描述二、离散趋势的描述,一、集中趋势的描述,平均数(average):是描述一组同质观测值集中趋势的指标。主要作用:作为一组观察值的代表值,表明该组观察值集中趋势的特征;便于对同类研究对象进行对比分析。常用的平均数:算术平均数(arithmeticmean,总体均数为、样本均数为)几何平均数(geometricmean,G)中位数(median,M),(一)算术均数(arithmeticmean),均数(mean):一组性质相同的观察值在数量上的平均水平。(总体)(样本)计算:直接法、加权法适用条件:对称分布特别是正态分布或近似正态分布。,(二)几何均数(geometricmean),几何均数G:n个数值的乘积开n次方。计算:直接计算法加权法适用条件:等比资料、对数正态分布。例如抗体滴度。注意:观察值不能为0、不能同时有正有负,同一资料算得的几何均数小于算术均数。,可取对数、再取反对数来简化计算,【例2-5】某地36名儿童接种麻疹疫苗1个月后,血凝抑制抗体滴度见表2-2,求其平均滴度。,此例的几何均数为54,其平均抗体滴度为1:54。,(三)中位数(median),中位数M:将一组观察值从小到大排序后,位置居中的那个变量值(n为奇数)或位置居中的两个变量值的均值(n为偶数)。适用条件:任意类型的资料,特别是偏态资料,开口资料,分布情况不明的资料。用途:疾病的潜伏期、发汞、尿铅等,百分位数(percentile),百分位数:将一组观察值从小到大排序,分成100等份,各等份含1%的观察值,分割界限上的数值即为第X百分位数,是一个界值。PX常用的百分位数:P5P25P75P95用途:百分位数常用于估计医学参考值范围,【例2-7】176名某传染病患者潜伏期(天)资料如表2-3,求其平均潜伏期及潜伏期的P25及P75。,(四)众数(mode),众数是指一组观察值中出现次数最多的那个数值,一组观察值可以有多个众数,也可以没有众数。众数只有在数据量较大时才有意义。众数不受极端值大小的影响,但它掩盖的信息经常比它揭示的要多。例2-1资料中有频数最大为4的6个众数,分别为131、133、135、138、142、145(g/L);当列成表2-1的频数分布时,由于“138”组的频数为21最大,因此众数为该组的组中值141.5(g/L)。众数也可描述计数变量资料特征,如一般人的体质按“九类”分,以“平和质”多见,则体质的众数就是“平和质”。,(五)均数、中位数和众数间的关系,当数据呈对称分布或接近对称分布时,均数、中位数和众数相等或接近相等,这时则应选择均数描述集中趋势。当数据为偏态时,三者虽不相等,但具有相对固定的关系:在右偏态分布中,均数是三者最大的,中位数适中,而众数最小;在左偏态分布中,众数是三者最大的,中位数适中,而均数最小。因此,当数据为偏态分布,特别是偏度较大时,应选择中位数描述集中趋势。,二、离散趋势的描述,离散趋势(dispersion):描述一组同质观察值的变异程度大小(数据的均匀性)的综合指标。常用的变异性指标:极差(range,R)四分位数间距(quartilerange,QR)标准差(standarddeviation,s)变异系数(coefficientofvariation,CV)标准误(standarderror,SE)不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。,三组同性别同年龄儿童的体重如下:甲组:2628303234甲=30Kg乙组:2427303336乙=30Kg丙组:2629303134丙=30Kg,全距(R):即极差,最大值与最小值之差。意义:越大说明离散程度越大优点:计算简单缺点:不能全面反映资料的离散程度;不稳定,易受极端值影响,(一)全距(Range),(二)四分位数间距(Quartileinterval),四分位数间距(Q):将一组资料分为四等份,上四分位数QU(P75)与下四分位数QL(P25)之差。意义:越大说明离散程度越大优点:较稳定、适宜于末端分布无确切值的资料缺点:不能全面反映资料的离散程度,(三)方差(variance),方差(variance):也称均方差(meansquaredeviation),观察值的离均差平方和的均值。表示一组数据的平均离散情况。总体方差2,样本方差s2。,(四)标准差(standarddeviation,s),标准差:即方差开平方,其单位与原变量X的单位相同。自由度:随机变量能自由取值的个数。意义:全面反映了一组观察值的变异程度。越小说明观察值的变异程度越小,均数代表性越好,反之说明观察值变异程度越大,均数代表性越差。应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围。,(五)变异系数(coefficientofvariation,CV),变异系数(CV):标准差与均数之比用百分数表示无单位应用:1.单位不同时组间变异程度的比较2.均数相差悬殊的组间变异程度的比较,第三节正态分布及其应用(normaldistribution),一、正态分布的图形及其概率密度函数二、正态分布的特征和正态曲线下的面积分布规律三、正态分布的应用,频数分布图,图2-1某地2009年102名成年男性的血红蛋白含量,x为连续随机变量,=3.14159,e为自然对数的底即2.71828,为总体均数,为总体标准差,记为xN(,2),一、正态分布概念与特征,正态分布(normaldistribution)也叫高斯分布(Gaussiandistribution),是以均数为中心,中间频数分布多两侧逐渐减少的对称分布,其概率密度函数为:,(一)正态分布概念,(二)正态分布的特征,1.正态分布的特征正态曲线在横轴上方均数处最高(集中性);正态分布以均数为中心左右对称(对称性);正态分布有2个参数:u:位置参数:变异度参数正态曲线在处有一拐点正态曲线下的面积分布有一定规律性(分布特性)。,一、正态分布概念与特征,四、正态分布曲线,标准正态分布(standardnormaldistribution),标准正态分布的两个参数:=0,=1记为xN(0,1)标准正态分布的曲线是唯一的,曲线下面积,正态曲线下的面积,横轴上曲线下的面积为1曲线下横轴上对称于均数的面积相等标准正态曲线下的面积见P245附表1曲线下ab区间的面积可用来表示:变量值在ab区间的频数占全部变量值例数的百分比或表示变量值在ab区间出现的概率。,正态曲线下的面积,图2-7正态分布曲线下面积分布规律,正态分布是概率论中最重要的一种连续型随机变量的分布,也是自然界最常见的一种分布,如测量误差,人体的生理特征(身高、体重、血糖、血压),心理特征(认知、心理状态)等的分布。一般来说,若影响某一数量指标的随机因素很多,而每个因素所起的作用又都不太大,则这个指标很可能服从正态分布,这一特点在概率论中可以用中心极限定理加以证明。,二、正态分布的应用,1.估计正态分布资料的频数分布,(一)制定医学参考值范围。(二)质量控制统计学规定:大样本,以为中心线,为警戒线,为控制线,根据以上的规定还可以绘制出质量控制图。(三)统计方法的理论基础正态分布是多种统计方法的基础。t检验、检验、相关回归分析等统计量的分布都是在正态分布的基础上推导出来的。值得注意的是,根据中心极限定理,很多统计量的分布在样本含量足够大时,也近似服从正态分布,因此也可以采用正态分布进行统计推断。,第四节医学参考值范围的制定,参考值(referencevalue):是从总体中抽取一部分个体组成参考样本,观测样本中每一个个体的某项指标而得到的统计量。参考值范围(referencerange):是为了减小变异的影响所确定的测定值的正常波动范围。医学参考值(medicalreferencevalue):是指包括绝大多数正常人的人体形态、功能和代谢产物等各种解剖、生理、生化、免疫、组织或排泄物中各种成分等生物医学数据。医学参考值范围(medicalreferencerange):是为了减小变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围,常简称为参考值范围,传统上称正常值范围(normalrange)。,医学参考值范围的制定步骤,1.从“正常人”总体中抽样:明确研究总体2.统一测定方法以控制系统误差。3.判断是否需要分组(如性别、年龄)确定。4.根据专业知识决定单侧还是双侧5.选定合适的百分界限6.对资料的分布进行正态性检验7.根据资料的分布类型选定适当的方法进行参考值范围的估计,1.正态分布法应用条件:正态分布或近似正态分布资料计算(双侧)双侧95%正常值范围:单侧95%正常值范围:,医学参考值范围的制定方法,双侧95%正常值范围:单侧95%正常值范围:,2.百分位数法,双侧95%正常值范围:P2.5P97.5单侧95%正常值范围:P5(下限),适用于偏态分布资料,3.对数正态分布法,各变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论