第二章定量资料的统计描述邓_第1页
第二章定量资料的统计描述邓_第2页
第二章定量资料的统计描述邓_第3页
第二章定量资料的统计描述邓_第4页
第二章定量资料的统计描述邓_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,定量资料的统计描述,第二章,Page1126,2,定量资料的 统计描述,统计图:频数分布图统计表:频数分布表 统计指标:,集中趋势指标 离散趋势指标,利用统计表对数据进行概括;用统计图对分布形态及分布间的关系做直观的表达;用于描述定量资料的统计指标的意义与计算。,3,第一节 频率分布表与频率分布图,频数分布:n个变量值在各变量值区间内的个数(f )分配。 频率分布:n个变量值在各变量值区间内所占的比例分配。,例2 .1 1998年某山区96名孕妇产前检查次数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7,离散型资料(discrete data)是指变量取值可以一一列举的资料。,一、 离散型定量变量的频率分布,5,表2-1 1998年某地96名孕妇产前检查次数频率分布,6,频数(率)分布表(frequency table):将资料的观察值按大小分为若干组段,描述各组段及相应组段频数(率)的统计表称为频数(率)分布表,简称频数(率)表。,7,(一)频率分布表 例2-1 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3, 3, 4,7。整理成表2-1得频率分布表。,一、离散型定量变量的频率分布,8,表2-1 1998年某地96名孕妇产前检查次数频率分布,9,频率:各组的频数除以总例数 n 所得的比值。频率描述了各组频数在全体中所占的比重,各组频率之和等于100%。 累计频数:本组段的频数与以前各组段的频数相加; 累计频率:每组段的累计频数除以总例数。,10,(二)频率分布图直条图 横坐标:变量,即产前检查次数; 纵坐标:频率,即产前检查K次的妇女在被 统计妇女中所占的比例%。 等宽直条的高度:表示各组频率,图2-1 某地96名孕妇产前检查次数频率分布,产前检查次数,12,(一)频率分布表例2-2 :抽样调查某地120名18岁35岁健康男性居民血清铁含量(mol/L)见P12,试编制频率分布表。,二、连续型定量变量的频率分布,连续型资料continuity data:是指变量取值不能一一列举即变量取值为一定范围内的任意值的资料。,13,数据,表2 120名正常成年男子血清铁含量的频数分布表,15,1、求全距(极差) 极差(range): 极差也称全距,即最大值和最小值之差,记作R。本例,频数表的编制步骤,16,根据极差选定适当“组段”数。 组段数通常取 815 组。,2、确定组段数、组距,17,组距,等组距频数表:常见不等组距频数表:少见,2、确定组段数、组距,18,组段下限(L):每个组段的起点组段上限(U):每个组段的终点,3、确定各组段的上、下限,两端的组段应分别包含最小值或最大值; 尽量取较整齐的数值作为组段的端点,便于对数据进行表述; 最后一个组段应同时写出上限和下限,19,一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一,1 3 6 8 12 20 27 18 12 8 4 1,组段,划记,频数,120,4、列表整理、统计各组段的频数、频率,20,数据,21,22,同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。,23,横坐标指标(变量)纵坐标频率密度即频数/组距 或频数(等组距频数表)各矩形(宽度为组距)的面积代表各组段的频率,(二)频率分布图直方图,24,图中横轴为血清铁含量,纵轴为频率密度,直条面积等于相应组段的频率。,25,1、作为陈述资料的形式: 简单明了或直观形象,便于进一步计算指标和统计分析。,三、频率分布表(图)的用途,26,(1)对称分布 :若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布 (2)偏态(峰)分布 :正偏峰分布 负偏峰分布,2、揭示资料的分布类型,表 某药100片的含药量的频数表,频 数,29,正偏态(峰)分布,115名正常成年女子血清转氨酶(mmol/L)含量分布,30,31,101名正常人的血清肌红蛋白( )含量分布,负偏态(峰)分布,32,33,频数分布,对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。,偏态分布型:指集中位置偏向一侧,频数 分布不对称。,偏态分布型,正偏态分布:集中位置偏向数值小的一侧。,负偏态分布:集中位置偏向数值大的一侧。,34,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18 这个组段,这种现象为集中趋势离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近6 最高的接近30,这种现象称为离散趋势,3、描述资料的分布特征,35,集中趋势:观察值的平均水平或集 中位置,用平均数反映离散趋势:观察值的变异程度或离 散程度,用变异指标反映,3、描述资料的集中趋势与离散趋势,36,4. 便于发现某些特大和特小的可疑值,37,计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的 n 个变量值: X1, X2, X3, , Xn n 为样本例数(样本大小、样本含量),第二节 描述集中趋势的统计指标,38,一、 描述集中趋势的统计指标,平均数(average):描述一组变量值的集中位置或平均水平的指标。常用的平均数有(算术平)均数、几何(平)均数、中位数不同的分布使用不同的平均数,39,1、算术均数(mean),意义:用于反映一组呈对称性分布的变量值在数量上的平均水平或者说是集中位置的特征值。,应用:对称性分布,尤其是正态分布,符号:,40,(1)直接计算法,41,例2-3 测得8只正常大白鼠总酸性磷酸酶含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。,42,(2)加权法(频数表法,大样本资料),f :各组段的频数k:频数表的组段个数,(组中值),43,120名成年男子血清铁含量均数、标准差计算表(加权法),1 3 6 8 12 20 27 12 10 8 4 1 120(f),7 27 66 104 180 340 513 378 276 200 108 29 2228(fX0),7 9 11 13 15 17 19 21 23 25 27 29,49 243 726 1352 2700 5780 9747 7938 6348 5000 2916 841 43640( ),44,均数的几何意义,均数代表每组观察值的平衡点,也就是重心。如:(1,4,7,8)则均数为5。则图示如下:均数的重要特性:离均差(各观察值与均数之差)总和等于零,45,均数的应用 它最适用于对称分布资料,尤其是 正态分布资料。因为这时均数位于分布的中心,最能反映资料的集中趋势。,46,2、几何均数(geometric mean),意义:可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。,应用:倍数关系或对数转换后呈对称分布, 尤其是对数正态分布,符号: (样本),47,(1)直接计算 法,48,例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。,49,例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。,7份HBsAg的平均滴度为1:64,50,(2)加权法,适用于相同观察值较多或频数表资料。,51,例2-6 52例慢性迁延性肝炎患者的HBsAg滴度数据见表2-4,求其平均滴度。,52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705,52,几何均数应用的注意事项: 1)几何均数常用于等比级数资料或对数正态分布资料。 2)观察值中不能有0。 3)观察值中不能同时有正值和负值。,53,意义:是将n个变量值从小到大排列,位置居于中间的那个变量值。,用途:偏态分布资料;一端或两端无确切数 值的资料(开口资料);分布不明的资料。,符号:M(样本),3、中位数( median),54,1,3,7,55,86,100,中位数为多少?,1,3,7,55,100,中位数为多少?,55,(1)直接计算法 (小样本时),n为奇数时 n为偶数时,56,(2)频数表法 (大样本时),LM ,iM ,fM分别为M 所在组段的下限、组距和频数,fL为M 所在组段之前各组段的累积频数。,57,下限值L,上限值U,i; fm,中位数M,58,例 某地119名正常女性发汞值资料如下表所示,试计算其中位数。,即该地119名正常女性平均发汞值为1.26(g/g),59,指把数据从小到大排列后位于第X%位置的数值。它是一种位置指标,用 来表示。一个百分位数 是将全部变量值分为两部分,在不包含 的全部变量值中有 的变量值比它小,有 变量值比它大。,4、百分位数( percentile ),60,百分位数图示X% PX (100-X)%50分位数就是中位数,61,百分位数示意图,62,(1)百分位数的计算,LX ,iX ,fX分别为PX 所在组段的下限、组距和频数,fL为PX 所在组段之前各组段的累积频数。,63,(g/g),例 某地119名正常女性发汞值资料如下表所示,试计算其P25,P75,P90。,64,(g/g),例 某地119名正常女性发汞值资料如下表所示,试计算其P25,P75,P90。,65,(g/g),例 某地119名正常女性发汞值资料如下表所示,试计算其P25,P75,P90。,66,(2)百分位数的应用,用于描述样本或总体观察值序列某百 分位置的水平。用于确定偏态分布资料的参考值范围。用于描述偏态资料的变异程度。,67,5、众数,众数:指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值,68,正态分布时: 均数中位数众数正偏态分布时:均数 中位数 众数负偏态分布时:均数 中位数 众数,69,变异指标:描述一组变量值的变异程度或离散趋势的指标.常用的变异指标有 极差、四分位数间距、方差或标准差、变异系数不同的分布使用不同的变异指标,第三节 描述离散趋势的特征数,70,例 三组同龄男孩的身高值(cm),71,例2-11 试观察3组数据的离散情况。 A组 26 28 30 32 34 B组 24 27 30 33 36 C组 26 29 30 31 34,72,设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3), 甲得出了560、540、500、460、440, 乙得出了520、510、500、490、480, 丙得出了510、505、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。,73,甲医生得出的5个观察值间的差异离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。,74,1、极差,适用范围:任何计量资料,是参考变异指标,极差(R):即一组变量值最大值与最小值之差。,75,四分位数间距,用Q 表示:,适用范围:适用于各种类型的连续型变量,特别是偏态分布的资料,2、四分位数间距,76,说明有50%女性的发汞值在0.90和1.66之间,其四分位数间距为0.76(g/g),中位数为1.26(g/g)。,上例 计算四分位数间距,77,方差(variance)也称均方差,与标准差(standard deviation)都是反映一组数据的平均离散水平的指标。,适用范围:与均数配套用,3、方差与标准差,总体方差、标准差用 、 表示;样本方差、标准差用 、 表示.,78, 方差的计算公式,(通常未知 ),(将原有的单位平方),79,样本方差为什么要除以(n1),与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算标准差时, n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。,80, 标准差的计算公式,(通常未知 ),(应用非常广泛 ),81,直接法(小样本):,频数表法:, 标准差的计算,或,例 用直接法计算甲组儿童身高的标准差,公式( 3-6 ),83,可见:甲组5名儿童的身高的变异程度最大,丙组最小。,84,120名成年男子血清铁含量均数、标准差计算表(加权法),1 3 6 8 12 20 27 12 10 8 4 1,7 27 66 104 180 340 513 378 276 200 108 29,7 9 11 13 15 17 19 21 23 25 27 29,49 243 726 1352 2700 5780 9747 7938 6348 5000 2916 841,85,标准差的基本内容是 “离均差”,它显示一组变量值与其均数的间距,故标准差直接、平均、总结描述了变量值的离散程度。,86,表示数据分布的离散程度,与均数配套 使用,常用于对称分布资料。常用 作为计量资料数字特征的描 述。结合均数描述正态分布的特征,并确定 医学参考值范围。可用来计算均数的标准误。, 标准差的应用,87,变异系数CV ,其计算公式为,可用于观察指标单位不同时,如身高与体 重的变异程度的比较。或用于均数相差较大时,如儿童身高与成 人身高变异程度的比较。,4、变异系数(coefficient of variation),例一: 某地120名7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论