




已阅读5页,还剩98页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章:定量资料的统计描述,引子:,统计学,例2-2抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),数据如下:,目的:提取该组男性居民血清铁的分布信息。,问题1.该组男性血清铁是怎样分布的?,问题2.血清铁主要集中在哪个范围?,问题4.变异情况?最高?最低?,问题3.该组男性血清铁的平均水平?,离散趋势,统计描述:,从数据资料中获取信息最基本的方法,把握资料基本的特征为统计分析打下基础,包括,第一节频率分布表与频率分布图,频数(frequency):指在一个抽样资料中,某变量值出现的次数。,(一)离散型定量变量的频率分布:,例2-11998年某山区96名孕妇产前检查次数资料:,频率分布表(frequencydistributiontable):将当变量值的个数较多时,对各变量出现的频率列表即为频率分布表,简称频率表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率的和为100%或1。.,频数表作用:简化数据,方便阅读;显示数据的分布类型和分布特征。,频率直条图(frequencydistributionfigure):根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,图2-1某地96名妇女产前检查次数频率分布,例2-2抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),数据如下:,步骤:,求全距(Range,简记R):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。,R=Xmax-Xmin=29.647.42=22.22(mol/L),2.定组距:将全距分为若干段,称为组段。每个组段有其上限和下限,上限和下限之差为组距,用小写i表示。,原则:(1)“组段”数一般为10个左右,;(2)一般用等距分组;(3)“组距”一般为R/10取整。,本例题:组距(i)=全距/预分组段=22.22/10=2.222,3.写组段:即确定各组段的上、下限。,原则:(1)第一组段要包括Xmin,最末组段包括Xmax;(2)每组段均用下限值加“”表示,最终组段同时注明上下限。,注:各组段连续但不能重叠,每一组段均为半开半闭区间。0,4.列表划记:用划记的方法整理原始资料,清点各组段内的数据频数。,表2-2120名正常成年男子血清铁含量(mol/L)频数,另:用计算各组段的频率、累计频数和累计频率。,频率直方图(frequencydistributionfigure):,图2-2120例健康成年男子血清铁含量(mol/L)的频率分布图,7911131517192123252729,频率密度图:以变量值为横坐标,以频率与组距的比值为纵坐标作出的直方图。,1.由于该直方图的纵轴表示在每个组段内单位长度所占有的频率,相当于频率密度,因此将此图称为频率密度图。,面积=频率由于频率总和为100%或1,故该曲线下横轴面积为100%或1。.,(三)频率分布表/图的用途:,1.揭示资料的分布类型,频数分布,偏峰分布,正偏,负偏,集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏峰分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏峰分布。,2.描述资料的分布特征,离散趋势(tendencyofdispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势(centraltendency),7911131517192123252729,4.样本含量足够大时,以频率作为概率的估计值。,3.便于发现某些特大或特小的可疑值。,5.作为陈述资料的形式。,图3.1某市101名8岁男童身高(cm)的频数分布,身高(cm),频数,第二节描述集中趋势的统计指标,算术均数几何均数中位数,集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。,注意:1.同质的事物或现象才能求平均数,平均数,.应根据资料分布状态选用适当的均数。,(一)算术平均数(arithmeticmean),简称:均数(mean)使用条件:数据分布比较均匀呈正态分布或近似正态分布。样本均数用符号:X表示总体均数用符号:表示计算方法有两种:直接法(小样本)和加权法(大样本),举例:某地10名18岁健康男大学生身高为(cm):168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7求平均身高?,答:,(1)直接法:,方法:将观察值X1、X2、X3、Xn直接相加,再除以观察值的个数n。,公式:,适用范围:小样本资料,n30,例2-2抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),求平均数:,(2)频率表法(加权法):,计算各组段的组中值xi、fxi和fx,答:,(mol/L),频率表法:,方法:计算各组段的组中值xi、fxi,后除以总频数f。,公式:,适用范围:样本含量较大的数据集。,算术平均数的适用范围:它适用描述一组性质相同的、单峰、且对称分布的(特别是正态分布的),且观察值之间差异不大的定量资料,此时均数最能反映分布的集中趋势,位于分布的中心。,练习:求120例正常人血浆125I-T3树脂摄取比值的均数,答:,(一)编制频数分布表:,全距(R)=Xmax-Xmin=1.240.78=0.46,1.求全距(R):,组距(i)=全距/预分组段=0.46/100.05,3.定组段:,3.划表列记:,(二)用加权法计算均值:,均值:,举例:设有5份血清样品,滴度分别为:1:1,1:10,1:100,1:1000,1:10000求其平均滴度。,几何均数,(二)几何均数(geometricmean,G),概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。表示符号:G计算方法:直接法和加权法,(1)直接法:,方法:将n个观察值(X1,X2,X3,Xn)直接相乘再开n次方。,公式:,适用范围:小样本资料,用对数形式表示为:,举例:设有5份血清样品,滴度分别为:1:1,1:10,1:100,1:1000,1:10000求其平均滴度。,答:,G,或Glg-1(lg1+lg10+lg100+lg1000+lg10000)/5)lg-1(0+1+2+3+4)/5)lg-12=100,即:平均滴度为1:100;较好地代表了观察值的平均水平。,(2)频率表法:,公式:,适用范围:大样本含量的分组资料或频数表资料。,Glg-1(flgX/f),答:,即52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.75。,例2-652例慢性肝炎患者的HBsAg滴度数据如下表示,试计算滴度的平均数。,计算几何均数(G)注意事项:(1)观察值不能为0;(2)观察值不能同时有正有负;(3)同一组资料求得的几何均数小于算术均数。,练习题:,1.有8份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640求平均抗体效价。,2.有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160求平均抗体效价。,解答:,1.有8份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640求平均抗体效价。,答:,将各抗体效价的倒数代入公式:,所以血清的抗体平均为1:56.57,解答:,2.有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160求平均抗体效价。,答:,将各抗体效价的倒数代入公式:,所以该50人的血清抗体效价为1:41.70,“中位数”的概念,P50=M,050100,小,大,P0P50P100,中位数,(三)中位数(Median,M),概念:将原始观察值从小到大排序后,位次居中的那个数叫中位数,用M表示。使用条件:适用于任何分布的定量资料,特别是偏态分布、末端分布有特大特小值或无法确定、甚至分布不清的资料。表示符号:M计算方法:直接法和加权法,(1)直接法:由原始数据计算中位数,举例:有7个人的血压(收缩压mmHg)测定值为:120,123,125,127,128,130,132求中位数?,练习:,1.某病患者9名,发病潜伏期分别为顺序2、3、3、3、4、5、6、9、16d,求中位数。,2.某病患者8名,发病潜伏期从小到大排分别为5、6、8、9、11、11、13、16d,求平均潜伏期。,答案:,(2)用频数表法计算中位数,百分位数(Percentile,Px):一个数值,它将原始观察值分成两部分,理论上有x%的值小于Px,另有1-x%的观察值大于Px,故它是一个位置指标。,P50=M,百分位数(Px)计算公式:,例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的中位数、P5、P95。,答:,即:该组潜伏期资料的中位数是54.55小时。,3.同样方法,可求P5、P95:,练习:求238名正常人发汞值的中位数和百分位数P25、P75,答案:,中位数的特点及应用:,特点:中位数是一位置指标,它对信息资料的利用率较低,故准确度不算术均数、几何均数。.,例2-11998年某山区96名孕妇产前检查次数资料:,(四)众数(Mode),概念:总体众数指在总体中出现机会最高的数值。样本众数指在样本中出现次数最多的数值。,偏峰分布,正态分布,问:算术均数、中位数及众数在以下分布中的大小关系?,第三节描述离散趋势的统计指标,举例:,有三组数据,A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,34,集中,说明集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异程度。,观察值的离散趋势,离散程度大说明均数代表性差离散程度小说明均数代表性好,离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差(Range,R)四分位数间距(Quartile,Q)方差(Variance,)标准差(Standarddeviation,S2)变异系数(Coefficientofvariation,CV),(一)极差(Range,简称R),计算:R=最大值最小值=Xmax-Xmin意义:反映观察值的全范围。条件:对各种分布类型资料都适用。优点:计算简单,方便使用。缺点:只利用最大值和最小值的信息,不能反映其它观察值的变异情况。建议:与其他离散指标共同使用。,2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。,极差的缺点:,1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。,3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。,四分位数间距(Quartilerange,用Q表示),小,大,1255075100,P1P25P50P75P100,QL,QU,下四分位数上四分位数,QUQL=四分位数间距,(二)四分位数间距(uartile,简称),计算:=-=P75-P25意义:中间一半观察值的极差。条件:对各种分布类型的资料都适用,但常用于偏峰分布资料。优点:类似值但比其稳定。缺点:仍未考虑资料中每个观察值的变异度。建议:与其他离散指标共同使用。,例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的四分位数间距。,四分位数间距Q=QUQL=P75-P25,2.求P25、P75:,1.求P25、P75:,Q=P75-P25=73.20-40.91=32.29(小时),(三)方差(Variance,简称),公式及来源:,极差和四分位间距未考虑全部观察值的变异度,应考虑总体中每个变量值x与总体均数之差;x-称为离均差。,为解决这个问题,给每项离均差平方后再相加,称离均差平方和,即(x-)2,可表示为SS或Lxx。,但每个变量值与均数相减所得差值有正有负,有,这样就不能反映变异的大小。,甲:2628303234,证明:,(x-)2的大小,除与变异度有关外,还与观察值的个数(N)有关。为在N不等时进行比较,(x-)2还要除以N,所得值在就称为方差,又称均方差(meansquaredeviation),用Var(X)用2表示:,总体方差:,以样本均数代表,用样本例数n代表总体例数N,所得方差称样本方差,用S2表示。,(n-1)称为自由度(degreeoffreedom),用希腊字母nju:表示,表示随机变量能够自由取值的个数。,方差:分总体方差,样本方差S2,计算:意义:克服了值和Q值的不足,考虑了每个变量值的离散情况并消除了的影响。优点:全面地考虑每个变量值的离散情况缺点:其单位是原度量单位的平方。,总体方差,样本方差,(四)标准差(Standarddeviation,SD或S),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即标准差,简写为S。,公式来源:,总体标准差:,样本标准差:,标准差的计算:,利用(a-b)2展开原理,直接法:频数表法:,举例分别求A、B、C三组数据的标准差:A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,34,(1)直接法:用于小样本资料,(2)频数表法:用于大样本资料或频数表资料,例2-2求120名1835岁健康男性居民血清铁含量的标准差:,答:,(五)变异系数:简称CV,概念:是同一组资料的标准差与均数之比,又叫变异度或离散系数。计算:实际含义:标准差相对于同组均数的百分比。优点:CV消除了度量衡单位,用于比较1.单位不同的多组资料的变异度。2.均数相差悬殊的多组资料的变异度。,身高,体重,说明其体重的变异度大于身高的,即身高比体重稳定。,例2-15:某1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高的均数为72.4cm,标准差3.0cm;试问其体重、身高的哪个指标更稳定些?,例2:试分析下组资料变异程度的变化趋势,附表某地不同年龄儿童身高(cm)的变异度,第四节描述分布形态的统计指标,频数分布,偏峰分布,正偏,负偏,集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏峰分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏峰分布。,(一)偏度系数(coefficientofskewness,SKEW),(二)峰度系数(coefficientofkurtosis,SURT),意义:,小结,为描述定量变量的分布规律,可将观察值编制频数表,绘制频数分布图,要描述资料的分布特征(集中趋势及离散趋势)和分布类型。,集中趋势描述的主要指标是平均数。,常用平均数及其适用资料,3.描述频数分布离散程度的指标有:极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度,适用于各种分布类型的资料,但更常用于描述偏峰分布资料。方差和标准差最常用,对正态分布尤重要。变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。,注意:变异指标的大小这与平均指标值的大小无关。,4.平均指标和变异指标相结合,能对各种分布的资料作很好的描述。,5.常用描述资料分布形态的统计指标包括偏度系数与峰度系数。,符号小结,总体均数,样本均数,总体标准差,S,样本标准差,=n-1,自由度,Px,第X位百分位数,M,中位数,f,频数,n,样本含量,R,全距,i,组距,G,几何均数,CV,变异系数,QU-QL,四分位数间距,【学习要求】,了解频数分布表的编制方法及应用。,掌握定量变量资料的集中趋势、离趋势常用描述指标,及各自的适用范围。,掌握正态分布资料、及偏峰分布资料的分布特征、分布类型的描述方法。,案例讨论,1.某市1974年测定的238人的发汞值(mol/Kg)检测结果如下表示,试进行统计描述。,2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学语文阅读策略教学与课外阅读资源开发研究论文
- 高中物理实验教学中的学生自主探究与创新能力培养论文
- 高中化学概念理解与形成性评价体系构建论文
- 中国医用海藻酸盐伤口敷料行业市场前景预测及投资价值评估分析报告
- 艾梅乙质控管理制度
- 苗圃栽培及管理制度
- 茶籽油生产管理制度
- 触电事故应急救援演练方案
- 课程学习心得(20篇)
- 行政案例分析第七章 行政运行案例分析
- 2024年度海南省国家电网招聘之电网计算机题库练习试卷B卷附答案
- 2025年1月国家开放大学本科《公共政策概论》期末纸质考试试题及答案
- GB/T 16895.3-2024低压电气装置第5-54部分:电气设备的选择和安装接地配置和保护导体
- 2025山西焦煤集团公司招聘高频重点提升(共500题)附带答案详解
- 《民用无人机作业气象条件等级 植保》编制说明
- 手术室绿色通道病人抢救
- 《保密制度培训》课件
- 【MOOC】医学物理学-山东大学 中国大学慕课MOOC答案
- 糖尿病周血管病变
- 《保健食品知识》课件
- 标准隔音施工方案
评论
0/150
提交评论