已阅读5页,还剩86页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020/6/2,1,第三章计量资料的统计描述,3.1频数分布3.2集中趋势3.3离散趋势3.4正态分布及其应用,主要内容,2020/6/2,2,3.1频数分布,频数分布表?怎样做?频数分布的特征?类型?频数分布表有什么用?,2020/6/2,3,2020/6/2,(一)频数分布表frequencydistributiontable,对观察到的计量资料,按变量的取值范围进行分组段,统计变量值出现在每一个组段中的次数(即频数,frequency),以表格的形式列出各个组段及其对应的频数。此类表格称为频数分布表。,4,例3.1某地120名正常成年男子红细胞数P38,2020/6/2,5,(二)频数表的制作方法,2020/6/2,6,例3.1某地120名正常成年男子红细胞数P38,2020/6/2,7,极差:,组数:,组距:,组段:,解题步骤:,2020/6/2,8,某地120名正常成年男子红细胞数频数分布表,2020/6/2,9,图3-1120名正常男子红细胞数的直方图,2020/6/2,10,(三)频数表与频数分布图的用途,特征,2020/6/2,11,1、揭示计量资料的分布类型,不同的分布类型应选用不同的统计分析方法。,2020/6/2,12,图2-1某地100名18岁男大学生身高,对称分布,正偏态分布,负偏态分布,2020/6/2,13,2、描述资料的分布特征,反映一组计量资料的平均水平或中心位置。,反映一组计量资料的变量间的差异程度。,对于数值变量资料,应用集中趋势和离散程度二者结合起来分析其分布规律。,2020/6/2,14,3.便于发现一些特大或特小的可疑值,4便于进一步做统计分析和处理,2020/6/2,15,3.2集中趋势,集中趋势指标-平均数(average)反映一组同质观察值的平均水平或中心位置。常用指标有:算术均数、几何均数、中位数、众数、调和均数等,医学中常用,2020/6/2,16,1.算术均数,算术均数(arithmetic)简称均数(mean)总体均数样本均数适用于呈正态或近似正态分布的资料。如人的生理、生化指标。,2020/6/2,17,计算方法:直接法:样本含量不大时,例3.26名30岁健康男子血清总胆固醇分别为:178,172,124,150,211,177,求平均值。,(cm),2020/6/2,18,加权法:频数表资料或样本中相同观察值较多时,例3.3试计算表3-1所示资料的算术均数。,组中值,各组频数(权重),2020/6/2,19,2020/6/2,20,2020/6/2,21,2.几何均数,几何均数(geometricmean)指一组观察值的乘积,再被观察值个数开方。适用于:非正态分布且差距较大的资料;观察值呈倍数关系或近似倍数关系的资料;对数正态分布的资料。如:抗体滴度、物质浓度、人口的增长等,计算方法:直接法:样本含量不大时,例3.48份血清滴度为1:2,1:2,1:4,1:8,1:8,1:8,1:16,1:32,1:64,试求其平均滴度。,该8份血清的平均滴度为1:8.7。,2020/6/2,22,频数表法(加权法):频数表资料或观察例数较多时,例3.5某地区27人接种某疫苗后,测得抗体滴度数据(表3-5)。求平均抗体滴度。,2020/6/2,23,2020/6/2,24,变量值中不能有0;不能同时有正值和负值;若全是负值,计算时可先把负号去掉,得出结果后再加上负号。,计算几何均数注意事项:,2020/6/2,25,3.中位数,中位数(median)将一组观察值按由小到大的顺序排列后位次居中的数值。中位数是一个位置指标。适用于任何分布,特别是:偏态分布的资料;分布情况不明显的资料(如一端或两端无确切数据资料)。,2020/6/2,26,2020/6/2,27,计算方法:直接法:样本含量n较小时,例3.6某病患者10名,其发病的潜伏期(d)分别为:3.5,4,2,2,2,2.5,6,3,4,5,求中位数。,如果再加上一个数据4.4,M=?,本例n=10,为偶数,故,2020/6/2,28,频数表法:样本含量n较大时按所分组段由小到大计算累计频数和累计频率;确定中位数所在组段(累计频率含50%的组段);计算中位数:,该组段下限,组距,该组段频数,小于L的各组段的累积频数,表3-6230名正常正常人空腹血清胰岛素样生长因子-1水平(mg/dl),M,2020/6/2,29,2020/6/2,30,*对于任何分布资料都可以用中位数反映平均水平。,Q1:任何资料是否都可用中位数来表达其平均水平?,Q2:为何正态分布资料不用中位数来表达其平均水平?,*虽然资料呈对称或正态分布,总体中位数与总体算术平均数相等,但中位数没有利用全部数据的信息。,4.百分位数(percentile;Px),定义:百分位数(percentile)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M。,2020/6/2,31,百分位数的计算公式,应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。计算公式:其中,分别为所在组段的下限、组距和频数;为小于L的各组段的累计频数。,2020/6/2,32,例3.6资料P25,P75,P95计算结果,2020/6/2,33,众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。例3-9有8个数据分别为2、2、2、4、4、6.6、3、3,试求众数。,5.众数(mode),数据2出现了3次,所以众数为2。,2020/6/2,34,均数、中位数、众数之间的关系,对称分布,左偏分布,右偏分布,众数、中位数和算术均数数量关系的经验公式为:,2020/6/2,35,思考1:对甲乙两名高血压患者连续观察5天,测得的收缩压(mmHg)分别是:,R甲患者162145178142186162.644乙患者164160163159166162.67,两组患者收缩压的变异一样吗?,2020/6/2,36,再思考:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3),上面的图表说明了什么?,420,440,460,480,500,520,540,560,580,2020/6/2,37,3.3离散趋势,变异指标,反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.四分位数间距Quartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariation,2020/6/2,38,优点:简便缺点:1.只利用了两个极端值2.n大,R也会大3.不稳定,受极端值影响很大,1.极差(range),2020/6/2,39,2.四分位数间距,四分位数间距(quartileinterval),Q是上四分位数和下四分位数之差。用于描述偏态分布、数据分布不清、数据一端或两端无确切值的资料的离散程度。,P25,最大值,最小值,P75,25%,25%,50%,四分位数间距,2020/6/2,40,230名正常人生长因子的四分位数间距是189.63(ng/dl)。,例:计算Page46例3.8的四分位数间距,请问:四分位数间距可以看作成中间的一半变量值的极差(R)吗?,2020/6/2,41,四分位数间距的特点:,四分位数间距包括了一组观察值的一半,故可以把四分位数间距看成是中间50%观察值的极差。Q大变异度大;Q小变异度小。由于四分位数间距不受两端个别极大值或极小值的影响,因而它较全距稳定,但仍未考虑全部观察值的变异度。,2020/6/2,42,3.方差,极差和四分位数间距都只考虑了个别观察值的大小差异,没有全面反映每个观察值的变异程度。就总体而言,应考虑总体中每个观察值与总体均数的差值,即离均差。,离均差平方和,离均差平方和,方差(均方),变异度,观察例数,2020/6/2,43,方差(variance)或均方(meanofsquares),,n-1称为自由度(degreeoffreedom),一般用表示。因方差的度量单位是原度量单位的平方,故计算结果难以解释。,2020/6/2,44,样本方差为什么要除以(n1)?,与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n1)个“离均差”表示,所以只有(n1)个独立的“离均差”。因此只有(n1)个自由度。,2020/6/2,45,4.标准差,标准差(standarddeviation),样本标准差的变形公式加权法,2020/6/2,46,用直接法计算例1的标准差,2020/6/2,47,2020/6/2,48,2020/6/2,48,用加权法计算120名正常成年男子红细胞数的标准差,标准差的特点:,标准差反应了观察值的变异程度。,标准差的应用由于标准差与原始数据同单位,在科技论文报告中常被用于描述离散趋势;结合均数,计算变异系数;结合样本含量,计算标准误;结合均数与正态分布规律估计参考值的范围。,2020/6/2,49,Q1:某地120名7岁男孩身高的均数为123.10cm,标准差为4.71cm;体重均数为22.29kg,标准差为2.26kg,比较其变异度。,单位不同,能否得出身高的变异程度大于体重的变异程度?,2020/6/2,50,Q2:某地男子舒张压和收缩压的变异程度(如下表)。,均数单位相同,但相差很大。,从表中,舒张压的变异程度小于收缩压的变异程度?,2020/6/2,51,变异系数CV,其计算公式为,可用于观察指标单位不同时,如身高与体重的变异程度的比较。或用于均数相差较大时,如儿童身高与成人身高变异程度的比较。,4.变异系数(coefficientofvariation),2020/6/2,52,3.4正态分布及应用,(一)正态分布,正态分布(normaldistribution):也称高斯分布,是医学和生物学最常见的连续性分布。如身高、体重、红细胞数、血红蛋白等。,2020/6/2,53,高斯(CarlFriedrichGauss)(1777年4月30日1855年2月23日),德国著名数学家、物理学家、天文学家、大地测量学家。高斯被认为是最重要的数学家,有数学王子的美誉,并被誉为历史上伟大的数学家之一,和阿基米德、牛顿、欧拉并列,同享盛名。,高斯,2020/6/2,54,高斯的肖像已经被印在从1989年至2001年流通的10德国马克的纸币上。,2020/6/2,55,图3-1120名正常男子红细胞计的直方图,2020/6/2,56,1.正态曲线,2020/6/2,57,2.正态分布曲线的方程,式中和e分别为圆周率和自然对数的底,和是正态分布的两个参数,即为总体均数和总体标准差,X为变量,代表横轴的值,f(x)为纵轴数值,表示概率密度。,记作:XN(,2)例如:XN(120,8.22)XN(5,32),2020/6/2,58,3.正态分布的特征,正态曲线(normalcurve)在横轴上方,且均数所在处最高;,正态分布以均数为中心,左右对称;,正态分布有两个参数,即均数与标准差(与);,正态分布的面积分布有一定的规律性,总面积=1。,2020/6/2,59,方差相等、均数不等的正态分布图示,为位置参数,2020/6/2,60,均数相等、方差不等的正态分布图示,1,为形态参数,2020/6/2,61,面积可通过对概率密度函数f(X)积分求得,(累计)分布函数:,2020/6/2,62,2020/6/2,63,正态曲线下的面积规律,-3-2-+2+3,S(-,-3)=0.0013,S(-,-2)=0.0228,S(-,-1)=0.1587,S(-,)=0.5,S(-,+3)=0.9987,S(-,+2)=0.9772,S(-,+1)=0.8413,S(-,)=1,2020/6/2,64,正态曲线下的面积规律,-3-2-+2+3,1-S(-3,+3)=0.0026,1-S(-2,+2)=0.0456,1-S(-,+)=0.3174,2020/6/2,65,正态密度函数曲线下的面积规律,正态密度函数曲线与横轴间的面积恒等于1或100%;正态分布是一种对称分布,其对称轴为直线X=,X与X范围内曲线下的面积相等,各占50%;,X轴,S(-,-X),-X,X,S(X,)S(-,-X),2020/6/2,66,曲线下在区间(,)的面积为68.27%,曲线下在区间(1.96,1.96)的面积为95.00%,曲线下在区间(2.58,2.58)的面积为99.00%。,2020/6/2,67,-,+,68.27%,比如:士范围内的面积占正态曲线下面积的68.27,也就是说有68.27的变量值分布在此范围内。,2020/6/2,68,-1.96,+1.96,95%,士1.96范围内的面积占正态曲线下面积的95,也就是说有95的变量值分布在此范围内。,2020/6/2,69,-2.58,+2.58,士2.58范围内的面积占正态曲线下面积的99,也就是说有99的变量值分布在此范围内。,2020/6/2,70,4.标准正态分布-z分布或u分布,标准正态分布为均数为0、标准差为1的正态分布。,标准正态分布的密度函数为,2020/6/2,71,5.标准正态曲线下面积,z,-,附表A(p257)就是根据此公式和图形制定的,2020/6/2,72,2020/6/2,A,表中左侧的数+的第一行的数就是u值,73,比较标准正态曲线与正态曲线下面积,2020/6/2,74,6.一般的正态分布转变为标准的正态分布,2020/6/2,75,m,s,DensityofX,0,X,2020/6/2,76,例题1:一次统计测验的平均分是75,标准差是15,求60分、75分、90分的标准分数,=75S=15,2020/6/2,77,例2:120名成年男子的红细胞数近似服从正态分布,假设均值为4.78,标准差为0.38求4.00X5.50()所占的比例,5.40,5.60,5.80,6.00,4.40,5.50,2020/6/2,78,Step1:作z变换,-2.05,1.89,Step2:,2020/6/2,79,(二)正态分布的应用,估计频数分布范围制定医学参考值范围质量控制统计分析方法的基础,T分布、F分布、分布,*,2020/6/2,80,(三)医学参考值范围,人体内很多生理生化指标的频数分布呈正态分布或近似正态分布,还有少数指标近似对数正态分布。故可用正态分布的原理来制定很多生理生化指标的参考值范围。,2020/6/2,81,医学参考值(referencevalue)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标,也称正常值。由于存在个体差异,生物医学数据并非常数,而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。,1.医学参考值的概念,2020/6/2,82,并不是指机体任何器官,组织的形态和机能都正常的健康人,而是排除了影响所研究指标的疾病和异常的同质人群。,2.“正常人”的含义,2020/6/2,83,3.医学参考值范围的制定步骤,正常人总体,2020/6/2,84,控制检测误差,通过人员培训、控制检测条件、重复测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 挤压修模工岗位工艺作业技术规程
- 自然保护区检查工安全知识竞赛模拟考核试卷含答案
- 货装值班员安全知识宣贯模拟考核试卷含答案
- 锅炉运行值班员安全知识竞赛水平考核试卷含答案
- 废品回收担责协议书
- 建筑抗震设计动力响应分析
- 解读初三数学
- 教育协同创新
- 揭秘地球奥秘
- 硕士答辩之路
- 七年级上册道德与法治期末材料与分析题试卷(含答案)
- 2025秋期版国开电大本科《商务英语4》一平台综合测试形考任务在线形考试题及答案
- 【《基于西门子PLC的污水处理控制系统程序设计》12000字(论文)】
- 做账实操-水产养殖的账务处理实例
- 2025年6月上海市高考语文试题卷(含答案详解)
- 餐饮行业员工岗位操作技能考核表
- 手术室停电的应急预案及演练脚本
- 桩身完整性考试题及答案
- 单位摩托车采购项目方案投标文件(技术标)
- 土料填筑单元工程施工质量检验表填写示例(表1.10 )
- 德语初级教学课件
评论
0/150
提交评论