公共卫生学院-康楚云卫生统计2集中趋势和离散趋势_第1页
公共卫生学院-康楚云卫生统计2集中趋势和离散趋势_第2页
公共卫生学院-康楚云卫生统计2集中趋势和离散趋势_第3页
公共卫生学院-康楚云卫生统计2集中趋势和离散趋势_第4页
公共卫生学院-康楚云卫生统计2集中趋势和离散趋势_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章集中趋势、离散趋势、正态分布及其应用,组段,频数f,一、频数表,100名2岁男童身高的频数表,组段是若干个从小到大顺序排列的数据范围,每一个组段包括上限和下限组距,相邻组段之间的距离称为组距。,上限和下限,上限指某个组段数据范围的最大值,下限指最小值。相邻后一组的下限即是前一组的上限。,每个组段的数据范围是:包括下限但不包括上限,因此只写出下限的大小。,组距i=相邻两组段下限之差,最后一组既包括上限也包括下限。,频数是指在所有观察值中,数值大小落在某一组段范围内的数据有多少个。,所有组频数总和是观察值的总个数f=n,100个人中有13个人身高在8183cm范围内,将原始数据整理成频数表的步骤,1.找出最大值和最小值,求全距R=Xmax-Xmin,2.确定组数、计算组距、写组段组数=815组,第一组段包括数据中的最小值,最后一组段包括数据中的最大值。,3.计数频数,完成频数表,所有组的频数之和应该等于总观察值的个数。,由于取整的关系,频数表的组数可以和最初确定的组数不等。,绘制频数表举例,100名18岁健康女大学生身高165.1165.1159.5166.10,找出最大值和最小值,求全距Xmax=173.6Xmin=154.7R=Xmax-Xmin=173.6-154.7=18.9,2.确定组数、计算组距、写组段组数=10组i=R/n=18.9/10=1.89取整i=2第一组段:154(包含数据中的最小值)第二组段:156(每隔组距2写一组段)最后一组:172174(包含数据中的最大值),3.计数频数,完成频数表,频数表的作用,观察频数的分布规律,计算统计指标、进行分析,发现可疑值,f,身高,100名2岁健康男童身高的频数分布,200例正常成人血铅含量,血铅,f,某地健康成人的第一秒肺通气量,f,通气量,频数分布类型,对称分布,偏态分布,正偏态,负偏态,频数分布的特征,1.集中趋势2.离散趋势,集中趋势指计量资料数据的平均水平,统计学上用一系列平均数指标来表示。,二、数值变量集中趋势的描述指标,常用的集中趋势指标有三个:算术均数、几何均数、中位数,不同的平均数指标用于表示不同分布类型资料的集中趋势;不同分布类型的资料应该用相应的指标来描述。,(一)均数(算术均数),1.表示符号:总体样本,2.适用资料:对称分布资料(正态分布资料),3.计算方法:直接法和加权法,观察值数量较少时用直接法;观察值数量多时用加权法。,直接法计算均数,例:P11,其中X表示所有观察值之和n表示观察值的个数或样本量,加权法计算均数(利用频数表计算均数),X表示频数表各组的组中值。,组中值计算:,或:,f为各组频数,计算100名2岁男童的平均身高(身高的集中趋势),步骤:求组中值X求各组fXfX求和代入公式计算均数,=84.84cm,某研究者调查了101名30-49岁正常成年男子血胆固醇含量(mmol/L),整理成如下频数表,请计算其均数。,=4.735mmol/L,(二)几何均数,1.符号表示G,2.适用资料:数据为等比数列,或对数正态分布资料,等比数列:后面数除以前面数总是等于一个常数,如2、4、8、16,3.计算方法:直接法和加权法,观察值数量较少时用直接法;频数表资料用加权法。,直接法计算几何均数,例:P12,或,加权法计算几何均数(利用频数表计算几何均数),步骤:求lgX求各组flgXflgX求和代入公式计算均数对数用反对数求几何均数,=4,计算几何均数的注意事项:观察值中不能有观察值符号相同,不能同时有正值和负值,(三)中位数,1.概念把一组变量值按大小顺序排列,位置在最中间的数值称为中位数。,2.符号:M,3.适用资料:偏态分布资料、资料一端或两端无确定数值、分布类型未知的资料,4.计算方法:直接法和频数表法,直接法计算中位数,根据样本量n不同分成两种情况,n为奇数,n为偶数,求1,2,3,4,5这五个数的中位数,求1,2,3,4,5,6这六个数的中位数,用频数表计算中位数(利用频数表计算中位数),累计频数和累计频率,L:中位数所在组段下限i:中位数所在组段的组距fx:中位数所在组段的频数C:中位数所在组段前一组累计频数,关键要先找出中位数位于频数表中哪一组。,方法:累计频率累计频率刚刚等于或大于50%的组累计频数累计频数刚刚等于或大于n/2的组,计算公式,步骤:求累计频数求累计频率判断中位数所在组段代入公式计算中位数,23.8小时,右表中是300名健康成年人尿汞含量测量的结果,计算其平均尿汞水平。,(1)判断频数分布类型:偏态分布,(2)找出中位数所在组段,中位数在累计频数刚到150(300/2)的组,或累计频率刚达到50的组。,(3)代入公式计算,=16.5ug/L,5.百分位数,中位数是一个特殊的百分位数,是50百分位数计算方法和中位数相同,用x表示,求P95,95百分位数,57.8小时,三、离散趋势,离散趋势指计量资料数据距离平均位置的分散程度,统计学上用一系列离散趋势的指标来表示。,4681045678,数据分散程度大数据分散程度小,表示数据离散趋势(变异程度、离散程度、分散趋势)的指标:,全距,标准差,变异系数,不同的指标用于表示不同分布类型资料的离散趋势;不同分布类型的资料应该用相应的指标来描述。,四分位数间距,方差,(一)全距(极差)R,R=XmaxXmin,优点:计算简单、可用于所有类型资料,缺点:没有将所有数据的分散程度考虑在内,(二)四分位数间距Q,上四分位数QU:第75百分位数P75下四分位数QL:第25百分位数P25四分位数间距:上四分位数和下四分位数之差Q=QU-QL,比全距稳定,但仍然没有考虑到每个观察值的变异度。,P25MP75,0%,100%,(三)方差,1.符号:总体样本S,2.适用资料:对称分布资料(和均数一样),3.原理,考虑每个数据和均数间的差,差值可能会有正有负,将所有的差值加起来求平均,校正,S2,(四)标准差,1.符号:总体样本S,2.适用资料:对称分布资料(和均数一样),3.来源:标准差是方差的算术平方根,4.优点:全面考虑了所有数据的变异程度,5.意义:单位相同,均数相近的情况下,标准差越大,说明数据越分散,离散程度越大;标准差越小,说明数据越集中,离散程度越小。,6.计算方法:直接法和加权法,观察值数量较少时用直接法;频数表资料用加权法。,直接法计算标准差,S=,S=,4681045678,计算以下两组数据的标准差,=3.16,=1.58,加权法计算标准差(利用频数表计算标准差),S=,f:频数表中的频数,X:频数表各组的组中值,注意:fX2和(fX)2,例:100名岁男孩身高,求离散趋势,2.计算各组fX,1.求组中值X,3.计算各组fX2,4.将fX和fX2代入公式计算,S=,=3.79cm,例2101名30-49岁正常成年男子血胆固醇(mmol/L),S=,=0.882mmol/L,(五)变异系数,符号:CV,计算公式:,适用情况:当两组计量资料比较离散程度时,-两组资料度量衡单位不同,-两组资料均数相差悬殊,优点:没有单位,可以进行不同指标之间的比较,例某地2岁男孩100人,身高的均数为84.8cm,标准差为3.8cm;体重均数为13.0kg,标准差为1.43kg。比较身高和体重的变异程度。,身高和体重用不同的度量衡单位,因此不能直接比较标准差。,身高,体重,通过比较CV,结果是体重的变异程度大。,小结:集中趋势指标和离散趋势指标的应用,四、正态分布和医学正常值范围的估计,(一)正态分布,1.正态图形特点:,单峰峰值的位置是均数的位置,左右对称以均数位置为对称轴,向两侧逐渐降低,不会与横轴相交,具有两个参数:,位置参数决定曲线在横轴上的相对位置越大,曲线越向右移,形状参数S决定曲线的形状S越大,曲线越矮越宽(数据越分散),2.正态分布的表示方法:如果某变量X的分布服从均数为,标准差为的正态分布,通常记为,XN(,),例:100名女大学生的身高服从(163.84cm,3.79cm)的正态分布,3.标准正态分布,标准正态分布又称z分布,是指均数为0,标准差为1的正态分布。,正态分布可以转换成标准正态分布:将所有观察值减均数除以标准差。,标准正态分布表示方法:N(0,1),或,0,S=1,身高,163.84cm,S=3.79cm,4.735mmol/L,胆固醇含量,S=0.882mmol/L,标准正态分布(z分布),4.正态曲线下面积,正态曲线以下,横轴以上的面积称为正态曲线下面积,用P表示。,正态曲线下面积为100%(1),表示所有观察对象都包括在正态曲线的面积内。,正态曲线下面积左右对称,各占50%。,当正态分布的参数值固定后,正态曲线固定,正态曲线下面积由横轴上的界值来决定。横轴上X1X2之间的曲线下面积P可表示组段X1X2的频率。,身高,标准正态分布曲线下面积与界值,双侧95%:-1.961.96,双侧99%:-2.582.58,单侧95%:-1.6451.645,单侧99%:-2.332.33,z值表,双侧95%正态曲线下面积:,双侧99%正态曲线下面积:,常用正态曲线下面积和界值:,估计频率分布:,例1:100名2岁男童平均身高84.84cm,标准差3.79cm。计算占总人数95%的男童身高范围。,=84.84-1.963.7984.84+1.963.79,=77.4cm92.3cm,身高在77.4cm92.3cm范围内的人占总人数的95%。,77.484.8492.3,例2:身高小于80cm的人占总人数的比例,=-1.27,(1)正态分布转化为标准正态分布,计算z值,(2)查z值表,-1.27对应曲线下面积P是0.1020,即-1.27占总面积的10.2%,故身高不足80cm的人占总人数的10.2%,(二)医学参考值范围,1.什么是医学参考值范围?,2.双侧医学参考值范围和单侧医学参考值范围,有些指标要求有上限和下限,计算双侧参考值范围。例如:血压、血红蛋白、体重等,只要求有上限或下限的指标计算单侧参考值范围。其中:,上限:可以很小,过大不正常例如:尿蛋白,下限:可以很大,过小不正常例如:肺活量,绝大多数正常人某项研究指标数值所在的范围。常用95%和99%的正常值范围。,3.计算方法,正态分布法:要求资料服从正态分布例:100名2岁男孩身高的均数是84.84cm,标准差是3.79cm,计算100名男孩身高的95%和99%正常值范围,=84.84-1.963.79=77.4cm,=84.84+1.963.79=92.3cm,100名2岁男孩身高95%正常值范围是77.4cm92.3cm,95%正常值范围:,=84.84-2.583.79=75.1cm,=84.84+2.583.79=94.6cm,100名2岁男孩身高99%正常值范围是75.1cm94.6cm,99%正常值范围:,用百分位数法确定正常值范围,双侧95%:P2.5P97.5,双侧99%:P0.5P99.5,单侧95%上限:0P95单侧95%下限:P5P100,单侧99%上限:0P99单侧99%下限:P1P100,百分位数法:资料不服从正态分布时用,练习一:101名正常成年男子血胆固醇平均4.735mmol/L,标准差为0.882mmol/L,求其95%和99%正常值范围。,95%正常

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论