第2章 定量资料的统计描述指标_第1页
第2章 定量资料的统计描述指标_第2页
第2章 定量资料的统计描述指标_第3页
第2章 定量资料的统计描述指标_第4页
第2章 定量资料的统计描述指标_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章

定量资料的统计描述

主讲人:王汝芬联系:

wangrufen@163.co/p>

教研室:卫生统计学8462425思考讨论1、本堂课你学到了什么?2、为什么要学这门课?3、你准备用什么方法学?

学习目标:

1、熟悉频数表的划记步骤,频数表的用途。2、掌握均数、几何均数、中位数的定义、计算方法、适用范围。

3、掌握标准差s、四分位间距(p75-p25)、变异系数CV的计算与应用。

第一节频数分布表及频数分布图定量资料进行描述时,如果样本量较大,需要对原始资料进行整理,列出频数分布表(frequencydistributiontable),通过频数表以显示资料的分布类型。一、离散型定量资料的频数分布

即变量的取值是不连续的

如1998年某山区96名孕妇产前检查次数资料:见11页表2-11998年某地96名孕妇产前检查次数分布检查次数(1)频数(2)频率(%)(3)044.2177.321111.531313.542627.152324.0>51212.5合计96100.0根据表2-1频数的分布可绘出频数分布图,见12页图2-1。图中横坐标表示产前检查次数,纵坐标表示各检查次数的孕妇例数占总孕妇数的频率(比例)。

从图2-1其直条高度和分布情况看出,某地96名孕妇产前检查次数分布呈负偏态分布。正态分布见图2-2,正偏态分布见图2-3。二、连续型定量资料的频数分布频数表的划记步骤:见12页1、找出最大值和最小值,2、求极差R(Range)R=最大值-最小值R=29.64-7.42=22.223、定组段数与组距:(1)确定组数K:根据样本例数n大小而定,一般分10组左右,如样本较小,可少于10组;如样本较大时,可大于10组,以能反映出分布规律为原则。(2)定组距i:即组与组间的距离,一般等距分组。

i=R/K(极差/组数)=22.22/10=2.222最终原则是取整、取偶数,所以本例i=2(3)定组段的上下限并划记:每个组段的起点(最小值)称为该组的下限(lowerlimit),终点(最大值)称为该组的上限(upperlimit)。注意第一组段把最小值包括进去,最后一组把最大值包括进去。4、列表:统计各组段的频数:见表2-2

120名正常成男血清铁含量的频数分布组段(1)划记(2)频数f(3)频率(%)(4)6~10.838~32.5010~65.0012~86.6714~1210.0016~2016.6718~2722.5020~1815.0022~1210.0024~86.6726~43.3328~3010.83合计120100.00三、频数分布表的用途1、揭示资料的分布类型频数分布可分为对称分布和偏态分布两种类型。对称分布是指集中位置在中间,左右两侧频数大体对称的,对称分布包括正态分布,如第14页图2-2所示。偏态分布是指集中位置偏向一侧,频数分布不对称的。集中位置偏向左侧的,为正偏态,集中位置偏向右侧的,为负偏态。2、揭示频数分布的两个分布特征

集中趋势和离散趋势。如成年男子血清铁分布,大多集中在18组段,偏离18组段的越来越少。3、便于发现特大或特小的可疑值。以确定取舍4、便于进一步选择方法计算统计指标

第二节

描述集中趋势的统计指标描述定量资料的分布特征的指标有两类,一类是描述分布集中趋势的,另一类是描述分布的离散趋势的。今介绍描述定量资料分布集中趋势的指标平均数(average)。平均数包括算术均数、几何均数、中位数、众数、调和均数。一、算术均数:简称均数(mean,)总体均数用希腊字母μ,样本均数样本例数用n表示。

1、均数的适用范围:对称分布,尤其正态或近似正态分布的资料。2、均数的计算方法:直接法(用于小样本)频率表法(用于大样本)其中f为各组段的频数,X0是各组的组中值,如p16表2-3第一组段的组中值是按均数的计算公式求得均数为:

二、几何均数G(geometricmean)

由该公式可得到定义:

n个观察值的乘积开n次方所得的根即为几何均数。1、G的适用范围:变量值呈倍数关系的;对数正态分布的资料。

2、几何均数的计算方法:直接法(用于小样本)式中:log对数符号,log-1反对数符号例如7名慢性迁延性肝炎的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。计算其几何均数,即求平均滴度。

G=1:64该7名慢性迁延性肝炎的HBsAg平均滴度为1:64。

频率表法(用于大样本)例如17页表2-4资料表2-452例慢性肝炎的HBsAg滴度资料抗体滴度人数f滴度倒数xlgxflgx1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52108.06977G=1:119.74705即1:120

52名慢性肝炎的HBsAg滴度资料其平均滴度为1:120。

三、中位数(median,M)

是指一组观察值从小到大(或从大到小)顺序排列后居于中间位置的数。

即总数中有一半的数低于它,一半的数高于它。1、M的适用范围:

理论上用于各种分布的资料。实际用于:偏态分布资料;开口资料;分布类型不清的资料。

2、M的计算方法:小样本计算法:当n为奇数时M=x(中间)

当n为偶数时M=(中间两位)/2注:按升序排列后的如今有5名工人接触某有害物质后,引起中毒的潜伏期分别是:1天,3天,5天,4天,8天。该5位工人的平均潜伏期是多少天?大样本频数表资料,可用百分位数法计算:百分位数(percentile,Px):

它表示一组观察值按升序排列,并等分为100等份,位居第x%位置的数。其中,中位数M=P50式中,Px:百分位数L:百分位数所在组下限;i:组距;fx:百分位数所在组的频数;fL:百分位数所在组之前的累计例数;n:样本例数。例:对18页表2-5资料,求中位数:表2-250名链球菌咽夹炎患者潜伏期(小时)的频数分布组段频数f累计频数∑f累计频率%12~110.8324~343.3336~6108.3348~81815.0060~123025.0072~205041.6784~277764.1796~18108~12012合计120表2-550名链球菌咽夹炎患者潜伏期(小时)的频数分布组段组中值(X0)频数(f)频率(%)累积频数(f)累积频率(%)12~18121224~3071481636~421122193848~541122306060~6671472~7851084~904896~1022

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论