卫生统计2数值变量的统计描述.ppt_第1页
卫生统计2数值变量的统计描述.ppt_第2页
卫生统计2数值变量的统计描述.ppt_第3页
卫生统计2数值变量的统计描述.ppt_第4页
卫生统计2数值变量的统计描述.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 数值变量资料的统计描述,First,某研究欲了解我国某贫困地区3岁以下儿童体格发育现状。2000年在该地区随机抽取了一定数量的3岁以下健康儿童,对其进行了体重、身高、头围等指标的测量。其中100名2岁组健康男童的身高测量值如P8。研究者希望通过以上数据对该地区2岁组健康男童的身高有一个初步的概括性的了解。,Second,某医院检验一批共23位肝炎患者的相关抗原(HAA),滴度如下: 1:8,1:1,1:2,1:4,1:4,1:1,1:8,1:2,1:4,1:16,1:8,1:32,1:4,1:16,1:1,1:2,1:32,1:4,1:2,1:4,1:1,1:2,1:4。这批肝炎患者H

2、AA的平均滴度是多少呢?,Third,2003年非典期间,北京市某区有明确接触史的SARS患者共有38例,其潜伏期(天)分别为3,11,9,18,7,6,15,6,1,4,1,0,3,9,11,5,5,6,7,6,0,3,15,6,13,7,13,3,22,5,5,1,9,8,15,4,13,1。现欲了解这些患者的平均潜伏期是多少天?最短多少天发病?最长潜伏期是多少天?,第一节 频数分布,频数表的编制 编制步骤: 1. 求极差(即全距)R 找出观察值中的最大值、最小值,二者的差距即全距,又称极差。 在本例中最大值为93.5cm,最小值为75.4cm, 故全距=93.5cm-75.4cm=18.

3、1cm。,2. 确定组数n、组距i,并写出组段 频数表的组数是根据研究目的及观察例数确定的,一般设815个组段。 组距为相邻两组段下限值之差。相等组距可用极差/组数来估计。常取全距的1/10取整做为组距。本例中若取组数为10,则18.1/10=1.81,取整为2cm,即组距定为2cm。 根据组距写出各组段的起点,即下限,各组段的终点,即上限。第一组段要包括最小观察值,最后一个组段要包括最大观察值。各个组段要从本组的下限开始,不包括本组的上限。,3. 列表划记,2000年某地区100名2岁健康男童身高的频数分布,用SPSS软件绘制频数表,前期工作,如找最大值、最小值,确定组数,计算组距等,同手工

4、绘制频数表步骤。写组段的工作可以通过TransformRecodeInto Different Variables命令,产生一个新的“组段”变量来实现,然后用AnalyzeDescriptive StatisticsFrequenciesDisplay Frequency Table命令做出新变量“组段”的频数表。,组段,频数,身高(cm),某地区100名2岁健康男童身高的频数分布图,揭示资料的分布特征和分布类型; 频数分布的两个重要特征:集中趋势和离散趋势 频数分布可分为对称分布和偏态分布 便于发现可疑值; 便于进一步计算指标和统计分析处理,频数表的用途,第二节 数值变量资料的描述指标,集中

5、趋势指标:平均数 离散趋势指标,算术均数 几何均数 中位数,全距 四分位数间距 方差 标准差 变异系数,描述集中趋势的指标 平均数 average,算术均数(简称均数 mean) : 总体均数 :样本均数,计算方法 1.直接法 2.加权法,组中值,某地区100名2岁健康男童身高均数的计算,均数的应用: 适用于对称分布资料,因为这时均数位于分布的中心,最能反映分布的集中趋势。 对于正态分布资料,均数更有其重要作用。,几何均数(geometric mean) 用符号G表示 适用条件:常用于等比资料(如抗体滴度资料、医疗费用、人口增长等),尤其是对数正态资料。,计算方法: 1. 直接法: 2. 加权

6、法:,例 5人的血清滴度为 1:2, 1:4, 1:8, 1:16, 1:32, 求平均滴度。,故平均滴度为1:8,故平均滴度为1:4,应用 常用于呈等比数列的资料,即变量值呈倍数关系,尤其适用于对数正态分布的资料。对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据的对数值lgX代替X)服从正态分布。 计算几何均数时应注意: 1. 观察值中不能有0; 2. 观察值不能同时有正值和负值,若全是负值,计算时可把负号去掉,得出结果后再加上负号。,中位数 median,将一组观察值从小到大排序,位置 居中的观察值就是中位数,用符号M表示。 百分位数(percentile):将n个观察 值从小到

7、大依次排列,再把它分成100 等份,对应于X%位的数值即为第X百 分位数,用符号Px表示。,计算: 1. 直接法(小样本资料): 将观察值按大小顺序排列 n为奇数时 n为偶数时,2.频数表法(大样本资料或频数表资料):,例 临床观察7名某病患者,其潜伏期(天)各为:2,3,3,5,6,9,16,求其中位数。 例 若在上例中增加一例,其潜伏期为20天,求中位数 。,中位数的应用,中位数常用于描述偏态分布资料的集中位置,反映位次居中的观察值的水平。 当资料呈明显偏态分布、分布的一端或另一端无确定数值、或资料的分布不清楚时,用中位数描述集中位置 中位数和均数在对称分布的资料中,理论上数值相同,附件1

8、 2012年北京市城镇非私营单位就业人员年平均工资84742元 (北京统计信息网) 分行业门类看,年平均工资最高的三个行业分别是金融业184612元,是全市平均水平的2.18倍;信息传输、软件和信息技术服务业130154元,是全市平均水平的1.54倍;科学研究、技术服务业106604元,是全市平均水平的1.26倍。年平均工资最低的三个行业分别是居民服务、修理和其他服务业38838元,是全市平均水平的45.8%;农、林、牧、渔业39334元,是全市平均水平的46.4%;住宿和餐饮业42016元,是全市平均水平的49.6%。最高与最低行业平均工资之比是4.75:1,,新华社电 国家统计局2012年

9、20日首次公布了我国城乡居民人均收入的中位数。2011年,我国城镇居民人均可支配收入中位数为19118元,农村居民人均纯收入中位数为6194元。 国家统计局报告解释说,人均收入中位数是指将所有被调查户按人均收入水平从低到高顺序排列,处于最中间位置的被调查户的人均收入。收入平均数受高收入者和低收入者收入变化的影响较大,而收入中位数相对比较稳健,几乎不受高低两端收入变化的影响。由于居民收入通常呈偏态分布,人均收入中位数一般都低于人均收入平均数。首次发布居民收入中位数,对于社会公众更好把握居民收入分布状态,判断收入变化情况提供了更加丰富的基础数据。,描述离散趋势的指标,有甲乙两组各5人的第一小时末血

10、沉(毫米/小时)测量结果如下: 甲组:4 5 6 7 8 乙组:2 4 6 8 10,全距(range) 亦称极差,用符号R表示,是一组观察值中最大值与最小值之差。 反映个体差异的范围:极差大,变异程度大;极差小,变异程度小。 优点:计算简单,意义明了。 缺点: 1. 只反映两个极端值之差; 2. 不稳定。,四分位数间距(quartile range) 用符号Q表示 四分位数(quartile): 第25百分位数P25下四分位数QL 第75百分位数P75上四分位数QU 四分位数间距Q= QU QL 反映中间一半观察值的极差 优点:计算简单,比极差稳定 缺点:仍然没考虑全体观察值的变异, 仍然不

11、够稳定。,方差(variance) 总体方差2 样本方差s2 方差越大,变异越大;反之亦然。 优点:考虑了所有观察值的变异,比较稳定。 缺点:量纲(即单位)发生了改变。,标准差(standard deviation) 总体标准差 样本标准差s,计算 1. 直接法 2. 加权法,例 计算甲乙两组数据的标准差。 甲组: n=5,X=4+5+6+7+8=30 X2= 42+52+62+72+82=190 乙组:n=5,X=2+4+6+8+10=30 X2= 22+42+62+82+102 =220,某地100名2岁健康男童身高标准差计算,意义: 标准差全面反映了一组观察值的变异程度,两组观察值在单位

12、相同,均数相近的条件下,标准差大说明这组观察值的变异较大,即观察值围绕均数分布较离散,均数的代表性差;反之,说明各观察值多集中在均数周围,均数的代表性好。,应用 (1)表示观察值的变异程度; (2)计算变异系数; (3)计算标准误; (4)结合均数描述正态分布特征; (5)根据正态分布原理,应用于求正 常值范围。,变异系数(coefficient of variation) 亦称离散系数,用符号CV表示。 特出优点:没有单位,便于比较。 适用于: 1. 比较单位不同的多组资料的变异程度 2. 比较均数相差悬殊的多组资料的变异 程度。,例 研究得到100名2岁健康男童身高均数为84.8cm,标准

13、差为3.79cm;体重的均数为13.0kg,标准差为1.43kg,试比较身高与体重何者变异度为大。 身高 体重,例 某研究在某市随机抽取100名3岁男孩,测得身高均数=96.10cm,标准差S1=3.15cm;随机抽取100名18岁男生,测得身高均数=172.20cm,标准差S2=4.17cm。问3岁男孩身高与18岁男生身高相比,哪一个离散度更大?,用SPSS软件计算 集中趋势与离散趋势指标,利用AnalyzeDescriptive StatisticsFrequencies中的Statistics模块可以产出均数、中位数等集中趋势指标,以及标准差、方差、极差等离散趋势指标。,正态分布(nor

14、mal distribution)及其应用,正态分布的定义及图形特点 如果连续型随机变量X的概率密度是: X 则称X服从正态分布,记作XN(,2),身高(cm),频 数,单峰对称倒置钟形,z变换: z变换后,=0,=1,使原来的正态分布变换为标准正态分布,亦称z分布。 XN(0,1),正态分布的特征,正态曲线在横轴上方均数处最高; 正态分布以均数为中心,左右对称; 正态分布有两个参数,即均数和标准差 正态曲线下的面积分布有一定规律。,1.96及2.58区间内的面积各占总面积的95%及99% 标准正态分布对应于95%及99%总面积的区间分别是(-1.96,1.96)和(-2.58,2.58),曲

15、线下横轴上的 总面积为100% 对称,对于近似正态分布的资料,只要求得均数和标准差,就可对其频数分布做出概括估计,-1.96 0 1.96,Z,Z,正态分布的应用,估计频数分布 例 某地区2000年100名2岁男童的身高资料, 已知均数 ,标准差S=3.79cm。 该地区2岁男童中,身高不足80.0cm者占该 地区2岁男童的比例;,查附表1,(-1.27)=0.1020,故理论上该地区2岁男童中,身高不足80.0cm者占该地区2岁男童的10.2%。,该地区2岁男童中,身高在80.0cm90.0cm 之间的占地区2岁男童的比例;,查附表1,(-1.37)=0.0853 (1.37)=1-(-1.

16、37)=1-0.0853=0.9147 (1.37)-(-1.27)=0.9147-0.1020=0.8127 故理论上该地区2岁男童中身高在80.0cm90.0cm之间的占该地区2岁男童的81.27%。,8.53%,80,84.8,90,81.27%,该地区95%(大多数)的2岁男童的身高集中在什么范围内?,该地区95%的2岁男童的身高集中在(77.4cm,92.2cm)范围内。,制定参考值范围 reference range :又称医学正常值范围, 它是指特定健康状况的人群的解剖、生理、 生化等各种数据的波动范围。习惯上是确定 包括95%(或90%、99%)的人的界值。 根据指标的实际用途,医学参考值范围有单 侧的,也有双侧的 : 1.太大太小都不正常上、下双侧界值 2.太大不正常,越小越好单侧上限 3.太小不正常,越大越好单侧下限,医学参考值范围的估计 (以95%参考值范围为例) 1. 正态分布法:适用于正态或近似正态分 布资料 双侧界值: 单侧上界: 单侧下界: 例 求前面资料2岁健康男童身高的95%正常值范围。 即(84.8-1.963.79,84.8+1.963.79) (77.4cm, 92.2cm),2. 百分位数法:适用于偏态分布资料 双侧界值:P2.5,P97.5 单侧上界:P95 单侧下界:P5 例 某年某市238例正常人发汞值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论