




已阅读5页,还剩113页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
卫生统计学,第一章绪论,第一节定义:卫生统计学是把统计学的理论与方法应用到居民健康状况研究、医疗卫生实践和医学科研的一门应用性学科。,第二节统计工作的步骤,设计搜集资料整理资料分析资料,第三节统计资料的类型,1.计量资料定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。特点:有度量衡单位多为连续性资料,2.计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位多为间断性资料,3.等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。,第四节统计学中的几个基本概念,一、变异二、总体与样本总体:根据研究目的确定的研究对象的全体。样本:总体中有代表性的一部分。,三、常用随机抽样方法,随机:总体中每一个观察单位有同样的机会成为样本。1.简单随机抽样(单纯随机抽样)定义:从总体中完全随机地抽取一定数量的观察单位。步骤:第一步:将总体中所有观察单位编号第二步:随机抽取一定数量的样本。常用:抽签法和随机数字表适用:数目不大,比较单纯的小规模调查。,2.系统抽样(机械抽样),(1)将总体中所有个体按顺序排序(2)计算抽样间隔k(3)在前k个个体中用单纯随机抽样的方法抽取一个个体。(4)然后每隔k个个体抽取一个个体,组成样本。,3.分层抽样,将总体按照某种特征分为若干个层,然后从每个层中随机抽取一定数量的个体,将每层中抽取的个体合并即为样本。分层原则:层间差异大,层内差异小,4.整群抽样,将总体分为K个群,每个群包括若干个观察单位,然后在K个群中随机抽取g个群,并将抽取到的g个群的全部观察单位组成样本。,三、误差,误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下三种:1.系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。特点:具有累加性,2.随机测量误差:在消除了系统误差的前提下,由于非人为的偶然因素,对于同一样本多次测定,其结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差称为随机测量误差。特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。,3.抽样误差:在消除了系统误差,把随机测量误差控制在一定容许范围内,样本指标与总体指标之差为抽样误差。特点:有抽样,抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。,减少抽样误差的方法:(1)改进抽样方法,增加样本的代表性。样本量n相等的情况下,抽样误差大小排列:整群抽样单纯随机抽样系统抽样分层抽样(2)增加样本量(3)选择变异程度较小的研究指标,四、频率与概率,频率:发生某种现象的观察单位数占可能发生该现象的观察单位总数的比值。概率:是频率的极限,说明某种现象发生的可能性。特点:在01之间。,第二章集中趋势、离散趋势、正态分布及其应用,第一节计量资料的频数表,一、频数表的编制二、频数分布的两个特征:集中趋势与离散趋势三、频数分布的类型:对称分布与偏态分布四、频数表的主要用途:1.揭示分布类型2.发现特大值和特小值3.计算集中趋势指标与离散趋势指标,一、频数表的编制求全距(R):R=最大值最小值=173.6154.7=18.9(cm)确定组数:通常815组计算组距(i)i=R/组数i=18.9/10=1.89cm取整数2cm所以,i=2cm确定组段:第一组段包括最小值,如本例为154最后组段包括最大值,如本例1721744.列表划记,1998年100名18岁健康女大学生身高的频数分布,一、频数表的编制二、频数分布的两个特征:集中趋势与离散趋势三、频数分布的类型:对称分布与偏态分布四、频数表的主要用途:1.揭示分布类型2.发现特大值和特小值3.计算集中趋势指标与离散趋势指标,第二节集中位置的描述,平均数(average):表示一组性质相同的变量值的平均水平或集中位置。,一、算术均数(arithmeticmean),算术均数:简称均数(mean)总体均数用表示样本均数用表示。表示一组性质相同的观察值在数量上的平均水平。1.适用条件:正态分布、近似正态分布或对称分布,一、算术均数(arithmeticmean),2.均数的计算方法:(1)直接法:其中x:为变量值x:各变量之和n;总例数(2)加权法:其中:f:各组的频数X:各组组中值,表2.2100名18岁女大学生身高均数的计算(加权法),表2.2100名18岁女大学生身高均数的计算(加权法),X=163.84(cm),(fX),f,16384,100,二、几何均数(geometricmean),1、应用条件:等比数列资料(观察值呈倍数增长的资料)、对数正态分布或对数近似正态分布的资料。用途:计算平均血清抗体滴度和血清凝集效价。,2、计算,(1)直接法写成对数形式:例:5个人的血清滴度分别为1:2,1:4,1:8,1:16,1:32,求平均滴度。或,(2)加权法,表2.3平均滴度的计算(加权法),表2.3平均滴度的计算(加权法),三、中位数(median)及百分位数(percentile),(一)、中位数:将观察值由小到大排列,居中间位置的观测值就是中位数。常用M表示。(二)、百分位数:将观察值由小到大排列,在把所有观察值分成100等份,对应于第x百分位次(即x%)的数值即为第x百分位数。常用Px表示。,(一)中位数(median),应用条件偏态分布数据一端或两端没有确切值数据分布不清楚计算(1)直接法(2)频数表法,(1)直接法,将观察值按大小顺序排列,按下面公式计算中位数。n为奇数:例:1,3,4,5,7。此例n=5,(n+1)/2=3,n为偶数:,例:1,3,4,5,7,9。此例n=6,n/2=3,n/2+1=4,(2)频数表法列出频数表计算累计频数按公式求百分位数Px和中位数。百分位数:中位数:,频数表法计算中位数,频数表法计算中位数,M=P50=L+(nx%-fL)=12+(-25)=23.8(小时),i,fx,12,58,2,164,第三节离散程度的描述,一、全距(range)R二、四分位间距(quartile)Q=P75-P25三、方差(variance)四、标准差(standarddeviation,SD)五、变异系数(coefficientofvariation,CV),第三节离散程度的描述,四、标准差(standarddeviation,SD)意义:反映一组观察值变异程度大小的指标。两组在单位相同,均数相近的前提下,标准差大说明这组观察值的变异大,即观察值围绕均数分布较分散,均数的代表性差;反之,说明各观察值多集中在均数周围,均数的代表性好。,(2)标准差计算,总体标准差:样本标准差:a:直接法:,例题:,计算4,5,6,7,8的标准差。n=5,X=4+5+6+7+8=30X2=42+52+62+72+82=190代入公式:,b:加权法,例题:100名18岁女大学生身高标准差的计算,标准差加权法的计算,标准差加权法的计算,(3)标准差的应用,a:表示一组观察值的变异程度b:计算变异系数c:计算标准误d:结合均数描述正态分布e:根据正态分布原理,估计正常值范围,第三节离散程度的描述,五、变异系数(coefficientofvariation)公式:例题1:18岁女性身高:均数为163.84cm,标准差为3.79cm体重:均数为48.50kg,标准差为3.80kg比较身高与体重的变异程度?身高=3.79/163.84100%=2.31%体重=3.80/48.50100%=7.84%,例题2:3岁男童身高:均数为96.10cm,标准差为3.15cm18岁男生身高:均数为172.20cm,标准差为4.17cm比较身高与体重的变异程度?3岁:=3.15/96.10100%=3.28%18岁:=4.17/172.20100%=2.42%,第四节正态分布和医学正常值范围的估计,一、正态分布(normaldistribution)1998年100名18岁健康女大学生身高的频数分布,一、正态分布(normaldistribution)1.正态分布的图形,频数分布逐渐接近正态分布,2.正态分布的特征:1)均数处最高;2)以均数为中心左右对称;3)正态分布两个特征位置参数和变异度参数,正态分布:N(,)标准正态分布:N(0,1)正态分布转换为标准正态分布的公式:,3.正态曲线下的面积分布规律,例题:某市1982年110名7岁男童的身高已知:=119.95cm,s=4.72cm.试问:(1)估计该地7岁男童身高在110cm以下者占该地7岁男童的百分比。(2)估计该地7岁男童身高在身高在130cm以上者占该地7岁男童的百分比。(3)估计该地7岁男童身高在107.77cm到132.13cm之间的占该地7岁男童的百分比。,计算:已知:均数为119.95cm,标准差为4.72cm.(1)估计该地7岁男童身高在110cm以下者占该地7岁男童的百分比。查表1得0.0174=1.74%,已知:均数为119.95cm,标准差为4.72cm(3)估计该地7岁男童身高在107.77cm到132.13cm之间的男童占该地7岁男童的百分比?查表得:0.0049身高在107.77cm到132.13cm之间的占该地7岁男童的百分比为:1-0.0049-0.0049=0.9902=99.02%,4.医学参考值(正常值)范围的估计(1)正态分布法a:应用条件:正态分布或近似正态分布资料b:计算(双侧)95%正常值(医学参考值)范围公式:上例100名女大学生身高资料:估计女大学生身高参考值(正常值)范围(163.841.963.79,163.841.963.79)即(156.41cm,171.27cm),(2)百分位数法a:应用条件:偏态分布资料b:计算公式:双侧界值:P2.5P97.5单侧上界:P95单侧下界:P5,表2.51974年某市238例正常人发汞值频数分布,表2.51974年某市238例正常人发汞值频数分布,P95=L+(nx%-fL)=2.3+(238*95%-212)=2.65(ug/g),i,fx,0.4,16,第三章计量资料的总体均数估计和假设检验,统计推断(statisticalinference):用样本信息推论总体特征的过程。统计推断包括两方面内容:(1)参数估计;(2)假设检验。,参数估计:运用统计学原理,从样本计算出来的统计指标对总体该统计指标进行估计。样本统计指标称为样本统计量statistic。总体统计指标称为总体参数parameter。,假设检验(hypothesistesting)(显著性检验):由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。,第一节均数的抽样误差与标准误一、均数的抽样误差(samplingerror)抽样误差:抽样引起的样本统计量与总体参数之间的差异。均数的抽样误差:抽样引起的样本均数与总体均数之差(x-)。,二、标准误(standarderror)样本均数的标准差叫做标准误。标准误是表示抽样误差大小的指标。,X1X2XiXn,x,图例说明标准误,三、均数标准误的计算:总体标准误计算公式:,为总体标准差;n为样本例数;为总体标准误。,n,x,s,=,s,x,三、均数标准误的计算:样本标准误计算公式:,S:为样本标准差;n:为样本例数;:为样本标准误。,举例:对某地健康成年女性的血红蛋白含量进行抽查。随机抽取了225人,结果算出X=117.6g/L,S=10.2g/L,求其标准误的大小?,四、均数标准误的意义及与样本量的关系:标准误反映抽样误差的大小。标准误越小,说明抽样误差越小,用样本均数估计总体均数的可靠性越大。从计算式中还可以看出:S一定时,n越大,也就是样本量越大,标准误越小。所以我们可以通过增加样本量来减小抽样误差。,第二节t分布(t-distribution)t分布曲线:以0为中心、单峰、两侧对称的曲线。与正态分布所不同的是:曲线中点处比标准正态曲线低,两侧尾部翘起的比标准正态曲线高。,t-分布示意图,从t值表可以看出两个规律:一定时,P值越小,t界值越大,即一定时,若t1t2,则P1=100或,95%总体均数的可信区间:,99%总体均数的可信区间:,例:在某市成人中随机抽取400人测每分钟脉搏,测得x=74.5次/分,S=6次/分。求该市成人平均脉搏的95%可信区间和99%可信区间。该市成人平均脉搏的95%可信区间:n=400,x=74.5次/分,S=6次/分,=0.05(双侧),u=1.96,xusx=74.51.96=(73.9,75.1)次/分成人平均脉搏的95%可信区间是73.975.1次/分.,该市成人平均脉搏的99%可信区间:n=400,X=74.5次/分,S=6次/分,=0.01(双侧),u=2.58Xu=74.52.58=(73.7,75.3)次/分成人平均脉搏的95%可信区间是73.7次/分75.3次/分。,(4)意义:成人平均脉搏95%可信区间是指:成人平均脉搏有95%可能性在73.9次/分75.1次/分这个区间;换句话说,做出该市成人平均脉搏为73.9次/分75.1次/分的结论,说对的概率是95%,说错的概率是5%;成人平均脉搏99%可信区间是指:成人平均脉搏有99%可能性在73.7次/分75.3次/分这个区间。做出该市成人平均脉搏为73.7次/分75.3次/分的结论,说对的概率是99%,说错的概率是1%。,2t分布法:(1)计算公式:(X-t.,X+t.)即(Xt.)(2)应用条件:样本量n=100,(3)例题:例3某产科医生统计正常妇女骨盆X线的资料40例,得骨盆入口前后径均数12.0cm,标准差0.9cm。求妇女骨盆入口前后径的95%可信区间已知x=12.0cm,S=0.9cm,本例n=40,为小样本,自由度=n-1=40-1=39=0.05(双侧),查表t.=2.023xt.=12.02.023=(11.7,12.3)cm这些正常妇女骨盆入口前后径的95%可信区间是11.7cm12.3cm。,(4)意义:可信区间的意义:例3中正常妇女平均骨盆入口前后径的95%可信区间是11.7cm12.3cm,这一结论,说对的把握是95%。,例题,第四节假设检验的一般步骤,一、进行假设检验(hypothesistesting)的原因,成人男性身高1=170cm,成年女性身高2=160cmX4=162cm,X1=171cmX3=165cm,X2=163,当样本均值不相同时,有两种可能情况:1:本质上不同2:本质上相同,由于抽样造成的样本均数间不相同。如果由于抽样误差造成的样本均数间不同的概率u或|t|t,则P。,5作出推断结论如果p,认为在检验假设H0成立的条件下,得到等于或大于现有统计量u值或t值的可能性大于,不属于小概率事件,则不拒绝H0,差别无统计学意义,结论是不认为两总体均数不相等。如果p2.58,则P100,4例题,某研究人员欲研究正常男、女新生儿血中甘油三酯浓度是否不同。研究者在某地随机抽取正常男性新生儿375名,测定得到血中甘油三酯浓度的均数为37.6mg/100ml,标准差为22.5mg/100ml;随机抽取正常女性新生儿367名,测定得到血中甘油三酯浓度的均数为38.8mg/100ml,标准差为25.8mg/100ml。问:男女新生儿的血中甘油三酯浓度是否相同?,图例分析正常男、女新生儿血中甘油三酯浓度比较,.建立检验假设检验假设:假设正常男、女新生儿血中甘油三酯浓度均数相同备择假设:假设正常男、女新生儿血中甘油三酯浓度均数不同即:H0:1=2;H1:12.确定显著性水平=0.05。.计算统计量因本例n1100且n2100,样本均数近似服从正态分布,故计算统计量u值:本例:n1=375=37.6mg/100mlS1=22.5mg/100mln2=367=38.8mg/100mlS2=25.8mg/100ml代入公式:u=0.67.确定概率值:因为u=0.670.05。.判断结果因为=0.05,现得到的P值0.05,所以不拒绝检验假设H0,不能认为正常男、女新生儿血中甘油三酯浓度均数不同。,第六节均数的t检验(t-test)一、小样本均数与总体均数比较的t检验1比较目的:比较一个小样本均数所代表的总体均数和已知的总体均数0是否不同。2公式:t=自由度=n-13适用条件:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 考点解析-冀教版七年级下册期末试题及参考答案详解(新)
- 大培训、大学习、大考试安全应急考试题库及答案
- 2025年快消品包装行业可持续设计理念研究报告
- 2025年物联网设备安全漏洞防护策略与解决方案深度剖析报告
- 2025至2030年中国个人护理用品连锁行业市场运营趋势分析及投资潜力研究报告
- 2025至2030年中国短保面包行业市场供需格局及投资规划建议报告
- 2025年度房地产销售代理与物业管理合作协议
- 2025版房地产投资担保协议下载模板
- 2025版版汽车零部件采购合同模板
- 2025年度环保产业保证担保合同模板
- 钢板桩支护工程监理细则
- 婚内财产分割协议书模板
- 食品行业采购管理流程及实施细则
- 2025年新版小学语文新课标标准课件
- 《功能高分子材料》课程教学大纲
- 企业反恐防暴安全
- 高标准农田建设项目方案投标文件(技术方案)
- 《大学生求职面试礼仪指南课件》
- 私募股权投资基金(双GP)合作框架协议书范本
- 城市经理人合作合同范本
- 2025年度合伙人股权代持风险防范及解除协议
评论
0/150
提交评论