




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、卫生统计学教学提要绪论一.卫生统计学( health statistic)的定义和内容1.定义: 统计学:研究数据的收集、整理、分析,对不确定的数据作出科学推理的一门科学(即概率论).卫生统计学:2.内容:卫生统计学的基本原理和方法 健康统计 卫生服务统计二.统计工作的基本步骤 全过程包括:计划与设计、收集资料、整理资料、分析资料 1、设计(design): 根据研究目的对统计全过程的一个全面的设想。这是最关键的一步。 要求:科学、周密、简捷。 设计包括:实验设计、调查设计、临床实验设计 设计原则:齐同原则、对照原则、重复原则、随机化原则 2、搜集资料(collection of data):
2、 要求:完整、准确、及时。 医学统计资料的来源主要有三个方面: (1) 统计报表:eg法定传染病报表、职业病报表、医院工作报表; 报表项目较少,不具备可比性 (2) 日常医疗工作的原始记录和报告卡片; eg:卫生监测记录、健康检查记录 (3)专题调查与实验: A常见专题调查的种类: 居民健康状况调查 流行病调查(病因学调查) 临床远期疗效观察 卫生学调查:职业卫生学调查、环境卫生学调查、营养与食品卫生学调查、放射卫生学调查、心理卫生学调查等。 B调查的内容:a. 明确调查目的、内容和指标b. 确定调查对象(总体)、观察单位(个体)c. 选择调查方法:全面调查(普查:census) 非全面调查:
3、典型调查:有意识选择范围 抽样调查d. 确定调查范围:时间、空间、数量范围e. 选择调查方式:观察法、采访法、填表法、通讯法。f. 确定调查项目和设计调查表: 调查项目:核查项目(检索项目、备考项):被调查者的姓名、住址等。 分析项目(业务项目):资料不能缺少的分析项目。 调查者项目(审核项目):调查者的姓名和调查日期 调查表:调查项目按一定顺序列成的表格。 制表要求:简便、清楚 多用:选择、填空、符号、数字; 少用:文字叙述 调查表形式: 一览表(list):多个观察单位记录在一张表中 适用于调查项目少、样本少的专题调查 单一表(card、调查卡片、个案卡片): 一个观察单位记录在一张表 中
4、,适用于调查项目多、样本多的专题调查 编码调查表(code sheet): 适用于样本多、分析项目多、分析内容复杂的专题调查,计算机保存。g. 确定样本大小h. 制定调查的组织工作:建立组织、确定起止时间、进度、分工、培训调查员可先小范围调查(预调查) 3、整理资料(sorting data):系统化、条理化 1)核查资料; 2)分组汇总,拟整理表:按性质(分类变量)或数量(数值变量)分组, 拟定整理表(过渡性的表格,按调查指标合理设计,用于原始资料的归组,表中有合计、总计等项目)。4.分析资料:计算有关指标,反映数据综合特征统计描述(descriptive statistic) 包括指标的计
5、算、统计图表的 绘制,描述数据的特征和分布规律。 统计推断(inferentical statistic) 用样本统计量通过参数估计、假设检验等统计方法推断总体. 推断总体 1)推断总体分布;是正态还是偏态(常有理论或经验得到) 2)推断总体分布的参数或特征量: 和s 三.统计中的几个基本概念1、变量与变异:变量:个体的研究特征; 变异:各观察指标(即个体)之间的差异:包括个体变异和随机测量变异同质观察单位之间的个体变异,是生物的重要特征,是偶然性的表现。 变量值:变量的观察结果: 定量变量: 数值变量资料 定性变量: 分类变量资料数值变量(numerical variabal): 用定量方法
6、对每个观察单位测定某项指标的所得的资料.一般有度量衡单位(也称计量资料measurement data)。分类变量(categorical variable) 表现为互不相容的类别或属性.分两种: a.无序分类变量:(unordered categories,计数资料enumeration data):将观察单位按某种属性或类别分组,再清点各组的观察单位数。可分为二项式或多项式分类变量。 b.有序分类(ordinal categories,等级资料ranked data半定量资料):将观察单位按某种属性(或性质、标志)的不同程度分组,然后清点各组的数据所得的资料。(各组之间有程度的差异). (
7、这类资料与计数资料不同的是:属性的分组有程度的差别,各组按大小顺序排列;与计量资料不同的是:每个观察单位未确切定量,因而又称为半定量资料。) 三种资料间可以相互转化。2、总体与样本: 总体(population):根据研究目的确定的同质的研究对象的全体(性质相同的所有观察单位的某种变量值的集合)。 样本(sample):从总体中随机抽取一部分观察单位进行观察,这部分观察单位对总体有代表性,称为样本。(总体中每一观察单位均有相同的机会被抽取到样本中去。)3.概率(probability)与频率描述某事物发生的可能性大小的数值,用分数、小数、百分数表示。符号p。P=1 p=0 0<p<
8、1 随机事件p0.05或p0.01 小概率事件3.误差(statistic error):测得值与真实值之差。 系统误差(systematic error)因仪器不准等造成的呈倾向性偏大或偏小的误差(可以消除)。 随机测量误差(random measurement error)仪器校正后由于偶然因素造成同一物体多次测量结果不完全一致(不可避免,无倾向性)。抽样误差(sampling error): 消除系统误差和控制随机测量误差后,由于观察单位间存在个体差异, 随机抽样造成的样本指标与总体参数有差异, 这种样本统计量与总体参数间的差别称为抽样误差。4.参数与统计量: 总体指标均称参数,用希腊字
9、母表示:, ,样本指标均称统计量,用拉丁字母表示X,s。频数分布的集中趋势和离散趋势一. 数值变量资料的频数表1. 频数表的编制 a.求全距(range)R R=最大值-最小值 b.确定组距(class interval)i i=全距/组数 组数取决于资料性质、样本量、分析目的 要求:组数一般815组,组距相等 c.划分组段:每组都有开始值、终止值 第一组包括最小值,最后一组包括最大值 每组段只写组下限,省略组上限 各组界限要分明(既不包含也不留空隙) d.归纳记数,拟整理表 方法:划记法(tabulation method):正 适用于样本少、内容简单的资料 分卡法(card sorting
10、 method):卡片分组 适用于样本多的资料2. 频数分布的两个特征: 集中趋势和离散趋势3. 频数分布的类型:对称分布和偏态分布(正偏和负偏)4. 频数表的用途二. 集中趋势的描述:平均数(average)1.概念:平均数是集中趋势(central tendency)指标(亦称位置指标), 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。2.种类:1) 算术均数: arithmatic mean, 样本均数, 符号: X (eksba),拉丁字母,简称均数, 总体均数, 符号(miu), 希腊字母 (1)适用范围:对称分布(特别是呈正态分布或近似
11、正态分布)。 (2)计算方法: A.直接法(direct method): 当观察值个数较少时X =Sx/n S:希腊字母,sigma,求和符号 B.加权法(weighting method): X =S¦x/S¦=S¦x/n 条件: 当观察值个数较多时 步骤:A) 制备频数表 B)求各组组中值(class-mid value) X=(本组段组下限+下组段组下限)/2 C)统计各组段频数f D) Sfx E)x=Sfx/Sf 各组段f权衡了各组中值因f不同对均数的影响,起权衡作用,权数大,作用大. (3)均数的两个重要特征: A. (XX )=0 B.(XX )2
12、<(Xa)22)几何均数(geomatric mean ,符号G表示)用于描述变量值呈等比数列, 或呈对数正态分布(log-normal distrbution)或近似对数正态分布资料。 资料作对数变换(log arithmic transformation)直接法:当n较小时 G=(x1x2× x3× ×××××× xn )1/n, G=lg-1( SlgX/n )加权法: 当n较大时 G=lg-1( S¦lgX/S¦ )应用条件:任何一个不能为0,不能同时有正有负步骤:求倒数X log
13、X flogX S¦lgX S¦lgX/S¦ lg-1( S¦lgX/S¦ )=G3)中位数(median, 位置平均数,符号M): 是一组变量值从小到大顺序排列后位次居正中间的那个数值。 应用条件:多用于描述偏态分布资料,或一端或两端无确定数值的开资料的集中趋势,或频数分布不明资料,。 计算方法: 直接法:当n较小时 n为奇数时 M=X(n+1/2) n为偶数时 M= X(n/2)+X(n/2+1) 频数表计算方法: 当n较大时用 A 编频数表(frequency table)B PX =L+i/fm( n×x% - S¦
14、L )L:中位数所在组段下限;i: 中位数所在组段组距fm : 中位数所在组段频数S¦L:中位数所在组段之前的累积频数x%:百分位 50%4)百分位数(percentile,PX ):描述一组有序排列的偏态分布数据某百等分界值大小(简称界值,是一种位置指标)应用条件:偏态分布(skew distribution)资料应用: 估计正常值范围:95%: P2.5 P97.5三. 离散程度的描述 描述变异程度的常用指标:例:三组同性别同年龄儿童体重(KG),其集中趋势与离散程度分别是: 甲组:26 28 30 32 34 X =30KG 乙组:24 27 30 33 36 X =30KG
15、丙组:26 29 30 31 34 X =30KG 三组数据集中位置用X描述 ,X =30KG, 三组数据离散度不同,分布特征不尽相同。 1)全距(range, R, 极差)即一组变量值中最大值与最小值之差。 R=X最大X最小 优点:简单明了,常用于传染病、食物中毒的最长、最短潜伏期 缺点: A .不能反映组内数据的变异度 B. N R C. 抽样误差较大2)四分位间距(quartile Q) P75 QU P25 QL Q = QUQL(包括全部观察值的一半)应用:偏态分布资料优点:较稳定,特别是N较大时,越接近分布的中间越稳定。缺点:未考虑每个观察的变异度。 3)方差(variance,s
16、2 ,s2)离均差平方和的平均值 离均差: X, (X)=0 离均差平方和(Sum of squares), (X)2 1 .与变异度有关:变异度 ,(X)2 2与N多少有关:N , (X)2 为消除N的影响,取其均值 (X)2 (XX )2 s2 = S2= (样本方差公式) N n-1 缺点:单位平方 优点:考虑了每个变量值的变异,方差大小不受样本量多少的影响4)标准差(standard deviation,s s): 是最常用的衡量变量值间离散程度的变异指标。 (X)2 s= N定义:离均差的平方和的平均值的平方根意义: 1. s越大,说明个体差异越大,则平均数代表性就越差 2. 未知,
17、用s估计s,用(XX )2 代替(X)2 用样本例数n代替N, 由于抽样误差存在,X=可能性小,当 X=按上式算得结果常比实际s低, 英国W.S.Gosset提出用n-1代替n校正, (XX )2 S= (样本标准差公式) n-1 自由度 :随机变量能自由取值的个数。(niu) =n-1 (XX)2 X2(X)2/ n fX2(fX)2/n n-1 = n-1 = n-1 Lxx=SS=X2(X)2/ n Lxx=SS=fX2(fX)2/n 应用:(1)用来描述资料的变异程度:应用条件:正态分布X +s (2)比较不同资料变异程度大小:应用条件: 单位相同 均数相近优点:考虑了每个观察值的变异
18、情况,和集中趋势单位一致; 当资料呈正态或近似正态资料时可写成: X ± S, 表示均数的代表性。 缺点:计算复杂5)变异系数: (离散系数 coefficient of dispersion ,CV) CV= (S/ X ) *100% 应用:A、比较均数相差悬殊的几组资料的变异程度; B、比较单位不同的多组资料的变异度: 应用条件:正态分布; 单位不同或均数不等 优点:无单位,便于比较 正态分布及其应用一. 正态分布(又称Gauss分布)概念:: 是医学和生物学中最常见的连续性总体频数分布, 以均数为中心, 两侧逐渐下降并对称, 两端永远不与横轴相交。1. 正态分布(normal
19、 distribution)图形:直方图,当n增大各直条逐渐变窄,其顶点 中点将变成一条光滑曲线(频数曲线),形状呈钟形,两头低,中间高,左右对称。正态分布用N(m, s2)表示, 为了应用方便, 常对变量X 作 u=( X - m )/ s变换, u=( X - m )/ s 1)原点移到 m 的位置 2)横轴尺度以 s 为单位 使m=0, s=1,则正态分布转换为标准正态分布(standard normaldistrution,U分布), 用N(0, 1)表示。 U:称为标准正态变量或标准正态差 特征: A、均数处最高; B、以均数为中心, 左右对称; C、有两个参数: m和s, u 位置
20、参数,图形向右移动 s变异度参数,数据越分散 D、正态曲线下的面积分布有一定规律: a.曲线与横轴X所夹面积总和为1 b.横轴上某一区间和曲线所夹面积与总面积之比,相当于变量值落在该区间的概率(概率分布),反映该区间例数与总例数之比(频率分布,百分数) c.横轴上某一区间所夹面积可用函数积分求得 正态曲线下的面积分布规律 变量值范围 正态曲线下面积(变量值出现的概率) m ± 1.0s 68.27% m ± 1.96s 95.00% m ± 2.58 s 99.00% 3) 正态分布的应用: 常用于估计频数分布情况; 制定正常值范围。正常值:指正常人的各种生理常数
21、。当资料呈正态分布时,最常用X ± 1.96S估计95%正常值范围, 其含义是指绝大多数正常的变量值都在这个范围内, 绝大多数是包括正常的80%、90%、95%和99%, 最常用95%。 应用:1 估计医学参考值范围 X ± uS 2. 质量控制 X +2S 上下警戒线 X +3S 上下控制线 常用的U值表 参考值范围% 单侧 双侧 90 1.282 1.645 95 1.645 1.96 99 2.326 2.58 95%参考值范围 双侧 X +1.96S 单侧 上限 (upper limit) X +1.645S 下限(low limit) X -1.645S 99%参
22、考值范围 双侧 X +2.58S 应用条件:1. 正态分布或近似正态分布资料 2.可转化为正态分布资料: 对数变换(抗体滴度、血清效价、住院天数、潜伏期、检验结果、残留量、有害物质的浓度等) 3.t分布、二项分布、POISSON分布等极限为正态分布 正态分布是X2分布、t分布、F分布的基础总体均数的估计和假设检验一.均数的抽样误差和标准误(standard error) 1) 均数的抽样误差 随机抽10个变量值组成样本 第一次:x11 x12 x13 x14 x15 x16 x17 x18 x19 x110 X 1 第二次:x21 x22 x23 x24 x25 x26 x27 x28 x29
23、 x220 X 2 类推: 第n次:xn1 xn2 xn3 xn4 xn5 xn6 xn7 xn8 xn9 xn10 X n N(m, s2 ) (1)特征:a.样本均数x1 x2 x3. xn不一定相等. b.s为定值,s越大, 抽样误差越大. c.样本均数的频数分布呈近似正态分布: X =X/nu (2)中心极限定律(central limit theorem)a.正态总体中随机抽取许多含量相等的样本,这些样本均数的频数分布呈正态分布N(m,s2x )b.偏态总体中随机抽取许多含量相等的样本,当n>30时,样本均数的频数分布近似正态分布N(u,s2x )若变量x的总体(正态或偏态)均
24、数为m,标准差为s,则含量为n的样本均数X的总体均数也为m, 样本均数的标准差为sx(放回抽样). 均数的抽样误差:因随机抽样造成的样本统计量之间以及样本统计量与总体参数之间的差异.记作sx sx. (3)抽样误差影响因素:a. n大小b. sc. 抽样方法不同, sx不同. 抽样误差不可避免.2)标准误的概念 (1)定义:样本均数的标准差,是说明均数抽样误差大小的指标。标准误愈小,表示抽样误差愈小,样本统计量对总体参数的估计愈可靠。 (2)标准误的计算sx=s/Ön(总体标准误) sx=s/Ön(样本标准误)(当s未知,用s代替s) (3)标准误的应用表示样本均数的离散度
25、; 估计总体均数的可信区间; 进行假设检验 (4)标准差与标准误的区别和联系 标准差 标准误 区别: 表示个体之间的变异度 表示样本均数之间的变异度 表示观察值与样本均值之间的离散度 表示样本均数与总体均数之间的离散度 可以衡量样本均数抽样误差的大小 联系: sx=s/Ön二.t分布(t distribution)(1) t分布的概念: 从正态总体中随机抽取许多含量为n的样本,由样本算出样本均值X和sx,按t公式算出t值,将n个t值作直方图,构成t变量的频数分布图(连续性分布) X1 s1 t1值 X2 s2 t2值 X3 s3 t3值 Xn sn tnu=( X - m )/sx
26、U变换, X 由N (m, sx2)变换为标准正态分布(U分布)sx往往用sx来估计t = ( X - m )/sx t变换(t分布)。U值称样本检验统计量, t值也称样本检验统计量 当n 就成了t曲线(2) t分布的特征: 与标准正态分布相比有以下特征: a.二者都是单峰分布, 以0为中心, 左右对称; b. t分布有一个参数,u不同,t曲线不同, u越大,峰度越大。u逐渐增大时, t分布逐渐逼近标准正态分布; 当u=¥时,t=u, t分布就完全成为标准正态分布了。 c.t分布曲线下的面积有一定规律: t曲线与横轴所夹面积总和为1 横轴上某一区间和曲线所夹面积与总面积之比,相当于t
27、值落在该区间的概率(概率分布) 从总体中随机抽样获得t值落在整个横轴概率为1, 获得t值³ ta,u的概率p<a单侧: P( t £ - ta,u)= a, 或P(t ³ ta,u)= a双侧: P( t £ - ta,u)+P(t ³ ta,u)= a; P( - ta,u < t < ta,u)= 1 - a随机抽样算t值,95%满足: - ta,u < t < ta,u - ta,u < (X - m) /sx < ta,u X - ta,u sx < m <X + ta,u sx ;
28、(3)t界值 t界值表, 横标目为自由度u, 纵标目为概率P, 表中数字表示自由度为u, P为a(检验水准)时, t的界值, 常记为ta,u。 注意: u不同, ta,u不同 u相同, p , ta,u 且单侧P与双侧2P的t值相等, p相同, u , ta,u三.总体均数的估计 包括点值估计和区间估计: a.区间估计的涵义: 意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如95%可信区间, 意味着做100个可信区间, 平均有95个可信区间包括总体均数(估计正确), 只有5个可信区间不包括总体均数(估计错误)。 b.区间估计的方法: X - ta,u sx < m <
29、X + ta,u sx ; s已知 X - Ua,sx < m <X + Ua,sx ; s未知但n足够大 X - Ua,sx < m <X + Ua, sx ; c.可信区间两要素: 准确度:反映区间包含总体均数的概率大小,即1-a大小,越趋近1越好 精度: 反映区间的长度, 长度越小越好 1-a 一定条件下,n , 精度 四.假设检验(hypothesis test)一般步骤: X与m不等的原因 1.由于抽样误差引起,若无抽样误差,它们之间相等 2.总体存在质的差异,并非抽样误差引起,若无抽样误差,它们之间仍不相等(1) 概念:所谓假设检验, 就是根据研究目的, 对
30、样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断此假设应当拒绝或不拒绝, 以使研究者了解在假设的条件下, 差异由抽样误差引起的可能性大小, 便于比较分析。即:推断样本统计量与总体参数之间或样本统计量之间的差异是由抽样误差引起还是总体存在质的差异。假设检验(对总体而言);显著性检验(对样本而言)(2) 一般步骤a.建立假设: 无效假设(null hypothesis)H0: m= m0 即假设样本指标与总体参数(样本与样本指标)是相等的,若不等,它们的差别是由抽样误差引起。 备择假设H1: mm0,是与H0相对立的假设;差别不是由抽样误差引起,而是有本质差异b.确定检验水
31、准a(亦称显著性水准,第一类错误),假阳性概率,即本来差异无显著性而判断其有显著性的概率,是一个接受或拒绝H0的概率标准。常取a =0.05或a=0.01 1-a:可信度 c.选定检验方法和计算统计量: t检验、U检验、c2检验、F检验等。d. 确定P值:e. P值:是指在由H0所规定的总体中作随机抽样,由于抽样误差引起的获得现有样本统计量的概率。 X - m t= SX根据t值判断:若H0成立,理论上从总体中抽得样本均数与总体均数差别 X -m 不会很大,则t值不会很大,t 值很大的可能性(概率)是很小的,用尾部面积表示,即 t ta,u 的概率Pa,即由抽样误差引起两均数有差别的概率很小,
32、根据“小概率事件在依次一次试验中基本上不发生”,故拒绝H0 ,本身有质的差异的概率很大。 t ta,u Pa,拒绝H0,接受H1 t ta,u Pa,不拒绝H0 f.作出统计推断: 当P£ a时, 统计推断结论为按所取检验 水准拒绝H0, 接受H1, 差别有显著性意义。P0.05,差异无显著性(nonsignificance)P0.05,差异有显著性P0.01,差异有高度显著性五.t检验与u检验1.样本均数与总体均数的比较: 应用条件:正态分布 H0: m = m0 H1: mm0 t = ( X - m )/ SX , u = n 1 t ta,u ,Pa,拒绝H0,接受H1 t
33、ta,u Pa,不拒绝H02.配对设计资料的t检验: 即差值均数与总体均数0比较的t检验 配对方法: 对同对的两个受试对象分别给予两种处理; 对同一受试对象分别给予两种处理; 同一受试对象给予某种处理,比较处理前后有无差别。 H0: md = 0,差值的总体均数 t = d / Sd3.成组设计两样本均数的t检验:应用条件: 正态分布 总体方差齐:12=22 H0: m1 = m2 t = ( X1 - X2)/ sx1-x2 u = n1 + n2 24.两大样本均数的U检验:(Z检验) 应用条件:样本例数较大,如两样本均样本n50,样本均数的分布呈近似正态分布 或总体标准差已知 H0: m
34、1 = m2 U = ( X1 - X2)/ ÖSX1 2+ SX2 2 六.方差不齐时两小样本均数的比较1.两样本方差的齐性检验2.t检验七.正态性检验:意义和方法八.第一类错误与第二类错误第一类错误(type error): 拒绝实际上是成立的H0, 概率为a。第二类错误(type error): 不拒绝实际上是不成立H0,概率为b1-:叫可信度:两总体无差别按水准判断其无差别的能力1-b:把握度,即两总体确有差别,按水准能发现它们有差别的能力客观实际 拒绝H0 不拒绝H0H0成立 第一类错误() 判断正确(1-)H0 不成立 判断正确(1-) 第一类错误():根据研究者要求确定
35、:只有与H1结合才有意义,值很难确切估计 n一定, 反之亦然、根据研究要求适当控制: 当n,一定 ,也相应减少 n一定, 选定来控制 若重点减少,可取=0.01 若重点减少,可取=0.05,也可取其他水准九.假设检验时应注意的问题a.要有严密的抽样研究设计;b.选用的假设检验方法应符合其应用条件;c.正确理解差别有无显著性的条件意义;d. 结论不能绝对化;e.报告结论时注意应列出检验统计量值, 注明采用的是单侧或双侧检验,写出报告,P值的确切范围。十.可信区间和假设检验的关系方差分析一 方差分析的基本思想1. 总变异=组内变异+组间变异2. 方差分析的应用条件: 各随机样本相互独立 均来自正态
36、总体 各总体方差均相等二 成组设计的多个样本均数比较三 配伍组设计的多个样本均数比较四 多个样本均数间两两比较五 多个方差的齐性检验六 变量变换:对数变换、平方根变换、倒数变换、平方根反正弦变换 分类资料的统计描述一. 分类资料的频数表相对数(relative number):指两个有联系的事物计数数据之比,表示事物相对大小。二.常用相对数: 分析计数资料的指标。常用的相对数有: ( 1 ) 率(rate): 表示某种现象发生的频度或强度。率= 某现象实际发生例数/可能发生该现象的总例数 ´ 比例基数( 习惯上以计算的率保留1 - 2位整数) ( 2 ) 构成比(constituen
37、t ratio): 说明一事物内部各组成部分所占的比重或分布。构成比= 某一组成部分的观察单位数/同一事物各组成部分的观察单位总数 ´100% ( 3) 相对比(relative ratio): 两个有关指标之比, 用以表示两个指标之间的对比关系。分子、分母可以同时是相对数,也可以同时是绝对数。三.应用相对数时应注意的问题(1) 计算相对数的分母不宜太小;(2) 分析时不能以比代率;(3) 对观察单位数不等的几个率,不能直接相加,PC=(nP)/n=x/n(4) 资料的对比应注意可比性: a.观察对象同质; b.内部构成相同,否则,应对率进行标准化(5) 对样本率( 或构成比 )的比
38、较应遵循随机抽样, 要作假设检验。四.标准化法标准化法:基本思想和计算 (1)基本思想: 即采用一个共同的内部构成标准, 使两个样本或多个样本的不同内部构成调整为共同的内部构成标准, 以消除因内部构成不同对样本率的影响。标准化后的率叫标准化率。 (2) 计算方法: 直接法、间接法。 (3) 注意事项: a. 选定标准不同, 算得的标准化率也不同, 因此不能代表实际水平; b. 各组间若出现明显交叉, 不宜用标准化法; c. 两样本标化率的比较应作假设检验。五.常用几个相对数指标: 发病率、患病率、死亡率、病死率、感染率、治愈率、生存率、平均期望寿命、生存率(1) 出生率=某年活产数/同年平均人
39、口数 ´ 1000%(2) 死亡率=某年死亡总数/同年平均人口数 ´ 1000%(3) 发病率=某人群某时期内新病例数/某人群同期平均人口数 ´ K(4) 某病患病率=观察时点某病例数/同时点检查人数 ´ K(5) 某病感染率=受检者感染某病原体人数/受检人数 ´ K(6) 治愈率= 治愈病人数/接受治疗人数 ´ 100%(7) 某病病死率=某期间因某病死亡人数/同期该病患者 ´ 100%(8) 生存率=n年末存活的病例数/随访满n年的病例数 ´ 100%六.动态数列及其分析指标七.率的抽样误差和率的标准误 (1)
40、 概念: 由抽样造成的样本率与总体率的差别叫率的抽样误差。衡量率的抽样误差大小, 衡量样本率的稳定性的指标, 即率的标准误。 (2) 率的标准误的计算 sP =Öp( 1 - p )/n SP =ÖP( 1 - P )/n (3) 总体率的区间估计 a. 查表法: n较小, 特别是p接近0或1时 b.正态近似法:n足够大,样本率p和(1 - p)均不太小, 如np与n(1- p )均大于5时( p - ua SP , p + ua SP )2.样本率与总体率比较:U检验 条件: n足够大, 样本率p和(1 - p)均不太小, 如np与n( 1 - p )均大于5时, 样本率
41、的分布呈正态分布。H0: p = p0 u =½ p - p½/ sP 3.两样本率比较的u检验H0: p1 = p0 u =½ p1 - p2½/ SP1 - P2 X2检验一.四格表资料的X2检验:基本思想 方法及注意事项 (1) 用途检验两个样本率(或构成比)之间的差异显著性,检验多个样本率之间的差异显著性, 检验配对计数资料的差异显著性。(2) 基本思想 c2 = S( A - T)2/T T = nRnC/n c2反映了实际频数与理论频数的吻合程度。 c2的大小取决于A - T的差值, 还取决于自由度u。 u = ( 行数- 1 )( 列数-
42、1 )(3) 四格表资料的c2检验( 两样本率比较 ) 统计量的计算可用专用公式或基本公式 a. 基本条件: n > 40, T > 1 b. 校正条件: n > 40,5 > T > 1二.行 ´ 列表的c2检验( 多个样本率或构成比的比较) a. c2值的计算: c2 = n( A2/nRnC - 1 ) b. 注意事项: c2检验要求理论频数不宜太小, 一般认为不宜有1/5以上格子理论数小于5, 或有一个理论数小于1, 处理办法有: 增大一般含量, 最好; 删去理论频数太小的行或列; 合并性质相近的行或列。 等级资料宜用秩和检验。当结论为拒绝检验假
43、设, 只能认为各总体率( 或总体构成比 )之间总的来说有差别, 但不能说明它们彼此之间都有差别。三.列联表资料X2检验 a. H0 : b = c b. c2 =( b - c )2/ b + c c. b + c < 40, 需校正, c2 =( ½b - c½ - 1)2/b + cf. u = 1四.四格表的确切概率法统计表与统计图一.统计表(statistic table)两个组成:被说明的事物 统计指标(1) 基本结构与要求: 由标题、标目、线条、数字等组成 a. 标题: 要求中心内容突出, 必要时注明资料的时间、地点。 b. 标目: 横标目: 位于表的左侧
44、, 是表的主语位置。 纵标目: 位于表的上方, 是表的谓语位置。 c. 线条: 分顶线、底线、纵标目下面与合计上面的横线,斜线、竖线省略。 d. 数字: 一律用阿拉伯数字。 表示数值不详或暂缺 - 无数值a. 备注: 列于表的下面, 对表中标有( * )的数字加以描述。 标题 横标目总称 纵标目 横 标 目 合计(1) 种类:内容上:广义: 狭义:形式上: a. 简单表: 被研究的事物只按一个特征或指标分组。 b. 复合表: 被研究的事物按两个或两个以上相关联的特征或指标分组。(2) 制表原则:简单明了,重点突出主谓分明,层次清楚数据准确,便于对比分析二.统计图(statistic graph
45、)(1) 基本要求: a. 依据资料的性质选择适当的图形; b. 标题简明扼要,必要时注明时间、地点; c.纵轴和横轴应有标目,并注明单位 d.尺度:横轴尺度自左而右, 纵轴尺度自下而上, 数量一律由小到大, 并需等距标明。纵横坐标长度的比例一般为5: 7。 e.复式图:比较不同事物时, 用不同的线条或颜色表示, 要附图例说明。3、常用统计图(1) 直条图(bar graph): 用相同宽度条形的长短.来表示资料数值大小比例关系, 适用于按性质分组,各个独立的、无连续关系的统计图。(2) 百分条图: 适用于表达构成比的资料。(3) 线图: 用线条的上升和下降来表示某事物( 或某现象 )因时间或条件而变化的趋势。适用于连续性的变量资料。(4) 直方图: 用于表示连续变量的频数分布。常以横轴表示被观察现象, 纵轴表示频数或频率, 以各矩形( 宽度为组距 )的面积代表各组段的频数。调查设计一. 特点:二.调查计划:1. 明确调查目的和指标2. 确定观察对象和单位3. 调查方法(1) 普查( 全面调查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国石油生焦项目投资计划书
- 2025年中国去氢木香内酯项目创业计划书
- 中国阻燃尼龙6项目商业计划书
- 2025年中国水基胶项目创业计划书
- 中国蓝宝石长晶项目商业计划书
- 中国氟化铈项目创业计划书
- 玻璃杯深加工项目规划设计方案
- 羟乙基甲基纤维素生产线项目初步设计
- 中国汽车清洗液项目商业计划书
- 2025年新安全员专职人员考试试题及答案
- 2024电气安全事故案例
- 期末高频易错测评卷 (试题)-2024-2025学年五年级上册人教版数学
- 工程审计报告(共5篇)
- 物业服务品质控制培训
- 消除“艾梅乙”医疗歧视-从我做起
- DB34∕T 4433-2023 检测实验室公正性风险评估技术规范
- 系统商用密码应用方案v5-2024(新模版)
- 自考《兽医内科学与兽医临床诊断学》考试复习题库大全(含答案)
- 高职机电专业《液压与气动技术》说课稿
- 2024年辽宁省大连市政公用事业服务中心招聘雇员8人历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 2024年全国职业院校技能大赛高职组(动物疫病检疫检验赛项)考试题库(含答案)
评论
0/150
提交评论