统计幻灯engppt课件_第1页
统计幻灯engppt课件_第2页
统计幻灯engppt课件_第3页
统计幻灯engppt课件_第4页
统计幻灯engppt课件_第5页
已阅读5页,还剩145页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

health statistic,present to clinical student ,一、卫生统计学( health statistic)的定义和内容,1.定义: 统计学:研究数据的收集、整理、分析,对不确定的数据作出科学推理的一门科学(即概率论). 卫生统计学: 2.内容: 卫生统计学的基本原理和方法 健康统计 卫生服务统计,二、统计工作的基本步骤,全过程包括:计划与设计、收集资料、整理资料、分析资料 1、设计(design): 根据研究目的对统计全过程的一个全面的设想。这是最关键的一步。 要求:科学、周密、简捷。 设计包括:实验设计、调查设计、临床实验设计 设计原则:齐同原则、对照原则、重复原则、随机化原则,2、搜集资料(collection of data):,要求:完整、准确、及时。 医学统计资料的来源主要有三个方面: (1) 统计报表:eg法定传染病报表、职业病报表、医院工作报表; 报表项目较少,不具备可比性 (2) 日常医疗工作的原始记录和报告卡片; eg:卫生监测记录、健康检查记录 (3)专题调查与实验: A常见专题调查的种类: 居民健康状况调查 流行病调查(病因学调查) 临床远期疗效观察 卫生学调查:职业卫生学调查、环境卫生学调查、营养与食品卫生学调查、放射卫生学调查、心理卫生学调查等。,B.调查的内容:,明确调查目的、内容和指标 确定调查对象(总体)、观察单位(个体) 选择调查方法: 全面调查(普查:census) 非全面调查:典型调查:有意识选择范围 抽样调查 确定调查范围:时间、空间、数量范围 选择调查方式:观察法、采访法、填表法、通讯法。,调查设计,特点: 调查计划: 1.明确调查目的和指标 2.确定观察对象和单位 3.调查方法 (1)普查( 全面调查 ): 将组成总体的所有观察单位全部加一调查。 (2)抽样调查: 从总体中随机抽取一定数量的观察单位组成样本, 然后用样本信息来推断总体特征。 (3)典型调查( 案例调查 ): 即在对事物作全面分析的基础上, 有目的地选定典型的人、典型的单位进行调查。,确定调查项目和设计调查表:,调查项目: 核查项目(检索项目、备考项):被调查者的姓名、住址等。 分析项目(业务项目):资料不能缺少的分析项目。 调查者项目(审核项目):调查者的姓名和调查日期 调查表:调查项目按一定顺序列成的表格。 制表要求:简便、清楚 多用:选择、填空、符号、数字; 少用:文字叙述,调查表形式:,一览表(list):多个观察单位记录在一张表中 适用于调查项目少、样本少的专题调查 单一表(card、调查卡片、个案卡片): 一个观察单位记录在一张表中,适用于调查项目多、样本多的专题调查 编码调查表(code sheet):适用于样本多、分析项目多、分析内容复杂的专题调查,计算机保存。 确定样本大小 制定调查的组织工作:建立组织、确定起止时间、进度、分工、培训调查员可先小范围调查(预调查),4.调查项目和调查表 (1) 分析项目: 直接用于计算调处指标, 以及分析时排除混杂因素影响所必须得到的内容。 (2) 备查项目: 便于核查、补填和更正而设置的, 通常不直接用于分析。 (3) 调查表的格式: 分为一览表和单一表 5.收集资料的方式 6.随机抽样的方法: a.单纯随机抽样 b. 系统抽样 c. 整群抽样 d. 分层抽样;,根据抽样误差的大小 分层抽样 系统抽样 单纯随机抽样 整群抽样,3、整理资料(sorting data),系统化、条理化 1)核查资料; 2)分组汇总,拟整理表:按性质(分类变量)或数量(数值变量)分组, 拟定整理表(过渡性的表格,按调查指标合理设计,用于原始资料的归组,表中有合计、总计等项目)。,4.分析资料:计算有关指标,反映数据综合特征,统计描述(descriptive statistic) 包括指标的计算、统计图表的绘制,描述数据的特征和分布规律。 统计推断(inferentical statistic) 用样本统计量通过参数估计、假设检验等统计方法推断总体. 推断总体 1)推断总体分布;是正态还是偏态 (常有理论或经验得到) 2)推断总体分布的参数或特征量: 和,三.统计中的几个基本概念,1、变量与变异: 变量:个体的研究特征; 变异:各观察指标(即个体)之间的差异:包括个体变异和随机测量变异 同质观察单位之间的个体变异,是生物的重要特征,是偶然性的表现。 变量值:变量的观察结果: 定量变量: 数值变量资料 定性变量: 分类变量资料 数值变量(numerical variabal):用定量方法对每个观察单位测定某项指标的所得的资料.一般有度量衡单位(也称计量资料measurement data)。,分类变量(categorical variable),表现为互不相容的类别或属性.分两种: a.无序分类变量:(unordered categories,计数资料enumeration data):将观察单位按某种属性或类别分组,再清点各组的观察单位数。可分为二项式或多项式分类变量。 b.有序分类变量(ordinal categories,等级资料ranked data半定量资料):将观察单位按某种属性(或性质、标志)的不同程度分组,然后清点各组的数据所得的资料。(各组之间有程度的差异). (这类资料与计数资料不同的是:属性的分组有程度的差别,各组按大小顺序排列;与计量资料不同的是:每个观察单位未确切定量,因而又称为半定量资料。) 三种资料间可以相互转化。,2、总体与样本,总体(population):根据研究目的确定的同质的研究对象的全体(性质相同的所有观察单位的某种变量值的集合)。 样本(sample):从总体中随机抽取一部分观察单位进行观察,这部分观察单位对总体有代表性,称为样本。(总体中每一观察单位均有相同的机会被抽取到样本中去。),3.概率(probability)与频率,描述某事物发生的可能性大小的数值,用分数、小数、百分数表示。符号p。 P=1 p=0 0p1 随机事件 p0.05或p0.01 小概率事件,3.误差(statistic error),测得值与真实值之差。 系统误差(systematic error)因仪器不准等造成的呈倾向性偏大或偏小的误差(可以消除)。 随机测量误差(random measurement error)仪器校正后由于偶然因素造成同一物体多次测量结果不完全一致(不可避免,无倾向性)。 抽样误差(sampling error):消除系统误差和控制随机测量误差后,由于观察单位间存在个体差异, 随机抽样造成的样本指标与总体参数有差异, 这种样本统计量与总体参数间的差别称为抽样误差。,4.参数与统计量:,总体指标均称参数,用希腊字母表示: , , 样本指标均称统计量,用拉丁字母表示X,s。,频数分布的集中趋势和离散趋势,数值变量资料的频数表 频数表的编制 a.求全距(range)R R=最大值-最小值 b.确定组距(class interval)i i=全距/组数 组数取决于资料性质、样本量、分析目的 要求:组数一般815组,组距相等 c.划分组段:每组都有开始值、终止值 第一组包括最小值,最后一组包括最大值 每组段只写组下限,省略组上限 各组界限要分明(既不包含也不留空隙),d.归纳记数,拟整理表,方法:划记法(tabulation method):正 适用于样本少、内容简单的资料 分卡法(card sorting method):卡片分组 适用于样本多的资料,Chapter 16 statistic table and statistic chart,present to clinical medical student,outline,Structure, classify, tabulating principle and basic requirement of establishing a table and a graph Several plotting approach of statistic chart usability condition of statistic chart,一.统计表(statistic table) 两个组成:被说明的事物 统计指标 (1) 基本结构与要求: 由标题、标目、线条、数字等组成 a. 标题: 要求中心内容突出, 必要时注明资料的时间、地点。 b. 标目: 横标目: 位于表的左侧, 是表的主语位置。 纵标目: 位于表的上方, 是表的谓语位置。,c 线条: 分顶线、底线、纵标目下面与合计上面的横线,斜线、竖线省略。 d 数字: 一律用阿拉伯数字。 表示数值不详或暂缺 - 无数值 备注: 列于表的下面, 对表中标有( )的数字加以描述。,标题 横标目总称 纵标目 横 标 目 合计,种类: 内容上:广义: 狭义: 形式上: a.简单表: 被研究的事物只按一个特征或指标分组。 b.复合表: 被研究的事物按两个或两个以上相关联的特征或指标分组。 制表原则: 简单明了,重点突出 主谓分明,层次清楚 数据准确,便于对比分析,种类: 内容上:广义: 狭义: 形式上: a.简单表: 被研究的事物只按一个特征或指标分组。 b.复合表: 被研究的事物按两个或两个以上相关联的特征或指标分组。 制表原则: 简单明了,重点突出 主谓分明,层次清楚 数据准确,便于对比分析,二.统计图(statistic graph),基本要求: a 依据资料的性质选择适当的图形; b 标题简明扼要,必要时注明时间、地点; c 纵轴和横轴应有标目,并注明单位 d 尺度:横轴尺度自左而右, 纵轴尺度自下而上, 数量一律由小到大, 并需等距标明。纵横坐标长度的比例一般为5 7。 e复式图:比较不同事物时, 用不同的线条或颜色表示, 要附图例说明。,3、常用统计图,(1) 直条图(bar graph): 用相同宽度条形的长短.来表示资料数值大小比例关系, 适用于按性质分组,各个独立的、无连续关系的统计图。,(2)百分条图: 适用于表达构成比的资料。,(3) 线图:,用线条的上升和下降来表示某事物( 或某现象 )因时间或条件而变化的趋势。适用于连续性的变量资料。,(4)直方图:,用于表示连续变量的频数分布。常以横轴表示被观察现象, 纵轴表示频数或频率, 以各矩形( 宽度为组距 )的面积代表各组段的频数。,谢谢,outline,Descriptive approach and applicable condition about central tendency & tendency of dispersion counting method of statistical descriptive index Concept and trait of normal distribution Evaluation of reference range area distribution principle about normal distribution Graph of normal distribution,Statistical distribution of numerical variable,频数分布的集中趋势和离散趋势 数值变量资料的频数表 频数表的编制 a.求全距(range)R R=最大值-最小值 b.确定组距(class interval)i i=全距/组数 组数取决于资料性质、样本量、分析目的 要求:组数一般815组,组距相等 c.划分组段:每组都有开始值、终止值 第一组包括最小值,最后一组包括最大值 每组段只写组下限,省略组上限 各组界限(demarcation)要分明(既不包含也不留空隙),频数分布的两个特征,集中趋势和离散趋势,频数分布的类型,对称分布和偏态分布(正偏和负偏),集中趋势的描述:,平均数(average) 1.概念:平均数是集中趋势(central tendency)指标(亦称位置指标), 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。,2.种类:,1) 算术均数: arithmetic mean, 样本均数, 符号:X (eksba),拉丁字母,简称均数, 总体均数, 符号(miu), 希腊字母 (1)适用范围:对称分布(特别是呈正态分布或近似正态分布)。 (2)计算方法: A.直接法(direct method): 当观察值个数较少时 X =x/n :希腊字母,sigma,求和符号 B.加权法(weighting method): X =x/=x/n 条件: 当观察值个数较多时,步骤,A) 制备频数表 B)求各组组中值(class-mid value) X=(本组段组下限+下组段组下限)/2 C)统计各组段频数f D) fx E) =fx/f 各组段f权衡了各组中值因f不同对均数的影响,起权衡作用,权数大,作用大. (3)均数的两个重要特征: A. (X-X )=0 B.(X-X )2(X- a)2,2)几何均数(geometric mean ,符号G表示),用于描述变量值呈等比数列, 或呈对数正态分布(log-normal distribution)或近似对数正态分布资料。 资料作对数变换(log arithmetic transformation) 直接法:当n较小时 G=(x1x2 x3 xn )1/n, G=lg-1( lgX/n ) 加权法: 当n较大时 G=lg-1( lgX/ ) 应用条件:任何一个不能为0,不能同时有正有负 步骤:求倒数 X logX flogX lgX lgX/ lg-1( lgX/ )=G,3)中位数(median, 位置平均数,符号M),是一组变量值从小到大顺序排列后位次居正中间的那个数值。 应用条件:多用于描述偏态分布资料,或一端或两端无确定数值的开资料的集中趋势,或频数分布不明资料,。 计算方法: 直接法:当n较小时 n为奇数时 M=X(n+1/2) n为偶数时 M= X(n/2)+X(n/2+1)/2 频数表计算方法: 当n较大时用 编频数表(frequency table) PX =L+i/fm( nx% - L ) L:中位数所在组段下限; i: 中位数所在组段组距 fm: 中位数所在组段频数 L:中位数所在组段之前的累积频数 x%:百分位 50%,4)百分位数(percentile,PX ),描述一组有序排列的偏态分布数据某百等分界值大小(简称界值,是一种位置指标) 应用条件:偏态分布(skew distribution)资料 应用: 估计正常值范围: 95%: P2.5 P97.5,离散程度的描述,描述变异程度的常用指标: 例:三组同性别同年龄儿童体重(Kg),其集中趋势与离散程度分别是: 甲组:26 28 30 32 34 X =30Kg 乙组:24 27 30 33 36 X =30Kg 丙组:26 29 30 31 34 X =30Kg 三组数据集中位置用X描述 ,X =30Kg, 三组数据离散度不同,分布特征不尽相同。,1)全距(range, R, 极差),一组变量值中最大值与最小值之差。 R=X最大X最小 优点:简单明了,常用于传染病、食物中毒的最长、最短潜伏期 缺点:A .不能反映组内数据的变异度 B. N R C. 抽样误差较大,2)四分位间距(quartile, Q),P75 QU P25 QL Q=QUQL(包括全部观察值的一半) 应用:偏态分布资料 优点:较稳定,特别是N较大时,越接近分布的中间越稳定。 缺点:未考虑每个观察的变异度。,3)方差(variance,2 ,s2),离均差平方和的平均值 离均差: X, (X)=0 离均差平方和(Sum of squares),(X)2 1 .与变异度有关:变异度越大 ,(X)2越大 2与N多少有关:N越大 , (X)2越大 为消除N的影响,取其均值 (X)2 (XX )2 2 = S2= (样本方差公式) N n-1 缺点:单位平方 优点:考虑了每个变量值的变异,方差大小不受样本量多少的影响,4)标准差(standard deviation, s),是最常用的衡量变量值间离散程度的变异指标。 (X)2 = N 定义:离均差的平方和的平均值的平方根 意义:1.越大,说明个体差异越大,则平均数代表性就越差 2.未知,用s估计,用(XX )2 代替(X)2 用样本例数n代替N,,由于抽样误差存在,X =可能性小,当X =按上式算得结果常比实际低, 英国W.S.Gosset提出用n-1代替n校正, (XX )2 S= (样本标准差公式) n-1 自由度 :随机变量能自由取值的个数。(niu) =n-1 (XX)2 X2(X)2/ n fX2(fX)2/n S= = S= n-1 n-1 n-1 Lxx=SS=X2(X)2/ n Lxx=SS=fX2(fX)2/n 应用:(1)用来描述资料的变异程度:应用条件:正态分布X +s (2)比较不同资料变异程度大小 应用条件:单位相同、均数相近 优点:考虑了每个观察值的变异情况,与集中趋势单位一致; 当资料呈正态或近似正态资料时可写成: X S,表示均数的代表性。缺点:计算复杂,5)变异系数:(离散系数 coefficient of dispersion ,CV),CV= (S /X ) *100% 应用: A、比较均数相差悬殊的几组资料的变异程度; B、比较单位不同的多组资料的变异度: 应用条件:正态分布; 单位不同或均数不等 优点:无单位,便于比较,正态分布及其应用,正态分布(又称Gauss分布)概念:: 是医学和生物学中最常见的连续性总体频数分布, 以均数为中心, 两侧逐渐下降并对称, 两端永远不与横轴相交。 正态分布(normal distribution)图形:直方图,当n增大各直条逐渐变窄,其顶点中点将变成一条光滑曲线(频数曲线),形状呈钟形,两头低,中间高,左右对称。,正态分布用N(, 2)表示,为了应用方便, 常对变量X 作 u=( X - )/ 变换, u=( X - )/ 1)原点移到 的位置 2)横轴尺度以 为单位 使=0, =1,则正态分布转换为标准正态分布(standard normal distribution,U分布), 用N(0, 1)表示。 U:称为标准正态变量或标准正态差,特征:,A、均数处最高; B、以均数为中心, 左右对称; C、有两个参数: 和, u 位置参数,图形向右移动 变异度参数,数据越分散 D、正态曲线下的面积分布有一定规律: a.曲线与横轴X所夹面积总和为1 b.横轴上某一区间和曲线所夹面积与总面积之比,相当于变量值落在该区间的概率(概率分布),反映该区间例数与总例数之比(频率分布,百分数) c.横轴上某一区间所夹面积可用函数积分求得,正态曲线下的面积分布规律,变量值范围 正态曲线下面积 (变量值出现的概率) 1.0 68.27% 1.96 95.00% 2.58 99.00%,3) 正态分布的应用,常用于估计频数分布情况; 制定正常值范围。 正常值:指正常人的各种生理常数。当资料呈正态分布时,最常用X 1.96S估计95%正常值范围, 其含义是指绝大多数正常的变量值都在这个范围内, 绝大多数是包括正常的90%、95%和99%, 最常用95%。 应用:1.估计医学参考值范围 X uS 2.质量控制 X +2S 上下警戒线 X +3S 上下控制线,常用的U值表,参考值范围% 单侧 双侧 90 1.282 1.645 95 1.645 1.96 99 2.326 2.58,95%参考值范围 双侧 X 1.96S 单侧 上限 (upper limit) X +1.645S 下限(low limit) X -1.645S 99%参考值范围 双侧 X + 2.58S 应用条件: 1.正态分布或近似正态分布资料 2.可转化为正态分布资料: 对数变换(抗体滴度、血清效价、住院天数、潜伏期、检验结果、残留量、有害物质的浓度等) 3.t分布、二项分布、POISSON分布等极限为正态分布 正态分布是X2分布、t分布、F分布的基础,Statistic inference of numerical variable,outline,Concept of sampling error and that of standard error Evaluation of confidence interval general step and announcement of hypothesis test Application condition of T test and U test Tape 1 error and tape 2 error,总体均数的估计和假设检验,一、均数的抽样误差和标准误(standard error) 1)均数的抽样误差 随机抽10个变量值组成样本 第一次:x11 x12 x13 x14 x15 x16 x17 x18 x19 x110 X1 第二次:x21 x22 x23 x24 x25 x26 x27 x28 x29 x220 X2 类推: 第n次:xn1 xn2 xn3 xn4 xn5 xn6 xn7 xn8 xn9 xn10 X n N(, 2 ),(1)特征,a.样本均数 X 1 X 2 X 3 X n不一定相等. b.为定值,s越大, 抽样误差越大. c.样本均数X 的频数分布呈近似正态分布: X=X /nu,(2)中心极限定律(central limit theorem),a.正态总体中随机抽取许多含量相等的样本,这些样本均数的频数分布呈正态分布N(,2X ) b.偏态总体中随机抽取许多含量相等的样本,当n30时,样本均数的频数分布近似正态分布N(u, 2X ) 若变量x的总体(正态或偏态)均数为,标准差为,则含量为n的样本均数X的总体均数也为, 样本均数的标准差为X (放回抽样).,(3)均数的抽样误差,A、定义:因随机抽样造成的样本统计量之间以及样本统计量与总体参数之间的差异.记作X , SX . B、抽样误差影响因素: n大小 抽样方法不同, X 不同。抽样误差不可避免.,2)标准误的概念,(1)定义:样本均数的标准差,是说明均数抽样误差大小的指标。标准误愈小,表示抽样误差愈小,样本统计量对总体参数的估计愈可靠。 (2)标准误的计算 X =/n(总体标准误) sX =s/n(样本标准误) (当未知,用s代替),(3)标准误的应用,表示样本均数的离散度; 估计总体均数的可信区间; 进行假设检验,(4)标准差与标准误的区别和联系,标准差 标准误 区别: 表示个体之间的变异度 表示样本均数之间的变异度 表示观察值与样本均值之间的离散度 表示样本均数与总体均数之间的离散度 可以衡量样本均数抽样误差的大小 联系: X =/n,二.t分布(t distribution),(1)t分布的概念: 从正态总体中随机抽取许多含量为n的样本,由样本算出样本均值X和sX ,按t公式算出t值,将n个t值作直方图,构成t变量的频数分布图(连续性分布) X1 s1 t1值 X2 s2 t2值 X3 s3 t3值 Xn sn tn,u=( X - )/ X,U变换, Xn 由N(, X 2)变换为标准正态分布(U分布) X 往往用sX 来估计 t = (X - )/ sX t变换(t分布)。 U值称样本检验统计量, t值也称样本检验统计量 当n逐渐增大,就成了t曲线,与标准正态分布相比有以下特征: a.二者都是单峰分布, 以0为中心, 左右对称; b. t分布有一个参数,不同,t曲线不同, 越大,峰度越大。逐渐增大时, t分布逐渐逼近标准正态分布; 当=时,t=u, t分布就完全成为标准正态分布了。 c.t分布曲线下的面积有一定规律: t曲线与横轴所夹面积总和为1 横轴上某一区间和曲线所夹面积与总面积之比,相当于t值落在该区间的概率(概率分布) 从总体中随机抽样获得t值落在整个横轴概率为1,获得t值 t,的概率p,单侧: P( t - t,)= , 或P(t t,)= 双侧: P( t - t,)+P(t t,)= ; P( - t, t t,)= 1 - 随机抽样算t值,95%满足: - t, t t, - t, (X - ) / sX t, X - t, sX X + t, sX ;,(3)t界值,t界值表, 横标目为自由度, 纵标目为概率P, 表中数字表示自由度为, P为(检验水准)时, t的界值, 常记为t,。 注意: 不同, t,不同 相同, p越大, t,越小,且单侧P与双侧2P的t值相等, p相同, 越大, t,越小,三.总体均数的估计,包括点值估计和区间估计: a.区间估计的涵义: 意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如95%可信区间, 意味着做100个可信区间, 平均有95个可信区间包括总体均数(估计正确), 只有5个可信区间不包括总体均数(估计错误)。,b.区间估计的方法: X - t, SX X + t, SX ; 已知 X - U X X + U X ; 未知但n足够大X - USX X + USX ;,c.可信区间两要素:,准确度:反映区间包含总体均数的概率大小,即1-大小,越趋近1越好 精度: 反映区间的长度, 长度越小越好 1- 一定,n越大,精度越高,四.假设检验(hypothesis test)一般步骤:,X 与不等的原因 1.由于抽样误差引起,若无抽样误差,它们之间相等 2.总体存在质的差异,并非抽样误差引起,若无抽样误差,它们之间仍不相等 (1)概念 所谓假设检验, 就是根据研究目的, 对样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断此假设应当拒绝或不拒绝, 以使研究者了解在假设的条件下, 差异由抽样误差引起的可能性大小。,即推断样本统计量与总体参数之间或样本统计量之间的差异是由抽样误差引起还是总体存在质的差异。 假设检验(对总体而言); 显著性检验(对样本而言),(2) 一般步骤,a.建立假设: 无效假设(null hypothesis)H0: = 0 即假设样本指标与总体参数(样本与样本指标)是相等的,若不等,它们的差别是由抽样误差引起。 备择假设H1: 0,是与H0相对立的假设;差别不是由抽样误差引起,而是有本质差异 b.确定检验水准(亦称显著性水准,第一类错误),假阳性概率,即本来差异无显著性而判断其有显著性的概率,是一个接受或拒绝H0的概率标准。 常取 =0.05或=0.01 1-:可信度,c.选定检验方法和计算统计量: t检验、U检验、2检验、F检验等。 d.确定P值:P值是指在由H0所规定的总体中作随机抽样,由于抽样误差引起的获得现有样本统计量的概率。 X - t= SX 根据t值判断:,若H0成立,理论上从总体中抽得样本均数与总体均数差别 X - 不会很大,则t值不会很大,t值很大的可能性(概率)是很小的,用尾部面积表示,即 t t, 的概率P,即由抽样误差引起两均数有差别的概率很小,根据“小概率事件在依次一次试验中基本上不发生”,故拒绝H0 ,本身有质的差异的概率很大。 t t, P,拒绝H0,接受H1 t t, P,不拒绝H0 e.作出统计推断: 当P 时, 统计推断结论为按所取检验水准拒绝H0, 接受H1, 差别有显著性意义。 P0.05,差异无显著性(nonsignificance) P0.05,差异有显著性 P0.01,差异有高度显著性,五.t检验与u检验,1.样本均数与总体均数的比较: 应用条件:正态分布 H0: = 0 H1: 0 =0.05 t = ( X - )/ sX , = n 1 t t, ,P,拒绝H0,接受H1 t t, P,不拒绝H0,2.配对设计资料的t检验: 即差值均数与总体均数0比较的t检验 配对方法: 对同对的两个受试对象分别给予两种处理; 对同一受试对象分别给予两种处理; 同一受试对象给予某种处理,比较处理前后有无差别。,H0: d = 0,差值的总体均数等于0 H1: d 0 =0.05 t = d / Sd d = d / n Sd =Sd / n Sd = d2- (d)2/n/(n-1),3.成组设计两样本均数的t检验:,应用条件: 正态分布 总体方差齐:12=22 H0: 1 = 2 H1: 1 2 =0.05 t =(X1 - X2)/ sx1-x2 = n1 + n2 2 sx1-x2= x12- (x1)2/n1+ x22- (x2)2/n2 /( n1+ n2 - 2)(1/n1+1/n2),5两大样本均数的U检验:(Z检验),应用条件:样本例数较大,如两样本均样本n50,样本均数的分布呈近似正态分布或总体标准差已知 H0: 1 = 2 H1: 1 2 =0.05 U = ( X1 - X2)/ SX1 2+ SX2 2 SX1 2 =Sx12 / n,方差不齐时两小样本均数的比较,1.两样本方差的齐性检验 2.t检验,6.第一类错误与第二类错误,第一类错误(type error): 拒绝实际上是成立的H0, 概率为。 第二类错误(type error): 不拒绝实际上是不成立H0,概率为 1-:叫可信度:两总体无差别按水准判断其无差别的能力 1-:把握度,即两总体确有差别,按水准能发现它们有差别的能力,客观实际 拒绝H0 不拒绝H0 H0成立 第一类错误() 判断正确(1-) H0 不成立 判断正确(1-) 第一类错误() :根据研究者要求确定 :只有与H1结合才有意义,值很难确切估计 n一定, 反之亦然 、根据研究要求适当控制: 当n,一定 ,也相应减少 n一定, 选定来控制 若重点减少,可取=0.01 若重点减少,可取=0.05 也可取其他水准,7.假设检验时应注意的问题,a.要有严密的抽样研究设计; b.选用假设检验方法应符合其应用条件; c.正确理解差别有无显著性的意义; d. 结论不能绝对化; e.报告结论时注意应列出检验统计量值, 注明采用的是单侧或双侧检验,写出报告,P值的确切范围,8.可信区间和假设检验的关系,Analysis of variance,,outline,application: testing differences between two means and more than two means Hypothesis test of regression equation,方差分析的基本思想 1. 总变异=组内变异+组间变异 总变异:随机测量误差+个体变异+处理因素作用 组内变异:随机测量误差+个体之间变异 组间变异:随机测量误差+个体之间变异+处理因素作用 F=组间变异均方/组内变异均方,方差分析的应用条件: 1.各随机样本相互独立 2 .均来自正态总体 3.各总体方差均相等,二、完全随机设计的多个样本均数比较 目的:推断多个总体均数是否相等 统计量:F 界值:F( 1, 2 ) 若F F(1, 2), P ,总变异=X2- (X)/n 组内变异 SS组内= Xj2- (Xj)2/n 组间变异 SS组间= nj(x-x )2 F=均方MS组间 / 均方MS组内 组间=k-1 组内=n-k 总=n -1,一 配伍组设计的多个样本均数比较 总变异=处理因素间变异+区组间变异+误差 总变异=X2- (X)/n 处理因素间变异= nj (x- x )2(x- x )2 区组间变异= nj (x-x ),处理=k-1 组内=b-1 总=n 1 误差=( k-1)( b-1 ),多个样本均数间两两比较 q检验 q= (x A- x B)/S(x A- x B) S(x A- x B)= MS误差 /n (n相等) S(x A- x B)= MS误差/2 (1/ n A + 1/ n B ) 根据误差和组数,q值判断,多个方差的齐性检验 变量变换:对数变换、平方根变换、倒数变换、平方根反正弦变换,分类变量资料的统计描述,黄玉兰,一 分类资料的频数表 相对数(relative number):指两个有联系的事物计数数据之比,表示事物相对大小。是计数资料统计描述指标。 二.常用相对数: 分析计数资料的指标。常用的相对数有: ( 1 ) 率(rate): 表示某种现象发生的频度或强度。 率= 某现象实际发生例数/可能发生该现象的总例数 比例基数( 习惯上以计算的率保留1 - 2位整数),(2)构成比(constituent ratio),说明一事物内部各组成部分所占的比重或分布。 构成比= 某一组成部分的观察单位数/同一事物各组成部分的观察单位总数 100% ( 3) 相对比(relative ratio): 两个有关指标之比, 用以表示两个指标之间的对比关系。分子、分母可以同时是相对数,也可以同时是绝对数。,三.应用相对数时应注意的问题,(1) 计算相对数的分母不宜太小; (2) 分析时不能以比代率; (3) 对观察单位数不等的几个率,不能直接相加,PC=(nP)/n=x/n (4) 资料的对比应注意可比性: a.观察对象同质; b.内部构成相同,否则,应对率进行标准化 (5) 对样本率( 或构成比 )的比较应遵循随机抽样, 要作假设检验。,四.标准化法,基本思想和计算 (1)基本思想: 即采用一个共同的内部构成标准, 使两个样本或多个样本的不同内部构成调整为共同的内部构成标准, 以消除因内部构成不同对样本率的影响。标准化后的率叫标准化率。 (2) 计算方法: 直接法:当各组的率pi已知时 间接法:当各组的率pi未知时,但总率P已知时。,(3)直接法选择标准的方法: a 选择有代表性的较稳定的数量较大的人群 b 两组资料中,选择人数较大的一组或两组合并数作为标准。 (4)计算方法: a 用标准人数计算: b 用标准人口构成比:,(3) 注意事项:,a.选定标准不同, 算得的标准化率也不同, 因此不能代表实际水平; b.各组间若出现明显交叉, 不宜用标准化法; c.两样本标化率的比较应作假设检验。,五.常用几个相对数指标:,发病率、患病率、死亡率、病死率、感染率、治愈率、生存率、平均期望寿命、生存率(P239 P240 P242 P243) (1)出生率=某年活产数/同年平均人口数 100% (2)死亡率=某年死亡总数/同年平均人口数 100% (3)发病率=某人群某时期内新病例数/某人群同期平均人口数 K (4)某病患病率=观察时点某病例数/同时点检查人数 K (5)某病感染率=受检者感染某病原体人数/受检人数 K (6) 治愈率= 治愈病人数/接受治疗人数 100% (7) 某病病死率=某期间因某病死亡人数/同期该病患者 100% (8) 生存率=n年末存活的病例数/随访满n年的病例数 100%,六.动态数列及其分析指标,1.率的抽样误差和率的标准误,(1) 概念: 由抽样造成的样本率与总体率的差别叫率的抽样误差。衡量率的抽样误差大小, 衡量样本率的稳定性的指标, 即率的标准误。 (2) 率的标准误的计算 P =( 1 - )/n SP =P( 1 - P )/n,(3) 总体率的区间估计,a. 查表法: n较小(n50), 特别是p接近0或1时,查附录9 b.正态近似法:n足够大,样本率p和(1 - p)均不太小, 如np与n(1- p )均大于5时 ( p - u SP , p + u SP ),2.样本率与总体率比较:U检验,条件: n足够大, 样本率p和(1 - p)均不太小, 如np与n( 1 - p )均大于5时,样本率的分布呈正态分布。 H0: = 0 =0.05 u = p - / P 3.两样本率比较的u检验 H0: 1 = 2 =0.05 u = p1 - p2/ SP1 - P2 SP1 - P2 = pc(1-pc)(1/n1+1/n2),第八章 X2检验,一.四格表资料的X2检验: (1) 用途 检验两个样本率(或构成比)之间的差异显著性 检验多个样本率之间的差异显著性 检验配对计数资料的差异显著性,(2) 基本思想,2 = ( A - T)2/T T = nRnC/n 2反映了实际频数与理论频数的吻合程度。 2的大小取决于A - T的差值, 还取决于自由度。 = ( 行数- 1 )( 列数- 1 ),(3)四格表资料的2检验,( 两样本率比较 ) 统计量的计算可用专用公式或基本公式 a. 基本条件: n 40, T 1 b. 校正条件: n 40,5 T 1 公式: 2 = ( A - T)2/T 专用公式: 2 = (ad-bc)2n/(a+b)(a+c)(b+d)(c+d),二.行 列表的2检验( 多个样本率或构成比的比较),a. 2值的计算:2 = n( A2/nRnC) - 1 b. 注意事项: 2检验要求理论频数不宜太小, 一般认为不宜有1/5以上格子理论数小于5, 或有一个理论数小于1, 处理办法有: 增大一般含量, 最好; 删去理论频数太小的行或列; 合并性质相近的行或列。 等级资料宜用秩和检验。 当结论为拒绝检验假设, 只能认为各总体率( 或总体构成比 )之间总的来说有差别, 但不能说明它们彼此之间都有差别。否则,要进行四格表的分割,三.列联表资料X2检验,a. H0: b = c =0.05 H1: bc b. 2 =( b - c )2/( b + c) b + c 40, 需校正 2 =( b - c - 1)2/(b + c) = 1,谢 谢,四.四格表的确切概率法,Chapter 11 non-parametric test,outline,Concept of nonparametric test Wilcoxon signed-rank test Manna-Whiter U test Kruskal-Wallis H test Firedman M test Ridit,第九章 秩和检验,非参数统计的概念: U检验、t检验和方差分析为参数检验(paramatric statistics) 非参数检验(nonparamatric statistics) 当资料不满足参数统计的要求,也不能通过数据转化使其符合参数统计的要求时,配对设计差值的符号秩和检验 适用条件:适用于非正态分布或分布不明的资料,适用范围广,缺点时不能充分利用资料所提供的信息,统计效率较低。 检验步骤: HO:差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论