




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计复习 第9页,共9页基本概念总体(population):根据研究目的确定同质观察单位(亦称个体)的全体。样本(sample):从总体中随机抽取部分观察单位,其实测值的集合。抽样:必须遵循随机化原则,从总体中抽取有代表性的部分观察值,使样本具有代表性。目的是为了用样本的信息(或统计量)推断总体的特征(或参数)。同质与变异homogeneity & variation:统计学要求研究对象具有同质性,即研究对象的观察值具有相同属性。同一总体内的个体存在差异,这种现象称为变异,变异是绝对存在的。概率(probability):是描述随机事件发生的可能性大小的数值,常用P表示,范围在0与1之间。P越接近1,标明某事件发生的可能性越大;P越接近0,表明某事件发生的可能性越小;P0.05的事件称为小概率事件。统计资料的类型:1 . 定量资料(measurement data)用定量方法测量观察对象的某项指标所得的数值资料。一般有度量衡单位。如身高、体重、浓度。2 . 分类资料(enumeration data)将观察单位按某种属性或类别分组所得各组的观察单位数。(1)二项分类:阳性、阴性。(2)多项分类:A、B、O、AB血型。3 . 等级资料(ranked data)将观察单位按某种属性的不同程度分组所得各组的观察单位数。如血清反应分为,五级。资料可以由高级向低级转化计量资料:个体的血红蛋白(g/dl)计数资料:正常人数、异常人数(按正常异常分组)等级资料:0,重度贫血 6,中度贫血 9,輕度贫血 12,正常 16,增高 (按血红蛋白量的多少分组)统计工作的基本步骤:1 . 设计,design2 . 资料收集,collection data3 . 资料整理,sorting data4 . 资料分析,analysis data统计描述、参数估计、假设检验、统计结论。统计表:基本要求:1 . 标题概括表达中心内容,简练、确切、必要时注明资料来源、事件,位于表的上方。2 . 标目文字简明,注明单位3 . 线条力求间接,上面顶线、下面底线,纵标目下面、合计上面横线,不需要竖线与斜线。4 . 数字表内数字一律用阿拉伯数字表示,同一指标的小数位数一致,位次对其,暂缺、无数据的用“”或“”表示。数字左端对齐。5 . 备注如有备注,用“*”标出,注在表外下面。统计图基本要求:1 . 根据资料性质和分析目的,正确选用图形。2 . 要有确切的标题,说明资料内容。标题位于图的下方。3 . 纵横两轴交点为起点。纵横轴尺度应等距,纵横轴长度比例57。条图、直方图的纵坐标必须从“0”开始。4 . 同一图内比较几种不同事物时,用不同的线条或颜色表示,并附图例说明。(1)线图:适用于表现连续变量资料的趋势变化(2)直方图:以面积表示数量,适用于表示连续变量的频数分布。画直方图组距一定要相等。(3)直条图:用等宽直条的长短来表示相互独立的各指标指数数值的大小。(4)构成图:圆图:各扇形面积表示全体中各部分所占的比重。 百分条图:全长为100,按构成比分段。定量资料的统计描述频数表:即频数分布表,是对样本量较大的资料进行统计描述的常用方法,通过频数表可以现实数据分布的范围与形态。编著频数表时组距可等可不等,一般取相等组距;分组数与样本量有关,应适宜,不多也不少。一、集中趋势的指标,平均数是用于描述一组同质计量资料的集中趋势或反应一组观察值的平均水平。常用的平均数有算术均数、几何均数及中位数三种。1 . 算术均数,简称均数。X表示变量X的样本均数,(希腊字母)表示总体均数,均数适用于对称分布资料,正态或近似正态分布资料。直接法:样本量较小时用:2.几何均数,用G表示,适用于对数正态分部的资料,例如抗体的滴度和平均效价。直接法:样本量较小时用:频数表法:当样本量较大时,编制频数表进行计算;例题:某地6人接种某疫苗后,其抗体滴度如下:12;14;14;18;116;132,请问其平均抗体滴度是多少?平均抗体滴度是17.13例题:某地102名健康人的钩端螺旋体血清抗体滴度如表7-2,计算平均滴度。3.中位数:将一组观察值从小到大按顺序排列,位次居中的观察值就称中位数,用M表示。中位数适用于任何一种分布的计量数据,一般多用于描述偏态分布活数据一端无界资料的集中趋势。4.百分位数:是一种位置指标,用Px表示。百分位数是一个有序数列百等分的分割值。第50百分位数(P50)也就是中位数,中位数是一个特定的百分位数。二、离散趋势指标描述离散趋势的常用指标有全距、四分位间距、方差和标准差等。对于描述偏态资料的离散趋势宜用四分位间距,对于正态或近似正态资料宜用标准差。标准差应用:1.表示观察值的变异程度:在两组(或几组)均数相近、单位相同的条件下,标准差大,表示变量值的变异程度法,均数的代表性较差;反之,标准差小,表示变量组变异度小,数据多集中在均数周围,则均数的代表性较好。2.计算变异系数:单位不同时,不能用标准差表示变量值的离散趋势,只能用变异系数,单位相同但是均数相差较大时,用标准差不太合理,用变异系数更好,变异系数用CV表示。变异系数是一种相对的离散程度指标,它无单位:3.结合均数描述频数分布的特征和制定医学参考值范围。4计算标准误例题:某地随即抽样调查了255名成年女性的红细胞数和血红蛋白,红细胞均数为4.18,标准差为0.29;血红蛋白均数为117.6,标准差为10.2,请问女性红细胞数与血红蛋白的变异程度何者为大?红细胞:血红蛋白:血红蛋白的变异程度大于红细胞数。正态分布:正态分布是一种连续型分布。正态分布以均数为中心,左右两侧对称,靠近均数两侧的频数较多,而距离均数两个较远处,频数逐渐减少,形成钟形分布。正态曲线下的面积分布有一定的规律。正态分布的主要特征:以均数为中心,左右对称。2取值范围理论上没有边界。2离越远,函数f(X)值越接近0,但不会等于0。正态分布曲线下的面积分布有一定的规律。正态分布完全由参数和决定。是位置参数(即平均水平),决定分布曲线在横轴的偏移位置。当一定后,增大,曲线右移;反之减小,曲线左移。是变异参数,决定分布曲线的形态。越大,曲线的形态越“矮胖”,表示数据分布越分散;越小,曲线的形态越“瘦高”,表示数据分布越集中。标准正态分布(standard normal distribution)标准正态分布是均数为0、标准差为1的正态分布,即(,)(0,1),亦称分布。正态曲线下面积的分布规律:曲线下横轴上的总面积为100或1。下面是应用较多的三个区间的面积分布规律:a.正态分布区间(-,+)下的面积,即范围的面积占总面积为68.27。b.正态分布区间(-1.96,+1.96),即1.96范围的面积占总面积为95.00。c.正态分布区间(-2.58,+2.58),即2.58范围的面积占总面积为99.00。正态分布的应用(医学参考值范围的估计)正态分布或样本含量较大的数据资料,95的医学参考值范围为:(-1.96S,+1.96S)。对于偏太分布的数据资料,宜采用百分位数的方法进行确定。95的医学参考范围为:P2.5P97.5;单侧上界:P95;单侧下界:P5。均数的抽样误差:由于存在变异,样本均数往往不够于总体均数。这种由抽样造成的样本均数与总体均数的差异或各样本均数之间的差异称为抽样误差,抽样误差是不可避免的。若要减小抽样误差,只有增加样本含量。标准误计算:标准误(理论值)是反映抽样误差大小的指标,用X表示。用某一样本标准差S来代替,得到标准误的估计值SX(通常也简称为标准误),其计算公式为:t分布的特征:t分布是以0为中心的左右对称分布曲线;曲线形态变化与自由度的大小有关(与n有联系,这里n-1)。自由度越大,t分布越接近于正态分布;自由度越小,t分布越低平,两端向外伸展。t分布不是一条曲线,而是一簇曲线,因此,t分布曲线下面积的95或99界限不是一个常量,而是随着自由度大小而变化的。为便于使用,可根据t值表查找。总体均数的可信区间亦称置信区间(CI),即按预先给定的概率(1-,可信度)估计未知总体均数的所在范围。习惯上用总体均数的95(或99)可信区间,表示该区间包含总体均数的概率为95(或99)。用此估计范围估计总体均数,表示100次抽样中,有95(99)次包含总体均数。未知,但样本例数n足够大,总体均数95的可信区间可近似的表达为:例题:测得某地101名3049岁正常成年男子血清总胆固醇(mmol/L)平均值为4.735,标准差为0.882,求:该地健康男子血清总胆固醇的正常值范围?试估计该地健康成年男子血清总胆固醇均数。95医学参考值范围为:95均数可信区间:假设检验的一般步骤:建立假设和确定检验水准H0:无效假设,即样本均数所代表的总体均数与假设的总体均数0相等,与0的差异是抽样误差所致。H1:被择假设,即样本均数所代表的总体均数与0不相等,与0差异是本质性差异。假设检验有双侧检验和单侧检验之分,一般选用双侧检验。H00 ;H10确定检验水准:检验水准,用表示,是假设检验时发生的一类错误的概率。常取0.05选定检验方法和计算统计量要根据研究设计的类型、统计推断的目的,选择适当的统计量。如成组设计的两样本均数比较选择t检验,大样本时可选用近似的u检验。不同的检验统计量有不同的公式。确定P值,作出统计推论根据P值大小作出拒绝或者不拒绝H0的结论。当P0.05,则按0.05水准不拒绝H0,(即H0存在的可能性是个大概率时间)。差别无统计学意义;当P0.05,则按0.05水准拒绝H0,不拒绝H1(即H0存在的可能性时个小概率时间),差别具有统计学意义。t检验一、样本均数与总体均数的比较(单样本t检验)总体标准差未知且n较小,应选用t检验。建立假设:H00 ;H100.05计算统计量t值:确定临界值(t):计算自由度,查t值表中t0.05(),t0.01()以统计量(t)与临界值(t)比较,作出判断结论,按下列规则确定P值:若tt0.05(),P0.05,差别无统计学意义。tt0.05(),P0.05,差别有统计学意义。例题:假设肺炎病人的平均住院期为4.4天。25例用某药治疗的病人住院的平均时间为3天,标准差为1.5天。试以5的水准检验此药的效果。H00 ;H100.05=n-1=25-1=24,查t界值表,得t0.05()2.064,现t4.672.064,故P0.05。按0.05水准,不接受H0,接受H1,可以认为此药有效。二、配对资料的比较配对t检验配对设计:同一受试对象试验(或治疗)前后的比较同一样本用两种方法检验结果的比较配对的两种受试对象分别接受两种处理后的数据比较。三、完全随即设计的两样本均数的比较目的是推断两样本各自代表的总体均数1与0是否相等。t检验可用于两样本含量n1,n2较小时,同时要求两样本方差齐性。假设检验的注意事项:严密的抽样设计及资料正态性选用正确的检验方法,且药注意方差齐性。成组比较的t检验,要求两组资料具有方差齐性结论不能绝对化单侧和双侧检验:选用单侧检验的条件是在研究开始之前,表明不会出现0的情况(或不会出现0的情况),才能选用单侧检验。若没有这方面的依据,一般选用双恻检验差别有无统计意义与有无专业上的实际意义是两个不同的概念假设检验和可信区间的关系是两个不同的概念。型错误和型错误:做建设检验时,有可能发生两种错误,现以样本均数和总体均数的t检验为例说明:型错误是指拒绝了实际上成立的H0,即“弃真”的错误。在H0成立的前提下,由于抽样的偶然性,得到了较大的t值,若tt0.05()则P0.05,按0.05水准拒绝H0,则犯了型错误。确定以t0为临界值时,犯型错误的概率就是型错误是指接受了实际上不成立的H0,即“取伪”的错误。在实际上H1成立的前提下,由于抽样误差的偶然性得到了较小的t值若tt0.05()则P0.05,按0.05水准接受H0。这就犯了型错误。型错误的概率用表示样本量确定后,犯两类错误的概率不可能同时减少,越小,越大;反之越大,越小。方差分析一、方差分析的目的:方差分析主要用于检验数值变量资料中两个或两个以上均数间差别的显著性。二、基本思想:将总的变量分析成若干部分,每一部分都与某一种效应相对应;总的自由度也被分为相应的各个部分。方差分析的统计量为F值。三、变量的关系:SS总SS组间+SS组内 df总df组间+df组内四、方差分析应用条件:各样本是相互独立的随即样本各样本来自正态总体各处理组方差齐性分类资料的统计描述一、常用相对数1.构成比:又称构成指标,说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。2.率:又称频率指标,说明某现象发生的频率或强度。K为比例基数,常用百分率()、千分率、万分率等表示死亡率:也叫粗死亡率:死因构成比:某类死因的死亡数占总死亡数的百分数。按死因构成比由高到低排出位次即死因顺位。用于观察何种疾病是造成当地居民死亡的主因。发病率:常用于研究疾病发生的因果和评价预防措施的效果。患病率:指在某时点(或短时期内)检查某一定人群中某病现患严重程度。最用于病程较长的疾病统计研究。这是一个时点的指标。3.相对比:是A、B两个有关联指标之比,说明A为B的若干倍或百分之几,两个指标可以是性质相同,也可以是性质不同的。二、应用相对数时的注意事项1.构成比与率是意义不同的两个统计指标,分析时不能以构成比代替率。2.计算相对数时,分母不宜过小,即应有足够例数。3.对观察单位数不等的几个率,不能直接相加求其平均率。4.资料的对比应注意可比性:即除了研究因素外,其余的重要影响因素应相同或相近。5.对比不同时期资料时,应注意客观条件是否变化。6.对样本率(或构成比)的比较应遵循随便抽样,要做假设检验。三、率的标准化法标准化法的意义和基本思想:率的标准化法:就是在一个指点的标准构成条件下进行率的对比的方法标准化率:用标准化法加以校正后的率称为标准化率,简称标准化率。四、总体概率的置信区间:正态近似法:当n足够大,且样本率p和(1p)均不太小,如np与n(1p)均大于等于5时,p的抽样分布逼近正态分布,则总体率的可信区间为:95:p1.96sp 99:p2.58sp2检验卡方检验用途:可以对两个率或构成比以及多个率或构成比的差异做统计学检验。卡方检验基本公式:A:实际数 T:理论数一、四格表资料的2检验1.建立假设:H00 ;H100.052.计算理论数:由于理论数的计算方法是分母都是一样,所以理论数的计算:3.计算2值:4.确定p值,作出统计推论:自由度(行-1)(列-1)1。220.05()则P0.05:H0不成立,接受H1,差别有统计学意义;220.05()则P0.05:H0成立,差别无统计学意义。四格表2检验的基本结构:二、四格表专用公式:a,b,c,d各代表四个表中的四个实际数例题:50只经过处理的老鼠中23只出现某种阳性反应。两组的阳性反应率有统计学意义吗?数据整理成表:H00 ;H100.051,20.05(1)3.84。27.6420.05(1),P0.05按0.05的水准可以认为两组的阳性反应率差别有统计学意义。三、四格表的校正条件:当n40且1T5校正公式:或:注意:当n40或出现T1时,校正法也不行,要用精确检验法直接计算概率。例题:为比较槟榔煎剂和阿的平驱绦虫的效果,对45名绦虫患者进行治疗,其结果如下,问两药疗效是否相同?转换成计算表格如下:H00 ;H100.051,20.05(1)3.84。20.6120.05(1),P0.05按0.05的水准可以认为两药的疗效差别无统计学意义。四、行列表的卡方检验:适用于多个(两个组以上)的率或构成比差别的显著性检验。H0123 ;H1三种药物的疗效不同或不全相同。注意事项:1.不宜有1/5以上的格子的理论数小于5,或有小于1的理论数。处理方法:增加样本含量去除理论数过小的行或列合并理论数过小的性质相近的行或列。2.如检验结果拒绝检验假设,职能认为各总体率或总体构成比之间总的来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鲁科版高中化学高二上册期中考试题及答案
- 2025技术入股合同示范文本
- 工程审计方案模板范文(3篇)
- 中国梦竞赛试题及答案
- 2025医疗机构医疗器械供销合同
- 工程停工多年复工方案(3篇)
- 智慧医疗模式下的信息技术与医疗信息化应用推广研究报告
- 《2025驾驶员雇佣合同范本》
- 深度解析2025年医疗美容消费者心理与服务体验改进策略报告
- 工程管理公司薪酬方案(3篇)
- 双人合作开店协议书范本
- 质量员模拟题含答案
- 以史为帆明方向+少年立志向未来+课件-2025-2026学年上学期主题班会
- 2025上海科技馆事业单位工作人员招聘10人笔试备考题库及答案解析
- 钢结构工程施工安全管理方案
- 医疗机构员工服务规范手册
- 2025年黑龙江省龙东地区中考英语真题含答案
- 医疗器械生产质量管理规范2025版
- 2025年全国企业员工全面质量管理知识竞赛复习考题及参考答案
- 电气线路问题整改方案(3篇)
- 学堂在线 军事理论 章节测试答案
评论
0/150
提交评论