




已阅读5页,还剩112页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本资料来源,人群健康研究的统计方法,第四军医大学卫生统计学教研室张玉海,第七章医学统计学的基本概念和步骤,一、统计学基本概念,1.总体与样本2.同质与变异3.参数与统计量4.误差5.概率与频率,1.总体与样本总体:根据研究目的而确定同质观察单位的全体。样本:从总体中抽取的部分观察单位。,随机抽样randomsampling,为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。,2.同质与变异,同质:除了实验因素外,影响被研究指标的非实验因素相同被称为同质。变异:在同质的基础上被观察个体之间的差异被称为变异。,3、参数与统计量parameterandstatistic,参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。是固定的常数。,总体,样本,抽取部分观察单位,统计量,参数,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。在参数附近波动的随机变量。,4、误差(error),误差:实际观察值与客观真实值之差,(1)系统误差(2)随机误差,90mmhg,。,85,真值,血压计测定值,系统误差,。,。,随机误差和系统误差,随机误差,概率:随机事件发生的可能性大小,用大写的P表示;取值0,1。频率:样本的实际发生率称为频率。频率与概率间的关系:样本频率总是围绕概率上下波动样本含量n越大,波动幅度越小,频率越接近概率。,5、概率与频率,二、数据类型,1.计量资料用仪器、工具等测量方法获得的数据2.计数资料按某种属性分类,然后清点每类的数据。也叫定性数据3.等级资料半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(ordinalcategorydata)。癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。尿蛋白:,+,+及以上,三类资料间关系,例:一组2040岁成年人的血压值,以12kPa为界分为正常与异常两组,统计每组例数,8低血压8正常血压12轻度高血压15中度高血压17重度高血压,计量资料,等级资料,计数资料,实例数据,第八章数值变量资料的统计描述,一、计量资料的统计描述,平均指标(算术均数、几何均数、中位数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数),1、平均指标,1.算术均数(mean):适用条件:资料呈对称分布,一般用于正态或近似正态分布。2.几何均数(geometricmean)。适用条件:呈倍数关系的等比资料或对数正态分布资料。3.中位数(median)。适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料有不确定数值;资料分布不明等。,2.变异指标,反映数据的离散程度。即个体观察值的变异程度。1.极差(全距)2.四分位数间距3.方差Variance4.标准差StandardDeviation5.变异系数CV,变异指标小结,1极差较粗糙,适合于任何分布2标准差最常用,适合于正态或近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数标准差偏态分布:中位数(四分位间距),图形特点:钟型(中间高,两头低,左右对称,以X轴为渐进线)最高处对应于X轴的值就是均数两个参数:位置参数和形态参数。曲线下面积恒为1或100%。,二、正态分布,1.意义:医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围(medicalreferencerange)作为判定正常和异常的参考标准,但不是“金标准”。,三、医学参考值范围的制定,双侧:血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧上限:如:血清转氨酶、体内有毒物质过高异常单侧下限:如:肺活量过低异常单双侧常依据医学专业知识而定。,2.单、双侧问题:,3.医学参考值范围有90%、95%、99%等,最常用的为95%。计算医学参考值范围的常用方法:1.正态分布法2.百分位数法,第九章数值变量资料的统计推断,一、均数的抽样误差与标准误,总体,样本,抽取部分观察单位,统计量,参数,统计推断,如:样本均数样本标准差S,如:总体均数总体标准差,抽样误差(samplingerror):由于个体变异产生的、抽样造成的样本统计量与总体参数间差异,称为抽样误差。,1标准误(standarderror,SE),统计量的标准差称为标准误,是衡量样本统计量抽样误差大小的统计指标。均数标准误:样本均数的标准差称为均数的标准误,它用来说明均数抽样误差的大小。,降低抽样误差的途径有:减小S。增加样本含量n。,由于总体标准差通常是未知的,而用样本标准差S来估计,因此,均数标准误的估计值为,二、总体均数的估计,总体均数的点估计(pointestimation)与区间估计(intervalestimation),参数的估计,点估计:由样本统计量直接估计总体参数,区间估计:按预先给定的概率(1-)所确定的、包含未知参数的一个范围,这个范围称为参数的可信区间(Confidenceinterval,CI),区间估计:可信度与可信区间,预先给定的概率1-称为可信度或置信度(confidencelevel),常取95%或99%。没有特别说明,一般取双侧95%。可信区间有可信下限(lowerlimit,L)和可信上限(upperlimit,U),一般表示为(L,U)。,t检验,亦称studentt检验,主要用于样本含量较小(如n1000IU)的计量资料;等级资料,比较各组间等级强度的差别时。,4、非参数检验的优点与不足,优点:1.适用范围广泛;2.多数方法计算简便;3.易于理解和掌握;4.无法精确测量的资料及等级资料可以采用;不足:1.参数检验适用的资料,非参数方法会降低检验效能;2.某些方法的计算过程仍然复杂。,二、几种非参数方法:,1.配对样本比较的Wilcoxon符号秩检验;2.两个独立样本比较的Wilcoxon秩和检验;3.完全随机设计多个样本比较的Kruskal-WallisH检验;,一、配对样本比较的Wilcoxon符号秩检验,例两种方法ALT测量结果比较,二、两个独立样本比较的Wilcoxon秩和检验,例两类肺病患者RD值比较,三、完全随机设计多个样本比较的Kruskal-WallisH检验,例三种药物杀灭钉螺的死亡率比较,2.参数检验和非参数检验的对应关系,第十二章直线相关与直线回归,一、直线相关,相关-变量间在数量上的相互关系,直线相关(linearcorrelation):用于描述具有线性关系的两变量X、Y间的相互关系。,相关系数示意图,散点呈椭圆形分布(相关)X、Y同时增减-正相关(positivecorrelation);X、Y此增彼减-负相关(negativecorrelation)。,散点在一条直线上(完全相关)X、Y变化趋势相同-完全正相关;反向变化-完全负相关。,相关系数示意图,X、Y变化互不影响(无直线相关关系)-零(不)相关(zerocorrelation),1、相关系数概念,相关系数又称为Pearson相关系数(软件中常用此名称)相关系数说明两变量间相互直线关系的密切程度和方向的指标。r样本相关系数,2、相关系数的计算和假设检验,二、直线回归,函数关系:确定,各点在线上。例如y=5+3x,回归关系:不确定,各点并非恰好都在线上。例如血压和年龄的关系(血压随年龄的增长而增高,并呈直线趋势)。,目的:建立直线回归方程(linearregressionequation),1、直线回归方程,一般表达式:,a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regressioncoefficient)。,2、直线回归方程的求法3、回归方程的检验,4、直线回归与相关应用的注意事项,(1)直线回归与相关分析要有实际意义(变量选择要结合专业背景,相关未必真有内在联系)(2)分析结果的解释及正确应用,不能任意“外延”(3)正确选择自变量与应变量(分析目的、专业知识、因果、变异大小、测量难易程度)(4)相关与回归分析前应绘制散点图(两变量间可能关系的重要提示、考察现有数据是否满足正态分布、有助于异常点的识别与处理),第十六章统计表与统计图,一、统计表统计表(statisticaltable)是表达统计分析结果中数据和统计指标的表格形式,是统计描述的重要方法,也是科研论文中数据表达的主要工具。,1、统计表的结构,2、统计表的意义,清晰地展示数据的结构、分布和特征方便阅读、比较和计算研究论文中可代替冗长的文字叙述,3、统计表的制表原则,重点突出:一张表,一个中心内容表述清楚:主语与宾语的选择、位置的确定简单明了:文字、数字、线条应尽量从简,4、制表的基本要求,标题:概括表的主要内容标目:横标目、纵标目、总标目线条:三条基本线:顶线、底线、纵标目下横线。无斜线、竖线。数字:无数字“-”,缺失数字“”,不留空项,小数位对齐。备注:列于统计表的下方。,5、常见不良统计表,统计表过大、内容过多标目设置不合理,导致统计表内容表述混乱线条过多,如出现不必要的竖线、斜线等数字区有空项,同一指标小数位不同、未对齐将备注列于统计表中统计表基本结构中要素缺失:无标题、少线条,二、统计图,统计图(statisticalgraph)是用点、线、面等各种几何图形来形象化地表达统计数据的图形。与统计表相比,统计图具有形象直观的特点,易于给读者留下深刻的印象;但不象统计表那样,能提供精确的数值。,1、统计图的结构,标题:概括统计图的主要内容、时间和地点;置于图的下方;横轴和纵轴:横标目、纵标目(指标名称、单位),纵横轴的比例以5:7为宜;图例:说明图中不同颜色或线条所表达的对象,刻度,图例,2、几种常用的统计图,(1)直条图(barchart)意义:等宽直条长短表示相互独立的统计指标值的大小(绝对数、相对数、平均数);制图要求:纵轴必须从“0”开始;直条等宽、条间距等宽;直条由高到低或按自然顺序排列;分类:单式条图、复式条图、误差条图,单式条图(simplebarchart):一个分组标志、一个统计指标,复式条图(clusteredbarchart):多个分组标志、一个统计指标,误差条图(errorbarchart):用条图表示均数的基础上,在图中附上标准差的范围。,图2-27四种营养素喂养小白鼠三周后所增体重(克),(2)圆图和百分条图(piechartandpercentbarchart),圆图:以圆形总面积为100%,将其分割成若干个扇面以表示事物内部各构成部分所占的比例。适合描述分类资料的各类别所占的构成比。百分条图:以矩形的总长度表示100%,将其分割成不同长度的段以表示事物内部各构成部分所占的比例。用途同圆图,但特别适合进行多个构成比的比较。,2006年某医院1402例孕妇分娩结果,(3)线图(linegraph),用线段的升降表示某事物动态变化,或某现象随另一现象变化的趋势。适用于连续性资料纵轴:统计指标,算术尺度,以“0”为起点横轴:连续性变量(时间、年龄等),算术尺度连线:两点之间用直线相连,不可修匀成光滑曲线,某炮团和坦克团某年不同月份的发病人数,关于考试:题型:选择、计算举例:(1)一组变量的标准差将()。A.随变量值的个数n的增大而增大B.随变量值的个数n的增加而减小C.随变量值之间的变异增大而增大D.随系统误差的减小而减小,(2)方差分析的主要目的是比较()A总体均数之间的差异性B样本均数之间的差异性C总体方差之间的差异性D总体变异系数之间的差异性,(3)某医院2003年全部门诊患者中,上呼吸道感染患者占5%,则下述正确的是()A.上呼吸道感染患病率为5%B.该院门诊的上呼吸道感染患者构成比为5%C.该院门诊患者中上呼吸道感染的发病率为5%D.该院门诊患者中上呼吸道感染的患病率为5%,(4)率可以用来反映()
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年实验室上岗试题及答案
- 2025年山西省政府采购评审专家考试真题含答案
- CN222959673U 直线型汽车座椅靠背电动锁栓 (浙江华悦汽车零部件股份有限公司)
- 2025年加氢模拟试题及答案
- 珠宝考研试题及答案
- 电厂检修培训考试题及答案
- CN120093336B 利用螺旋ct影像实现脊柱形变患者骨质疏松筛查的方法 (广东医科大学附属医院)
- CN120079912B 一种铝电机前端盖钻孔加工装置及加工方法 (山西三鼎机械制造股份有限公司)
- 2025年后置埋件题库及答案
- 国际贸易政策与经济波动
- 开发区(园区)招商引资投资指南手册【超级完整版】课件
- 一年级上册语文全册课件
- 《礼仪规范教程》中职配套教学课件
- 颅脑外伤(共61张PPT)
- 项目部材料管理制度要点
- 消防安全检查记录表(完整详细版)1
- winmodv工厂可接受性测试、虚拟调试过程控制实时仿真
- 消费者行为学第01章导论
- 教学课件 金属学与热处理-崔忠圻
- 铁道概论全套课件
- 部编版二年级语文上册全册教案及反思
评论
0/150
提交评论