医学统计学精品教学(汕头大学)终身模块-统计学-概念-步骤.ppt_第1页
医学统计学精品教学(汕头大学)终身模块-统计学-概念-步骤.ppt_第2页
医学统计学精品教学(汕头大学)终身模块-统计学-概念-步骤.ppt_第3页
医学统计学精品教学(汕头大学)终身模块-统计学-概念-步骤.ppt_第4页
医学统计学精品教学(汕头大学)终身模块-统计学-概念-步骤.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学 Medical Statistics,张建军 汕大医学院预防医学教研室 Tel:Email: ,第一节 绪论 北京某医院某大夫使用“乌贝散” (乌贼骨3钱,白芨3钱,川贝3钱, 甘草3钱,共研细末过120目筛,冲服) 治疗胃溃疡病出血107例,有效101例,有效率为94.4%,别的医院,其他大夫使用“乌贝散”来治疗胃溃疡病出血,其有效率也一定是94.4%吗?,求 置信区间,北京某医院有位老大夫,用“冠心灵”治疗冠心病,其对照组用西药,观察结果如下表: 表1-1 冠心灵与单纯西药疗效对比 显 效 有 效 无 效 合计 单纯西药 9 25 6 40 冠 心 灵 19 18 5 42,冠心灵是否比单纯西药有效?,假设检验 (test of significance), 俗称要算值。,北京15所医院,联合对心肌梗塞抢救治疗后的患者进行了随访调查,资料如下: 表1.2 心肌梗死抢救治疗后, 随访研究 随访数 死于本病 中断随访 第一年 1342 130 41 第二年 1171 48 53 第三年 1070 42 73 第四年 955 56 48 第五年 851 35,出院后第1年死亡率与以后几年的死亡率是否有明显差别?,中断随访的患者如何进行统计分析?,怎样的随访才算有效?,2年生存率?3年生存率?,某杂志中一篇文章报导,用某种中草药治疗 玫瑰糠疹,有效率为78,平均疗程为3周左右。 问此药治疗玫瑰糠疹的确有效吗?,由于玫瑰糠疹具有自然治愈的情况 ,一般不服药,多喝水,到3周左右有些患者也会自愈。,此药的 78疗效有待探讨 !,一、统计学的重要性Importance,定义:统计学(Statistics)是研究数据搜集、整理与分析的科学,是认识社会和自然现象数量特征的重要工具。 医用统计学(Medical Statistics):运用概率论和数理统计的原理,方法,结合医学实际,研究数字资料的搜集,整理,分析,推断的一门学科。 医学统计学是医学与统计学的交叉学科;,数学,统计学,医学,数理统计学,医用统计学,医用数学,医学统计学是交叉学科,数据的重要性: 对事物本质的理解-数据的科学性(具体/量化); 对偶然、众多现象的分析-数据中的规律性; 医学的发展-数据的依赖性(标准/诊断准确率); 医学研究的核心是环境与健康的关系。,现象间的关系:相关-因果? 现象之间的数量关系:回归 Y=-17.3618+0.2219X (直线回归方程) Y: 体重(g);X:大白鼠进食量(g) 统计结论取决于:实验设计,资料搜集,数据管理等;,统计学的应用意义(Application):,统计学发展迅速,计算工具的进步: 算盘,手摇式计算器,电子计算器,计算机的发展, 软件的发展; 例如:SPSS(Statistics Package for Social Science)- Statistical Product and Service Solutions, SAS, Stata, PEMS(Package for Encyclopedia of Medical Statistics),二、统计学研究的对象objects,1、有变异(variation)的事物 变异来源各种各样;变异是客观存在的;统计必须在一定数量的观察基础上进行。 随机事件(Random event):一次试验结果不确定,在一定数量重复条件下呈现出规律性。 统计研究重在:由少数推出多数; 即:样本sample-总体population 2、同质(homogeneity)的事物 性质基本相同;3 mules+2 donkeys=?,1、总体(population)是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。 同质基础:时间、空间、条件等 (1)有限总体(finite population) (2)无限总体(infinite population),三、几个基本概念basic concepts,如研究某地2003年健康成年男性的身高(cm),则该地2003年全部健康成年男子的身高构成一个总体。该总体只包括有限个观察单位,称为有限总体。 有时总体是设想的,是抽象的。 例如研究用某药治疗冠心病患者的疗效。,2、样本 根据随机化原则从总体中抽取的一定数量(sample size)的个体,称为样本(sample)。 从总体中抽取部分个体的过程称为抽样(sampling)。 代表性:样本能代表总体。 随机性:总体中每一个体有同等的机会被抽取。 可靠性:结果可重复,足够数量。 可比性:样本间比较。 必要性:总体的数量庞大。,3、同质 同质(homogeneity)是指影响被研究指标的非实验因素相同。 影响被研究指标较大的、可以控制的主要因素尽可能相同。 如研究儿童的身高,则要求影响身高这一指标较大的、易控制的因素如性别、年龄、民族、地区要相同,而不能控制的因素,如遗传、营养等影响因素可以略去。 相对的同质,4、变异(variation, variablility ) 同质基础上个体之间的差异为变异。 如同性别、同年龄、同民族、同地区儿童的身高有高有低,称为身高的变异。 统计学是研究变异的科学。没有变异就不需要统计学。 规律性隐藏在变异背后。,5、参数(parameter)和统计量(statistic) 总体的统计指标称为参数。 总体均数(),总体发病率,总体死亡率,等, 样本的统计指标称为统计量 样本均数(x),样本发病率,样本死亡率,等, 统计学上用不同的符号表示他们:,6、误差(error) 观察值与实际值的差异,成为误差。 分为:过失误差;系统误差;随机测量误差;随机抽样误差; (1)过失误差(mistaken error):过失所致的误差(不认真,错误判断,记录等原因); (2)系统误差(systematic error):仪器未校准所致的误差(统一偏高,或偏低); 这两类误差可以避免。,(3)随机测量误差(random measurement error):不同观察者或同一观察者多次观察值的不相同。这种误差不可避免。 (4)抽样误差(sampling error):由于个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。 抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。抽样误差是不可避免的,但抽样误差有一定的规律性。,7、概率(probability)几率,或然率 概率是反映某一事件发生的可能性大小的量。 用P表示,范围在0与1之间。 习惯上把P0.05或0.01的事件称为小概率事件,表示某事件发生的可能性很小。 “小概率事件一次抽样不可能发生” 小概率事件定理,8、变量及变量值 变量(variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成为测量尺度(scale)。 变量值:测量的结果。 如健康成年男性的血压值:某人是观察单位,血压是变量,千帕是测量尺度,千帕数值为观察值, 定性变量:性别,职业,等,9、随机化(randomization) 使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。 为使样本代表总体,必须缩小抽样误差。随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。 随机不是随便(free and easy, casual)或随意 (ad libitum)。 抽签法,随机数目表法,计算器随机数法,单纯随机抽样(简单随机抽样),最简单、最基本的抽样方法 从总体N个对象中,利用抽签或其他随机方法抽取n个 总体中每个对象被抽到的概率相等,Simple random sampling,系统抽样(机械抽样),按照一定顺序,机械地每隔若干单位抽取一个单位的抽样方法。 将总体各个个体单位按某种标志排列、连续编号 根据总体数N和确定的样本数n,计算抽样距离(N/n) 用单纯随机方法在第一组中确定一个起始号 从此起始点开始,每隔K(K=N/n)个单位抽取一个作为研究对象,Systemic sampling,系统抽样示意图,分层抽样,将总体单位按某种特征分为若干次级(层),然后从每一层内单纯随机抽样组成一个样本。 分类 按比例分配(proportional allocation)分层随机抽样 各层内抽样比例相同 最优分配(optimum allocation) 分层随机抽样 各层抽样比例不同,内部变异小的层抽样比例小,内部变异大的层抽样比例大,Stratified sampling,整群抽样,将总体分成若干群组,抽取其中部分群组作为观察单位组成样本 分类 单纯整群抽样(Simple cluster sampling) 被抽到的群组中的全部个体均作为调查对象 二阶段抽样(Two stages sampling) 通过再次抽样后调查部分个体,Cluster sampling,Sample 100,Sampling,Parameters,Statistics,Population 50000 With relatively same features(homogeneity) but still varied among all(variation),Observed unit with Probability,Representative (random, size),Inference,四、正确运用统计学的观点与方法,1、统计学是工具: 杜绝统计无用,统计万能论点。 拓宽医学研究思路 统计学知识-指导课题设计-资料分析 单因素-多因素-探讨病因-预后 单纯比较均数-相关、回归,2、科研设计科学合理,提高效率 运用实验设计的原则,从动物选择、分组、指标测定、结果分析等方面达到最优化。 统计不能创造规律。只能在一定的限度内,弥补实验设计的不足。 3、采集准确可靠的资料,对资料合理使用 尤其对多因素影响的疾病。,4、选择合适的统计方法进行分析,正确解释分析结果。 统计结论是概率性的,在给出统计结论后,恰当地指出专业意义。 避免使用:证明(或类似语气);一般采用:提示,可以认为等 较为客观。,五、几点注意事项,1、着重理解医学统计学的基本原理与基本概念,掌握搜集、整理与分析资料的基本知识与技能,常用统计指标与基本统计方法的正确应用。重视原始资料的完整性与可靠性,对数据的处理应持严肃、认真和实事求是的科学态度,反对伪造和篡改统计数字。,2、注意培养科学的统计思维方法。 统计工作步骤间的内在联系; 抽样误差不可避免; 不能仅从数字表面大小看问题; 统计结论具有概率性的思想; 统计检验的基本思想;,3、必须联系实际,结合专业,才能学好和用好医学统计学。 如:多联系医学文献和医学科研工作,评价其统计设计与分析的优缺点。 4、对数理统计公式,要理解其意义、用途和应用条件,不必深究其数学推导。,统计资料的类型 统计工作的基本步骤,统计资料的收集和整理 data collection and sorting,一、资料的类型data classification 1、根据是否定量划分: (1)计量资料(measurement data) 用定量方法测量每个观察单位的某项指标。 一般有度量衡单位。 如7岁男童的身高(cm)、体重(kg)和血压(kPa); 空气中CO2浓度(mg/L); 常用:平均数,标准差,t检验,方差分析,相关与回归 等分析。,例-配对t检验 paired t-test,为研究体位对高血压患者收缩压的影响,随机抽取了10名高血压患者,分别在其坐位10分钟后和卧位10分钟后测量其收缩压,结果见表,试问这两种体位对患者的收缩压是否有影响?,(2)计数资料(enumeration data) 将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(分类变量资料,无序分类资料)。 如血型,按A、B、O、AB型分组得各血型的人数为计数资料。 分属于各组的观察单位间有质的差别,不同质的观察单位不能归在同一个组内。 常用:率、构成比、卡方检验等。,例-行列表资料的分析(多个样本率的比较),用某新药治疗不同类型关节炎的疗效,问该药治疗不同类型关节炎的疗效是否有差别?,(3)等级资料 (ranked data) 将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称有序分类资料。 如临床疗效按控制、显效、好转和无效分组所得各组人数。 常用:率、构成比、秩和检验等。 与计数资料不同:属性的分组有程度差别,各组大小顺序排列; 与计量资料不同:每个观察单位未确切定量,称为半定量资料。,等级资料介于计量资料与计数资料之间。 根据分析的需要,三类资料可以转化。 血红蛋白含量(计量资料); 按正常与异常分组得到各组人数(计数资料); 按血红蛋白多少分五个等级: 16(血红蛋白增高),例-等级资料的秩和检验,某医院用中草药治疗两种不同类型小儿肺炎的疗效,问:该药对两种类型肺炎患者的疗效是否不同。,2、根据测量的整数之间有无小数划分 (1)连续性资料(continuous data): 测定的整数之间有无限多位小数。 体重,身高,等大多数计量资料。 (2)非连续性资料(discrete data): 整数间无任何小数。病人数,细胞数,动物死亡数, 不同的数据类型间可以根据需要相互转换; 类型不同,统计分析方法不同。,二、统计工作的基本步骤 即设计(design)、搜集资料(data collection)、整理资料(data sorting)、分析资料(data analysis)。是相互联系,不可分割的。 1、设计(design): 制定周密的医学研究计划,是关键的一步。 有调查设计和实验设计之分。,(1)调查设计(survey design) 应用人群调查的方法,发现某些特定的医学问题。 调查设计一般包括专业设计和统计设计。专业设计:指调查要达到的专业目的和要求,解决专业问题。统计设计包括资料搜集、整理与分析过程中的统计设想和科学安排。 关于搜集资料的调查计划,在整个设计中占主要地位,应解决的问题是:,A: 明确调查目的和指标 : 了解参数(即总体的统计指标数值),用以说明总体特征,如某地居民某病患病率、环境中某有害物质的平均浓度; 研究现象间的相关联系,以探索病因,如环境污染与健康的关系。 要把调查目的具体到指标。 癌症死亡率:年龄别,地区别,等 指标灵敏度、特异度高。如:细胞学,x光对食管癌。,B确定调查对象和观察单位 : 调查对象是根据调查目的和指标确定的调查总体的同质范围;观察单位是要调查的总体中的个体,可以是:一个人,一个病例,一个家庭,一个集体单位,人次,采样点,,C调查方法 : 可分为普查(census)和非全面调查。 普查是将组成总体全部观察单位加以调查。 非全面调查包括典型调查和抽样调查两种。典型调查是有意识的选择好的、中间的或坏的典型来调查,一般多用于社会调查或检查卫生工作等;抽样调查是通过随机抽样来推测总体特征,在实际工作中应用最多。 此外:病例对照研究(case-control study),定群研究(cohort study),,D调查方式 :包括直接观察、采访、填表和通信四种方式。 前两种调查资料由参加研究的人员直接记录,质量可靠。后两种则由被调查者自己填写,误差较大,只有在必要时才应用。,E调查项目和调查表设计: 把调查项目列成调查表,要精简明了,必需的项目不要遗漏,无关项目不要列入表内,便于填表人理解和正确填写。拟订调查表应注意以下事项: 只包括能解决调查任务所必需的问题; 只包括那些能得到答复的问题; 避免引起被调查者的疑虑; 问题答案定义要明确。,F样本含量的估计: 根据研究目的要求、研究对象特点和抽样方法决定样本大小。详细的估计,要根据预试和容许误差通过公式计算。,(2) 实验设计(experiment design) 实验设计是实验研究极其重要的一个环节。 医学实验的基本要素包括处理因素、受试对象和实验效应三部分。 如:用某种铁制剂治疗缺铁性贫血患者,观察血红蛋白升高情况,该铁制剂即处理因素,缺铁性贫血患者即受试对象,血红蛋白的测量值即实验效应。,实验设计应遵循对照、随机、重复(即样本例数)的原则 。 A、对照:首要原则。“齐同对比”,除了要观察研究的因素外,实验组与对照组一切条件应尽量相同,要有完全的可比性,才能排除其他影响因素。 空白对照,试验对照,安慰剂对照,配对对照,组间对照,,B、随机化(randomization) 如前所述。 C、重复(replication) 实验样本必须够大,在一次试验中有充分的重复; 如果一批实验结果可靠,应经得起重复试验的考验。 决定(重复性)样本数的因素:处理效果;实验误差;抽样误差;资料性质;显著性检验要求的水平;实验结果的可能性;实验设计的类型; 动物实验:大动物:5-15,中等动物:10-20,小动物:15-30,常用实验设计类型,完全随机设计(completely random design) 配对设计(paired design) 配伍设计(randomized block design),2、资料搜集(data collection) 按设计的要求及时取得准确、完整的原始数据。 (1)资料来源: (A 统计报表 B 报告卡(单) C 日常医疗卫生工作记录 D 专题调查或实验 (试验)) A 统计报表 如疫情报表、医院工作报表等,这些都是根据国家规定的报告制度,由医疗卫生机构定期逐级上报的。这些报表提供了较全面的居民健康状况和医疗卫生机构的主要数据,是总结、检查和制订卫生工作计划的重要依据。,对统计报表的检查: 数字检查:纵、横的合计是否吻合。 专业逻辑检查: 年龄组、性别组等。 确信数据的来源及正确性。应有专业人员填写。,B 报告卡(单) 如传染病和职业病发病报告卡、肿瘤发病及肿瘤死亡报告卡、出生报告单及死亡报告单等。要做到及时填卡(单),防止漏报。 例如,出生后不久即死亡的新生儿要同时填写出生报告单和死亡报告单。 对报告卡的检查:常有漏报,重报等。 报告卡上应有病例、报告人详细的联系方法,如电话等。,C 日常医疗卫生工作记录 如门诊病历、住院病历、健康检查记录、卫生监测记录等。要做到登记完整、准确。 注意事项: 不能计算发病率,患病率; 不同医院的记录,比较时要慎重。 医院病人病种的比例,不能很好代表居民中病种比例。 同科室不同时期病人病情会不同。 注意标准的一致性。对病情的诊断标准,.,D 专题调查或实验 (试验) 一般统计报表和医院病历资料的内容都有局限性,要做到深入分析往往感到资料不全。经常采用专题调查或实验(试验)研究。 这些资料的质量高,是理想的统计资料。 (2)资料的记录 recording 和贮存 storage 调查表中项目的记录(自学)。 (3)记录表的目视检查(checking)(自学),3、资料整理(date sorting) 资料整理的目的是把杂乱无章的原始资料系统化、条理化,便于进一步计算统计指标和分析。 资料整理的过程如下: (1)在资料整理之前将收集到的数据和各种资料进行检查和核对。补充或剔除,需要很大的耐心。 (2)设计分组,分组有两种:,A质量分组: 即将观察单位按其属性或类别(如性别、职业、疾病分类、婚姻状况等)归类分组; B数量分组: 即将观察单位数值大小(如年龄大小、血压高低等)分组。 两种分组往往结合使用,一般是在质量分组基础上进行数量分组。如先按性别分组,再按身高的数值大上分组。 按分组要求设计整理表,进行手工汇总(划记法或分卡法)或用计算机汇总。,频数表的绘制 频数分布表(frequency distribution table) 对资料中各变量值的频数汇总而成的表格,用来反映各变量值与其频数间的关系,可以观察该资料的分布类型。是最基础的统计描述。 例:某市1995年110名7岁男童的身高(cm)。,某市1995年110名7岁男童的身高(cm)资料如下,,(1)计算极差:找出观察值中最大值与最小值,二者之差称为极差(全距Range)。R 表示。 本例134.5-110.2=24.3。,(2)决定组数(class number)、组段(class)、组距

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论