版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学是应用概率论和数理统计的方法,研究数据的搜集、整理、分析与推断的学科,是认识世界的一种重要手段。变量(variable):就是反映个体特征或属性的量.变量值(variablevalue):变量的观察结果或测量值。定量变量quantitativevariable/数值变量numericalvariable定性变量qualitativevariable分类变量categoricalvariable同质(homogeneity)是指被研究指标的影响因素相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。因此,在实际工作中只有相对的同质。变异(variation):同质基础上的各观察单位间的差异称为变异。总体:是根据研究目的所确定的同质观察对象的全体,或者说所有同质的某指标实测值的集合。样本:根据随机化的原则从总体中抽取有代表性的部分观察里位,其变量实测值构成样本。参数(parameter):根据总体变量值统计计算出来的、描述总体特征的统计指标。统计量(statistic):根据样本变量值统计计算出来的、描述样本特征的统计指标。误差:指测量值和真实值之间的差别准确度(accuracy):观察值与真值的接近程度,受系统误差的影响。可靠度(reliability):也称精密度(precision)或重复性(repeatability):是重复观察时观察值与其均值的接近程度,受随机误差的影响。概率:是描述随机事件发生的可能性大小的一种度量,常用户表示。0WPW1随机事件P=1必然事件P=Q不可能事件尸W0.05或P<0.01为小概率事件统计工作的基本步骤:统计设计(研究对象,处理因素,统计分析),搜集资料(任务:遵循统计学原理,按照设计要求,采取必要措施得到准确可靠的原始资料。原则:及时、准确、完整。),整理资料(编码,将数据输入计算机;纠错改错、补漏等;根据研究目的将原始数据进行归纳、分组或计算),分析资料如何对数值变量进行统计描述。1频数表与频数分布图2集中趋势的统计描述3离散趋势的统计描述相对数的概念包括率、构成比、相对比和动态数列,由于它是两个有联系的指标之比,因而叫作相对数。相对数应用中的注意事项1计算相对数的分母不易过小2防治概念混淆,分析时不能以构成比代替率3对观察单位不等的几个率,不能直接相加求其平均率。4资料的对比应注意同质5对样本率的比较应遵循随机抽样,要作假设检验。率:表示在一定条件下,发生某现象的观察单位数与可能发生某现象的观察单位数之比。构成比表示某一现象内部各组成部分所占的比重或分布。特征1各组成部分的构成比之和为100%2某一部分构成比增大或减小,必然使其它部分产生相应的变化。注意区别率和构成比虽然两者均为两个指标之比,但意义却完全不同。率反应了某项指标的平均强度或平均水平,它具有数值变量中平均数的含意,构成比表示某一现象内部各组成部分所占的比重或分布,不能反应该现象的平均强度或平均水平正态分布的概念若将各直条顶端的中点顺次连接起来,得到一条折线。当样本量〃越来越大时,组段越分越细,此时直方渐进直条,这条折线就越来越接近于一条光滑的曲线(见图3.1),我们把这条呈中间高,两边低,左右基本对称的“钟型”曲线称为正态分布曲线,近似于数学上的正态分布(高斯分布;Gauss)o正态分布的特征1.集中性:正态曲线在横轴上方均数处最高2.对称性:以均数为中心,左右对称。3.正态分布的图形由均数和标准差两个参数决定。位置参数|J;变异度参数。4.正态分布曲线下的面积分布有一定规律:正态曲线与横轴所夹的面积为1(1.64,1.96,2.58)应用1.制定医学参考值范围2.估计频数分布3,进行质量控制4.正态分布是许多统计方法的理论基础二项分布在医学研究中,许多观察或试验的可能结果可以归结为二个相互排斥的结果。性质与特征⑴形态取决于厅和〃:当厅接近0.5时,分布对称,TT离0.5越远,分布对称性越差;但当〃增大时,分布趋于对称。⑵高峰在|i=n7i处⑶二项分布的总体均数|i=n7i,方差为4当n7t>5,且n(l-ii)>5时,二项分布趋于正态分布。Poisson分布Poisson分布是一个重要的离散型概率分布。一般地,Poisson分布应用于观察例数n很大、而兀发生的概率很小的情况。特性1)Poisson分布属于离散型分布,人是Poisson分布的总体参数,也是惟一的参数。(2)方差02与均数人相等,即02=人。这是Poisson分布的一个非常重要而且非常独特的性质,经常用于判断某随机事件是否服从Poisson分布。(3)设X]〜P(ul)且X2〜P(u2),并且XI与X2相互独立,贝0Y=X1+X2服从总体均数为ul+u2的Poisson分布抽样误差:由于抽样造成的样本统计量与样本统计量,以及样本统计量与总体参数间的差别样本均数的标准差(简称标准误,standarderror)是描述均数的抽样误差大小的指标。区间估计:根据抽样误差的规律,按一定的概率估计总体均数的所在范围。统计上习惯用95%或99%可信区间表示总体均数可能所在范围。总体均数的95%置信区间表示的实际涵义是:如果从同一总体中重复抽取100份样本含量相同的独立样本,每份样本分别计算1个置信区间,在100个置信区间中,将大约有95个置信区间覆盖总体均数,大约有5个置信区间并不覆盖总体均数。假设检验(hypothesistest)亦称显著性检验(significancetest),先对总体的参数或分布作出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等,然后选用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。原理:在抽样研究中,由于抽样误差的客观存在,使得从同一总体中随机抽取的样本含量相等的若干个样本均数往往不相等。根据正态分布原理,在100次(n相等)抽样中,理论上将有95个u值小于1.96,仅有5个u值大于或等于1.96。当进行一次抽样研究时,若依据该样本均数算得的u值小于1.96,则表明从该总体中抽得此样本的可能性将大于5%(P大于0.05),因此可认为此样本来自该总体;若算得的u值大于1.96,则表明从该总体中抽得此样本的可能性将小于或等于5%(PW0.05),这种小概率事件在一次抽样中是不大可能发生的,因此可认为此样本不是来自该总体。步骤1提出无效假设和备择假设,规定显著性水平2确定并计算检验统计量3确定尸值,作出统计推断结论小概率在一次试验中,一个几乎不可能发生的事件发生的概率,由研究者事先确定。第一类错误(弃真错误)拒绝了实际上存在的H0,第一类错误的概率为a.第二类错误(存伪错误)不拒绝实际上不存在的即,第二类错误的概率为|3(Beta)掌握两独立样本定量资料的统计分析思路:两样本均来自正态总体且总体方差齐时用£检验;两样本来自正态总体但总体方差不齐时用厂检验或秩和检验。当数据来自偏态分布总体时,首先考虑采用变量变换,再考虑选用秩和检验。掌握配对设计的含义及两配对样本定量资料的统计分析思路:对于配对设计定量资料的统计分析,若差值服从正态分布,可采用配对/检验;否则,采用配对资料的符号秩和检验。秩和检验的优缺点优点:①适用范围广。②对数据要求不严。缺点:对于符合参数检验的资料如果用秩和检验,由于没有充分利用资料提供的信息,故检验效能低于参数检验,若要使检验效能相同,往往需要更大的样本含量。因此,在实际工作中对符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;若不能满足参数检验条件的资料,应选用秩和检验。单因素方差分析的基本思想和模型假设模型条件1独立性:各样本是相互独立的随机样本2正态性:各样本来自正态分布3方差齐性:各样本方差相等,即方差齐步骤1.建立假设,确定显著性水平H0:pil=Pi2=|i3二・・・H1:总体均数不等或不全相等a=0.05.2.计算统计量F3.求概率值尸,做出推论在多组定量资料比较时,ANOAA是一种常用的方法。但ANOAA只能说明多个总体均数总得来说有无差别,若想进一步了解到底哪哪两个组之间有差别,还需做两两比较。单因素方差分析要求各样本均来自正态总体且总体方差齐,当数据来自偏态分布或总体方差不齐时,采用变量变换或秩和检验(Kruskal-WallisTfest)其基本思想和两独立样本一样(wilcoxonranksumtest)>只是在编秩时将所有数据混在一起编秩,然后分别计算各组的秩和。卡方检验基本思想是检验实际数A与理论数T的差别,是否由抽样误差引起?如果H0假设成立,A与T之差一般不会太大,认为A与T之间的吻合程度高,出现大X2值的概率是很小的;若PWa,A与T相差较大;吻合程度差,就怀疑检验假设成立,作出拒绝H0,接受H1的推断。行X列表没有校正公式,使用条件:不能有理论数TV1,并且1WTW5的格子数不超过总格子数的1/5。条件不足时有三种处理方法。①增大样本例数使理论数增大;②删除理论数太小的行或列;③将邻近的行或列合并,增大理论数(但注意合理性)。RXC表的“2检验注意事项1若表格内有一个方向按多个等级分类,则称为单项有序行列表,当等级数大于3时,一般用秩和检验分析更为合适。2列联表资料要求理论数小于5不能太多,不能超过总格子数的1/5,根据专业知识是否能合并或增大样本含量。简单相关分析的方法步骤(一)绘制散点图,看有无线性关系(二)估计简单相关系数r(三)检验简单相关系数p是否有统计学线性相关分析注意事项(一)当两变量有线性趋势时,才能进行线性相关分析。一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法。(二)相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关。(三)相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相关分析四)异常点的存在对相关分析往往有影响,要特别注意。(五)分层资料盲目合并容易引起假象秩相关分析秩相关又称等级相关,是一种非参数统计方法,适用于资料不是正态双变量或总体分布未知;数据一端或两端有不确定值的资料或等级资料。Pearson积差相关系数适用条件:双变量正态分布资料。表示方法:r注意事项:不可用相关系数检验所得尸值的大小来判断有否线性关系。一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数。Spearman秩相关适用条件:不满足正态分布的两变量随机样本一等级资料表示方法:rs简单线性回归分析回归模型的基本假设1.线性(linear)指反应变量Y的总体平均值与自变量X呈线性关系。2.独立(independent)指任意两个观察值互相独立。3.正态(normal假定线性模型的误差项服从正态分布。4.等方差(equalvariance是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差。方法步骤1绘制散点图2求回归系数和常数项3回归系数和常数项的假设检验4列出回归方程,并进行假设检验5回归方程的解释线性回归分析的应用一、总体回归线的95%置信带二、个体Y预测值的区间估计直线回归方程的应用(一)定量描述两变量之间的依存关系。(二)利用回归方程进行预测。(三)利用回归方程进行统计控制简单线性回归分析的注意事项1.要注意实际意义;2.绘制散点图观察两变量的关系以及找出异常点;3.注意自变量和因变量的变化范围。多重线性回归分析的基本步骤1估计参数(最小二乘法)2回归模型的假设检验(尸检验)3回归系数的假设检验(t检验)4列出回归方程未标准化的回归系数(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。标准化的回归系数:用于综合评价各解释变量对因变量Y的贡献大小,标准化的回归系数越大,说明X对Y的影响幅度越大。多重线性回归分析模型假设:LINE诊断方法:残差分析1残差的直方图判断分布的正态性2绘制残差与反应变量预测值的散点图考察模型是否满足线性和方差齐性多重线性回归模型的应用注意事项1定量地建立一个反应变量与多个解释变量之间的线性关系。2筛选危险因素。3通过较易测量的变量估计不易测量的变量。4通过解释变量预测反应变量。5通过反应变量控制解释变量。注意事项1.因变量Y是服从正态分布的连续型随机变量;2.自变量最好是连续型变量,也可以是等级资料,若自变量为多项无序分类资料,则必须先哑变量化后才能进入模型。3,自变量之间不存在多重共线性,即互相独立4.利用自变量对因变量进行预测是回归分析的主要目的之一,此时,只能在X的取值范围内进行。随机区组设计(randomizedblockdesign),又称为配伍组设计,是将受试对象按一定性质配成区组(同年龄、同性别、同窝别),然后随机分配每对中的受试对象到不同的处理组。变异之间的关系:随机区组设计资料方差分析SS总=SS组内+SS组间+SS配伍间,V总=V组内+V组间+V配伍间模型条件正态性:各样本来自正态分布方差齐性:各样处理组方差齐;各区组方差齐基本步骤配伍组设计资料的方差分析的无效假设有二个,其一是关于处理因素的,另一个是关于配伍因素的。相应的统计量也有二个。实验设计的3个基本要素受试对象(subject)处理因素(treatment)实验效应(experimentaleffect)实验设计的基本原则1对照原则,意义:使实验组和对照组内的非处理因素基本一致,使处理因素的效应得以显露。2随机的原贝0:所谓随机化(randomization),就是采用随机化的原则,使每个受试对象都有同等的机会被抽取或分配到不同的实验组和对照组。3重复的原则:概念:重复是指在相同实验条件下进行多次研究或多次观察(一定的样本含量),以提高实验的可靠性和科学性。无限增加样本含量,将加大实验规模,延长实验时间,浪费人力物力,反而增加系统误差。样本含量不足,检验效能(Power,1—P)偏低,总体参数间原有差异无法检验出来。在设立对照时,应特别注意以下问题:(1)缺乏对照或对照多余2)缺乏适当的对照(3)对照不全重复的三层含义1整个实验的重复:它确保了实验的重现性,从而提高了实验的可靠性。2用多个受试对象进行重复:它避免了把个别情况误认为普遍情况。3同一受试对象的重复观察:它保证了观察结果的精度。完全随机设计含义:是采用完全随机化分组方法将同质的实验单位分配到各处理组,各组分别接受不同的处理。Logistic回归分析的用途1筛选危险因素,并确定其作用大小;校正混杂因素;预测:预测某个病例事件发生的概率B0表示在不接触任何潜在危险/保护因素条件下,即在自变量均为零时效应事件发生(死亡)优势(odds)的对数值,或效应指标发生与不发生的概率之比的对数值。bi为因素Xi的Logistic回归系数,exp(bi)为其他各因素取固定值时,因素Xi与疾病关联的优势比(OR),反映了危险因素Xi与疾病关联的程度。或称为其某两个相邻水平相比对效应事件发生的优势比的对数值。在Logistic回归模型中,自变量每增加1个单位,对应的优势比为OR>1,说明X增大是疾病的危险因素ORvl,说明X增大是疾病的保护因素OR=1,说明X的变化与疾病无关删失数据(censoreddata):又称截尾。随访研究中,在规定的观察期内,对某些观察对象由于某种原因未能观察到终点事件的发生,并不知道确切的生存时间。生存概率:单位时段开始时存活的个体到该时段结束时仍然存活的可能性;p=某年活满一年人数/某年年初人口数注意:若年内有删失,分母用校正人口数。生存率(survivalrate):0时刻存活的个体在t时刻仍存活的可能性。累积生存概率生存概率是针对单位时间而言的,生存率是针对某个较长时段的,是生存概率的累计结果。- t时亥仍存活例数资料中无删失数据时 S^=P(T>t)= 人"什啊以蚊*观察总例数资料中有删失数据^(t}=P(T>t}=p-p.......p=S(t¥pk k1 2kA-lk死亡概率(probabilityofdeath):表示某时段开始存活的个体,在该时段内死顷官孵r注意:如果年内有删失,则分母用校正人口数:校正人口数=年初人口数一删失例数/2半数生存期,也称中位生存期(mediansurvivaltime),即生存时间中位数,表示50%的个体可存活的时间。即生存率为50%时对应的生存时间(集中趋势指标)。中位生存期越长,表示疾病的预后越好。生存曲线的估计一、寿命表法(lifetablemethod)应用范围:样本含量较大时期初有效例数=期初病例数-期内删失数/2死亡概率=期内死亡数/期初有效例数 生存概率=1-死亡概率二、乘积极限法(Kaplan-MeiermethodProductlimitmethod,应用于样本含量较小时。基本思想:将生存时间由小到大依次排列,在每个死亡点上,计算期初人数、死亡人数、死亡概率、生存概率和生存率。生存曲线的比较(Logrank检验)Ho:两总体生存曲线相同H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐饮劳务合同
- 医学26年:先天性心脏病指南更新要点 心内科查房
- 26年临床试验评估规范
- 2025~2026学年河南周口市第一初级中学七年级下学期英语寒假作业检测题
- 2026历年注安考试题及答案
- 2026国家纳米科学中心张健团队招聘2人备考题库及完整答案详解1套
- 2026福建南平市数字产业发展有限公司员工招聘3人备考题库及答案详解一套
- 2026四川开放大学年事业编制岗位考核招聘高层次人才备考题库附答案详解(典型题)
- 2026湖南郴州市郴投大源矿业有限公司招聘1人备考题库含答案详解(巩固)
- 2026北京语言大学事业编制人员招聘11人备考题库(第三批)及答案详解1套
- 塑造非权力影响力
- 体外诊断试剂设计开发与注册申报工作程序
- 老师我们的朋友
- 大学生志愿服务西部计划考试复习题库(笔试、面试题)
- 杭州西溪国家湿地公园总体规划修编 文本
- 材料的力学行为
- GB/T 42415-2023表面活性剂静态表面张力的测定
- YY/T 1681-2019医疗器械唯一标识系统基础术语
- GB/T 25380-2010数控滚齿机精度检验
- plm实施工具11培训课件库cmii培训课件
- Unit 3 Lesson 1 Spring Festival 课件-高中英语北师大版(2019)必修第一册
评论
0/150
提交评论