统计学归纳.doc_第1页
统计学归纳.doc_第2页
统计学归纳.doc_第3页
统计学归纳.doc_第4页
统计学归纳.doc_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章 绪论1、 科研实施的过程:科研设计、资料分析、结论。2、 资料分类定量资料(quantitative data):单位间只有量的差别、有连续性。定性资料(qualitative data):单位间可存在质的差别、有质地差别则无连续性。等级资料(ranked data):单位间可存在质的差别、有顺序无大小。3、 总体(population):按研究目的确定的研究对象中所有观察单位某项取值的集合,有限或 无限。样本(sample):从研究对象中随机抽取具有代表性或部分观察单位或某指标集合。 同一样本或总体各个观察值必需具有同质性4、 参数(parameter):描述总体特征的指标。统计量(statistic):描述样本统计量的指标。 5、 概率(probability):随机事件发生可能性大小的度量,0p1。小概率原理:概率小于0.05时,认为发生概率很小,一次抽样中不会发生。6、随机(random):保证样本代表性、可靠性,使各个组的非处理因素保持一致。包括抽样随机、分组随机、实验顺序随机。第二章个体变异与变量分布1、变异(variation):同质性的观察单位之间的差异。是一种或多种不可控因素的综合反映。2、频数分布表:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。 找出极大值和极小值,并计算极差R 依R分组,确定组数组距组段,常取8-15组,用1/10R取整作组距 列标划记3、频数表的用途:可揭示资料的分布特征和分布类型分布类型: 对称:均数在正中,左右频数对称 偏态: 正偏态,如以儿童为主的传染病的患者年龄 负偏态, 如一些慢性病的患者年龄进一步计算其它统计指标和统计分析处理。便于发现某些可疑值4、定量资料的集中位置描述 算术均数(arithmetic mean),有时要加权(weighted mean),用于正态分布资料。 几何均数(geometric mean),G=e(lnX/n),用于偏态(呈倍数关系)尤其是对数资料。 注意:所有值必须大于0,否则做相应变换。 中位数和百分位数:可应用于所有资料,但样本数要多,抗极值能力好,精确性差。 1)描述偏态分布资料的集中位置2)资料呈显著偏态或有个别特大特小值3)一端或两端有不确定的数值6、 定量资料的离散趋势描述全距四分数间距(inter-quartile range):用于偏态分布。标准差(standard deviation):变异系数(coefficient of variation)C.V.:适用于各组观察值单位不同或单位虽同而平均数相差很大的情况。7、定性或等级资料的指标(相对数) 率(rate):说明某事物或现象在可能发生范围内实际发生的频率或强度。 构成比(proportion):表示事物内部各组分所占的比重或频数。 比(ratio):两个有关指标之比。其性质可以相同或不同(如BMI)。 相对数的应用: 分母不宜过小 不能用构成比代替率 各观察单位不等的几个率不能直接相加求平均率。注意同质性及可比性。8、正态分布特性: 单峰曲线,两边对称,中位数为u。 u为位置参数(增大右移,缩小左移),为形态参数即离散程度(增大瘦高,缩小矮胖)。 不服从的经变换可以服从。 曲线下面积分布有规律(单95%-1.96,99%-2.58)。9、二项分布性质:只有2个对立结果,每次条件不变,n个观察相互独立。均值=例数*阳性率(u=n),标准差=SQRT(n(1-),样本率标准差Sp=/nn或n(1-)5可用近似正态分布处理。10、possion分布性质: =方差=均数(2=u), 分布具有可加性,当累加到50时按正态分布处理。 是二项分布的极限形式。 应用条件:事件发生是独立的、概率不变、结果二分。常用于研究单位时间或空间内某疾病发生数(非传染性疾病)。11、标准化率(standardized rate):又称调整率,实际是一组加权平均。加权系数为某小组样本数占总样本数的比例(加权系数之和为1),再用加权系数乘以相应的阳性率得出标准化率。仅用于两者比较,不能反映实际大小,但有粗率相等标准化率大者其小组比例低的结论?第三章 抽样误差1、统计推断:抽样研究的目的是要用样本信息推断总体特征。指如何抽样,以及如何用样本性质推断总体特征。2、抽样误差:由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差。其产生的必要条件有抽样研究和个体变异,缺一不可。规律性:从正态总体中随机抽样,其样本均数服从正态分布; 从任意总体中随机抽样,当样本含量足够大时(n50),其样本均数的分 布逐渐逼近正态分布;样本均数之均数的位置始终在总体均数的附近;随着样本含量的增加,样本均数的离散程度越来越小,表现为样本均数的 分布范围越来越窄,其高峰越来越尖。3、标准误(standard error,SE):用于衡量抽样误差的大小。反映了从某个总体中随机抽样所得样本之均数分布的离散程度。 标准差:标准差越小,样本均数越有代表性。 标准误:标准误越小,样本均数越可靠。4、T分布:设从正态分布中随机抽取含量为n的样本,样本均数和标准分别为X和S(自由度100时为正态分布,n=101)5、T分布性质: 以0为高峰、中心左右对称单峰曲线,且峰低于正态分布,但双尾部高。 自由度(v=n-1)越大,图形越趋向于正态分布。 每一自由度下的t分布曲线都有其自身分布规律。第四章 可信区间1、统计推断:指如何抽样,以及如何用样本性质推断总体特征。包括参数估计和假设检验。2、可信区间:按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence level),常取95%或99%。 可信区间的两要素: 可靠性:用1-a表示。 精确性:常用可信区间的长度Cu-CL表示。 可靠性好,精确性差(区间大),两者互为矛盾。3、可信区间的含义:与参考值范围不同可信度为95%的CI含义是100个样本计算若干个CI,其中有95%的CI包含了总体参数。可信区间一旦计算就包含或不包括总体,无概率性可言。不可理解为有95%的参数或95%的可能落在CI。4、可信区间和参考值范围的区别 意义:可信区间:见3。 参考值范围:某项指标的波动范围。(注意正态和偏态表示不同) 用途:可信区间:估计总体均数。 参考值范围:判断观察对象某指标是否正常。5、标准差和标准误的区别: 标准差:描述个体值变异程度的指标,不能通过统计方法控制。 标准误:样本统计量的标准差,即样本均数的标准差,反应样本均数的离散程度,反映样本均数和总体均数的差异,说明了均数的抽样误差。标准差不变时,增加样本含量可以减少标准误。第五章 假设检验1、假设检验样本与总体的差异:抽样误差和本质差异。2、假设检验建立步骤: 建立假设:H0:称为检验假设或原假设或无效假设,表示抽样误差。 H1:称为备择假设,表示本质差异。两者互斥 确定检验水平:常用a表示,即是拒绝了实际成立的H0的概率。 计算检验统计量和P值。 推断结论:若Pa,则拒绝H0,接受H1,可认为样本与总体的差异不仅仅是由于抽样误差造成的,更可能是由于其本质差异造成的,即并非偶然。若Pa,则认为差异是由于抽样误差即偶然因素造成。3、第一类错误:H0正确时却被拒绝的概率(误诊率),概率为a,正确概率为1-a。 第二类错误:H0错误时却没有拒绝的概率(漏诊率),概率为b,正确为1-b。 注意点: 样本例数确定时,a越小b越大,相互制约,若要同时减少只有增大样本 1-b又称为把握度或检验效能(power of a test),即两总体有差别,按a水准可以发现区别的能力。例如1-b=0.9表示如果两总体有差异,那么100次抽样中,有90次可得出有差别的结果。 拒绝H0只可能犯类错误,不拒绝H0,只可能犯型错误。这也是结论不能绝对化的原因。4、a与P的注意: a:水准是在假设检验之前就确定的,说明了犯型错误的最大概率。 P:由H0规定的总体中随机抽样获得大于或等于现有样本检验统计量的概率。 P值大小表示有多大误差拒绝H0,P值越小,风险误差越小,越有理由拒绝H0接受H1。 P值大小与差异大小无关。5、假设检验与区间估计的联系 假设检验:推断两个总体参数是否有质的差异。 可信区间:推断总体参数量的范围。 联系:可信区间也可以回答假设检验的问题,即算得的可信区间包括可H0,则按H0的标准可以拒绝H0接受H1。在判断两个总体参数是否相等时,两者等价。第六章 定量资料的分析(t检验、方差分析)1、样本均数与总体均数的比较: 基本思想:由样本信息估计总体均数之可信区间(是否覆盖总体均数)。 假设检验:t检验。 计算公式: =n-1 t界值表 当n100时,直接看做正态分布。2、配对设计定量资料 配对情况:自身配对:同一对象先后接受两种处理。 异体配对:将条件相近的两个试验对象配对,分别给予不同的处理。 计算公式: v=配对组数-1 d=(X1-X2)/n Sd=SQRT(d2-(d)2/n)/n-1)3、两样本均数(独立两组,未一一比较) 计算公式: v=n1+n2-2 n100时, 即z检验,查t界值表。4、t检验的正确应用 满足条件(适用于以上所有方法): 独立性:两个观察对象之间无不影响。 正态性:两组数据服从正态分布,配对时其差值要符合正态性。 方差齐性:两样本对应总体方差相等。 要为计量资料 方差齐性检验:Levene法 v1=n1-1 v2=n2-1 查F界值表(H0设为认为相等,应不拒绝H0) n100时的计算问题 看做正态分布,对应值查u界值表,但计算公式与t检验一样,不能用标准差直接乘以界值计算。 下结论时查表时u界值表(为t界值表无限大的那一栏) T检验方法选择问题: 一个对象接受两种处理方法:配对设计。 一样本群根据两种处理因素分为两组,分别接受一种处理法:完全随机区组法。5、多个均数比较(方差分析/ANOVA检验法) 方差分析的应用条件:独立性:各个样本相互独立 正态性:各组内样本均服从正态分布。 方差齐性:相互比较的各样本的总体方差相等。 【当组数=2时,方差分析结果与t检验等价,其中t=SQRT(F)】 单因素多样本分析相关概念多个试验组一种处理方法(完全随机化设计)。 N=总样本含量 K=实验组组数 变异间的相互关系: 计算:C=(X)2/N SS总=X2-C v=N-1 SS组间=(组内X)2/组内n)-C v=处理组数-1 SS组内=SS总-SS组间=((组内标准差S)2*(组内n-1)) v=N-组数 F=MS组间/MS组内=(SS组间/处理组数-1)/(SS组内/N-组数k) 查F界值表 两两分析 含义:SS组间:包括不同分组造成的误差和随机误差。 SS组内:包括个体差异和其他若干因素,是要排除的。 MS组间:组间变异的均方,表示各组样本均数的变异,由随机误差和各组效应间差别 MS组内:组内变异的均方,纯粹由于样本变异造成,与试验因素无关。 注意:有MS组内=MS误差 两因素多个样本均数比较多个试验组,多个处理法(随机区组化/配伍组设计)。 具体思想:先按影响试验的非处理因素将其分组,再将各组内受试对象随机接受不同处理方法。其中假设检验H0的设置就是更具处理方法来确定,H1要设定为不全相等。 变异分解: V总=长*宽-1 SS处理:反应多个处理法之间的差别。 V=处理法数-1 SS区组:反应区组内样本之间的差别。 V=分组数-1 SS误差:反应抽样时的随机误差。 V=分组数-1 计算:C=(X)2/N SS总=(Xn-X总均数)2=x2-C V总=长*宽-1 SS处理=1/区组数*(处理组内X)2-C V=处理法数-1 SS区组=1/处理数*(区组内X)2-C V=分组数-1 SS误差=SS总-SS处理-SS区组 V=分组数-1 F处理=(SS处理/v处理)/(SS误差/v误差) F区组=(SS区组/v区组)/(SS误差/v误差) 查F界值表 两两分析6、完全随机设计和随机区组设计的区别 设计:完全:将全部试对象分配到g个处理组,各组接受不同处理。 随机:随机重复多次,每次都对同一个区组内的受试对象进行,且各个组内的受试对象数量相同,组内平衡。 变异分解:三个VS四个第七章 定性资料的分析(u、2、Fisher)1、样本率与总体率的比较 前提:np或(1-p)n5时才可用公式计算,否则运用二项分布。 公式:u=ABS(实际率p-总体率)/SQRT(1-)/n) 查u界值表。2、两样本率的u检验 前提:n1p1、n2p2、n1(1-p1)、n2(1-p2)均5,且n40 公式:u=ABS(p1-p2)/Sp1-p2 =ABS(p1-p2)/SQRT(p总(1-p总)(1/n1+1/n2)) 查u界值表3、两样本率的2检验(两个试验组,一种处理方法) 编写四格表:两样本的阳性样本数和阴性样本数 前提1:n40,T5(理论频数=坐标积/n) 计算: v=1(行-1)*(列-1) 2界值表 前提2:n40,1T5 计算: v=1 2界值表 前提3:n40或T1Fisher精确概率法/拟然比检验。 【图形与v相关、2范围是0-+,其图形为连续型随机变量的概率分布】4、u检验与2检验的关系 对于双侧比较而言,u检验与2等价,即自由度=1时2=u2 校正检验一样等价。 u检验多用于大样本,2可用于大/小样本。 单侧检验时应用u检验。5、配对设计两样本率的比较(一个试验组,两种处理法) (不考虑T) 目的:比较两种处理法一组反应为一个阳性一个阴性的差异 前提1:b+c40 2=(b-c)2/(b+c) v=1 2界值表 前提2:b+c40 2=(ABS(b-c)-1)2/(b+c) v=1 2界值表6、多个率比较及构成比比较(不考虑T) 公式: 即为n((点2/坐标积)-1) V=(行-1)(列-1) 查2界值表 两两比较的可信区间:7、Fisher精确概率法(n40或T1) Fisher分组:设组数N=行列和中最小的一个之和+1 将N从0到最大值重新排除(N+1)个四格表 计算: Di=ad-bc 计算已知四格表的P和D 累加满足ABS(Di)D且PiP的P总 P总=满足上述条件的所有P(原有N+1个)值之和 比较P总与a值(=0.05),不查表。8、2的用途:反映实际频数与理论频数的差异多用于推断两个或多个总体率或构成比之间有无差别多个样本率比较的2分割两个分类变量之间有无关联频数分布的拟合度检验。9、四格表资料的选择正确的检验方法 【先根据10判断资料类型,选择检验方案】 两样本还是多样本,随机还是配对 根据n和T选择相应的公式 大样本也可用u检验10、四格表分类选择(不一定正确,只要单项有序资料都可用秩和检验) 双向无序:多个样本率:行*列表的2检验 两分类变量的关联性及关系密切程度:行*列表的2检验和Person列联系数分析 单项有序:分组有序而处理无序:行*列表的2检验 分组无序而处理有序:秩和非参数检验 双向有序、属性相同:行*列表的2检验、一致性检验 双向有序、属性不同:如年龄构成不同下疗效不同比较式视为2-2 是否有关联视等级相关和Person积矩相关分析 线性变化趋势用有序资料的线性趋势检验 【有序资料】又称等级资料,如疗效、病情严重程度、发育情况,化验结果,分级等。第八章 几种离散型变量的分布和应用1、二项分布的概念:只产生两种可能结果(阳性/阴性)的独立重复试验,且每次试验结果的概率不变。2、二项分布适用条件 每次试验只发生两种可能,且概率和为1。 每次试验产生的某种结果概率值不变 重复试验室相互独立的,任何一次试验不会影响其他试验 性质: 阳性概率的总体均数u=n* 次数的总体标准差=SQRT(n*(1-) 率的标准差p=SQRT(*(1-)/n) 图形:=0.5时为对称分布,0.5负偏态,当n趋向于无穷时,且不靠近0或1时为正态分布。3、二项分布的总体率估计 查表法:n50的,根据总数n和阳性个体数x查表 正态近似法: 正态性满足:n较大,np和n(1-p)均大于5时 例子:用某药物治疗100人,55人有效,求95%可信区间 计算Sp=SQRT(0.55(1-0.55)/100)=0.0497 区间为0.55+1.96*0.04974、二项分布的样本率与总体率的比较 单双侧问题:回答“差”、“低”、最多有k例阳性的概率 回答“优”、“高”、最少有k例阳性的概率 【可见P(xk)+P(xk)=p(k)+1】 直接法: 例子:甲药有效率0.6,今用乙治疗10人有效9人,是否有差别? 设:H0: =0.6,H1: 0.6,a=0.05 P标=10C9*0.609*(1-0.6)10-9=0.0403011 计算P(0-10)发现P标的由0、1、2、10 P总=P(9)+P(0)+P(1)+P(1)+P(2)+P(10)=0.058652a 不能认为不同 正态近似法:正态性满足:n较大,np和n(1-p)均大于5时 查u界值表(不考虑自由度,因为无限大) 5、两样本率的比较 查u界值表,同上6、Poisson分布定义:单位时间、单位面积或单位容积中颗粒数或某些罕见事件发生数的概率分布。且假定某事件平均发生次数为,而样本计数为X(X=0、1、2等) 满足条件: 普通性:在充分小的观察单位上X的取值最多为1 平稳性:X的取值大小只与观测单位大小有关,与观测单位位置无关 独立性:某个观测点取值和其他点取值无关 性质: 某事件平均发生次数=总体方差2 当n很大,很小,且n=,二项分布近似Poisson分布,当20时可作为正态分布处理 可加性:且多个随机变量之和也服从正态分布。 图形:越小,分布越偏态(正),越大则越接近正态分布。 1时,随样本数X变大,P(x)越小,1时,X变大,P(x)先大后小。 是整数时,则P(X)在X=和X=-1是取最大值7、Poisson分布的总体均数的估计 查表法:样本数X50时 正态近似法:样本数50时(如不够,可进行累加)如求95%的可信区间:阳性样本数+1.96*SQRT(阳性样本数) 若进行累加或拆减,则在的基础上计算,如2*或1/3* 平均计数的可信区间的性质可信区间总是不对称的;X 越大,不对称性将得到改善。 均数越大,方差越大,抽样误差越大,可信区间越宽。 从大单位估计可信区间,与从小单位估计可信区间公式不同,结果一样。根据Poisson分布的可加性,可以先求总计数的可信区间,再将所得可信区间除以观察单位数。8、Poisson分布的样本均数与总体均数的比较 直接法:0.008,吸烟会增加 =n=0.9620 【不查表】 计算P(X4)=1-P(X3)=0.016633a 可以认为 正态近似法:20 查u界值表【u0就是(理论数),X为阳性样本数】9、Poisson分布的两样本均数比较 X1+X220时(其中X1、X2中可能包含多个小样本数,但累加为X1、X2) | |N为观察的单位数目(如单位时间) X1+X20正相关、0负相关、=0无关。 b的取值范围: 求a与b的原理:最小二乘估计:即使点到回归直线的综合距离为最小(不是垂直距离)。 【若X乘以一个不为0或1的数,b变a不变】 直线回归相关性质: 直线通过均点 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和即: =Lyy-L2xy/Lxx各点到该回归线纵向距离平方和较到其它任何直线者为小。 回归系数的意义: b:又称斜率,表示自变量增加一个单位时,应变量的平均改变量。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论