统计分析培训_第1页
统计分析培训_第2页
统计分析培训_第3页
统计分析培训_第4页
统计分析培训_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析培训第1页,课件共41页,创作于2023年2月二项分布资料的统计分析第2页,课件共41页,创作于2023年2月二项分布

BinomialDistribution二分类变量:有且只有两种结果的变量,如性别、死亡生存、复发未复发,一般用0和1表示其结果Bernouli试验:具有两值结果的一次试验。条件:1、互斥的有且只有两种结果;2、独立性;3、每次关心结果的发生概率不变。二项分布:进行的N次Bernouli试验中,所关心结果按不变概率发生0、1、2、…、N-1、N次的概率分布练习:4张牌里有一张A,放回抽样抽5次,抽到0,1,2,3,4张A的概率是多少?至少抽到2张A的概率?第3页,课件共41页,创作于2023年2月二项分布的集中趋势和离散趋势二项分布的均数样本计数:X0=np样本率:p

二项分布的方差样本计数:Var(X)=np(1-p)样本率:Var(p)=p(1-p)/n第4页,课件共41页,创作于2023年2月二项分布近似正态分布理论上当N和N(1-)均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为N,方差为N(1-)的正态分布,样本率近似服从均数为,方差为(1-)/N的正态分布。实际上当Np和N(1-p)均大于5时,或同样的,当X0和N-X0均大于5时,样本计数近似服从均数为Np,方差为Np(1-p)的正态分布,样本率近似服从均数为p,方差为p(1-p)/N的正态分布。第5页,课件共41页,创作于2023年2月二项分布

N人中B型血人数X的概率分布10人中B型血人数X的概率分布图100人中B型血人数X的概率分布图00.10.20.30.40.501234567890.00E+002.00E-024.00E-026.00E-028.00E-021.00E-011.20E-011.40E-011.60E-010246810121416180.080.08第6页,课件共41页,创作于2023年2月举例:二项分布近似正态分布示意图第7页,课件共41页,创作于2023年2月总体百分构成或总体率的统计推断点估计p百分构成或率:p=X0/N常规疗法治疗流行性出血热病人50例,死亡8例,病死率为16%区间估计查表法(基于二项分布的确切概率)正态近似法演习:随机抽查某乡村民100人,发现感染血吸虫者21人,该乡血吸虫感染率?利用可信区间推断样本是否来自于一已知总体查表法正态近似法演习:已知某地区血吸虫感染率为15%,现随机抽查某乡村民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否高于一般?第8页,课件共41页,创作于2023年2月总体百分构成或总体率的统计推断利用假设检验推断样本(样本率为p)是否来自于一已知总体(总体率为0)基本步骤

1、建立无效假设和备择假设H0:=0;H1:0

2、确定检验水准=0.05

3、在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值

a、确切概率法

b、正态近似法

4、根据概率或p值作出推断演习:已知某地区血吸虫感染率为15%,现随机抽查某乡村民100人,发现感染血吸虫者21人,问该乡血吸虫感染率是否高于一般?第9页,课件共41页,创作于2023年2月两个样本百分构成或两个样本率比较的统计分析两个率比较的目的是其所代表的总体率相同,即:1=2或1-2=0(无效假设)两个样本率之差的均数和方差均数:p1-p2方差:S2(p1-p2)=p(1-p)(1/n1+1/n2),p=(X1+X2)/(n1+n2)利用可信区间利用假设检验正态近似法2检验法演习:随机抽查A乡村民100人,发现感染血吸虫者21人,随机抽查B乡村民100人,发现感染血吸虫者15人,问AB两乡血吸虫感染率是否相同?第10页,课件共41页,创作于2023年2月Poisson分布资料的统计分析第11页,课件共41页,创作于2023年2月Poisson分布单位时间、面积、空间内所关心事件发生数的概率分布二项分布数据当N很大X0很小(比例很低)时X的概率分布例:沪闵高架1天中发生的交通事故数(注:交通事故发生的时间可以短至1秒)。一个参数(对于样本X0)。Notation:X~P()。练习:长期统计数据显示:沪闵高架一天发生交通事故5起,问今天发生0,1,2,3,4,5起交通事故的概率?最多(至少)发生3起的概率?第12页,课件共41页,创作于2023年2月Poisson分布的性质及其集中趋势和离散趋势Poisson分布资料的性质平稳性:样本计数大小只与观察单位的大小有关独立性:各所关心事件的发生与否互不相关普通性:所关心事件离散发生,无聚集性Poisson分布的均数样本计数:X0Poisson分布的方差样本计数:X0第13页,课件共41页,创作于2023年2月Poisson分布的单位问题及正态近似虽然观察单位不是Poisson分布的参数,但Poisson分布资料的统计分析一定要注意单位的转换Poisson分布资料的可加性观察单位的不可扩展性但可缩减性:大观察单位可转换为小观察单位但反之不可Poisson分布的正态近似当(样本为X0)大于50时,样本计数X近似服从均数和方差均为(样本为X0)的正态分布。当(样本为X0)大于50时,如将大观察单位缩减为1/n的小观察单位,转换后的样本计数X’服从均数为/n(样本为X0/n),方差为/n2(样本为X0/n2)的正态分布第14页,课件共41页,创作于2023年2月Poisson分布资料总体计数的统计推断点估计X0

沪闵高架某天发生交通事故6起区间估计查表法(基于Poisson分布的确切概率)正态近似法演习:沪闵高架上个月发生交通事故60起,沪闵高架一个月发生交通事故数?利用可信区间推断样本是否来自于一已知总体查表法正态近似法演习:长期观察可知沪闵高架一个月发生交通事故50起,上个月发生60起,问上个月交通事故发生数是否多于往常?第15页,课件共41页,创作于2023年2月Poisson分布资料总体计数的统计推断利用假设检验推断样本(样本计数为X0)是否来自于一已知总体(总体计数为)基本步骤

1、建立无效假设和备择假设H0:0=;H1:0

2、确定检验水准=0.05

3、在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值

a、确切概率法

b、正态近似法

4、根据概率或p值作出推断演习:长期观察可知沪闵高架一个月发生交通事故50起,上个月发生60起,问上个月交通事故发生数是否多于往常?第16页,课件共41页,创作于2023年2月观察单位相同时两个样本计数比较的统计分析两个样本计数比较的目的是其所代表的总体计数相同,即:1=2或1-2=0(无效假设)两个样本计数之差的均数和方差均数:X1-X2方差:S2(X1-X2)=X1+X2利用可信区间(两个样本计数均大于20即可)利用假设检验正态近似法演习:沪闵高架一周发生交通事故30起,南北高架一周发生交通事故40起,问两条高架一周发生交通事故数是否相同?第17页,课件共41页,创作于2023年2月观察单位不同时两个样本计数比较的统计分析观察单位不同时,需要先缩减成为观察单位相同的两个样本计数,如果第一个样本的缩减倍率为1/n1,第二个样本的缩减倍率为1/n2,则缩减后的第一个样本计数X1’=X1/n1,第二个样本计数X2’=X2/n2,这时比较的目的是缩减后的样本所代表的总体计数相同,即:1’=2’或1’-2’=0(无效假设)缩减后的两个样本计数之差的均数和方差均数:X1’-X2’方差:S2(X1’-X2’)=X1/n12+X2/n22利用可信区间(两个样本计数均大于20即可)利用假设检验正态近似法演习:沪闵高架20周发生交通事故300起,南北高架10周发生交通事故200起,问两条高架一周发生交通事故数是否相同?第18页,课件共41页,创作于2023年2月分类数据的组间比较

-2检验第19页,课件共41页,创作于2023年2月分类数据的表现形式频数表及交叉频数表cross-tabulation所关心事件发生百分构成或发生率的组间比较四格表-二分类数据的两组间比较行列表(RC表、列联表)分类水平的有序还是无序(对于水平数3的分类变量有意义)近视眼非近视眼合计男abn1+女cdn2+合计n+1n+2n水平1水平C合计组1n11n1Cn1+nij组RnR1nRCnR+合计n+1n+Cn第20页,课件共41页,创作于2023年2月2分布一个标准正态变量X的平方服从自由度为1的2分布k标准正态变量X1,X2,…,Xk的平方和服从自由度为k的2分布G(G2)组间Q(Q2)分类水平百分构成或率的比较,在组间总体率或总体百分构成相同的无效假设前提下:第21页,课件共41页,创作于2023年2月成组设计两样本率的比较当G=2,Q=2时(四格表资料),在两组所关心事件发生率相同的无效假设前提下:(无效假设前提下)理论频数(如第一个格子)的计算:E(a)=(a+b)(a+c)/NColumn1Column2TotalRow1aba+bRow2cdc+dTotala+cb+dN第22页,课件共41页,创作于2023年2月成组设计两样本率的比较假设检验的步骤建立无效假设和备择假设确立检验水准计算检验统计量作出统计推断观测频数O理论频数EO-E(O-E)2/Ea=69E(a)=57.6611.342.230b=37E(b)=48.34-11.342.660c=30E(c)=41.34-11.343.111d=46E(d)=34.6611.343.710Total=1821820X2=11.711存活死亡合计单纯6937106联合304676合计9983182第23页,课件共41页,创作于2023年2月四格表资料2检验的应用条件四格表资料2检验是利用连续型的2分布应用于分类资料,当样本含量较小时,不能直接应用当N>40且理论频数O均>5时,可直接应用;当N>40但有理论频数1<O<5时,需进行连续性校正(称Yates校正)

当N40,或有理论频数O<1时,只能用Fisher确切概率法直接计算概率注意:无论样本大小,均可用Fisher确切概率法进行假设检验第24页,课件共41页,创作于2023年2月配对设计两样本率的比较配对设计:针对可能影响研究结果的因素将研究对象配对后,将每个对子的研究对象随机分配至不同处理组,如同窝别小鼠、同性别病人、同一人的左右手。数据结构-配对四格表当b+c>40时,YesNo合计Yesabn1+Nocdn2+合计n+1n+2nB法+B法+合计A法+563591A法-212849合计7763140第25页,课件共41页,创作于2023年2月行列表的分析生存死亡合计组1abn1+组2cdn2+合计n+1n+2n水平1水平Q合计组1n11n1Cn1+nij组GnG1nGQnQ+合计n+1n+Qn行列表又称RC表、列联表分析前要考虑的问题:水平数水平之间是否有序要回答问题的性质变量1的水平数变量2的水平数22表(四格表)2C表C无序2C表C有序RC表双向无序RC表单向有序RC表双向有序第26页,课件共41页,创作于2023年2月成组设计多个样本率或百分构成的比较检验统计量的计算方法相同多组间所关心事件发生率的比较假设不同(与四格表资料的2检验相比):

H0:各组所关心事件的发生率相同;

H1:各组所关心事件的发生率不全相同两组间观察指标各水平百分构成的比较假设

H0:两组间观察指标各水平的百分构成相同;

H1:两组间观察指标各水平的百分构成不同2检验的适用条件

理论频数:80%的格子>5和100%的格子>1。第27页,课件共41页,创作于2023年2月行列表的关联性分析对于双向无序行列表检验统计量的计算方法相同假设不同(与前相比):

H0:行变量与列变量间无关联性;

H1:行变量与列变量间有关联性对于单向有序行列表行或列平均分差异检验或等级资料的秩和检验对于双向有序行列表等级相关分析第28页,课件共41页,创作于2023年2月非参数统计分析方法

-秩和检验法第29页,课件共41页,创作于2023年2月t检验、方差分析的应用条件要求数据服从正态分布,两样本或多个样本比较时还要求方差齐性。当不满足上述条件时,转换数据-对数转换法、平方根转换法、反正弦转换法等使转换后数据满足正态性和方差齐性秩和检验法第30页,课件共41页,创作于2023年2月秩和检验用于计量/分类等级资料统计推断的一组方法非参数方法-不要求数据服从正态甚至是任何分布(不用考虑分布中的均数、标准差等参数)在两组或多组比较时,无需考虑方差是否齐性相对于t检验、方差分析等参数方法,统计效率较低(不能够充分利用数据信息)但稳健性好(极端值的作用较小)第31页,课件共41页,创作于2023年2月单样本分析Onesampleanalysis11名健康妇女10天日均能量摄入(kJ)编号日均能量摄入(kJ)152602547035640461805639066515768058751597515108230118770Mean6753.6SD1142.1日均能量摄入参考值7725kJ第32页,课件共41页,创作于2023年2月配对设计资料的分析

AnalysisofPairedData编号闭经前闭经后差15260391013502547042201250356403885175546180516010205639056457456651546801835768055265154087515597515409751567907251082306900133011877073351435Mean6753.65433.21320.5SD1142.11216.8366.7问:闭经前后,日均能量的摄入是否有变化?第33页,课件共41页,创作于2023年2月配对设计资料的秩和检验(1)-符号检验Signtest如果样本观测值与参考值在平均上没有差别的话,那么小于参考值和大于参考值的观测数应大致相等,即:任一观测值在参考值左边或右边的概率相等,均为1/2第34页,课件共41页,创作于2023年2月配对设计资料的秩和检验(2)-符号秩和检验Wilcoxonsignedranksumtest比符号检验进一步,考虑了量的大小。计算观测值与参考值的差;无视正负号对差从小到大排序;对所有正(或负)的顺位求和。第35页,课件共41页,创作于2023年2月成组设计资料的秩和检验(1)-两样本比较问题24小时能量消耗(MJ/天)消瘦型(n=13)肥胖型(n=9)6.138.797.059.197.489.217.489.687.539.697.589.977.911.518.0811.858.0912.798.118.410.1510.88Mean8.06610.298SD1.2381.398第36页,课件共41页,创作于2023年2月成组设计资料的秩和检验(1)-两样本比较问题混合编秩。遇数据相同时取平均秩。两样本比较时

-分组求秩和

-当较小样本的样本量和两样本的样本量差10时,以较小样本的秩和为检验统计量(如样本量相同,则任取),查附表11。

-当样本量超范围时,则采用正态近似法。见书p132公式8.3。对同秩的校正见书p132公式8.4。第37页,课件共41页,创作于2023年2月成组设计资料的秩和检验(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论