《讲稿统计推断》PPT课件.ppt_第1页
《讲稿统计推断》PPT课件.ppt_第2页
《讲稿统计推断》PPT课件.ppt_第3页
《讲稿统计推断》PPT课件.ppt_第4页
《讲稿统计推断》PPT课件.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计推断概述,四川大学华西临床医学院 临床流行病学教研室,刘关键,一、关于抽样研究,总体,总体(population)是根据研究目的确定的同质观察单位的全体, 更确切地说, 是同质的所有观察单位某种变量值的集合。 总体可分为有限总体与无限总体两大类。,有限总体,有限总体 (finite popu-lation)是指确定的时间, 空间范围内的有限个观察单位。 例如调查某地1992年正常成年男子的红细胞数, 则观察对象是该地1992年的正常成年男子, 观察单位是每个男子, 变量是红细胞数, 变量值是每人测得的红细胞数, 该地1992年全部正常成人的红细胞数就构成一个总体。它的同质基础是同一地区、同一年份、同为正常成人。,无限总体,无限总体(infinitepopulation) 是指确定的时间, 空间范围内的观察单位个数是无限的,甚至是假想的。 例如研究贫血患者用某药治疗后的疗效, 这里总体的同质基础是同为贫血患者, 同用某药治疗, 总体包括设想用该药治疗的所有贫血患者的治疗结果, 是没有时间和空间范围限制的, 因而观察单位数无限。,1为什么要进行抽样研究,对有限总体的研究方法: 普查,需花费大量的人力、财力和时间。 抽样,节省人力、财力和时间。是常用方法。 对无限总体的研究方法: 抽样研究是唯一的研究方法。 由此可见,无论是有限总体还是无限总体,抽样研究是最常用的方法。,2抽样误差,在抽样研究的过程中,由于随机抽样所致的样本与总体间的差异,叫抽样误差。在统计学中,抽样误差的大小常用标准误来衡量。抽样误差越大,标准误越大,用样本估计总体的误差就越大,反之,用样本估计总体的误差就越小。 抽样研究的过程中,抽样误差无法避免,但可以控制,一般来讲,增大样本含量可以减小抽样误差。,3抽样研究的目的,(1)参数估计: 以样本的指标去估计总体的参数。 方法有二:点估计、区间估计。 (2)假设检验: 用(两个或多个)样本提供的信息去推断这些样本所代表的总体间是否具有差别。各种假设检验的方法(如t检验、卡方检验等)都是为了达到这一目的。,二、假设检验的基本思想,当研究者用随机抽样的方法获取了两个或多个样本,并且需要利用这些样本数据进行总体间的比较。这时,样本数据间的不同有以下两种原因所致: 一是样本来自同一总体,样本指标间的不同是由于抽样误差所引起; 二是样本分别来自不同的总体,其样本指标间的不同是因为来源的总体不同所致。,假设检验的基本思想(以两个均数比较为例)示意图,假设检验是反证法原理的统计应用。 反证法是求证事物的一种基本方法,即事先提出一个与研究者想得到结果相反的假设,然后搜集在此假设下的各种矛盾,再用这些矛盾推翻该假设,而接受此假设的对立结论(即研究者想得到结果)。,统计中的假设检验也是从假设开始,即假设两个样本均数可能是来源于同一总体,然后计算出在此假设下的某个统计量的大小。 若统计量在其分布中的概率较小时(如P0.05)我们就拒绝其来源于同一总体的假设,而接受其对立假设,认为两样本分别来自不同的总体1和2。 若统计量在其分布中的概率较大时(如P0.05)我们就不能拒绝假设。 由此可见,假设检验方法的本质是一种概率性的反证法。,假设检验中的概率,概率是某事件发生的可能性大小,假设检验中的概率(P)在数理统计中解释为,由抽样误差所致样本间如此大的差别的概率。 对于临床医生来说,我们可以将假设检验中概率(P)简单地理解为“假设各样本均数是来源于同一总体的可能性大小”。 当概率(P)较小时,如P0.05,假设成立的可能性较小,故拒绝假设; 当概率(P)较大时,如P0.05,假设成立的可能性不太小,故不拒绝该假设。,三、假设检验的基本步骤,建立检验假设有三个内容,即无效假设H0、备择假设H1和检验水准 。 无效假设H0。是根据反证法原理,假设研究者想得到结论的对立事件,研究者若想得到有差别的结论,首先应假设各总体间无差别。 备择假设H1,是研究者想得到的有差别的结论。 确定检验水准 ,通常取0.05。,建立假设的三个内容如下: H0:各样本来自同一总体,样本间的差别是由于抽样误差所致。 H1:各样本来自不同总体,样本间的差别是总体的不同所致。 = 0.05,根据资料的类型、分布特征、科研设计方法等应用条件,选择不同的统计量计算方法。 若不考虑应用条件的使用某个统计量计算方法,所得结论可能会出错。 大多数假设检验的名称都根据统计量的名称来命名的如t、u等检验方法。,2. 计算统计量,根据某个统计量的值得到该统计量下概率(P)值,如用查表的方法或用计算机直接计算得到P值。 根据概率(P)值的大小得出结论。 假设检验只有两类结论。,3. 确定概率,下结论,假设检验的结论一,若P时,即概率小于我们事先确定好的检验水平概率(如P0.05),我们就拒绝其无差别假设H0,而接受H1,认为差别有统计学意义,各样本来自不同总体,样本间的差别是总体的不同所致。,假设检验的结论二,若P时,其概率大于我们事先确定好的检验水平(如P0.05),我们就不拒绝其无差别的假设H0,还不能认为各总体间有差别,样本来自同一总体,即差别没有统计学意义。,四、假设检验的两类错误,第一类错误(型错误),当假设检验得到P时,做出“拒绝其无差别的假设,可认为各总体间有差别”的结论时,这有可能将事实上没有差别的结果错误地判断为有差别,即这时可能犯第一类错误(型错误,type error),其犯错误的概率用表示,若 取0.05,此时犯型错误的概率小于或等于0.05。,第二类错误(型错误),当假设检验得到P时,做出“不拒绝其无差别的假设,还不能认为各总体间有差别”的结论时,这有可能将事实上有差别的结果错误地判为没有差别,即这时可能犯第二类错误(型错误,type error),其犯错误的概率用表示,在通常情况下犯类错误的概率未知。,两类错误示意表,两类错误与假设检验 结论的关系一,当假设检验得到P时,做出“拒绝其无差别的假设,可认为各总体间有差别”的结论时,这时要犯第一类错误()。 此时,若假设检验的P值比0.05越小,犯一类错误的概率就越小,即在这种情况下,其P值越小,其结论的可靠程度就越好。,当假设检验得到P时,做出“不拒绝其无差别的假设,还不能认为各总体间有差别”的结论时,这有可能将事实上有差别的结果错误地判为没有差别,这时可能犯第二类错误( )。 此时,虽然是个未知数,但假设检验P值越大,犯二类错误的概率就越小。因此,若假设检验的P值比0.05越大,犯二类错误的概率就越小,即在这种情况下,其P值越大,其结论的可靠程度就越好。,两类错误与假设检验 结论的关系二,在假设检验的假设中,我们只确定了的大小,无法确定的大小,虽然是个未知数,但是我们知道与间有如下关系: 增大,可以减小;减小,可以增大。 故在实际应用中,若研究者需要得到“没有统计学意义”的结论时,我们常常增大,如=0.1或0.2,以减小。,两类错误 、间的关系,与的关系示意图,五、假设检验的注意事项,假设检验是总体的比较,假设检验比较的对象是总体,而研究的方法是抽样研究,即通过对样本提供的信息去推断总体间有无差别。 不能误认为假设检验是样本间的比较,更不能将此体现在结论中。 如果研究方法是普查时,由于不存在抽样误差,也不存在用样本提供的信息去推断总体的问题。因此,在这种情况下也就不能使用假设检验的统计方法。,假设检验不能判断差别的大小,当P时,概率(P)越小,越有理由拒绝无差别的假设,即拒绝假设的可信程度就越大,这时概率(P)越小,其结论的可靠性就越好。 当P时,概率(P)越大,越有理由不拒绝无差别的假设,即不拒绝无差别假设的可信程度就越大。这时概率(P)越大,其结论的可靠性就越好。 因此,无论概率P,还是P时,都不能说明组间差别的大小。,假设检验的结论不能绝对化,假设检验的结论是根据概率(P)的大小得出结论的。 当P时,我们拒绝其无差别的假设,可认为各总体间有差别,但是,只要P0,我们无法完全拒绝无差别的假设,即不能肯定各总体间有差别。 同理,当P 时,我们不拒绝其无差别的假设,还不能认为各总体间有差别,但是,只要P1,我们无法完全接受无差别的假设,即不能肯定各总体间无差别。,假设检验的结论叙述,如前所述,在做出统计结论时,应注意: 由概率的定义,在假设检验结论中应避免使用绝对的或肯定的语言,如当P时,使用“拒绝假设,可认为各组间有差别”;而当P时,使用“不拒绝假设,还不能认为各组间有差别”进行描述。 无论概率P,还是P时,都不能说明组间的差别的大小。 因此,假设检验的结论不能做出差异大小的结论。,假设检验方法与资料的分布特征 有关,不同假设检验的方法是以不同的抽样分布为其理论基础,不同的设计方法有不同的统计模型。 因此,在选择假设检验的方法时应考虑其抽样分布与设计方法。,假设检验方法与科研设计方案有关,通常,每一种科研设计方法都有与之相应的统计方法,如:完全随机设计的t检验、方差分析与秩和检验;配对设计的t检验与秩和检验、随机区组设计的方差分析和秩和检验等。,六、总体参数的可信区间,可信区间的概念一,用样本指标估计总体参数最常用的方法是估计区间估计,即用可信区间估计总体参数。 按预先给定的概率(1-)去估计未知总体参数(均数或率)的可能范围,这个范围被称为所估计参数的可信区间(confidence interval,CI)或置信区间(confidence level)。 如95%可信区间,是指该区间有95%的可能性(概率)包含了被估计的参数,有5%的可能性(概率)不包含被估计的参数。,可信区间的概念二,若无特殊说明,可信区间的1-常取双侧的95%。 可信区间是以上、下可信限为界的一个开区间(不包含界值在内)。 可信限(confidence limit,CL)或置信限是指可信区间的上、下两个点值。,可信区间的主要用途一,可信区间主要用于估计总体参数 从样本获取数据资料后,若要得到某个指标的总体值(参数)时,常用可信区间来估计。 均数的可信区间可用来估计总体均数,率的可信区间可用来估计总体率。,可信区间的主要用途二,可信区间也可用做假设检验 95%的CI与为0.05的假设检验等价,99%的CI与为0.01的假设检验等价。 在均数的比较中,如果某研究两疗效差值均数的95%可信区间不包含0,即两疗效差值95%可信区间的上下限均大于0或均小于0时,有统计学意义(P0.05)。,可信区间范围的大小,主要与标准误的大小有关,标准误越大,可信区间的范围就越大,标准误越小,可信区间的范围就越小。 可信区间的范围愈小,用样本指标估计总体参数的可靠性就愈好; 可信区间的范围愈大,用样本指标估计总体参数的可靠性就愈差。 此外,可信区间的计算最重要的是标准误的计算。,标准误与可信区间的关系,影响均数标准误的因素,标准误越大,用样本估计总体的误差也就越大,反之就越小。 通常,均数标准误的大小与样本例数(n)的平方根成反比;与标准差(s,个体变异)的大小成正比。 因此,增大样本含量可以减小抽样误差(标准误)。,二、均数的可信区间,均数的可信区间的计算(1),正态近似法(小样本),均数的可信区间的计算(2),均数的可信区间(大样本):,两疗效差值均数的可信区间的计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论