现代统计学预备知识讲义_第1页
现代统计学预备知识讲义_第2页
现代统计学预备知识讲义_第3页
现代统计学预备知识讲义_第4页
现代统计学预备知识讲义_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学预备知识:回顾1概率2概率分布(正态分布等)3两类错误4假设检验5置信区间、置信水平和显著性水平6统计检验的功效1暨南大学经济学院统计系陈文静事件的概率

(probability)定义:事件A的概率是对事件A在试验中出现的可能性大小的一种度量表示事件A出现可能性大小的数值(介于0和1之间)事件A的概率表示为P(A)概率的定义有:古典定义、统计定义和主观概率2暨南大学经济学院统计系陈文静古典概率(先验概率)如果某一随机试验的结果有限,而且各个结果在每次试验中出现的可能性相同,则事件A发生的概率为该事件所包含的基本事件个数m

与样本空间中所包含的基本事件个数n的比值,记为3暨南大学经济学院统计系陈文静古典概率特点样本空间的基本事件只有有限个;每个基本事件发生的可能性相等。例:一批产品共100件,其中有6件不合格品,随机抽取一件不合格品的概率是:4暨南大学经济学院统计系陈文静概率的统计定义在相同条件下重复进行n次随机试验,事件A出现m次,则比值m/n

称为事件A发生的频率。随着n的增大,该频率围绕某一常数P上下摆动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为事件A的概率,记为优点:不受古典概率的两个特点的限制,容易理解。缺点:试验不能无限制的进行下去。5暨南大学经济学院统计系陈文静主观概率主观概率:是指对一些无法重复的试验,确定其结果的概率只能根据以往的经验,人为确定这个事件的概率。主观概率是一个决策者对某个事件是否发生,根据个人掌握的信息对该事件发生可能性的判断例如,企业投资新项目的成功和失败的概率。例如天下雨的可能性多大?一种新产品畅销的可能性多大?由于仅仅是经验的主观判断,因此可靠性就值得怀疑,不宜滥用。6暨南大学经济学院统计系陈文静概率的性质非负性对任意事件A,有0P(A)1规范性必然事件的概率为1;不可能事件的概率为0。即P()=1;P()=0可加性若A与B互斥,则P(A∪B)=P(A)+P(B)推广到多个两两互斥事件A1,A2,…,An,有

P

(A1∪A2

∪…∪An)=P(A1

)+P(A2

)+…+P(An

)7暨南大学经济学院统计系陈文静参数估计的方法矩估计法最小二乘法最大似然法顺序统计量法估计方法点估计区间估计8暨南大学经济学院统计系陈文静点估计

(pointestimate)用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;无法给出估计值接近总体参数程度的信息虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量9暨南大学经济学院统计系陈文静点估计

(pointestimate)点估计10暨南大学经济学院统计系陈文静区间估计的提出11暨南大学经济学院统计系陈文静区间估计

(intervalestimate)在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%

样本统计量

(点估计)置信区间置信下限置信上限12暨南大学经济学院统计系陈文静回顾:中心极限定理

(centrallimittheorem)中心极限定理:设从均值为,方差为2

的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布13暨南大学经济学院统计系陈文静14暨南大学经济学院统计系陈文静进一步解释15暨南大学经济学院统计系陈文静置信区间

(confidenceinterval)16暨南大学经济学院统计系陈文静置信区间

(confidenceinterval)17暨南大学经济学院统计系陈文静18暨南大学经济学院统计系陈文静19暨南大学经济学院统计系陈文静置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平置信水平表示为(1-,为是总体参数未在区间内的比例,称为显著性水平。常用的置信水平值有

99%,95%,90%相应的为0.01,0.05,0.10显著性水平越小越好置信水平20暨南大学经济学院统计系陈文静21暨南大学经济学院统计系陈文静置信区间与置信水平

均值的抽样分布(1-)区间包含了的区间未包含1–a

a/2a/222暨南大学经济学院统计系陈文静对置信区间的几点理解23暨南大学经济学院统计系陈文静总体均值的区间估计

对总体均值进行区间估计时,需要考虑几种情形:1、总体是否为正态分布?2、总体方差是否已知?3、用于构造估计量的样本是大样本(n>30)?还是小样本(n<30)呢?24暨南大学经济学院统计系陈文静25暨南大学经济学院统计系陈文静26暨南大学经济学院统计系陈文静27暨南大学经济学院统计系陈文静28暨南大学经济学院统计系陈文静29暨南大学经济学院统计系陈文静总体均值的区间估计

(大样本)1. 假定条件总体服从正态分布,且方差(2)已知如果不是正态分布,可由正态分布来近似(n

30)使用正态分布统计量z总体均值在1-置信水平下的置信区间为30暨南大学经济学院统计系陈文静31暨南大学经济学院统计系陈文静总体均值的区间估计

(小样本)1. 假定条件总体服从正态分布,但方差(2)

未知小样本(n<30)使用t

分布统计量总体均值在1-置信水平下的置信区间为32暨南大学经济学院统计系陈文静t分布

t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z33暨南大学经济学院统计系陈文静34暨南大学经济学院统计系陈文静不同情形下总体均值的区间估计

总体分布样本量正态分布非正态分布35暨南大学经济学院统计系陈文静待估参数:总体均值大样本小样本分布正态总体正态总体36暨南大学经济学院统计系陈文静假设检验:先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程对总体参数(或分布形式)提出假设假设检验抽取样本,构造检验统计量决策过程:根据某种规则判断假设是否成立37暨南大学经济学院统计系陈文静假设检验和区间估计的区别区间估计:用给定的大概率推断出总体参数所在的范围。假设检验:是以小概率为标准,对总体的状况(总体参数或总体分布)所做出的假设进行判断。注:假设检验与区间估计结合起来,构成完整的统计推断内容。38暨南大学经济学院统计系陈文静区间估计与假设检验的转换区间估计问题:在一定的概率(置信水平)下,利用样本信息来估计总体的不合格率假设检验问题:以一定的概率水平(显著水平性),通过样本资料来判断该批产品是否合格或合格的程度注:对于同一个实例,用的是同一个样本,同一个样本统计量,同一个分布,因此区间估计与假设检验可以相互转换。39暨南大学经济学院统计系陈文静置信区间是在一定的概率(置信水平)保证程度下利用样本数据计算得到的关于总体参数可能所在的范围。而进行假设检验时,我们事先对总体参数的假设值有可能会落在这个置信区间外,这时我们判定为具有显著性差异,拒绝假设;假设值也可能会落在置信区间内,不能拒绝。假设检验:我们关心的是检验总体参数值有无变化(即是否存在显著性差异),而检验过程就是利用样本信息判断差异是否显著。区间估计:目的在于通过样本资料推断总体参数在一定的概率水平下可能的取值范围估计与检验的联系40暨南大学经济学院统计系陈文静提出假设构造适当的检验统计量,并利用样本信息计算检验统计量的值规定显著性水平,确定临界值作出统计决策:拒绝假设还是接受假设假设检验的步骤41暨南大学经济学院统计系陈文静原假设与备择假设原假设(nullhypothesis):研究者想收集证据予以反对的假设,待检验的假设。表示为H0H0:

=,或某一数值备择假设(alternativehypothesis):与原假设对立,研究者想收集证据予以支持的假设。表示为H1H1:≠,

某一数值42暨南大学经济学院统计系陈文静原假设和备择假设是一个完备事件组,而且相互对立排斥在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立接受原假设,意味着拒绝备择假设;拒绝原假设,意味着接受备择假设;先确定备择假设,再确定原假设

等号“=”一般都是放在原假设上因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)(归纳与建议)提出原假设与备择假设43暨南大学经济学院统计系陈文静假设检验中的两类错误1. 第Ⅰ类错误(弃真错误)原假设为真时我们拒绝原假设第Ⅰ类错误的概率记为被称为显著性水平2. 第Ⅱ类错误(取伪错误)原假设为假时我们没有拒绝原假设第Ⅱ类错误的概率记为(Beta)44暨南大学经济学院统计系陈文静两类错误的进一步解释错误:错误

45暨南大学经济学院统计系陈文静两类错误的进一步解释原假设没有拒绝H0拒绝H0H0为真1-(正确决策)H0为伪(取伪错误)1-(正确决策)46暨南大学经济学院统计系陈文静错误和

错误的关系和的关系就像翘翘板,小就大,大就小你要同时减少两类错误的惟一办法是增加样本容量!47暨南大学经济学院统计系陈文静

检验功效

(testpower)拒绝一个错误的原假设的能力根据的定义,是指没有拒绝一个错误的原假设的概率。这也就是说,1-

则是指拒绝一个错误的原假设的概率,这个概率被称为检验能力,也被称为检验的势或检验的功效(power)可解释为正确地拒绝一个错误的原假设的概率48暨南大学经济学院统计系陈文静在犯第一类错误()概率得到控制的条件下,犯取伪错误的概率()也要尽可能地小,或者说,不取伪的概率1-应尽可能增大。1-越大,意味着当原假设不真实时,检验判断出原假设不真实的概率越大,检验的判别能力就越好;1-越小,意味着当原假设不真实时,检验结论判断出原假设不真实的概率越小,检验的判别能力就越差。可见1-是反映统计检验判别能力大小的重要标志,我们称之为检验功效或检验势。检验功效

(poweroftest)49暨南大学经济学院统计系陈文静根据样本观测数据计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量对样本估计量的标准化结果原假设H0为真点估计量的抽样分布检验统计量(teststatistic)标准化的检验统计量50暨南大学经济学院统计系陈文静选择检验统计量时需要考虑的要素检验的样本容量:大样本还是小样本?总体方差是否已知?

原因:因为总体方差是否已知以及检验的样本大小决定了抽样分布,也就决定了检验统计量的选择与构造。

51暨南大学经济学院统计系陈文静显著性水平和拒绝域

(双侧检验示意图)抽样分布0临界值临界值a/2a/2

样本统计量拒绝H0拒绝H01-置信水平52暨南大学经济学院统计系陈文静显著性水平

(significantlevel)1.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域2.它是事先指定的犯第Ⅰ类错误概率的最大允许值3. 常用的

值有0.01,0.05,0.104. 由研究者事先确定,也称名义显著性水平5.拒绝原假设,则表明检验的结果是显著的不拒绝原假设,表明检验的结果是不显著的53暨南大学经济学院统计系陈文静对显著性水平的几点说明提前选择一个显著性水平,可以根据分布表查出在该显著性水平下的临界值,进而将计算的检验统计值与临界值做一个比较,于是在给定的显著性水平下,原假设要么被拒绝,要么未被拒绝。不同的研究者根据特定的应用,会偏好不同的显著性水平,具有任意性。不存在一个“正确的”显著性水平。54暨南大学经济学院统计系陈文静假设检验的决策规则给定显著性水平,查表得出相应的临界值z或z/2,t或t/2将由样本计算得出的检验统计量的值与水平下的临界值进行比较作出决策双侧检验:│统计量│>│临界值│,拒绝H0

│统计量│<│临界值│,接受H0左侧检验:统计量<临界值,拒绝H0右侧检验:统计量>临界值,拒绝H055暨南大学经济学院统计系陈文静显著性水平和拒绝域

(双侧检验)0临界值临界值a/2

a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平56暨南大学经济学院统计系陈文静显著性水平和拒绝域

(双侧检验)0临界值临界值

a/2a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平57暨南大学经济学院统计系陈文静显著性水平和拒绝域

(双侧检验)0临界值临界值a/2

a/2

样本统计量拒绝H0拒绝H0抽样分布1-置信水平58暨南大学经济学院统计系陈文静利用P值进行决策59暨南大学经济学院统计系陈文静什么是P值?

(P-value)P值是一个概率值,0<p<1在原假设为真的条件下,检验统计量大于、小于或等于其计算值的概率双侧检验为抽样分布中两侧面积的总和反映实际观测到的数据与原假设H0之间不一致的程度,被称为观察到的(或实测的)精确的显著性水平,而是事先选定的显著性水平决策规则:若p值<,拒绝H060暨南大学经济学院统计系陈文静P值的进一步阐述我们用Z统计量来进行假设检验61暨南大学经济学院统计系陈文静P值的计算62暨南大学经济学院统计系陈文静P值应用的归纳小结63暨南大学经济学院统计系陈文静双侧检验的P值/

2

/

2

Z拒绝H0拒绝H00-1.96计算的-2.5计算的2.51.961/2P值1/2P值64暨南大学经济学院统计系陈文静假设检验结论的表述

(“显著”与“不显著”)当拒绝原假设时,我们称样本结果是统计上显著的拒绝原假设时结论是清楚的当不拒绝原假设时,我们称样本结果是统计上不显著的不拒绝原假设时,并未给出明确的结论,不能说原假设是正确的,也不能说它不是正确的65暨南大学经济学院统计系陈文静假设检验结论的表述

(“接受”与“不拒绝”)假设检验的目的在于试图找到证据拒绝原假设,而不在于证明什么是正确的当没有足够证据拒绝原假设时,不采用“接受原假设”的表述,而采用“不拒绝原假设”的表述。“不拒绝”的表述实际上意味着并未给出明确的结论,我们没有说原假设正确,也没有说它不正确“接受”的说法有时会产生误导,因为这种说法似乎暗示着原假设已经被证明是正确的了。但事实上,H0的真实值我们永远也无法知道,H0只是对总体真实值的一个假定值,由样本提供的信息也就自然无法证明它是否正确66暨南大学经济学院统计系陈文静假设检验步骤的总结根据研究目的建立原假设和备择假设确定一个适当的检验统计量,并利用样本数据计算出检验统计量的具体数值。确定一个适当的显著性水平,并查出其临界值,指定拒绝域。将检验统计量的实际值与临界值进行比较,作出拒绝或不拒绝原假设的决策统计量的值落在拒绝域,拒绝H0,否则不拒绝H0也可以直接利用P值作出决策:

67暨南大学经济学院统计系陈文静备择假设没有特定的方向性,并含有符号“”的假设检验,称为双侧检验或双尾检验(two-tailedtest)备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验(one-tailedtest)备择假设的方向为“<”,称为左侧检验

备择假设的方向为“>”,称为右侧检验

双侧检验与单侧检验68暨南大学经济学院统计系陈文静双侧检验与单侧检验

(假设的形式)假设双侧检验单侧检验左侧(下限)检验右侧(上限)检验原假设H0:m

=m0H0:m

m0H0:m

m0备择假设H1:m

≠m0H1:m

<

m0H1:m

>

m069暨南大学经济学院统计系陈文静双侧检验:假设的建立所关心的是检验样本均值与总体均值有没有明显差异,而不管差异的方向是正还是负,应该用双侧检验。70暨南大学经济学院统计系陈文静左侧检验:假设的建立所关心的是总体均值是否低于某个标准,则应该用左侧检验71暨南大学经济学院统计系陈文静右侧检验:假设的建立所关心的是总体均值是否高于或超过某个标准,则应该用右侧检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论