变异数分析.doc_第1页
变异数分析.doc_第2页
变异数分析.doc_第3页
变异数分析.doc_第4页
变异数分析.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

變異數分析 1 基本概念一、研究之問題(ANOVA之用途)變異數分析(Analysis Of Variation , ANOVA):檢定三個或三個以上的母體平均數是否相等的方法,或檢定因子(Factor)對依變數是否有影響。變異數分析是一種統計分析的方法,係將一組資料的變異,依可能發生的變異來源,分割為數個部份,亦即每一部份均可歸因於某原因(變異來源);測度這些不同的變異來源,可瞭解各種變異是否有顯著差異;若有差異,則表示某依變異來源對資料具有顯著的影響作用。若有K個母體資料時,欲比較此K個母體的母體平均數(, I=1,2,K)是否相等(I.E.)。二、 ANOVA之前題假設1. 常態性假設(Normality):假設K個母體分布均為常態分布2. 同質性假設(Homogeneity):假設K個常態母體分布之變異數均相等3. 獨立性假設(Independence):假設K個常態母體分布互相均獨立這些假設理論上都可利用原始數據一一加以檢定。如果三個母體的平均數相等,則我們將預測三個樣本平均數會非常接近。事實上,此三樣本平均數愈靠近,愈能支持母體平均數為相等的結論。換句話說,樣本平均數間的差異愈大,則愈能支持母體平均數為不相等的結論。所以,如果樣本平均數間的變異性低,則支持;如果樣本平均數間的變異性高,則支持。若虛無假設:為真,我們可利用樣本平均數間的變異性建立的估計值。而且果滿足變異數分析的前提假定的話,各樣本將來自平均數為且變異數為的同一常態分配。我們曾提到對抽自常態母體且樣本大小為N之簡單隨機樣本而言,其樣本平均數的抽樣分配為平均數為且變異數為的常態分配。的樣本間估計值係根據虛無假設為真的假設。在這種情況下,各樣本來自同一母體,而且僅有一個的抽樣分配。為說明為偽的情況,假設母體平均都不相等。由於三組樣本抽自平均數不等的常態母體,將有不同的抽樣分配。一般而言,當母體平均數不等時,樣本間估計值將高估母體變異數。各樣本內的變異性也會影響變異數分析的結論。當由各母體抽取一簡單隨機樣本時,各樣本變異數均為的一不偏估計值,所以我們可以將個別的估計值合併為一個總估計值,此估計值稱為的合併估計值或樣本內(Within-Samples)估計值。因為各樣本變異數係以該樣本內的變異為準,所以的樣本內估計值將不受母體平均數是否相等所影響。當樣本大小相等時,的樣本內估計值即為個別樣本變異數的平均。無論如何,若虛無假設為真,則樣本間估計值為的良好估計值;而若虛無假設為偽時,樣本間估計值將高估。在任一情況下,樣本內估計值均為的良好估計值。因此,如果虛無假設為真,這兩個估計值應非常類似,且其比率將接近1。如果虛無假設為偽,則樣本間估計值將大於樣本內估計值,其比率將會很大。總之,ANOVA的論理是以建立共同母體變異數的二獨立估計值為依據。其中一個估計值是以樣本平均數間的變異為準,而另一個估計值則以各樣本內的資料變異為準。藉著此二估計值的比較,我們將能判定樣本平均數是否相等。由於其方法利用到變異數的比較,所以稱為變異數分析。三、資料型態及符號母體 分布 原始資料()個數()各組資料總和()12 K合計N四、統計假設當接受時表示K個母體可以合併為一母體;若拒絕時則表示各母體之間平均數是有差異,至於何者較大或較小,並無法在此假設中判定,必須做進一步分析。五、統計模式傳統上我們會用下面的寫法,令則而就變成 這裡的等都被視為未知參數(非隨機量),而是隨機量。也是未知參數。在傳統的ANOVA分析中有一個相當重要的假設就是:所有的都有同樣的。六、統計推論(固定效應模式(Fixed Effect Model))點估計:首先將視為一固定未知參數。利用最小平方法(Least Square Method) 令:,使Q極小,用偏微分,首先做由此得 ( 1)其次做由此得 ( 2)但 ( 3)將( 3)代入( 1),得 故 ( 4)再由( 2)及( 4),可解出因此可得參數與之估計量:, 七、平方和的正交分解單向ANOVA的主要道理來自以下的分解:上面的公式中較需要注意及了解的一件事是:交叉項(Cross Product)之和恰好是0,因此形成類似畢氏定理的正交分解:而事實上,在廣義的看法中,上面的平方和分解其實就是畢氏定理(只是你看不見一個直角三角形而已)。令SSTO=這是所有實驗原始資料合併後之平方和,稱為總變異(Total Sum Of Squares;SSTO)。再令這是各組之間利用各組樣本平均數()取代原始資料合併後之平方和,稱為組間變異(Sum Of Squares Between The Groups;SSB)。(又稱處理變異或可解釋變異)。最後令,這是各組之內的原始資料,各組計算平方和後再合併加總而得,稱為組內變異(Sum Of Squares Within The Groups;SSE),又稱殘差平方和或未被解釋變異。而平方和的分解,歸總來說便是SSTO=SSB+SSE上面的分解在成立的時候,有下面重要的意義:相當於 ( 5)(),並且上式右側的兩個分布是相互獨立的。因此,他們之間的比值(注意到其中未知的恰好消去)的分布,在成立的時候,恰巧是一個F分布:類似於( 5)這樣的分布的分解(分解成獨立的項的和)是可以嚴謹地來證明的(Cochran定理)。今設有某一個SS(平方和),其分布為,而它又可分解為的情形。其中,的自由度為(),則的分布一定是。換言之,我們只要看自由度是否滿足全部自由度 = 各自由度之和就知道這一個SS是否可分解成獨立的各項。(這背後的假設是:所有的組成各SS的通通需要是常態分布)若是在成立的條件下,直觀地可看出:便暗示著這個量要小,而SSB中之各項恰巧可以分別拿來估計用(要調節一些因子,但不影響原則)。因此SSE的值若小,則傾向於成立。故在F大的時候便不會成立。上面的公式,在實際計算(當N不大的時候)並不會太難。下面的例子可以說明:母體原始資料變換資料自變項(因子)1231 2 0 13 2 41 4 21 1 13 3 32 2 2 2依變項()N=11=21 八、假設檢定過程總結以上的討論可歸納出的標準單向ANOVA的做法如下:1. 統計假設:2. 顯著水準:3. 檢定統計量:4. 拒絕區域:5. 計算:編製變異數分析表(ANOVA Table)變異來源平方和自由度均方和F-值F-Ratio組間變異(Between)SSBK-1MSB組內變異(Within)SSEN-KMSE總變異(Total)SSTON-16. 結論:若,則拒絕;若,則接受。【範例】設膽固醇含量 各代表50歲以下婦女、50歲以下男人、50歲及以上婦女以及50歲及以上男人的測定值,如Xi 值呈 , i=1, 2, 3, 4. 各年齡層皆測定七人,則請檢定 ,但 =0.05,顯著水準為 =3.01, 及 各代表相關的自由度,其變異數分析表如下:SourceSSD.FMSFTreatment12,280.86ErrorTotal40,715.43【解】 2 多重比較一個達到顯著水準的概括性F檢定,便可以指出在許多不同處理的可能比較中有某些差異存在,在這許多平均數之間的差異比較之統計檢定方法,就叫做多重比較檢定。如果讀不懂上一段文字,不妨看看前面對所作的檢定,如果接受,就沒有太多後續問題(我們承認);但如果拒絕,那麼是哪些比較小,哪些比較大呢?多重比較主要的是考慮這類問題,但一般都當作ANOVA之後的輔助問題來看。文獻上多重比較的方法至少十種以上,並且也不限於單向ANOVA的後續問題。今設有一個單向ANOVA問題:, , 而已被拒絕。我們再進一步的深入探討到底是那些和其他的不同。開始最簡單的想法是利用一對一對地比較。此時,我們共計有個對子可供比較。例如K=4時,我們就會有6組,分述如下():(1) (2)(3)(4)(5)(6)以上的六組中,每一組的所有係數之和都為0,這在統計學上稱為Contrast。我們的做法是同時做這6個Contrasts的信賴區間。一般說來,同時做並不容易(而這就是不只有十種以上的多重比較方法的原因)。設,為某一個(將來)求出來的的可信區間。假如它的可信係數為,則,那麼因此,如果取,則 (此處不需要假設獨立)因此,我們只要分別對()做出一個可信度為的信賴區間便可以了。欲達成這一點並不難,只要利用便可看出而可用ANOVA的殘差平方和估計(就是單向ANOVA表中的MSE項)因此利用這個式子,我們馬上可以求出的信賴區間為同理,我們也可求得的信賴區間。接著將這6個區間放在一起就得到可信度為的6個Contrasts同時成立的信賴區間。這叫做聯立信賴區間(Simultaneous Confidence Interval, SCI)。【範例】設K=3,單向ANOVA中=6.08=1.36=23=4.24=1.30=17=6.51=1.63=27此時所以。在時,可查表得,故而這以上三個信賴區間同時成立的機會至少是0.95。若是0落在以上的某些信賴區間之中,此種情形代表的意義為該Contrast比較不顯著。以上三個區間中只有不包含0在內,因此我們認為,在統計上具有顯著的意義。 此法又稱為Bonferroni 法,主要我們用了所謂的Bonferroni 不等式:設為任何事件(意指不必獨立),則這裡不必獨立是我們可以在多重比較裡可以使用它的原因。以下將對更多不同的多重比較法做更深入的介紹。一、費雪LSD法(Fisher Least Significant Difference) 最早且最廣的母體平均數成對比較法。 V.S 檢定統計量 : 若 ,則拒絕。 的的信賴區間為型誤機率:我們是在變異數分析發現有充分的統計證據拒絕母體平均數為相等的虛無假設後,才開始進行費雪LSD程序的討論。在這種情況下,我們說明如何利用費雪LSD程序判定差異發生之所在。技術上來說,由於僅當以變異數分析發現顯著的值時,我們才採用此程序,所以常稱其為保護的或限制的LSD檢定。為瞭解其在多重比較檢定的重要性,我們必須說明比較性的(Comparionwise)型誤比率與實驗性的(Experimentwise)型誤比率。考慮下列三種假設檢定:檢定1 檢定2 檢定3 假定這三種假設顯示了問題裡所有可能的成對比較,並假設我們利用費雪LSD程序檢定各成對比較。如果我們在=0.05的顯著水準下進行各檢定,且無法拒絕任一虛無假設,則合理的結論似乎為三母體平均數必為相等。然而,在冒然下任何結論之前,我們先考慮依循此程序將發生什麼情況。首先,我們對檢定1進行費雪LSD程序。如果虛無假設為真(),犯型誤的機率將為=0.05;因此,不會犯型誤的機率為1-0.05=0.95。假設對檢定2進行同樣的程序,則對此檢定犯型誤的機率也是=0.05;因此,不會犯型誤的機率亦為0.95。很明顯地,當執行單一的檢定時,犯型誤的機率為=0.05。在討論多重比較程序時,我們稱=0.05為比較性的型誤機率。在本質上,比較性的型誤機率係指單一統計檢定的顯著水準。我們現在來考慮稍許不同的問題。在利用這種次序性的假設檢定方法時,我們在前兩個檢定中至少犯一次型誤的機率為何?我們注意到在檢定1與檢定2均不會犯型誤的機率是(0.95)(0.95)=0.9025(在此假定二檢定為互相獨立,所以二事件的聯合機率即為個別機率的乘積。事實上,由於在各檢定中均使用MSW,故二檢定並不互相獨立;所以其誤差甚至將大於所示的值)。由於犯零次、一次或兩次型誤的機率和為1,所以至少犯一次型誤的機率為1-0.9025=0.0975。因此,當我們使用費雪LSD程序依序檢定兩組假設時,型誤的機率不是0.05,而是0.0975,此錯誤比率稱為實驗性的型誤機率。假設我們對檢定3也進行費雪LSD程序,則比較性的錯誤機率仍維持在=0.05;然而在三個檢定中至少犯一次型誤的機率增為1-(0.95)(0.95)(0.95)=1-0.8574=0.1426。所以,如果我們對所有成對比較依序進行費雪LSD程序,則總(或實驗性的)型誤機率為0.1426。為避免混淆起見,我們將實驗性的型誤機率記為。為寫出實驗性的型誤之一般式,我們令C為可能的成對比較組數。對K個母體的問題而言,C的值是由K個母體中一次取2個母體的組合數;也就是說, C=成對比較的組數= 一般而言,在含C組成對比較的問題中,至少犯一次型誤的機率為。亦即,實驗性的型I誤機率=二、Bonferroni多重比較法-比較數個平均數差異費雪LSD程序的問題是實驗性的型誤機率與比較性的錯誤機率及成對比較數有關。假定我們不指定比較性的錯誤機率,而以的特定值來求值。在前述的討論中,我們說到在含C組可能的成對比較之問題中,至少犯一次型誤的機率為實驗性的型I誤機率=義大利數學家包法隆尼(Bonferroni)證明當介於0與1之間時,對任一C值, 因此,由於,故當檢定C組成對比較時,至少犯一次型誤的機率至多為。若我們希望在整個實驗中,犯型誤的最大機率為,則我們將使用等於之比較性的型誤機率。 , AK (若 ,則A=3)若有A個小母體,可得個母體平均數差的的聯合信賴區間為: , M為之個數。三、 Scheffes 法 比較數個平均數之差異 , AK若有A個小母體,可得個母體平均數差的的聯合信賴區間: I,J=1,.,A 四、 Tukeys 法Tukeys程序(Tukeys Procedure)容許實驗者進行所有可能的成對比較檢定,而仍能維持如=0.05的總實驗型誤機率。此檢定的基礎是稱為T值化全距分配(Studentized Range Distribution)的機率分配。令表示最大的樣本平均數,而表示最小的樣本平均數。當各樣本的樣本大小N相等且母體變異數相等時,的抽樣分配即為值化全距分配。我們可決定任二樣本平均數的差應為多大才能拒絕其所對應的母體平均數為相等之假設。這個值稱為涂其顯著差(Tukeys Significant Difference,記為TSD)。Tukey程序與Bonferroni調整的類似之處在於二樣本平均數差需較大時才能支持母體平均數不相等的結論。P.S.:使用Tukeys Procedure時,必須各組樣本數相同,即;而Bonferroni法及Scheffes法則不限。 3 前題假設之診斷一、殘差(Residual)殘差的意思是模型擬合之後的不滿足部份。設: ,而我們所設定的模型都可看成是某些未知參數的函數。故可簡記為為模型中的P個未知參數。擬合英文叫做Fit,意思就是:將估計出來(用數據),分別得到。再將之代入原始的函數F,得擬合之後的結果為而這和原始資料的差即為殘差。可以這樣說:殘差是估計誤差用的。有一個數據點(觀測值)就有一個殘差,這兩者的數目是一樣多的。以上是一般關於殘差的概念。對於單向ANOVA而言,殘差為:由於模型為,且與,故 。二、常態性之檢定(1)利用殘差()繪製常態機率圖(Normal Probability Plot)這是針對常態分布所作的Quantile-To-Quantile P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论