多變量分析 期中報告_第1页
多變量分析 期中報告_第2页
多變量分析 期中報告_第3页
多變量分析 期中報告_第4页
多變量分析 期中報告_第5页
已阅读5页,还剩107页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 多變量分析區別分析Discriminant Analysis區別分析12.1前言是典型相關的特例,應變數是二元分類變數,若只有兩群,則需一個二元分類變數,若有G群,則需G-1個二元分類變數。目的:使用自變數的資訊去最清楚地區分兩個或兩個以上的群體。本章介紹兩群及多群區別分析方法兩群區別分析中,將介紹費雪法(Fisher)及馬氏距離法(Mahalanobis) ,及說明兩種方法本質上是與回歸分析相同的。12.1.1潛在應用在第三章,我們提到複廻歸分析的目的是描述自變數X如何影響應變數Y、推論X與Y的關係是否顯著、及使用X預測Y。在本章區別分析中,目的是相同的,但是用的名詞不一樣,即:Profi

2、lingDifferentiationCategorization1.Profiling當研究的目的俱探索性的本質時,區別分析的第一個目的通常是描述性的:各群體在自變數上是如何區別開來的? 例: 某產品使用量大的與使用量小的 群體在家庭規模、收入、教育、種族等變數有何不同? 2.Differentiation不同群在自變數上是否有顯著差異?區別分析可以讓我們檢定不同群間的平均向量是否有顯著差異。例: 在製造業,瞭解與控制製程變異是很重要的。製造者可以抽樣各台機器製造的產品產品(Y)與測量產品的相關規格(X),並利用區別分析檢定各台機器製造的產品的平均規格向量是否有顯著差異。3.Categori

3、zation預測觀察值的群體歸屬(即歸類)。即使用區別函數去歸類新觀察值。例: 銀行使用區別分析來決定是否應放款給貸款申請者,稱為信用評等。區別顧客為高風險與低風險群,建立區別函數,用以歸類新申請者為高風險或低風險。12.2.1兩群區別分析:原理使用以下兩種方法來做區別分析:費雪法(Fisher)馬氏距離法(Mahalanobis)費雪法(Fisher)費雪法是基於區別分數( discriminant score)的概念。找出自變數的線性組合,產生使組間最大差異的區別分數。圖12.1,兩群組觀察值的聯合分配。Group1Group2費雪法(Fisher)表12.2 的區別分數顯示組間差異相對於

4、組內差異較小。表12.3的區別分數顯示組間差異相對於組內差異較大,可以更清楚區分兩群組之觀察值。費雪法(Fisher)為了找出線性組合來產生最佳區別分數,我們需要一個目標函數將Fish的”maximally different”的概念量化: 令 線性組合=k 則 區別分數=t=Xk 費雪法是找出適當的k,使區別分數的組間差異相對於組內差異最大化。費雪法(Fisher)區別分數的群間平方和相對於群內平方合的比為 為X的聯合(pooled)組內共變異數矩陣。選擇k使目標函數 最大化,則:因為k向量的尺度未定,我們通常選擇標準化的k,即K的長度為1費雪法(Fisher)1.假如X1與X2之間沒有組內

5、共變異,這表示區別函數軸與連接兩群組平均的線相同。 表示頃斜該軸將減少兩群平均區別 函數分數的距離,且增加組內 區別函數分數的變異。 Cw= 1 0 0 2費雪法(Fisher)2.假如X1與X2是相關的呢?組間平均不變,但組內共變異數矩陣改變為 Cw= 2 1 1 2最好的區別函數不再是X1-axis,而為 =0.894而非1.0費雪法(Fisher)小結: 描先求得兩群體平均向量差的軸,再根據自變數間共變異的型態調整此軸,以求得能最佳區別兩群體的線性組合函數。馬氏距離法(Mahalanobis)主要找出與兩群群平均向量等距離點的軌跡。Mahalanobis不建議採歐氏距離衡量,而建議採共變

6、異數來調整衡量。使馬氏距離法(Mahalanobis)採共變異數調整距離取代歐氏距離的理由:假設資料為常態分配,馬氏距離比歐氏距離更能反映出群組歸屬的可能性(likelihood)。馬氏距離法(Mahalanobis)圖12.6 為獨立變數x1與x2無相關性,與兩群心等距點的軌跡為X1=1/2,垂直於x1軸(費雪法的線性區別函數)。12.6馬氏距離法(Mahalanobis)圖12.7為獨立變數x1與x2為正相關,與兩群心等距的直線為正斜率,此直線與費雪法的線性區別函數垂直。12.7馬氏距離法(Mahalanobis)費雪法與馬氏距離法在處理問題時為互補的方法。費雪法將資料投射到單一構面(線性

7、區別函數),使群組分隔最大化;而馬氏法決定能最佳地分開兩群的分隔線(或超平面),此分隔線(或超平面)與線性區別函數相互垂直。12.2.2 MechanicsFishers Method 假設group1有n1個觀察值,group2=有n2個觀察值 n1+ n2=n(樣本量) SSw為區別函數分數的組內平方和 (12.5)將(12.5)的區別函數分數t當為原來資料的線性組合 得出 (12.6) 整理(12.6)得出: 或將 Cw代入(12.8) , 可得: (12.9)組間平方和: (12.10) 將區別函數分數 代入(12.10),得: 因為 所以 所以: 此式隱含: 總整理後:因為 與向量

8、都為scalar value 所以我們可以寫成:12.2.2 MechanicsRelationship to regression費雪區別函數係數與複迴歸係數是相同的(或成比率)。 整理過程: 依據上述推導,我們可以有下列區別函數係數: 為共變異數矩陣 多元回歸係數為 令 根據此,我們得出 =d ,因為 為 與 CT 成比例,因此得出:12.2.2 MechanicsMahalanobiss Method 與費雪法不同,馬氏距離法要找出兩群心等距的點的軌跡。推導過程: 因為 代表兩群心差異 得: (12.29) 將 代入(12.29)得出: 因為 與費雪區別函數係數k成比例,故得出:Thus

9、, we have the result that the locus of points x specified by Mahalanobiss method is the set of all points x perpendicular to k, Fisherss discriminant function coefficients, crossing the discriminant function axis at the midpoint between the two group mean scores.12.3 Sample problem12.3.1 data實例說明公司欲

10、促銷一本書:The Art History of Florence1.店名:Books by Mail2.資料:擁有50,000名顧客的資料庫3.目標:目標行銷(targeted marketing),只寄促銷信給買此書機率相對較高的客戶12.3 Sample problem12.3.1 data 4.描述目標顧客:Books by Mail 寄發公司的直接信函給1,000名顧客(從50,000顧客中隨機抽取) ,結果有83名顧客真的購買(8.3%)。 公司欲使用區別分析來更了解那些因素造成這些樣本購買者與未購買者的差異,並建立區別函數,以更有效且準確的再寄促信函給其他顧客。12.3 Samp

11、le problem12.3.1 data雖然Books by Mail 可以考慮很多顧客資訊,但我們只將焦點放在兩個變數:A.每位顧客最近一次從Books by Mail買書之購買時間與分析時隔了多少個月B.每位顧客從Books by Mail購買過藝術類書籍的本數12.3.2Results圖12.8為散佈圖,針對83個購買顧客與隨機抽取83個未購買顧客。距上次買書的月數購買藝術書本數12.3.2Results表12.1的結果支持圖12.8:購買者-買藝術書的數量較多且最近一次買書時間近。非購買者買藝術書的數量較少且最近一次買書時間遠。SAS程式INFILE D:多變量分析上課資料Multi

12、variateDataData setsASCIICh12BOOKS_1.TXT;input id$ recency number buyer$;cards;PROC DISCRIM ALL;CLASS BUYER;VAR RECENCY NUMBER;RUN;12.3.2Results令非購買者為群體1 購買者為群體2則群組距心差異為: (9.4,1.00)-(12.7,0.33)=(-3.3,0.67)也可算出組內矩陣平方和以及聯合組內平方和: 60206.0 219.1 2904.07 -55.0 219.1 337.9 -55.00 92.00 63.24 0.164 0.01583

13、-0.00604 0.164 0.431 -0.00604 2.323812.3.2ResultsK與 成正比,使用區別函數權重K計算區別分數 t=Xk 結果如下:購買者的區別分數較非購買者為正 (參見圖12.9 p.441)60%購買者的區別分數大於026%非購買者的區別分數大於0buyernonbuyers12.4兩群組分析相關研究問題12.4.1 共變異數矩陣相等的檢定費雪法估計採聯合組內共變異矩陣,但假如各群組的母體共變異數不一樣呢?Box(1949,1950)提供一個檢定方法:該檢定以卡方分配的M統計量為基礎 以B為M統計量log轉換的檢 定統計量12.4.1 共變異數矩陣相等的檢定

14、12.4.1 共變異數矩陣相等的檢定 下圖是當H0為偽時12.4.1 共變異數矩陣相等的檢定以上述例子Books by Mail來計算B。先計算各組的組內共變異數矩陣與聯合共變異數矩陣,如下: =0.99998(3.304)-916(3.186)-82(3.6710=77.2 df=3, reject H0 at =0.00112.4.1 共變異數矩陣相等的檢定問題:假如我們使用聯合估計,但是群組間共變異數為不同,則後果如何呢?圖12.11為兩群有相同的組內變異數。假如虛線的左邊的所有值,Group1的density大於Group2的density,均可歸類於Group 1;虛線的右邊的所有值

15、,則均可歸類於Group 2 。圖12.1112.4.1 共變異數矩陣相等的檢定圖12.2為兩個不同共變異數的群,兩條點線間的值Group1的density較高,均可歸類於Group 1;而兩條點線外的值Group2的density較高均可歸類於Group 2。12.4.1 共變異數矩陣相等的檢定當兩群組變異數不一樣時,可使用馬氏法,使用組內估計(非聯合估計) ,則:因為 不等於 ,故 的解是二次的,而非線性的。12.4.1 測試共變異數矩陣相等如右圖,如果使用線性區別函數,則馬氏法的軌跡將為與橫軸垂直的直線,如此將會有應屬於Group2的點,被歸到Group1。如果使用二次區別函數,則馬氏法

16、的軌跡為一橢圓,橢圓內的點都歸類於Group1,橢圓外的點都歸類於Group2。GROUP2GROUP112.4.1 共變異數矩陣相等的檢定小結:共變異數矩陣相等的檢定對於兩群組共變異數矩陣的差異非常敏感,這並不是件好事;尤其當兩群中的一群,其成員數目相對很小時,此時我們真的值得以小群的共變異數矩陣作為計算馬氏距離的基礎嗎?我們最好還是先使用線性區別函數,檢視其區別與歸類的績效,如果績效真的很不好時,才考慮使用二次區別函數。12.4.2如何檢定兩群群心的差異?當只有一個變數X時,運用 來檢定。為 t-statistic 有 自由度。將上式平方,則變為F-statistic 有自由度,為:12.

17、4.2如何檢定兩群群心的差異?當有多個區別變數時,運用知名的Hotellings T2來檢定,如右:12.4.2如何檢定兩群群心的差異?上述兩法很類似,但差異為:聯合估計差異以 取代之。Book by Mail 實例運用 : 0.01583 -0.00604 -0.00604 2.3238 0.01583 -0.00604 -0.00604 2.3238 *(-3.30.67)=94.55結果表示兩群心有顯著差異。12.4.3如何評估區別函數的配適度?在回歸分析裡,以 為衡量配適度指標。在區別分析裡面,以命中率(hit rate)為衡量指標:即預期歸類與實際歸類的符合程度。1.為了評估命中率,

18、需使用一個決策法則使我們可以歸類觀察值。2.計算cutoff score( ) 來歸類觀察值。t 歸類為一群組;反之,為另一群組。如此可比較實際與預測歸類的差異。3.計算當群組大小不相同時,則cutoff score 需要調整。以下例說明:12.4.3如何評估區別函數的配適度?以某大學商學院MBA一年級學生的身高為例做區別分析,即使用身高來區分男女生。假設男女比例為2:1 (100男:50女),男身高平均70inches(標準差3 inches),女身高平均67inches(標準差 3 inches)。計算 =68.5(inches)右表為hits-and-misses (confusion

19、matrix)分類效果良好:73個男生與34個女生歸類正確,所以命中率為107/150=71.3%。男人命中率為73/89=82%女人命中率為34/61=55.7%當群組大小不一樣時,cutoff score計算如右:此式可以降低歸類錯誤的機率。以此式計算如下:命中率從71.3%上升到112/150=74.7%比例機會效標(Proportional Chance Criterion)不使用任何自變數的資訊,單純根據群組大小歸類指派觀察值到Group1的機率為 p指派觀察值到Group2的機率為(1-p)。以上例MBA學生來說明:P=100/(100+50)=2/3則預期歸類正確數量為所以命中率

20、為83.3/150=55.5使用自變數的資訊是否顯著提升命中率呢?計算標準差以 來檢定結果為顯著,支持學生身高資訊使我們可以區分學生性別。配適模型的命中率的潛在偏誤區別函數之命中率可能產生偏誤(over fitting),可採用訓練樣本配模型,而使用保留樣本(holdout sample)來驗證區別模式的績效。當沒有足夠樣本來分割樣本做效度驗證時,可使用Jackknife validation (U-method)。配適模型的命中率的潛在偏誤因為偏誤較易發生在少量觀察值與較多的獨立變數時。以一個例子說明之:20個觀察值(n1=n2=10)10個獨立變數(隨機數字產生,母體區別函數真實命中率不會

21、超過50%)右圖為hits-and-misses顯示出命中率有90%且Proportional chance criterion為顯著。 p0.01右表為jackknifed hits-and-miss,給予我們較好的評估歸類效果 12.4.4如何使用區別函數去預測?區別分析目的之一為預測,即依據獨立變數的資訊來歸類觀察值。許多因素會影響歸類決策,例如歸類錯誤成本,例如:將Group1觀察值錯誤歸類到Group2的成本為Group2觀察值錯誤歸類到Group1的10倍,則歸類會較傾向錯誤成本較小的一方。12.4.4如何使用區別函數去預測?我們可使用Bayesian approach去處理歸類問

22、題。假設資料為多變量常態分配,並假設各群母體組內共變異數矩陣為相同。同樣,群組二為:使用Bayess定理,得到為了歸類,檢查上述兩個式的比率,假如比率大於一,則將觀察值指派到Group1。比率為取log產生 = 為費雪法的區別分數t 為馬氏法的兩群組的等距點將t= 與 替代上式得出上面分析可以擴展到包含不對稱錯誤分類成本假如 指分類到Group1, 但實際為Group2 所產生的成本,則決策法則變為:Books by Mail Example以Books by Mail為例,公司再次發出促銷信給1000名顧客(隨機選取,與第一次的1000名顧客不重複) ,當為holdout data,以測試區

23、別函數的預測能力。結果收到81位顧客回函購買。問題:該如何使用第一次樣本的區別函數來定義第二次樣本的潛在購買者 ?可以使用 使用截斷值(cutoff score),結果如下:依據結果,我們將郵寄25顧客,但是我們命中率有56%。(14/25=56%)考慮錯誤歸類成本,舉例:製作促銷信及郵資的變動成本為$1 顧客買書帶來的純益為$6(機會成本)依據 為指派法則,改變cutoff,結果為:上表可算出純益為$6*14-$1*11=$73考慮錯誤分類成本後,依右表可算出純益為$6*40-$1*102=$138結果:擴展目標客戶群到15%,純益增加一倍。12.5多重區別分析:原理12.5.1 Intui

24、tion-Fishers approach費雪法(Fishers Approach):多重區別分析與簡單區別分析目標一樣。惟一要改變的是,需要比一個更多的依變數去代表群體的組成。舉例:Y1=1代表群1,0為其他群體Y2=1代表群2,0為其它群體當Y1=0、Y2=0,則代表群3。12.5.1 IntuitionFishers Approach使用同樣目標函數,使組間差異相對於組內差異為最大。推導: 多群組需要兩個以上的區別函數去解決區別問題。第一階微分12.5.1 IntuitionFishers Approach例:右圖有三個群組與兩個變數,與相同數目的觀察值。群組一與群組二、三有明顯區別。圖

25、(12.15)右圖群組一與群組二、三有明顯區分,但二與三群組卻不明顯。群組二、三,中心垂直於區別函數軸,幾乎快一樣。右圖Group2與3的區別能力不佳,因為從重疊部分太多,組間差異相對於組內差異不大。費雪法有時稱為典型區別分析。當兩個以上群組時,費雪法不易處理歸類,此時,馬氏距離法較容易使用。12.5.1 IntuitionMahalanobiss ApproachMahalanobiss approach 處理多個群組的歸類時較為簡易,但不是尋找與各群組中心等距離點的軌跡,而是只計算觀察值到各群心的距離,並指派觀察值到最近距離的群組。若群組大小不同,即事前機率(prior)不同時,則前述馬氏

26、距離的歸類方法可改為利用貝氏定理計算事後機率,並將觀察值歸類到有最大事後機率的群組有G個群體,事後機率觀察值屬於group g,為:若資料為多變量常態分配,則為:整理上述兩方程式得出:依據事後機率,分配觀察值到適當群組。 12.5.2 MechanicsRelationship to Canonical Correlation多元區別分析是典型相關分析的特例。典型相關分析與多元區別分析的特徵根有明確關係。典型相關分析的目標函數為WT-1,而多元區別分析則為W-1A。從典型相關分析,我們知道:W-1A 的特徵根為:W-1(A+W) 的特徵根為:W (A+W) -1 的特徵根為:所以: Wilks

27、 ,可計算如下:使用(12.65) ,可以從多元區別分析的值寫成:12.6 SAMPLE PROBLEM:REAL ESTATE一、 資料:multiple-listing service (MLS) , 舊金山灣區的三個地方,在1986年某月,從供銷售的single-family房子中隨機抽樣35棟房子:1.Los Altos:9棟 2.Menlo Park:13棟3.Palo Alto:13棟對於每個listing依照三個特徵收集資料,分別為:1.房屋要價2.房間數3.面積(平方英呎)問題:1.這三個社區在三個特徵上,是否有顯著差異?2.如果是的話,如何描述這些社區間的差異?3.需要多少區

28、別函數與如何解釋它們呢?Results對於這些資料,我們進行兩種分析:第一:決定費雪(fishers)區別函數。這個典型區別分析提供我們必要資訊,以檢定區別函數的顯著性,及各群群心差異的顯著性。SAS程式運用第二:使用馬式距離法評估歸類績效(使用jackknife holdout法) 。在分析開始之前,我們必須先檢定是否線性區別函數是適當的。各組間共變異數矩陣為:檢定統計量在0.1水準下不顯著,建議使用線性區別函數。SPSS程式補充典型分析結果因為我們有兩個指標變數與三個獨立變數,區別函數為二。回想(12.56) ,eigenvalue 等於每個區別函數目標函數值。右表:顯示出第一個區別函數比

29、第二個更能區分各組間的觀察值。 右表12.13呈現兩區別函數的區別函數係數值, 。有關於整個樣本的共變異數矩陣,係數標準化,也可以說為,K= 為 =總樣本共變異數矩陣。另外描述的K方法為使用組內共變異數矩陣,為 ,可避免兩組間平均差異的影響。觀察右表獨立變數x與區別函數之相關係數,與上述提到之標準化係數,發現:1.第一個區別函數主要反應供出售房子的坪數大小,(與房屋價格有密切關係 )。2. 第二個區別函數主要反應出房子的房間數。下表為各組中心的區別函數分數,可以了解各組間的差異。舉例來講:知道第一個區別函數主要與面積及價格有相關,觀察右表發現Los Alots與Menlo Park及Palo

30、Alto有差異,因為備供出售的房子有較高坪數以及價格。第二個區別函數支持Palo Alto頃向於有較小的房間數目,相對於Menlo Park。但也很明顯,第二個區別函數績效是比第二個區別函數還要弱的。SAS程式運用下圖表示將資料描繪於區別函數空間,可以發現:1.Los Alots房子與其他地區的房子,在一個區別函數間有很清楚的區分。2.在第二個區別函數,Menlo Park與 Palo Alto房子的區別能力較弱。 Plot of Can2*Can1. Symbol is value of place.Can2 | 2.0 + | | 3 | 2 | 1.5 + 2 1 | 2 2 | 2 1 | | 1.0 + 2 | | 1 | | 1 0.5 + | 2 | 2 | | 3 0.0 + 32 | 3 2 | 3 1 | 3 |-0.5 + 3 3 | | 1 | 1 3 | 1-1.0 + 3 | 3 | 1 | 2 |-1.5 + 3 | | 3 | |-2.0 + 2 -+-+-+-+-+-+-+- -2 -1 0 1 2 3 4 Can1NOTE: 1 obs hidden.1=LA2=MP3=PAMahalanobiss approac

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论