决策树分析及SPSS实现.ppt

上传人：努*** IP属地：江西上传时间：2019-12-28 格式：PPT 页数：61 大小：5.05MB 积分：15 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 第九章決策樹分析DecisionTreeAnalysis 2 決策樹分析簡介決策樹基本觀念三種研究方法其他決策樹的變化決策樹的優缺點 3 決策樹是功能強大且相當受歡迎的分類和預測工具這項以樹狀圖為基礎的方法其吸引人之處在於決策樹具有規則和類神經網路不同規則可以用文字來表達讓人類了解或是轉化為SQL之類的資料庫語言讓落在特定類別的資料紀錄可以被搜尋在本章中我們先介紹決策樹運作的方式及其如何應用在分類和預測問題隨後我們進一步介紹如何以CART C4 5和CHAID演算法建構決策樹簡介 4 決策樹如何運作二十個問題 TwentyQuestions 這個遊戲一定可以輕易了解決策樹將資料分類的方式在遊戲中一個玩家先想好所有參加者都有知道的一個特定地點人物或事物其他玩家藉著提出一堆是或不是的問題來找出答案一個決策樹代表一系列這類問題在遊戲中第一個問題的答案決定了下一個問題如果謹慎選擇問題只要短短幾次詢問就可以將後來的資料正確分類決策樹基本觀念 5 以二十個問題的方法顯示樂器的分類決策樹基本觀念 6 一筆資料從根部的節點進入決策樹在根部應用一項測驗來決定這筆資料該進入下一層的哪一個子節點 childnode 選擇一開始的測驗有不同的演算法但目的都是一樣的這個過程一再重複直到資料到達葉部節點 leafnode 從根部到每一個葉部都有一套獨特的路徑這個路徑就是用來分類資料規則的一種表達方式決策樹基本觀念 7 決策樹的多種形式決策樹基本觀念 8 某些規則比其他規則好我們將一個決策樹應用在一個前所未有的資料集合上並觀察其分類正確的比率來衡量這個決策樹的有效程度對決策樹的每一個節點我們可以如此衡量進入這個節點的資料數目如果是一個葉部節點可觀察資料分類的方式這個節點將資料正確分類的比率決策樹基本觀念 9 藉由將資料分到正確類別的情況我們可以驗證出建構決策樹的最佳演算法第四章中的電影迷資料庫受測者被要求回答他們的年齡性別最常看的電影以及最近看過的電影片名然後我們使用決策樹程式來創造規則以受測者在問卷中其他問題的答案來找出該名受測者的性別下表顯示這個節點共有11筆資料被歸類其下其中九個是正確的女性還有兩個男性被誤分到這裡換言之這項規則的錯誤率為0 182 決策樹基本觀念 10 決策樹基本觀念 11 決策樹基本觀念 12 決策樹基本觀念決策樹創造資料箱雖然樹狀圖和二十個問題類推法有助於呈現決策樹方法的某些特質但作者發現在某些情況下基於不同表現方式的箱形圖 boxdiagram 更加清楚明白一個決策樹創造一系列盒子或箱子我們可以將資料丟進去任何樹狀圖的葉部節點形成一個一維式箱形圖和決策樹根部節點有關的測試將下層分成兩個或更多部分 13 決策樹基本觀念 14 決策樹基本觀念決策樹的根部擴大成資料箱資料箱的寬度可以有變化以顯示一筆資料落在特定箱中的相對可能性這個圖形可以換成一個直條圖 histogram 每一個直條的高度顯示落在對應箱中的資料數目這類直條圖可以使用直條的頻色或形狀來顯示對應規則的錯誤率單一資料可以根據輸出變數的數值用有色的球形或點狀來代表這樣可以立即顯示這套分類系統的表現 15 決策樹基本觀念 16 決策樹基本觀念表現多維度當我們將資料丟進格子中它們落到特定的層內並以此分類一個層形圖讓我們一目了然的見到數層資料的細節在下圖我們可以一眼看出左下的格子清一色都是男性仔細的看我們可以發現某些層在分類上表現很好或是聚集了大量資料這和線性邏輯性或二次差分等傳統的統計分類方法試圖在資料空間中劃上一條直線或弧線將資料分層的方式大不相同 17 決策樹基本觀念 18 決策樹基本觀念這是一種基本上的差異當一筆資料有多種非常不同的方法使其成為目標類別的一部份時使用單一線條來找出類別間界線的統計方法效力會很弱例如在信用卡產業很多種持卡人都讓發卡根行有利可圖某些持卡人每次繳款的金額不高但他們欠繳金額很高時卻又不會超過額度還有一種持卡人每月都繳清帳款但他們交易金額很高因此發卡銀行還是可以賺到錢這兩種非常不同的持卡人可能為發卡銀行帶來同樣多的收益在下圖中我們將顥示在這種分類問題上決策樹超越純粹統計方法的優點 19 決策樹基本觀念 20 分類與迴歸樹 CART 分類與迴歸樹 ClassificationAndRegressionTree CART CART演算法是建構決策樹時最常用的演算法之一自從年布里曼 L Brieman 與其同僚發表這種方法以來就一直機械學習實驗的要素 21 分類與迴歸樹 CART 22 分類與迴歸樹 CART numbers 23 分類與迴歸樹 CART 找出起始的分隔在過程中的一開始我們有一個預先分類好的訓練和資料預先分類意味輸出變數或稱依變數具備一個己知的類別 CART藉著一個單一輸入變數函數在每一個節點分隔資料以建構一個二分式決策樹因此第一的任務是決定哪一個自變數可以成最好的分隔變數最好分隔的定義是能夠將資料最完善的分配到一個單一類別支配的群體 24 分類與迴歸樹 CART 找出起始的分隔用來評估一個分隔數的衡量標準是分散度 diversity 對於一組資料的分散度指標 indexofdiversity 有多種計算方式不論哪一種分散度指標很高表示這個組合中包含平均分配到多個類別而分散度指標很低則表示一個單一類別的成員居優勢 25 分類與迴歸樹 CART 找出起始的分隔最好的分隔變數是能夠降低一個資料組的分散度而且降得最多換言之我們希望以下這個式子最大化分散度分隔前分散度分隔後左邊子集合分散度分隔後右邊子集合三分種分散度衡量法 min P c1 P c2 2P c1 P c2 P c1 logP c1 P c2 logP c2 26 分類與迴歸樹 CART 當各類別出現的機率相等時以上的三個函數會出現最大值當資料組中只包含單一類別時函數值則為零在完全分散和完全聚集的兩個極端之間這些函數有些微不同的型態為了在一個節點中選擇最佳分隔變數我們依次考量每一個自變數假設這個變數遇上多個數值我們進行二分式研究希望找出降低分散度最多的最佳分隔法我們從每個變數中找出最能降低分散度的最佳分隔變數勝利者就被選為根節點的分隔變數 27 分類與迴歸樹 CART 培養出整棵樹一開始的分隔製造出兩個節點現在我們再以分隔根節點的方法將每個節點予以分隔再一次我們檢視所有輸入變數找出雀屏中選的分隔變數如果這個變數只遇上一個數值我們就將其排除因為它無法被用來創造一個分隔一個類別變數若被用來作為決策樹中較高層的分隔變數時比較有可能很快的變成單一數值化對每一個剩下的變數最好的分隔就確定了當我們無法找到任何分隔可以顯著降低一個節點的分散度我們就將其標示為葉部節點到了最後存在的只剩下葉部節點而我們也完成決策樹 28 分類與迴歸樹 CART 計算每個節點的錯誤率每一個葉部如今都分配到一個類別以及一個錯誤率回顧前圖圖中選取了從根部到標示為女性的葉部路徑該節點是一個葉部節點表示找不到任何分隔變數可以顯著的降低其分散性然而這並不表示所有祗達這個葉部的資料都屬於同一類使用簡單機率的定義我們可以看到11個葉部中有9個是正確分類這告訴我們以這個訓練組而言抵達這個節點的資料是女性的機率為0 818 相對的這個葉部的錯誤率1 0 818就是0 812 29 分類與迴歸樹 CART 計算整個決策樹的錯誤率整個決策樹的錯誤率是所有葉部錯誤率的加權總數每一個葉部的錯誤率乘上資料抵達葉部的機率分配到資料的比例加起來的總數就是整個決策樹的錯誤率 30 分類與迴歸樹 CART 修剪決策樹只要能發現新的分隔改善決策樹將訓練組資料分類的能力決策樹就會繼續成長如果我們試圖預測身高而我們來到一個節點包含一個名叫馬丁的高個子和幾個比較矮的人我們可以訂出一個新規則名叫馬丁的人是高個子來降低分散度這個規則有助於將訓練資料分類但如果在更寬廣的世界上馬丁是一個很少見的名而且這個名字和身高又沒有特別的關連那麼這個規則比沒用還糟糕 31 分類與迴歸樹 CART 修剪決策樹下圖顯示出會發的狀況圖中的箱子變得很小而且每一個都不大只容得下訓組資料不太可能再容納新資料很顯的我們需要修剪這個決策樹以便在一般性的案例中獲得更正確的預測問題是要決定該倒推回去修剪多少以及這些分支的決策樹中哪些表現很好 32 分類與迴歸樹 CART 33 分類與迴歸樹 CART 確認入選的分支決策樹我們的目標是首先將提供最少額外預測能力的分支先修剪掉為了確認這些最沒用的分支我們引入一個決策樹的調節錯誤率 adjusterrorrate 的觀念這是一種衡量方法逐一檢視每一個葉部確認最弱勢的分支那些無法有效降低整棵決策樹錯誤率的分支然後將它們標示出來加以修剪 34 分類與迴歸樹 CART 35 分類與迴歸樹 CART 36 分類與迴歸樹 CART 評估分支樹最後工作是從入選的分支樹中選出最能分類新資料的決策樹為達到此目的我們使用第二個預先分好的資料組即測試組資料 testset 測試組和訓練組來自同一群母體但包含的資料不同入選分支樹中每一個都被用來分類測試組資得出最低的整體錯誤率的就是勝利者 37 分類與迴歸樹 CART 評估最佳的分支樹最後工作是從利用第三組資料將測試組和訓練組打散即評估組資料 evaluationset 入選分支樹應用在評估組所得出的錯誤率來預期這個分支樹在未經分類的資料上使用時的錯誤率 38 分類與迴歸樹 CART 將代價列入考量我們討論至此只使用錯誤率作為評估一個分支樹良莠的依據然而在許多應用上錯誤分類的代價依資料類別不同而有異當然在醫療診斷上一個錯誤的陰性診斷 negative 也許會比錯誤的陽性診斷 positive 傷害更大在進行癌症抹片檢查時誤診為性也許只會帶來更多的檢查但誤診為陰性卻可能讓病情惡化我們可以把問題列入考量以一個使用加權方式將錯誤分類的機率加倍的代價函數來取代錯誤率 39 C4 5 C4 5是最新出現的決策樹演算法的速成法是澳州研究者昆蘭 J RossQuinlan 多年努力成果與CART差異培養決策樹 C4 5與CART之間的第一個差異是CART在每一個節點都呈現二分法因此產生二分式決策樹而C4 5則在每一個節點產不同數目的分支這是因為C4 5對持續性變項的處理方式和CART相當類似但對類別變項的處理就相當不同 40 C4 5 修剪決策樹 CART使用決策樹的分散度為度量來標記不同的分支樹然後以沒有見過的預先分類好的資料測試組來測試這些分支樹相反的 C4 5並不參考其他資料嘗試以只用訓練資料的情況下來修剪決策樹因此 C4 5使用建構決策樹的相同資料來決定該如何加以修剪 41 C4 5 從決策樹到規則我們可以在不改變分類行為的前提下藉著合併到葉部的路徑來向這個目標走出第一步下圖的決策樹部分得出以下的規則看球賽加上地主隊獲勝加上跟朋友出門就會得出啤酒看球賽加上地主隊獲勝加上待在家裡就會得出健怡汽水看球賽加上地主隊輸球加上跟朋友出門就會得出啤酒看球賽加上地主隊輸球加上待在家裡就會得出牛奶 42 C4 5 43 CHAID CHAID是哈根 J A Hartigan 在1975年率先提出的演算法這是本章所討論的最古老的演算法這也是最受到廣泛使用的演算法因為它隨著SPSS和SAS等受歡迎的統計軟體流通 CHAID是從更早的一套自動互動偵測系統AID衍生而來後者是摩根 J A Morgan 與桑奎斯特 J N Sonquist 在1963年提出 44 CHAID CHAID與C4 5及CART的差異 CHAID和C4 5及CART兩種演算法的最大差異在於後兩者先過度套用資料再加以修剪而CHAID嘗試在過度套用的情況發生之前就讓決策樹停止蔓生擴大另一個差異是CHAID只限於類別變數使用連續變數必須被區隔成幾個區段範圍或是以高中低等類別來取代 45 CHAID 培養決策樹如同其他兩種方法 CHAID演算利用輸入變數找出一個方法將訓練組資料分隔成兩個或兩個以上子節點這些子節點被選擇的方式是輸出變數遇上某個特定數值的機率隨著節點不同而有所差異 46 CHAID 選擇分隔變數經過第一步驟之後我們得出以下的表 47 CHAID 杏仁燒魚鮪魚沙拉生魚片魚肉鵝肝醬水牛城雞翅碎雞肝禽肉牛腰肉麥香堡罐頭牛肉碎羊肉紅肉 48 CHAID 重新分隔類別第一步無法在輸出數上產生顯著統計差異的所有預測變都被合併第二步三個或更多的預測變數群組以二分法被重新分隔如果這些分隔之中任何一個可以產生統計上顯著差異的結果就就被保留卡方分析 chi squared 這是對應於CHAID的前兩個字母縮寫 49 CHAID 評鑑入選分隔變數一旦每一個分隔變數都被分類在輸出變數上產生最大的類別差異就對這項結果使用卡方分析檢驗根據檢驗能夠產生最大差異分類的預測變數就被選為當前這個節點的分隔變數 50 CHAID 限制決策樹的成長在CHAID演算法中決策樹持續成長直到再也沒有任何區隔能在分類上達到統計顯著性差異為止 51 其他決策樹的變化一次使用超過一個變數至今我們討論的三個演算法都是用在測試單一變項來形成每一個分隔這個方法可能會有一些問題其中之一會造成決策樹擁有超過我們所需的節點額外的節點會造成不便因為只有到達某一個節點的訓練組資料有能夠引發下一層的分支樹每一個節點的案例越少得出的分類可靠性就越低為了簡化說明我們假設只有三個人投票 52 其他決策樹的變化 53 其他決策樹的變化我們將這個情形當成訓練資料 CART或其他任何可以根據單一屬性的數值來分隔建構二分法決策樹的演算法都會建構出下圖的決策樹這個決策樹完美的將訓練組資料分組但需要五個內部分隔節點若以邏輯和函數來合併特性形成結合我們就可以獲得如下圖那樣更簡化的決策樹這個決策樹顯示使用變數結合能獲得的另一個潛在優點這個決策樹如今更能夠表現分類上顯示的無異議的觀念當所有投票人意見一致這項決策就是無異議 54 其他決策樹的變化 55 其他決策樹的變化 56 其他決策樹的變化以機械學習研究者的行話來說一個看一眼就能夠了解的決策樹具有方便理解的性質機械學習領域的一些研究者非常強調這個觀念但似乎只有在這些學者以一些小型的組織完整的資料在建構他們的研究時才能獲得這樣完美的結果 57 讓超平面傾斜傳統的決策樹檢驗一個節點的單一變數值只能形成方形區域在一個二維空間 Y N這種測試形式形成一個由與Y軸垂直且與X軸平行的直線所界定的區域藉由選擇不同的值我們可以讓這條

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

决策树分析及SPSS实现.ppt

文档简介

温馨提示

最新文档

评论

决策树分析及SPSS实现.ppt

文档简介

温馨提示

最新文档

评论

相关文档