决策树演算法.ppt_第1页
决策树演算法.ppt_第2页
决策树演算法.ppt_第3页
决策树演算法.ppt_第4页
决策树演算法.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章決策樹演算法 大綱 說明決策樹演算法的概念討論有趣決策規則的概念用一個實例來展示決策樹的規則探討決策樹的實際應用展示在龐大的資料集中如何應用決策樹在附錄中展示See5的決策樹分析過程 決策樹 在資料探勘的領域中 決策樹 decisiontrees 被認為是一種樹狀結構的規則 經常被稱為關聯性規則 決策樹資料探勘包含了蒐集分析者認為與決策有關的變數 以及分析這些變數對預測結果的能力 決策樹提供了一種以規則為基礎的演算法 ID3決策樹以啟發式方法 entropyheuristic 來選擇哪個屬性適合成為下一個節點 這是與其他資料探勘工具在選擇分支上的不同處 決策樹的運作 表8 1各種屬性值的組合 決策樹的運作 表8 2第一個規則 決策樹的運作 圖8 1貸款者的部分樹狀結構此結構使用了分類資料 這樣型態的樹被稱為分類樹 在做預估及預測的情況中 如果資料有連續的結果也可用樹狀結構來表示 這些樹就被稱為迴歸決策樹 regressiontree 有趣的規則 規則的有用性是用信任度和支持度來衡量 關聯規則的支持度 support 代表的是 在資料庫中此規則的變數在同一筆記錄出現的比率 最小信任度 confidencelevel 及支持度可以用來決定由決策樹方法所產生的規則 或其他關聯性規則 是否要加以保留 利用資料探勘找出意外的資訊 知識探索 具有極高的興趣度 interestingness 機器學習 機器學習 machinelearning 剛開始並沒有任何的假設 僅針對輸入資料與分類結果進行分析 雖然不考慮專家的判斷可能會被認為效率比較差 但是卻可避免人為的偏見 反覆的分割可以將資料分成更細微的小集合 最後的結果就是一株決策樹 機器學習 表8 3過去20位貸款者的資料 機器學習 表8 4資料分組 機器學習 表8 5結果 機器學習 大多數的資料探勘軟體使用熵值 entropy 衡量每個變數的區別能力 由Koonce所提出的熵值公式 機器學習 表8 6年齡類別的熵值 機器學習 第一條規則第二條規則 機器學習 表8 7計算機率 機器學習 表8 8重算後的機率 機器學習 第三條規則表8 9以三條規則預測正確率 機器學習 第四條規則表8 10以四條規則預測正確率 機器學習 機器演算學習規則 機器學習 表8 11規則應用測試結果 機器學習 圖8 2規則組的決策樹 機器學習 表8 12規則組的錯差矩陣 決策樹的應用 存貨預測資料探勘模式是由歸納來產生規則 臨床醫療資料庫探勘根據約略集合理論 roughsettheory 發展一個以機率規則為基礎的歸納系統 軟體發展品質知識發掘的目標在於從過去發展模組的資料中發現樣式 如此可以對會發生錯誤的軟體模組有更好的預測 軟體發展品質 第一個被CART演算法所辨認出的模式有以下規則 軟體發展品質 第二個被CART演算法所辨認出的模式有以下規則 軟體發展品質 評估 表8 13測試資料的軟體品質錯差矩陣表8 14測試資料的軟體品質錯差矩陣 貸款系統資料 表8 15針對低齡的分群資料 貸款系統資料 表8 16針對壯年的分類資料 貸款系統資料 表8 17針對高齡的分群資料 貸款系統資料 表8 18組合結果 貸款系統資料 表8 19年齡的熵值計算 貸款系統資料 第一條規則8 20第一規則的錯差矩陣 貸款系統資料 第二條規則表8 21案例的機率 貸款系統資料 表8 22前兩個規則的錯差矩陣表8 23重算後的機率 貸款系統資料 第三條規則表8 24三條規則的期望準確率 貸款系統資料 表8 25三條規則的錯差矩陣機器學習演算法停在 貸款系統資料 表8 26由均衡資料集得到的結果 保險欺騙資料 模式表8 27See5詐欺模式的錯差矩陣 求職者資料 使用前300個類別型觀察值當作訓練資料 規則如下 求職者資料 表8 28求職者類別型測試資料的模式錯差矩陣 求職者資料 標準化的連續型資料集以See5的決策樹進行分析 產生的決策樹如下 求職者資料 表8 29求職者分類模式的測試資料的錯差矩陣 See5決策樹分析 資料清理 表8A 1消費資料的變數 資料清理 表8A 2Cloth2的前5個觀察值 資料探勘程序 圖8A 1找出要載入的資料圖8A 2資料已載入 資料探勘程序 圖8A 3選擇分類的建構方式圖8A 4建構設定 資料探勘程序 圖8A 5經過訓練後的決策樹圖8A 6選擇使用分類 資料探勘程序 圖8A 7輸入樣本資料圖8A 8預測結果 總結 決策樹是非常有效且有用的資料探勘方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论