《决策树的重要性》PPT课件.ppt_第1页
《决策树的重要性》PPT课件.ppt_第2页
《决策树的重要性》PPT课件.ppt_第3页
《决策树的重要性》PPT课件.ppt_第4页
《决策树的重要性》PPT课件.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

決 策 樹 分類法 中原 資管所 李維平 老師 決策樹的重要性 n在商業界最常用的方法之一 Decision Tree 之意義 Decision Tree 之意義 nIf We have much money nANDWe are buying a gift for an adult nTHEN Buy a car nIf We have much money nANDWe re buying a gift for a child nTHEN Buy a computer Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No No No No No No No No No No No No No No No No No No Yes 有弦? 用吹的? 彎如弓的? 演奏時要用下巴夾的? 用彈的? 有鍵盤的? 木管樂器? 有簧片 ? 有雙簧片? 銅管 樂器 ? 常用 於通 俗樂 器中 ? 比 演 奏 者 高 ? 常用 於通 俗樂 器中 ? 有十 根弦 以上 ? 打擊樂器 ? 有 弦 ? 鼓 棒 ? 有音 鎚的 ? 曲型 的? 筆直 的? 彈奏? 小提琴中提琴 低音提琴大提琴 不知道 豎琴詩琴揚琴不知道 電子樂器風琴 Yes 撥弦古鋼琴鋼琴 YesNo YesNo 名詞解釋 n根節點 n葉節點 n內部節點 決策樹本質:是一個分類器 n收入 n年齡 n職業 n 分類器 好 普通 差 銀行客戶: 信用分類 “信用”為 目標屬性: 決策樹 n決策樹優點:可以萃取分類規則 n例如:銀行新客戶的信用分類問題 決 策 樹 X1 X2 Y 決策樹例子 1:信用好, 2:信用差 收入 年齡 X2 X1 2 2 2 2 2 2 2 1 11 1 1 1 30 7万 5万 3万 年齡 111 111 222 2222 年齡30 收入 11 2222 1111 222 收入5万 單純資料 混亂資料 例子: 舊客戶購買之歷史資料 No性別 學院 購買 產品 1男商電腦 2男人文 手機 3女商電腦 4女人文 手機 n新客戶:女生、商學院,請問她最可能購買的產品? 決策樹例子 1:電腦, 2:手機 學院 性別 1 2 1 2 男女 學院 2 2 1 1 商 人文 單純資料 男女 商 人文 電腦電腦 手機手機 性別 混亂資料 (混亂度高) (混亂度低) 決策樹 n目標屬性:購買產品類別 n輸入屬性:性別、學院、年級 性別 年級學院 購買產品 購買產品 混亂度 n定義:一群物件的 目標屬性 混亂的程度 n三種計算方式: nP1 * P2 01/4 nP1 :這群物件目標屬性值為 1的機率 nP2 :這群物件目標屬性值為 2的機率 nMin (P1 , P2) 01/2 nEntropy: - P1log2 P1 - P2log2 P2 01 練習: 計算混亂度 1, 1, 1, 1 1, 1, 1, 2 1, 1, 2, 2 Min (P1 , P2) P1 * P2 決策樹精神 n挑選一輸入屬性,能將目標屬性的混亂度降到 最低 決策樹演算法 n(Step1) 選擇一輸入屬性,將所有objects作分類 n(Step2) 計算分類後之 平均混亂度 n(Step3) 選擇能使混亂度降得最低的屬性,作為節 點之判別屬性 n(Step4) 反覆(Step13) ,直到停止條件 停止條件 n當葉節點滿足下列條件 即停止 n1. 所有物件的目標屬性,皆為同一類 n2. 沒有輸入屬性可以降低混亂度 決策樹模型: 三階段模式 n訓練階段 n將決策樹訓練出來 n測試階段 n測試決策樹的準確性 n運用階段 n可對一未知資料作分類 Decision Tree 之準確率 n利用 ”測試資料” 作測試 練習 ageincomestudentcredit_ratingbuys_computer 40mediumnofairyes 40lowyesfairyes 40lowyesexcellentno 3140lowyesexcellentyes 40mediumyesfairyes 40mediumnoexcellentno age? income?credit rating? fair excellent 40 nonoyesyes yes 3040 Root Node Child Node Leaf Node h m l no 決策樹相關演算法 nID3 : (前面所教) nQuinlan 1979 n輸入屬性為離散 nC4.5 : (IBM Mining 軟體所採用) nBreiman 1984 n輸入屬性可為連續 決策樹 mining 過程 nA 決定想解決的問題 nB 決定目標屬性與輸入屬性 nC 決定資料範圍 nD 資料前處理 n或許需要將連續變數改為”離散”變數 nE 建構決策樹,並解釋結果 nF 若無法解釋,應回到 A 或 B 再思考 決策樹專案 注意事項 (1/2) n目標變數應為 ”離散(類別)” 變數 n值不能太多 n輸入變數 n關聯性太高不適合使用 n預測所得高低: 輸入變數為 年齡, 職業, 繳稅高低 n預測打擊率高低: 輸入變數為 年齡, 守備 位置, 長打率, 月薪 決策樹專案 注意事項 (2/2) n目標屬性與輸入屬性關聯性太低 n例如: 樂透獎 n輸入:年,月,週,日 n輸出:樂透號碼 作業 (碩專) n時間:2 週 n請於 3 / 24 (一)前,將報告 mail 給老師 與上課成員 n報告請用Word檔撰寫,約36頁 n應說明每位組員的貢獻 n若有問題詢問,每位組員皆可回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论