资料采矿方法论.ppt_第1页
资料采矿方法论.ppt_第2页
资料采矿方法论.ppt_第3页
资料采矿方法论.ppt_第4页
资料采矿方法论.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、資料採礦方法論,79644010 李全鴻 79644019 吳家榮 79644020 林俊佑,前言,介紹資料採礦的兩種基本模式:假設檢定及知識發掘,提出步驟及範例。 次序 一、假設檢定過程 二、監督式知識發掘 三、非監督式知識發掘 四、實際的問題 五、案例,基本模式,假設檢定(Hypothesis Testing):由上而下 將可能的解釋賦予觀察到的現象,並將假設套用在原始資料上檢視解釋是否正確。 知識發掘(Knowledge Discovery):由下而上 分析原始資料,從中找出有用的規則或訊息,又被稱作機械學習。,假設檢定,過程介紹,假設檢定的過程,構思合理的假設 決定採用哪些樣本供測試

2、找出樣本資料 統整資料以供分析 根據資料建立電腦分析模型 評估假設是否正確,假設檢定的過程,1. 構思合理的假設: 在此階段重要的是要得到廣泛的相關訊息,以這些訊息來明確的作問題陳述。 建議採用集體討論座談的方式來集思廣益。,假設檢定的過程,2. 決定採用哪些樣本供測試: 產生假設後所決定,樣本可能存在於企業既有的資料庫中,也可能要從零散的資料做匯整,進行市場調查,甚至花費鉅資向調查公司購買相關的資料。,假設檢定的過程,3. 找出樣本資料: 所需的資料往往散佈在各種不同的作業系統中,而且往往格式不同。且面對問題的差異,有用及可立即取得的原始資料往往大相逕庭。,假設檢定的過程,4. 統整資料以供

3、分析: 在此步驟,必須將原始資料轉換成資料採礦軟體所需的格式。可能要將連續值轉換成類別變數,或將數字差異大的數據標準化等等。 但在這個過程中可能會遇到的問題包括: (1) 分類階層 (2) 系統不相容 (3) 資料編碼不一 (4) 文字資料的轉換 (5) 遺漏值的處理,假設檢定的過程,(1) 統整資料的問題:分類階層 資料的分類並非越詳盡越好。太詳盡的分類會造成以下的問題。 (a) 並非分析所需的分類 (b) 單一分類的樣本太少 然而未經統整的資料卻又太過龐大,因此選擇適當的分類階層是重要的一步。,假設檢定的過程,(2) 統整資料的問題:系統不相容 每種作業系統可能都有他們自己的一套語法,並沒

4、有所謂共通的語言,然而這個問題在目前套裝的軟體多半可以以自動轉換的方式獲得解決。如SAS除了ASCII之外,也可以支援EXCEL的格式。,假設檢定的過程,(3) 統整資料的問題:資料編碼不一 從不同來源收集特定目的的原始資料時,相同的變數資料可能會以不同的形式記錄下來,在統整時必須謹慎處理。,假設檢定的過程,(4) 統整資料的問題:文字資料的轉換 少數情形下我們會想要從文字資料中獲得有用的情報(如MBR中的新聞報導分類),但多數純文字的格式都必需經過轉換。 文字資料的格式若有一定的標準則較好處理,但仍需注意某些細節,如台中市與臺中市就會被電腦當作是兩個不同的數值但其實他們是一樣的。,假設檢定的

5、過程,(5) 統整資料的問題:遺漏值的處理 通常會選擇對有遺漏值的資料不予估計,但若真的要使用的話,就必須以最可能的數值進行替換。 可能數值的搜尋可以利用資料比對的方式,比較有遺漏值的樣本與資料庫中哪個完整樣本的相關性最強,並以完整樣本的數值取代遺漏值。類神經網路也可幫助推估出可能的數值。,假設檢定的過程,5. 根據資料建立電腦分析模型: 將所需分析的問題根據所蒐集資料的特性建立起適當的分析模型。,假設檢定的過程,6. 評估假設是否正確: 將分析模型應用在資料上,檢視假設是否成立。然而如同作學術研究,在技術的分析後往往要靠專業人士針對分析的結果提出商業或管理上的意涵,才能變成真正有用的結論。,

6、知識發掘,知識發掘的分類,可分為監督式及非監督式兩種 監督式:如MBR 找出特定變數的數值有何意義,並選定輸出變數,讓電腦找出如何對其進行評估、分類或是預測。也就是嘗試對已知的型態關係進行解釋。如選定可能會倒帳的客戶為輸出,將變數(如年收入及性別等)放入進行分析。 非監督式:如購物籃分析 沒有輸出變數,此模式的目的在於讓電腦自行找出顯著關聯的型態。,監督式知識發掘,希望能夠解答特定的問題時使用。其程序包含以下四步驟: (1) 確認原始資料來源 (2) 彙整資料以供分析 (3) 建立並測試分析模型 (4) 評估分析模型,監督式知識發掘,(1) 確認原始資料來源: 最佳的資料來源是既存的資料倉儲,

7、倉儲內部的資料皆經過固定格式的整理,方便進行分析。然而多數的情形下企業並沒有建立資料倉儲,必須收集各部門的相關資訊。,監督式知識發掘,(2) 匯整資料以供分析: 如同假設檢定時的資料彙整原則,加入有用的變數可以增加產出有用結論的機率。 許多資料採礦的情形下,資料都必須被分為訓練集(建立初始模型)、測試集(調整初始模型)及驗證集(衡量模型表現)。 資料量在資料採礦中通常越多越好,而變數也是可以儘可能的將已知的變數放入模型,可能會有意想不到的結果。,監督式知識發掘,(3) 建立並測試分析模型: 知識發掘的方法在建立模型的過程中容易出現過度學習的情形,也就是模型可能陷入只能解釋在訓練集樣本的關聯,而

8、沒辦法一體適用。此時就要靠測試集將模型修正成較能通用的型態。,監督式知識發掘,(4) 評估分析模型: 利用驗證集的樣本來評估模型分析的錯誤率,來決定分析模型是否有用。,非監督式知識發掘,沒有明確輸出變數是非監督是知識發掘最明顯的特性,如購物籃分析中,常常要問的問題是哪些商品會同時被購買,而非哪些人會買水果。 非監督式知識發掘的步驟如同監督式,但後面又多了兩個步驟: (1) 確認監督式知識發掘的可能目標 (2) 產生新假設並檢定 因非監督式知識發掘常常是進一步監督式知識發掘的前置作業。,非監督式知識發掘,(1) 確認監督式知識發掘的可能目標: 如在購物籃分析中找出A商品與B商品經常同時被購買,接

9、著就會想知道為什麼消費者會同時採購這兩樣商品,以及哪些人會買這兩樣商品等等的問題,這些問題就要靠監督式知識發掘進行解釋。 (2) 產生新假設並檢定: 如同假設檢定的過程,蒐集相關資訊並進行測試。,非監督式知識發掘,案例:銀行希望應用資料採礦增加貸款業務 運用監督式知識發掘找出潛在客戶:哪些人可能會進行貸款? 建立模型後,銀行僅想提供最可能貸款的11%客戶房貸申請函。分析人員先運用非監督式集群分析來分析顧客,發現有39%的人同時擁有銀行的商業及個人帳戶而這些人佔最可能貸款的11%中的27%。 銀行根據這個結果(商業帳戶與房貸相關)假設許多人為了創業而借貸,若假設可得驗證,銀行就可針對此特性進行行

10、銷。,實際的問題,將模型用於新資料 預測模型的有效期限 結合不同技術 解釋結論,實際的問題,將模型用於新資料: 分析模型的評分是否適用於產業環境? 預測模型的有效期限: 模型的有效性會依環境的變動而變化;舊的資料也須隨著時間的前進而必須重新評分 結合不同技術: 可同時採用多種資料採礦技術,但採礦技術越多,環境要適合就越困難。 解釋結論: 雖然電腦幫忙分析處理龐大的資料,但最後的結論仍然是要仰賴行銷人員作判斷。,案例,流失顧客分析及預測,問題,某銀行對開戶顧客的流失情形十分擔憂,希望能在顧客流失之前找出一些徵兆,也就是建立一個在問題發生前就提出警告的模型。,假設檢定計畫,流失可能原因,流失可能原

11、因,有時在交易資料中無法看出,如 原本不收費的服務開始收費 經常算錯錢 拒絕提供貸款或拒絕提高信用額度 貸款利率太高 等待時間太長,找出所需資料,以銀行而言,個人資料、交易紀錄或是電子商務、信用卡或貸款等等業務的紀錄都可能會是有用的資訊。,建立分析模型,可以利用先前所敘述的可能流失原因來建構假設,如大量使用其他銀行的ATM的客戶流失可能性較高等。 建立後利用分析方法來得知假設是否成立。,知識發掘計畫,確認資料來源,與其找尋顧客流失的徵兆,不如分析顧客的交易行為模式,來找出哪些顧客忠誠度高,又有哪些會結清帳戶。,彙整資料,著眼於時間性的規則變化,可將資料依時間排列,以顯示歷時性的改變。,非監督式及監督式知識發掘,利用自動群集偵測的方式,透過幾個重要變數的投入來分出合理的顧客集群。 當集群劃

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论