版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、21 January 2002,Roy,Data Mining 技術的應用,你不能不知的十大創新技術 Technology Review雜誌(麻省理工學院2002年1月出刊),由麻省理工學院提出,未來科技大預言,Technology Review雜誌(麻省理工學院2002年1月出刊) 公佈改變未來的十項新興趨勢 機器與人腦的介面 塑膠電晶體 資料採礦(Data mining) 數字權利管理 生物測定學(Biometrics) 語言識別處理 微光學技術(Microphotonics) 解開程式碼(Untangling code) 機器人設計 微應用流體學(Microfluidics),資料 -企
2、業寶貴之資產,何謂Data Mining?,找尋隱藏在資料中的訊息,如趨勢(Trend)、特徵(Pattern)及相關性(Relationship)。 KDD的一部份。 運用電腦儲存運算能力及使用統計方法工具。,Data Mining會合了六種領域 Database systems, Data Warehouses, OLAP Machine learning Statistical and data analysis methods Visualization Mathematical programming High performance computing,需要Data Mining的
3、原因,Large number of records (cases) (108-1012 bytes) High dimensional data (variables) (10-104 attributes) Only a small portion, typically 5% to 10%, of the collected data is ever analyzed. Data that may never be explored continues to be collected out of fear that something that may prove important i
4、n the future may be missing. Magnitude of data precludes most traditional analysis (more on complexity later).,Data Mining的功能,A process of searching through data to find the rules or models for the purpose of Classification: Decision Tree, Neural Network etc Estimation: Regression & Neural Network e
5、tc. Prediction: Decision Tree, Neural Network etc. Association: GRI, Apriori etc. Clustering: K-means & Kohonen Network,The Evolution of Data Mining,Data Mining進行步驟,1.理解資料與進行的工作 2.獲取相關知識與技術(Acquisition) 3.融合與查核資料(Integration and checking) 4.去除錯誤或不一致的資料(Data cleaning) 5.發展模式與假設(Model and hypothesis d
6、evelopment) 6.實際資料挖掘工作 7.測試與檢核所挖掘的資料(Testing and verification) 8.解釋與使用資料(Interpretation and use),Data Mining進行步驟- CRISP,NCR,ISL, Daimler-Benz, OHRA,Business Understanding,找問題確定商業目標 對現有資源的評估 確定問題是否能夠通過資料挖掘來解決 確定資料挖掘的目標 制定資料挖掘計畫,Data Understanding,確定資料挖掘所需要的資料 對資料進行描述 資料的初步探索 檢查資料的質量,Data Preparation,
7、選擇資料 清理資料 對資料進行重建 調整資料格式使之適合建模,Modeling,對各個模型進行評價 選擇資料挖掘模型 建立模型,Evaluation,評估資料挖掘的結果 對整個資料挖掘過程的前面步驟進行評估 確定下一步怎麼辦?是發佈模型?還是對資料挖掘過程進行進一步的調整,產生新的模型,Deployment,把資料挖掘模型的結果送到相應的管理人員手中 對模型進行日常的監測和維護 定期更新資料挖掘模型,Data Mining的應用,Not customer,Matured Customer,New Customer,Acquisition: Customer profiling Target m
8、arketing Segmentation Market basket analysis C,Maintenance (I): Cross-selling Segmentation Risk Management,Churn,Maintenance (II): Customer Loyalty & Retention Life-time Value Profitability,Customer Life Cycle,Data Mining的應用,Data Mining的應用,Data Mining工具,Data Miming的工具是利用資料來建立一些模擬真實世界的模式(Model),利用這些模
9、式來描述資料中的特徵(Patterns)以及關係(Relations)。這些模式有兩種用處: 第一、瞭解資料的特徵與關係可以提供你做決策所需要的資訊。 第二、資料的特徵可以幫助你做預測 。,Data Mining可以建立六種模式: Classification Regression Time Series Clustering Association Sequence,Classification: 是根據一些變數的數值做計算,再依照結果作分類。 Logistic Regression Discriminant Analysis Neural Nets Decision Tree,Decisi
10、on Tree,Regression: 是使用一系列的現有數值來預測一個連續數值的可能值。 Time-Series Forecasting: 是用現有的數值來預測未來的數值,Time-Series Forecasting的不同點在於它所分析的數值都與時間有關。 Clustering: 是將資料分為幾組,其目的是要將組與組之間的差異找出來,同時也要將一個組之中的成員的相似性找出來。,Association: 是要找出在某一事件或是資料中會同時出現的東西。 Sequence Discovery: 與Association關係很密切,所不同的是Sequence Discovery中相關的Item是以
11、時間區分開來。,Data Mining Technologies,Decision Trees Neural network Kohonen network K-means Generalized Rule Induction ( GRI ) Apriori Algorithm,AGE,BLOOD PRESSURE,CHOLESTEROL,DRUG C,DRUG A,LOW,HIGH,LOW,NORMAL,HIGH,+60,60,.,.,.,Decision Tree,Decision Trees Pro/Con,Advantage Model is easy for people to un
12、derstand Build model quickly Handles non-numeric data Works fine with many dimensions Disadvantage Limited to single dependent variable Some algorithms (e.g. CHAID) cannot predict continuous dependent variable Good stopping rules are hard to find,C5.0,Strengths Comprehensive noise handling simplifie
13、d interpretations Very efficient decision list generation Does not bias towards numerics Simplified parameter options added features such as boosting good memory management Weaknesses(?) does not handle numeric outputs,Neural Networks,Learns by feeding, the prediction error backwards and modifies th
14、e weights Particularly strong in numerical applications Neural networks are powerful, but opaque,Back Propagation Mathematics,Neural Net Pro/Con,Advantage Multiple dependent variables Continuous or discrete values Complex interactions Disadvantages Difficult, complex architectures Model is not descr
15、iptive (black box),Kohonen Networks - 1,Different type of Neural Network Kohonen Networks cluster the data Unlike neural nets and other models mentioned so far Knets are unsupervised - they do not require an output field Similar records appear close in final map Depth of color represents strength of
16、 node,Kohonen Networks - 2,Output for each record isof form $KX- $KY- Plot these co-ordinates and agitate the values - overlay symbolic attributes Kohonen Networks do not describe why records have been clustered together,K-means Clustering,Association,Rule A D C A A C B & C D,Support 2/5 2/5 2/5 1/5
17、,Confidence 2/3 2/4 2/3 1/3,A,B,C,A,C,D,B,C,D,A,D,E,B,C,E,Generalized Rule Induction(GRI),Features can handle symbolic and numeric inputs information theoretic bounds help prune the exponential search space Strengths complete search of the data space symbolic and numeric inputs Weaknesses complete s
18、earch of the data space, long run times.,Apriori,Algorithm generates associations based on notion of item sets Based on work by Agrawal et al. “Fast Discovery of Association Rules” Strengths Very efficient search technique Able to favor type of associations Weaknesses no control over ins and outs of
19、 rules. Symbolic attributes only,Algorithm Comparison,Data Mining的軟體,MLC+ (pd) MOBAL (pd) MOBAL (pd) Emerald (rp) Kepler (rp) Clementine (cp) DataMind DataCruncher (cp) Darwin (cp) Intelligent Miner (cp) INSPECT (cp) NeoVista Solutions (cp) Nuggets (cp) Partek (cp) Polyanalyst (cp) SAS Data Mining (
20、cp) Statiatica,SGI MindSet (cp) Knowledge Explorer (cp) DataEngine (cp) Delta Miner (cp) S-PLUS (cp) MATLAB (cp) Mathematica (cp) XGOBI (pd) Crystal Vision ne ExplorN sphinxVision Graf-FX IRIS Spotfire Netmap Visible Decisions Inc. Visual Mine,個案研究,英國Safeway 中國信託商業銀行 中央健保局 MCI通訊公司 US West公司 Ultra Ge
21、m公司 Wal-Mart Stores公司 美國中央情報局 機關檔案管理 啟利實業股份有限公司 某跨媒體企業集團,英國Safeway,公司簡介 英國 Safeway 的年銷售量超過一百億美金,旗下的員工接近七萬名,是英國第三大的連鎖超級市場。 遭遇問題 在英國市場運用傳統的技術,如更低的價位、更多的店面、以及更多種類的產品,競爭已經越來越困難了 。,問題確認 必須以客戶為導向,而非以產品與店家為導向。 必須瞭解六百萬客戶所做的每一筆交易,以及 這些交易彼此之間的關連性。 英國 Safeway 想要知道哪些種類的客戶買了哪些種類的產品以及購買的頻率,以建立個人導向的市場。 資料來源 公司開始發信
22、用卡給客戶,客戶用這種信用卡結帳可以享受各種優惠,這種信用卡就成為該公司在500家店面蒐集六百萬客戶資料的網 。,使用工具 使用IBM Intelligent Miner 從資料中萃取商業知識 。 根據客戶的相關資料,將客戶分為150類。然後再用 Association 的技術來比較這些資料集合,然後將列出產品吸引力的清單 。 找出模式 由於 Data Mining 的貢獻,我們找出了超過人類概念範圍的關連性。 1.發現某一種乳酪產品雖然銷售額排名第209,可是消費額最高的客戶中有25%都常常買這種乳酪。 2.發現在28種品牌的橘子汁中,有8種特別受到歡迎。因此該公司得以重新安排貨架的擺設,使
23、得橘子汁的銷量能夠增加到最大。,3.在瞭解客戶每次採購時會購買哪些產品以後,就可以利用Data Mining 中的 Sequence Discovery 的功能,以偵測出長期的經常購買行為。 4.將這些資料與主資料庫的人口統計資料結合在一起,Safeway的行銷部門就可以根據每個家庭的弱點,也就是在哪些季節會購買哪些產品的趨勢,發出郵件。,中國信託商業銀行,組織運作 行銷部門人員具備資料庫行銷的概念,以及基本的資料分析能力,能夠透過親和力高的工具介面 ,從資料庫中取出的所需資料。對於比較進階的顧客行為分析與預測,則交由業務資訊整合部門下的商業智慧單位 (BIU) 與行銷企劃部下的data mi
24、ning科,這兩個單位主要在瞭解行銷單位對於資訊應用方面的需求。,顧客資料分析 由於信用卡與存款業務的特性,銀行業特別容易拿到顧客的資料;可以藉由掌握顧客行為做為決策的參考依據。因此顧客資料的掌握、維持與分析對中信銀來說非常重要。 資料分析,使用技術 與顧問公司合作開發,顧問提供建置模型、選用參數等專業知識以及技術轉移,中信銀則提供經驗值,依據地區環境的不同納入參數到模型中。之後中信銀則可以依據這個方式自行再建立與修正模型。 在進行統計分析時乃是用SAS、SPSS等統計套裝軟體來進行分析 。 亦建置有模式庫,內含一些行銷相關的模式,包括顧客獲利模式、信用評分模式(Credit Scoring)
25、等。 分析結果 了解誰是有利潤、誰沒有利潤的是一件重要的事。可以利用過去幾年的經驗為基礎,建立數據分析模型,推斷出哪些客戶最有可能拋棄他們的信用卡。這項分析模型可以包含下列因素: 每年平均消費金額 每月未清償的結餘金額 其他信用卡的持有數 持卡人的收入 與銀行往來與持卡的年數 其他產品帳戶的結餘金額,中央健保局,主要目的 追查中斷投保者:發掘出中斷者的特徵與發生中斷之規則。 追查繳費異常者:發掘出繳費異常者的特徵與發生繳費異常之規則。 開發資訊系統供後續應用。 進行步驟 資料的取得、轉換以及處理 萃取/增刪被保險人的相關屬性 利用資料挖掘技術來萃取規則 分析與解釋規則,分析結果 較易中斷者:
26、若投保單位的眷屬在保人數在171175人之間者,則其被保險人較易中斷。(有115,841筆,機率1.000) 被保險人的眷屬人數在5人以上,且其投保單位的眷屬在保人數在175687人,則此被保險人較易中斷。(符合左邊條件有22筆,機率0.864) 若被保險人擁有多位眷屬依附投保(8人以上),則此被保險人較易中斷。(符合左邊條件有2,785筆,機率0.987。) 一類被保險人中,若其投保金額在18,750以下,且依附其投保的眷屬在9人以上者,較易中斷。(符合左邊條件有1,695筆,機率0.992) 女性被保險人中,若其投保金額在15,720以上且依附其投保的眷屬人數在8人以上者,較易中斷。(有4
27、32筆,機率1.000),較不易中斷者: 之前有正常轉出入記錄、投保單位的眷屬在保人數介於687920人被保險人,較不易中斷。(符合左邊條件有374,580筆,機率0.999。) 沒中斷過的被保險人中、若其無眷屬依附投保、且其投保單位的眷屬在保人數在175人以上,則此被保險人較不易中斷。(符合左邊條件有447,266筆,機率0.998) 沒中斷過的被保險人中,若其投保單位的眷屬在保人數在171人以下,則此被保險人較不易中斷。(符合左邊條件有236,512筆,機率0.904),機關檔案管理,研究背景 我國過去各機關檔案管理作業,各有其管理原則及執行方式,因此造成資料整合及檔案利用上的不便。隨著科
28、技的日益進步,以及電腦網路的快速發展與普及,檔案管理電腦化已成必然趨勢。因此如何整合各機關,有效地進行檔案管理並妥善的運用,已成為一件極為重要的課題。 目前為了配合檔案法的公佈,政府目前正積極籌設專責中央主管機關,並研訂相關法令規定。本研究主要目的即在就已蒐集之各機關檔案管理現況調查資料,經整理分析後,提出具體可行建議,以供國家檔案局籌備處訂定相關規定之參考依據。,研究方法 本研究報告,係採用問卷調查法、統計分析法及文獻分析法,進行研究與撰述。檔案管理現況調查表係由行政院研考會研訂,並於89年初分函各檔案機關,實施問卷調查。 問卷經函發後回收計3940份。有關問卷譯碼、資料鍵入、資料檢誤、資料
29、分析及報告編寫等工作,由輔仁大學統計學系及輔仁大學圖書資訊學系共同執行。問卷資料以統計套裝軟體SAS、SPSS、 STATISTICA進行資料分析。,檔案管理現況調查問卷資料查詢系統,人員配置標準模式建立流程,啟利實業股份有限公司,公司名稱:啟利實業股份有限公司 負責人:張明德 資本額:一億七千五百萬元整 成立時間:民國五十八年 主要產品:復合纖維、復合紗、彈性 布功能性布料、Yarn Dye,動機與目的 正確快速的決策憑藉正確的預測值 遭遇之實務問題 非統計專業人員不易使用統計軟體 I/O作業繁雜不易處理 尚無一個整合型之預測資訊系統,解決方案,系統發展方法-雛型法,系統發展工具 Micro
30、soft Window 98 Microsoft Office 2000-Excel、Powerpoint、Word、Access STATISTICA 5.5 Microsoft SQL Sever 2000 Microsoft Visual Basic 6.0,系統之整體架構表示,資料庫簡介 前端資料庫軟體-正航顧問五號 後端資料庫 -Microsoft SQL server 2000 從民國83年1月開始使用,研究貢獻 建置推論引擎以簡化統計 統計與非統計人員皆能使用 Office自動化 整合統計與資訊領域 方便性與User-Friendly 通用資料庫的查詢與連結 強調理論與實務的結合
31、,某跨媒體企業集團,短期目標: 提高客戶滿意度(Customer Satisfaction) 留住顧客增加客戶的忠誠度(Customer Loyalty) 更了解客戶的需求(Customer Needs and Wants) 增加產品銷售(Up-Selling、Crossing-Selling) 中長期目標: 增加總體收益(Revenue Income) 節省行銷成本(Target-Marketing) 提高競爭優勢提昇在同業的競爭力(Competitive Advantage) 完成整合行銷(Integrated marketing),為何需要Data Mining 各單位空有寶貴的資料,卻無法將他變成金礦(Miner large Data to Golden)。 利用Data Mining,將龐大資料庫再加工利用。 各單位運作為平行線,沒有交集,相同工作分散進行,事倍功半,浪費資源。 利用Data Mining,整合資料,增加分析效能。 資料庫無法整合,無法進行整合行銷,擴大市場量。 利用Data Mining,連結各家資料庫,擴展資源。 藉由了解客戶需求,可以降低行銷成本,創造新需求,進而達到目標行銷的目的(Target Marketing)。 利用Data Mining,主動創
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 洪河农场内部管理制度
- 海外联谊会内部管理制度
- 炼铁厂内部奖励取费制度
- 煤矿内部消防管理制度
- 煤矿科内部考核制度
- 理财双录内部监督制度
- 监管变更内部制度
- 科室内部审核制度
- 科研内部协作制度
- 管委会内部培训制度范本
- 2026天津师范大学第二批招聘 (辅导员、专业技术辅助岗位)27人考试参考题库及答案解析
- 2026辽宁沈阳吉驰汽车产业发展有限公司社会招聘23人考试参考题库及答案解析
- 2026年南京城市职业学院单招职业倾向性测试题库带答案详解(培优)
- 2026年湖南网络工程职业学院单招(计算机)测试模拟题库附答案
- 五色抹布使用制度规范
- 工贸企业重大事故隐患判定标准解读
- 2026年苏州信息职业技术学院高职单招职业适应性考试参考题库及答案详解
- 水族造景概述课件讲解
- 人教版八年级下册地理上课教案第六章 中国的地理差异
- 《危险化学品安全法》全文学习课件
- 2026年湖南大众传媒职业技术学院单招职业技能测试必刷测试卷及答案1套
评论
0/150
提交评论