




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
資料勘與知識發現期中報告Toward a hybrid data mining modelfor customer retention指導老師:黃三益 教授組員:鍾友華 M965040023 張智欽 E123502191 于亨宗 N954020003資料來源:Knowledge-Based Systems, Vol 20(8), Dec 2007. pp. 703-718.綱 要u Background and motivationu The goal of the data mining tasku Description of the data setu Data techniques and Detailed data mining and Resultu Conclusions and critics壹、 Background and Motivation所謂客戶流失(Customer Churn)係指失去現有客戶,且其成為競爭對手之客戶。此一現象可能導致企業損失可觀的利潤。因此,如何藉由留住顧客(Customer Retention)來防止客戶流失,是顧客關係管理(Customer Relationship Management,CRM)的核心議題。以台灣目前的市場環境而言,行動電話的使用者可以很容易的轉換服務提供廠商;一個傳統的服務提供廠商,每個月失去超過百分之四的用戶。因此如何留住客戶對提供行動電話服務的廠商而言,尤其重要。此外,開發一個新用戶所需付出的成本為留住一個現有用戶的五至十倍。基於以上所述,若能找出一個較好方式來預測客戶的行為,以確保其忠誠度,將是經營上的明智作法。因為若能準確預測客戶的行為,則可提前實施延續客戶關係等措施,有助於將客戶流失降至最低。目前已有廠商開始審視其流失客戶的資料,並以傳統的統計方法試圖找出流失客戶與公司政策之間的依賴關係。甚至亦有廠商更進一步的使用資料探勘技術,希望能獲得更好的結果。然而,幾乎所有的研究均置重點於如何提升預測客戶流失的準確率,而未使用結果分析以制定政策來防止客戶流失。本文件針對留住客戶的議題,提出一個混合式的架構。該架構包含二個模式,即學習(Learning)與使用(Usage)。此二模式中均建構了二個模型:流失客戶模型(Churn Model)和政策模型(Policy Model)。貳、 The goal of the data mining task此一混合式的客戶保留系統以兩種模式執行:學習模式和使用模式。 Churn ModelLearner Policy ModelConstructorChurnModelPolicyModelHistoricalSubscriberDatabase圖1. 學習模式的系統架構在學習模式中建構了流失客戶模型和政策模型。流失客戶模型使用分類技術以預測在特定情況下,何種客戶可能流失。政策模型使用分群技術以分析流失客戶模型,並發展與各群組相關聯的政策。在使用模式中亦建構了流失客戶模型和政策模型。此階段的流失客戶模型用以預測某一客戶是否即將流失。若該客戶有流失的高度可能性,政策模型即予以進一步分析該客戶的資料,並提出一適當的政策,以嘗試留住該客戶。參、 Description of the data Set本實驗所使用的用戶資料庫是由台灣一家主要的電信業者所提供。資料庫中包含了65,516筆2001年七月台灣所有區域的商業用戶資料。業者將流失客戶定義為取消其所有曾使用之服務的顧客。根據該定義,2001年七月有15,600位客戶流失,或說是該資料庫中有23.8%的客戶流失。該客戶資料庫共包含了253屬性,而經由長期在電信公司客戶服務部門工作的該領域專家,挑選了十二個最有可能與客戶流失相關的屬性(如下表所示): Chinese term English meaning 性別 Gender 居住區碼 Zip code 客戶業別 Industry code 通路代碼 Dealer ID 營運據點代碼 Site code 申租費率 Package code 優惠類別 Discount type 租期 Tenure 停機次數 Times of service suspended 復機次數 Times of service resumed 拆機次數 Times of service terminated 平均費用 Average invoice肆、 Data techniques and Detailed data mining and Result 4.1.1 Classification technique此篇研究中所採用的其中一項演算法為ID3演算法的延伸:C5.0。決策樹是以樹狀資料結構為基礎的分類分析方法,其主要的優點在於可產生易被人類瞭解與運用的決策法則。決策樹的建構是利用監督式的學習法從訓練範例集合中,以適當屬性挑選函數,從訓練範例的屬性中挑選出可用以建構決策樹根節點(root node)及內部節點(internal nodes)的屬性,用以建構決策樹並對訓練範例進行區分的處理。C5.0 是目前最常使用的決策樹分類分析法,C5.0 是學者Quinlan 改進著名的ID3 學習演算法而發展出的決策樹歸納學習法。ID3 為一決策樹歸納技術,在構建決策樹過程中, ID3 以資訊獲利(Information Gain)為準據,選擇最佳的屬性當成決策樹的節點,使得所導致的決策樹為一最簡單(或接近最簡單)的決策樹。資訊獲利(Information Gain)是由以某一屬性為決策樹節點所產生的子決策樹之Entropy與物件集合的Entropy所決定假設訓練資料形成得集合S中有n 種類別Ci , i = 1,2 ,3 . n ,每個類別的資料個數以表示,| S |代表S 中所有資料的個數,因此各個類別其資料出現機率可表示為,因此根據消息理論,各個類別的資訊為,訓練集合中包含各個類別的訓練資料,由各類別的資訊量可以計算出訓練集合的平均資訊量,為各個類別的資訊量乘上各個類別資料的機率總和為:,根據entropy(S)的計算方式,當集合S 根據某個屬性A 分割成多個子集合時,其分割後所佔的資訊量等於各個子集合的資訊量乘上各個子集合所佔的比例的總和:因此集合S經由屬性X分割後所獲得的資訊量則為分割前的資訊量減去分割後的資訊量,表示為:。而ID3 學習系統選擇分類屬性的方法即計算所有屬性的gain 值,並選擇其中gain 值最大的做為分類屬性。決策樹以此屬性的屬性質分割成多個訓練子集合,形成多個樹。各個子樹重複上述步驟尚未被選為分類的屬性中在找出gain 值最大的作為分類屬性,在分割成多個子樹直到不能再分為止。ID3 選擇分類屬性的方法對於一般學習問題已經有不錯的結果,但是當分類條件較偏向分出的子集合較多的屬性,其中最特殊的便是當集合S 分割後的子集合都只有一個資料時,其分割後的資訊量為零,因此所或的的資訊量最大。然而此種分割並沒有太大的意義。為了彌補這種缺點,Quinlan 在C4.5 中提出將gain 正規化的方法以緩和分成過多子集合的效應。正規化的方法是利用將原有的gain 值除以split info(X) 的值, 即其中可代表集合透過屬性A 分割的子集合個數指標,分割後的子集合個數越多split info 的值就會越大,相對的gain ratio 的值就偏小。因此利用split info 使得C5.0學習系統改善了ID 分類偏向多子集合的缺點。另外C5.0改進了ID3無法處理連續屬性和處理遺失屬性的問題。如果訓練案例T中的所有屬性值按照順序排好,表示如下:v1、v2vm。則可用下列代表新的分類屬性。至於處理遺失屬性資料的問題,則是採用下列公式: ,T代表了Training set,而K代表了從T中扣除掉有遺失屬性資料的集合。所以說就是算出正常資料的比例在乘以gain(X)。4.1.2 Experimental results為了避免會出現偏差的結果,所以先將所以資料分成5部分,然後兩兩組合。接著在將Trainning set使用C5.0去作分類,另外再拿出資料去當作Testing set,最後在用實際例子去加以評估。上表顯示出了實驗結果,每一種組合有3組數值,分別代表了:所有的資料、錯誤的資料、錯誤率。以combination 1為例,其Training set 總共有26687筆資料,其中有1441筆預測錯誤,故錯誤率是1441/26687=5.4%。所以從此表可以得知Combination 3是最好的,他被評估出擁有最低的錯誤率15.3%。所以Combination 3被獲選為churn model。它包含了12種屬性中的其中9種,這代表了churn model只需要9個屬性即可找出來。如下表所列: 所以建出來的決策樹如下圖所表示,舉例說明:1. 當Time of service terminated = 0 & Time of service suspended = 0 & site code = 5 & Industry code = 6 & Package code = 8 時,誤判的機率為-(68/14)=4.8571%。2. Time of service terminated = 0 & Time of service suspended = 2 & Time of service resumed = 4、5、6時,誤判的的機率為0%。4.2.1 Clustering technique此篇研究中所採用的另一項演算法為the growing hierarchical self-organizing map(簡稱GHSOM),中文稱之為增長層級式自我組織映射圖,來作為cluster的分群準則。要採用GHSOM時,必須先提到the self-organizing map(簡稱SOM),中文稱之自我組織映射圖,是將高維度的資料映射至二維度的空間中,但是自我組織映射圖是以二維的方式呈現資過於簡化資集的複雜關係,在大的文件資中可能存在階層的關係,因此此篇點出以下兩個缺點:1.自我組織映射圖的撲結構大小固定且需在進訓前設定,導致容找到最佳群。2. 以二維的方式呈現資過於簡化資集的複雜關係,在大的文件資中可能存在階層的關係,因此只以簡單的二維形式表示資結構是夠的。而增長層級式自我組織映射圖是一種動態演算法,在增長層級式自我組織映射圖的階層結構中具有多個層級,每層級皆由個獨的自我組織映射圖所組成。每層級中的撲結構大小依據資而有所成長。以下簡述GHSOM的階層架構圖,。layer 0是代表整個文件集,是控制階層的成長是必要的一層。下圖中的layer 1的地圖大小為22,是輸入向主要的分群,此階層的地圖大小宜太大,layer 2 中有3 個獨的地圖可提供相近的文件資。在layer 2中有二個單元可擴大到layer 3提供相近的文件表示。在增長層級式自我組織映射圖中每個地圖的大小是根據資的結構而有所同,因此可以減輕自我組織映射圖需先定義地圖大小的負擔。此外,GHSOM是藉由化誤差 (quantization error)引導整個訓過程,在此採用平均化誤差 (mean quantization error, MQE)衡輸入向與映射單元間的相性,並控制整個成長過程。其MQE計算方式如下:其中d表示輸入向x樣本、wi表示權值向。而整體終止的準則 (global termination criterion)如下:其中表示第0層的平均化誤差、表示輸入資品質的控制。由於增長層級式自我組織映射圖每階層由個獨的自我組織映射圖所組成,因此訓過程與自我組織映射圖的演算法相同,但是第一層的撲大小初始值能設太大。對於所有滿足整體終止準則的單元而言,需要將細部的資表示,也就是需要在擴張到下一層。在其成長過程需針對每一層級計算MQE,公式如下:其中表示第m層中獨的自我組織映射圖。其中表示控制增長層級式自我組織映射圖成長的。由於在實際情況中,有些資料可能包含有未知的屬性值,而GHSOM卻無法處理,因此為了改善此缺點,假設訓練集T中的A屬性包含有未知值,則該篇研究用了一套方式來改善,其公式如下其中是T中含有的機率,n為總體訓練集的值。4.2.2 Experimental results透過修正的GHSOM來分群,最後共可以分為四群,再透過四群中的屬性差異來做相關有益的解釋及相對應這四所做的相關政策,以下為四群以及所包含屬性值Cluster 1Cluster 2 Number = 4031Number = 2418 Industry code = Individual (0.84)Times of service terminated = 1 (0.97) Dealer ID = 0 (0.81)Dealer ID = 0 (0.94) Times of service resumed = 0 (0.64)Industry code = Individual (0.84) Discount type = Guaranty-Free (0.56)Times of service resumed = 0 (0.73) Times of service terminated = 0 (0.51)Discount type = Guaranty-Free (0.66) Times of service suspended = 1 (0.41)Package code = Base-Rate (0.60) Site code = Site-7 (0.38)Site code = Site-1 (0.59) Average invoice = 10002000 (0.34)Times of service suspended = 1 (0.48) Package code =Base-Rate (0.26)Average invoice = 10002000 (0.23) Cluster 3Cluster 4 Number = 5303Number = 3848 Industry code = Individual (0.95)Times of service terminated = 0 (1.0) Times of service terminated = 0 (0.91)Industry code = Individual (0.99) Times of service suspended = 0 (0.79)Dealer ID = 0 (0.87) Dealer ID = 0 (0.61)Times of service resumed = 0 (0.75) Discount type = Guaranty-Free (0.54)Site code = Site-2 (0.69) Package code = Ultra-Low-Rate (0.42)Discount type = Guaranty-Free (0.56) Site code = Site-7 (0.35)Times of service suspended = 1 (0.42) Average invoice = 200500 (0.32)Package code = Base-Rate (0.37) Times of service resumed = 0 (0.14)Average invoice = 200500 (0.22) 作者在由此四群中分別挑選出該群中的重要屬性值,其結果如下Cluster 1Number = 4031Average invoice = 10002000 (0.34)Package code =Base-Rate (0.26)Cluster 2Number = 2418Times of service terminated = 1 (0.97)Package code = Base-Rate (0.60)Site code = Site-1 (0.59)Times of service suspended = 1 (0.48)Average invoice = 10002000 (0.23)Cluster 3Number = 5303Times of service terminated = 0 (0.91)Times of service suspended = 0 (0.79)Package code = Ultra-Low-Rate (0.42)Average invoice = 200500 (0.32)Cluster 4Number = 3848Times of service terminated = 0 (1.0)Site code = Site-2 (0.69)Times of service suspended = 1 (0.42)Package code = Base-Rate (0.37)Average invoice = 200500 (0. 22)由分群結果可知群一:該群特性中,用戶的Average invoice = 10002000 (0.34)往往超過Package code =Base-Rate (0.26),另外由於租費低,往往每秒通訊費用傾向於更高的部分,用戶往往不清楚,而供應商也未去注意,最後導致客戶的流失。制訂相關政策:1.建議用戶換適當的費率2.使用一些預付的機制,例如預付1200元時,實際使用可達到1400的價格。群二:該群2418的客戶幾乎都有Times of service terminated = 1 (0.97),為基本費率Package code = Base-Rate (0.60),快六成的用戶營運據點為同一處Site code = Site-1 (0.59),此外,每月Average invoice = 10002000也是偏高,該群所承憲的狀況可能有兩種解釋,第一種就是該類型客戶已經出現有詐欺的狀況,因為幾乎都是同一處Site code = Site-1,Base-Rate跟較高的Average invoice,以至於最後未付款;另外,就是像群一的情況,費率不平衡而產生抱怨,但是卻不會因抱怨而放棄原來所使用的服務。制訂相關政策:1.延遲一週後才中止2.建議客戶更換適合費率3.改善服務據點的服務。群三:該群用戶都用低費率且每月花費上亦不高,但過去也沒有終止使用的紀錄。制訂相關政策:1.對於通訊費率給予折扣2.鼓勵用戶使用預付款項。群四:透過churn並無法明確得知該群客戶的特性,屬性並不明顯。制訂相關政策:1.多注意所謂的消費者經驗2.查核從churn發現的抱怨紀錄。伍、 Conclusions and critics5.1 Conclusions這個文章描述了一個處理客戶挽留預測的問題。不僅是預測用戶流失的機率而已,而且還提出了保留政策。主要分成兩種模式,學習模式和使用模式。在學習模式下,churn model學習者發現從歷史數據發現潛在的關係。然後根據此數據發展成churn model。接著第二步,policy model使用出現在churn model的屬性來分割所有churners成不同的群體,並為每個churner group制定出具體的policy model。在使用模式下, churner使用churn model來預測客戶流失的概率。流失機率越高將使churner根據該政策模式選擇採用的建議具體措施。根據實驗證明,churn model具有精確度約為85 。在這個系統中,首先使用C5.0分類之後,在將挑出來的屬性按群聚的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国3D项目创业计划书
- 毛某某诉高某某买卖合同纠纷案案例分析-萧山法院
- 生活变化课件
- 小王子题目及答案
- 法律基础知识课件
- 不玩尖锐教学课件
- 局解教学课件胸部
- 现代渔船安装方案(3篇)
- 农田坑塘整治方案(3篇)
- 商场消设置方案(3篇)
- 江苏省苏州市2024-2025学年高一历史下学期期末考试试题含解析
- 安徽省马鞍山市2024-2025学年高一生物下学期期末考试试题
- 蔬菜农药残留检测合同
- YY 0117.1-2024外科植入物骨关节假体锻、铸件第1部分:Ti6Al4V钛合金锻件
- 任务6.4 IBP盘认知与操作课件讲解
- 2024年首届全国“红旗杯”班组长大赛考试题库800题(含答案)
- 基于3D打印技术的个性化正畸矫治器设计
- 国际化竞争格局下的动漫游戏行业发展策略
- 河南省郑州市中原区2023-2024学年八年级下学期期末历史试卷
- GB/T 44087-2024北斗三号区域短报文通信用户终端技术要求与测试方法
- 资本论在中国智慧树知到期末考试答案2024年
评论
0/150
提交评论