Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-数据挖掘_第1页
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-数据挖掘_第2页
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-数据挖掘_第3页
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-数据挖掘_第4页
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-数据挖掘_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MicrosoftSQLServer2005

DataMining演算法–

NaïveBayes謝邦昌輔仁大學統計資訊學系教授

中華資料採礦協會

理事長

stat1001@.twWWW.CDMS.ORG.TW1NaïveBayesClassifier

單純貝氏分類2何謂NaïveBayes

Classifer單純貝氏分類器(NaïveBayesClassifier)是一種簡單且實用的分類方法。在某些領域的應用上,其分類效果優於類神經網路和決策樹採用監督式的學習方式,分類前必須事先知道分類型態,透過訓練樣本的訓練學習,有效地處理未來欲分類的資料。3何謂NaïveBayes

Classifer用於大型資料庫,可以得出準確高且有效率的分類結果單純貝氏分類器主要是根據貝氏定理(BayesianTheorem),來預測分類的結果。4何謂NaïveBayes

Classifer單純貝氏分類器,主要的運作原理,是透過訓練樣本,學習與記憶分類根據所使用屬性的關係,產生這些訓練樣本的中心概念,再用學習後的中心概念對未歸類的資料進行類別預測,以得到受測試資料物件的目標值。每筆訓練樣本,一般含有分類相關連屬性的值,及分類結果(又稱為目標值);一般而言,屬性可能出現兩種以上不同的值,而目標值則多半為兩元的相對狀態,如“是/否”,”好/壞”,”對/錯”,”上/下”。5隨機實驗隨機實驗

1.新生嬰兒性別

2.產品檢驗樣本點

1.男性、女性

2.良品、不良品樣本空間

1.S={男性、女性}

2.S={良品、不良品}隨機實驗(RandomExperiment)是一種過程,實驗前已知所有可能結果,實驗前不可預知實驗結果,相同狀況下實驗可重複試行。樣本空間:隨機實驗所有可能結果所構成的集合。樣本空間內元素稱為樣本點。樣本空間的子集合稱為事件。6機率的概念機率是衡量某一事件可能發生的程度(機會大小),並針對此一不確定事件發生之可能賦予一量化的數值。考試會錄取的機率、明天會下雨的機率7機率理論的種類一、古典機率又稱先驗機率(priorprobability)或事前機率,一隨機實驗滿足下列條件:1.樣本空間的樣本點數是有限的

2.樣本空間內所有樣本點發生機率為相同的

事件E發生的機率以P(E)表示:

P(E)=事件E樣本點之個數/樣本空間樣本點之個數8機率理論的種類二、經驗機率又稱相對頻率機率,是指一實驗重複實行,則某事件發生的機率定為在長期的實行中,該事件出現的次數與實驗總次數之比

P(E)=

lim

n(E)n→∞nn:隨機實驗之總次數,n(E):事件E出現的次數三、主觀機率研究者根據自己的判定,給予機率,只要滿足P(E)→[0,1]即可9事件機率聯合機率(jointprobability)

表示A事件和B事件同時發生的機率=P(A∩B)邊際機率(marginalprobability)

在A和B的樣本空間中,只看A或B的機率,稱之邊際機率條件機率(conditionalprobability)

在發生A的條件下,發生B的機率,稱為P(B|A)10贊成(B1)反對(B2)合計男性(A1)40120160女性(A2)103040合計50150200聯合機率:P(男性,贊成)=P(A1∩B1)=40/200=0.2邊際機率:P(贊成)=P(B1)=P(A1∩B1)+P(A2∩B1)=0.25條件機率:P(贊成|男性)=P(B1|A1)=P(A1∩B1)/P(A1)=0.2511乘法法則(Multiplicativerule)

P(A∩B)

P(B│A)=─────

P(A)

P(A∩B)=P(B)×P(A│B)

=P(A)×P(B│A)

P(A∩B)

P(A│B)=─────

P(B)12獨立事件設事件A和事件B滿足以下條件:P(A)>0,P(B│A)=P(B)P(B)>0,P(A│B)=P(A)P(A∩B)=P(A)×P(B)

則稱A與B為『獨立事件』。13貝氏定理

P(Ai∩B)P(Ai)×P(B│Ai)P(Ai│B)=──────=───────────

P(B)nΣP(Ai)×P(B│Ai)i=1P(Ai)表事前機率(Priorprobability)。P(Ai│B)表事後機率(Posterioriprobability),事件Ai是一原因,B是一結果。Baye'srule是一由已知結果求原因的機率。14

旅客搭乘飛機必須經電子儀器檢查是否身上攜帶金屬物品,攜帶金屬儀器會發出聲音的機會是97%,但身上無金屬物品儀器會發出聲音的機會是5%。若已知一般乘客身上帶有金屬物品的機會是30%,若某旅客經過儀器檢查時發出聲音,請問他身上有金屬物品的機會是多少?

解:設A=「有金屬物」,B=「儀器會發聲」則

=0.892615NaïveBayes

Classifer單純貝氏分類器主要是根據貝氏定理(BayesianTheorem),交換事前(prior)及事後(posteriori)機率,配合決定分類特性的各屬性彼此間是互相獨立的(conditionalindependence)的假設,來預測分類的結果。16hMAP:最大可能的假說(MaximumA

Posteriori)D:訓練樣本V:假說空間(hypothesesspace)P(D):訓練樣本的事前機率,對於假說h而言,為一常數P(h):假說h事前機率(尚未觀察訓練樣本時的機率)P(h|D):在訓練樣本D集合下,假說h出現的條件機率17單純貝氏分類器會根據訓練樣本,對於所給予測試物件的屬性值(a1,a2,a3,…,an)指派具有最高機率值的類別(C表示類別的集合)為目標結果。其中,假設一共有n個學習概念的屬性A1,A2,…,An,a1為A1相對應的屬性值。18單純貝氏分類器演算法1.計算各屬性的條件機率P(C=cj|A1=a1,⋯,An=an)

屬性獨立:

2.預測推論新測試樣本所應歸屬的類別

貝氏定理:

19只要單純貝氏分類器所涉及學習概念的屬性,彼此間互相獨立的條件被滿足時,單純貝氏分類器的所得到的最大可能分類結果cNB,與貝氏定理的最大可能假說hMAP具有相同的功效20單純貝氏分類器實例辦信用卡意願:項目性別年齡學生身分收入辦卡1男>45否高

會2女31~45否高會3女20~30是低會4男<20是低不會5女20~30是中不會6女20~30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女<20是低會21判斷(女性,年齡介於31~45之間,不具學生身份,收入中等)者會不會辦理信用卡。首先根據訓練樣本計算各屬性相對於不同分類結果的條件機率:P(性別=女|辦卡=會)=5/7

P(性別=女|辦卡=不會)=1/3P(年齡=31~45|辦卡=會)=3/7

P(年齡=31~45|辦卡=不會)=1/3P(學生=否|辦卡=會)=5/7

P(學生=否|辦卡=不會)=0/3P(收入=中|辦卡=會)=2/7

P(收入=中|辦卡=不會)=2/322

再應用單純貝氏分類器進行類別預測:P(辦卡=會)=7/10P(辦卡=不會)=3/10P(會)P(女|會)P(31~45|會)P(否|會)P(中|會)=15/343≒0.044P(不會)P(女|不會)P(31~45|不會)P(否|不會)P(中|不會)=023訓練樣本中對於(女性,年齡介於31~45之間,不具學生身份,收入中等)的個人,單純貝氏分類器會將其分類到會辦理信用卡的類別。而且辦理的機率是(0.044)/(0.044+0)=1(正規化分類的結果P(會)/(P(會)+P(不會))。故使用單純貝氏分類器,會將(女性,年齡介於31~45之間,不具學生身份,收入中等)的個人歸類到“會”辦理信用卡的類別中。24單純貝氏分類器對於各種屬性相對於目標值(分類的類別)的條件機率,是先找出訓練樣本中,某目標值出現的個數(n),及在這些目標值的樣本中,特定屬性值出現的個數(na),然後na/n即為該特定屬性在該目標值下的條件機率。如上例P(性別=女|辦卡=會)的條件機率是5/7,因為10筆訓練樣本一共有七筆是會辦卡,而會辦卡的七筆中,有五筆是女性。25BayesianClassificationBayesTheorem:P(H|X)=P(X|H)P(H)/P(X)LetXisadatasamplewhoseclasslabelisunknownLetHbeaclasslabelP(H)isthepriorprobabilityofHP(H|X)istheposteriorprobabilityofHconditionedonXExampleX:aredandroundobjectC:beinganappleoranorangeH:beinganapple(H

C)26NaiveBayesianClassificationClassifyX=(age=“<=30”,income=“medium”,student=“yes”,credit-rating=“fair”)P(buys_computer=yes)=9/14P(buys_computer=no)=5/14P(age=<30|buys_computer=yes)=2/9P(age=<30|buys_computer=no)=3/5P(income=medium|buys_computer=yes)=4/9P(income=medium|buys_computer=no)=2/5P(student=yes|buys_computer=yes)=6/9P(student=yes|buys_computer=no)=1/5P(credit-rating=fair|buys_computer=yes)=6/9P(credit-rating=fair|buys_computer=no)=2/5P(X|buys_computer=yes)=0.044P(X|buys_computer=no)=0.019P(buys_computer=yes|X)

P(X|buys_computer=yes)

P(buys_computer=yes)=0.028P(buys_computer=no|X)

P(X|buys_computer=no)P(buys_computer=no)=0.00727MicrosoftNaiveBayesianEasytoTrainModelAlgorithmParametersMAXIMUM_INPUT_ATTRIBUTES超過此值會自動啟動欄位篩選機置MAXIMUM_STATES類型屬性項目最大值MINIMUM_DEPENDENCY_PROBABILITY介於0~1,數值越大,模型使用變數會減少28MicrosoftNaiveBayesianNaiveBayesian只能接受類別屬性的資料,所以在SSAS中可先將資料類別化後再用NaïveBayes

來做分類29DependencyNetwork30ReservedStrongLinks31AttributeProfile32AttributeCharacteristics33AttributeCharacteristics34AttributeDiscrimination35ColumnMapping36ColumnMapping37LiftChart38ConfusionMatrix39範例40建立NaïveBayes

分類模型41選擇資料庫42建立NaïveBayes

分類模型43選擇三國志資料庫建立NaïveBayes

分類模型44執行NaïveBayes

分類模型45執行NaïveBayes

分類模型過程46執行NaïveBayes

分類模型結果47建立NaïveBayes

分類模型結果及其關聯強弱48建立NaïveBayes

分類模型結果及其分類變數間之關係49建立NaïveBayes

分類模型結果及其分類變數間之關係50建立NaïveBayes

分類模型結果及其分類變數間之關係51建立NaïveBayes

分類模型結果及其分類變數間之關係52建立NaïveBayes

分類模型結果及其分類變數間之機率值53建立NaïveBayes

分類模型結果及其分類變數間之機率值54不同分類建立NaïveBayes

分類模型結果及其分類變數間之機率值55建立NaïveBayes

分類模型結果及其分類變數間之機率值56建立NaïveBayes

分類模型結果及其分類變數間之參數值57建立NaïveBayes

分類模型結果及其分類變數間之參數值58建立NaïveBayes

分類模型結果及不同分類間之比較59建立NaïveBayes

分類模型結果及不同分類間之比較60建立NaïveBayes

分類模型結果及不同分類間之比較61建立NaïveBayes

分類模型精確度之檢視62建立NaïveBayes

分類模型精確度之檢視63建立NaïveBayes

分類模型精確度之檢視LiftChart64建立NaïveBayes

分類模型精確度之檢視ProfitChart65

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论