实验3-------决策树_第1页
实验3-------决策树_第2页
实验3-------决策树_第3页
实验3-------决策树_第4页
实验3-------决策树_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、clementine 决策树分类模型基于决策树模型进行分类的基本原理概念分类就是:分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确 的描述或者模型。由此生成的类描述用来对未来的测试数据进行分类。数据分类是一个两步过程 : 第一步,建立一个模型 ,描述预定的数据类集或概念集; 第二步,使用模型进行分类。clementine 8.1 中提供的回归方法有两种: C5.0(C5.0 决策树)和 Neural Net (神经网络) 。 下面的例子主要基于 C5.0 决策树生成算法进行分类。 C5.0 算法最早 (20 世纪 50 年代 )的算法是 亨特 CLS(Concept L

2、earning System) 提出,后经发展由 J R Quinlan 在 1979 年提出了著名的 ID3 算法,主要针对离散型属性数据; C4.5 是 ID3 后来的改进算法,它在 ID3 基础上增加了:对连 续属性的离散化; C5.0 是 C4.5 应用于大数据集上的分类算法, 主要在执行效率和内存使用方面 进行了改进。优点:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训 练次数进行估计;比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;也提 供强大的增强技术以提高分类的精度。二 . 范例说明该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果,

3、 snapshottrainN.db (训练数据)描述的是不同 age (年龄),不同 sex (性别),不同 region( 地 域),不同 income( 收入) ,不同 married( 婚姻 ),等等的数据,通过分类算法对训练数据进行建 模得到决策树模型,通过得到的决策树模型来判断测试数据集( snapshottestN.db )里面的每 个记录的 pep( 个人投资计划 )属性是 yes 还是 no 。使用 clementine 建立流程图,如图 1 所示:Table-ISPipTsilhliPtTPp图1总流程图rib匡Ansi 护 ig.数据集说明通过下面的操作,将完成如图2所示

4、的流。数据集snapshottrainN.db,以下是该数据集的所有字段名:? id.唯一的识别号? age.年龄? sex.性别? regio n.地理位置? in come.收入? merried.是否已婚? children.有几个孩子? car.是否有汽车? save_act.是否有储蓄账户? curre nt_act.是否有活期存款? mortgage.是否有抵押? pep.是否有个人投资计划四.训练模型ffl! vTableAmalysiiS图2训练模型(1) 导入数据及预处理插入一个变项文件节点(SourceVar.File),双击该节点,在 File框输入 snapshottr

5、ainN.db的物理路径,如图 3所示:图3输入节点(2) 变量类型的定义及实例化在建模之前,我们首先将一个类型节点 Type Node加到目前的流程中。点击 Read Values以 读取数据。因为需要用年龄,性别,地区,收入等等为引数来估计个人投资计划,所以将id的Direction设为None”,将pep设为Out”,其他字段设为In”。如图4所示: TjijvTypelAr虱回訐 Read Values ClearValuesClea -All ValuesFieldTypeValuerhli?irgCheckOiectinn观 TypeltsNoneO None祁碎3尺测肿1E.67

6、Mon#、lrA sex5 flsqIVALE/FE.NoneXirA rc-gon新MINNER C.Ncnolr枪 incunip5ni*2i.HonR、lr区n arriydo FlagYES/NONone lr苓 thildrR0 Rsngf阴Non、lrE caros FlagTE&/NUNoneXirA SiVC_5Ctjs FlagYE67NONonaln冈 rurnRriLact! FisaYESfPJONnnRA n urlgage5 FlayYE3/N0None7a p*pg FlJSYES/NONone Oul图4 Type节点(3)查看数据源通过一个Table节点(Ou

7、tputTable )与源数据连接,Excute (执行)Table结点即可,如图5所示:lUTilr (I?3()11 Ecnrdx) ItTablaid古竽 SEEregibfiin Lome-13s ii7T :lID 121iDi 21ID12UID121_ID1ZKDr 21 J .IhnuiIBFEtr. INHEF.Jin MALE川JI61 FE|V . INbi=P_ jJF-r-. L.v-istifeS1 town7:?mf niRA-$34MALE TOW3T FEfr . SUeilPB4 wmlLfc TUMdleeEM. TOim52FEbr. INrlEF .

8、诽EIM. Torn fiAlFFr TnijWMl(4)用C5.0算法建立决策树模型17540., aonA- 1昭殆.5U57: . 盯丽丁 .fiH77 J2U46 .125304 . ?4113 .TESYESVES丽心.廣NO iSF2图5 Table节点2&669 .ONOzorYE8YE 3VFACai弓升旦Of YES2f. MO亡hilT NO MO 览ui4iiig匚)心”卄丽曲阳simple! C kMped0T印问匸:; Accuracy OonwaiirtvExpede d 广百1 ee(%)u|y|图7建模过程参数选择(5)模型结果分析执行C5.0结点即可得到判断p

9、ep取值的决策树模型,如图8所示:Streams Outputs心人允 To CirearnBlwseEg n amc and Arm JtaceSve-Ecgiart PMl/lLEwortc cade._邇出口 Ta Pro.br图8查看模型S? rpp凰O ceherate 凰jS LiJzJjJZEJZii IZEJ 園 f children e= 2 Mode: NO J# children YLfe rrertcace-HO INcde.NOI i= MOo iianied= fJO Mode ?EG)- cmidren I | Md? yes|& childrein - 2 (M

10、oder KO |图9模型结果Analysis节点显示预测值和真实将模型图标与Type节点相连,再添加一个分析”节点,执行 值的匹配程度如何的信息,如图10所示:(g)tr-inN fihTab epep图10模型好坏分析五.测试模型现有新的数据sn apshottestN.db,将建好的分类模型(pep)加入到流程中,并利用An alysis节点分析结果,如图11所示:團 (B) Tablenap5hoH?5tN db图11测试模型(1)导入数据及预处理与上面的方法相同,建立变项文件节点,选取源数据snapshottestN.db,如图12所示:(fi)snapshottestM.dbFil

11、e: E VSpss ClemsnrlineSlsnapshottestN.cikiid* agjfij 5 regionincome, marriedchildren car nave_actcurrent_actmoftgage, p ID1240L 13 FEMALE, eR_CITY,616.铭.YES J, YES,隔 YES, YES, HOH巩岀0比 37FEMALE, T呱止拠 YES,比 BC, TES, BO, HO, UO1012403, 45, FEMALE, TWK 29231. 4, YES, 0, NC, IBS, NO, HO, NO图12输入节点预处理数据,与

12、训练模型操作相同,如图13所示:tollk 尺 ead Values |PIBarvaiuej Clear/mi valuesFieldTypeMisln | CheckD recton占idTvpeltasNonemione3 RaraeH0.67None、InAS6Kij FllacMALE/rE.Non# InAregion*SetINNER.CNone、Inirdome Rarge5294.21,.NoneSnAmarriedcwFlacYES/NONone、In二 ch Idren护 Rarge【如】None、InAcarcwFiaoYESINJNoneXi InAeae ac:o

13、Flag注曲忖QNoneSnAcirrent acti wFiacYESNUNone InAmo rig agoi FlacYEB/NOtlone、InApepoFiapYEKINuNone魅out图13测试数据筛选(2)查看数据源通过一个Table节点(OutputTable )与源数据连接,Excute (执行)Table结点即可,如图14所示:TablesnaphonestN.dc: Type图14查看测试数据(3) 连接模型将得到的回归模型加入到 Type节点,如图15所示:團 () f 畲I#TablesnapshattestM.dbTypei p 即 i图15连接模型双击C5.0结点可对其进行编辑,这里取其Model name为默认值Auto ”(进入法),其他选项也不做修改,Excute (执行)该节点,如图 16所示:Mo d e I nam e:A urtoi 匚 CustomOulputUecision tree O Rule seiMode:口 Group symbeiics Ute boostingCrosvlidate逾 Sirnpie (J ExpertFavui. AccuniiZT O Genei ciiWExpoctod noise (蜿:0|-H图16测试模型参数选择(6)分析模型将模型图标与Type节点相连,再添加一个分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论