版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘快速上手Version1.0Preparedby高处不胜寒QQ群:14104904944154152009-10-15ClementineDataMining了人工智能(AIClementineClementineCRISP-DMModelineiddetandiingDatandeSataddiggDateeaatiionModelingalaiOnDeploymen):t、ciementine的基本操作方法1.操作界面的介绍Clementine操作界面Clementine(Filen(ewClementine(Filen(ewstream)Stream选项面板横跨于Clementi
2、ne操作界面的下部,它被分为收藏夹(Favorites)GraphsSources(Modeling)、输RecordOpsFieldsOpsOutput(Sources)到Clementine的结点。Vr.FileClementineSPSSFilespssClementine(RecordOps)selectmerge件中添加记录(append)(FieldOps)例如过滤字段(filterderive(Graphhs)(Modeling)meansTwostep(Modeling)meansTwostep(Outpwt)NeuralNet,Regression,Logistic)(Apr
3、ioriGRISequece)到其他应用程序中查看,例如SPSSNeuralNetC5.0(C5.0,C&RTree,Kohonen,K-,用户不仅可以直接在ClementineExcel。(Favoritess)Favorites栏,操作方PaletteManager单栏的工具(Tools)Favorites(Favorites)(Streams)(Outputs)(Models)Streams(Outputs)(Models)(Browse)CRISP-DM(Classes)CRISP-DMModelCRISP-DM(Classes)CRISP-DMdeletedelete点表目数据库导出
4、IhL起始结点直方图Connect)连接便自动生成。(如果鼠标没有滑轮也选用altConnect)Connect)connectSPSSFileT仏數据库I导岀丨迅据被舞过绪总直方图表altaltDeleteConnectionF3EditNodeDisconnect)Execute表执行选中数据流褊辑回斷开连接重命名并加注解F3诵剪切Ctrl-X复制Ctrl-CX删除Delete载入节点(D鶴检索节点凶保存节点蛊存储节点创逹超节点團发布流执行凶Ctrl-EClementinedemosClementinedemosdemos(factor.str)C.ClementinedemosCleme
5、ntinedemosClementinedemosClementinedemos到的隐性变量(latentvariable,latentfactor)(motivation)个测度(比(manifest)个测度(比(manifest)76factor.str76们将介绍用ClementineSteClementinedemosClementinedemosClementinedemosClementinedemos(Source)toy_train.savSPSS(SPSSFile)SPSS(SPSSFile)toy_train.savSteptoy_train.savStepcustom)S
6、PSSSPSSFile)Importfile)Annotations)name)名称。这里我们按照原示例输入toy_traintoy_train.sav类型方向AAAAAAAA.输输输输愉输输输吗、检查无无无无无无无无HVIk读取值渚除值活除所有值字段类型值缺失u读取+u当前n指定SPENDYOUNGESTPLYHOUSEMAGICSTORKTOYSHOPHAPPY合合含合合合亠=_-jit号号E導穿隽W;導拜它续续戶戶巨戶戶戶.E连理有有有有有有丹心oI綏严o查看当前字段o查看未使用的字段设置类型I格式I注解应用適重置确定心)应用適重置(FieldOps)栏中的类型Type)字段在机器学习中
7、的的输入/输Type)Field)Type)Values下拉菜单中选择ReadValue)Missing)Blank)Check)(Direction)栏在机器学习模型入/输出/输入且输出/非输入将前19个字段的方向(Direction)设none)分析我们不将这前19个字段列入考虑,从第20个字段direction)In)Step三Modeling)用主成分/因子分析PCA/Factor)Type/PCA/Factor)Type)后我们便可以将它执行。右键单击主成分/因子分析(PCA/Factor)(Execute)命令。执行结束后,模型结果放在管理器的模型(Models)(PCAFacto
8、r)(Browse)tep(Type)(Models)PCA/Factor(Table)(Table)PCA/Factor(Table)(FieldOps)(filter)(filter)(filter)Filter(filter)(Field)字段(Field)(filter)(Field)Graph)HistogramOutput)Table)storeplaystore_playtovjrain.g裘型主成分因子分析丨表b.d.S.SSSSSSFile)Type)Filter)Table)(Histogram)、PCA/FaFctorbaskrule.strass()ciation)se
9、qtlencing)trarisactionaldatabases)baskrule.strStepBASKETS1nSourceVar.File(BASKETSIni辑回D:ProsramFileslSPSSClementines1.1DemosBASKETS1riiBASKETSInItep(Type)TyPe)(Both)c:i-did,v:1uh,pmethud,sex,humeown,incume,ae,fruitveg,freeIlitieat,丘:“广匕caiLiLEdvEnsiiLrLmdjnmzt,39808,42.T123,CHEQUE,M,NO.27000,4F.T.T,
10、F,F,F,F,F,F,F.T67362,25.3567.CASH.F,NO,30000,28.F_.T,.F_.F_.F_.F_.F_.F_.F_.F_.I108T2,20.6176,CASH,M,NO,13200,36,F,F,F,T,F,T,T,F,F,T,F卜0读取文件中的字段名文件:D:ProgramFileslSPSSClementine1.1DemosBASKETS1n跳过前面的N亍字符:0亠EOL注解字符:1T指定字段数去除开头和结尾的空格:无左右两侧无效字符:编码:定界符类型的扫描行数:空格回逗号制表符m轴忤II甘g引号Type50TVar.FileFileOPs)TyPe)
11、Direction)none)Direction)类型直cannedvego标志17Fcannedmeato标志17Ffrozenmealo标志17Fbeero标志17Fwineo标志17Fsoftdrinko标志17Ffisho标志17Fconfectioner/o标志17F无无无无无无无无ClementineGRIG:查看当前宇段查看未使用的宇駁设置英型I稻云I注解确定应用重置Apriori、GRI、SequenceModelsStepGraphswebWebWebTypeFieldsFieldsplot(SelectFields)web(showtruetagonly)WebwebWII
12、WcanneclvegfrozenmealconfectiaiieryfruitegcanfectioJwinecanneclveg必區frozeni11631ftdrinkuitvegfishsoftdrinkwih&fifhfruitvejjbirdiiycohfecticihrbfrozemnisalchnediinejatchnedvey决策(decisiontree)一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。树就是将决策过程各个阶段之间的结构绘制成一张箭线图。决策选择分割的方法
13、有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。决策树可以是二叉的,也可以是多叉的。对每个节点的衡量:通过该节点的记录数如果是叶子节点的话,分类的路径Derive)eDerive)FieldOPs)DriveDriveDriveFieldhealth_fOod点命名为health_foodTruevalue)Driveas)FlagTruevalue)Falsevalue)Falsevalue)Builder)中我们可以选择数据的fruitveg=Tandfish=TTruewhenfruitvegfishExpression分豹
14、字段于一般函数*表达式构建器-导出:臥下情况时为真函裁返回isJnteger(ITEM)real(ITEM)number(ITEM)string(ITEM)ISisisisisisistodate(ITEM)time(ITEM)timestamp(ITEM)datetime(ITEM)inteaer(ITEM)布布布布布布布布華值值值值值值值值尔尔尔尔尔尔尔尔數-Jdivj*jrEmj/jmodjj=i丄勻=1/=i加珂orJ他)x类型ooincomeo字段cardidvaluepmEthudsexhoneownagefruitsgfreshmeat存储类型nnnnnn吕吕旨数数符符符nnta
15、pisJnteger(ITEM)若籁目啖型为整数,则返回值为真口否贝U,返回值为假口0保存之前检查表达式确定取消0检查帮助health_foodTypehealth_foodDirectionOut)In)None)llM-类JYflnoQwMtdnnkonflshnsccmfectianerj,gHeallhfciodoacannetmieat.jsftozenmeal”beerus翻苗挪倍海坎所百街|直缺失C5.0后,当我们们将C5.0S用的决縱3树f&5t:TJBi:-i-.:t-t-i:7i-:tEEEEFuEEE出2无无无无无无无務11宇段类型H词th_fcicid数据流,我们可得到
16、输出结果如下树形图所示。该树的叶结点表明了怎样的顾客将选择健康食品,怎样的顾客将拒绝健康食品,我们也可以根据该树的将客户按是否购买健康食品进行分类。P.S.:在这个关联分析/决策树分析的案例中我们用到了Var.Fille、Derive、Web、GRI和C5.0结点。3.聚类分析(clussterr.str)聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的
17、基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例
18、,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以k-nnn作为其他算法(如分类和定性归纳算法)的预处理步骤。1111lementinelementineStepDRUGlnStepKohonenKmeansTwoStepCluster.strNaKa这里我们重点讨论Kmeans聚类方法。Var.FileType11111111StepDirection)In)
19、KmeansKmeans1111Specifiednumberofcluster)1111111111111111KmeanKmean建立好后,右键单击KmeansModels11111111StepffTDRUGIn类型iK-Means|TypeModelsKmeansGraphDistributionTypeKmeansTypeModelsKmeansGraphDistributionTypeKmeansField$KM-KmeansOverlayDrugDistributionFieldOverlayDrugDrugDrugx|tFI-K-Iesns的分布12丈件(El】端揖特生咸谢/观
20、国M验|圖亘囤NJKmeans、Distributiongoodlearn.srt)rgoodlearn.strClementineNerualNetRegressionLogisticStepStep(After-Before)/Before*100.0GOODS1nDeriveVar.FileIncreseGOODS2n表StepTypeAfterDirectionNoneIncreaseDirectionOutStepInDirectionNeuralNetNeuralNet(Quick)(Preventovertraining)Modelsep型结果结点连接到数据流将IncreaseT
21、ypeGOODS川IncreseIncreseiIncreseiDeriveratioIncrease结果结点/Increase)*100$N-Increase(abs(Increase-$N-Increase)GraphhistogramratioIncreseirtioiratioratiofieldratioratioratioratioratioratioStepG00DS2n无目标表IncreseIncrease新样本。我们现将数据源的文件改为GOODS2n;然后altIncreaseRatioTableIncreaseTypeafterDirectionInNoneTable$N-
22、Increase11凰表牛字段,40C1条记录)回IE0文件迟編辑料生成ClassCostPromotionBeforeAfter$N-lricrese1Luxury131.2.14672233.2383335.7892Drink32.5.13161939.2197919.1663Luxury10.4.17342430.2663577.1364Drink40.4.10022159.2350137.2695Drink20.2.11272090.3056593.1186Meat59.3.18842347.2413024.3481Meat71.1.16552087.2167083.4838Drink
23、62.7.11081922.2044587.9009Drink90.2.10752342.2406927.2S010Drink34.6.16441109.12198812.00511Luxury37.4.11051361.1403234.05312Drink92.7.10232091.23905312.02713Luxur/66.4.11371218.1261664.16614Meat5.31014462062.2141722.96615Meat92.9.12601574.1594422.46816Luxury34.7.16442375.2486686.63417Meat69.9.13982283.2301462.83510Conf.30.3.10071090.1930104.34619
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品质量追溯的管理规则
- 2025股权激励合同协议范本模板
- 2025年建筑室内专业设计师实操技能考核题及答案
- 2025光伏发电系统采购合同范本
- 2025年下半年哈电集团春季招聘25人信息易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林长春二道区事业单位招考(200人)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年吉林通化市辉南县事业单位招聘高层次和急需紧缺工作人员9人(7号)易考易错模拟试题(共500题)试卷后附参考答案
- 2025标准合同终止劳动合同范本
- 2025年下半年合肥市长丰县信访局信访录入员招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年厦门翔安区劳动保障监察大队职业见习生招考易考易错模拟试题(共500题)试卷后附参考答案
- 广东省新课程标准初中理科教学仪器配备
- 国开电大应用写作(汉语)形考任务4参考答案
- 6S检查表标准版2行业资料国内外标准规范
- 汽车吊机支腿反力计算及梁板受力分析
- 第十四章基因的表达与调控
- 水库大坝安全评价导则
- 点的立体构成
- 《格萨尔王传研究开题报告文献综述》
- 阅读推荐课《不老泉》课件
- 护士长医院感染管理知识培训正式完整版课件
- 危大工程验收记录表(模板工程)
评论
0/150
提交评论