Clementine12.0操作PPT学习课件_第1页
Clementine12.0操作PPT学习课件_第2页
Clementine12.0操作PPT学习课件_第3页
Clementine12.0操作PPT学习课件_第4页
Clementine12.0操作PPT学习课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Clementine12.0使用指导2014年4月14日,西安交大-美林数据挖掘研究中心,目录,2,2,Clementine建模指导,二,总体介绍,一,公司在大数据领域业务方向,2,3,总体介绍,Clementine的操作与数据分析的一般流程相吻合,包括数据收集,数据展示和预处理、模型建立、模型评价等环节,Clementine形象地将这些环节表示成若干节点,将数据分析过程看成数据在各个节点之间的流动,并通过一个图形化的“数据流”直观表示整个数据分析过程。成功安装并启动Clementine后会出现主窗口,Clementine主窗口由数据流编辑区和三个窗口组成。,数据流编辑区域,流管理窗口,节点工具箱窗口,项目管理窗口,公司在大数据领域业务方向,2,4,总体介绍,1.数据流编辑区域:建立和编辑Clementine数据流的区域。2.节点工具箱窗口:数据流是由多个节点组成,工具箱中分类存放Clementine的所有节点工具。这些节点均以图标形式显示,可实现数据采集、数据展示、数据(包括变量和样本)预处理、数据建模以及模型评价等功能。它们被分别放置在Source、RecordOps、FieldOps、Graphs、Modeling、Output和Export选项中,其中常用节点集中放置在Favorites选项卡中。呈黄色背景显示的选项卡为当前选项卡。3.流管理窗口:由Streams、Outputs、Model三张选项卡组成。可在Streams选项卡中新建、打开、关闭、保存数据流。Outputs选项卡中存放着执行数据流后生成的各种数据表,Models选项卡中存放着执行数据流后生成的各种模型计算结果。4.项目管理窗口:多条数据流可组成一个数据挖掘项目。当数据挖掘任务较庞大而建立了很多数据流时,可自行将流管理窗口中的服务于不同目标的数据流,分别存放到不同目录中。,公司在大数据领域业务方向,2,5,总体介绍,数据流的操作主要包括以下四个方面:1)选择和管理节点。2)节点连接和连接调整。3)设置节点参数。4)执行数据流。下图为一个简单的数据流,有向线段表示数据的流动方向。,公司在大数据领域业务方向,2,6,总体介绍,1.选择和管理节点。由于节点所实现的功能不同,因此被放置在不同的选项卡中。建立数据流时,根据实际需要,首先通过鼠标单击选择相应的选项卡,然后再通过鼠标双击或鼠标拖动操作,将某个节点工具选中并添加到数据流编辑区域中。包含如下选项卡:收藏(Favorites)选项卡:存放数据流建立过程工程中最常用的节点工具。数据源(Sources)选项卡:存放将各种外部数据读到Clementine中的节点工具。记录(RecordOps)选项卡:存放针对记录操作的节点工具。通常,数据以行为单位组织,每一行为一条数据。数据库中称为记录,统计上称为样本。,公司在大数据领域业务方向,2,7,总体介绍,字段(FieldOps)选项卡:存放针对字段操作的节点工具。数据库中称列为字段,统计上称为变量。图形(Graphs)选项卡:存放展示数据分布特征和变量关系规律的可视化图形节点工具。建模(Modeling)选项卡:存放建立各种数据模型的节点工具。输出(Outputs)选项卡:存放展示数据和数据基本统计特征的节点工具。导出(Export)选项卡:存放将数据转换成其他格式的节点工具。,公司在大数据领域业务方向,2,8,总体介绍,2.节点连接和连接调整。当数据流编辑区域中有两个节点A、B时,可通过有向线段实现A、B的连接。最方便的方法是鼠标右击节点A,按快捷键F2,指定将第一节点A和第二节点B相连。删除节点A、B之间的连接。鼠标右击相应的有向线段,选择弹出菜单中的DeleteConnection选项。3.设置节点参数。节点是用来处理数据的,需要对某些节点针对数据处理的方式设置参数。双击相应节点,或者右击相应节点,选择弹出菜单中的Edit即可。4.执行数据流。当数据流建立完成后,若要得到数据分析结果,则需要执行数据流。选择主菜单Tools-Execute,或右击会得结果的节点,选择弹出菜单中的Execute。,公司在大数据领域业务方向,2,9,总体介绍,常用节点工具数据源(Sources)选项卡中的Var.File节点、Excel节点。Var.File节点可读入自由格式的文本文件,最常见的为”.csv”和“txt”文件;Excel节点读入的数据格式为“.xls”。记录(RecordOps)选项卡中的Select节点、Merge节点、Append节点。Select节点通过表达式设置筛选条件;Merge节点和Append节点对多个数据源进行合并。字段(FieldOps)选项卡中的Type节点、Filter节点、Derive节点、Partition节点。Type节点可指定变量的角色(输入、输出等);Filter节点过滤掉一些后续分析不需要的变量;Derive节点对已经存在的变量,通过给定一些计算公式等生成新的变量;Partition节点对样本进行分割,如将样本分为训练集合测试集。图形(Graphs)选项卡中的Plot节点和Multiplot节点。Plot节点指定X和Y轴的变量(每个坐标轴只能指定一个变量),描画相应的散点图;Multiplot节点指定X和Y轴的变量,Y轴变量可以是多个,描画相应的折线图。,公司在大数据领域业务方向,2,10,总体介绍,建模(Modeling)选项卡中比较常用的节点如下:聚类:分类:回归:关联:时间序列:输出(Outputs)选项卡中的Table节点、Analysis节点。Table节点以表格的形式展示数据分析的结果、Analysis节点对模型性能进行分析。,目录,2,11,Clementine建模指导,二,总体介绍,一,公司在大数据领域业务方向,2,12,建模指导-分类,Clementine应用:分类,案例根据汽车的购买量、保养情况、车门数、座位数、底盘和安全性对汽车进行分类,公司在大数据领域业务方向,2,13,建模指导-分类,样本数据,公司在大数据领域业务方向,2,14,建模指导-分类,输入项:购买量、保养情况、车门数、座位数、底盘、安全性,输出项:汽车类别,公司在大数据领域业务方向,2,15,建模指导-分类,第一步:导入数据,公司在大数据领域业务方向,2,16,建模指导-分类,第二步:创建流,公司在大数据领域业务方向,2,17,建模指导-分类,第三步:设置参数,公司在大数据领域业务方向,2,18,建模指导-分类,第四步:生成模型,公司在大数据领域业务方向,2,19,建模指导-分类,公司在大数据领域业务方向,2,20,建模指导-分类,第五步:查看结果,公司在大数据领域业务方向,2,21,建模指导-分类,公司在大数据领域业务方向,2,22,建模指导-分类,公司在大数据领域业务方向,2,23,建模指导-分类,公司在大数据领域业务方向,2,24,建模指导-分类,累计收益图。,公司在大数据领域业务方向,2,25,建模指导-聚类,Clementine应用:聚类,案例根据花萼和花瓣的长度、宽度来对花进行聚类,公司在大数据领域业务方向,2,26,建模指导-聚类,样本数据,公司在大数据领域业务方向,2,27,建模指导-聚类,输入项:花萼长度、花萼宽度、花瓣长度、花瓣宽度,公司在大数据领域业务方向,2,28,建模指导-聚类,第一步:导入数据,公司在大数据领域业务方向,2,29,建模指导-聚类,第二步:创建流,公司在大数据领域业务方向,2,30,建模指导-聚类,第三步:设置参数,公司在大数据领域业务方向,2,31,建模指导-聚类,公司在大数据领域业务方向,2,32,建模指导-聚类,第四步:生成模型,公司在大数据领域业务方向,2,33,建模指导-聚类,公司在大数据领域业务方向,2,34,建模指导-聚类,第五步:查看结果,公司在大数据领域业务方向,2,35,建模指导-聚类,公司在大数据领域业务方向,2,36,建模指导-聚类,公司在大数据领域业务方向,2,37,建模指导-聚类,公司在大数据领域业务方向,2,38,建模指导-回归,Clementine应用:回归,案例评估CPU性能指标,抽取了最小主内存,缓存大小等与cpu性能相关的7个指标,公司在大数据领域业务方向,2,39,建模指导-回归,样本数据,公司在大数据领域业务方向,2,40,建模指导-回归,输入指标:MYCT、MMIN、MMAX、CACH、CHMIN、CHMAX输出指标:Class,公司在大数据领域业务方向,2,41,建模指导-回归,第一步:导入数据,公司在大数据领域业务方向,2,42,建模指导-回归,第二步:创建流,公司在大数据领域业务方向,2,43,建模指导-回归,第三步:设置参数,公司在大数据领域业务方向,2,44,建模指导-回归,公司在大数据领域业务方向,2,45,建模指导-回归,第四步:生成模型,公司在大数据领域业务方向,2,46,建模指导-回归,公司在大数据领域业务方向,2,47,建模指导-回归,第五步:查看结果,公司在大数据领域业务方向,2,48,建模指导-回归,公司在大数据领域业务方向,2,49,建模指导-回归,公司在大数据领域业务方向,2,50,建模指导-回归,公司在大数据领域业务方向,2,51,建模指导-关联,Clementine应用:关联,案例对某超市顾客购买商品之间的关联性进行分析,公司在大数据领域业务方向,2,52,建模指导-关联,样本数据,公司在大数据领域业务方向,2,53,建模指导-关联,输入和输出变量:fruitveg、freshmeat、dairy、cannedveg、cannedmeat、frozenmeal、beer、wine、softdrink、fishconfectionery,公司在大数据领域业务方向,2,54,建模指导-关联,第一步:导入数据,公司在大数据领域业务方向,2,55,建模指导-关联,第二步:创建流,公司在大数据领域业务方向,2,56,建模指导-关联,第三步:设置参数,公司在大数据领域业务方向,2,57,建模指导-关联,第四步:生成模型,公司在大数据领域业务方向,2,58,建模指导-关联,公司在大数据领域业务方向,2,59,建模指导-关联,第五步:查看结果,公司在大数据领域业务方向,2,60,建模指导-时间序列,Clementine应用:时间序列,案例现有某企业151个连续生产数据,利用这些数据预测下几期的生产数据,公司在大数据领域业务方向,2,61,建模指导-时间序列,样本数据,公司在大数据领域业务方向,2,62,建模指导-时间序列,输出变量:生产数据,公司在大数据领域业务方向,2,63,建模指导-时间序列,第一步:导入数据,公司在大数据领域业务方向,2,64,建模指导-时间序列,第二步:创建流,公司在大数据领域业务方向,2,65,建模指导-时间序列,第三步:设置参数,公司在大数据领域业务方向,2,66,建模指导-时间序列,公司在大数据领域业务方向,2,67,建模指导-时间序列,第四步:生成模型,公司在大数据领域业务方向,2,68,建模指导-时间序列,公司在大数据领域业务方向,2,69,建模指导-时间序列,第五步:查看结果,公司在大数据领域业务方向,2,70,建模指导-时间序列,公司在大数据领域业务方向,2,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论