



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘软件数据挖掘软件CLEMENTINE介绍介绍Clementine产品介绍产品介绍 Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。 作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。 强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。 同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整
2、个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。 Clementine中的Data Mining 的方法 Classification Clustering Estimation Prediction Market Basket Analysis Description预测和分类推估类似,不同在于是预測未來,將新资料带入既有资料建立的模型预见結果銀行新申请信用卡的客戶要給多少额度估计和分类的不同在於目标变量为连续值,常和分类配合用分类判断为会贷款客户后再推估会贷款的金額聚类非
3、监督式,未知有几类,将性质类似的资料加以区分,把顾客资料分群对不同群体采用不同推销手法购物篮分析找出哪些事件会一起发生超級市场发現男性客戶会一起购买啤酒跟尿布描述增进对于资料的认识,图形视觉化呈现,或规則、决策树等相相关关技技术术神经网络决策树 (C5.0 C&RT)Logistic 回归等等相相关技术关技术K-Means两步骤Kohonen等等相关技术相关技术分类跟估计的所有方法相相关关技技术术AprioriGRI等等相相关关技技术术决策树规则各类图表等等分类目标变量(因变量、反应变量数)为类別的狀況信用卡公司將既有资料分为伪卡非伪卡找出伪卡的模式Debt$40KQ QQ QQ QQ
4、 QI II I1 12 23 34 45 56 6factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测
5、关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售Clementine面板面板Clementine的使用的使用 1打开一个流文件 2执行流文件中的某一流程执行流文件中的某一流程 3得到结果 4浏览结果1 4浏览结果2 5浏览结果3Clementine流文件的建立流文件的建立1读取数据文件1 在节点区,双击文件读入节点,在流区出现其图标再在流工作区,双击文件读入节点,读入所需数据文件。 读取数据文件2 对数据进行处理12456 去掉两个变量Na、K3 增加新变量:Na_to_K=Na/K 定义变量的方向在节点区双击Type节点,使之在流
6、区中出现把Drug的Direction从in(输入)改为out(输出) 作分类处理读取文本数据与查看数据 Clementine可以读入的数据文件文本格式数据 SPSS/SAS数据 Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等数据库 用户输入数据文件读入节点:读取文本数据与查看数据 查看数据1点击Data 和Types,出现数据的属性 查看数据2点击Table,使之出现在流工作区,再点击Execute(执行),得到右面图表:Clementine中的字段类离散型 二分 eg:sex:m/f 多分 eg: 等级:好/中/差 离散 eg: 连续型 整
7、数 实数 日期、时间 其它数据理解之数据质量 缺失值的检查:quality节点点击Quality节点,使之出现在工作区,再执行Quality,出现数据质量表,从中可以看出,数据100%有效,一共有200个有效数据。 Distribution节点-初步 理解字符型字段的分布 1234 简单数据整理 Derive节点介绍2 增加新变量:Na_to_K=Na/K根据原有字段值生成新字段值 Filter节点介绍对某些字段进行重命名或丢弃某些无意义的字段去掉两个变量Na、K数据理解之数据间简单关系 Web节点-研究字符型字段间关系1 Web节点-研究字符型字段间关系2执行后,得到字符间的网状连系,其中粗线条,表示字符之间的强联系。 Statistics节点-研究连 续型字段间线性相关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年飞机液压检查净化设备项目建议书
- 工程清包合同工程清包合同
- 2025年黑河道路危险品押运从业资格证模拟考试0题
- 2025年毒素类诊断抗原合作协议书
- 合作造林投资协议书
- 园区绿化养护管理合作协议
- 无线通信网络协议解析
- 农业供应链管理与服务提供合同
- 2025年管理学考试内容详解试题及答案
- 社区农田社会化服务协议
- 三年级小机灵杯试题(常用版)
- 2022年中国热带农业科学院分析测试中心高层次人才及博士招聘笔试备考题库及答案解析
- 闪存存储技术应对大数据挑战
- 科普项目申报书-中国科协
- 食蚜蝇课件完整版
- 主题班会《中国梦我的梦》课件
- 义务教育数学新课程标准选择题题库测试卷精选450题(2022版)含答案
- 古诗词诵读《客至》-统编版高中语文选择性必修下册
- 建筑材料分类整理
- YY/T 0801.2-2010医用气体管道系统终端第2部分:用于麻醉气体净化系统的终端
- GB/T 31349-2014节能量测量和验证技术要求中央空调系统
评论
0/150
提交评论