




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS Clementine 软件介绍软件介绍介绍介绍Clementine数据挖掘软件的基本操作和环境,学习如数据挖掘软件的基本操作和环境,学习如何使用何使用Clementine读取、处理数据读取、处理数据2目录目录 一一 Clementine简介二二 读取数据文件三三 数据质量四四 数据处理五五 寻找数据之间的关系一一 Clementine简介简介419681968成立成立1993,Nasdaq1993,Nasdaq上市上市总部总部: Chicago : Chicago 遍布全球遍布全球6060多个国家多个国家2000 2000 多名员工多名员工超过超过250,000 250,000 家企
2、业使用家企业使用SPSSSPSS2 2百多万名授权用户百多万名授权用户SPSS SPSS 世界级软件公司世界级软件公司ChicagoChicago5SPSS 银行业用户银行业用户The World Bank Group6SPSS 保险业用户保险业用户7SPSS 电信业用户电信业用户8Clementine系统结构图系统结构图 9 Clementine 简介简介实用的数据挖掘方法论CRISPDM 图形化的操作环境,提高了易用性、减低了入门要求和学习时间 率先引入可视化建模思想和数据展现概念 Client/Server的结构提高了处理大数据量的能力Data Preparation 的优越功能 多种(
3、Telecom、Fraud、CRM)Clementine应用模板 有多家合作伙伴开发行业应用方案,Siebel、Sybase等公司已选用Clementine作为其CRM和BI方案的数据挖掘平台。10Clementine 特点特点支持图形化界面、菜单驱动、拖拉式的操作 提供丰富的数据挖掘模型和灵活算法 具有多模型的整合能力,使得生成的模型稳定和高效 数据挖掘流程易于管理、可再利用、可充分共享 提供模型评估方法 数据挖掘的结果可以集成于其它的应用中 满足大数据量的处理要求 能够对挖掘的过程进行监控,及时处理异常情况具有并行处理能力 支持访问异构数据库 提供丰富的接口函数,便于二次开发 挖掘结果能够
4、转化为主流格式的适当图形 11 Clementine操作简介操作简介l内容熟悉 Clementine 中的工具和面板介绍可视化编程的思想l目的初步了解 Clementine 的功能l数据课程配有相应的虚拟的数据文件12Clementine用户界面用户界面数据流区域工具栏 菜单栏 选项板区节点数据流,输出和模型管理器项目窗口13可视化编程可视化编程l节点一个图标代表在 Clementine 中进行的一个操作l工作流一系列连接在一起的节点l选项板包含一系列不同功能的图标14选项板选项板源节点用来将数据读入 Clementine 中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段
5、选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意:建模算法产生生成的模型15在下面一部分在下面一部分举例:举例:增加一个节点移动一个节点编辑一个节点重新命名一个节点复制一个节点删除一个节点注释一个节点保存一个节点重新载入一个节点连接节点删除节点连接获得帮助16增加一个节点增加一个节点在选项板上双击节点,自动放置节点到数据流区域注意:它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下未选未选择择选择选择当节点在选项板中被选中后,会变成淡蓝色17编辑一个节点编辑一个节点在节点上右
6、击,展开一个节点点击 “编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作18连接节点连接节点使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键使用鼠标中键未选中的节点(灰白色)未选中的节点(灰白色)被选中的节点被选中的节点(淡蓝色)(淡蓝色)19删除节点之间的连接删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”20关于连接节点:关于连接节点
7、:源节点源节点源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点21关于连接节点:关于连接节点:终端节点终端节点终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点22设置目录设置目录为了方便地存取数据文件或流,您可以将目录设定为自己文件的位置只在本次操作中起作用通过选择菜单“文件”中 “设置目录”选项,然后输入或选择工作目录23Clementine 客户端和服务器端客户端和服务器端Clementine 可以运行在 客户端和服务器端两种模式下默认的模式是客户端在菜单 “工具” 中选择 “服务器登录”注意 Clementine 客户端和服务器端版本必须匹配24
8、帮助菜单帮助菜单帮助主题CRISP-DM 帮助教程软件使用辅助选项帮助键盘代替鼠标操作 这是什么第二第二 读取数据文件读取数据文件26课程简介课程简介l内容Clementine 中可以读取的数据格式读取文本数据文件读取 SPSS 数据文件使用 ODBC 读取数据库查看数据Clementine 中的数据类型和字段方向保存 Clementine 数据流l目的介绍数据读入 Clementine 的一些方法27Clementine 中读取数据格式中读取数据格式文本文件SPSS 数据文件ODBC 兼容的数据库SAS 数据文件用户输入文件28文本文件文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格
9、或一些其它字符)的数据文件,可以使用变项文件节点读取数据如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文本文件导入固定文件节点读取文件SmallSampleComma.txtSmallSampleFixed.txt29读取自由字段文本文件读取自由字段文本文件添加变量文件节点到数据流区域编辑节点指向文件 SmallSampleComma.txt通过选择“类型”条目检查结果30读取固定字段文本文件读取固定字段文本文件移动一个固定文件节点到数据流区域编辑这个节点指向文件 SmallSampleFixed.txt构造 4 个新字段,列出变量名和字段长度交互式手动输入3
10、1读取读取 SPSS 数据文件数据文件添加 SPSS 文件节点到数据流区域编辑节点,指向文件 SmallSample.savSPSS 数据文件有特殊的“标签”:变量标签描述字段数值标签附上解释数值的编码32数据库节点数据库节点使用数据库节点前必须配置 ODBC 驱动去指定数据库的位置“控制面板-管理工具” 选择 ODBC选择 “添加”33添加添加 ODBC 数据源数据源选择合适的 ODBC 驱动,该驱动应该匹配数据库的名称和版本数据源 Holidays数据库文件custandhol.mdb 34使用数据库节点使用数据库节点添加并编辑数据库节点:选择数据库节点连接数据源选择“添加新的数据库连接”
11、在数据源列表中选择需要连接的数据源,点击连接选择需要读取的表格35定义字段类型定义字段类型类型节点指定字段的一系列重要属性指定字段类型、方向和缺失值Clementine 可以自动设置变量类型,用户也可以强制指定类型为建立模型,指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置36定义字段类型定义字段类型字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的字段类型:连续型 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间离散型用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记
12、、集合或者无类型集合型 用于描述带有多个具体值的数据(黄、绿、蓝)标记型 用于只取两个具体值的数据(真、假)无类型 用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据37字段实例化字段实例化在读取值前数据称为未实例化,字段设置为连续或离散型通过读取值后数据完全实例化,字段的取值和类型都是可知的通过类型节点或数据源节点上的类型条目可以指定数据类型38字段实例化字段实例化何时在源节点实例化数据集不太大不打算以后在流中增加字段何时在类型节点实例化数据集较大,而且流在类型节点前就过滤了子集数据在流中被过滤数据在流中被合并或追加在处理过程中导出新的数据字段39字段类型字段类型用变项文件节点读取
13、SmallSampleComma.txt字段实例化将ID字段的类型修改为无类型40字段方向字段方向输入:输入或者预测字段输出:输出或者被预测字段字段两者:既是输入又是输出,只在关联规则中用到无:建模过程中不使用该字段分区:将数据拆分为训练、测试(验证)部分字段方向设置只有在建模时才起作用第三第三 数据质量数据质量42课程计划课程计划l内容缺失数据定义介绍质量节点使用数据审核节点检查所有字段的分布l目的熟悉Clementine 中的一些用来发现数据的准确性、完整性和数据整体分布的方法43缺失数据类型缺失数据类型系统缺失值,也被称作 nulls,这些值在数据库中被留为空格,而且在类型节点上它们并不
14、被明确设置为“缺失”系统缺失值在 Clementine中显示为 $null$用户自定义缺失值,也被称作空白 blanks,这些值在类型节点上被明确地定义为缺失确定为空白的数据值被标记为特殊对待,而且在大多数计算中被剔除44SmallSampleMissing.txt 45自动定义缺失值自动定义缺失值在类型条目对话框中:右击菜单中选中“全选”再右击选中设置“缺失”选择“开”46数据审核数据审核打开数据流:数据稽查.str使用制表节点输出表格:共有 4117 条记录使用数据审核节点连接类型节点检查数据整体的分布抽样条目选择抽样当记录数多于 5000 ,这样可以检查所有的记录执行数据审核节点输出检查
15、结果47输出检查结果输出检查结果点击小图看完整的分布图或直方图第四第四 数据处理介绍数据处理介绍49课程计划课程计划l内容介绍选择节点处理记录介绍几个字段处理节点:过滤、字段重排、导出和重新分类介绍如何自动生成字段和记录处理节点l目的学会使用Clementine中 一些可用的数据处理技术,并使用这些技术清洗和精炼数据50数据处理技术数据处理技术CLEM( Clementine Language for Expression Manipulation )是一种功能强大的语言,用来分析操作 Clementine 中使用的数据用在导出、选择、过滤、平衡和报告等节点这些函数可以导出新的值、根据条件选择
16、记录、比较和评估数据、插入数据注意:为了将错误减少到最小,当使用注意:为了将错误减少到最小,当使用 CLEM时经常需要为字段名加上单引号时经常需要为字段名加上单引号51表达式构造器表达式构造器l尽量不要手动输入CLEM 表达式52选择节点选择节点打开数据流:选择节点.str使用选择节点连接类型节点选择符合条件“INCOME 20000”的记录选择模式“包含”使用分布节点分别连接类型节点和选择节点生成字段 RISK 的分布比较选择前后的分布53两个分布的比较两个分布的比较选择前选择后54过滤节点过滤节点打开数据流:过滤节点.str使用过滤节点连接类型节点改变字段名 STORECAR 为 STOR
17、ECARDS 移除字段 ID使用制表节点输出表格查看结果55字段重排节点字段重排节点使用字段重排节点连接过滤节点重新排列字段顺序点击“选择字段”按钮选择字段 :NUMKIDS,NUMCARDS和 RISK 点击“移动选定字段到顶部”选项将字段 Risk 移到顶部使用制表节点输出表格查看结果56导出节点导出节点使用导出节点连接过滤节点导出新字段导出节点四种形式:导出规则导出标记导出集合导出条件57重新分类节点重新分类节点使用重新分类节点连接最后一个导出节点选择单一模式重分类 Risk 字段为新字段 RISKCATbad loss,bad profit 新值badgood risk 新值 good
18、使用制表节点输出表格通过表格比较两个字段58CLEM 建议建议大小写敏感性在字符值和所有变量(字段)名上加引号当涉及数值时使用小数点( 0.0) 标准 CLEM 函数全部是小写字母任何以 开头的 CLEM 函数都是大写字母59自动生成节点自动生成节点大部分输出都包含“生成”菜单项,可以自动生成一个节点60自动生成导出节点自动生成导出节点使用直方图节点连接最后一个导出节点直方图节点中选择字段INCOME 生成直方图在生成的直方图上数值 20000、30000、40000 处点击自动生成导出节点导出集合第五第五 寻找数据之间的关系寻找数据之间的关系62课程计划课程计划l内容介绍网络图节点和矩阵节点研究符号字段之间关系使用相关系数来研究数值字段之间关系l目的探索一些在Clementine中研究字段之间关系的途径63在数据中寻找关系在数据中寻找关系矩阵节点生成符号数据交叉列联表网络图节点可视化表现符号数据之间的关系统计量节点计算数值字段之间的相关系数散点图节点和直方图节点可视化表现数值数据(交叠符号字段)64矩阵节点:关联两个符号字段矩阵节点:关联两个符号字段打开数据流:Riskdef.str使用矩阵节点连接类型节点生成列联表RISK 是否随 GENDER 改变行 RISK,列 G
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 墙体拆除与加固协议
- 材料成本投资协议
- 活动现场布置与搭建服务协议
- 通信服务协议简单版范文5篇
- 【正版授权】 ISO/IEC 11770-3:2021/AMD1:2025 EN Information security - Key management - Part 3: Mechanisms using asymmetric techniques - Amendment 1: TFNS identity-based key agreement
- 2025年图书馆学与信息学基础考试题及答案
- 2025年卫生统计学考试题及答案
- 2025年国际经济与贸易关系考试试卷及答案
- 2025年互联网金融专业考试题及答案
- 2025年科学教育专业考试试卷及答案
- GB/T 14337-2008化学纤维短纤维拉伸性能试验方法
- L4-《采购与供应策略》-讲义课件
- 固定资产和无形资产培训课程课件
- 合欢树史铁生课件
- 机房工程系统调试检验批质量验收记录表
- 光伏项目试验报告
- DB37-T 3587-2019养老机构护理型床位认定
- 汽车电子可靠性测试项目-(全)-16750-1-to-5
- 丁苯橡胶乳液聚合的生产工艺
- JOINT VENTURE AGREEMENT合资企业协议(双语版)
- CJ343-2010 污水排入城镇下水道水质标准
评论
0/150
提交评论