数据挖掘与Clementine使用培训电信.ppt_第1页
数据挖掘与Clementine使用培训电信.ppt_第2页
数据挖掘与Clementine使用培训电信.ppt_第3页
数据挖掘与Clementine使用培训电信.ppt_第4页
数据挖掘与Clementine使用培训电信.ppt_第5页
已阅读5页,还剩301页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与Clementine使用培训,北京瑞斯泰得数据技术开发有限公司 2019/7/15,,1,一、数据挖掘概述,什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DM,,2,为什么进行数据挖掘? 商业观点,业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大,,3,为什么进行数据挖掘? 技术观点,业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据中发现有价值的规律,,4,一个市场营销的例子,在数据中发现有价值的规则或者模式,女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关,,5,一个市场营销的例子,数据变的复杂会如何?,女性对市场活动做出回应,老年男性也可能对市场活动做出回应,,6,一个市场营销的例子,数据挖掘可以从异常复杂的数据中发现规律,通过数据挖掘发现回应的5条规则: 1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应 ,通过数据挖掘发现不回应的5条规则: 1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应 ,,7,数据挖掘收益分析,,8,利润分析图,,9,数据挖掘效果模拟分析,目的:发现新客户(使响应率从1%提高到1.2%),,10,什么是数据挖掘?,不同的定义 从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discovery in databases ) 数据/模式分析 商业智能 人工智能 ,,11,数据挖掘的起源,来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想,,12,数据挖掘面临的挑战,海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐私问题,,13,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,,14,商业理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,确定商业 目标,形势评估,确定数据 挖掘目标,制定项目 计划,背景,商业目标,成功标准,拥有资源,需求、假定 和限制,风险和 偶然性,专业 术语,成本和 收益,数据挖掘 目标,数据挖掘 成功标准,项目计划,工具和方法 评估,,15,数据理解,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,收集原始 数据,数据描述,数据探索 性分析,数据质量 描述,数据收集 报告,数据描述 报告,探索性数据 分析报告,数据质量 报告,,16,数据准备,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择数据,确定分析包含/剔除数据,数据集,数据集 描述,数据清理,数据清理报告,数据重构,生成新的变量(字段),生成新的记录,整合数据,合并相关数据,格式化数据,改变数据格式,适应分析,,17,建立模型,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,选择建模 技术,产生检验 设计,建立模型,评价模型,模型 技术,模型假设,检验设计,参数设定,建模,模型评价,参数设定 的修订,模型描述,,18,模型评估,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,结果评估,数据挖掘 过程回顾,确定下一 步的工作,评估数据 挖掘结果,被认可的模型,数据挖掘过程 的回顾,列出可能 的行动,决策,,19,结果发布,商业 理解,数据 理解,数据 准备,建立 模型,模型 评估,结果 发布,发布结果 计划,监测和维护 模型计划,生成最终数据 挖掘报告,项目回顾,结果发布计划,监测和维护 模型计划,最终数据 挖掘报告,数据挖掘 报告展现,项目检验 总结,,20,商业理解是数据挖掘的起点,解决方案,商业需要,,21,商业理解的内容,数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本? 我们期望模型能够给我们怎样的精确率? 有那些前提假定?,,22,约束分析,时间约束分析 资源约束分析 人力资源 数据资源 软件资源 硬件资源,,23,制定特定的数据挖掘目标,制定的数据挖掘目标应具有: 可评估性(assessable) 可实现性(attainable),,24,如何给定一个数据挖掘问题,是检验性数据挖掘还是探索性数据挖掘? 确定哪些是可以实现的数据挖掘问题 结果可测度性 信息(数据)的可获得性 评估和控制其他相关因素的影响,,25,数据来源与数据之间的关系,,26,使数据适合数据挖掘,对数据进行适当的合并和汇总 一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求: 所有的记录含有排列顺序一致的变量 所有记录的变量信息是完整的(理想化状态,在现实中很难达到),,27,检查数据质量,影响数据质量的几个主要问题 缺失值 不合理值 不同数据源的不一致 异常值,,28,对数据进行适当的变换,数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度,,29,数据挖掘模型的分类,数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis),,30,数据挖掘技术的分类,数据挖掘,描述,预测,统计回归,关联规则,决策树,可视化,聚类,顺序关联,汇总,神经网络,分类,时间序列预测,,31,数据挖掘的典型结果金融,问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树),收入大于5万元/年,是,否,有无储蓄帐户,是否房主,否,是,是,否,批准,不批准,批准,,32,数据挖掘的典型结果电信,问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络),输 入,流失概率 (0.87),输 出,男,29,3000元/月,套餐A,130元/月,,33,数据挖掘的典型结果零售,问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图),,34,数据挖掘的典型结果制造业,问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类),,35,数据挖掘的典型结果政府,问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络),,36,检验的形式,方法层面的检验 训练集和检验集 不同方法的互相印证和比较 模型准确性的检验: 商业层面上的检验 利润率的检验 模型结果可操作性的检验 其他检验,,37,关注那些错误的预测,,38,数据挖掘不成功的几种可能性,糟糕的数据 组织抵制 结果没有被有效的发布 得到了无用的结果,,39,模型发布的形式,书面报告 数据库更新 针对特定主题的应用系统,,40,数据挖掘的体系结构,,41,问题&讨论,,42,二、Clementine概述,Clementine在数据挖掘中的地位 Clementine发展历史 Clementine的配置 Clementine操作基础,,43,数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位,,44,数据挖掘方法论项目顺利实施的保证,商业理解 数据理解 数据准备 建立模型 模型评估 模型发布,,45,Clementine发展历程,Clementine是ISL (Integral Solutions Limited)公司开发的数据挖掘工具平台 1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点,,46,Clementine的软件构成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,,47,Clementine的两种运行方式,单机版运行 以下情况必须使用单机版运行: 数据存储在本机,且不能在网络上共享; 机器不联网; 无Clementine Server可供使用。 以下情况可以使用单机版运行: 要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到达局域网处; 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。,C/S结构运行 以下情况必须使用C/S结构运行: 单机内存或者硬盘不够大,难以运行大量数据; 单机上没有或者无法配置数据连结,无法从数据库中获取数据; 组织规则不允许下载大量数据到单机。 以下情况可以使用C/S结构运行: 要处理的数据量很大,并且存储在可以通过SPSS Data Access技术可到达的数据库处; 单机速度慢,Clementine Server运行的机器配置高。,,48,Clementine的系统结构,Clementine的三层结构: 1、数据库层; 通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行; 2、服务器端; 进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。,Clementine Client和Clementine Server通过SDL(Stream Description Language )之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。,,49,Clementine运行的两种方式,图形界面方式 适用操作系统 Windows系列 特点: 图形化界面 与客户直接交互 适合交互式分析过程,命令行方式 使用操作系统 Windows系列 Unix系列 特点: 命令行操作 不能生成图形,所有结果保存在文件里或者数据库中 适合于以下情况使用: 运行耗时较长的建模过程 希望在后台运行一些耗时较长的数据准备 过程希望按照一定的时间定期运行(比如每周、每月等) 希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中,,50,Clementine的界面和设计思路,可视化界面 四个区域分别是建模区、结点区、模型描述区、项目管理区 通过连接结点构成数据流建立模型 Clementine通过6类结点的连接完成数据挖掘工作,它们是: Source(源结点):Database、Var. Files等 Record Ops (记录处理结点):Select、Sample等 Field Ops(字段处理结点):Type、Filter等 Graphs(图形结点):Plot、Distribute等 Modeling(模型结点):Neural Net、C5.0等 Output(输出结点):Table、Matrix等,,51,Clementine操作基本知识,鼠标应用 三键与双键鼠标 左键 选择节点或图标置于建模区 右键 激活浮动菜单 中键 连接或断开两个节点 帮助,,52,Clementine操作基本知识,节点的增加,以 为例 Click “Sources”,Click ,Click “流区域” Click “Sources”,Double Click Click “Sources”,Drag to “流区域” 节点的删除 Click , Delete Right Click ,Click “Delete” 节点的移动:Drag,,53,Clementine操作基本知识,节点的编辑 Double Click Right Click ,Click “Edit” 节点的重命名和解释 Right Click ,Click “Edit”,Click “Annotations” Double Click ,Click “Annotations” Right Click ,Click “Rename and Annotations” 拷贝、粘贴,,54,Clementine操作基本知识,构建流时节点的连接 Highlight ,Add to the Canvas Right Click ,Click “Connect”,Click Drag the middle mutton from to 构建流时节点连接的删除 Right Click or , Click “Disconnect” Right Click “Connection”,Click “Delete Connection” Double Click or,,55,Clementine操作基本知识,流的执行 Highlight “Stream”,Click Right Click ,Click “Execute” In the Edit Window of the , Click “Execute” 流的保存 帮助 Help Menu Dialogue Window,,56,一个例子罗斯文商贸公司,商业问题: 微软公司提供的案例数据库罗斯文商贸公司,如何对客户价值进行评估 背景介绍: 1.罗斯文商贸公司是Microsoft数据库产品(Access, SQL Server等)中的一个示例数据库; 2.它虚拟了一家经销日用品的商贸公司的情况; 3.目前该公司保存的历史数据资料,见下页; 4.我们需要对客户的价值进行评估,以便采取有效的市场销售策略。,,57,罗斯林商贸公司数据,,58,罗斯文商贸公司统计问题,数据挖掘问题: (1)如何描述客户价值?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?使用最简单的购买总金额 (2)需要什么样的数据挖掘方法?描述汇总?分类?预测?概念描述?细分?相关分析?使用最简单的描述汇总 (3)需要的数据从哪里来?从以下几个来源: 客户 订单 订单明细,,59,罗斯文商贸公司商业问题解决方案,商业问题解决方案 从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多的关注,,60,Clementine的优化,包括两个方面的优化 结构优化 用户优化,,61,结构优化,把中间结果存储在Server上(尽量使用server版处理) 从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行) 减少数据的迁移(数据提前进行规划),,62,用户优化,自动优化数据流:当使用这一选项时,Clementine将重写数据流以使效率最高(可以通过Clementine Server中的sql_rewriting_enabled来调整是否可以使用) 优化的SQL生成。使尽可能的操作在数据库内进行。 优化Clementine执行。调整数据降维的操作尽可能接近数据源完成。 手动优化数据流 操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面 数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。,,63,一个数据挖掘的实例 客户信用级别判断系统,,64,问题的提出,如何通过数据挖掘实现小灵通信用级别的判断系统 某电信公司按照某种标准将小灵通客户信用等级分为5类,分别是gradeA、gradeB 、gradeC、gradeX、gradeY。现在希望建立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。,,65,数据描述,,66,遵循CRISP-DM的数据挖掘过程,,67,在进行数据挖掘过程中应该注意的几个问题,商业经验的作用 数据的拆分训练集与检验集 不同模型的印证与比较,,68,结果发布,信用级别静态列表 信用级别写回数据库 实时判断信用级别的分析应用,,69,问题&讨论,,70,三、数据理解:数据的可视化和报告,数据组织形式 数据图形展现 数据表格展现,,71,数据挖掘要求的数据格式,变量 记录(行代表记录,列代表变量),,72,数据尺度,根据数据的不同,可以把变量分为以下一些类型 定类变量 例如:客户编号、性别、邮编等 不能比较大小 定序变量 产品等级、信用级别、客户收入水平分类等 可以比较大小、不能进行加减运算 定距变量 出生日期、温度等 可以进行加减运算、不能进行乘除运算 定比变量 收入、长度等 可以进行乘除运算,,73,各类变量尺度比较,,74,描述性统计量,描述统计量(summary statistic),也称汇总统计量或概括统计量 用少量数字概括大量数据的技术,,75,离散变量的描述性统计,频数 累计频数 频率 累计频率(累计必须是定序变量),,76,连续变量的描述指标,反映数据平均趋势和位置的指标 反映数据离散趋势的指标 反映数据分布状况的指标,,77,反映连续数据平均趋势的指标,平均数 算术平均数 几何平均数 截尾算术平均数:比较稳健有效地描述平均值 中位数:(代表群体基本的趋势,集中的趋势) 众数(多用于离散变量) 四分位数(25%,50%,75%) 百分位数,,78,平均数与中位数的结合使用,对5个数值表示的内容说法有些不同,含义与左图不同,含义与左图不同,,79,反映连续数据离散趋势的指标,极差(全距)range =max-min 内距 50%的差距 方差 :更适合离散趋势的描述(趋势放大) 标准差 变异系数:标准差/均值,值越大,则离散程度越大。,,80,平均数与标准差的应用,切比雪夫定理 在任何一个数据集中,至少有(1-1/z2 )的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。 切比雪夫定理含义 1.至少75%的数据项与平均数的距离在2个标准差之内; 2.至少89%的数据项与平均数的距离在3个标准差之内;(6西格玛质量管理应用) 3.至少94%的数据项与平均数的距离在4个标准差之内。,,81,连续变量的经验法则,正态分布是一种最常用的连续型分布 关于正态分布的经验法则 1.约68%的数据项与平均数的距离在1个标准差之内; 2.约95%的数据项与平均数的距离在2个标准差之内; 3.几乎全部数据项(99.97%)与平均数的距离在3个标准差之内。,,82,切比雪夫和经验法则的应用,问题 某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落在160cm-180cm这个区间里的呢? 经验法则的应用 根据切比雪夫定理,该单位至少有75%的人身高在160cm180cm这个区间里 根据正态分布经验法则,该单位大约有95%的人身高在160cm180cm这个区间里,,83,反映连续数据分布状况的指标,偏度 峰度,,84,图形展现数据,,85,图形技术的应用,图形可以用来直观的展示数据的分布特征和取值情况 常见的描述离散变量的图形有 条形图 饼形图 常见的描述连续变量的图形有 直方图 常见的描述两个离散变量之间关系的图形有 Web图 条形图 常见的描述两个连续变量之间关系的图形有 散点图 常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图,,86,通过图形可以表现多个变量之间的关系,,87,Chapter 2,Clementine 简介,,88,Chapter 2 Clementine 简介,目的: 初步了解Clementine软件 内容: 2.1 SPSS Clementine C/S 2.2 SPSS Clementine 面板 2.3 SPSS Clementine 可视化程序使用基础 节点 SPSS file 节点 Table 节点,,89,2.1 Clementine C/S,启动: StartProgramsClementine 8.1 Clementine and Clementine Server ToolsServer Login,,90,Clementine的结构示意图,,91,2.2 Clementine 面板,,92,第二讲:数据简单准备与理解,数据准备之读入数据 数据理解之数据质量 数据理解之数据分布,,93,Chapter 3,读取数据文件,,94,Chapter 3 读取数据文件,目的 掌握Clementine如何读取文本格式数据 了解Clementine可以读取的数据格式 掌握Clementine中的字段类型和方向 数据 S,,95,Chapter 3 读取数据文件,内容及节点: 3.1 Clementine可以读取的数据格式 3.2 读取文本数据与查看数据 3.3 读取SPSS数据 3.4 读取数据库数据(专用spss配置的链接) 3.5 Clementine中的字段类型 3.6 Clementine中的字段方向 3.7 保存Clementine流,,96,3.1 Clementine可以读取的数据格式,文本格式数据 SPSS/SAS数据 Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等数据库(每次只能读一个表) 用户输入数据,,97,3.2 读取文本数据与查看数据,,98,3.2 读取文本数据与查看数据,,99,3.2 读取文本数据与查看数据,,100,3.2 读取文本数据与查看数据,,101,3.2 读取文本数据与查看数据,,102,3.3 读取SPSS数据,变量标签 值标签,,103,3.4 读取数据库数据,ODBC设置,数据库-表,,104,3.5 Clementine中的字段类型,离散型 二分 eg:sex:m/f 多分 eg:等级:好/中/差 离散 eg: 连续型 整数 实数 日期、时间 其它,,105,3.6 Clementine中的字段方向,,106,3.7 读取其它格式的数据,Sas Fixed text file:同一字段在各行的同一列,,107,Chapter 4,数据理解之数据质量,,108,Chapter 4 数据理解之数据质量,目的: 掌握如何应用Clementine发现数据的准确性、完整性 熟悉用于数据质量分析的几个节点 内容: 4.1 数据理解 4.2 缺失值定义 4.3 Quality节点介绍 4.4 Distribution节点-初步理解字符型字段的分布 4.5 Histogram/Statistics节点-初步理解数值型字段的分布 数据: Smallsamplemissing.txt Risk.txt,,109,数据理解的内容,对数据质量进行评价 对数据进行初步的描述 对数据之间的关系进行探索性分析,,110,4.1 数据理解,在数据挖掘之前,理解数据的取值范围及数值分布是非常重要的 Histogram/Statistics Distribution 数据质量越高,挖掘结果准确性越高 Quality,,111,4.2 缺失值定义,Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields. 缺失值的定义:type节点 系统默认缺失值-on Null-数值型字段-空值-“”-“$Null” Empty String -字符型字段-空值-“” White Space -字符型字段-空值以及空格值-“”或“ ”-包括Empty String 指定缺失值-Blank Value 系统默认缺失值 指定特殊缺失值-“99” 缺失值的检查:quality节点,,112,4.2 缺失值定义,,113,4.2 缺失值定义,数据缺失情况 数据量的大小 包含缺失值的字段的数量 缺失值的数量 缺失值的处理方法 忽略含缺失值的字段 忽略含缺失值的记录 默认值代替缺失值 根据一定规则填充缺失值,,114,4.3 Quality节点介绍,查看缺失值情况 查看各类型缺失值的分布情况 Blank Value的指定,,115,4.3 Quality节点介绍,Quality结果,,116,4.4 Distribution节点-初步理解字符型字段的分布,单个字段的值分布 例:人群中各种风险等级人数及百分比 与其它分类字段合并 例:分性别显示各种风险等级人数及百分比 例:各种风险等级中男性女性各占比例,,117,4.5 Histogram/Statistics节点-初步理解数值型字段的分布,单个字段的值分布 例:人群收入水平 与其它分类字段合并 例:显示各种风险等级的收入水平 例:显示各收入水平的各风险等级比例,,118,Chapter 5,简单数据整理,,119,Chapter 5 简单数据整理,目的: 掌握Clementine中的数据整理技术 熟悉用于数据整理的几个节点 内容 5.1 Clem语言简介 5.2 Select节点介绍 5.3 Filter节点介绍 5.4 Derive节点介绍 5.5 自动生成操作节点 数据 Risk.txt SmallSampleMissing.txt,,120,5.1 Clem语言简介,Clementine Language of Expression Manipulation 应用节点:Derive导出, Select选择, Filter过滤 构建材料:函数、符号、数字、字段 记录敏感:对每条记录返回值(整数、实数、布尔值、字符值、日期、时间)或评估是否满足条件 两种表达式:条件表达式与计算表达式,,121,5.2 Select节点介绍,用于根据一定条件选择或丢弃某些记录 CLEM构建,,122,5.3 Filter节点介绍,对某些字段进行重命名或丢弃某些无意义的字段 无意义字段 缺失值占大比例 所有记录有相同值 中间过程生成的中间变量,,123,5.4 Derive节点介绍,根据原有字段值生成新字段值 按公式生成字段 生成二分型字段 生成多分型字段 对所有记录按同样标准生成新字段 对不同记录按不同标准生成新字段 对多个字段进行同一转换,,124,5.4 Derive节点介绍,可以利用导出把连续数据离散化(导出为标志及集合),以进一步分析,,125,5.5 自动生成操作节点,自动生成“Select” 自动生成“Filter”,,126,第三讲主要内容,数据理解之数据关系探测 基本建模方法简要介绍,,127,Chapter 6,数据理解之 数据间简单关系,,128,Chapter 6 数据理解之数据间简单关系,目的: 掌握如何理解字段间关系 熟悉用于字段关系理解的几个节点 内容 6.1 Matrix节点-研究字符型字段间关系 6.2 Web节点-研究字符型字段间关系 6.3 Statistics节点-研究连续型字段间线性相关关系 6.4 Plot节点-研究连续型字段间关系 6.5 Histogram节点-研究连续型字段与字符型字段的关系 数据 Risk.txt,,129,Chapter 6 数据理解之数据间简单关系,解决问题 风险等级是否与收入有关 风险等级是否与性别有关 如果一个人的信用卡数量较多,是否意味着它欺诈的可能性也大,,130,6.1 Matrix节点-研究字符型字段间关系,解决问题 月付款的人是否比周付款的人风险程度更高 男性是否比女性风险程序更高 Matrix节点: 交叉表(列联表)来显示字符型数据间关系 行字段与列字段的选择 显示百分比,,131,6.1 Matrix节点-研究字符型字段间关系,,132,6.2 Web节点-研究字符型字段间关系,例:婚姻状态、抵押贷款等是否与风险等级有关 几个小概念: 人数 总数百分比 大类百分比 小类百分比 强、中、弱相关关系 结果解读,,133,6.2 Web节点-研究字符型字段间关系,,134,6.3 Statistics节点-研究连续型字段间线性相关关系,例:收入是否随年龄呈线性增长 Statistics节点设置 结果解读 注意: 线性相关关系而非相关关系(线形相关是相关关系的一种,其他相关关系最终需要转化为线形相关来研究),,135,6.3 Statistics节点-研究连续型字段间线性相关关系,,136,6.4 Plot节点-研究连续型字段间关系,例:显示孩子数目与贷款数目的关系 用点的大小来反映其代表记录的多少 用点的密度来反映其代表记录的多少 用不同颜色的点来反映不同类别的记录,,137,6.4 Plot节点-研究连续型字段间关系,,138,6.5 Histogram节点-研究连续型字段与字符型字段的关系,例:不同风险等级的人的收入情况 显示某收入水平的各风险等级人数 显示某收入水平-各风险等级在该收入水平所占的比例,,139,表格展现数据,,140,表格的元素构成,,141,表格类型 在SPSS里实现,堆叠表(Stacking) 嵌套表(Nesting) 交叉表(Crosstabulation) 分层表(Layers),,142,堆叠表,,143,嵌套表,,144,交叉表,,145,分层表,,146,把层去掉以后的效果,,147,枢轴表技术(Pivot Tables),行、列、层可自由互换,达到从各个角度观察数据的目的,,148,Clementine表格,,149,问题&讨论,,150,Chapter 7,建模技术概览,,151,Chapter 7 Clementine中的建模技术,目的: 了解Clementine中提供的各种建模技术 内容 7.1 Clementine提供的模型技术 7.2 Neural Networks(神经网络) 7.3 规则归纳模型 7.4 统计模型 7.5 聚类模型 7.6 关联规则模型 7.7 Sequence模型 7.8 总述,,152,Data Mining Model,Supervised Model(监督模型,预测模型,有目标的,关注风险状况) (Predictive Model),Unsupervised Model,Data Reduction(数据整理),Neural Networks,C5.0,C&RT(CART),Regression,Logistic regression(分类变量预测),Kohonen,K-means,Two-Step,PCA(Principal Component Analysis)主成分分析,Factor因子分析,Clementine提供模型概述,Clustering(聚类),APRIORI,GRI(多维关联),Sequence,Associations(关联),,153,7.1 Clementine提供的模型技术,几种技术:预测、聚类、关联规则 预测技术: InputsOutput 六种方法: Neural Networks 规则归纳:C5.0,C&RT 与时间或顺序有关的关联规则:Sequence(Capri) 统计学:回归、Logistic回归,,154,7.1 Clementine提供的模型技术,聚类技术 无Output 无监督的学习 三种方法: Kohonen 统计学:K-means、TwoStep 关联规则 Both Input and Output 三种方法 GRI,Apriori Sequence (Capri),,155,7.2 Neural Networks,模仿人脑 Input/Output可以是Num,也可以是Symbolic MLP与RBFN 劣势:黑匣子,,156,7.3 规则归纳模型,是决策树算法 与Neural Net相比的优势 结果好解释 自动删除无意义的Input字段 主要是根据结果变量值对数据按Input进行细分 有两种结果形式:决策树形式或规则集形式,,157,7.4 统计模型之线性回归,统计模型与Neural Net相比: 严格的假设(如误差正态分布) 用简单方程表达模型,便于解释 可自动选择字段 无法捕捉Inputs字段间的交互作用 统计模型: 线性回归 Logistic回归 主成分分析,,158,7.4 统计模型之回归,线性回归: 方程:Y=a+b1x1+b2x2+ +bnxn 原理:寻找使误差平方和最小的系数 Output字段-Numeric输出必须是连续型 Input字段-Numeric/Symbolic Logistic回归: 方程 原理:寻找使误差平方和最小的系数 回归系数随结果值而改变,与NN,RI相比,不适合复杂数据 Output字段-Symbolic输出必须是离散性 Input字段-Numeric/Symbolic,,159,7.4 统计模型之主成分分析,数据降维技术: 用少量不相关数据(主成分)来代替大量相关数据(原始数据)作分析 主成分是原始数据的线性组合 更可能与统计分析方法合并使用(相对于机器学习),尤其是在多个等级分类字段 可用于预测模型或聚类分析之前,,160,7.5 聚类模型,发现有相似值记录的群体 多用于市场(细分客户)和其它商业应用 与主成分分析相似,多用于预测模型之前 无监督学习(无output) 三种聚类分析方法: Kohonen K-means TwoStep,,161,7.5 聚类模型,Kohonen聚类 是一种实施无监督学习的神经网络算法 一维或二维网格,各神经元相互连接 K-means聚类 又称为快速聚类,(速度快,适合大量数据) 用户指定类别数 与记录顺序有关(小数据量与记录顺序无关,大数据需要先执行一定程序找出数据各类别中心) TwoStep聚类 用户指定范围,模型根据统计学标准自动选择类数 消耗机器资源少 能给出一个较好的结果,,162,7.6 关联规则模型,寻找数据中一起发生的事情 与Web相似,但以极快的速度发掘更复杂的模式 与规则归纳不同之处 每个规则的Output字段可能各不相同 规则可用于查看,但非预测 可生成同一output字段的规则,用于预测 与规则归纳相比,运行较慢,可增加限制条件从而提高速度 两种算法:Apriori,GRI(广义规则探测),,163,7.7 Sequence模型,与关联规则不同之处在于寻找与时间/顺序有关的规则 应用领域:零售、网络日志、过程改进 用于字符型字段,数值被当作是字符 用CARMA算法,,164,7.8 综述,如果要预测某个字段-有监督的机器学习和其中一种统计方法(依结果字段而定) 如果想发现有相似行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论