




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘与clementine概述密码:shouzhongfenxiBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)1一、数据挖掘概述 什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论CRISP-DMBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)2为什么进行数据挖掘? 业务中产生了大量的数据,这些
2、数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3为什么进行数据挖掘? 技术观点 业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据中发现有价值的规律0500,0001,000,0001,500,0002
3、,000,0002,500,0003,000,0003,500,0004,000,00019951996199719981999The Data GapTotal new disk (TB) since 1995Number of analysts From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)530603
4、45 Guangzhou (8620)4一个市场营销的例子在数据中发现有价值的规则或者模式在数据中发现有价值的规则或者模式女性对市场活动做出女性对市场活动做出回应,男性对市场活回应,男性对市场活动不做出回应,和年动不做出回应,和年龄无关龄无关Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)5一个市场营销的例子数据变的复杂会如何?数据变的复杂会如何?女性对市场活动做出回应,女性对市场活动做出回应,老年男性也可能对市场活动老年男性也可能对市场活动做出回应
5、做出回应Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)6一个市场营销的例子数据挖掘可以从异常复杂的数据中发现规律数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发通过数据挖掘发现回应的现回应的5 5条规条规则:则:1 1、如果收入大、如果收入大于于2962229622,有孩,有孩子,并且孩子的子,并且孩子的数量小于等于数量小于等于2 2,那么对市场活,那么对市场活动会回应动会回应通过数据挖掘发通过数据挖掘发现不回应的现不回应的5 5条条规则:规则
6、:1 1、如果收入小、如果收入小于于12640.312640.3,并,并且有一个孩子,且有一个孩子,那么对市场活动那么对市场活动不会回应不会回应Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)7数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620
7、)8利润分析图Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)9数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,00
8、0$40,000最终的利润$250,000$335,000$85,000目的:发现新客户目的:发现新客户( (使响应率从使响应率从1%1%提高到提高到1.2%)1.2%)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)10什么是数据挖掘? 不同的定义 从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discover
9、y in databases ) 数据/模式分析 商业智能 人工智能 Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)11数据挖掘的起源 来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想机器学习/模式识别统计学数据挖掘数据挖掘数据库系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345
10、 Guangzhou (8620)12数据挖掘面临的挑战 海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐私问题Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)13数据挖掘方法论项目顺利实施的保证 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai
11、(8621)53060345 Guangzhou (8620)14商业理解商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)15数据理解商业商业理解理解 数据数据 理解理解数据数据准备
12、准备建立建立模型模型模型模型评估评估结果结果发布发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)16数据准备商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数
13、据格式,适应分析Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)17建立模型商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guang
14、zhou (8620)18模型评估商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)19结果发布商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回
15、顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)20商业理解是数据挖掘的起点C2C1解决方案解决方案商业价值商业价值商业需要商业需要Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)21商业理解的内容 数据挖掘能解决什么样的商业问题?
16、数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?的行动以提高利润或降低成本? 我们期望模型能够给我们怎样的精确率?我们期望模型能够给我们怎样的精确率? 有那些前提假定?有那些前提假定?Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)22约束分析 时间约束分析时间约束分析 资源约束分析资源约束分析人力资源人力资源数据资源数据资源软件资源软件资源硬件资源硬件资源Beij
17、ing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)23制定特定的数据挖掘目标制定的数据挖掘目标应具有:制定的数据挖掘目标应具有: 可评估性(可评估性(assessable)assessable) 可实现性(可实现性(attainableattainable)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)24如何给定
18、一个数据挖掘问题 是检验性数据挖掘还是探索性数据挖掘?是检验性数据挖掘还是探索性数据挖掘? 确定哪些是可以实现的数据挖掘问题确定哪些是可以实现的数据挖掘问题 结果可测度性结果可测度性 信息(数据)的可获得性信息(数据)的可获得性 评估和控制其他相关因素的影响评估和控制其他相关因素的影响Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)25数据来源与数据之间的关系Beijing Stats Data Mining Co. Ltd.Beijing (861
19、0)51722052 Shanghai (8621)53060345 Guangzhou (8620)26使数据适合数据挖掘 对数据进行适当的合并和汇总 一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:所有的记录含有排列顺序一致的变量所有记录的变量信息是完整的(理想化状态,在现实中很难达到)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)27检查数据质量 影响数据质量的几个主要问题缺失值
20、缺失值不合理值不合理值不同数据源的不一致不同数据源的不一致异常值异常值Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)28对数据进行适当的变换 数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)29数据挖掘模型的分类 数据描述和
21、汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)30数据挖掘技术的分类数据挖掘数据挖掘描述描述预测预测统计回归统计回归关联规则关联规则决策树决策树可视化可视化聚类聚类顺序
22、关联顺序关联汇总汇总神经网络神经网络分类分类时间序列预测时间序列预测Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)31数据挖掘的典型结果金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树)收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不批准批准Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)530
23、60345 Guangzhou (8620)32数据挖掘的典型结果电信 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络)输 入流失概率(0.87)输 出男293000元/月套餐A130元/月Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)33数据挖掘的典型结果零售 问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51
24、722052 Shanghai (8621)53060345 Guangzhou (8620)34数据挖掘的典型结果制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)35数据挖掘的典型结果政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络)Beijing Stats Data Mining Co. Ltd.Beijing (861
25、0)51722052 Shanghai (8621)53060345 Guangzhou (8620)36检验的形式 方法层面的检验方法层面的检验 训练集和检验集训练集和检验集 不同方法的互相印证和比较不同方法的互相印证和比较 模型准确性的检验模型准确性的检验: : 商业层面上的检验商业层面上的检验 利润率的检验利润率的检验 模型结果可操作性的检验模型结果可操作性的检验 其他检验其他检验Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)37关注那些错误
26、的预测Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38数据挖掘不成功的几种可能性 糟糕的数据糟糕的数据 组织抵制组织抵制 结果没有被有效的发布结果没有被有效的发布 得到了无用的结果得到了无用的结果Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)39模型发布的形式 书面报告书面报告 数据库更新数据库更新
27、针对特定主题的应用系统针对特定主题的应用系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)40数据挖掘的体系结构用户界面SPSS Data Access PackClementine Solutions Publisher RuntimeC/S结构或B/S结构发布数据挖掘模型C/S结构建立数据挖掘模型数据库模型库分析员ClementineSPSS Data Access PackBeijing Stats Data Mining Co. Ltd.B
28、eijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)41Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385clementine概述Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)43Clementine 面板流区域Stre
29、am canvas菜单栏工具栏面板区pallete节点区node流、结果、模型管理区项目管理区Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine应用示例44Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038545Beijing Stats Data Mining
30、 Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385具体分析和操作步骤如下 第一步,读数据到clementine中。在数据源(source)选项卡中选择Var.File节点,并设置节点参数。在File选项中指定从DRUG.txt中读取数据。 第二步,浏览数据内容。在输出(output)选项卡中选择Table节点加到数据流中,执行该节点,所生成的数据表名讲列在流管理窗口的outputs选项卡中。 第三步,观察各个变量的数据分布特征。在输出(output)选项卡中选择Data Audit节点
31、加到数据流中,执行该节点,所生成的数据表名讲列在流管理窗口的outputs选项卡中。46Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385 第四步,观察服用不同药物的病人唾液中钠和钾的含量情况。在图形(graph)选项卡中选择Plot节点加到数据流中,设置节点参数,制定Na为x轴,K为y轴,服用不同Drug的病人数据采用不同颜色的点,执行该节点,所生成的图形文件名将列在流管理窗口的outputs选项卡中 第五步,观察服用不同药物病人唾液中钠和钾的浓度比例情况。该指标是原始数据中没有的,需要计算生成,然后观察分布特征。在字段(field Ops)选项卡中选择Histogram节点,设置节点参数制定绘制直方图,服用不同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 市政管网施工质量控制方案
- 2025年国家能源集团笔试笔试题库附带答案详解
- 2025年车祸游戏推理题目及答案
- 污水处理厂改扩建工程经济效益和社会效益分析报告
- 2025小学古诗词大赛备考题库和答案
- 煤矸石综合利用生产线项目经济效益和社会效益分析报告
- 项目施工期施工图审核方案
- 建筑装饰工程施工质量控制方案
- 绿化灌溉技术优化方案
- 半导体特色硅抛光片生产线项目建设工程方案
- 2025年银行从业资格考试公共基础真题及答案
- 2025年三力测试题试题及答案
- TCSUS14-2021不锈钢芯板建筑结构技术标准
- 物业交接表格全模板
- 常用食品包装技术与设备
- 2021届语文大总复习课时作业36文学类文本阅读-小说(二)含解析
- 2023年学宪法讲宪法知识竞赛题含答案
- 思想道德与法治基础:第一章 领悟人生真谛 把握人生方向
- 2022年DISC职业性格测试(40题附完整分析)
- 《星际穿越》-课件
- 小学竖笛社团活动计划及活动总结
评论
0/150
提交评论