电信数据业务数据挖掘主题_第1页
电信数据业务数据挖掘主题_第2页
电信数据业务数据挖掘主题_第3页
电信数据业务数据挖掘主题_第4页
电信数据业务数据挖掘主题_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电信数据业务数据挖掘主题 数据挖掘与Clementine使用培训北京瑞斯泰得数据技术开发有限公司xx-4-30 一、数据挖掘概述?什么是数据挖掘?数据挖掘的实现路线和流程?数据挖掘方法论CRISP-DMBeijing Stats Data Mining Co.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.1为什么进行数据挖掘?商业观点?业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值客户信息数据客户交易行为数据Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.2客户交易行为数据客户反馈数据网络数据?计算机变得越来越便宜、功能却越来越强大?商业竞争越来越激烈,对客户了解越多就为什么进行数据挖掘?技术观点?业务中的数据量呈现指数增长(GB/小时)?传统技术难以从这些大量数据中发现有价值的规律?数据挖掘可以帮助我们从大量数据中发现有价值的规律4,000,000Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.30500,0001,000,0001,500,0002,000,0002,500,0003,000,0003,500,00019951996199719981999The DataGapTotal newdisk(TB)since1995Number ofanalystsFrom:R.Grossman,C.Kamath,V.Kumar,“Data Miningfor Scientificand EngineeringApplications”一个市场营销的例子女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关女性对市场活动做出回应,男性对市场活动不做出回应,和年龄无关Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.4在数据中发现有价值的规则或者模式一个市场营销的例子Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.5数据变的复杂会如何?女性对市场活动做出回应,老年男性也可能对市场活动做出回应女性对市场活动做出回应,老年男性也可能对市场活动做出回应一个市场营销的例子通过数据挖掘发现回应的5条规则 1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应通过数据挖掘发现回应的5条规则 1、如果收入大于29622,有孩子,并且孩子的数量小于等于2,那么对市场活动会回应Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.6数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发现不回应的5条规则 1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应通过数据挖掘发现不回应的5条规则 1、如果收入小于12640.3,并且有一个孩子,那么对市场活动不会回应数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.7利润分析图Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.8数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)目的发现新客户(使响应率从1%提高到1.2%)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.9每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终的利润$250,000$335,000$85,000什么是数据挖掘??不同的定义从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程从大量数据中自动化(或者半自动化)的发现有价值规律的过程?数据挖掘的其他名称Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.10数据挖掘的其他名称数据库内知识发现(KDD-Knowledge discoveryin databases)数据/模式分析商业智能人工智能数据挖掘的起源?机器学习/人工智能、模式识别、统计学和数据库?传统技术的局限性巨量的数据机器学习/模式识别统计学Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.11巨量的数据高维数据数据分布不理想模式识别数据挖掘数据库系统数据挖掘面临的挑战?海量数据?高维数据?数据复杂性Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.12?数据质量问题?数据所有权和分布?隐私问题数据挖掘方法论项目顺利实施的保证?商业理解?数据理解?数据准备Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.13?建立模型?模型评估?模型发布商业理解商业理解商业理解数据理解数据理解数据准备数据准备建立模型建立模型模型评估模型评估结果发布结果发布确定商业目标背景商业目标成功标准Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.14形势评估确定数据挖掘目标制定项目计划拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估数据理解商业理解商业理解数据理解数据理解数据准备数据准备建立模型建立模型模型评估模型评估结果发布结果发布收集原始数据数据收集报告Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.15数据描述数据探索性分析数据质量描述数据描述报告探索性数据分析报告数据质量报告数据准备商业理解商业理解数据理解数据理解数据准备数据准备建立模型建立模型模型评估模型评估结果发布结果发布选择数据确定分析包含/剔除数据数据集数据集描述Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.16数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并相关数据格式化数据改变数据格式,适应分析建立模型商业理解商业理解数据理解数据理解数据准备数据准备建立模型建立模型模型评估模型评估结果发布结果发布选择建模技术模型技术模型假设Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.17产生检验设计建立模型评价模型检验设计参数设定建模模型评价参数设定的修订模型描述模型评估商业理解商业理解数据理解数据理解数据准备数据准备建立模型建立模型模型评估模型评估结果发布结果发布结果评估评估数据挖掘结果被认可的模型Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.18数据挖掘过程回顾确定下一步的工作数据挖掘过程的回顾列出可能的行动决策结果发布商业理解商业理解数据理解数据理解数据准备数据准备建立模型建立模型模型评估模型评估结果发布结果发布发布结果计划结果发布计划Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.19监测和维护模型计划生成最终数据挖掘报告项目回顾监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结商业理解是数据挖掘的起点C2C1解决方案?商业需要?Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.20商业价值?商业理解的内容?数据挖掘能解决什么样的商业问题??数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?我们期望模型能够给我们怎样的精确率?Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.21?我们期望模型能够给我们怎样的精确率??有那些前提假定?约束分析?时间约束分析?资源约束分析?人力资源?数据资源Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.22?数据资源?软件资源?硬件资源制定特定的数据挖掘目标制定的数据挖掘目标应具有?可评估性(assessable)?可实现性(attainable)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.23如何给定一个数据挖掘问题?是检验性数据挖掘还是探索性数据挖掘??确定哪些是可以实现的数据挖掘问题?结果可测度性?信息(数据)的可获得性Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.24?信息(数据)的可获得性?评估和控制其他相关因素的影响数据与数据之间的关系Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.25使数据适合数据挖掘?对数据进行适当的合并和汇总?一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样张表Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.26到的不同格式的数据整合成这样一张表,要求?所有的记录含有排列顺序一致的变量?所有记录的变量信息是完整的(理想化状态,在现实中很难达到)检查数据质量?影响数据质量的几个主要问题?缺失值?不合理值?不同数据源的不一致Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.27?不同数据源的不一致?异常值对数据进行适当的变换?数据的标准化变换?生成新的变量?数据的重新编码Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.28?数据降维,从变量角度或者从记录角度数据挖掘模型的分类?数据描述和汇总(Data descriptionand summarization)?细分(Segmentation)概念描述()Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.29?概念描述(Concept descriptions)?分类(Classification)?预测(Prediction)?相关分析(Dependency analysis)数据挖掘技术的分类数据挖掘描述预测统计回归可视化分类时间序列预测Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.30关联规则决策树可视化聚类顺序关联汇总神经网络数据挖掘的典型结果金融?问题描述预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少?结果描述(决策树)收入大于5万元/年Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.31?结果描述:(决策树)是否有无储蓄帐户是否房主否是是否批准不批准批准数据挖掘的典型结果电信?问题描述根据客户信息,预测客户流失可能性?结果描述:(神经网络)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.32输入流失概率(0.87)输出男293000元/月套餐A130元/月数据挖掘的典型结果零售?问题描述如何决定超市中商品的摆放来增加销售额?结果描述:(Web图)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.33数据挖掘的典型结果制造业?问题描述如何对市场进行细分,使产品满足最有价值客户?结果描述:(Koholen聚类)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.34数据挖掘的典型结果政府?问题描述如何从众多申请经费或者纳税中发现欺诈?结果描述:(回归、神经网络)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.35检验的形式?方法层面的检验?训练集和检验集?不同方法的互相印证和比较?模型准确性的检验Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.36?模型准确性的检验:?商业层面上的检验?利润率的检验?模型结果可操作性的检验?其他检验关注那些错误的预测Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.37数据挖掘不成功的几种可能性?糟糕的数据?组织抵制?结果没有被有效的发布Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.38?得到了无用的结果模型发布的形式?书面报告?数据库更新?针对特定主题的应用系统Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.39数据挖掘的体系结构用户界面Clementine SolutionsPublisher RuntimeC/S结构或B/S结构发布数据挖掘模型Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.40SPSS DataAess PackC/S结构建立数据挖掘模型数据库模型库分析员ClementineBeijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.41 二、Clementine概述?Clementine在数据挖掘中的地位?Clementine发展历史?Clementine的配置Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.42?Clementine操作基础数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位!?Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.43Better datamining results!InsightBusiness problem?What youknow数据挖掘方法论项目顺利实施的保证?商业理解?数据理解?数据准备Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.44?建立模型?模型评估?模型发布Clementine发展历程?Clementine是ISL(Integral SolutionsLimited)公司开发的数据挖掘工具平台?1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在经成为公司的又亮点Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.45Clementine已经成为SPSS公司的又一亮点1998-xxClementine的软件构成?Clementine Client;?Clementine Server;?Clementine Batch;Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.46?SPSS DataAess Pack;?Clementine SolutionPublisher(Optional)。 Clementine的两种运行方式?单机版运行?以下情况必须使用单机版运行数据存储在本机,且不能在网络上共享;数据存储在本机,且不能在网络上共享;机器不联网;无Clementine Server可供使用。 ?C/S结构运行?以下情况必须使用C/S结构运行单机内存或者硬盘不够大,难以运行大量数据;单机内存或者硬盘不够大,难以运行大量数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;单机上没有或者无法配置数据连结,无法从数据库中获取数据;组织规则不允许下载大量数据到Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.47?以下情况可以使用单机版运行要处理的数据量很小(比如小于要处理的数据量很小(比如小于2M)并且数据存储在单机或可到达局域网处;)并且数据存储在单机或可到达局域网处;单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。 单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要求。 组织规则不允许下载大量数据到单机。 ?以下情况可以使用C/S结构运行?要处理的数据量很大,并且存储在可以通过要处理的数据量很大,并且存储在可以通过SPSS DataAess技术可到达的数据库处;技术可到达的数据库处;?单机速度慢,Clementine ServerClementine Server运行的机器配置高。 Clementine的系统结构Clementine的三层结构: 1、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行; 2、服务器端;Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.48进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程) 3、客户端。 在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。 Clementine Client和Clementine Server通过SDL(Stream DescriptionLanguage)之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。 Clementine Client和Clementine Server通过SDL(Stream DescriptionLanguage)之间进行信息交换,Clementine Server和Database通过SQL语句进行信息交换。 Clementine运行的两种方式?图形界面方式?适用操作系统Windows系列?特点图形化界面命令行方式使用操作系统命令行方式使用操作系统Windows系列Unix系列特点系列特点?命令行操作?不能生成图形,所有结果保存在文件里或者数据库中Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.49与客户直接交互适合交互式分析过程文件里或者数据库中?适合于以下情况使用.1.运行耗时较长的建模过程.2.希望在后台运行一些耗时较长的数据准备希望在后台运行一些耗时较长的数据准备.3.过程希望按照一定的时间定期运行(比如每周、每月等)过程希望按照一定的时间定期运行(比如每周、每月等).4.希望把Clementine(数据挖掘过程)运行过程嵌入应用系统中(数据挖掘过程)运行过程嵌入应用系统中Clementine的界面和设计思路?可视化界面?四个区域分别是建模区、结点区、模型描述区、项目管理区四个区域分别是建模区、结点区、模型描述区、项目管理区?通过连接结点构成数据流建立模型?Clementine通过66类结点的连接完成数据挖掘工作,它们Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.50是Source(源结点):Database、Var.Files等Record Ops(记录处理结点):Select、Sample等Field Ops(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):Neural Net、C5.0等Output(输出结点):Table、Matrix等Clementine操作基本知识?鼠标应用三键与双键鼠标左键选择节点或图标置于建模区Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.51右键激活浮动菜单中键连接或断开两个节点?帮助Clementine操作基本知识?节点的增加,以为例Click“Sources”,Click,Click“流区域”Click“Sources”,Double ClickClick“Sources”,Drag to“流区域”Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.52?节点的删除Click,DeleteRight Click,Click“Delete”?节点的移动DragClementine操作基本知识?节点的Double ClickRight Click,Click“Edit”Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.53?节点的重命名和解释Right Click,Click“Edit”,Click“Annotations”Double Click,Click“Annotations”Right Click,Click“Rename and Annotations”Clementine操作基本知识?构建流时节点的连接Highlight,Add tothe CanvasRight Click,Click“Connect”,ClickDrag themiddle muttonfrom toBeijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.54?构建流时节点连接的删除Right Clickor,Click“Disconnect”Right Click“Connection”,Click“Delete ConnectionDeleteConnection”Double ClickorClementine操作基本知识?流的执行Highlight“Stream”,ClickRight Click,Click“Execute”In theEdit Windowof theClickBeijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.55In theEdit Windowof the,Click“Execute”?流的保存?帮助Help MenuDialogue Window一个例子罗斯文商贸公司一个例子罗斯文商贸公司?商业问题微软公司提供的案例数据库商业问题微软公司提供的案例数据库罗斯文商贸公司,如何对客户价值进行评估罗斯文商贸公司,如何对客户价值进行评估?背景介绍1.罗斯文商贸公司是Microsoft数据库产品(Aess,Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.56罗斯文商贸公司是数据库产品(,SQL Server等)中的一个示例数据库;2.它虚拟了一家经销日用品的商贸公司的情况;3.目前该公司保存的历史数据资料,见下页;4.我们需要对客户的价值进行评估,以便采取有效的市场销售策略。 我们需要对客户的价值进行评估,以便采取有效的市场销售策略。 罗斯林商贸公司数据Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.57罗斯文商贸公司统计问题?数据挖掘问题(数据挖掘问题 (11)如何描述客户价值?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性组合?使用最简单的购买总金额(使用最简单的购买总金额 (22)需要什么样的数据挖掘方法?描述汇总?分类?预测?概念描述?细分?相关分析?描述汇总?分类?预测?概念描述?细分?相关分析?使使Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.58用最简单的描述汇总(用最简单的描述汇总 (33)需要的数据从哪里来?从以下几个?客户?订单?订单明细罗斯文商贸公司商业问题解决方案罗斯文商贸公司商业问题解决方案?商业问题解决方案从所有客户中找出最有价值的商业问题解决方案从所有客户中找出最有价值的10个客户,将名单发给市场部门,让其对这些客户进行更多个客户,将名单发给市场部门,让其对这些客户进行更多的关注Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.59的关注Clementine的优化包括两个方面的优化结构优化用户优化Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.60结构优化?把中间结果存储在Server上(尽量使用server版处理)?从数据流上考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.61步完成的处理尽量不要分解到多个执行)?减少数据的迁移(数据提前进行规划)用户优化?自动优化数据流当使用这一选项时,Clementine将重写数据流以使效率最高(可以通过将重写数据流以使效率最高(可以通过Clementine Server中的sql_rewriting_enabled来调整是否可以使用)1优化的SQL生成使尽可能的操作在数据库内进行Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.621.优化的SQL生成。 使尽可能的操作在数据库内进行。 2.优化Clementine执行。 调整数据降维的操作尽可能接近数据源完成。 ?手动优化数据流1.操作顺序有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面2.数据类型尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。 一个数据挖掘的实例客户信用级别判断系统Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.63客户信用级别判断系统问题的提出?如何通过数据挖掘实现小灵通信用级别的判断系统如何通过数据挖掘实现小灵通信用级别的判断系统?某电信公司按照某种标准将小灵通客户信用等级分为55类分别是dAd BBeijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.64用等级分为55类,分别是grad deeA A、grad deeB B、gradeC、gradeX、gradeY。 现在希望建立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。 现在希望建立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户的信用级别,从而有针对性地对其采用不同的市场营销策略。 数据描述变量名称变量含义备注Age年龄Sex性别Value消费水平分为高(high)、低(low)和一般(normal)三种Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.65Range联系范围分为高(high)、低(low)和一般(normal)三种WorkRatio工作时段比例0-1之间DistanceRatio长话比例0-1之间Credit信用级别以下五种之一gradeA、gradeB、gradeC、gradeX、gradeY遵循CRISP-DM的数据挖掘过程数据理解(数据流)数据准备(数据流)结果发布数据流商业理解(文档)Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.66建立模型(数据流)模型评估(数据流)结果发布(数据流)在进行数据挖掘过程中应该注意的几个问题?商业经验的作用?数据的拆分训练集与检验集?不同模型的印证与比较Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.67结果发布?信用级别静态列表?信用级别写回数据库?实时判断信用级别的分析应用Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.68Beijing StatsData MiningCo.Ltd.Beijing (8610)51722052Shanghai (8621)53060345Guangzhou (8620)38240385.broadtarget.69 三、数据理解数据的可视化和报告?数据组织形式?数据图形展现?数据表格展现Beijing StatsData MiningCo.Ltd.Bei

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论