数据挖掘培训.pptx_第1页
数据挖掘培训.pptx_第2页
数据挖掘培训.pptx_第3页
数据挖掘培训.pptx_第4页
数据挖掘培训.pptx_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘介绍,Start,3,数据挖掘概念-定义,数据挖掘-从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。,数据挖掘与统计学 数据挖掘与人工智能 数据挖掘与数据库技术 数据挖掘与KDD (Knowledge Discovery in Database),数据挖掘软件的发展(分类一),Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的观点,第一二代数据挖掘特点,第二特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有

2、高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 第二代缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发,第一代特点 支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统(www.salford-) 第一代缺陷 如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进

3、行管理,第一代系统显然不能满足需求。,第三、四代数据挖掘特点,第三代特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 第三代缺陷 不能支持移动环境,第四代特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生

4、的各种类型的数据,第二代软件 SAS Enterprise Miner,第二代数据挖掘软件 DBMiner,第三代软件 SPSS Clementine,数据挖掘软件发展的三个阶段,Gregory Piatetsky-Shapiro的观点,数据挖掘软件的发展(分类二),独立的数据挖掘软件(95年以前),特点 独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。 这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树,平行坐标可视化(parallel-coordinate visual

5、ization)。,横向的数据挖掘工具集(95年开始),发展原因 随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。 随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。 现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型 发展过程 随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件 特点 此类工

6、具集的特点是提供多种数据挖掘算法 包括数据的转换和可视化 由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(Horizontal Data Mining Tools) 由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具 典型的横向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等,横向的数据挖掘工具集(95年开始),14,纵向的数据挖掘解决方案(99年开始),发展原因 随着横向的数据挖掘工具的使用日渐广泛,人们也

7、发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中 在证券系统中嵌入神经网络预测功能 在欺诈检测系统中嵌入欺诈行为的分类/识别模型 在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能 在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能 在数据库营销中嵌入选择最可能购买产品的客户功能 在机场管理系统中嵌入

8、旅客人数预测、货运优化功能 在基因分析系统中嵌入DNA识别功能 在制造/生产系统中嵌入质量控制功能等,纵向的数据挖掘公司及行业,综合的数据挖掘解决方案,啤酒尿布交叉销售,当当网交叉销售,数据挖掘举例,数据挖掘举例,Start,数据挖掘FAQ,(What)什么是数据挖掘?,Data Mining is for power users to follow a proven methodology to discover action-oriented insights from detail operations data to improve business. 数据挖掘是分析专家使用已验证的方

9、法在经营数据中发掘可采取行动的改善企业的洞察力。,(what)已验证的方法,(Why)为何要数据挖掘?,(Which)在哪些方面进行挖掘?,(Where)在哪里挖掘?,采用抽样技术避免压力 需要频繁耗时的数据迁移 数据冗余/元数据管理问题,Modelers Build Models,Business Deploys Models,高性能、易扩展 基本无需数据迁移 避免过时数据 避免抽样误差 元数据共享,易于使用 Saves $. Lower TCO!,传统的数据挖掘,场内(In-DBS)挖掘,(How)数据挖掘方法论,确定业务问题范围,选择与抽样,数据清洗,探索型数据分析 (EDA),建模,发

10、布,Start,数据挖掘算法举例,在预先未知任何现有模式下查找模型的技术 分群 关联分析 频度分析 ,探索型数据挖掘,预测型数据挖掘,查找目标变量与其他变量的关系的技术 回归算法 数值预测 二叉树算法 ,统计工具,以图形等方式对数据进行统计,帮助理解数据 X2 双变量统计 ,决策树,曾经欠费,租期3到4个月,月平均不同受话号码数=40,曾经投诉过,无,有,是,非,话费下降至1/3,是,非,是,77%流失,是,非,非,Etc.,Etc.,Etc.,Etc.,WAP业务分群,业务经理(29%) 使用彩铃 多打国际电话 邮寄帐单,游戏玩家(12%) 动感地带 使用梦网短信、KJava、0121, ,

11、未来潜力(1%) 年纪最轻 通话量大 使用彩信套餐 常联系1861,勤俭节约(16%) 通话量少 动感地带 不在凌晨聊天 多省内、省际漫游,基本保守(42%) 全球通 邮寄帐单 年纪较大,关联规则,数据质量检查,双变量统计,Start,数据挖掘流程-CRISP DM方法论,CRISP-DM (cross-industry standard process for data mining), 即为跨行业数据挖掘过程标准.,数据挖掘应用流程,确定业务范围,明确业务目标 需求确认、目标变量确认、主算法确认 目标与常规分模型变量分析(arpu,大客户,分群结果等简单变量),二八分析等确定是否需要分模型

12、处理。 定义响应变量 导向型 根据已有数据选择,或能够取得的变量 项目计划必要的调整,花费时间:10-15% 重要度: ,数据采集ETL,说明:该部分除了在数据挖掘过程中,满足数据挖掘的需要外,在项目外由专人按流程按类别整理并保存历史。,花费时间:10-15% 重要度: ,探索型数据分析,注: 该部分最好能根据目标直接找出几条有用的规则。但是由于后面的模型实际需要时间不是很长,可以考虑人工发现规律与模型发现规律同步进行。 对于数据变量的离散化,可以加入通过二叉树等非常规方式进行。,花费时间:30-50% 重要度: ,数据建模与模型评估,花费时间:15-20% 重要度: ,模型评估,模型非 行动

13、组,模型 行动组,非模型 其他组,非模型 对照组,模型非行动组,非模型对照组一般为模型数据的10。 模型非行动组与非模型其他组对比得到模型的效果。 非模型对照组与非模型其他组对照得到营销活动效果。 模型行动组与其他数据对比得到活动的完整结果。,使用M6到M4以及M2的结果建立模型。 使用M5到M3的数据根据模型的结果预测M1的数据,并与M1的真实数据对比评估,或通过对同一份数抽取不同的样本进行建模和评估。 使用M2到M的数据预测M2的数据,并在M1月实施营销策略。,模型评估,营销方案评估,活动评估,花费时间:10-20% 重要度: ,计划和设计营销活动,与业务专家根据数据挖掘的结果确定营销活动

14、的计划,包括营销的目标用户数,营销使用的套餐等营销方案。,花费时间:10-15% 重要度: ,营销活动执行,花费时间:* 重要度: ,营销活动评估和调整,花费时间:* 重要度: ,Start,为什么进行分群,随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数据分析的洞察力营销、精确化营销的理念逐渐被各大电信运营商所接受,并渴望通过从数据中挖掘价值来减少营销成本、提高营销效益。,两种分群方式,背景分析,追求时尚人士 追求效率人士 节俭、理性

15、人士 追求社交人士等,每日每个时段通话不同 每周每天通话不同 长途、漫游、本地通话 不同等,客户细分专题,价格 价格战是我们的策略,但不是 我们的战略;“高性价比”和“不可 替代”是客户的最终感受,促销 理解客户对市场活动的反应和接受程度,针对客户群制定促销策略,通话服务 短信服务 数据增值服务 呼叫服务等,产品 理解客户对产品的偏好、价格敏感度 等资费元素,针对客户的需求 提供产品,渠道 理解客户对销售和服务要求,有针对性地设计销售渠道,做到“精确”打击,客户细分指标分析框架,客户评分,资费设计,奖励回馈,服务,品牌形象,业务产品,渠道,客户类型,短信指数,优惠指数 绑定粘度指数,新业务指数

16、 Vpmn指数 短信指数,拨打1860指数 流失指数,漫游指数 长途指数 资源消耗指数,客户细分指标分析框架,漫游指数 长途指数 新业务指数 短信指数 拨打1860指数 优惠指数 虚拟网比重指数 绑定粘度指数 资源消耗指数,价格敏感指数,客户评分,客户数据,客户信息,客户知识,流失倾向指数,客户类型,基本特 征知识,综合特 征知识,行为类,心理类,基本属性,行为属性,构成占比(饼图),消费动态信息,消费行为的综合信息,分群方式数据挖掘,聚类,分群方式数据挖掘,从使用手机邮箱的客户数量和占比情况看,ARPU=120元中的商务精英族和本地上班族以及ARPU=15元中的打工风险族排在前三位。,分群方式数据挖掘,ARPU=120元 商务精英族: 在网时长最长,年龄最大 各项时长费用均最高,交往圈电话超过200个 ARPU=120元本地上班族: 平均年龄37.2岁,略大于平均年龄,在网时间超过3年; 本地通话时间451.2分钟,长途很少 短信在各组中相对较少,平均每月84次 典型上班族通话时段通话,中午14点最少,工作时间多 ARPU=15元 打工风险族: 年龄平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论