数据挖掘基本概念培训ppt课件.ppt_第1页
数据挖掘基本概念培训ppt课件.ppt_第2页
数据挖掘基本概念培训ppt课件.ppt_第3页
数据挖掘基本概念培训ppt课件.ppt_第4页
数据挖掘基本概念培训ppt课件.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北电信经营分析与决策支持系统数据挖掘基本概念培训 1 Why 为何需要数据挖掘 时间 2006年6月30号地点 德国柏林奥林匹克球场人物 德国足球队 阿根廷足球队事件 2006世界杯四分之一决赛 点球决战 德国4 2阿根廷 2 数据挖掘FAQ 3 Why 为何需要数据挖掘 丰富的数据自动化的数据收集工具和成熟的数据库技术导致了数据库 数据仓库和其它信息仓库中储存了海量数据贫乏的决策信息面对上亿条话单数据 能看出哪些客户下个月会流失吗 能看出客户的消费模式吗 能看出有哪些潜在客户群体吗 它们宏观上有什么特征吗 解决方案数据仓库和联机分析处理利用数据挖掘帮助我们分析海量数据 4 Why 为何需要数据挖掘 潜在应用 客户分析客户战略分群客户流失预测目标营销欺诈检测产品 服务推荐文本挖掘 自动文摘 文档自动分类Web挖掘 GOOGLE BAIDU 自适应个性化网络服务专家系统 智能询问解答 QA 系统其他应用 生物信息学 多媒体挖掘 天文学等 5 What 什么是数据挖掘 从海量的数据库中识别出有效的 新颖的 潜在有用的 以及最终可理解的模式的非平凡过程 Fayyad PiatetskyShapiror1996若干种术语 数据挖掘 DM 数据库中的知识发现 KDD 知识抽取 数据 模式分析 数据考古 数据捕捞 商业智能 BI 等最常用的术语是 数据挖掘 和 知识发现 数据挖掘 流行于统计界 最早出现于统计文献中 数据分析 数据库和管理信息系统界知识发现 主要流行于人工智能和机器学习界 6 数据挖掘分类 一般功能描述型数据挖掘预测型数据挖掘不同角度 不同分类挖掘的数据库类型挖掘的技术手段应用的领域 7 数据挖掘分类 8 分类 决策树 曾经欠费 租期3到4个月 月平均不同受话号码数 40 曾经投诉过 无 有 是 非 话费下降至1 3 是 非 是 77 流失 是 非 非 Etc Etc Etc Etc 根据过去的数据预测将来要发生什么问题描述 预测客户流失可能性结果描述 决策树 9 分类 决策树 模型创建 模型评估及应用 10 输入 流失概率 0 95 输出 男 37 每月收入2000元 入网一年 月平均帐单300元 问题描述 预测客户流失可能性结果描述 神经网络 分类 神经网络 11 依赖变量 因变量 独立变量 自变量 量化多个变量之间关系的统计技术 回归 线性回归Logistic回归 12 拟合一条穿过数据的线 线上的点使对应数据点的方差最小 回归 线性回归 13 与线形回归相似 它的依赖变量 因变量 不是连续的 而是离散的 回归 Logistic回归 Log p 1 p 4 9 0 911 收入 14 聚类 聚类物以类聚 人以群分无指导学习不同类间的个体相似度尽可能大 不同类之间的尽可能小主要聚类分析方法分类划分的方法层次的方法基于密度的方法基于网格的方法基于模型的方法 15 16 17 ShortDarkHair Smiling WorkinConsulting MaleswithnoJacket Glasses Suits 18 聚类 kmeans聚类算法 聚类的原理是把具有相近特征的观测值聚集为一组 保证各组间特征的相异性最大 同组内各观测值特征的相似性最大 给定k 算法的处理流程如下 1 随机的把所有对象分配到k个非空的簇中 2 计算每个簇的平均值 并用该平均值代表相应的簇 3 将每个对象根据其与各个簇中心的距离 重新分配到与它最近的簇中 4 回到第二步 直到不再有新的分配发生 19 关联规则 age X 20 29 income X 20 29K buys X PC support 2 confidence 60 20 关联规则 问题描述 如何决定超市中商品的摆放来增加销售额结果描述 可视化 21 啤酒与尿布 1981年NCR为Wal Mart超市集团建立数据仓库 目前容量超过130TB 利用数据仓库 Wal Mart分析哪些商品顾客最有希望一起购买 啤酒与尿布 22 电信业应用 根据新业务的使用情况 发现新业务之间的关联性根据新业务之间的关联采取不同的业务推荐和捆绑销售策略 彩信 手机银行 全球呼 IP GPRS 语音信箱 移动秘书 23 通过时间序列模型对某指标值随时间的变化形式进行拟合 把握序列的规律性 并通过历史数据预测未来 时间序列 24 Which 在哪些方面进行挖掘 WAR F 数据仓库 25 When 什么时候开始数据挖掘 企业数据仓库 从属数据集市 业务人员 IT用户 数据导入 析取 清洗 条件 剔除 家庭关系 加载 知识发现数据挖掘 信息存取工具 源数据 采集 存储和管理 信息访问 IT用户 业务用户 业务系统 业务系统 业务数据 外部数据 企业级数据仓库 聚集 统计 人工智能 神经网络 多维 可视化 EIS DSS 电子表 对象语言 开发 核心平台 26 How 如何实施数据挖掘 CRISP DM是CRoss IndustryStandardProcess DataMining的缩写由SPSS NCR Daimler Benz在1996年制定CRISP是当今数据挖掘业界通用流行的标准之一它强调数据挖掘在商业中的应用 解决商业中存在的问题 而不是把数据挖掘局限在研究领域 27 CRISP DM PeteChapman NCR JulianClinton SPSS RandyKerber NCR ThomasKhabaza SPSS ThomasReinartz DaimlerChrysler ColinShearer SPSS andR digerWirth DaimlerChrysler 商业理解数据理解数据准备建立模型模型评估模型发布 28 NCR数据挖掘方法论 29 成功的关键 学习 学习 再学习 30 建议 企业级数据仓库是挖掘分析的坚实基础各级部门的充分重视 尤其是市场部的大力参与 最好有本地网市场部经理级别的参与首先从与效益紧密相关的专题开始先试点 后推广建立核心队伍在实施过程中不断整合业务流程 营销各环节的沟通 融合 营销执行力度的保障 31 推荐书籍 DataMining ConceptsandTechniquesJ HanandM KamberMorganKaufmann数据挖掘概念与技术张银奎廖丽宋俊等机械工业出版社PrinciplesofDataMiningDavidHand HeikkiMannila PadhraicSmythMassachusettsInstituteofT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论