版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘基本概念与 腾讯研究院腾讯研究院 数据分析研究室数据分析研究室 报告内容 n 数据挖掘的基本概念数据挖掘的基本概念 n 数据挖掘与统计分析数据挖掘与统计分析 n 数据挖掘的基本算法数据挖掘的基本算法 n 数据挖掘实施方法论数据挖掘实施方法论 n 总结与讨论总结与讨论 n 数据挖掘的基本概念数据挖掘的基本概念 改变未来世界的十大新兴技术 n Technology Review(麻省理工学院(麻省理工学院2002年年1月出刊)月出刊) 机器与人脑的接口机器与人脑的接口 塑胶晶体管塑胶晶体管 数据挖掘(数据挖掘(Data Mining) 数字权利管理数字权利管理 生物测定学(生物测定学(Bi
2、ometrics) 语言识别处理语言识别处理 微光学技术(微光学技术(Microphotonics) 解开程序代码(解开程序代码(Untangling Code) 机器人设计机器人设计 微应用流体学(微应用流体学(Microfluidics) 什么是数据挖掘? Data Information Knowledge Wisdom n 存在太多数据挖掘的定义,但基本上有这样一种描述结构存在太多数据挖掘的定义,但基本上有这样一种描述结构 To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / i
3、mplicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / data warehouse 、 Data + context Information + rules Knowledge + experience 为什么会出现数据挖掘? n 数据爆炸性增长是数据挖掘技术应运而生的根本原因。数据爆炸性增长是数据挖掘技术应运而生的根本原因。 只见树木,不见森林(只
4、见树木,不见森林(Drowning in data but starving for information) 计算复杂度计算复杂度 数据管理问题数据管理问题 数据类型的多样性数据类型的多样性 处理大容量数据是 数据挖掘技术区别 于其他数据分析方 法的唯一标志吗? 其他数据分析方法:统计学 n 从处理数据的角度看、从处理数据的角度看、 数据规模不同数据规模不同 数据来源不同:观测数据(数据来源不同:观测数据(Secondary Analysis) VS 试验数据(试验数据(Primary Analysis) 数据类型不同(结构化数据、半结构化数据、非结构化数据)数据类型不同(结构化数据、半结构
5、化数据、非结构化数据) n 从分析思想的角度看从分析思想的角度看 更关注实证性分析(更关注实证性分析(Empirical Analysis)而非探索性分析()而非探索性分析(Exploratory Analysis) 更关注模型(更关注模型(Model)而非算法()而非算法(Algorithm) n 但二者具有相当密切的联系但二者具有相当密切的联系 从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉 更加深入的渗透和交叉(如探索性数据分析,更加深入的渗透和交叉(如探索性数据分析,EDA) 数据挖掘是数
6、据驱 动的探索性分析 ! 数据挖掘:多学科的汇合 数据挖掘 数据库技术统计学 其它学科 信息科学 机器学习可视化 人工智能 科学计算 数据挖掘是一个过程 - “from data mining to knowledge discovery in database”. U. fayyad, and (1996) 数据挖掘过程中的数据预处理 n 数据清洗数据清洗 填充缺失值填充缺失值, , 修均噪声数据修均噪声数据, , 识别或删除孤立点识别或删除孤立点, , 并解决数据不一致问题并解决数据不一致问题 主要分析方法:分箱(主要分析方法:分箱(BinningBinning)、聚类、回归)、聚类、回归
7、 n 数据集成数据集成 多个数据库、数据方或文件的集成多个数据库、数据方或文件的集成 n 数据变换数据变换 规范化与汇总规范化与汇总 n 数据简化数据简化 减少数据量的同时减少数据量的同时, , 还可以得到相同或相近的分析结果还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析主要分析方法:抽样、主成分分析 n 数据离散化数据离散化 数据简化的一部分数据简化的一部分, , 但非常重要但非常重要 ( (尤其对于数值型数据来说尤其对于数值型数据来说) ) 数据挖掘过程中的数据探索 n 探索性数据分析(探索性数据分析(Exploratory Data Analysis, EDAExplor
8、atory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定对数据集没有各种严格假定 “玩玩”数据数据 n 主要任务主要任务 数据可视化(数据可视化(a picture is worth a thousand wordsa picture is worth a thousand words) 残差分析(数据拟合残差分析(数据拟合 + + 残差)残差) 数据的重新表达(什么样的尺度对数抑或平方根会简化分析?)数据的重新表达(什么样的尺度对数抑或平方根会简化分析?) 方法的耐抗性(对数据局部不良的不敏
9、感性,如中位数耐抗甚于均值)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) n 常见方法常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类模型,如聚类 什么不是数据挖掘? n 定量分析(定量分析(Quantitative Analysis)的需要存在企业管理运行的各个侧)的需要存在企业管理运行的各个侧 面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的面或环节,但并非所有的定量分析问题都可以归结
10、到数据挖掘范畴的 问题。问题。 简单的报表、图表及多维分析仍是日常分析工作的主要内容简单的报表、图表及多维分析仍是日常分析工作的主要内容 小样本数据的分析传统统计分析方法更成熟有效,如趋势预测小样本数据的分析传统统计分析方法更成熟有效,如趋势预测 某些特定业务问题无法用数据挖掘算法加以解决,例如某些特定业务问题无法用数据挖掘算法加以解决,例如 资源最优配置问题是个运筹学问题资源最优配置问题是个运筹学问题 某些物流管理问题或者供应链管理问题是个随机规划问题某些物流管理问题或者供应链管理问题是个随机规划问题 营销预演本质是个系统仿真问题营销预演本质是个系统仿真问题 报告内容 n 数据挖掘的基本概念
11、数据挖掘的基本概念 n 数据挖掘与统计分析数据挖掘与统计分析 n 数据挖掘的基本算法数据挖掘的基本算法 n 数据挖掘实施方法论数据挖掘实施方法论 n 总结与讨论总结与讨论 n 数据挖掘与统计分析数据挖掘与统计分析 统计学与数据挖掘的联系 n 从处理数据数据挖掘中采用了大量统计学的思想、方法和工具从处理数据数据挖掘中采用了大量统计学的思想、方法和工具 聚类分析(无监督学习过程,统计分析中的主要技术)聚类分析(无监督学习过程,统计分析中的主要技术) K-Means Self Organizing Map (SOM) 数据分类(有监督学习过程)数据分类(有监督学习过程) 统计分类技术:距离判别,费雪
12、判别,贝叶斯判别统计分类技术:距离判别,费雪判别,贝叶斯判别 数据挖掘中的分类技术数据挖掘中的分类技术 :决策树,神经网络:决策树,神经网络 其他方法其他方法 相关分析相关分析 主成分分析主成分分析 回归分析回归分析 序列分析序列分析 统计学与数据挖掘的区别 n 数据数据 样本数量不同(在统计学中样本数量大于样本数量不同(在统计学中样本数量大于30,则成为大样本),则成为大样本) 数据来源和质量不同数据来源和质量不同 数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据 n 方法方法 数据挖掘的前提是占有大量数据,统计中的实验设计
13、、抽样设计并不适数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适 用用 有些数据挖掘的分析方法是统计学中没有的,如强调实时分析有些数据挖掘的分析方法是统计学中没有的,如强调实时分析 统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适 宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法 n 模型(模式)模型(模式) 模型(统计学)模型(统计学) VS 模式(数据挖掘)模式(数据挖掘) 统计建模强调模型的普适性,数据挖掘强调从数据中发现模式统
14、计建模强调模型的普适性,数据挖掘强调从数据中发现模式 n 算法算法 统计学强调模型,运算量居于次要地位统计学强调模型,运算量居于次要地位 数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算 法而不是模型法而不是模型 n 方法论方法论 统计学:以数学为基础,每种方法有严格的证明体系统计学:以数学为基础,每种方法有严格的证明体系 数据挖掘:采用实验方法,不具有很强的严谨性数据挖掘:采用实验方法,不具有很强的严谨性 数据挖掘相对于统计学的特点 n 使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据使用数据挖掘工具无须
15、具备太专业的统计知识,处理大量的实际数据 更有优势,使得数据挖掘人员可以集中精力在业务建模方面更有优势,使得数据挖掘人员可以集中精力在业务建模方面 n 数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析, 更能满足企业的需求更能满足企业的需求 n 从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的 末端使用者应用,而非为统计学家提供检验工具末端使用者应用,而非为统计学家提供检验工具 报告内容 n 数据挖掘的基本概念数据挖掘的基本概念 n 数据挖掘与统计分
16、析数据挖掘与统计分析 n 数据挖掘的基本算法数据挖掘的基本算法 n 数据挖掘实施方法论数据挖掘实施方法论 n 总结与讨论总结与讨论 n 数据挖掘的基本算法数据挖掘的基本算法 几个基本概念 n 模型(模型(Model) vs 模式(模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体)到总体 (Population)上去)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的 所有点,例如聚类分析所有点,例如聚
17、类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一 个子集,例如关联分析个子集,例如关联分析 n 算法(算法(Algorithm):一个定义完备():一个定义完备(well-defined)的过程,它以数据作为)的过程,它以数据作为 输入并产生模型或模式形式的输出输入并产生模型或模式形式的输出 n 描述型挖掘(描述型挖掘(Descriptive) vs 预测型挖掘(预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征描述型挖掘:对数据进行概括,以方便的形式呈现
18、数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段描述型挖掘可以是目的,也可以是手段 几类基本的挖掘算法 n 关联规则(模式、描述型)关联规则(模式、描述型) 发现数据集中的频繁模式发现数据集中的频繁模式 例如:例如:buy(x,”diapers”) buy(x,”beers”) 0.5%, 60% n 分类与预测(模型、预测型)分类与预测(模型、预测型) 发现能够区分或预测目标变量(唯一的)的规则或者函数发现能够区分或预测目标变量(唯一的)的规则或者函数 分类的目标变量一般是类别型的
19、,而预测则是数量型的,并不必然带有任何时分类的目标变量一般是类别型的,而预测则是数量型的,并不必然带有任何时 间延续型的暗示间延续型的暗示 例如:股票市值的预测,病人病情的判断例如:股票市值的预测,病人病情的判断 n 聚类(模型、描述型)聚类(模型、描述型) 对数据分组以形成新类,类标记是未知的对数据分组以形成新类,类标记是未知的 例如:市场细分例如:市场细分 n 孤立点探测(孤立点探测(Outlier Detection)(模式、预测型)(模式、预测型) 分析异常或噪声数据的行为模式分析异常或噪声数据的行为模式 例如:欺诈检测例如:欺诈检测 广东发展银行信用卡中心的数据挖掘模型 申请评分卡申
20、请评分卡 (分类模型、分类模型、Logistic回归算法回归算法) 计算申请信用卡的人在将来产生坏账的概率计算申请信用卡的人在将来产生坏账的概率 自变量是离散型变量自变量是离散型变量 评分需要进行标准化处理评分需要进行标准化处理 行为评分卡行为评分卡 (分类模型、分类模型、Logistic回归算法回归算法) 包括:拖欠、催收、销售等包括:拖欠、催收、销售等 自变量是连续型变量自变量是连续型变量 广东移动数据挖掘项目中的数据挖掘算法 客户流失客户流失 (分类模型、分类模型、Logistic回归算法回归算法) 彩铃彩铃WAP购买倾向预测购买倾向预测 (分类模型、分类模型、Logistic回归算法回
21、归算法) 彩信增量销售预测彩信增量销售预测 (分类模型、分类模型、Logistic回归算法回归算法) 彩铃用户流失预测彩铃用户流失预测 (分类模型、分类模型、Logistic回归算法回归算法) 客户价值增长预测客户价值增长预测 (分类模型、分类模型、Logistic回归算法回归算法) 竞争对手流失预测竞争对手流失预测 (分类模型、分类模型、Logistic回归算法回归算法) 集团客户分群集团客户分群 (聚类模型、聚类模型、K-Means算法算法) 集团客户级别打分集团客户级别打分 (分类模型、分类模型、Logistic回归算法回归算法) 产品关联分析产品关联分析 (关联规则关联规则) 个人客户
22、分群分析个人客户分群分析 (聚类模型、聚类模型、K-Means算法算法) 集团客户流失预警模型集团客户流失预警模型 (AHP方法方法 + Logistic回归算法回归算法) 客户分群客户分群 (聚类模型、聚类模型、K-Means算法算法) 客户流失客户流失 (分类模型、分类模型、Logistic回归算法回归算法) 潜在用户定位潜在用户定位 (分类模型、分类模型、Logistic回归算法回归算法) 商城的交叉销售商城的交叉销售 (关联规则关联规则) 产品收入预测产品收入预测 (时间序列的预测方法)(时间序列的预测方法) 腾讯公司中的数据挖掘算法 分类问题的基本定义 n 给定一数据集合(训练集)给
23、定一数据集合(训练集) 数据记录由一系列变量组成数据记录由一系列变量组成 其中有一个变量是目标分类标签其中有一个变量是目标分类标签 n 寻找一模型,使目标分类变量值是其他变量值的一个函数寻找一模型,使目标分类变量值是其他变量值的一个函数 n 利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某利用上述函数,一未知分类变量值的数据记录能够尽可能准确地被判定到某 一类别中去一类别中去 一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准一般会有另一独立地数据集(测试集)用以验证所构建分类函数的准 确性,避免过度拟合确性,避免过度拟合 分类过程示意 训练集训练集 分类学习分类学
24、习 训练集训练集 分类器分类器 IF rank = professor OR years 6 THEN tenured = yes Jef is YES! 回顾简单的一元线性回归问题 n y = b b0 + b b1x + u y称为被解释变量或者因变量,是一个称为被解释变量或者因变量,是一个连续变量连续变量 x称为解释变量或者自变量,是一个连续变量称为解释变量或者自变量,是一个连续变量 b b0 、b b1称为回归系数称为回归系数 u是随机误差,一般假设服从标准正态分布是随机误差,一般假设服从标准正态分布 y x y = b0 + b1x + u . . . . . . . . Logis
25、tic回归进行分类和预测 n LOGISTIC回归是一种特殊的回归模回归是一种特殊的回归模 型,与古典的线性回归模型不同,型,与古典的线性回归模型不同, 其响应变量(其响应变量(Response Variable)是)是 一分类变量(一分类变量(Categorical Variable) 而非连续变量(而非连续变量(Continuous Variable)。响应变量是一个二值化)。响应变量是一个二值化 的变量,通常以的变量,通常以10表示某一事件发表示某一事件发 生或者不发生。生或者不发生。 n 应用应用Logistic回归得到的概率回归得到的概率p通常表通常表 示在将来某段时间后某一事件发生
26、示在将来某段时间后某一事件发生 的概率。的概率。 Odds: 目标事件发生的数量目标事件发生的数量 / 非目标非目标 事件发生的数量事件发生的数量. Odds ratio= prob(目标事件目标事件)/prob(非非 目标事件目标事件)=p/(1-p) p = prob(目标事件目标事件) prob表示事件发生的概率表示事件发生的概率 Logit: log of odds ratio = log(p/(1-p) Logistic回归回归: 拟合下面的模型拟合下面的模型 logit=a0+a1*X1+ak*Xk p=prob(目标事目标事 件件)=exp(logit)/(1+exp(logit
27、) p的取值范围的取值范围: 0,1 nn nn xbxbb xbxbb e e p . . 110 110 1 p 流失类模型案例 n 建模目的:预测某一段时间之后客户流失的概率。建模目的:预测某一段时间之后客户流失的概率。 n 确定时间窗口:确定时间窗口: n 确定目标变量:定义在确定目标变量:定义在Data Window中正常而在中正常而在Forecast Window中流中流 失的客户为失的客户为0,而没有流失的客户为,而没有流失的客户为1。 n 选择自变量:在电信的客户流失模型中,我们一般使用下面几种类型选择自变量:在电信的客户流失模型中,我们一般使用下面几种类型 的变量。的变量。
28、客户流失指标客户流失指标 客户信息数据(人口统计学数据、合同数据)客户信息数据(人口统计学数据、合同数据) 呼叫数据呼叫数据 计费和支持数据计费和支持数据 一些转换之后得到的变量一些转换之后得到的变量 其它数据其它数据 Data WindowForecast WindowTime Lag MM-1M-2M-3MM-5M+1M+2 流失类模型案例 n 模型的评价模型的评价 Lift值值 R方方 ROC曲线曲线 K-S值值 n 模型的应用模型的应用 P值大的客户具有更高的流失倾向值大的客户具有更高的流失倾向 模型的评分分布模型的评分分布 划定划定Cut Off Line。对。对Cut Off Li
29、ne的划定可以采用更多的市场数的划定可以采用更多的市场数 据进行参考,如正确挽留一个客户准备的平均收益和成本,错误据进行参考,如正确挽留一个客户准备的平均收益和成本,错误 挽留一个客户的平均成本,客户流失的平均损失等。有了这些数挽留一个客户的平均成本,客户流失的平均损失等。有了这些数 据可以进一步使用贝叶斯方法建立数量化的分类模型,以确定对据可以进一步使用贝叶斯方法建立数量化的分类模型,以确定对 Cut Off Line的划定。的划定。 频数 评分 0 10000 Cut Off Line 非流失 流失 分类中的决策树(Decision Tree)归纳 n 决策树决策树 类似于流程图的树型结构
30、类似于流程图的树型结构 内部节点代表对某个属性的一次测试内部节点代表对某个属性的一次测试 分支代表测试的输出结果分支代表测试的输出结果 叶节点代表分类标签或分布叶节点代表分类标签或分布 n 决策树的生成包括两个阶段决策树的生成包括两个阶段 树的创建树的创建 首先首先, 所有训练样本都位于根节点所有训练样本都位于根节点 递归地基于选择属性来划分样本集递归地基于选择属性来划分样本集 树的修剪树的修剪 识别并删除那些反映噪声或孤立点的分支识别并删除那些反映噪声或孤立点的分支 n 应用决策树应用决策树: 对未知样本进行分类对未知样本进行分类 在决策树上测试样本的各个属性值在决策树上测试样本的各个属性值
31、 决策树示意 age? overcast student?credit rating? noyesfair excellent 40 nonoyesyes yes 30.40 n 示例:是否购买计算机?示例:是否购买计算机? 决策树在电信客户流失问题中的应用实例 结论:ARPUB)=#AB/#N,表示,表示A和和B同时出现的概率。同时出现的概率。 n 期望可信度:期望可信度:Support(A)=#A/#N,表示,表示A出现的概率。出现的概率。 n 置信度:置信度:Confidence(A=B)=Support(A=B)/Support(B) n 改善度:改善度:Lift(A=B)=Confi
32、dence(A=B)/Support(B) 名称名称描述描述公式公式 支持度支持度X、Y同时出现的频率同时出现的频率 P(XY) 期望可信度期望可信度 Y出现的频率出现的频率 P(Y) 置信度置信度X出现的前提下,出现的前提下,Y出现的频率出现的频率P(Y|X) 改善度改善度 置信度对期望可信度的比值置信度对期望可信度的比值 P(Y|X)/P(Y) 关联规则的度量 n 发现具有最小置信度和支持度的全部规发现具有最小置信度和支持度的全部规 则则 X Y Z 支持度支持度(support), s, 事务中包含事务中包含X & Y & Z的概率的概率 置信度置信度(confidence), c, 事
33、务中包含事务中包含X & Y的条件下的条件下, 包含包含Z的条件概率的条件概率 n令最小支持度为令最小支持度为50%, 50%, 最小置信度为最小置信度为50%, 50%, 则有则有 A A C (50%, 66.6%) C (50%, 66.6%) C C A (50%, 100%) A (50%, 100%) 顾客购买尿布顾客购买尿布 顾客购买两者顾客购买两者 顾客购买啤酒顾客购买啤酒 对支持度与置信度的批判 n 示例示例 总共总共50005000名学生名学生, , 其中其中 30003000人玩篮球人玩篮球 37503750人吃谷类食品人吃谷类食品 20002000人既玩篮球又吃谷类食品
34、人既玩篮球又吃谷类食品 play basketballplay basketball eat cerealeat cereal 40%, 66.7% 40%, 66.7% 是一个误导规则是一个误导规则, , 因因 为吃谷类食品的学生占学生总数的为吃谷类食品的学生占学生总数的75%, 75%, 比比66.7%66.7%更高更高 play basketballplay basketball not eat cerealnot eat cereal 20%, 33.3% 20%, 33.3% 其实是一个更精其实是一个更精 确的规则确的规则, , 尽管它的支持度和置信度都比较低尽管它的支持度和置信度都
35、比较低 关联规则的应用 n 市场购物篮分析(市场购物篮分析(Market Basket Analysis) 例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是例如一个事务是客户的一个购物清单,同一客户的两份清单被认为是 两个不同的事务两个不同的事务 数据项是所有可能陈列货物的全集数据项是所有可能陈列货物的全集 目标是发现同时出现的货品组合间的关联模式目标是发现同时出现的货品组合间的关联模式 应用:商品货价设计、仓储规划、网页布局、产品目录设计等等应用:商品货价设计、仓储规划、网页布局、产品目录设计等等 n 交叉销售(交叉销售(Cross Selling) 客户依次购买不同产品的序列客
36、户依次购买不同产品的序列 目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务目标是发现在购买某一产品组合之后客户可能购买的另一产品或服务 应用:网络故障分析、网站门户设计等应用:网络故障分析、网站门户设计等 关联规则的应用实例(手机邮箱精确营销) 我们定义我们定义LIFT值大于值大于1的规则为强关联规则。的规则为强关联规则。 发现这样的关联规则是有价值,有意义的。发现这样的关联规则是有价值,有意义的。 关联规则是基于统计方法发现的数据当中的内在规律,而这种规律在现实中是否有意义还关联规则是基于统计方法发现的数据当中的内在规律,而这种规律在现实中是否有意义还 需要市场业务人员作进一步的
37、验证。需要市场业务人员作进一步的验证。 业务一业务二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE 彩铃业务手机邮箱 0.07340.040320.03220.4386910.88021266.19541 梦网短信手机邮箱 0.670380.040320.040320.060141.4915740.52694 国内自动漫游手机邮箱 0.382530.040320.020370.053251.3206819.84956 本地普通通话(比例)手机邮箱 0.690050.040320.030590.044331.099458.32042 从算法到应用 广东移动
38、数据挖掘项目的技术特点 n 几种主要的数据挖掘技术都已经得到广泛的应用几种主要的数据挖掘技术都已经得到广泛的应用 聚类分析聚类分析 关键规则关键规则 分类预测模型(决策树,分类预测模型(决策树,Logistic回归)回归) n 应用了数据挖掘技术之外的机器学习和统计建模技术应用了数据挖掘技术之外的机器学习和统计建模技术 KPI预测(混沌时间序列分解预测方法,预测(混沌时间序列分解预测方法,BP神经网络预测方法)神经网络预测方法) 集团客户流失预警(层次分析法)集团客户流失预警(层次分析法) 更多的数据分析方法更多的数据分析方法 n 新的挖掘课题更侧重于高级数量分析新的挖掘课题更侧重于高级数量分
39、析 客户生命周期(管理营销学的实践,多模型支撑的分析过程)客户生命周期(管理营销学的实践,多模型支撑的分析过程) 响应模型(市场分析模型与数据挖掘模型的应用结合)响应模型(市场分析模型与数据挖掘模型的应用结合) 运筹学模型(应用于经营规划的优化)运筹学模型(应用于经营规划的优化) 报告内容 n 数据挖掘的基本概念数据挖掘的基本概念 n 数据挖掘与统计分析数据挖掘与统计分析 n 数据挖掘的基本算法数据挖掘的基本算法 n 数据挖掘实施方法论数据挖掘实施方法论 n 总结与讨论总结与讨论 n 数据挖掘实施方法论数据挖掘实施方法论 数据挖掘过程模型(DM Process Model) n 用以管理并指导
40、用以管理并指导Data Miner有效、准确开展数据挖掘工作以期获得最佳挖掘有效、准确开展数据挖掘工作以期获得最佳挖掘 成果的一系列工作步骤的规范标准。成果的一系列工作步骤的规范标准。 由厂商提出的由厂商提出的 SPSS的的5A(Assess, Access, Analysis, Act, Automat) SAS的的SEMMA(Sample, Explore, Modify, Model, Assess) MICROSOFE的的OLEDB for DM 由行业组织提出的由行业组织提出的 CRISP-DM(Cross Industry Standard Process for DM) CRISP-DM起源于起源于1998年,当时年,当时NCR、Clementine(1998年为年为SPSS收购)、收购)、 OHRA和和Daimler-Benz(现为(现为Daimler-Chrysler)的联合项目组提出)的联合项目组提出 CRISP-DM的六个阶段的六个阶段 TERADATA的挖掘方法论 Scope Business Problem 度量度量数称胜数称胜 Teradata Data Warehou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长春金融高等专科学校《工程结构荷载与可靠度设计原理》2025-2026学年期末试卷
- 长春职业技术大学《国际贸易学》2025-2026学年期末试卷
- 扬州大学广陵学院《广播电视写作教程(彭菊华第三版)》2025-2026学年期末试卷
- 长春信息技术职业学院《旅游学第四版》2025-2026学年期末试卷
- 延边大学《口腔预防医学》2025-2026学年期末试卷
- 伊春职业学院《语言学纲要》2025-2026学年期末试卷
- 忻州职业技术学院《对外汉语教育学引论》2025-2026学年期末试卷
- 忻州师范学院《法理学》2025-2026学年期末试卷
- 扎兰屯职业学院《毒理学》2025-2026学年期末试卷
- 阳泉师范高等专科学校《国际贸易实务》2025-2026学年期末试卷
- 实施指南(2025)《JB-T 12801-2016固定式液压碎石机》
- 金华东阳市人民医院招聘考试真题2024
- 2025年吉林省长春市八年级初中学业水平考试网上阅卷模拟练习生物学、地理(二)-初中地理
- 2025年古镇文化旅游开发项目可行性研究报告
- 养殖场建设项目可行性研究报告范本
- GB/T 7991.6-2025搪玻璃层试验方法第6部分:高电压试验
- 2025年卫生院关于医疗机构高额异常住院费用专项自查报告
- 《反窃电电子数据提取与固定技术规范》
- 消防员文职考试题及答案
- 禾字的教学课件
- 小班篮球班本课程汇报
评论
0/150
提交评论