“1+X”(高级)08-数据挖掘分析与业务预测_第1页
“1+X”(高级)08-数据挖掘分析与业务预测_第2页
“1+X”(高级)08-数据挖掘分析与业务预测_第3页
“1+X”(高级)08-数据挖掘分析与业务预测_第4页
“1+X”(高级)08-数据挖掘分析与业务预测_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘分析与业务预测学习完本课程后,你将能够:1.掌握数据挖掘的相关概念、相关知识2.掌握数据挖掘与机器学习的区别和联系3.掌握数据挖掘常见方法及其常见业务应用课程目标课程目录数据挖掘概述1.1什么是数据挖掘

1.2数据挖掘与机器学习2.数据挖掘相关方法及业务应用数据挖掘(Datamining,简称DM)是指从大量的数据中通过算法搜索隐藏于其中信息的过程。由于数据通常存于数据库中,因此人们又称之为“数据库中知识发现”。数据挖掘是一个过程,而非单纯的数学建模。数据挖掘是一个以数据为中心的循序渐进的螺旋式的数据探索过程;数据挖掘是各种分析方法的集合,是多种数据分析、处理方法的配合应用;数据挖掘的最终目的是辅助决策;当前数据挖掘系统具有分析海量数据的能力。什么是数据挖掘大数据下的数据挖掘数据业务算法挖掘平台大数据时代的数据特征决定了数据挖掘的变化云计算为数据挖掘提供了强大的处理能力大数据的应用推动了数据挖掘的发展新算法为数据挖掘带来新的活力……数据挖掘功能用于指定数据挖掘任务中需找的模式类型。描述:挖掘的任务是描述目标数据的特性,如特征描述、关联分析、聚类、离群点等。预测:根据当前数据预测未来,如回归和分类数据挖掘的功能根据数据存在方式,用于数据挖掘的数据可以是数据库、数据仓库、文本、多媒体数据源等等;由于企业数据仓库系统就是面向数据统计、分析应用的,因此数据挖掘一般依赖于企业数据仓库系统的数据。从数据仓库的角度看,数据挖掘可以看做是数据仓库高阶段的OLAP分析。数据仓库应用数据统计分析数据挖掘OLAP分析数据挖掘与数据仓库数据挖掘技术的基本任务主要体现在关联规则、分类与回归、聚类、时序模式、偏差检验等几个方面。分类就是将数据映射到预先定义好的群组或类别;回归则是用属性的历史数据预测未来趋势;聚类则是根据数据属性的相似度给未分类的数据分类,使数据分类后类内相似度大,类间差异大;关联规则揭示数据间关系,但这种关系没有在数据中直接体现出来,需从数据中利用数据挖掘找出来;时序模式描述基于时间序列或其他序列的经常发生的规律或趋势;偏差检验,偏差是对差异和极端特例的表述,偏差检验则是用来发现与正常情况不同的异常和变化。数据挖掘的应用分类常见算法分类与回归关联规则时序模式偏差检测聚类数据挖掘的一般过程需求分析数据预处理特征工程分析建模模型评估与应用数据+工具+方法+目标+行动=价值业务场景案例:电信公司挖掘未来5G客户:

通信世界的演化很快,几乎10年就是一个时代,从上世纪90年代的2G,到2010年左右兴起的4G。近代人类社会的演进伴随的就是通信技术的演进,从最开始的电报,电话,到近代的移动通信技术,正是沟通便捷让加快了历史的进程。但通信行业本身也很尴尬,这是一个基础设施行业,承担着为应用提供管道的角色。今天的移动互联网时代,哪些客户是潜在的用户呢?

5G特点:高速率、大容量、低时延高可靠

企业现状:客户中有用户已转入5G,但还是很少的一部分,需要更多……

企业数据:客户信息、通话行为、上网信息、视频日志信息……

……数据挖掘的一般过程需求分析数据预处理特征工程分析建模模型评估与应用商业理解:首先确定目标,然后针对目标,抽象成可由数据挖掘解决的问题;关注任务可行性、任务目标、任务评价标准、任务执行条件等;数据准备:收集数据、数据取样数据探查:数据基本分析、统计分析、分布分析、相关性分析、周期性分析、对比分析算法规划:采用什么分析方法、分析策略、挖掘算法数据挖掘的一般过程需求分析数据预处理特征工程分析建模模型评估与应用数据清洗:缺失数据、错误数据、噪声数据、冗余数据处理;数据集成:数据汇总等数据转换:数据标准化、对数变换、正态转换数据规约:属性的约简(建模变量的筛选),数据的压缩(如主成分分析)等数据挖掘的一般过程需求分析数据预处理特征工程分析建模模型评估与应用特征产生:产生新的特征特征变换:减少特征相关性特征评估和选择:选择有代表性的特征、可分性能好的特征数据挖掘的一般过程需求分析数据预处理特征工程分析建模模型评估与应用确定模型模型、算法确定模型训练数据:模型训练数据、测试数据选取策略选取模型:确定训练模型模型训练:模型调参数据挖掘的一般过程需求分析数据预处理特征工程分析建模模型评估与应用模型评估:分类模型评估、聚类模型评估、回归模型评估等模型调优:模型性能优化,从业务角度、算法角度、数据角度、运行环境角度模型部署:在线、离线;A/B测试及灰度发布等模型应用:生命周期、应用中的评估、优化等只要有数据的地方就有可能进行数据挖掘,尤其是在云计算、互联网、大数据技术发展的今天,海量数据被收集、处理、存储,为数据挖掘提供了可能。典型的数据挖掘应用如下:商业智能(BusinessIntelligence,简称:BI):通过数据挖掘指导企业运营、决策支持、数据价值化,是企业发展的重要力量。Web搜素引擎:这是海量数据实时应用的处理过程,基于数据挖掘技术,为用户迅速返回所有搜寻的信息,基于此,数据的价值得到了最大体现。数据挖掘的应用价值课程目录数据挖掘概述

1.1什么是数据挖掘

1.2数据挖掘与机器学习2.数据挖掘相关方法及业务应用什么是机器学习机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在实际应用中,机器学习是一种通过利用数据,训练出模型的方法。机器学习是针对某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随经验E而自我完善,那么我们称这个计算机程序在从经验E学习。机器学习的核心是使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测;机器学习研究的主要问题:回归、分类和聚类;机器学习主要的学习方式:监督学习、非监督学习、半监督学习和强化学习;机器学习的应用:数据挖掘、计算机视觉、自然语言处理、生物特征识别、语音、手写识别等机器学习是人工智能的核心,同数据挖掘一样也是一门多交叉学科。数据挖掘与机器学习数据挖掘受到很多学科领域的影响,其中影响最大的是数据库、机器学习和统计学。即对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。机器学习人工智能数据库统计学数据挖掘深度学习数据挖掘与机器学习数据挖掘受到很多学科领域的影响,其中影响最大的是数据库、机器学习和统计学。即对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。数据挖掘是从现有的信息中提取数据的模式(pattern)和模型(model),数据挖掘相对于机器学习而言是一个更加偏向应用;机器学习是自动地从过往的经验中学习新的知识,是实现人工智能的方法,相对数据挖掘偏理论;统计学的技术常借助机器学习算法实现;从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域。课程目录什么是数据挖掘数据挖掘相关方法及业务应用

2.1关联规则分析2.2分类分析2.3聚类分析2.4回归分析关联规则知识回顾

概念说明:

项集X、Y无交集。满足最小支持度的频繁项集并不必然蕴涵着因果关系或相关关系。频繁项集的所有非空子集一定也是频繁的。关联规则满足最小支持度、置信度、提升度等测度指标才具有有效性、实用性。支持度与置信度案例茶和咖啡的案例某调研机构,调查统计了1000个用户的喝茶及喝咖啡的情况,1000个调研对象中,喝茶的用户有200人,喝咖啡的用户有800人,喝茶且喝咖啡的用户有150人,不喝茶也不喝咖啡的用户有150人,基于此些数据,查看{喝茶}->{喝咖啡}的支持度、置信度。喝咖啡(A)不喝咖啡(-A)合计喝茶(B)15050200不喝茶(-B)650150800合计8002001000支持度({喝茶}->{喝咖啡})=150/1000=15%;置信度({喝茶}->{喝咖啡})=150/200=75%;即一个人喝茶那么他75%可能喝咖啡关联规则算法示例:Apriori主要关联算法:Apriori关联算法Apriori算法是最基本的一种关联规则算法,它采用布尔关联规则的挖掘频繁项集的算法,利用逐层搜索的方法挖掘频繁项集。核心思想:项集的反单调性:如果一个项集是非频繁的,那么它的超集(superset)也一定是非频繁的。所谓频繁项集是指发生频率超过最小支持度的项集。关联规则算法示例:AprioriTID项目集01ACD02BCE03ABCE04BE项目集支持度A2B3C3D1E3项目集支持度B3C3E3项目集BCBECE项目集支持度BC2BE3CE2项目集支持度BE3第一次扫描D自连接并剪枝第二次扫描D1-候选项目集1-频繁项目集2-候选项目集2-频繁项目集事物数据库D与最小支持度比较2-候选项目集与最小支持度比较关联规则算法示例:Apriori步骤Apriori关联算法计算步骤计算步骤12345首先描述数据库,找出项数为1的频繁项集(即频繁的单项集),此时k=1从k频繁项集中生成k+1候选频繁项集扫描数据集,计算出每个候选频繁项集的支持度根据最小支持度要求,从中筛选出k+1频繁项集直到k+1达到用户指定的最大项数,或者k+1频繁项集为空迭代进行如果指定的最大项数为Kmax,则Apriori算法最多扫描数据集Kmax+1次参考并引用自《埃森哲大数据分析方法》关联规则应用-商业零售行业中的购物篮分析业务问题即挖掘目标:无论线上、线下零售行业都面临同样的问题:(目标是获取最大的销售利润)销售什么商品采用什么促销策略商品如何货架摆放、如何打包(组合)销售为客户推荐哪些商品效果较好……分析思路:基于历史销售、购买数据,找到顾客的购买习惯和偏好分析商品的销售数据,找到商品内含规则、不同商品的销售特征根据上述得出的结论,制定商品销售策略模型算法采用Apriori关联规则应用-商业零售行业中的购物篮分析分析方法与分析过程:数据采集:获取历史销售数据即客户购买商品记录信息数据预处理:数据清洗、转换等,满足数据分析处理的要求根据数据情况、业务经验等预设支持度、置信度生成频繁项目集(商品销售组合)1)生成1-频繁项集,去掉不满足支持度的数据集2)生成2-频繁项集,去掉不满足支持度的数据集……n)生成n-频繁项集,去掉不满足支持度的数据集根据预设的置信度,生成强关联规则依据关联规则,制定业务策略关联规则分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘定义问题即理解业务,定义问题范围,确定本次数据挖掘目标,确定数据挖掘的总体思路。这是机器学习任务数据处理的总体规划:1)要解决的问题:商品销售问题2)解决商品销售问题能否解决企业面临的业务问题:能3)此问题是预测还是关联和模式:关联4)采用(预计)什么算法:Apriori关联算法5)当前能获得哪些数据:客户历史购买记录数据6)能获取的数据在哪,数据质量如何,这些数据的业务逻辑是什么?这些数据能否代表企业的业务情况?7)预计数据挖掘所能达到的目标是什么?参数范围如何?8)……关联规则分析规程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘数据获取即真正能获取到哪些数据用于本次机器学习任务,即数据理解的过程,了解数据分布情况,数据质量如何,对数据进行简单的分析。1)数据能否获取:能2)数据源在哪里:客户购买商品记录系统3)数据是什么数据:销售记录数据、客户登记信息4)数据分布情况如何:商品种类、数据量、数据时间范围、数据涉及商品范围等初级了解5)数据采用什么方式得到,效率如何6)根据获取的数据真实情况,判定预先设定的参数置信度、支持度是否合理7)……关联规则分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘数据预处理即对数据的清洗、转换、规约、集成,目的是使数据能够满足挖掘模型的需要,去除干扰因素。1)空值、异常值处理,客户销售记录中有没有空值、异常值,根据数据情况、业务情况采取不同的处理策略;购物篮分析主要是客户购买商品的数据,商品信息不能为空;2)数据类型、数据格式等转换,如商品销售记录中有的商品为汉字表示、有的用编号,这就需要统一成一种。3)数据规约处理等4)……关联规则分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘特征工程是创建新特征的过程,对于购物篮分析来讲,只考虑购买的商品这一个属性,简化处理,此步处理可省略。分析建模即模型训练过程,模型评估则是验证输出的结果的在其他数据集上的效果如何,是否有代表性。模型评估1)数据合理拆分为训练集、测试集,使二者分布均衡2)模型训练,这是一个循环、反复的训练过程3)调整参数(置信度、支持度)训练4)模型验证测试,根据结果判定是否需再训练、测试5)整个数据挖掘过程是一个螺旋、往复过程关联规则的应用定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘模型应用是企业进行数据挖掘的目的,如本案例中的购物篮分析以及类似的相关分析,关联规则分析还能应用于其他领域,覆盖从数据预处理和数据分类、到聚类和复杂数据的分析。1)关联规则(频繁模式)挖掘是发现频繁出现且具有某些性质的模式,此模式有别于其他模式(项集、子序列、子结构或某些值)2)模式挖掘作为数据预处理,用于清除噪声数据3)发现数据中隐含的关系(时间空间数据、多媒体数据、时间序列数据等),如Web索引搜索等;4)关联规则应用于推荐系统关联规则的应用定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘常见应用场景:

1)商业销售上,通过交叉销售获取更多的销售利润;

2)保险方面,通过关联分析历史索赔要求与骗保行为,找到规则预防保险欺诈;

3)银行方面,通过分析顾客消费行为,进行产品推荐,制定产品销售策略4)制造业,通过历史数据,分析设备与故障的关联性,预先制定维护、替代策略,节约成本、减少损失5)医疗行业,通过病人和药物属性与结果进行关联分析,提高治病效率,分析某些症状与癌症的关联分析,提前预警,早发现、早治疗,提高治愈率课程目录数据挖掘概述数据挖掘相关方法及业务应用2.1关联规则分析

2.2分类分析2.3聚类分析2.4回归分析分类知识概述回顾分类的主要目的是通过分析输入数据,利用部分数据构造一个分类函数或者分类模型(分类器),利用该模型将数据库中的其他数据项映射到某一给定类别中。NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3noNAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes训练集测试集分类规则IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!NAMERANKYEARSTENUREDJefProfessor4?分类算法分类算法分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类算法应用非常广泛,银行风险评估、客户类别区分、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等。按原理分类:

基于统计的:如贝叶斯分类

基于规则的:如决策树算法

基于神经网络:神经网络算法

基于距离的:KNN(K近邻)分类算法-KNNKNN(K-NearestNeighbor)可以说是最简单的分类算法之一,是有监督学习中的分类算法,核心思想是,如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。KNN不但能预测分类,也可以做回归分析。分类算法-KNN基本要素K近邻算法使用的模型实际上对应于对特征空间的划分。K近邻算法有三个基本要素:K值选择距离度量分类决策规则当训练集、距离度量、k值以及分类决策规则确定后,对于任何一个新的输入实例,它所属的类唯一地确定。这相当于根据上述要素将特征空间划分为一些子空间,确定子空间里的每个点所属的类。分类分析中的常见距离几种常见的距离连续型变量距离离散型变量距离欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离标准化欧氏距离马氏距离卡方距离Phi距离二值变量距离Jaccard系数分类算法-常见距离计算公式分类分析应用案例-客户流失预警随着市场竞争的日益加剧,客户资源成为企业竞争挽留的焦点,在我国电信行业,市场基本趋于饱和,发展新客户成本已越来越高,如何维护忠诚客户,防止客户流失,及时为企业管理者预警客户流失情况成为了个电信企业研究的重点。 挖掘目标:减少客户流失分析思路:基于以往流失客户数据,挖掘分析,找出隐含的规律即构建流失模型将模型运用于当前在网客户,提前预知离网倾向,及时预警针对高概率流失客户提前挽留,设置针对性的营销服务策略,满足客户诉求根据数据源情况,采用数据挖掘KNN分类算法分类分析应用案例-客户流失预警分析方法与分析过程:数据准备:数据源分析、对数据进行探索性分析数据源获取,获取离网客户数据(基础信息、产品订购信息、产品使用信息、客服信息数据等)数据预处理:数据选择、数据清洗、数据转换、数据整合、数据规范化KNN分类模型构建模型评估、模型发布依据流失模型,预测客户流失倾向分类分析应用案例-数据说明数据选择:

客户信息:年龄、性别、住址、职业、在网时间、入网品牌、注册服务、客户会员等级等行为数据:用户通话包括通话时间、地点、费用、对端号码、漫游类型等;客户服务渠道的有关缴费、服务投诉的情况信息、用户使用网络情况、流量使用情况、上网情况等

其他:网络质量、通话接通率、上网速率等分类分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘分类分析的前提理解业务、数据获取预规则分析类似,但分类分析明显一个环节数据有标签,即分析数据已知了类别:1)要解决的问题:预判离网客户,提前挽留2)通过预判客户离网倾向进行挽留,能否避免一部分客户流失:能3)此问题是预测还是关联和模式:预测(分类预测)4)采用(预计)什么算法:KNN算法5)当前能获得哪些数据:客户历史离网数据6)能获取的数据在哪,数据质量如何,这些数据的业务逻辑是什么?这些数据能否代表企业的业务情况?7)预计数据挖掘所能达到的目标是什么?参数范围如何?8)……分类分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘分类分析的数据预处理和特征工程:1)数据清理,清理无效数据、错误数据等2)异常值、空值处理;3)数据特征的关联分析,关联分析可以采用规则规则分析,如客户信息一般分为自然属性、社会属性、行为属性,不同类别的数据对于结果影响情况分析4)特征工程,离网案例中典型的离网客户月Arpu数值(简单理解为月话费)逐月下降,基于此信息,构建新的特征,如Arpu变动率;同理适用客户使用业务的时长变化情况;5)……分类分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘分类分析的建模与评估:1)数据挖掘通过模型计算分类,最关注的是分类结果的准确率;2)分类结果的评估常用方法的有效性也是模型的重要环节,常见分类评估方法hold_out、K折交叉验证等;3)模型应用中的实际效果是模型评估的延续4)采用多种分类算法进行比较、评估5)不同业务、不同数据分类算法效果不同,许多算法准确性类似,但计算量\训练时间明显不同分类分析的应用定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘模型应用是企业进行数据挖掘的目的,如本案例中的分类分析在挖掘过程中可能采用多种算法,是综合处理的结果。1)分析分析的应用最直观的是基于对象的分类,如客户分群(二分类、多分类)、商品分类2)基于区域(图像)的场景分类,如安全、消防、医疗等场景3)基于上下文的场景分类,如新闻、视频分类分类分析的应用定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘模型应用是企业进行数据挖掘的目的,如本案例中的分类分析在挖掘过程中可能采用多种算法,是综合处理的结果。常见应用场景商品优惠券使用预测出行选乘公交预测微生物种类判别基于运营商数据的个人征信评估商品图片分类基于文本内容的垃圾短信识别网络借贷平台的经营风险量化分析电网客户用电异常行为分析……课程目录数据挖掘概述数据挖掘相关方法及业务应用2.1关联规则分析2.2分类分析

2.3聚类分析2.4回归分析聚类分析知识回顾聚类(clustering)分析是将一组对象划分成簇(cluster),使簇内对象相似性尽量大,而簇间对象相似性尽量小。聚类分类VS1212无导师学习方式—需要解决将若干无标记对象进行划分的问题,使之成为有意义的聚类。聚类数目未知—需要以某种距离度量为基础,将所有对象进行分类,使得同一聚类之间距离最小,不同聚类之间距离最大。有导师学习方式—利用已经过标记的对象进行学习(训练)、构造模型,然后用其对新对象进行标记。分类数目已知—对每个新对象标记为目标数据库中已存在的类别。聚类算法分类12345划分法(partitioningmethods):给定一个由n个元组或记录组成的数据集,划分法将构造k个分组,每个分组代表一个聚类,k<=n。K个分组满足下列条件:1、每个分组至少包含一个对象,2、每个数据记录属于且仅属于一个分组。算法:k-means、k-medois、CLARANS。层次法(hierarchicalmethods):对给定的数据集进行层次分解,直到满足某种条件位置。具体可分为“自底向上”的凝聚法和”自顶向下“的分裂法两种法案。代表算法:BIRCH、CURE、CHAMELEON。密度法(density-basedmethods):不是基于距离,而是基于密度。能克服基于距离的算法只能发现“类圆形”聚类的缺点。代表算法:DBSCAN、OPTICS。网格方法(grid-basedmethods):首先将数据空间划分成有限个单元的网格结构,所有的处理都以单元为对象。优点处理速度很快。代表算法:STING、CLIQUE、Wave-Cluster模型方法(model-basedmethods):给每个聚类假定一个模型,然后去寻找数据对给定模型进行最佳拟合。给定模型可能是数据点在空间中的密度分布函数或其他。聚类分析常见的五大类算法:划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。重点介绍划分法中的k-means。聚类分析方法-

K-MeansK均值(K-Means)聚类法指定聚类数目K确定K个数据中心,每个点分到距离最近的类中,重新计算K个类的中心,然后要么结束,要么重算所有点到新中心的距离聚类。其结束准则包括迭代次数超过指定或者新的中心点距离上一次中心点的偏移量小于指定值。第一步第二步第三步第四步设定K值,即确定聚类数;确定各类中心;计算每个记录到类中心的距离,并将该记录归到最近的类中;然后重新计算K类的中心点,更新原类族的中心;重复第二、三步,迭代到收敛标准停止。聚类分析方法-K-MeansK均值聚类法指定聚类数目K确定K个数据中心,每个点分到距离最近的类中,重新计算K个类的中心,然后要么结束,要么重算所有点到新中心的距离聚类。其结束准则包括迭代次数超过指定或者新的中心点距离上一次中心点的偏移量小于指定值。第一步设定K值,即确定聚类数;确定各类中心;第一步,确定聚类个数、确定聚类中心、确定距离计算公式:观察法枚举法其他技术手段聚类分析方法-K-MeansK均值聚类法指定聚类数目K确定K个数据中心,每个点分到距离最近的类中,重新计算K个类的中心,然后要么结束,要么重算所有点到新中心的距离聚类。其结束准则包括迭代次数超过指定或者新的中心点距离上一次中心点的偏移量小于指定值。第一步设定K值,即确定聚类数;确定各类中心;第一步,确定聚类个数、确定聚类中心、确定距离计算公式:观察法枚举法其他技术手段聚类分析方法-K-MeansK均值聚类法指定聚类数目K确定K个数据中心,每个点分到距离最近的类中,重新计算K个类的中心,然后要么结束,要么重算所有点到新中心的距离聚类。其结束准则包括迭代次数超过指定或者新的中心点距离上一次中心点的偏移量小于指定值。第二步计算每个记录到类中心的距离,并将该记录归到最近的类中;第二步,计算每个点到中心的距离,归类聚类分析方法-K-MeansK均值聚类法指定聚类数目K确定K个数据中心,每个点分到距离最近的类中,重新计算K个类的中心,然后要么结束,要么重算所有点到新中心的距离聚类。其结束准则包括迭代次数超过指定或者新的中心点距离上一次中心点的偏移量小于指定值。第三步然后重新计算K类的中心点,更新原类族的中心;第三步,计算每个点到中心的距离,归类聚类分析方法-K-MeansK均值聚类法指定聚类数目K确定K个数据中心,每个点分到距离最近的类中,重新计算K个类的中心,然后要么结束,要么重算所有点到新中心的距离聚类。其结束准则包括迭代次数超过指定或者新的中心点距离上一次中心点的偏移量小于指定值。第四步重复第二、三步,迭代到收敛标准停止。重复第二步,将各样本点重新归类划分;重复第三步,根据新分类重新计算类中心;直到聚类中心不发生变化(达到收敛标准)或循环次数到达设置数值,迭代停止聚类分析的应用案例-客户分群国内电信市场竞争激励,面对客户的多样化、层次化、个性化的需求,大众化营销已无其优势。基于客户基本信息数据、客户行为数据做深入分析、挖掘,找到其隐含规律,以减少营销成本、提高营销效益,通过客户分群做精准、智能营销。挖掘目标:获取更多客户减少客户流失降低运营成本、降低服务成本、提高收入、提高运营效率增加ARPU值优化服务协助制定精准市场策略……聚类分析的应用案例-客户分群分析思路:

通过细分市场、差异化营销解决问题

基于客户价值、客户消费行为数据对客户分群,对客户分级、分类管理,进行差异化营销

结合不同部门的业务需求确定人群特征采用K均值建模分析方法与分析过程:数据准备:数据源分析、对数据进行探索性分析数据源获取数据预处理:数据选择、数据清洗、数据转换、数据整合、数据规范化聚类建模建立模型评估、发布依据分群、制定精准市场策略、后续市场策略效果检验聚类分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘聚类分析与分类分析的最大区别是数据挖掘的数据源有无明确的标签,即数据中是否已存在类别的标志:1)要解决的问题:客户分群,以此细分市场,千人千面,不同人群不同营销策略;2)客户分群是细分市场、指定不同策略的基础,进而解决当前的业务问题;3)此问题是预测还是关联和模式:模式(聚类预测)4)采用(预计)什么算法:

基于划分的K均值算法5)当前能获得哪些数据:客户相关业务数据6)能获取的数据在哪,数据质量如何,这些数据的业务逻辑是什么?这些数据能否代表企业的业务情况?7)预计数据挖掘所能达到的目标是什么?参数范围如何?聚类分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘聚类分析算法依然对数据有所要求,数据获取量、数据异常值、数据特征都需结合业务情况进行必要的加工处理:1)聚类分析数据量不宜过大,过大影响性能;2)找到代表客户不同群的标志属性特征,即客户分群的依赖数据特征与业务相关,如根据客户的性别、年龄聚类,是否跟客户的购物习惯一直;3)相关性特征的处理,相关性变量的处理,否则重复计算相关特征,夸大其聚类影响;4)聚类结果符合业务逻辑、符合商业逻辑,即用业务解释结果聚类分析过程定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘案例数据:

从本地企业数据仓库中提取数据客户基本信息数据

:年龄、性别、入网时间、状态、VIP等级、客户类型等用户账务信息数据:账户、缴费方式、缴费记录等详单记录,包括语音、短信、GPRS流量、梦网业务等客服信息数据移动商城应用数据……聚类分析的应用聚类分析模型可以能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。常见场景:

不同行业的客户分群

不同行业的产品、分析对象的分类、价值组合

探测、发现孤立点、异常值

与其他分析模型结合,作为预处理手段或其他处理依据定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘聚类分析的应用聚类分析模型的行业应用。在商业上,聚类分析是细分市场的有效工具,被用来发现不同的客户群,并且它通过对不同的客户群的特征的刻画,被用于研究消费者行为,寻找新的潜在市场。在生物上,聚类分析被用来对动植物和基因进行分类,以获取对种群固有结构的认识。在保险行业上,聚类分析可以通过平均消费来鉴定汽车保险单持有者的分组,同时可以根据住宅类型、价值、地理位置来鉴定城市的房产分组。在互联网应用上,聚类分析被用来在网上进行文档归类。在电子商务上,聚类分析通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,从而帮助电子商务企业了解自己的客户,向客户提供更合适的服务。定义问题数据获取数据预处理特征工程分析建模模型评估模型应用数据挖掘课程目录数据挖掘概述数据挖掘相关方法及业务应用2.1关联规则分析2.2分类分析2.3聚类分析

2.4回归分析线性回归知识回顾回归即用属性的历史数据预测未来趋势,线性回归(LinearRegression)是在回归分析中,如果自变量和因变量之间存在着线性关系,则被称作线性回归。如果只有一个因变量一个自变量,则被称作一元线性回归,如果有一个因变量多个自变量,则被称作多元回归。回归分析分类回归分析的分类:根据研究自变量的数量,可以把回归分析分为一元回归分析和多元回归分析。如果只有一个自变量,称为一元回归分析,如果研究的是两个或两个以上的自变量,则称为多元回归分析。根据自变量和因变量之间的关系类型,可以将回归分析分为线性回归分析和非线性回归分析。回归模型也相应地分为线性回归模型和非线性回归模型。其中,线性回归指的是自变量和因变量之间存在线性的关系,这种关系可以用一条直线来表示;非线性回归则用于非直线关系的研究和表示,比如正弦函数等。回归分析按自变量个数分类按方程式特征分类一元回归(简单回归)多元回归(复回归)线性回归非线性回归回归模型的一般形式回归模型的一般形式为:

确定性关系随机误差(扰动项)影响因素缺失观测/测量误差其他随机误差

几个基本假设

一元线性回归模型在研究某一现象时,主要关心与影响该现象最主要因素关系时,两者有密切关系,但并非一个变量唯一确定另一个变量,可以使用一元线性回归模型。

被解释变量因变量解释变量自变量回归常数回归系数随机误差

多元线性回归模型

其表达式为:

多元线性回归模型e表示去除m个自变量对Y影响后的随机误差。模型参数估计常用方法-最小二乘法

离差平方和:

模型检验回归模型检验即参数确定后得到模型,对模型进行统计意义上的检验,包括对回归方程的显著性检验、回归系数的显著性检验、拟合优度检验、异方差检验、多重共线性检验等。还需要结合实际场景,判断该模型是否具有实际意义。显著性检验(Significanc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论