构建一个有指导的数据挖掘模型_第1页
构建一个有指导的数据挖掘模型_第2页
构建一个有指导的数据挖掘模型_第3页
构建一个有指导的数据挖掘模型_第4页
构建一个有指导的数据挖掘模型_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、构建一个有指导的数据挖掘模型2014-10-08 11:26 link inpark 36 大数据 字号:t i t|收藏什么是冇指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个冇指导的数据 挖掘模型,首先要理解和定义一些模型试图估计的目标变量。-个典型的案例,二元响应模 型,如为直接邮寄和电子邮件营销活动选择客户的模型ad: 2014wot全球软件技术蜂会北京站课程视频发布11月21 h-22 h与wot技术大会相约深圳 现在抢票数据挖掘的冃的,就是从数据中找到更多的优质用户。接着上篇继续探讨有指导数据挖掘方法模型。什么 是有指导的数抓挖掘方法模型,以及数抓挖掘如何构建模型。在构

2、建一个有指导的数抓挖掘模型,首先要 理解和定义-些模型试图估计的h标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营 销活动选择客户的模型。模型的构建选择防史客户数据,这些客户响应了以前类似的活动。有指导数据挖 掘的目的就是找到更多类似的客户,以捉高未來活动的响应。这构造冇指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、考虑模 型的稳定性。四、通过预测模型、剖析模型来讨论模型的稳定性。下面我们将从具体的步骤谈起,如何构 造一个冇指导的数据挖掘模型。有指导数据挖掘方法: 把业务问题转换为数据挖掘问题 选择合适的数据 认识数据 创建一个模型集 修复问题数据

3、 转换数据以揭示信息 构建模型 评估模型 部署模型 评估结果 重新开始(有指导数据挖掘方法模型)步骤:1、把业务问题转换为数据挖掘问题爱丽丝梦游仙境中,爱丽丝说“我不关心去哪儿”。猫说:“那么,你处哪条路都没什么问题”。爱 丽丝乂补充到:只要我能到达某个地方。猫:“哦,你一定能做到这一点,只要你能走足够t的时间。”猫可能有另外一个意思,如果没有确定的目的地,就不能确定你是否已经走了足够长的时间。有指导数拥挖掘项h的冃标就是找到定义明确的业务问题的解决方案。一个特定项h的数拥挖掘h标不应 该是广泛的、通用的条例。应该把那些广泛的目标,具体化,细化,深入观察客八行为可能变成具体的目 标: 确定谁是

4、不大可能续订的客户 为以家庭为基础的企业客户设定一 个拨打计划,该计划将减少客户的退出率 确定那些网络交易可能是欺诈 如果简萄酒和啤酒已停止销伟,列出处于销伟风险的产品 根据当前市场营销策略,预测未來三年的客户数屋有指导数据挖掘往往作为一个技术问题,即找到一个模型以解释一组输入变量与目标变量的关系。这往往 是数据挖掘的屮心,但如果目标变最没冇正确的定义以及没冇确定适当的输入变最。反过來,这些任务又 取决于对要解决的业务问题的理解程度。没冇正确的理解业务问题就没办法把数据转化为挖掘任务。在技 术开始z前,必须认识两个问题:如何使用结果?以何种方式交付结果?上述两个问题,都是建立在客户的真正需求是

5、什么?而不是作为数据挖掘工程师认为的什么是有用的数据, 什么对客户最好的数抓。这些结果看似有利于客户提薛销伟额,但是我们交付的结果是什么,我们有理解 客户的需求吗?所有前提,不耍着急急着动手,先理解真正需求,不可盲目主断。1.1如何使用结果?例如:许多数据挖掘工作旨在捉高客户保留 主动向高风险或高价值的客户提供一个优惠,挽留他们 改变获取渠道的组合,以利于那些能带来最忠实客户的渠道 预测未来儿个月的客户数量 改变会影响乳户的满运度的产品的缺陷这些目标都会对数据挖掘过程产生影。响。通过电话或玄接邮寄的营销活动接触现冇客户,意味着除了确 定客户风险z外,你要了解为什么他们处于风险中,从而可以构造一

6、个冇吸引力的优惠。电话,不能过早 或过迟。预测意味着除了确定那些客户可能离开,确定冇多少新客户加入,以及他们会停留多久。而新客 户的加入,不只是意味着预测模型耍解决的问题,还是被纳入到业务h标和预算z中。1.2如何交付结果?有指导的数据挖掘项目可能会产生儿个不同类型的交付形式。交付形式往往是一个报表或充满图标和图形 的简报。交付形式会影响数据挖掘的结果。当我们的目的是提醒销售惊雷时,产生一个营销测试的乳户列 表是不够的。所谓的如何交付结果,就是在挖掘结果产生之后,我们耍如何给川户提供这个结果,目的是 好的,但实际的过程中会遇到,会遇到我们没有办法去交付这个结果。因为,你交付的结果,可能会导致

7、一些木不该流失的客户,却流失了。这也是在具体工作之前,我们要考虑的问题。数据挖掘人员的作用是确保业务问题的放厉表述可以被转换成一个技术问题。前提是止确的业务问题。2、择合适的数据2.1什么数据可用? 寻找客户数据的首要地方就是企业数据仓库。仓库中的数据已经被清洗和核实过,并且多个数据源被整合 到一起。一个单一的数据模型冇望确保命名相似的字段在整个数据库和兼容的数据类型中都冇相同的含义。 企业数据库是一个历史数据库,新数据不断的被追加,但历史数据一貢不变。从这一点更冇利于做决策支 持。问题在于,在许多企业组织中,这样的数据仓库实际上并不存在,或者存在一个或多个数据仓库,不符合 直接作为规范的数据

8、用來挖掘。在这种悄况下,挖掘人员,必须寻求來h不同的部门的数据库和业务系统 内的数据。业务系统数据是指执行一个特定的任务,如网站运行,索赔处理,完成呼叫或账单处理。它们 的目标是快速、准确的处理事务,数据可以保存成任何格式。而这些对于没冇数据仓库的一些企业來说, 这些数据往往是隐藏的很深,需要大量的企业调度和规划來整理这些数据。这也就谈到了一个问题:就是 数据仓库对一家企业的重要性,而建立企业级数据仓库,需要的决策不是一个经理就可以完成的,这可能 需要企业级最高领导下令,下面的所有部门全部配介。在企业总确定哪些数据可川是相当因难的。因为许多的文档会丢失或过时。通常情况下,没有一个人可以 提供所

9、有答案。确定什么数据可用,需要遍历数据字典,了解具体的业务,沟通毎个部门,访问川户和dba, 审查现有的报告以及查找数据本身是否有川。还有些问题,不仅需耍有关*户的数据,还需耍潜在的乳户 的数据。当需耍这些数据的时候,外部资源和业务系统,ill web h志、呼叫详细记录、呼叫中心系统、有 时其至是邮件或电子表格,这些都是数据信息的來源。数据挖掘工作的方式并不是一直等到完美和干净的数据才进行下一步工作。虽然需要额外干净的数据,但 是受挖掘必须能够使用h前的数据,提前入手,开始工作。2. 2多少数据才足够?一、数据越多越好,更多意味若更好。在建模期间,必须对模塑集进行平衡,使得每个结果的数目都相

10、等。 如果在一个大规模的样本中有一个比例很小的稀有数据,则一个较小的、均衡的样本会更受欢迎。二、当模型集足以建立良好的、稳定的模型时,使它更大将会产生相反的作用,因为这时需要更t时间在 更大的模型上去运行,由于数据挖掘是一个反复的过程,这就导致时间的浪费。如果一次建模例程的运行 都需耍数小时而不是数分钟,这个时间的消耗就耗不起的。这就导致,在模型确定后,数据并不是越多越 好。2. 3需要多久的历史? 数据挖掘使用过去的数据预测未來。但是,数据需要來h多久的过去?这个没冇定性的i川答,这要考虑很 多的因素。另一方面,历史上太久的数据未必对数据挖掘冇用,因为市场环境在变化,特別是当一些外部 事件(

11、如监管制度的变化)进行了干预时尤其如此。对于许多以客户为中心的应用,2-3年的历史是合适 的。然而,在这种悄况下,客户关系确实存在冇效才被证明是冇价值的,那么重要的是什么:最初的渠道 是什么?放初的报价是什么?客户绘初怎么支付的等。多少变量:不熟练数据挖掘的人员有时太急于抛岀不太可能有懣义的变量,且只保存了他们认为重耍的儿个粘心挑选 的变量。数据挖掘方法要求数据木身能揭示它重要或不重要。通常悄况下当与其他变量结合使用时,原先被忽视的变量会具冇预测价值。例如:一个信用卡者从未把把 现金刷没乂继续刷,通过数据挖掘发现他们仅在11月和12月才会使用用信用卡垫付。据推测,这些人非 常谨慎,大部分时间他

12、们都避免因多刷而产生的高利息,谨慎也推断出一个结论(他们比习惯使用现金垫 款的人更加不太可能选择拖欠欠款),但在假期,他们需要一些额外的现金,并愿意为此付出较高的利息。2. 4数据必须包含什么?最低限度,数据必须包含有可能有懣义的结果的例子。有指导数据挖掘的目的是预测一个特定目标变量的 值,但在有指导的数据挖掘中,模型集必须由分类好的数据组成。耍区分哪些人拖欠贷款哪些人不可能拖 欠,模型集的每个类都需耍有成千上万的例子。当一个新的申请产生时,他的申请会与过去的客户的申请 进行对比,可以直接把新的申请归类。这其中隐含的懣思:数据可川来形容过去发生了什么事情,从错误 总吸取教训,首先我们必须识别我

13、们已经犯了什么错。3、认识数据在数据用于构建模型z前,在探索数抓上花费时间的重要性通常没有得到足够的重视。后而我们会抽出绝 对的篇幅来说明这个问题。优秀的数抓挖掘工程师似乎非常依赖直觉一一例如,某种程度上能够猜测将要 派生的变量结果如何。要在陌生的数据集中利用直觉来感应发生了什么事情,唯一办法就是陷入数据z中, 你会发现许多数据质屋的问题,并能够得到启发捉出在其他情况下不容易被发现的问题。3. 1检查分布在数据库的初步探索阶段,数据可视化工貝非常有益,如:散列图、条形图、地理地图、excel等可视化 工具对观察数据提供了强大的支持。当你开始着手一个新数据源中的数据文件,就应该剖析数据了解到底发

14、生了什么,包括计数和每个字段的 汇总统计,分类变量不同值的数屋,并在适当的悄况下,需要基于产品和区域的交义统计表。除了捉供对 数据的了解,剖析工作可能会产生不一致问题或定义问题的警告,这些问题可能会对厉而的分析造成麻烦。3. 2值与描述的比较观察毎个变量的值,并把它们与现有文件中的变量描述进行比较。这项工作可以发现不准确或不完整的数 据描述。其实是,你记录的数据,是否和你要描述的数据一致,这个耍先确定。ii的是什么?在实际的数 据挖掘过程中,你耍去揣测这个字段的数据到底是什么懑思?如果业务人员知道,那是最好的了。如果业 务人员都不知道,这个时候,可能就需要凭借经验去揣测了,而且这种情况经常发生

15、,字段定义不明确。3. 3询问大问题如果数据看上去似乎不明智或者不如所愿,记录下來。数据探索过程的一个重要输出是对提供该数据的人 给出一个问题列表。通常,这些问题将需要进一步研究,因为很少冇用户像数据挖掘工程师一样仔细地观 察数据。对数据的探索的前期工作,判断字段,含义,是否冇用,是否缺失,是否冇问题等一系列问题, 需要大量的工作,同时也是一件心细的过程。4、创建一个模型集模型集包含建模过程中使用的所有数抓。模型集中的一些数据被用来寻找模式,对于一些技术,模型集中 的一些数据被用来验证该模型是否稳定。模型集也可用来评估模型的性能。创建一个模型集船要从多个数 据源聚合数据以形成乳户签名,然后准备

16、数据进行分析。4.1聚合客户签名模型集是一个表或一系列表,每一行表示一个要研究的项目,而字段表示该项目有利于建模的一切。当数 据描述客户时,模型集的行通常称为客户签名。客户签名,毎个客户都山他离开的踪迹唯一确定,你可以 利用踪迹充分的了解每个客户。从关系型数拥库中聚合客户签名旺旺需要复杂的杳询,这些査询往往需要关联很多的农去杳询的数据,然 后利用其他来源的数据增強结果。聚合数据的一部分过程是使数拥位于正确的汇总层次,然后每一行都包 含先关乳户的所有信息。4. 2创建一个平衡的样本 在标准的统计分析中,-种常见的做法是抛弃离群点远远超出正常范围的观测值。然而在数据挖掘的 过程中,这些利群点可能正

17、是你要找的。或许他们带冇欺诈行为,可能是你的业务中的一些错误,或一些 利润惊人的市场商机。在这种情况下,我们不希塑抛岀离群点,认识和了解他们。知识发现算法需通过实例來进行学习。如果没冇足够数屋的关于某个特定类或行为模型的例子,数据挖掘 工具无法得出一个预测该类或模式的模型。在这种情况下,利用罕见事件的例子丰富该模型集,提高建模 中该事件的概率。如果比较罕见,有两种方法可以平衡样木:一、分层抽样。二、权重。例如:银行耍建立一个模型,以确定哪些客户是私人银行计划的潜在客户。这些计划只针对非常富有的空 户,他们在一个相当大的银行客户样木中也是非常稀少的。如何构建一个能发现这类川户的模型,该模型 集可

18、能需耍有50%的私人银行的客户,即使他们代表所有支票份额中还不到1%。另外私人银行客户可能被 赋予一个值为1的权重,其他客户的权重为0.01,所以浙西专有客户的总权重等于其余客户的总权重。通 过增加一些孤立点客户的权重,从而达到模型对数据的合理梳理。4. 3时间帧基于一个时间段内的数据建立模型会増加风险,即学习的知识不真实。结合模型集中的多个时间帧可以消 除季节性因素的影响。由于季节性影响如此重要,因此应该把它们明确地添加到客户签名中。还有假日购 物模式也非常重要。把客户的信息按照时间细分,或是在相应的数据上打上标签。4. 4创建一个预测模型当模型集用來预测时,另一个问题,模型集应包含多长时间

19、,时间段该如何划分。任何客户标签在预测变 量和目标变量z间都应该有一个时间差。时间可分为,过去、现在、将來。当然所有数据都來自过去,过 去又分为三个时期:遥远的过去、不太遥远的过去和最近。预测模型就是要发现遥远的过去的模盘,用來 解释故近的输出。当部署模型时,它能够使用故近的数据预测未來。如果构建一个模型來利用6月份(不 太遥远的过去)的数据对7月份(故近)进行预测,那么在8月份z前的数据是町用的,但它不能用來对 9月份进行预测。但是8月份的数据是可用的吗?肯定不是,因为这时,数据仍在产生数据。也不会是9 月份的第一周,因为这些数据需要被收集、清洗、加载、测试和认可。8月份的数据可能要懂啊9月

20、份中 旬或10月才能用,到这个时候,没人会扒心9月份的预测了。解决的办法是在模型集中跳过1个月。4. 5创建一个剖析模型集剖析模型集与测试模型相似,但有一点:忖标的时间帧与输入的时间帧巫叠。看微小的差别对建模工作的 影响却很人。因为输入可能会“污染” h标模式。例如:银行,拥有投资账户的客户在储蓄账户中往往有 非常低的结余一一因为他们能从投资账户中得到更好的冋报。这是否意味着银行要为了投资账户而识别低 存储账户余额的客户呢?可能不需耍,因为这些客户的资产很少。解决这个问题的一种方法是非常仔细得选择剖析模型的输入。把所冇账户余额组合到“储蓄”,“贷款” 两组。储蓄组包括所冇类型的储蓄和投资。这种方法非常冇效,事实证明模型是稳定的。一个更好的办法: 开通投资账户z前对账户产生一个模型。一个并发的问题是:由于每一个客户的时间帧都取决于客户开通 账户的时间,建立这样一个模型集面临更多的闲难。当目标变量的时间帧与输入变量的时间帧相同时,那么该模型是一个剖析模型,并且这个输入可能会引入 一些似是而菲的模式,而这些模式可能会混淆数据挖掘技术。你需耍非常小心地选样输入或者重建模型集 來产生预测模型。4. 6划分模型集当你从适当的时间帧中获得预分好的数据后,冇指导数据挖掘房峰辉把它分为三个部分。一、训练集,用 户建立初始模型。二、验证集,用于调整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论