基于案例学习数据挖掘-第十周_第1页
基于案例学习数据挖掘-第十周_第2页
基于案例学习数据挖掘-第十周_第3页
基于案例学习数据挖掘-第十周_第4页
基于案例学习数据挖掘-第十周_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于案例学习数据挖掘 第十周DATAGURU专业数据分析社区基于案例学习数据挖掘 第一版讲师法律【】和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被责任。法律和经济课程详情炼数成金培训http:DATAGURU专业数据分析社区基于案例学习数据挖掘 第一版讲师炼数成金逆向式网络课程Dataguru(炼数成金)是专业数据分析,提供教育,内容,社区,数据分析业务等服务。的课程采用新兴的互联网教育形式,独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围,重竞争压力的特点,同时又发挥互联网的打破时空限制,把天南地北志同道合的朋友组织在一起

2、交流学习,使到原先孤立的学习组有组织的探索力量。并且把原先动辄成千上万的学习成本,直线下降至百元范围,造福大众。中国第一的网上知识流转阵地。的目标是:低成本高价值知识,构架关于逆向式网络的看的培训http:DATAGURU专业数据分析社区基于案例学习数据挖掘 第一版讲师挖掘案例背景背景示意 试用意愿最高的前挖掘案例背景20%客户挖掘案例背景筛选全体用户意愿全体客户个人信息和个人信息的规律金融衍生品部门 新上线了一款金融 产品,而销售方式为直接电邮,考虑到多数用户可能不会对 产品感 ,所以销售目标为用户群中对产品 度最高的前20%用户数据简述一般情况下,认为,基于对客户的研究,那么首先你要有一质

3、量的客户信息表(缺失少且有效字段多),该案例中客户表的信息量尚可,可以作为标准;日期对照表是每一个数据挖掘案例都必须准备的表,不再赘述;账号信息表中月费和透支额度可数据表有效字段在一定程度作为用户的;交易信息表中客户表、职业、生日、收入交易金额是给用户贴上最重要的一个的日期对照表日期的各种转化形式 字段,即用户和未用户;账号信息表账号类型,月费、透支额度等总体评价:该数据源较为详细地给出客户账户-交易的产品线总信息,数据质量较好交易信息表交易类型、交易日期、交易金额数据简述数据包括表、日期对照表、账号信息表、交易信息表。这四张表最后整 一个初级数据挖掘表,也叫数据宽表,大体意思是将客户的有用信

4、息都完全包括的一个表数据评价数据源描述数据初表查看和加工数据初表有23个维度,其中包括性将Family_sus(家庭状态) 和e别、收入、职业、家庭状态、平均账户时长,以及一些初级加工的字段;(收入)进行缺失值替换,家庭状态替换为未知(unknown),e替换为0;样本量为2385,其中用户为184人,非2201,注意,这是将离散成6个阶段的新变量;一个典型的需要进行精准挖掘的将将变量;相关变量离散成5个类别的名义变量;二分类比例;包含变量在内共有5个维度为名e进行离散,离散成3个类别的名义义型变量,其余为数值型;客户ID为挖掘模型中的ID角色; 在初表中,有些字段是通过简单的四则运算或者条件

5、判断生成的将用户使用年限离散成4个类别的名义变量;将删除某些各别值占总体量99%以上的变量数据初表查看和加工数据初表加工元数据统计分析数据终表和权重优化 般情况下会作为连接挖掘模型的数据表,数据终表和权重优化精准度结果决策树文字截图这个表的质量很大程度上决定了挖掘结果好坏针对分类任务中,各类别分布不均匀造成的影响,会使用权重优化,使得每个类别样本都被赋予特定的权重数据终表在初表处理后成型,这个表一权重优化数据终表分类任务中的数据平衡一般的数据挖掘任务中,如果是进行二元分类任务,那么往往会存在数据严重不均衡的情况,过于不均衡的类别分配使得几乎所有分类算法都徒劳无功,在这个问题中,解决办法往往有三

6、个;第一,将数据进行平衡,对比例高的类别进行筛选,让两类别尽量接近第二,将分类判定的概率阈值修改,修改阈值可以改变分类的归属,从而改变最终结果中两类别的比例;第三,如果可以的话,将分类任务变为计算概率,即变成回归问题,将每个样本属于类别的概率模拟出来,这样,就可以较为准确地利用这个概率做最终的决定关于分类任务的一点感悟:分类任务是将样本进行类别上的硬性分配,而实际上很多样本是在分配过程中是很模糊的,尤其在概率介于【0.4-0.6】之间的更是容易出现误判分类任务中的数据平衡平衡数据后的图平衡数据后,算法的总体精准度固然下降,但是算法对于,这是这个分类任务的终极目的,精准地找出最可能用户的变得更好

7、了的那个“客户群”的一种模拟,图是针对模型进行的挖掘结果统计,可以看做针对体现的是有挖掘指导销售和无挖掘指导销售之间的差异图平衡数据后的图挖掘算力比较挖掘算力比较挖掘算法:如果在数据终表完成后,具体挖掘算法的选择也是一个大问题ROC曲线:http/view/42249.htm个人解释:是一种正类精度对负类比的散点图,体现的是模型以较少样本预测出全部正类的能力,是挖掘算法的分类能力的一种直接体现。DATAGURU专业数据分析社区10剔除已客户的模型是用完整的用户信息和得出的规律,原本该针对一批新客户进行挖掘运算并且进行,那么考虑到两点,大胆进行了下面的操作,即剔除客户首先,规律的应用本来是在完全

8、新客户上,但是此案例中,不是,不符合规矩,但是,这个数据未必就是销售完结的状态(口述解释)其次,对于已经的客户进行,首先要考虑的不是算法的精准度这些问题,而是产品本身,产品本身是否具有“排他性”,即已经的用户无疑强烈,但是因为已经产品,则不会第二次,对于的金融产品,理应具有排他性,当然这里不能给出论断,这里需要灵活处理在这个模型中,40%的用户可能是的销售目标,他们具有较大可能产品,但是目前并没有剔除已客户修改阈值在这个案例中,初始的医院是找到那未用户中意愿最高的20%用户,所以目前的40%比例高了些,这样把分类的阈值修改的高一些,可以达到目的默认阈值:在分类任务中,默认的分类阈值为0.5,即

9、属于正类的概率不小于0.5,即被判定为正类,由此可知,提高阈值,可以让后的正类中正类比例变高,提高效率,同时也会让更少的被判定为正类DATAGURU专业数据分析社区修改阈值从两个角度讲,应该修改阈值: 首先,默认的阈值使得只能挑选出大约40%的用户,这和目标有些差距;第二,模型的建立是通过平衡数据得到的,概率偏向于提高正类的概率,所以应该修改如何评价修改阈值修改阈值后案例挖掘评价DATAGURU专业数据分析社区案例挖掘评价这个案例,大部分挖掘工作都进行的很流畅,思路紧凑,但是作为精益求精的数据挖掘来讲,在算法选择和参数优化上只是一带而过,这是这个案例的一个遗憾和 ,也就是没有证明该算法比其他方

10、法优秀参数优化算法选择源数据,数据的来源 不清楚,但是这几张表还是可以作为标准,任何想致力于做数据挖掘的企业和组织,手中的数据如果达不到这个水准,那么因为数据质量造成的损失不好估量数据处理,数据处理还是紧贴业务,对于相同类型的维度进行集中处理的方式值得借鉴挖掘过程,目标专注,从始至终的挖掘流程围绕着如何找出这最可能 的20%用户展开,并没有一味地追求准确度, 率等指标,这也提醒 ,数据挖掘是一个大工程,要综合考虑,不要被数据牵着鼻子走课程预告DATAGURU专业数据分析社区课程预告这节课,代表做挖掘的特点,也给出一些自己的经验,在这节课,可能会需要结合数据库来进行操作,可以安装Oracle或者、Sql server等数据库,要通过综合运用来进行数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论