Data Mining 数据采矿的技术与应用.docx_第1页
Data Mining 数据采矿的技术与应用.docx_第2页
Data Mining 数据采矿的技术与应用.docx_第3页
Data Mining 数据采矿的技术与应用.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Data Mining 数据采矿的技术与应用功能说明技术适用领域分类(Classification)- 根据数据的特性, 将其指定到现有事先定义好的类别/群集中- 事前必须对数据的结构, 解释及定义有一定的了解- Profiling- 判定树(decision tree)- 记忆基础推理(memory-based reasoning)- 将信用卡风险分为高中低风险- 将客户以年龄, 性别, 居住地区, 来看的电影作区分- 将客户分为20岁以下, 20-30, 30-40, 40以上推估 (Estimation)- 使用模型为输入变量做评分, 依输出分数设定门坎值, 完成分类- 根据既有连续性数值(如教育程度)之相关属性数据, 以推估某一属性未知之值- 回归分析- 统计关联分析- 类神经网络- 推估家庭中孩童的数量- 推估家庭的总收入- 推估客户的终身价值- 推估顾客接受转账缴款的机率- 推估申请人的信用卡消费量预测 (Prediction)- 推估未来的数值的趋势- 以历史数据为模型, 将最新数据为输入值, 以获得关于未来的输出预测值- 根据对象属性的历史观察值来推估该属性之未来值- 回归分析- 时间序列分析- 类神经网络- 购物篮 (market basket)- 记忆基础理解(MBR)- 由顾客过去卡消费量预测未来刷卡消费量- 杂货店中那些商品会被同时购买- 若持卡人以转账付款, 预测本月的余额会有多少- 那些客户未来6个月会流失关联分组 (Affinity Grouping or Association)- 发觉那些事物总是同时发生- 建立交叉销售的基础- 决定那些相关对象应放在一起- 购物篮分析- 决定超市中那些货品应放在同一货架上(同时买面包及牛奶)- 建立交叉销售促销案- 建立搭售之套餐组合- 决定型录的编排方式群集化 (Clustering)- 将一群异质的群体区隔为同构型较高的群集- 群集并非以事先定义的类别来分类, 而是让数据自然产生区隔, 且靠事后的阐释来得知意义- 让群组内数据相似度最高, 让群组与群组间数据相似度最低(群内同质, 群间异质)- 通常是数据采矿及模型化的前置作业- K-means- Agglomeration法- 分析那一群顾客喜欢那一类的促销的分群工作-描述 (Description)- 描述在复杂的数据库中发生什么事?- 购物篮分- 趋势图- 两变量关联或比较图序列模式 (Sequence Pattern)- 顾客通常在购买某类商品后, 经过一段时间会再购买另一类商品- 关联规则关心同一时间发生相关的交易, 序列模式关心不同时间发生相关的交易- 租过第一集, 经过一段时间后, 会再租第二集, 然后第三集- 买过绵被, 枕头, 床单后, 一段时间会再购买纸尿裤及奶粉- 监督式数据采矿, 是以top-down方式, 先有假设, 及变量, 以预测模型来验证; 非监督式数据采矿, 是以bottom-up方式, 找出特定变量, 让数据变量间的关系自己说话的方式, 自动产生样式及规则, 由用户判断规则的重要与否.- 通常在分析过程中需要产生衍生变量, 包括某两个变量间的总和, 相差, 比例等.- 源数据包括(1)通联数据库(contact database): 含CTI, DM, Fax, store visit; (2)事务数据库(transaction database): 含每日授权, 请款交易, CDR, 购买产品, 退货交易; (3)缴款/风险数据库(payment/risk database): 含延迟缴款, 呆账, 还款, 客户风险评分(CVS); (4)人口变项数据库(demographic database): 含profile, 年龄, 性别, 居住地等; (5)营销数据库(campaign database): 促销案, DM, 电话营销之目标, 响应, 拒绝客户数据.- 判定树(decision tree), 选择最重要且最有分隔能力的属性来分隔数据. 步骤为(1)选择一属性 (2)利用属性作分类 (3)计算分类后之平均分散度, 能使分散度降到最低, 即为最佳分隔属性., 直到没有属性可以降低分散度.- 购物篮(market basket)分析常使用在有足够数据却不清楚规律主题或规则时, 可适用于监督式及非监督式, 可用于探讨两变量间的关系, 如果买了A, 也会购买B的机率; 通常结果会出现明显的结果(业界老手已经知道的事), 及无法理解的结果(看来没有解释的). 通常购物篮分析会(1)选择正确的组合, 利用分类, 加上虚拟卷标作差异变量, 去除outlier, (2)计算超过门坎的商品, 分析可能同时发生之机率. 优点是有简单明了的结论, 非常适用于非监督式分析, 缺点是商品增加时, 运算会成几何级数增加, 很难决定适当的商品数, 且容易剔除罕见的商品.- 记忆基础理解(MBR)是利用人工智能的方式, 将现有数据库对新数据进行分类和预测, 流程是(1)选择历史数据, 抽样的数据必须能代表原始数据, 转换历史数据以减少记录数量, (2)设定距离函数, 组合函数, 和邻近数据的数目(K), 加入回归分析, (3)选择正确的训练数据组, 推导出结果. 优点是结论容易推测, 能运用在任何数据型态, 甚至是非关系型数据上, 训练数据组容易建立, 缺点是在预测中运算作业繁复, 训练数据组需大量记录, 高度依赖距离函数和组合函数.- 其他应用范围:n 营销项目管理(marketing campaign)u 留住好顾客u 剔除不好的顾客u 发掘潜在客户u 数据拥有者变为营销活动中介商u 预测那些顾客较容易接受电话催款, 电话营销, DM营销u 提升邮购/电话营销/促销项目响应率u 产品偏好/组合分析u 顾客浏览网页之行为及最佳网页pop-up广告n 风险控制管理(risk control)u 预测会延迟缴款/成为呆账的顾客u 预测诈欺交易的出现u 降低贷款风险损失率u 信用评分模式n 作业控制管理(operations control)u 订出维修索赔的规则u 存货及安全存量预测及控制n 财务/获利分析(financial/profitable analysis)u 顾客获利模式u 股市交易买进/卖出时机分析n 综合管理(corporate management)u 分析提款机/DM/分店设置最佳地点u 首页或知识首页的安排- 营销规划管理n 慰留分析u 流失人数推估: 依流失主因(合约到期), 及平均账单金额和费率产品, 推估未来每个月之流失人数, 以制定适时之慰留方案u 流失, 慰留, 未表态用户之模式: 外拨号码数2次以下, 15次以上.u 高拆机族群预测, 只有高拆机族群有续约获补贴资格, 准确率达60%以上.u 每月拆机之高用量族群之分析: 于特定征兆出现时, 当受话号码数连续下降2个月时, 主动推出续约方案.n 用量分析u 加值服务用量模式: 促销案后30岁以下的男女反应比例比30岁以上男女高, 增加的revenue为2.5倍.u 特定服务使用用户的特定模式: 616交友服务几乎为30岁以下男生占90%, 针对相同profile非用户作促销.u 行为分析: 分析那些特质用户会使用国际电话, 加值服务, 简讯等.- 风险控管分析u 异常拆机分析: 拆机与开通日在正负14天内. 修正慰留项目与开通项目相同, 且限制通路佣金发放标准.u 断话用户分析: 分开通未正常缴款及曾正常缴款现为断话(suspend), 分析那一类型用户会出现延迟缴款状况.- 获利模式分析u 促销项目均依推估之回应率, 专注于响应率递增之最高点, 平均将目标用户缩小至50%.- 财务预算预测u 流失人数及慰留人数预测: 编列预算u 以客户终身价值推估成本比例: 自获取成本(通路佣金, 手机补贴), 每月账单金额减拆

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论