




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
直邮营销中统计数据挖掘的应用张俊妮赵永鹏曹丽娜邵亚楠(北京大学光华管理学院商务统计与经济计量系 ,北京 100871 )摘要 :我们将讨论在直邮营销行业中如何使用数据挖掘方法分析客户历史数据 ,提高营销的效率 。 随后我们给出对某公司真实数据的一个分析实例 。关键词 :目标客户 ;市场细分 ;关联规则 ; logistic回归 ;神经网络 ;决策树中图分类号 : o212 文献标识码 : as ta t ist ica l d a ta m in in g a pp l ica t ion s for d irec t m a il m a rke t in gzhan g j unn i, zhao yongp eng, cao l ina, shao yanan(d ep a rtm en t of b u sine ss sta tistic s and econom e tric s, guanghuaschoo l of m anagem en t, pek ing u n ive rsity, b e ijing 100871 )a b stra c t: w e d iscu ss how to u se da ta m in ing m e thod s to ana lyze h isto rica l cu stom e r da ta in d irec t m a il m a rke ting and to imp rove m a rke ting effic iency. w e then p re sen t an app lica tion to a rea l da ta se t fo r a comp any tha t u se s d irec t m a il m a rke ting.key word s: ta rge t cu stom e r; m a rke t segm en ta tion; a ssoc ia tion ru le; logistic regre ssion; neu ra l ne two rk; dec ision tree0 引言与传统广告形式相比 ,直邮 (直接邮寄 ) 成本低廉、效果直接、反馈及时。但是 ,直邮营销 的费用仍然很贵 ,响应率也较低。因此 ,若能更好地找到潜在目标客户作为邮寄对象 ,企业就 能降低营销成本和提高响应率。很多公司都拥有自己的客户历史数据库 。数据挖掘方法能从这些历史数据中抽取出潜在 的有价值信息、模式和趋势 ,提高公司的市场决策能力。我们将采用某个给顾客直邮产品目录 的公司的真实数据 ,讨论如何使用数据挖掘方法对历史数据进行分析 ,从而提高直邮的营销效 率。1 使用数据挖掘方法提高直邮营销效率111 数据挖掘方法数据挖掘是对大量数据进行探索与分析 ,以发现有意义的模式和规则的过程 1 。在此我收稿日期 : 2005年 10月 10日们对下文将用到的关联规则分析 2 、logistic 回归、神经网络 3 和 c510 决策树 4 做个简要介绍。关联规则分析主要用于市场篮分析 , 可以识别出在销售记录中一起发生的事件。一个典 型的成功案例是 :在美国 , 一些年轻的父亲下班后经常要到超市去买尿布 , 其中有 30 % 40 % 的人同时也买了啤酒 ; 超市因此把尿布和啤酒放在一起 , 明显增加了销售额。具体而言 , 关联 分析可用来挖掘数据中形如 a b 的关联 (如尿布 啤酒 ) , 其中 a b = , a 称为该规则的前 项 , b 称为后项。规则 a b 的支持度定义为 p r (a ) 1 , 置信度定义为 p r (b | a ) 。关联分析的目 的就是找出数据中同时满足给定的最小支持度阈值和最小置信度阈值的强关联规则。设 y为潜在顾客是否进行购买的 0 - 1 指示变量 , x 为所有可用于预测 y值的自变量 。下 面我们讨论三种可用于根据 x 预测 y的模型。(一 ) logistic回归。logistic回归假设 log p r ( y = 1 ) p r ( y = 0 )=t x。它的结果很容易解释 , 但它对对数优比 ( log odd sra tio)的线性假设在很多大型营销数据中并不成立。(二 )人工神经网络。最常用的前馈人工神经神经网络如图 1所示。其中 , 输入层的每个节点对应于 x 中的自 变量 , 输出层的节点对应于因变量 y, 在输入层和输出层之间是隐含层。隐含层和输出层的每 个节点都与其前一层的节点连接在一起 , 每个连接对应一个权重 (w ij或 w jy ) , 此节点的输出值 就是将它所有输入节点值的加权和作为一个激活函数的输入而得到 (如第一个隐含节点的输p出值为 f w i1 x i , 其中 f为激活函数 ) 。神经网络的一个缺点是结果很难解释。i = 1(三 ) c510决策树。决策树 (如图 2 )展示了在 x 满足什么条 件下 y取什么值这类规则。在利用决策树对 观测进行分类时 , 沿着决策树从上到下遍历 , 在每个节点根据某个自变量的取值到达不同 的分支 , 最后到达一个叶子节点 (如图 2 中的 y = 1 ) , 从而预测 r的取值。在图 2 所示的决1策树中 , 如果一个观测的 x ia1 且 x ia2 ,2那么预测这个观测的 y 值为 1。决策树结果 的可解释性好 , 易于理解。图 1 前馈神经网络示例通常 , 我们拥有对潜在顾客进行直邮营销的历史数据 , 其中既有顾客的自变量信息 , 也包 含因变量的真实值。我们把历史数据随机拆分成训练数据集 、修正数据集和测试数据集 。首 先 , 使用训练数据集初步建立对因变量的各种预测模型。然后 , 应用修正数据集对各种模型进 行评估 , 选定对于这些模型的最佳参数设置 , 并选择最佳的模型。接着 , 我们使用测试数据集1也有文献将支持度定义为 p r (a b ) , 即 a、b 在数据库存中同时出现的概率。我们使用 p r ( a ) 来定义支持 度 , 是为了和我们使用的分析软件 c lem en tine以及下文中的分析结果相一致 。对选出的预测模型进行最终评估 ; 由于测试数据集在模型建立、修正和选择过程中 未使用过 , 所以能客观地评估模型效果。 假设未来的销售情况与历史相似 , 我们可 以将选定的预测模型用于未来。112 直邮营销中的模型评估我们将预测模型根据潜在顾客自变量 信息对购买情况的预测结果与评估数据集 (修正数据集或测试数据集 )中购买的实际 情况进行对比 , 进行模型评估 。预测情况没有购买购买实际 情况没有购买n 00n 01 (第二类错误 )购买n 10 (第一类错误 )n 11预测模型对于潜在顾客可能存在两种 错误分类 :第一类错误将实际进行购买的 顾客预测为不会购买 , 而第二类错误将实 际没有进行购买的顾客预测为会购买。通 常我们更为关心的是减少第一类错误 , 因 为第一类错误的成本 (即顾客的购买金图 2 决策树示例表 1 无序矩阵示例额 )通常高于第二类错误的成本 (即生产、邮寄一份信件的成本 ) 。在对预测模型进行评估时 可使用如表 1所示的无序矩阵 , 其中 n 00 、n 01 、n 10和 n 11为顾客人数 。它显示模型的总体准确 度为 (n 00 + n 11 ) / (n 00 + n 01 + n 10 + n 11 ) , 第一类错误的概率为 n 10 / (n 10 + n 11 ) , 第二类错误的 概率为 n 01 / (n 00 + n 01 ) 。在评估预测模型时 , 还有一个很重要的概 念是提升率 ( lif t) 。图 3 是能体现提升率的无 累积响应图 。通过预测模型 , 我们可以预测评 估数据集中每一位顾客的购买概率 。图中的 横坐标表示选取购买概率最大的 x %的顾客 , 纵坐标表示这些顾客的响应率 , 即其中有 y % 的顾客实际进行了购买 ; 图中还有一条水平的 基线 , 表示评估数据集中顾客的总体响应率(即随机选择 x %的顾客进行邮寄的响应率 ) 。图 3 无累计响应图示例提升率即为无累积响应图中预测模型曲线上的响应率与基线响应率之比; 例如 , 在图 3 中 , 若 选择购买概率前 10 %的顾客 , 提升率为 60 % / 20 % = 3。2 应用实例2. 1 研究数据我们实例中的公司有 a、c、d、f、h、k、l、m 、t等销售部门 , 其中 d 部门是公司的主要销售 部门。数据以顾客为单位 , 包含关于 96551名顾客的“基期 ”和“报告期 ”两个时间段的信息。基期数据包含截至 x 日的顾客历史行为信息和个人背景特征 , 主要包含 :1. 汇总的及各部门的订单数量 、购买金额、购买产品的数量、r fm 5 分值;21距 x 日 6个月内、12个月内、24个月内、36 个月内的汇总的及各部门的订单数量和购 买金额;31顾客曾接触过的部门个数、顾客曾进行过购买的部门个数 ;41给顾客邮寄的产品总量、顾客在 f、t、c 三个部门取消预定的产品数量 、顾客在其他部 门取消预定的产品数量 、顾客退回的产品数量;51顾客付款方式 , 如使用各类信用卡的情况;61顾客的背景信息 , 包括顾客代码、性别、年龄、邮政编码等。 报告期数据记录了顾客对公司邮寄的 y月 ( x 日之后的某个月 ) d 部门产品目录的响应情况。所有顾客都经确认收到了这份产品目录 , 但只有 2146 %即 2371 位顾客购买了 y 月 d 部 门目录中的产品。我们将针对顾客在报告期是否购买 d 部门的产品建立预测模型 , 为 y 月之 后营销策略的实施提供参考。2. 2 数据筛选和分析准备我们首先删除了缺失率在 80 % 以上的变量 , 剩下有缺失值的两个变量缺失率分别为1123 %和 0113元 , 通过模型预测邮寄产品目录就会带来更大的营销收益 ( rm r t ) 。 我们建立的预测模型可应用于下一步的营销活动。最直接的应用是在下一次发放产品目录前 , 使用预测模型对顾客的购买概率进行预测 , 选择购买概率最大的小部分顾客进行邮寄。 预测模型的另一个应用是根据模型预测的购买概率进行市场细分 , 比如购买概率大于 70 % 、 位于 30 % 70 %之间、小于 30 %的顾客各为一类 , 然后再仔细考察各类顾客的特征。3 讨论在直邮营销中 , 通过数据挖掘方法对历史数据进行分析 , 能够提高营销收益 。在市场竞争 日益激烈的环境中 , 对历史积累客户数据库的有效利用将成为很多公司核心竞争力的重要组 成部分 , 非常希望我们的研究能为他们提供实战思路 。参考文献 1 b e rry, m. j. a. , l inoff, g. m a ste ring da ta m in ing: the a rt and sc ience of cu stom e r re la tion sh ip m anagem en tm . john w iley &son s, 2000. 2 h an j , kam be r. d a ta m in ing: concep ts and techn ique s m . mo rgan kaufm ann pub lishe rs, 2001. 3 r ip ley bd. pa tte rn r ecogn ition and n eu ra l n e two rk
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年上海中医药大学附属闵行晶城中学编外教师招聘考试参考试题及答案解析
- 2025河南郑州市郑东新区龙源小学招聘语文数学体育学科教师若干名考试参考试题及答案解析
- 2025年蚌埠市12345政务服务便民热线岗位招聘20名考试参考试题及答案解析
- 工具采购合同范本
- 股权分配拟合同范本
- 2025年药学专业药物配伍禁忌知识测试答案及解析
- 2025年全科医生全科诊疗实践操作答案及解析
- 2025中国能建葛洲坝二公司成熟人才招聘4人(湖北)备考练习试题及答案解析
- 代理办理证照合同范本
- 医药附加协议合同范本
- 海天注塑机全参数DOC资料全
- Test Plan Template:测试计划模板
- (完整版)三年级下册数学开学第一课ppt
- 苏教版四年级科学上册全册课件
- JJF1101-2019环境试验设备温度、湿度校准规范-(高清现行)
- 人教版新教材高中物理实验汇总及答案详解
- 中班语言《大狮子和小老鼠》课件
- TSG11-2020 锅炉安全技术规程
- 资助业务工作培训
- 《足球运动发展史》PPT课件
- IPQAM调制器操作说明书(共36页)
评论
0/150
提交评论