歌曲业务潜在用户模型(三季度)_第1页
歌曲业务潜在用户模型(三季度)_第2页
歌曲业务潜在用户模型(三季度)_第3页
歌曲业务潜在用户模型(三季度)_第4页
歌曲业务潜在用户模型(三季度)_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、歌曲下载业务 潜在用户模型 第第1 1页页 n 研究背景 n 建模过程 n 模型检验及应用 目录 第第2 2页页 2010-7-1 定义:歌曲下载是指为客户提供完整的、高品质的正版数字音乐的单曲,下载的音乐全部 是完整的,绝非高潮部分的试听版本的音乐。 特征: 提供完整、高品质的正版数字音乐;曲库丰富,歌曲更新快;资费低廉,付费灵活。 手机下载 电脑网站 下载 音乐随身听 渠 道 歌曲 下载 业务 渠道 和资 费 资 费 手机访问移动梦网 首页,进入“海量 mp3歌曲” 或直接访问 http:/wm.12530.c om/music; 通过登录 http:/mp3.12530.c om/,根据

2、网站提示 下载 下载音乐随身听客 户端,实现对音乐 的下载播放和管理 什么是歌曲下载业务? 单曲按次 下载 包月租赁 套餐 用户每下载一首歌曲, 收取一次费用;在文 件没有删除的情况下, 用户购买的音乐可以 无限制下载,13元/ 次 5元(包含可租赁50首歌 曲下载) 10元(包含可租赁200首 歌曲下载) 第第3 3页页 手机阅读业务发展目标 业务发展目标 提高业务收入扩大用户规模 提高活跃激活沉默增加黏性拉动新增 高活跃用户推荐客户端已有用户推荐偏好内容潜在用户推荐阅读业务 第第4 4页页 潜在用户挖掘流程 目标选择 用户群1:上月 歌曲下载活跃用 户5万 用户群0:近三 个月内无歌曲下

3、载、包月行为的 用户10万 逻辑回归 通过数据分析 和逻辑回归模 型,计算潜在 用户推荐指数 顺序选取 按推荐指数排 序,根据营销 目标按顺序选 择最值得推荐 的用户 具体 内容 两个用户群的用户做 对比分析,看有什么 不同的用户特征 计算潜在用户推荐 指数 按潜在用户推荐指数 决定入选优先级别 目 的 第第5 5页页 逻辑回归模型简介 logistic回归模型的一种最简单形式即所谓的二分类变量回归模型 相应变量是类如是否的一二分类变量(如是否流失、是否购买等) 连续概率转换函数为logistic函数,即: 采用极大似然方法获得相关参数的估计 模型的统计诊断也主要包括模型的拟合优度诊断以及回归

4、系数的显著性诊断两 个方面 logistic回归的评分是利用新样本的变量取值,通过上述的方程式计算相应 概率的过程,即: 其中: 逻辑回归模型定义 )1 (1)(log x exit )1 ( eep nnx bxbb 110 第第6 6页页 n 研究背景 n 建模过程 n 模型检验及应用 目录 第第7 7页页 研究方法 研究工具 使用clementine12.0完成选择变量和建模的过程。 对提取的15w用户数进行选择,选择全曲下载活跃用户5w用户,再选择不活跃 的约10w用户,两者比例为1:2的样本,其中一份用于建立逻辑回归模型,得出逻 辑回归计算公式用于预测;另一份用于根据逻辑回归模型进行

5、虚拟的预测,将预测结 果与实际情况进行比对以检验模型的准确性并优化模型。模型建成后对预测用户打分, 从而选择优质用户。 研究方法与研究工具 第第8 8页页 模型优化 4 模型建立 3 变量筛选 2 数据预处理 1 n数据需求分析 n数据抽样提取和数 据 核查 n 数据预处理 n 探索分析 n 建模属性分析 业务经验筛选 特征建模(卡方检验 等)筛选 数据质量筛选 相关分析筛选 wald显著性检验筛 选 n建立基于逻辑回归 算法的潜在用户预 测模型 建模方法选择:进 入法,逐步法等 模型类型选择:主 效应、全效应 n测试预测模型预测 效果 准确率 查全率 提升度 n 模型优化 属性分析方案优化

6、抽样比例优化 属性选择优化 数据准备建模和优化 逻辑回归的预测步骤 第第9 9页页 数据预处理步骤变量筛选及结果 业务经验筛选 特征建模筛选数据质量筛选相关分析筛选 wald显著性筛选 12345 n终端是否支持java n终端是否支持gprs 终端信息 全曲下载业务字段选择 基本信息 narpu n年龄 n区域归属类型 n是否集团成员 n品牌 n飞信用户标识 n来电提醒用户标识 业务订购 nmou n新业务费 n12530短信上行条数 n彩铃下载次数 ngprs流量费 nwap登陆次数 n数据业务费用 消费行为 第第1010页页 模型建立过程 使用clementine进行字段处理,建立逻辑回

7、归分析模型。 clementine流如下: 第第1111页页 模型建立过程 根据模型得出逻辑回归打分公式: 其中 = (-0.650)*豫通卡+1.687*本地通+(-5.125)*标准神州行+(-1.085)*全球通(预付费)+(-1.283)*动感地带 +(-0.514)*神州行亲情卡+(-0.147)*神州行乡情卡+(-0.474)*神州行休闲卡+(-0.573)*神州行大众卡 +1.080*(来电提醒用户标示=1)+(-0.007)*(集团成员标识=1)+(-0.088)*(是否飞信用户=1) +(-0.357)*(终端是否支持java=1) +0.190*(彩铃下载次数0 and 彩

8、铃下载次数10 and 彩铃下载次数50) +1.014*log(数据业务费用+1)+0.516*log(新业务费用+1) +0.697*(gprs费用10 and gprs费用30 and gprs费用70 and gprs费用150) +1.192*(wap登陆次数10 and wap登陆次数50) +0.163*(年龄20 and 年龄40 and 年龄60 and 年龄99) +(-0.147)*(arpu20 and arpu50 and arpu100 and arpu200 and arpu300) +(-1.209)*(mou0 and mou20 and mou50) +0.

9、359*(地域属性=县城)+0.010*(地域属性=城市) +2.415*(12530短信上行次数0 and 12530短信上行次数10 and 12530 短信上行次数50) +(-2.894) )1 ( eep 第第1212页页 n 研究背景 n 建模过程 n 模型检验及应用 目录 第第1313页页 预测模型收益评估较高 模型收益较高,尤其是对于潜在度较 高的用户,模型预测较为理想 n覆盖率图 纵轴为查全率,即筛选用户中 目标用户在候选用户中所有目 标用户中的占比,表明模型筛 选用户在候选用户中占比。这 个图说明模型筛选出50%的 用户可以预测到接近目标用户 的90% 第第1414页页 预

10、测模型准确率检验 卡方系数自由度显著性 步骤16 步骤44336.144 410.000 块44336.144410.000 模型44336.144410.000 其中卡方概率的取值小于 0.05(缺省的显著性水平), 由此可以推断自变量整体对因 变量有显著的解释能力,模型 整体拟合较好。 results for output field 是否全曲下载活跃用户 comparing $l-是否全曲下载活跃用户 with 是否全曲下载活跃用户 分区测试数据-用户1正确率 correct1851373.28% wrong675026.72% total25263 用测试的数据对模型进行检 验,用户群为全曲下载活跃用 户,共25263户,模型准确预 测到18513户,准确率达到 73.28%,模型具有可用性。 第第1515页页 模型的应用 模型结果落地 根据逻辑回归的结果计算所有用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论