版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于用户画像的大数据挖掘实践2014年11月杨步涛2014中华架构师大会基于用户画像的大数据挖掘实践杨步涛2014中华架构师大会纲要沃商店定位2沃商店大数据体系架构3用户画像建设4个性化推荐5广告6用户画像的其他应用实例纲要沃商店定位沃商店定位2013年中国手机应用分发总量快速上升,其中应用商店的分发量占比超过80%;TOP10渠道占总分发量的90%。2013年中国手机游戏市场近100亿元,2014年预计将达到180亿元。
多款优质手游月流水超过5000万元。运营商通信账户SDK支持APP应用内付费,提升付费转换率,从不足5%提升至20%以上。话费支付的便捷优势机遇期短暂仅1-2年,移动互联网支付的替代转瞬即至。内容分发平台能力开放平台游戏运营平台2沃商店定位沃商店定位2013年中国手机应用分发总量快速上升,沃商店大数据架构体系离线计算数据存储实时离线FTPHDFSMRHIVESqoopFumeNG数据采集数据处理存储层建模站内KafkaZookeeperStorm实时计算HbaseMysqlRedis数据可视化GangliaSparkNagiosOzzie监控管理调度特征工程机器学习算法库能力开放应用用户画像/分群流量经分个性化推荐广告分类/回归聚类主题预测LogServerCPGGSNBSSDM非结构化结构化降维优化PUSH沃商店大数据架构体系离线计算数据存储实时离线FTPHDFSM特征工程—用户画像基本维度性别、年龄、地域、终端、网络、渠道、机型…兴趣、标签维度商业维度影音、生活、社交、金融、阅读、儿童亲子…转化、新老用户、频次、付费次数、ARPU、通信消费、信用等级语义挖掘行为标注引擎网络爬虫引擎知识库自我学习结构化沃商店、CP数据开放智能推荐PUSH流量广告经分预测用户画像非结构化特征工程—用户画像基本维度性别、年龄、地域、终端、网络、兴趣用户画像—行为标注结构化数据:网站-动作-对象(名称、分类、标签)行为标注引擎URL规则库内容对象知识库网页内容爬虫引擎网站知识库URL解析标注语义特征抽取URL字符串/item.htm?spm=a230r.1.14.42.xaurJi&id=38799101147&abbucket=13/14/1107/15/AAF5A98J00254IU4.html淘宝-浏览-(雀巢2段,婴幼儿-奶粉,奶粉、雀巢、、)网易-浏览-(财经-证券,、、)用户画像—行为标注结构化数据:行为标注引擎URL内容对象网页用户画像—网页文本分类特征预处理、特征筛选(降维)支持向量机SVM结构风险最优化
非线性(核函数、松弛变量)
1对1方式多分类支持评估:准确率、召回率、F1算法准确率(P)召回率(R)F1朴素Bayes85%86.2%85.5SVM92%93%92.4用户画像—网页文本分类特征预处理、特征筛选(降维)算法准确率用户画像—兴趣建模行为权重时间衰减热度衰减活跃度衰减xxx归一化2Action[浏览
QQ、20141028]0.336Action[下载
彩票、20141027]0.21632用户画像—兴趣建模行为权重时间衰减热度衰减活跃度衰减xxx归用户画像应用实践个性化推荐广告信用等级分群用户流失预警游戏潜在用户群体筛选异常监控分析用户画像应用实践个性化推荐推荐—应用场景首页推荐
应用详情推荐
猜你喜欢广告用户粘性转化率推荐—应用场景首页推荐个性化推荐—平台架构特征-内容用户-特征离线Jacarrd/cosine/CF/contentBase/FPGrowth/LDA/LR/DT算法库场景在线10010触点PC无线意图(聚焦、发散)+画像融合过滤排序用户行为(反馈)推荐效果验证A/BTestingF1RMSEAUCPUSH数据存储中心
Hadoop
Hive
HbaseMysqlredis任务调度中心
建模内容质量评分索引model模型规则模型训练相似度User(f1,f2,f3,…)内容候选用户行为应用库(类别、标签)语义分析关联计算配置管理监控个性化推荐—平台架构特征-内容用户-特征离线个性化推荐—算法Content-BasedItemBased-CFModel-Based稀疏apppTopic分布语义分析LDA基于KL距离推荐语义相关应用冷启动来源融合新颖推荐精度活跃用户聚类模型Category个性化推荐—算法Content-BasedItemBased基于语义相关推荐
—应用主题抽取
PLSAEM无p(z|d)的生成概率模型容易过拟合LDAGibbs参数少,过拟合风险小新文档处理能力强基于语义相关推荐—应用主题抽取PLSA算法融合—调整前分类兴趣关联协同过滤最新最热语义相似合并排序结果集
权重=0.3权重=0.2反馈调整人工对权重的调整,很难把控新加入特征难以快速设置特征ABtest如何确定各个模型、特征的权重?商业规则算法融合—调整前分类兴趣关联协同过滤最新最热语义相似合并排序算法融合—改进后候选集model1model2model3scoreApp10.20.540.7App20.320.60.5LogicRegression权重系数:学习隐藏在用户群体行为背后的规律算法融合—改进后候选集model1model2model3s个性化推荐—效果评价PV转化率(CTR*CVR),效果提高30%个性化推荐的下载量占比21%非个性化个性化30+%个性化推荐—效果评价PV转化率(CTR*CVR),效果提高3广告公式:ctr*Bid
ctr=click/PV缺点:冷启动、缺少个性化诉求广告广告—改进算法公式:pCTR*BidpCTR:p(click|ad,user)基于LR的点击预估模型
点击=1,不点击=0
点击的概率
广告—改进算法公式:pCTR*Bid广告—特征抽取特征
用户profile(活跃度、性别、年龄、标签)、
广告(广告质量、历史点击率、新颖性)、
CP、
用户和广告交叉主题特征广告—特征抽取特征广告—样本和特征处理样本选择去噪、样本抽样特征处理归一化离散化、交叉泛化能力正则化(惩罚)
L1,使得大量无效特征权重为0
L2广告—样本和特征处理样本选择特征处理冷启动、稀疏
用户标签特征筛选(降维)广告—特征处理(续)UserProfile(标签)train点击Advert降维(LDA)用户对广告主题偏好用户主题偏好模型广告本身特征点击率预估模型train计算f1f2..fnClick,PV选取对点击PV贡献最大的特征TopNp(topic|u)p(c|u,ad)特征处理广告—特征处理(续)UserProfiletrain广告—LR参数优化参数估计优化:
L-BFGS
linesearch确定步长,无须手动选择,
利用有限内存近似BFGS,
利用历史值和梯度寻找当前方向(Twoloop),实现快速迭代广告—LR参数优化参数估计优化:广告—效果评估产品层面
算法层面
AUC
对于CTR高的广告,
预测的是否也高?广告—效果评估产品层面小结
算法、数据、人机交互
小结用户信用等级分群出账信息入网时间入网套餐价格预付/后付月流量消耗号码归属地支付消费频次消费金额支付成功率……欠费情况客服情况L1L2L3…LN基本算法K-meansRF用户信用等级分群出账信息入网时间入网套餐价格预付/后付月流量模型特征用户流失预警TrainingSetLabel(是否流失TestingSetpredict活跃度、登陆情况、下载情况、预装机情况、机型、….10月份流失的用户,分析其前3个月的行为数据潜在的流失用户针对可能流失的用户做PUSH推广活动基本算法GBDT模型用户流失预警TrainingSetLabel(是否流失游戏潜在用户群体分析全量用户画像库特征分解U(f1,f2,f3,f4,…..)模型训练以在应用或者游戏中产生转化(注册、付费)的这些用户作为训练正样本,结合用户特征进行模型训练,从用户画像库中筛选出潜在的用户群体,推荐给CP,通过PUSH做相关的营销活动潜在群体预测p(c|u)基本算法LogicRegression游戏潜在用户群体分析全量特征分解模型训练以在应用或者游戏中产异常监控—Storm流计算logspoutlog数据实时汇集boltboltStorm实时计算boltflumemysqlHBaseredisCP站内httpLogserverweb服务展示告警邮件页面websocket规则推送轮询人工专家数据挖掘离线HDFS反馈制定规则存储流数据暂存/结果定时定量MQ异常监控—Storm流计算logspoutlog数据bolt异常监控和分析—离群点分析异常检测刷机诊断
基于规则(IFELSE):依赖经验,调整繁琐,准确度低基于模型:
利用用户刷机的一些行为特征和数据
进行模型训练,结合模型来判断当前是否刷机异常监控和分析—离群点分析异常检测招聘我的blog:/yangbutao我们招聘:Hadoop/Hbase/Spark开发算法工程师数据挖掘工程师…招聘我的blog:基于用户画像的大数据挖掘实践2014年11月杨步涛2014中华架构师大会基于用户画像的大数据挖掘实践杨步涛2014中华架构师大会纲要沃商店定位2沃商店大数据体系架构3用户画像建设4个性化推荐5广告6用户画像的其他应用实例纲要沃商店定位沃商店定位2013年中国手机应用分发总量快速上升,其中应用商店的分发量占比超过80%;TOP10渠道占总分发量的90%。2013年中国手机游戏市场近100亿元,2014年预计将达到180亿元。
多款优质手游月流水超过5000万元。运营商通信账户SDK支持APP应用内付费,提升付费转换率,从不足5%提升至20%以上。话费支付的便捷优势机遇期短暂仅1-2年,移动互联网支付的替代转瞬即至。内容分发平台能力开放平台游戏运营平台32沃商店定位沃商店定位2013年中国手机应用分发总量快速上升,沃商店大数据架构体系离线计算数据存储实时离线FTPHDFSMRHIVESqoopFumeNG数据采集数据处理存储层建模站内KafkaZookeeperStorm实时计算HbaseMysqlRedis数据可视化GangliaSparkNagiosOzzie监控管理调度特征工程机器学习算法库能力开放应用用户画像/分群流量经分个性化推荐广告分类/回归聚类主题预测LogServerCPGGSNBSSDM非结构化结构化降维优化PUSH沃商店大数据架构体系离线计算数据存储实时离线FTPHDFSM特征工程—用户画像基本维度性别、年龄、地域、终端、网络、渠道、机型…兴趣、标签维度商业维度影音、生活、社交、金融、阅读、儿童亲子…转化、新老用户、频次、付费次数、ARPU、通信消费、信用等级语义挖掘行为标注引擎网络爬虫引擎知识库自我学习结构化沃商店、CP数据开放智能推荐PUSH流量广告经分预测用户画像非结构化特征工程—用户画像基本维度性别、年龄、地域、终端、网络、兴趣用户画像—行为标注结构化数据:网站-动作-对象(名称、分类、标签)行为标注引擎URL规则库内容对象知识库网页内容爬虫引擎网站知识库URL解析标注语义特征抽取URL字符串/item.htm?spm=a230r.1.14.42.xaurJi&id=38799101147&abbucket=13/14/1107/15/AAF5A98J00254IU4.html淘宝-浏览-(雀巢2段,婴幼儿-奶粉,奶粉、雀巢、、)网易-浏览-(财经-证券,、、)用户画像—行为标注结构化数据:行为标注引擎URL内容对象网页用户画像—网页文本分类特征预处理、特征筛选(降维)支持向量机SVM结构风险最优化
非线性(核函数、松弛变量)
1对1方式多分类支持评估:准确率、召回率、F1算法准确率(P)召回率(R)F1朴素Bayes85%86.2%85.5SVM92%93%92.4用户画像—网页文本分类特征预处理、特征筛选(降维)算法准确率用户画像—兴趣建模行为权重时间衰减热度衰减活跃度衰减xxx归一化2Action[浏览
QQ、20141028]0.336Action[下载
彩票、20141027]0.21632用户画像—兴趣建模行为权重时间衰减热度衰减活跃度衰减xxx归用户画像应用实践个性化推荐广告信用等级分群用户流失预警游戏潜在用户群体筛选异常监控分析用户画像应用实践个性化推荐推荐—应用场景首页推荐
应用详情推荐
猜你喜欢广告用户粘性转化率推荐—应用场景首页推荐个性化推荐—平台架构特征-内容用户-特征离线Jacarrd/cosine/CF/contentBase/FPGrowth/LDA/LR/DT算法库场景在线10010触点PC无线意图(聚焦、发散)+画像融合过滤排序用户行为(反馈)推荐效果验证A/BTestingF1RMSEAUCPUSH数据存储中心
Hadoop
Hive
HbaseMysqlredis任务调度中心
建模内容质量评分索引model模型规则模型训练相似度User(f1,f2,f3,…)内容候选用户行为应用库(类别、标签)语义分析关联计算配置管理监控个性化推荐—平台架构特征-内容用户-特征离线个性化推荐—算法Content-BasedItemBased-CFModel-Based稀疏apppTopic分布语义分析LDA基于KL距离推荐语义相关应用冷启动来源融合新颖推荐精度活跃用户聚类模型Category个性化推荐—算法Content-BasedItemBased基于语义相关推荐
—应用主题抽取
PLSAEM无p(z|d)的生成概率模型容易过拟合LDAGibbs参数少,过拟合风险小新文档处理能力强基于语义相关推荐—应用主题抽取PLSA算法融合—调整前分类兴趣关联协同过滤最新最热语义相似合并排序结果集
权重=0.3权重=0.2反馈调整人工对权重的调整,很难把控新加入特征难以快速设置特征ABtest如何确定各个模型、特征的权重?商业规则算法融合—调整前分类兴趣关联协同过滤最新最热语义相似合并排序算法融合—改进后候选集model1model2model3scoreApp10.20.540.7App20.320.60.5LogicRegression权重系数:学习隐藏在用户群体行为背后的规律算法融合—改进后候选集model1model2model3s个性化推荐—效果评价PV转化率(CTR*CVR),效果提高30%个性化推荐的下载量占比21%非个性化个性化30+%个性化推荐—效果评价PV转化率(CTR*CVR),效果提高3广告公式:ctr*Bid
ctr=click/PV缺点:冷启动、缺少个性化诉求广告广告—改进算法公式:pCTR*BidpCTR:p(click|ad,user)基于LR的点击预估模型
点击=1,不点击=0
点击的概率
广告—改进算法公式:pCTR*Bid广告—特征抽取特征
用户profile(活跃度、性别、年龄、标签)、
广告(广告质量、历史点击率、新颖性)、
CP、
用户和广告交叉主题特征广告—特征抽取特征广告—样本和特征处理样本选择去噪、样本抽样特征处理归一化离散化、交叉泛化能力正则化(惩罚)
L1,使得大量无效特征权重为0
L2广告—样本和特征处理样本选择特征处理冷启动、稀疏
用户标签特征筛选(降维)广告—特征处理(续)UserProfile(标签)train点击Advert降维(LDA)用户对广告主题偏好用户主题偏好模型广告本身特征点击率预估模型train计算f1f2..fnClick,PV选取对点击PV贡献最大的特征TopNp(topic|u)p(c|u,ad)特征处理广告—特征处理(续)UserProfiletrain广告—LR参数优化参数估计优化:
L-BFGS
linesearch确定步长,无须手动选择,
利用有限内存近似BFGS,
利用历史值和梯度寻找当前方向(Twoloop),实现快速迭代广告—LR参数优化参数估计优化:广告—效果评估产品层面
算法层面
AUC
对于CTR高的广告,
预测的是否也高?广告—效果评估产品层面小结
算法、数据、人机交互
小结用户信用等级分群出账
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农业技术培训对农户生产行为的影响研究意义
- 棒球教练投球姿势安全教育培训
- 家庭丝绸被芯正确晾晒指南
- TC260-005 人工智能应用伦理安全指引1.0
- 2026年河北省唐山市中考英语一模试卷(含详细答案解析)
- 【高中语文+】《哈姆莱特》课件+统编版高一语文必修下册
- 2025年省级行业企业职业技能竞赛(水轮发电机组值班员)考试题及答案(辽宁省)
- 公路水泥混凝土路面施工技术细则
- 粮食仓储质量检验员岗位实训教材
- 2025年公共卫生监督执法技能竞赛(公共场所卫生监督)全真模拟试题及答案
- 《纺织材料的基础概念》课件
- 第一章体育与健康基础知识 第一节 科学发展体能 课件 2024-2025学年人教版初中体育与健康八年级全一册
- 2025年浙江宁波市粮食收储有限公司招聘笔试参考题库含答案解析
- 二零二五年度高校毕业生论文保密及知识产权保护协议3篇
- 12J201平屋面建筑构造图集(完整版)
- DB21-T 4052-2024 统筹共享卫星遥感影像数据生产技术规程
- 【MOOC】方剂学-河南中医药大学 中国大学慕课MOOC答案
- Profinet(S523-FANUC)发那科通讯设置
- 2024年河北省中考数学试题含答案
- 高中名校自主招生考试数学重点考点及习题精讲讲义下(含答案详解)
- DL∕T 5344-2018 电力光纤通信工程验收规范
评论
0/150
提交评论