



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2016/5/26基于Spark框架的美团用户品类偏好预测模型 - 移动数据挖掘项目 - 知识库基于Spark框架的美团用户品类偏好预测模型创建: 王剑 X,最新修改于: 七月 30, 2014项目描述在亦平之前做的用户偏好的模型User 率并开放给主站使用等。Segmentation上做一些改进以适用于新的需求,能提供用户较长时间内的品类偏好、加入新的feature提高准确模块设计1、从HDFS中读取数据,可以通过参数设置表名和起始、终止时间2、从购买数据中对用户打label,可输入品类id集合确定label规则3、利用Spark mllib 1.0中的LR模型training model,
2、并把结果存储在HDFS文件中,下次用时直接load到内存中即可4、把新增用户的feature数据输入到内存的模型中,预测用户购买概率输出报表(目前用户购买概率预测结果存储在ns_mobile.user_cate_interest, 按日期分区,二级品类id,但现在数据预测不是很准确,模型还在调试,只有20140728那天有数据,若有具体需求请找RD具体沟通)可复用模块1、BuildFeature模块,此模块可以根据数据的HDFS文件路径去读取表数据,若原表是按时间分区,也可输入起始和截止日期,对一些时间敏感的feature也可按时间衰减加和,半衰期可修改。分布式计算框架在计算能力和处理速度上都
3、有极大提高,单机C+处理4天数据需要几个小时,现在30 天数据20分钟左右2、数据预处理模块,此部分可对feature进行采样、过滤、去除异常数据、归一化处理等3、Spark封装模型,目前我们只提供了Spark下的LR模型封装,原始SparkLR模型只提供0、1分类值,我们进行了进一步封装,将计算出的概率值暴露出来,并提供了toString和load函数,这样有需要时可以把训练后的模型存在HDFS上,要用时通过load函数存到内存中对测试数据进行预测这个项目的源码库:/users/wangjian08/repos/spark_userinterest/
4、browse现在一些模块设置还不够灵活,用起来可能不太方便,但package 些模型参数的设置可参考mllib的源码mt.spark.scala.classification下的LR模型是可用的,我们只进行了简单的封装,一数据参数训练集数据:20140617到20140716的用户浏览(mart_mobile.deal_visit_daily),下单(detail.usersequence),筛选(mart_mobile.category_visit_daily)数据打label数据:20140717到20140723的下单记录训练集数量 31320421 个用户测试集数据:20140620到
5、20140719的用户浏览(mart_mobile.deal_visit_daily),下单(detail.usersequence),筛选(mart_mobile.category_visit_daily)数据打label数据:20140720到20140726的下单记录测试集数量 31376707 个用户一级品类id:/pages/viewpage.action?pageId=866206371/5品类id品类名称 pos sampleneg samplebalanced pos samplebalanced neg samplethreshol
6、d实际购买 预测购买 buy_recallbuy_precise2016/5/26基于Spark框架的美团用户品类偏好预测模型 - 移动数据挖掘项目 - 知识库/pages/viewpage.action?pageId=866206372/5217旅游111860430201817111860411203240.511293291162823053.6%5.2%5商品332099727999424332099733213970.53318216819963135.7%14.4%206运动健身185501729465404185501718545850
7、.518709281076361450.6%8.9%6活动单735581305848407355817366570.57303841270288858.3%3.4%2美发/ 美容/416641527154006416641541668890.541724881116151956.6%21.1%208电影126928911862753012692891186275300.5128181311103122949.2%57.1%226美食208427011047772010479713104777200.5208876281300002648%77.1%3休闲娱乐118853241943509711
8、885324118846290.5119101481499149354.9%43.7%209酒店714857624171845714857671482440.571595321173081556.5%34.5%207摄影112515730195264112515711245150.51123513823085644.2%6%4生活服务228495429035467228495422856000.522969811135202751.6%10.4%217旅游111860430201817111860411203240.811293294098577.5%20.7%5商品3320997279994
9、24332099733213970.83318216225310.2%25.7%206运动健身185501729465404185501718545850.818709284186080.8%36.7%6活动单735581305848407355817366570.873038446050.1%19.6%2美发/ 美容/416641527154006416641541668890.8417248878692810.9%57.7%208电影126928911862753012692891186275300.81281813112088447.3%77.7%226美食208427011047772
10、010479713104777200.8208876284958452.2%93.7%3休闲娱乐118853241943509711885324118846290.8119101484619793%77.8%209酒店714857624171845714857671482440.871595329743339.3%68.5%207摄112515730195264112515711245150.811235132427435.6%25.7%2016/5/26基于Spark框架的美团用户品类偏好预测模型 - 移动数据挖掘项目 - 知识库二级品类(部分):
11、/pages/viewpage.action?pageId=866206373/5品类id品类名称 pos sampleneg samplebalanced pos samplebalanced neg samplethreshold实际购买 预测购买 buy_recallbuy_precise249蛋糕/ 甜点/ 饮品817347023146951817347081717680.58208688997087845.4%37.4%10小吃421386327106558421386342158860.542560271004304064.2%27.2%174西北菜6557133066470865
12、57136563690.5657219622132648.9%5.1%52电影票兑换券126475451867287612647545186728760.5127714711099160649%57%38美发269188928628532269188926902350.526928991080387854.8%13.7%166一星级588020025440221588020058816700.558823751490479163%24.9%11快餐406782827252593406782840674330.54092473981192958.4%24.4%51KTV7497534238228
13、87749753474928550.575061631352602155.7%30.9%249蛋糕/ 甜点/ 饮品817347023146951817347081717680.88208688513950.4%76.3%10小吃421386327106558421386342158860.84256027154783722.5%61.8%174西北菜655713306647086557136563690.865721930124715.5%33.9%52电影票兑换券126475451867287612647545186728760.81277147111885607.2%77.5%38美发26
14、9188928628532269188926902350.8269289958342610.8%50%166一星级588020025440221588020058816700.858823757607117.9%61.3%11快餐406782827252593406782840674330.84092473115966016.1%56.9%51KTV749753423822887749753474928550.875061639329148.4%67.9%影4生活服务228495429035467228495422856000.822969811200582%38%2016/5/26基于Spa
15、rk框架的美团用户品类偏好预测模型 - 移动数据挖掘项目 - 知识库不分品类,用30天的数据预测未来7天用户是否会在美团下单的概率:分析预测值区间下单用户数用户数下单比例项目进展前期计划改进内容(按计划先后顺序,将来若有具体进展会补充进来):表结构介绍已上线报表:ns_mobile.pagetrack_user_actions和ns_mobile.pagetrack_uuid_actions,两张表结构相同,只是主键有区别/pages/viewpage.action?pageId=866206374/5列名 注释 改进内容 状态 基于移动端用户浏览行
16、为挖掘出用户在某些特定页面或品类上的浏览时间及 占比,可作为新的feature (此feature由于底层品类策略变化暂不可用)用户页面停留时间和在品类、地理位置、时间段上聚合统计的MR代码已开发完成,准备上线,相关ETL流程已上线,但属于 新开发的feature,历史数据很少,且不适合回跑数据。上线后对数据要进行进一步处理,以适合输入到模型的格式相关报表已上线:ns_mobile.pagetrack_user_actions和ns_mobile.pagetrack_uuid_actions,按dt分区由于typeid体系修改,停留时间数据也要修改,具体实行时间待 定目前模型打label和计算
17、全是在单机上进行,时间截取长度为4+2天,维度包括deal浏览,deal下单,搜索(显式的搜索关键词,隐式的选择品类、商圈和deal排序方式)等等,若加入新的feature或延长时间截取长度,计算时间会成为瓶颈。移到分布式计算平台上计算,剞劂计算瓶颈。在Spark上用Scala设计开发了计算框架,并利用mllib1.0中的LR 模型进行预测,用30天的浏览、购买和筛选数据预测未来7天的购买概率提供可复用代码模块开放基于Spark开发的scala代码模块,供大家共同使用0.00.13564050.879010.10.27238720.829130.20.3243128620.849410.30.
18、413312159030.837070.40.59011259103381520.871650.50.615236140183761760.829120.60.7177713619026920.934010.70.84750844995070.951110.80.91643061714650.958250.91.065797686730.95812Threshold实际购买 预测购买 buy_recallbuy_precise0.5267465442101851366.2%84.3%0.8267465442401380.86%95.8%2016/5/26基于Spark框架的美团用户品类偏好预测模型 - 移动数据挖掘项目 - 知识库6人赞了它无标签 赞5 评论张彬 发表: 了解一下,用户页面停留时间是怎么得出的?通过在页面埋点来追踪?王剑 X 发表: 用户每浏览一个页面都会有一个时间戳,相邻两个页面的时间差就是在这个页面的停留时间韩隽 发表: 会把超长的去除么王剑 X 发表: 如果用户在一个页面停留时间超过10分钟就不记录在内了王剑 X 发表: 页面下拉时当做刷新, 分钟。会记录成一个新的页面,不同的offeset,所以我们定义的10分钟而不是sess
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版航空航天样品采购与研发合同
- 二零二五年度豪华汽车买卖合同模板
- 二零二五版旅游车抵押租赁合作协议
- 二零二五年度比亚迪汽车购置升级服务合同
- 2025年高科技项目pc吊装劳务合作合同
- 二零二五年度茶叶种植基地租赁合同样本
- 2025届安徽省舒城一中物理高一下期末达标测试试题含解析
- 二零二五年仓储物流园区物业管理与安全评估合同
- 二零二五年度高档餐厅设备租赁及服务承包合同
- 二零二五年度茶叶礼品定制销售合同
- 大学英语六级词汇表(全)含音标
- 高中物理磁场-超牛课件
- 2023年海口市自然资源局事业单位招聘考试笔试模拟试题及答案解析
- GA/T 1323-2016基于荧光聚合物传感技术的痕量炸药探测仪通用技术要求
- 2023年苏州国发创业投资控股有限公司招聘笔试题库及答案解析
- 护士注册健康体检表下载【可直接打印版本】
- 高中历史《第一次工业革命》说课课件
- 学生集体外出活动备案表
- DNF装备代码大全
- 基于Qt的俄罗斯方块的设计(共25页)
- 食堂投诉处理方案
评论
0/150
提交评论