巴川企业用户行为挖掘与特殊工程_第1页
巴川企业用户行为挖掘与特殊工程_第2页
巴川企业用户行为挖掘与特殊工程_第3页
巴川企业用户行为挖掘与特殊工程_第4页
巴川企业用户行为挖掘与特殊工程_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、企业用户行为挖掘与特征工程竞技世界()网络技术巴 川# of37l 用户行为挖掘的本质是从大数据中寻找用户行为规律,但其目的往往是从用户口袋里挖钱。l 用户行为挖掘帮助企业拉新、促活、创收。2016/12/1322of36l 特征工程是将原始数据转换为更好地表达根本问题的数据特征的处理过程。l 基于特征, 我们可以建立更为精准和优雅的模型。3of364 of 3601 用户行为路徂02 用户搜索网络03 用户挽留与用户行为路徂5of3601(一)整体可以更直观地观测:l 用户l 用户的主要跳转路徂及变化趋势的主要页面节点及变化趋势l 异常页面及异常路徂出乎意料的更有价值!eg:某日用户路徂云图

2、。6of36All page7of36主要发现egp: 壁纸详情页单个页面的非常高,因此可用行为路徂云图查看其来源。8of36斱便找出主要节点、路徂或异常节点路徂。(二)单个页面来源分析主要观测某个页面的跳转来源:l 监测主要的来源页l 发现异常高来源页l 发现出乎意料低的来源页eg:刚才异常高的壁纸详情页的跳转来源。9of36To picture_wallpaper_10 of36主要发现过滤较小边乊后可发现来源最多的四个页面为: pictures_album picture_categorie_hot picture_wallpaper_new search_result_pictures

3、除了图片资源内部跳转,从搜索过来的较多。11 of36(三)单个页面去向分析主要观测某个页面的跳转去向:l 发现用户更习惯从当前页面去向哪里l 找出与设计刜衷不符的用户习惯,进行改进eg:某版本的首页apps_featured跳转去向。12 of36From app_featured13 of36主要发现过滤较小边之后可发现除自身跳转外从首页去向最多的是:l 功能类的slide、downloadmanagerl 搜索类的search_guide_appsl 资源类的app_top、_hot14 of36(四)行为分析l 观测某个资源模块的来源l 观测资源模块内某个页面的来源l 观测用户在资源模

4、块内的跳转行为习惯eg:以增长迅速的music模块为例。15 of36To music16 of36主要发现过滤较小点乊后发现音乐模块来源最多的页面为: Home Downloadmanager search_result_music到达最多的页面: music_albumlist music_album亦可单独分析某页面的来源和去向17 of36123用户搜索网络18 of3602用户搜索观星台l 更直观地了解用户搜索偏好l 对相同偏好用户进行社团划分l 用搜索词对社团内用户打l 发掘搜索热点相关l 观测用户变化趋势l 亦可用来观测活跃用户19 of36(一)站点乊星eg:站某日用户搜索数据

5、。20 of3621 of36主要发现在,、仍然比较流行1词依然较热:hot sex、sex games等2视听类比较流行:、mx player、tv等3UC浏览器在有一定市场:UC blowser4同社团内的用户偏好趋同:图中最小节点为用户5同社团内的搜索词相关性较高:如与tubemate、6bangbang与music player、flipkart与amazon等其他热点:flshtransfer、gta、full games722 of36(二)斗转星移l 观测用户变化趋势l 数据源:巴西站用户搜索数据l 日期:2014年10月4日、10月7日、10月14日23 of36BR20141

6、00424of36BR2014100725 of362014101426 of36主要发现词总是比较热门巴西人民爱足球eg:pes2012、 pro evolution soccer2012也爱动感音乐eg:passinho doramano、 bonde malucoeg:prono、xs也有本地流行eg:jogo do halo二级热点切换较快(更有价值!)eg:4日dragon ball、7日angary bird、14日pes2012有世界流行eg:minecraft、27 of36用户挽留与28 of3603用户流失预警1、目标变量定义30天不登录?7天不登录?30天无时长?7天无时

7、长?3、时间窗确定观察期表现期缓冲期5、特征选择相关变量剔除零斱差变量剔除7、模型评估查全率提升度泛化能力2、目标用户群日活用户? 周活用户? 月活用户? 新老用户? 零值用户?4、特征工程基础变量6、模型选择逻辑回归随机森林SVM等等8、数据输出用户流失概率相关特征衍生变量29 of36刷金用户识别1、数据平衡训练集:某一天日活用户一 内被封的刷金用户测试集:一段时间内每天的日活用户+被封的刷金用户3、模型选择逻辑回归随机森林SVM等等5、刷金用户7、过滤正常用户过滤掉正常用户过滤掉得到用户中的疑似正常用户找到刷金用户2、特征工程平台日聚合特征游戏路徂特征比赛行为特征4、初期嫌疑用户具有刷金

8、倒金行为的刷子用户与刷子有同样行为的正常用户6、相似度扩展相似度计算硬件地址异同8、刷金用户最终的刷金用户名 单会进入生产系统, 由运营30 of36算法的纠结与平衡33of36P值查全率0.990.67%21.58%0.887.79%28.84%0.783.14%36.28%0.679.56%65.10%0.575.46%76.08%0.467.79%86.35%0.255.72%94.79%算法的纠结与平衡33of36P值查全率0.990.67%21.58%0.887.79%28.84%0.783.14%36.28%0.679.56%65.10%0.575.46%76.08%0.467.79%86.35%0.255.72%94.79%算法的纠结与平衡33of36P值查全率0.990.67%21.58%0.887.79%28.84%0.783.14%36.28%0.679.56%65.10%0.575.46%76.08%0.467.79%86.35%0.255.72%94.79%不平衡数据过采样、欠采样、SMOTE?关亍和查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论