用户行为数据分析PPT课件_第1页
用户行为数据分析PPT课件_第2页
用户行为数据分析PPT课件_第3页
用户行为数据分析PPT课件_第4页
用户行为数据分析PPT课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于海量用户行为数据分析的互联网增值新业务What WhyandHow What 要作什么事 对每个宽带用户的每次浏览网页行为进行记录 在海量的数据记录上分析用户的浏览习惯 兴趣爱好 关注焦点等 对用户进行全方位的 画像 按用户属性和行为特征对全部宽带用户进行聚类和精细化的客户群划分 依托运营商平台 利用网络广告 直投 个性化内容推送等手段对宽带用户进行 一对一 的精准营销 What图解 用户上网的历史行为 用户属性和行为特征 男性年龄25 35岁来自北京 海淀 上地IT从业人士热衷科技产品NokiaN95用户中高端消费等级喜欢户外运动和旅游追求奢侈品 What图解 续 客户群A 客户群B 客户群C 客户群D 客户群E 客户群F 用户标识和特征 用户精细划分 精准营销 Why 为网通带来新价值 精准广告收入合作模式 与网络广告商 传统广告商 SP 广告联盟分成 精准的用户属性将大幅度提高广告的价值 让每一次PageView都变成金子自营模式 个性化内容推送 例子 一对一 的个性化号百和12580 想用户所想 急用户所急直销 DM 分成收入 与最终厂商合作提升ARPU值 快速拓展新用户采用精准的营销策略带动用户升速 分析升速用户的行为习惯 什么样的用户需要升速 什么样的SP会吸引升速用户 通过DM捆绑销售和优惠的接入价格快速拓展新用户 在新竞争格局中领先一步 形成良性的循环 更低的接入价格带来更多的用户 获得更多的增值业务收入 How HyperCloud解决方案 技术架构核心处理算法演示ROI分析 低成本和可靠的海量存储子系统 平滑可扩展的分布式运算子系统 高吞吐率的运营服务子系统 低成本和可靠的海量存储子系统 多级别存储 成本降到300 TB无需RAID支持 保证99 9 可用性多元数据服务器 管理亿级数量文件可在线扩展至PB级规模 条带化存储 多数据通路聚合支持对象存储 OSD 接口I O缓存 平滑可扩展的分布式运算子系统 3M架构 借鉴Google的分布式计算架构 针对海量数据挖掘的需求对单点性能和多点负载均衡作最大限度的优化Key ValueQuerywithMemoryCache突破Key ValueQuery的瓶颈 单点上亿条规模Key Value对的查询时间小于200ms 传统DB的1 20 Dell1950DualQuad Core 3 0GhzRangeQuerywithMemoryDatabase列存储 Column based 结构 突破RangeQuery的瓶颈 单点上亿条记录的RangeQuery selectxfromtwherea yandy b 小于1000ms 为传统DB的1 10 Dell1950DualQuad Core 3 0GhzDistributedComputingwithMap reduce分布式计算架构 处理100G的文本时间小于10min 10 Dell1950DualQuad Core 3 0Ghz 高吞吐率的运营服务子系统 MemcacheCluster MySQLCluster ndb ADWords UserSearchEngine Niginx Squid Squid LVS softF5 DNS Billing 核心处理算法 1 基础 发现用户真正的点击行为改进的贝叶斯算法过滤超过95 的垃圾或广告流量语义分析技术单字和词库结合的中文智能分词技术大规模统计分析基础上的机器学习从亿万网页中发现词的相关性从单个页面中发现最重要的词面向数据挖掘优化的海量计算将传统的DataMining算法移植到分布式平台上 实现PB级数据上快速聚类和分类快速关联分析 核心处理算法 2 如何对用户行为分析建模 基本思想发掘用户的显性特征 关注关键词或相关词 推理用户的隐性特征 用户的自然属性和社会属性 性别 职业 年龄 阶层 爱好 显性特征 隐性特征是大样本基础上的机器学习MachineLearning ML 例子 劲舞团 游戏 舞蹈类 青少年85 兰寇 化妆品 兰寇 女70 高端 65 铁血 爱国 男90 美女 闲逛 男90 爱卡论坛 宝马 汽车 宝马 高端消费人群70 中端消费人群60 低端30 奶粉 婴幼儿用品 奶粉 女70 有小孩90 内衣 爱慕 内衣 文胸 爱慕 女85 核心处理算法 3 处理流程 HTTP请求数据 Radius计费镜像数据 垃圾流量过滤器 ML 垃圾流量排名 Radius归并过滤器 广告流量过滤器 ML 广告流量排名 用户会话 点击路径识别过滤器 高权重行为模式分析器 泛行为模式分析器 访问统计过滤器 第三方PV UV ADV PUV权威排名 爬取分词 关键词排序 ML 样本库 精准匹配模式库行业Top20 样本库 样本库 用户显性特征 关键词 用户隐性特征 用户分群 隐性特征推理器 ML Top10000词推理样本 分类库 行业 职业 商品 统计过滤器 热点 舆情 行业咨询 对接运营服务系统 广告或内容推送 演示 Getafeelingofit 演示用的数据样本来源 某运营商 江苏南京 20000用户一周数据计费系统Radius数据 1000万条 10GB包含 ADSL帐号 上线时间 离线时间 IP地址用户所有上网行为数据 未清洗前 14亿条HTTPRequests 1TB包含 ClientIP地址 HTTPHost URL Cookie Referer Agent数据分析平台使用2台双路4核Dell1950需要16小时使用10台双路4核Dell1950只需要1小时 1 用户群精准定位演示 按关键词 关键词 二手房 对 二手房 关注的用户群 宽带用户z68862449的敏感关键词表 用户详细 宽带帐号 性别推断 DSLAM位置 2 用户群精准定位演示 按行业 行业 汽车 汽车 相关的SP频道Top排名 对其中某个频道关注的用户群 3 用户深度分析演示 宽带用户帐号 性别分析 消费层次分析 最经常访问的内容频道 最经常上的网站 最关注的关键词 ROI分析 成本每百万用户硬件成本 不含推送系统 服务器 规格 DellPowerEdge1950 1U 双路4核 4G SAS300G 2 数量 50 造价 15000 50 75 万元 存储设备 用于存档备份规格 DellMD1000 DIY磁盘 40T 数量 2 3台 成本 10万元每百万用户软件成本 0商业模式直接投放广告合作运营 商业模式 直接广告投放网站广告合作广告客户的长尾效应 目前搜索引擎的收入高于门户网站 门户网站的广告位有限 大量PV被浪费 基于用户行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论