基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第1页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第2页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第3页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第4页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SparkSpark的实时用户画像分析系统 汪飞 优酷汪飞 优酷 大数据大数据 2015 10 23 目录 用户画像 用户画像 计划与方向 计划与方向 实施方案与性能优化 实施方案与性能优化 系统框架 系统框架 优酷用户画像系统 优酷用户画像系统 用户画像 游戏视频 游戏视频 家装 家装 教育资讯 教育资讯 精准推荐 精准营销 群体画像 群体画像 实时 维度 任意群体 大数据量 TB 目录 用户画像 用户画像 计划与方向 计划与方向 实施方案与性能优化 实施方案与性能优化 系统框架 系统框架 优酷用户画像系统 优酷用户画像系统 用户画像分析系统 湖北 浙江 福建的 观众更加偏爱琅琊榜 他们是网剧 电视剧和娱 乐控 不仅是美妆和母婴 我们更爱学习 观看琅琊榜的 观众 投什么 广告呢 展示图表为非真实数据展示图表为非真实数据 仅供演示 仅供演示 用户画像分析系统 退订的用户退订的用户 是年龄特征是年龄特征 订阅我的用订阅我的用 户喜欢哪些户喜欢哪些 专辑专辑 展示图表为非真实数据展示图表为非真实数据 仅供演示 仅供演示 订阅我的用订阅我的用 户是否为重户是否为重 度用户度用户 用户画像分析系统 定位任意群体进行投放投放 任意两个群体和差并交和差并交 任意两个群体对比分析对比分析 实时投影实时投影任意观众群体 应用 应用 数据量 数据量 资源 资源 BenchmarkBenchmark 3 103 10亿亿用户 数据量500G500G左右 5050多个画像维度 50005000多个标签 Spark集群 CPU 200200cores RAM 700700GB 2台交互服务器 CPU 2222 cores RAM 3232GB 筛选响应时间 2s 2s 群体合并 10 20s 10 20s 对比分析 15 20s 15 20s 实时投影 7 20s7 20s 目录 用户画像 用户画像 计划与方向 计划与方向 实施方案与性能优化 实施方案与性能优化 系统框架 系统框架 优酷用户画像系统 优酷用户画像系统 用户画像分析系统 Scheduler Aggregator Join Merge Filter Parser Code Generator Storage RDD Tachyon Spark Job Manager RDD Register Job Server Projec on Filter Comparing Authoriza on Dataset Manager Updater Timed Task Cache Calculator 精准推荐 用户画像 Push DMP App Service Tag 目录 用户画像 用户画像 计划与方向 计划与方向 实施方案实施方案 交互式分析系统 交互式分析系统 系统框架 系统框架 优酷用户画像系统 优酷用户画像系统 交互式分析系统 给MapReduce 穿上SQL MapReduce 有点慢了 能不能不用 MapReduce ImpalaImpala DremelDremel 要不直接内存吧 PowerDrillPowerDrill Lucene是否可以 作分析 mdrill 我们得开源 Google Dremel 站在巨人的肩膀上 看得更远 我们做一个内存版 的Hive Data Frame 交互式分析系统 Column Oriented Storage 非常适合交 互式分析系统 MPP框架被多数框架采用 内存是实现秒级响应的关键点 用户 最大忍耐极限为15s Bitmap是筛选操作的利器 配合压缩技术 编码编码 Dic onary 以及压缩压缩 Snappy 能 够带来空间节省和性能提升 目录 用户画像 用户画像 计划与方向 计划与方向 实施方案实施方案 分析引擎 分析引擎 系统框架 系统框架 优酷用户画像系统 优酷用户画像系统 Why Spark l RDDRDD 全内存形式存储 支持多种压缩存储 l APIAPI 灵活的框架设计 能够轻松实现定制功能 l Map ReduceMap Reduce 天生的合并框架 l Job ServerJob Server 开源的异步Job管理框架 l Shark Shark DataFrameDataFrame 支持SQL以及交互式操作 l HadoopHadoop 兼容性很好 l Apache Drill Druid AnalyticsApache Drill Druid Analytics 集群资源要求比较多 高效筛选器 Filter 筛选器是怎么执行的筛选器是怎么执行的 clientclient 语义分析 语义分析 执行模型 执行模型 BenchmarkBenchmark JSON SQL 逻辑表达式 逻辑表达式 ANTLR Scala Parser 逻辑表达式 逻辑表达式 Nest Expression ASM Java CompilerJava Compiler Janino DSL Nest Expression ASM Java Java CompilerCompiler Janino Code Generator Code Generator 高效的Join模型 常见的几类常见的几类Join模型模型 l Nest Loop Join Mysql l Hash Join Spark l Sort Merge Join for m in left for n in right do join m n end end for m in left put into hash map m left m end for n in right do join right n get from hash map n end sort left sort right for m n in left length right length do merge pick left right end 时间复杂度 最慢 但是比较灵活 能够应对 多数情况 时间复杂度 占用较多的内存 构建map的过 程非常慢 时间复杂度 复杂度 需要排序 排序操作可以预处理 并发 Fetch UnitFetch Unit Decode UnitDecode Unit Execute UnitExecute Unit Write Unit Write Unit PipelinedPipelined CPU CacheCPU Cache if if loop loop VitualVitual Calls Calls Data Dependency Data Dependency 目录 用户画像 用户画像 计划与方向 计划与方向 实施方案实施方案 存储 存储 系统框架 系统框架 优酷用户画像系统 优酷用户画像系统 Column Oriented Storage Parquet File Parquet File Column OrientedColumn Oriented DocId Links forward Name Language Code 10 20 en us 20 40 us Record Oriented Reversed Bitmap 1 0 1 0 0 0 0 1 1 1 1 0 1 1 0 0 0 0 0 1 Partition 1月 2月 3月 iphone Android windows 0 30岁 岁 30 50岁 岁 50岁以上 岁以上 partitionpartition 假设按照三个维度进行分区 时间 平台 年龄 数据被分为27个Par on 分析Windows 用户的行为 Skip Data Skip Data Composite Range Partition Composite Range Partition Expert ExperienceExpert Experience 编码与压缩 Delta encoding Delta encoding Prefix encoding Prefix encoding Dictionary encoding Dictionary encoding Run length encoding Run length encoding PFORDeltaPFORDelta encoding encoding Snappy Snappy LZ4 LZ4 LZO LZO Elias GammaElias Gamma 基数估计 l Linear Counting l LogLog Counting l HyperLogLog 1 1 0 0 1 1 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 1 HASH 1 1 0 0 1 1 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 0 0 0 0 1 1 分桶数m为2 13 8k字节 时 LLC 的标准误差为1 4 而HLLC为1 1 目录 用户画像 用户画像 计划与方向 计划与方向 实施方案实施方案 存储 存储 系统框架 系统框架 优酷用户画像系统 优酷用户画像系统 优化方向 Benchmark l 支持数据大小1TB 2 billion records l 内存大约是实际数据的2倍 l 筛选时间在1s 2s附近 l 投影的速度基本上都在10s 20s之间 l 加载一次全量数据大约在1 5分钟 筛选 筛选 投影 投影 内存 内存 文件 文件 SQLSQL支持 支持 Parquet Column Column 编码压缩 编码压缩 PartitionPar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论