版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、爱奇艺实时采集计算平台介绍技术创新,引领未来4月22日视频网站“奇艺” 正式上线6月23日推出“奇艺出品”战略11月26日品牌战略升级为“爱奇艺”11月2日爱奇艺成为百度的全资子公司5月7日爱奇艺与PPS合并提供更优质服务9月2日爱奇艺移动端流量首次超过PC端 成为中国视频发展的标志性事件4月18日爱奇艺工作室战略启动7月17日爱奇艺宣布成立影业公司 提出“爱7.1电影大计划”2月18日羊年春晚独家在线直播7月6日盗墓笔记全集上线60小时总播放量破10亿10月14日爱奇艺VIP会员品牌全面升级12月1日爱奇艺VIP会员突破1000万1月21日爱奇艺成为2015年中国市场热门 非游戏类应用中收入
2、最高的应用(App Annie:全球移动应用市 场 2015 年回顾报告)2月7日直播2016猴年春晚独家,除夕当 晚总播放量突破4500万。爱奇艺大事记2010201120122013201420152016月度浏览时间NO.1爱奇艺APP 核心指标行业领先 爱奇艺移动端以2.69亿人的月度覆盖位列行业第一, 总体占比高达56.7%, 行业领先优势持续加大 爱奇艺移动端凭借人均单日使用次数5.03次, 成为视频用户首选之一日均覆盖人数NO.1月度覆盖人数NO.1(数据来源:艾瑞MUT,2016年1月)数据来源:艾瑞MUT,2016年1月数据来源:艾瑞MUT,2016年1月数据来源:艾瑞MUT
3、,2016年1月移动端数据爱奇艺 腾讯视频优酷 乐视视频 搜狐视频PPTV网络电视土豆网 风行视频 芒果TV 凤凰视频日均覆盖人数(万人)9,798.87,699.74,336.12,684.41,245.0856.4749.4236.2192.2108.6爱奇艺 腾讯视频优酷 乐视视频 搜狐视频PPTV网络电视土豆网 芒果TV 风行视频 响巢看看月度覆盖人数(万人)26,929.819,708.614,322.47,925.15,359.03,211.32,657.61,428.41,205.8610.6爱奇艺 腾讯视频优酷 乐视视频 搜狐视频 土豆网PPTV网络电视风行视频 响巢看看 芒果
4、TV月度浏览时间(万分钟)15,900,799.29,766,737.79,543,680.93,654,261.02,755,628.31,712,527.51,201,895.0450,522.9135,986.1101,118.8目录爱奇艺大数据平台发展和背景简介实时采集计算平台解决的问题实时采集计算平台的功能架构技术细节解析总结和体会上海交通大学计算机系硕士2013年加入爱奇艺云平台2014年负责爱奇艺HBase业务2015年起负责爱奇艺实时计算相关业务自我介绍一,爱奇艺大数据发展和背景简介爱奇艺大数据平台发展历程2013Hadoop/MapReduce 上线HBase/Hive 上线
5、2014Spark 上线Kerberos on Hadoop 上线2015Spark/MapReduce on YARN 上线2015Spark Streaming 上线2016Workflow SQL爱奇艺实时计算发展历程2013Storm Standalone上线2014Spark Standalone 上线2015Storm on Mesos上线 Spark on YARN上线2015Spark Streaming on YARN 上线2016Spark Streaming SQL 上线爱奇艺大数据系统框架KafkaSpark StreamingSparkMapReduceStormHD
6、FSHBaseHiveBatch计算数据源流计算数据源YARNMesos大数据业务需求Elasticsearch Flume资源调度计算框架数据爱奇艺实时采集计算平台VenusKafkaFlume流式数据源实时大数据分析解决方案ElasticsearchKibanaStreaming SQLSpark Streaming源码改造 泛化整合iQIYIVenus实时采集计算平台Venus解决的主要问题是-分布式日志数据的实时分析二,实时采集计算解决的问题实时采集计算要解决的问题在集群的场景下,对日志的收集处理变成了一个绕不过的难题一台机器两台机器负载均衡三台机器集群支持横向扩容互联网时代的服务架构
7、变迁单机程序双机互备集群中日志的处理分析机器数量多每天日志总量大近实时的查询日志需求传统日志处理手段cat xxxxx.log | grep XXXX | grep XXXX | sort xxxx . ?然而,旧时代处理单机日志的方式已经不能处理集群上的日志互联网公司的日志处理需求1实时统计分析23快速故障定位实时日志报警实时统计指标,绘制实时报表传统方案的grep xxx | wc -l , zabbix定制脚本 等快速查询检索,定位指定日志产生的位置 相当于传统方案的grep/find根据实时日志统计和检索的结果报警 传统方案zabbix定制化脚本Venus在爱奇艺在爱奇艺,Venus平
8、台接入的数据范围涵盖播放生产存储会员搜索支付用户账户播放记录安全风控峰值支撑日志流量:超过百万条每秒日志采集覆盖机器数: 超过千台三,实时采集计算平台的功能架构爱奇艺实时采集计算平台Streaming SQLSpark Streaming机器1agent机器2机器3机器4机器5agentagentagentagentKafkaFlume中间层ElasticsearchWeb UIHDFS/HBase实时统计 报表实时报警实时查询定期任务 冷备数据地图其他业务复用客户端Agent选型机器1agent机器2机器3机器4机器5agentagentagentagentAgent:基于Apache Fl
9、ume 1.6.0 改造开发的客 户端选型理由:1,Java源码更灵活,易于二次改造,2,和Kafka,Spark等集成良好SourcechannelSink缓冲池选型Apache Kafka: 大吞吐,高容错,高稳定性的开源 分布式消息系统选型理由:1,吞吐量大,单机QPS高 2,和Flume,Storm,Spark等集成稳定。主要劣势:不保证数据有序Kafka实时计算引擎选型Spark Streaming: 基于Apache Spark的流式计算 引擎。优 势 : 1,吞吐量大。2,受Yarn调度,接受Resource Manager管理3,Spark Streaming on Yarn稳
10、定性更优(相比Storm) 4 , Streaming SQL支持劣势:和前后向各个组件集成不够成熟。SQLSpark StreamingYARN实时查询检索引擎选型Elasticsearch: 基于Lucene的搜索引擎,实时性好,分布式可 扩展,版本迭代快,商业公司维护。选项理由:1,传统日志方案ELK中的核心组件2,自带的Kibana UI界面,用户查询体验好3,支持Java、Restful接口访问4,商业公司支持,版本迭代快Elasticsearch实时查询以快速故障定位/日志排查为核心的实时日志检索”需求Elasticsearch是目前业内最优的方案。四,整理一些技术细节对Agent
11、的改造和使用Flume极度灵活,Source、Sink的插件化,可以自行开发Source/Sink去解决 实际业务中遇到的各种疑难杂症。对于日志采集而言,常见的问题有异常格式的日志 解析日志生产路径不固 定错误堆栈要识别 成一行CPU使用率限制不依赖机器环境修改Flume源码对Apache Flume的改造和使用Flume经典配置方案的几个弊病机器agentFlume中间层KafkaHDFS/HBaseElasticsearchSpark Streaming机器agent机器agentAvro协议传输发送数据多个副本到不同的下游系统稳定性差耦合过紧相互影响对Spark Streaming的改造
12、和使用Spark Streaming直接推广的最难点是开发学习的时间成本很大。解决方案:将流式计算逻辑封装成傻瓜式Spark Streaming任务开发学习API学习Scala了解spark机制撰写Streaming逻辑提交Job测试性能调优资源调优配置输入输出,计算的时间batch撰写SQL语句提交SQL语句标准化中间数据封装成虚拟表对象DStreamObjecttimestampdchosturiapiKeyrequest_timeuserid目标:傻瓜式操作Venus SQL Server用户Venus SQL ServerMySQLYarn ClusterSpark Client ServerRestful API提交SQL语句 输入输出配置保存用户提交的配置 和SQL到数据库生成任务jar包,提 交到Yarn集群任务初始化时,向数据库查询用户提交的SQL语句和输入输出等配置生成Spark Streaming任务 计算并输出结果输出计算架构全部对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年桥梁新技术在耐久性评估中的应用探讨
- 2026年建筑中的智能化设备与自动化设计
- 2026年桥梁施工过程中如何保持材料质量
- 2026年模块化建筑在工地的应用策略
- 2026春招:西部航空心理测试题及答案
- 货运场站安全培训资料课件
- 基于人工智能的医学图像识别
- 医疗机器人与辅助手术技术
- 心电图室工作亮点总结
- 2026年广东江门中医药职业学院单招职业技能笔试参考题库带答案解析
- 2026年马年德育实践作业(图文版)
- 四川省成都市武侯区西川中学2024-2025学年八上期末数学试卷(解析版)
- 2026年《必背60题》抖音本地生活BD经理高频面试题包含详细解答
- 土方回填工程质量控制施工方案
- 2025年湖南城建职业技术学院单招职业适应性测试题库附答案
- 2026贵州大数据产业集团有限公司第一次社会招聘考试题库新版
- 珠海高新区2025年下半年公开招聘公办中学事业编制教师备考题库及答案详解一套
- 2025年贵港市利恒投资集团有限公司公开招聘工作人员的备考题库及参考答案详解
- 术后出血的特发性出血的诊疗策略
- 2026年江西交通职业技术学院单招职业技能考试题库完美版
- 2026年教师资格之中学综合素质考试题库500道含完整答案【夺冠】
评论
0/150
提交评论