计算广告与大数据平台方案_第1页
计算广告与大数据平台方案_第2页
计算广告与大数据平台方案_第3页
计算广告与大数据平台方案_第4页
计算广告与大数据平台方案_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算广告与大数据平台方案技术创新,变革未来大纲计算广告与大数据360聚效广告数据平台如何应对大规模流量思考与展望计算广告简介计算广告学,顾名思义是计算驱劢广告的学科,这是相对传统的广告而言的计算广告学是一门以计算技术驱劢的广告营销科学传统广告纸媒广告、电视广告、墙体广告受众丌够精准,投放效果差计算广告网络受众体量大,能够做到精准投放更加关注效果计算广告简介计算广告平台的目标:在合适的媒体上下文场景下为广告主找到合适的受众,投放合适的广告创意在广告主、媒体、受众的整个生态中的三方博弈中寻求三方共赢计算广告平台的收入途径:通过优化系统和算法提升RPM受众媒体广告主RPM pCTR CPC广告主每次

2、点击出价代表广告主获取流量付出的成本预估点击率代表受众点击广告的意愿用户 + 广告创意 + 媒体广告位 + 上下文 = 是否点击用户基本属性、行为标签、兴趣标签、广告内容、 创意形式、广告位频道、 位置、地理位置、 时间0,1计算广告与大数据大数据和大数据处理能力是计算广告的基石庞大的数据量:上百亿/天,TBPB级数据规模数据复杂度:非结构化、零散稀疏对实时性的苛刻要求:线上竞价 100ms以内,离线学习模型尽快反哺线上涉及的大数据处理技术:大规模搜索和文本分析数据处理不ETL统计模型机器学习实时流计算360聚效广告系统业务架构流 量聚效DSP广告检索广告匘配广告排序CTR预估投放控制日志系统

3、日志收集日志消息队列日志存储计费模块实时计算离线计算日志Session化 ETL反作弊 报表统计物料管理账户管理审核系统运营优化分析系 统推广管理广告质量优化CTR模型受众定向商品库用户画像MAX流量分发平台其他DSP平台数据平台Ganglia/Zabbix/SkyeyeadserverMySQLDBAeroSpikefeedbackscribeCamus日志收集dsplogexchangelogtrackinglog.dsplogexchangelogtrackinglog.parquetconvertersessionlogDW ODSantifraud/etl/.Hive DWDW ET

4、Lfeature-extractionmodel-trainingmodel-evaluationmodel-deployETLsqoop数据挖掘实时计 算数据仓库 报表分析BI/AnalysisreportingAzkaban数据平台总体架构我们的广告我们目前的数据规模全网各大媒体,上亿广告位每天 200亿次请求,20TB+ 原始日志量(极限压缩后)集群规模:1000,存储容量:35PB日均生产Job数:5000+,日处理数据量:800TB+2012CDH3100 Nodes2014CDH4.6200 Nodes2015迁移YARN600 Nodes2016CDH5.81000Nodes数据

5、平台面临的挑战流量越来越多新业务流量的增加展示形式的变化实时性要求越来越高离线Job处理要准时完成实时计算统计实时模型训练高可用和扩展性的挑战跨机房数据丌可接受单点易于扩展,尽量丌停服的Scale out和升级大流量来了,怎么抗?新业务带来新的流量新业务流量带来的数据量增长广告创业形式变化,流量暴涨广告创意格子增加,带来的数据量的膨胀集群线性扩展服务器增加一倍,成本也会增加一倍LogAll is Log一切数据来源归结到日志日志Schema的合理设计是后续数据处理的基石Thrift序列化,合理设计字段类型合理的数据结构,减少冗余存储日志合幵User1,context1,adslot1,impr

6、ession1 User1,context1,adslot1,impression2 User1,context1,adslot1,impression3 User2,context2,adslot2,impression1 User2,context2,adslot2,impression2User1,context1,adslot1,impression1,impression2,impression3 User2,context2,adslot2,impression1,impression2合理的日志存储格式选择合理的存储格式TextBinaryParquet压缩压缩一定要开启压缩数据

7、压缩Job产出压缩LzoB64TextText容易解读压缩比很差LzoThriftBlockBlock压缩比高裸的字节, 丌可读Parquet列存储压缩比高有工具进行 解析易于不Spark 集成05101520LzoB64Text LzoThriftBlockParquetDSP日志日均数据量(TB)从日志到数据仓库MySQLKafka第三方数据数据集成数据获取与报表仓库建模与ETLrawlog/sessionlogparquet列存储ODS基础事实表/维度表HDFSHiveDWReport TableThriftServerRestServerDashboardSparkSQLODS: Pi

8、g - SparkSQLdsplog = LOAD /mvad/warehouse/ods/dsp/date=2016-11- 11/hour=00/type=*/* USING parquet.pig.ParquetLoader();A= FOREACH dsplog GENERATE vince, request.userAgentInfo.os, request.userAgentInfo.browser, 1;B = GROUP A BY (province, os, browser);C = FOREACH B GENERATE group, COUNT(A);STORE C INT

9、O /tmp/xxx;/ Create a DataFrame from Parquet filesval df = sqlContext.read.parquet(/mvad/warehouse/ods/dsp/date=2016- 11-11/hour=00/type=*)/ Using SparkSQLval table = df.registerTempTable(dsplog)val sql = select count(1) from dsplog group by vince, request.userAgentInfo.os, request.userAgentInfo.bro

10、wserval result = sqlContext.sql(sql) result.show()350300250200150100500PigSparkSQL运行时间(s)更高的实时性要求实时对广告效果的影响系统实时化实时模型训练实时Sessionization实时计费实时反作弊全量日志,几乎全量日志消耗Shuffle,大量读IO消耗大量网络IO全量日志离线MR Sessionization的瓶颈MapMapMapReduceReduceBid logshow logclick logTracking logsessionlogHDFSHDFSMR Job实时Sessionization

11、rowkeybidshowclicksession1bid1,bid2,bid3show1,show2click1session2bid1,bid2,bid3,bid4show1session3bid1,bid2show1,show2click1,click2原始日志实时消费, 写入HBaseHBasesessionId作为rowkey,bid/show/click分别作为family,天然的session化过程Hbase的稀疏存储模型,非常适合广告业务数据实时的Session化数据,可直接用于实时计算模块每天做一次Snapshot,用于离线计算Kafka离线Machine Learning依

12、赖sessionlog的产出,计算过程复杂冗长T+1,实效性差sessionlogfeature extractiontrainingsamplemodel trainingmodelmodel deployAd serverrawlogOnline Learning实时特征抽取, 写入HBaseHBaseKafka用户/广告 特征竞价曝光 日志发生点击,写 回KafkaTraningS ampleStormOnline TrainingAd Server模型更新Storm高可扩展稳定性可用性集群优化跨机房丌同集群版本数据共享FederationHA参数优化跨机房不同集群版本数据共享Hftp协议解决HDFS丌同版本之间的传输问题Cluster10.20版本Cluster2 cdh5.8版本hadoop distcp -m 100 -pbugp -skipcrccheck -update -delete hftp:/cluster2-namenode:50070/file hdfs:/cluster1-namenode:9000/fileHftp协议 distcp集群快速扩容导致的节点间数据不均匀Balancer来丌及迁移数据导致的集群丌可用扩容前85%85%85%85%扩容后85%85%85%85%0%0%95%95%95%95%

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论