2019云栖大会一键_第1页
2019云栖大会一键_第2页
2019云栖大会一键_第3页
2019云栖大会一键_第4页
2019云栖大会一键_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学习平台的Kubernetes实践DingpingYUAN新浪工程师01 微博WeiboContents 目录02 机器学习平台Machine Learning Platform03 深度学习Deep Learning04 在线学习Online LearningAI业务及趋势Weibo AI business and trend01/用户规模Weibo/DAU2.11亿211M4.86亿486M日活用户DAU月活用户MAU2019Q2财报2019Q2FinancialReports/业务Weibo/business eco关注/普通用户优质用户AI内容理解内容组织优质内容微博/AI场景 多媒体

2、内容理解Weibo/AI scene Multi-media Content Understand智能裁剪Smartcrop音频分类Audioclassification图片OCRImageOCR视频盗链检测Cheatinglinkdetection明星识别Starrecognition视频LogoVideoLogo/AI场景 CTR任务Weibo/AI Scene CTR热门推荐HotWeibo相关推荐Recommend关注排序Feed/AI发展趋势Weibo/AI Trend平台化Platform深度化Deep实时化lOnine 业务场景多,需求高度重复用户短期不断变化图片与类内容增长迅速

3、 业务迭代速度慢, Duplicatescene与成本有限模型迭代速度慢,不能拟合实时分布 Usershortinterestvariety特征工程成本比较高ImageandcontentistaerFaiontsirirFaenoltrwMothanrealueneeringtimedistribution学习平台Machine Learning Platform学习工作流Machine learning workflow02/学习工作流Weibo/Machine Learning workflowK8S应用环节模型数据传输模型部署模型训练样本生成特征处理模型训练模型评估原始数据特征处理模型

4、业务评估微博/机器学习平台Weibo/Machine Learning Platform一站式服务平台,加快业务开发速度,缩减业务迭代周期irasnruoeitnptetoseinb,udepsOcesime 业务无须关注底层工程细节和资源分配,专注于算法和效果调优 Focusonalgorithmandbusinessresults在线学习数据仓库集群实时计算集群阿里云计算集群高性能GPU集群深度学习KubernetesdockeryarnHDFS/ODPSPS/weipsspark/hadooptensorflow/caffestorm/flink基础/IDE(WeiIDE)开发套件控制台

5、控制中心算法/模型(WeiFlow)模型库样本库模型服务推荐引擎模型训练/评估样本生成数据/特征(WeiData)数据/特征生成数据/特征库数据/特征服务机器学习平台内容生产图像/视频分类文本分类/检测推荐流关注流业务应用深度学习深度学习框架 weilearn vs arenaDeep LearningDeep learning framework weilearn vs arena03深度学习训练框架 - weilearnDeep learning framework - weilearn任务配置化,降低业务接入成本AljobconfigurizedResourcemanagementwit

6、heficiencyandrobust统一调度,提高任务效率与稳定性,降低平台管理成本样本库训练框架调度计算模型库CTR业务样本处理CTR配置超参数DNNCTR样本Arena/K8SWide&DeepNLPDeepFM自然语言样本SparkRNNDeep Cross Network与图像样本图像业务YARN算法图片NLP业务inceptionresnet语音业务LSTMGRUVGGYoloArena 基于k8s的分布式解决方案Arena tool for data scientist开源 kubeflow opreator for tensorflowuena基于Kubernetes用户无需掌

7、握k8s领域知识提供数据科学家最熟悉的使用体验u 简单 一分钟内启动深度学习任务;CPUHDFSGPUKubernetes / NVidia Docker RuntimeKubeFlow / tfjobs/mpijobsarena clitensorflow/caffe/horvod/pytorch学习学习工作流Online learning Online learning workflow and pipeline04学习/实时化Online learning/Real time特征实时化:更及时反馈用户行为,更细粒度刻画用户Realtimefeature:Getlatestuserbeha

8、vior模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化Realtimem:Reflectlatestuserdistribution实时特征实时数据模型推理服务实时 模型训练实时 参数更新实时样本weiflow -学习工作流weiflow Online learning workflow排序服务模型服务参数服务请求online实时特征特征工程模型训练:计算分散实时Real time实时样本实时训练实时日志实时参数服务模型更新:小时级/分钟级/秒级更新/Delta模型K8S应用环节离线特征模型样本:天级样本延时模型训练:计算集中模型更新:天级更新/Base模型离线ofline离线

9、日志离线样本离线训练离线参数服务模型样本:小时级/分钟级延时学习/实时样本Online learning/real time sampleFlink/Storm行为日志KafkaK8S/yarnstatetimer阅读行为日志HDFS样本拼接周期生成点击行为日志Kafka数据处理数据过滤互动行为日志样本库实时样本拼接数据源学习/实时训练Online learning/real time train 模型选择LR : 基础模型,对特征工程依赖较强FM:大规模稀疏数据下的特征组合问题DeepFM:引入高阶特征组合模型训练1. 支持回归和分类2. 支持LR/FM/DeepFM等模型3. 支持SGD/

10、FTRL /Adagrad等优化算法1.模型评估 优化算法选择2. 配置化3. UI展示SGD: 参数少,效率高,固定学习率Adagrad : 自适应学习率,突出低频特征,实现简单FTRL:自适应学习率,突出低频特征,模型稀疏性 特征处理Hash:BKDRhash/CityHash,去ID编码化动态特征删减,动态调整模型规模增加ID类特征训练预处理样本生成和特征处理1.配置化1.2.选择UDF2. 多3. 支持样本HASH3. 样本过滤4. 特征过滤模型评估学习/Flink on ACKOnline learning/Flink on ACKK8sMasterConfig MapAPI Ser

11、ver, Controller, SchedulerK8sPodK8sDeploymentFlink TaskMana gerFlinkMasterFlink ClientK8s ServiceSelector:-app-compone tDispa tche rK8sRes MngrK8sPodJobMas terFlink TaskMana gerDocker RegistryC K8s nliet学习/参数服务 weiPS on ACKOnline learning/Parameter server weiPS on ACK 参数规模支持百亿特征维度,千亿参数 模型版本多模型多版本:多组

12、实验并行执行,提高实验迭代效率版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合模型结构训练与推理兼容:PS与离线PS模型结构兼容,自动模型参数转换 稳定性优化模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集群扩缩容 性能优化通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性

13、能提升3-5倍分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍优化:自定义90%方式(ByRow&ByKey),基于row进行矩阵压缩,参数内存占用减少学习/持续训练持续部署 - CTCDOnline learning/CTCD 模型部署 模型评估模型路由deploymentzookeeper服务发现模型部署分钟级olsubmit一键部署自动端口分配AUC/准确率/模型稳定性一致性率验证多模型实验多版本切换Kubernetes/olsubmit服务模型路由模型部署模型评估模型库模型训练离线/分布式模型推理框架 weiserving

14、 on ACKDistributing inference framework weiserving on ACK业务应用排序模型服务多分析服务自然语言分析服务DNN/DeepFM/W&DLR/GBDT算法模型层数据处理Embedding特征模型服务框架统一版本管理/动态加载/批量化机制/多模型计算引擎架构层RPC服务框架/服务发现/zookeeperkubernetes/ol-submit集群调度层异构CPU集群异构GPU集群K8S在微博机器学习平台的应用How kubernetes enhanced our platform总结微博机器学习平台SummaryWeibo online learning plarform平台化:为机器学习平台提供统一可靠灵活的任务管理机制深度化:分布式深度学习训练,一键集群任务创建,提高训练与调度效率 深度化:分布式测服务,异构混合调度提高资源利用率,服务保障高可用 实时化:做为在线学习系统的底层支撑,打通整个在线机器学习流程实时化:持续

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论