美团点评-一站式机器学习平台架构的搭建.pptx_第1页
美团点评-一站式机器学习平台架构的搭建.pptx_第2页
美团点评-一站式机器学习平台架构的搭建.pptx_第3页
美团点评-一站式机器学习平台架构的搭建.pptx_第4页
美团点评-一站式机器学习平台架构的搭建.pptx_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一站式机器学习平台架构的搭建 配送业务介绍 机器学习在美团配送中的应用 美团配送算法数据平台 数据闭环和平台化 物流行业的分类 物流成本居高不下,具备很大优化空间 国际物流国内物流同城配送 快递业务:401亿亿件 物流成本:12.1万亿,GDP 14.6% 2017年国内物流行业情况,From:中国物流与采购联合会 同城即时物流的价值:到家服务 即时配送给人们提供更多优质的服务 餐饮 商品 快件 准时 品质 安全 配送时长60分钟以内 平均30分钟 高频 度 高密 度 美团配送的技术定位 构建信息化 + 自动化 + 智能化的即时配送平台 信息化自动化智能化 商家画像 骑手画像 用户画像 商圈数据 全方位收集,全方位收集, 构建数据闭环构建数据闭环 绩效管理 骑手运营 自动结算 业务报表 构建业务系统构建业务系统 ,提升运营效,提升运营效 率率 智能调度 智能定价 智能规划 智能运营 通过人工智能通过人工智能 技术,全面提技术,全面提 升配送能力升配送能力 智能化是核心战略方向! 配送业务介绍 机器学习在美团配送中的应用 美团配送算法数据平台演进历程 数据闭环和平台化 机器学习在配送中的应用 全环节智能化覆盖 1)浏览 配送费定价 供需平衡 2)下单 智能定价 用户定位修正 3)收发单 用户 商家 骑手 4)派单5)接单 商家客户端 美团收银 7)出餐 6)到店8)离店 智能改派 任务规划 自动到店识别 出餐提醒 9)到客11)离客 10)交付 交付点提示 自动交付识别 骑手语音助手 ETA 出餐预估 接单预估取餐时长交付时长行驶速度 排序+推荐 行驶取餐行驶交付接单 压单合单派单 路径规划 智能定价 机器学习在配送中的应用 人工智能正在深入配送的各个环节 机器 学习 时间 预估 骑手语 音助手 配送范 围规划 骑手补 贴定价 配送费 定价 智能 调度 天平 爆单 配送区 域规划 配送业务介绍 机器学习在美团配送中的应用 美团配送算法数据平台 数据闭环和平台化 石器时代 当配送很小的时候 LR RF GBDT 特点 算法简单性能要求低算法介入少快速试错 配送 费定 价 时间 预测 智能 调度 技术选型 粗粒度 高耦合 能快速实现即可 能解决问题即可 石器时代 当配送很小的时候 时间预测服务 离线特征读取 模型加载 消费运单消息 (特征计数) 上 下 文 数 据 算法 逻辑 (线上预测 ) 工程 逻辑 时间预估 输出 离线数据/日志 (Hive) ETL/MR 特征库 MySQL 离线特征提取(算法RD) 离线数据/日志 (Hive) SparkML 模型训练(算法RD) 特征库 MySQL 运单核心流程MQ 实时特征收集(工程RD) 工程RD充当算法 翻译,算法任何 改动都需经过工 程RD 石器时代 当配送很小的时候 特征工程 模型预测 业务服务 B 重复造轮子 特征工程 模型训练 模型预测 特征口径混乱 特征重复开发 统计口径不一致 迭代效率低下算法之间难以协同 特征工程 模型预测 业务服务 A 模型训练 模型训练 特征工程 模型预测 业务服务 C 模型训练 算法数据平台 工业革命:算法数据平台搭建 离线特征平台 实时特征平台 模型管理平台 数据图谱 回放平台 在线策略平台 离线训练平台 SparkMLXGBoostTensorFlow Hadoop/Yarn 实时特征工程 算法深入到配送各个环节 调 度 站点批次规划 静态 位置信息 动态 静态 干线运力规划 静态 仓储批次 传统 物流 即时 物流 调 度 骑手负载情况 动态 位置信息 动态 动态 商家出餐情况 动态 当前路网情况 实时特征工程 数据到知识的淬炼过程 收集分拣计算发布 APP 业务 服务 数据 库 API管道 Binlog管道 路由规则 运单表结算表订单表 骑手状态事件运单全流程预估 运单信息宽表 骑手信息表骑手状态事件 骑手信息宽表 并行调度 区域1 计算分片 区域1 计算分片 区域1 计算分片 特征 1 特征 2 特征 3 区域维度特征池 特征 4 特征 5 特征 6 商家维度特征池 区域1特征1 特征组1 特征2 商家1特征3 特征组2 特征4 数据 = 实时和数字信息 = 有组织的数据 知识 = 提炼的信息 数据上报统一 标准化 路由规则灵活 配置化 计算可扩展 并行化 存取高性能 聚合化 收集侧 实时特征工程 数据 管道 数据 格式 APP API网关 上报SDK 后端服务 上报SDK 数据库 算法服务 上报SDK Canal Schema转换 Kafka实时数据总线 Binlog通道 Kafka实时数据总线 API通道 统一Schema 表名:* 维度:区域/商家/运单 维度值:1101 数据:a:1, b:2, 维度 区域 商家 骑手运单 Geo Hash 分拣侧 实时特征工程 数据 汇集 数据 存储 订单ID菜品订单金额 运单ID区域ID订单ID配送距离 商家ID预计未来平均出餐时间 运单ID骑手ID到店时间 商家ID预计未来平均配送时长 API管道 Binlog管道 订单表 运单表 区域维度时间预估 商家维度时间预估 骑手到店时间 缓存关联配置 分拣规则引擎 运单ID区域ID订单ID菜品 配送距 离 预计未来平均配 送时长 预计未来平均出餐时 间 到店时间 运单维度内存宽表 字段映射规则 索引生成规则 数据 内存化 Schema 动态化 数据量大 分布式内存表 动态Protobuf 计算侧 实时特征工程 调 度 层 计 算 层 数 据 层 定时触发事件触发 任务队列任务队列 计算分片1 内存数据库 SQL引擎 计算分片2 内存数据库 SQL引擎 计算分片3 内存数据库 SQL引擎 特征计算配置分布式内存表特征库 计算 架构 逻辑 表达 效率 学习成本低 开发成本低 无需发版 表现力强 开发成本高 学习成本高 SQL UDF 发布侧 实时特征工程 特征 门户 聚合 特取门户 调度 提单页 ETA 补贴 定价 补贴 定价 C端 定价 实时特征库 特征组1:区域维度 特征1特征2特征3 特征组2:商家维度 特征4特征5特征6 实时特征库 特征1特征2特征3 特征4特征5特征6 特征4特征5特征6 特征4特征5特征6 读爆炸 问题 离线特征工程 算法深入到配送各个环节 订单数据用户数据 商家数据 骑手数据 智能配送系统 骑手 画像 商家 画像 区域 画像 城市 画像 用户 画像 路线熟悉度 个人承载能力 骑手行为模型 供需平衡情况 地理路况情况 取餐难度 出餐时间 品类体积 精准交付点 交付难度 大数据平台(Hive/ETL/MR/Spark) 配送 业务 时间 预估 骑手语 音助手 配送范 围规划 骑手补 贴定价 配送费 定价 智能 调度 天平 爆单 配送区 域规划 如何将线下的特征(画像数据)应用到线上, 支撑配送各个子业务高并发以及算法快速迭代 ,是离线特征平台要解决的问题! 线下线上 离线特征工程 算法深入到配送各个环节 缓存聚合 骑手 画像 商家 画像 区域 画像 城市 画像 用户 画像KV集群 ETL 20商家100特征 2000KV 每次100KV 20次mget缓存mget的TP99约510ms,20次 mget,TP99接近100ms,而上游超 时时间约80ms,服务连2个9都无法 保证。 特征1 特征2 特征n 聚合KV 同一维度特征 特征1 特征2 特征n 特征1KV 特征2KV 特征nKV DB集群 ETL 获取一个KV的耗时不到1ms,似 乎性能不是问题 Spark-JOB统一聚合 完全配置化 算法模型平台 算法深入到配送各个环节 算法种类多样 LRGBDT RF RNNLSTM XGB DNN 训练平台多样 Spark ML TensorF low XGB 异构资源支持 GPUCPU 移动 设备 提供统一的模型训练、发现、部署、切换、降级等解决方案, 为ML和DL模型实时计算提供高可用线上预测服务 目标 算法模型平台 算法深入到配送各个环节 统一 A适配B优化C 模型 格式 预测 接口 LR GB DT SVM Bayes RF PMML 学习 平台 异构 资源 交互 协议 线下 训练 线上 预测 Spark ML TFXGB CPUGPU Local Remote 统一接口 gRPCThrift/RPC 开源PMML 库性能差 ? TF 性能提升 5倍 算法模型平台 算法深入到配送各个环节 SparkML TensorFlow XGBoost 训练平台 (YARN) HDFS 算法模型平台 (Web Console) 模型调度器 ZK 模型状态机 指令中枢 MetaStore (MySQL) 资源路由 HttpFS代理 业务服务A( 节点1) Model Agent 模型数据 预测模块 业务服务A( 节点1) Model Agent 模型数据 预测模块 业务服务A ( 节点1) Model Agent 模型数据 预测模块 ModelServer ( 节点1) Model Agent 模型数据 预测执行模块 ModelServer ( 节点2) Model Agent 模型数据 预测执行模块 ModelServer ( 节点3) Model Agent 模型数据 预测执行模块 业务服务B( 节点1) Model Agent 路由模块 预测Facade 业务服务B( 节点2) Model Agent 路由模块 预测Facade 业务服务B ( 节点3) Model Agent 路由模块 预测Facade 指令通道 心跳保持 HDFS 本地计算方式 远程计算方式 本地计算 vs. 分布式计算 算法模型平台 本地 计算 效率 分布式 计算 占用业务服务资源 本地计算性能高 无额外网络开销 模型计算与业务解耦 高度并行化 集群计算资源异构 额外网络开销 业务服务 1 Model AModel B 模型调度器 业务服务 1 Model AModel B HDFS 模型调度器 HDFS Model Server1 Model AModel B Model EModel F Model Server2 Model AModel B 业务服务2 业务服务1 业务服务1 单机多线程 多机多线程 CPU + GPU 模型Sharding 算法模型平台 分区 模型1 Model Server 1 分区 模型3 分区 模型2 分区 模型4 业务服务 Model Agent 预测Facade 路由模块 分区 模型1 Model Server 2 分区 模型5 分区 模型2 分区 模型6 分区 模型3 Model Server 3 分区 模型3 分区 模型4 分区 模型4超大模型,单机资源装不下? 大模型 按照配送区域、城市 进行分区训练,每 个区域或者城市产 生一个小模型。 A/B实验平台 算法深入到配送各个环节 更多更快更好 配送AB实验的特点 在线策略平台 传统AB实验 策略之间相互影响 配送AB实验 特点 策略效果滞后 线下因素影响大 调度 时间 预估 骑手 行为 面向C端用户进行流量选择 流量之间独立决策、互不干扰 配送AB实验 在线策略平台 独占流量试验区并行试验区 哈希分桶 UUID 哈希 骑手ID 哈希 地理位置 哈希 调度 提单页 ETA 补贴 定价 补贴 定价 列表页 ETA C端 定价 分时间片哈希分桶 区域城市 ABABAB BABABA ABABAB AAAAAA 区域城市 UUID 哈希 骑手ID 哈希 地理位置 哈希 单层实验 必保证流量互斥才 可保证实验正交 分层实验 每一层哈希均匀即 可保证实验正交 外卖C 端 分时间片对照 在线策略平台 策略A策略B策略A策略B策略A策略B 策略A策略B策略A策略B策略A策略B 第二天第三天第四天第五天第六天第一天 策略A/B在两组区域类交替 切换,最大限度减少线下 因素的影响,确保实验科 学、公正 A/B实验平台 算法深入到配送各个环节 实验前实验中试验后 流量 选择 AA 回朔 指标 体系 分流 统一 埋点 效果 分析 实验 报告 配送业务介绍 机器学习在美团配送中的应用 美团配送算法数据平台演进历程 数据闭环和平台化 数据闭环问题 问题在哪里? 上下文收 集 特征收集 模型计 算 日志收集 分流实验 业务服务 上层业务 算法支撑 线上数据 线下数据 特征平台模型管理 版本管理 分流实验 算法Dashboard 业务数据库 MySQL 特征缓 存 特征数据模型文件 离线业务数据 Hive Flume日志Hive 5 4 1 1 2 3 3 1模型不知道由那些特征数据训练生产 2Flume日志无法自动追溯到业务 3缺少算法自动评估 4算法执行结果没有统一可追溯的日志 5算法依赖的上下文数据无法追溯 数据缺乏闭环 问题 1 平台化问题 问题在哪里? 问题驱 动方式 解决问题 实时特征平台 离线特征平台 模型管理平台 在线策略平台 解决实时特征提取效率问题 解决离线特征行问题 解决模型在线使用问题 解决灰度实验问题 能力之间缺乏协同,不像一个完整平台 ! 问题 2 数据闭环与平台化 平台建设的方向转变 数据闭环平台化 数据血缘 特征提取 模型训练 线上预测 AB实验评估 数据图谱 离线特征平台 实时特征平台 模型管理平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论