2023京东大数据技术白皮书_第1页
2023京东大数据技术白皮书_第2页
2023京东大数据技术白皮书_第3页
2023京东大数据技术白皮书_第4页
2023京东大数据技术白皮书_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

京东大数据技术白皮书京东大数据技术白皮书京东大数据技术白皮书~~PAGE1~目 录序言 3前言 5京东大数据的发展历程 8京东大数据的技术体系 10数据采集和预处理 10流量数据采集 13数据存储体系 22离线计算环境 34实时计算环境 37机器学习环境 40任务管理和调度 43资源监控和运维 49京东大数据的数据管理 54数据架构设计 55数据资产管理 57统一指标体系 65数据安全管理 66数据服务管理 68京东大数据的数据产品 75京东商智 75智能营销 76数据管家 77祖冲之 78京东大数据的应用场景 80营销领域 80物流领域 81供应链领域 82智能零售 85金融业务创新 86时尚创新 88人工智能 89京东大数据的合作生态 93京东大数据的特点 95高可用和高性能 95一站式服务平台 98可靠的安全保障 99京东大数据展望 103融合统一 103开放合作 109技术前瞻 110结语 117参考文献 118京东大数据技术白皮书京东大数据技术白皮书~~PAGE100~前言145001957020205一定程度上制约了大数据技术的大规模产业应用。京东拥有全渠道零售和端到端的高质量大数据,包含了用户的浏览和消费行为、商品制造和销售、物流仓储配送以及客服与2010重要阵地,目前已拥有集群规模40000+服务器,数据规模达800PB+,每日的JOB数100万+,业务表900万+,每日的离线7000务的各个环节。近几年,京东大数据承担了包括大数据和人工智能领域在内的多项国家级重点研发项目。2017年,京东获得了国家“大数据智能管理与分析技术”国家地方联合工程研究中心的授牌。这些都是国家对京东大数据实力的认可,是京东技术实力的体现。据领域深入探索,为我国大数据产业的发展贡献力量。京东大数据的发展历程2010式,成为企业大数据最早的实践者之一。Hadoop图1所示。技术领域覆盖Hadoop、Kubernetes、Spark、Hive、AlluxioPrestoHbaseStormFlinkKafka500+人,累计获得技术专利400+个。40000+7000+JOB数100万+,业务表900万+张。每日的离线数据日处理30PB+,实时计算每天消费的行数近万亿条。图1:京东大数据发展历程京东大数据的技术体系2HadoopKubernetesSparkHiveAlluxio、PrestoHbaseStormFlinkKafka图2:京东大数据平台技术架构数据采集和预处理数据采集是大数据的基石。京东包含了电商所涉及的营销、据直通车。数据直通车为京东线上数据接入京东数据仓库提供了一套算、实时计算、集成分发等多种需求,并进行全程状态监控。离线数据采集和实时数据采集两种数据采集方式。MySLSQLServerOracleMongoDBHBaseElasticSearchHTTPAPIJMQ等,并支持API(T+1将T+13整架构:图3:离线数据采集架构数据直通车同样为实时数据采集提供了一套标准化的解决MySQLSQLServerOracleJMQ、日志等多种数据源类型。对于MySQL过把关系型数据库的Binlog日志实时抓取并解析发送到实时数MySQL实例上的所有BinlogTopic户进行业务表粒度的实时处理。JMQ在落数据库之前都会经过JMQ传递。数据直通车可以把JMQ高了数据处理系统的服务能力。京东内部所有系统的实时数据都会通过数据直通车实时采集到JDQJDQ杂度,并使得系统能够提供稳定的服务能力。流量数据采集PCH5Q及通过开普勒开放赋能给其他合作的APP等等。多样的数据展采集的相关技术。浏览器页面的采集采集流程志,页面日志采集的流程如图4所示。图4:页面日志采集流程页面日志采集主要包含以下几个环节:JS(页面的上一页面信息等等)以及业务特性的相关数据。JSJS日志服务器发送。日志接收。日志接收服务器在接收到客户端发送来的用。后通过日志抽取的方式将本地的日志及时抽取到相应对数据进行加工处理。据收集。页面日志(pv(v为营销策略调整提供数据支撑。其他基本信息。用户在页面中的访问路径等等。点击及自定义日志的采集方法主要为用户特定标记的信息移动设备日志采集本以APPAPPSDKSDK可以收集用户在APP的各种事件行为数据,收集APPSDK被预置在APP应用内,用户在使用APPSDK并收集到APP器。页面标识网站页面在浏览器内访问时,会有相应的页面链接,而用户口描述信息,业务可以快速地查阅和使用。页面事件事件行为植入到对应的接口中,再通过SDK进行采集上报,就可以快速地标识出用户的事件数据。特殊场景电商行业包含了两大特殊的业务场景:引流、跟单。统计分析出各个广告渠道的引流效果。设备标识目前移动设备可以通过果的UDID果系统禁用设备标识,Android历史数据及算法,融合出自己的唯一标识JDID一标识一个设备。H5APP我们在访问一个APP设备时,通常会包含两种页面形式,一种是APP原生页,一种是H5页面,其中APP采集通过SDK的方式来采集,H5页面则是通过页面中的JS来进行采集,由于是在同一个APPAPP内的H5的数据算作APP的一部分,而由于采集方式的不H5APP应用内访问带来的。日志采集控制客户端与服务器日志采集为合法日志,最终将业务日志落地到相应的服务器上。采集的难点与挑战业务特性在数据采集过程中遇到的一个难点就是业务特性信息的收全域用户标识PC数据存储体系HDFS存储JDHDFS是京东基于HDFS高可靠性的特点,容易扩展,并支持水平扩展至百PB量,同时拥有较高的硬件故障容忍能力,提供全面的安全性和多样化的权限功能。HS,JHDS下:基于路由的Federation方案(Router-BasedFederation)随着集群规模的增长,Namenode存储成为集群性能的关键瓶颈。我们参考社区版本设计文档,研发功能模块RBF(Router-BasedFederation基于路由的Federation方案),支持动态映射、嵌套映射等功能,可以解决hadoop集群无限横向扩展的规模问题。数据生命周期管理(DataLifecycleManagement基于数据生命周期管理的策略,该组件定期调度进行过期Job日志聚合目录app-logs、中间结果文件、Cgroups文件的清理以及固定周期小文件的整理合并。基于资源利用率的智能选块改进后的Namenode节点可以实时感知集群所有DatanodeCPU的位置选择,规避繁忙状态的Datanode节点,可以对整个集群的负载实时平衡。跨集群容灾据延迟。我们基于集群数据同步方式代替distcp,同时做到数据低延迟访问,支持双主访问,降低额外物理资源冗余。京东分布式存储采用将元数据集群与数据集群分离并可实5JDHDFS图5:JDHDFS技术架构数据高可靠和平台高可用服务。手动设置1-4个文件副本,可保证数据在多块磁盘甚至单台服务器损坏的情况下存储系统的服务正常运转。为了保证任何一台存储服务器失效或者是任何一块硬盘失效都不会影响数据的可靠性和一致性,使用pipeline机制保证数6图6:JDHDFS存储架构图集群水平扩展能力存储平台中的元数据服务器和存储节点是拥有横向水平扩图7务能力也会呈线性增长,能够管理的文件总个数也线性增加。图7:元数据服务器HBaseJDHBasePB目前京东HBase集群规模5000多台,支持京东600多个业务系统,典型业务有:商城:商品评价、会员PLUSPOP订单、商家营销智能:JIMIAI金融:风控、白条、支付、资管物流:订单追踪、物流仓储、销量预测大屏监控JDHBase(8HBaseHBase换、分组隔离、SQLJDHBaseHBase都使用标准客户端来访问HBase备切换、实时监控等功能。JDHBase的动态变更。图8:JDHBase服务架构京东HBase(1) 4+1针对京东的业务场景和使用方式,我们对JDHBase的使用9JDHBase统。底层部署上我们支持将HDFS和HBase以利用容器技术快速扩容和创建新的HBase的读写需求。在HBase内核部分我们通过修改源码让HBaseRegionServer能够识别运行的硬件类型并根据其预设值自适应到最佳性能状态,支持多种硬件混合部署集群。在中间件部分我们通过接口服务的方式向外围系统提供支服务、配额&限速管理服务,多语言支持组件等。在用户层我们向最终用户提供多种可选的数据加载方式和查询引擎满足不同业务场景和需求。图9:JDHbase技术架构多活灾备为了满足业务对JDHBase读写的实时性要求和数据安全性的(10namespace多集群切换机制的主要工作组件由服务中心、HBasePolicyServer、客户端三部分构成:客户端会定期以心跳的方式访问HBasePolicyServer获取所变之后客户端会根据切换策略进入切换流程。PolicyServer是对外提供查询和修改策略的服务,它所有策略数据会存储在MySQL中,可以通过加节点的方式动态扩展形成一个服务集群,避免单点问题。ServiceCenter提供一个界面化的多集群管理服务工具供管理员使用。据一致性并同步数据,保证数据安全性。图10:HBase服务集群多租户分组隔离HBaseHBase2.0的rs分组功能(目前官方仍然是beta版)并进行了改进完善,实现了将HBase11散,还能在618和11.11资源利用率。图11:Hbase多租户隔离SQL原生的HBase只提供key-value查询和范围扫描。我们引入phoenix等工作,可以支持标准sql查询,例如创建二级索引、多表sql图12所示。这使得HBase功能更加丰富,不仅支持实时查询,还能做实时统计分析,适应更复杂的应用场景。图12:支持SQL查询G1回收器提升JVM将主备replication同步速度提升到分钟级别,archive10%以上。随着容器技术的成熟,我们正在尝试Hbase的容器化部署,以便实现更好的资源隔离并提升资源使用率。由于承载的数据量越来越大,Hbase提供的均衡策略已经不能满足业务需求,我们也在着手进行balance均衡策略的调整,并使用NettyRpcClient来改造PRC客户端性能,提升数据写入的速度。在集群硬件方面,我们部署了SAS和SSD磁盘混合方案,从目前的压测效果看比较好,将来会逐步上线。冷热数据管理HDFS京东大数据针对冷热数据设计了较完整的机制,主要包括:冷数据的规则配置管理员可配置冷数据的扫描范围,对不同集群、ns、用户可灵活配置不同的扫描路径,归档周期以及归档路径。部分数据设置白名单进行保护,避免被冷备份。冷数据的扫描和备份利用配置表对HDFS降副本操作和隔离操作,并释放原有集群的存储资源。冷数据的恢复和删除定时间内无恢复申请,将删除冷数据并释放资源到大集群。冷数据的统计分析报告大数据平台同时提供从不同角度对冷数据归档信息进行统查看。离线计算环境为:数据量巨大且保存时间长;量计算的结果;数据在计算之前已经完全到位,不会发生变化。HivPigSparkSQLPrestoMapReduceAlluxio13所示。图13:离线计算架构JDHive计算引擎服务JDHive是基于HIVE社区版本深度定制的大数据查询引擎,它是目前业内能够支撑GB/TB/PB级数据仓库的通用解决方案之一,支持将sql语句转换为MapReduce任务,能够快速处理海量数据计算,有效降低分布式计算模型的使用成本。JDHive为用户提供基于社区版的所有功能,同时进一步推出一系列高级特性解决不同业务场景的需求,包括:元数据管理、审计日志管理、读写IO管理、UDF统一管理等功能。针对服务性能优化,我们坚持不断试错,不断优化,不断打磨的原则,持续推动着JDHive的进化。如今京东大数据百分八十的业务都在使用JDHive提供的服务支持。JDSpark计算引擎服务JDSpark是京东大数据平台对外开放的核心计算引擎之一,旨在为高性能、迭代计算、时效性要求极高的场景服务,同时针对部分具有研发能力较高的深度用户提供SDK开发功能。随着京东业务的飞速增长,很多业务场景已经无法接受基于磁盘批处理的MapReduce迭代计算,希望整体提升数据结果的时效性,我们的目标是将JDSparkSSD技术手段提升任务的时效性。ADHOC我们针对ADHOC业务场景,提供实时查询与预计算的两种方式的查询场景,分别使用Presto、Kylin计算引擎为用户提供支YARN整合多种计算框架,优化Presto的监控和报警机PrestoCacheOrcMasterDocker图14和图15展示了基于Presto提供的ADHoc查询服务的技术架构。图14:PrestoOnYarn计算架构我们同时支撑许多线上业务系统的查询服务,基于Yarn整合了Presto+AlluxioAlluxioLRUhdfs同步校验(一致性)具。图15:Presto高可用架构实时计算环境尽管传统数据仓库的以天为计算周期对数据进行批处理61811T+1(JR实现了计算过程的低延迟、JRC实时计算数据,未来将提供更加智能化的实时计算服务。图16展示了京东大数据实时计算平台的技术架构。图16:实时计算平台京东大数据实时计算环境由三个部分组成:JDQJDQ是京东大数据平台部基于Kafka重要服务。Kafka进行了一系列的架构改JDQ618和双十一的考验后,性能表现非常稳定。准实时数据仓库将数据仓库的ETL将传统的T+1模式的数据仓库升级为T+0Hive5ISERTUATE,DELETEJRC京东选择Storm、SparkStreaming和Flink同时作为实时计算作为第一代增量计算的高速事件处理框架,它的毫秒级延迟满足对延迟要求较高的场景。而SparkStreamingSQLStormFlinkFlinkStormStormExactlyOnce、状态管理和窗口统计,在迭代式数据处理上,更是比Spark更突出。SQLSQL方式体验实时技术所带来的魅力。鉴于Flink在技术架构上的天然优势以及批流统一技术上的日趋完善,我们会逐步推动Flink成为未来统一的、通用的大数据实时计算引擎。机器学习环境地在PB售等领域。京东的机器学习平台由基础架构层、工具层、任务调度层、算法层以及API层组成,架构图如图17所示。图17:机器学习平台基础架构层京东的机器学习平台拥有调度大规模异构计算资源的能力。CPUGPU高性能资源调度器能帮助不同的数据建模工具快速找到合定的协议对分布式的任务进行错误恢复。工具层工具层给用户提供了机器学习算法研发的一站式服务。用户可以通过离线和实时数据处理平台进行海量数据的处理和分析,从数据中找到业务的价值。能,用户可以快速在海量数据上构建上千亿维度的模型。供了统一的serving平台。用户可以在不需要做任何系统开发的serving根据算法模型的特点进行了大量的硬件层面和软件层面的性能A/BSDK对IOT设备之上。任务调度层成复杂的DAG算法层京东的机器学习平台内置了上百个经过优化的算法模块。这些算法模块覆盖了视觉、语音、自然语言、统计分析、图运算、交互将不同的算法模块链接到一起来完成一个复杂的机器学习任务。API京东的机器学习平台还为用户提供了丰富的人工智能API行任何模型开发就可以直接使用。任务管理和调度数据处理任务超过30京东分布式调度平台很好地解决了这些问题。如图18所示,调度架构基本分为以下几个主要部分:NameNode、TaskNode、Web管理端和日志收集器。图18:调度平台基础架构图NameNode作为控制节点主要负责将任务执行命令发送给NameNode过浏览器打开Web管理端查看、操作自己的任务。详细功能如下:NameNodeNameNodeTaskNodeNameNode部分支持Alive-AliveTaskNodeNameNode按照一定的分配策略将任务分配到具体TaskNode后,TaskNode会主动从NameNode领取任务,并根据(TasExcTaskNode会监听进程执行结果并反馈给JDQ(并发数时执行大量任务,另一方面通过cgroup实现节点级别和任务基TaskNode节点级别资源隔离节点可设置最大可用CPU和内存,设置成功之后该节点上所有执行的任务使用的资源总和不会超过配置的值。任务基本资源隔离单个任务可以单独设置任务要使用的CPU和内存。任务执行过程中使用的资源不会超过配置的值。WebWebUI日志收集器日志收集器是一个JRC任务,从JDQ消费任务日志并写入Hbase供管理端查询。京东大数据分布式调度平台的技术特点包括:实例行时,会按照当时的实例来执行,保证可重现当时的场景。分配策略目前调度系统的TaskNode节点已超过800个TaskNode配置分配策略。轮询策略TaskNode并发数策略每个TaskNode节点可以设置可同时运行的任务数上限,我们称为并发数。选择该策略时,会根据“并发度=节点上当前在执行任务数/节点并发数”的结果排序,选择节点并发度小的节点执行任务。机器资源策略TaskNodeCPUNameNode,选择该策略时,NameNodeCPUTaskNode跨周期依赖任务上下游之间存在依赖,可以理解成为一个有向无环图(DAG图。目前调度平台可以很灵活地配置任务之间的关系,比如任务ABABA的周期执行成功后才将B更好地理解这个概念,下面我们用个具体的例子进行描述。A任务24执行成功后,B2:A是小时任务,BA512B示例3:A任务是天任务,B任务是小时任务。A任务当天(B24个周期才可以依次被执行。示例4:A任务是天任务,B任务是每月运行一次。A任务(也可以为上月或指定上月1010号功后,B诸如此类的场景,在调度平台中被称为跨周期依赖。数据依赖调度平台还支持检查某个HDFSHDFS产生了一份数据,下游团队需要使用这份数据做离线计算分析,HDFSok或success(名字可以随意指定)标识文件,文件可允许为空。然后在调度平台里设置检查HDFS对应路径的ok或success生成,下游任务就会马上启动执行。任务图形化展现技术如何展示上千个任务的关系以及对任务进行配置是个难点。graph1、可以在图中对任务进行编辑、禁用、启用的各种操作;2、图形化配置技术可以方便直观地看到整个任务的依赖情况;3、可以对整体任务依赖图进行放大、缩数据模板数据模板是指调度系统将相关的抽取数据和推送数据的逻推送数据的逻辑。脚本仓库和任务动态执行技术调度系统为python、shell和ziphbase个集群当中,保证脚本的安全性和可用性。任务执行的时候调度会动态地下载和更新脚本信息,保证每的准确率和安全性。京东大数据的任务调度和管理已基于Kubernetes进行了升级和改造。升级后可由Kubernetes实现资源的统一管理和分配,提和测试。资源监控和运维管理万台规模的集群,资源监控和运维体系变得非常重要,京东大数据平台实现了对集群资源的全方位监控,并研发了自动部署系统和相关的集群运维规范,保障了集群的可靠运行。统一监控警信号并通知相关系统负责人。IM知模式。统一监控系统综合考虑功能和稳定性,选择了Prometheus。该系统是一个开源的监控报警工具集,我们通过对其进行架构和功能上的优化,完成平台全方位的监控和告警功能。统一监控系统的架构如图19所示。整个系统分为4个部分:信号采集、信号存储、报警、信息展示。图19:统一监控平台架构信号采集PushGateway,由它传递给系统。信号存储PrometheusOpenTSDB,这是全量数据,用于信息的展示和数据挖掘。报警PromQLAlertManager信息展示监控平台可以在Prometheus节点进行简单的信息查询和展示,也可以在Grafana进行全面细致的展示。我们对于采集的信号进行了分层,如图20所示。信号分为5具体内容如图20所示。监控的指标大致包括延时、吞吐、错误范,便于管理和维护。图20:信号分层集群运维京东大数据平台通过自主研发服务器资产管理系统、自动部40000应用软件的高效管理。服务器资产管理系统API致性及准确性。自动部署系统且针对集群各个组件研发了针对性的功能管理页面。自动部署系统通过整合流程管理和开发自定义通用上线模块,打通了统一服务器控制系统以及实现P2P+MD5传输校验、回调结果验证功能,完成了线上运维的时效性、准确性、安全性的规范操作。效率。京东大数据的数据管理策应用。如图21目标。图21:数据管理框架数据架构设计数据主题象概念。据。22所示。图22:数据主题域划分数据模型京东大数据平台设计的数据模型层次如图23所示,数据层次的说明如表1所述。图23:数据模型序号数据架构层次简称数据层次用途简述1数据缓冲层BDM源业务系统数据的快照,保存细节数据,按天保存2基础数据层FDM按业务概念组织细节数据,并进行名称、代码等标准化处理,同时对表进行标准化处理。3通用数据层GDM根据京东核心业务价值链按照星型模型或雪花模型设计方式建设的最细业务粒度汇总层。在本层需要进行度量与维度的标准化,保证度量数据的唯一性。4聚合数据层ADM根据不同的业务需求采用星型或雪花型模型设计方法构建的数据汇总层5维度层DIM维度是对具体分析对象的分析角度,维度要具备丰富的属性,历史信息的可追溯性,对通用的维表要保持一致性。表1:数据模型的层次业务应用的需求,提高数据的可用性。数据资产管理营能力,提高数据质量,更好地实现大数据赋能。数据资产管理从数据资产盘点出发,厘清数据之间的关系,为数据进一步的应用和挖掘奠定基础。数据资产盘点如图24所示,通过盘点将散落的数据源信息汇聚到一起,在数据图24:数据资产地图据的重复存储和抓取,共同完善底层数据资源扩充和共享。元数据管理数据分析师或BI分析师或BI自己的元数据管理平台(tink,用于管理数据模型的一些基本BI处理业务的数据需求。模型搜索相关模型。模型的基本信息数据分析师或BI人员通常希望快速地了解指标模型的名称、模型的描述、模型的字段以及模型的使用方法。因此在元数据管理平台上就需要将这些信息展示出来,方便分析师或者BI人员的使用。血缘关系一般数据分析师或者BI图,数据分析师或BI游的使用情况,轻松了解数据的来龙去脉。相关调度任务目前京东数据仓库或集市上的模型基本都是通过调度任务详细了解相关调度任务的情况则可以通过调度平台直接查看。数据质量管理结起来有以下几种。数据创建产生值使用不当和数据录入的校验规则不当等。数据获取产生时点不正确等等。数据传递产生数据传递不及时等。数据加工产生等。围绕上述数据质量产生的原因,结合京东信息系统建设的特点,京东大数据定义数据质量好坏可以从以下几个指标来描述:及时性:数据平台是否满足业务应用对数据的时间要求。份数据的记录是否完整无缺。准确性:获取的每一份数据是否存在异常或者错误信息;数据平台在数据的获取、传递、加工过程中是否能保证数据的准确。可用性:多维度、多渠道获取的数据是否能够易于理解并使用。京东大数据自研了数据质量监控平台,实现了对数据质量的管理。主要功能如下:数据准确性监控周期,实现数据准确性的预警。数据及时性监控将数据加工任务按照服务的业务线归类,根据服务SLA设置完成时间的阈值。用户可以随时观察任务运行的状态、时间等,数据完整性监控根据定义的规则进行告警。数据质量事件当发生数据质量异常告警后,将生成一个数据质量事件。该事件由数据运维人员发起,及时查明异常原因并记录在知识库中。该事件的完成必须经过上级负责人的审批。数据质量分析报告用户可根据需要查询数据表的质量运行报告,包括原因、状参考。除了在技术手段上进行数据质量管理外,在管理制度上我们日进行记录及解决等。资产管理平台25机制的管控,让内外部数据能汇聚融合、有序流通。图25:数据资产管理平台数据资产管理平台的目标,主要有两个方面:第一是资源管理的角度。一方面通过合理的数据使用流程和据资源,实现全域数据资产的持续扩充。第二是数据资产质量提升的角度,通过数据资产管理来提高数据资产的质量和数据服务质量。SLA监数据资产管理平台的实现,能够在数据生产系统和业务应用到上述提到的目标。统一指标体系决策带来挑战。在统一的指标口径之上,为了便于数据消费者系统化地共享API签的共享。随着数据统一口径标准的推行,避免了各业务部门的重复建GDM层37.1620%,效果如图26图26:统一指标推行后的效果数据安全管理面:敏感数据集市建设针对京东数以亿计的用户,京东大数据启动了敏感数据集市它的数据存储进行逻辑隔离。采用了国家认证的密钥算法,对用户隐私信息进行加密存储,并实现每1万行记录换一次密钥的方法。用户隐私信息在数据抽取时即被加密,保证隐私信息落地即密文。在用户隐私数据使用上采取严格的审批机制,必须经过用户据。IP京东大数据平台通过设立黑白名单机制限制非法IP访问集群员工账号绑定所有登录大数据平台的用户,无论是使用数据工具还是通过操作命令和员工账号,便于发生安全问题时进行追溯和查找。最小化授权策略大数据平台权限系统提供了一个和HDFS原生权限相匹配适应的授权模型管理访问策略,可以将用户的授权细化到文件级数据导出统计针对所有从平台导出的数据以及集市之间交换的数据进行统计,制作分析报告,防范风险。全面的日志审计所有大数据平台的日志都将保留并定期收集进行审计。用户保密协议所有使用大数据平台的用户必须和公司签署数据保密协议才能被授权使用。数据服务管理京东大数据平台为京东集团的所有业务部门提供数据服务。6000SLA数据服务协议为了保证为京东所有的业务用户提供高品质的数据服务,我们采用SLA动业务发展提供保障。在确定SLASLA的达成。数据集市服务SLA资源分配京东业务数据集市计算、存储等资源由京东大数据统一分配集市由业务使用部门派专人负责和管理。资源隔离通过技术手段实现了业务数据集市的资源隔离,集市可以根了数据的全生命周期管控。SLA保障大数据保障部门与使用数据集市的业务部门间达成了标准服(SLA7*24*365集市健康的集市健康指导方案。数据开发工具有利于形成统一的数据服务接口。数据平台产品包括了数据开发工具、数据可视化工具等。数据开发平台数据开发平台,是基于京东大数据资源和计算资源打造的一支持脚本在线编写调试,具备全过程监控机制集成文件版本管理,强化团队开发功能依托于集成GIT的自动化文件版本管理功能,实现脚本文件的提交、拉取、比对、合并等管理功能。强化团队开发功能,达到脚本在团队间的零成本传递,低成本协同,最大化团队开发效率,让研发工程师、BI工程师、数据分析师等人群发挥各自长处,最大化工作价值。数据结果可视化,实现所见即所得数据查询·数据查询整合Hive、Presto、Spark持用户以SQL取数据的成本。户操作,提升工作决策效率。JAMySQLOraclePrestoAPP析师,以及对数据可视化有快速实现需求的人群。用户仅通过简单的拖拽即可实现各类主题报表的开发。用户可以将数据报表通过邮件、手机APP等渠道分享给其他数据使用者,实现数据价值可视化。京东指南针“京东指南针”是一个深度洞察数据的OLAP产品,可以分滤等操作。“京东指南针”具有简单易用,数据分析过程所见所得等特深度洞察数据背后的故事。数据标注系统人工智能算法需要大量的数据进行训练,这些数据必须包含可被算法识别的数据特征标签,数据标注即给相关应用场景获取的数据进行算法需要的特征标识,比如标注人脸的位置、体态、动作等。可见,高质量的标注数据决定了算法模型的效果。数据标注的类型可分为:/标签:成人、女标框标注:机器视觉中的标框标注,就是框选要检测的对象。一般标注对象为图像,主要应用于人脸识别、物品识别等。区域标注主要应用于自动驾驶等。描点标注:一些对于特征要求细致的应用中常常需要描点标于人脸识别等。标注的类型除了上面几种常见类型,还有很多个性化的需求,根据不同的需求进行不同的标注。27要的工作任务是对不同来源的数据按照应用场景不同进行数据标签的加注。图27:数据标注平台任务派单等模块。数据采集 主要获得标注数据采集文本或者视频语音数据、图像数据等。数据标注服务块。数据标注管理集中管理数据标注完成之后的标注成果,核心任务交付和下一步质量迭代,从标注需求生命周期来管理数据使用。数据安全模块 要解决数据交付过程中的安全问题按相关的权限集中保护数据使用和加固数据环境。京东大数据的数据产品京东大数据的数据应用体现在业务的各个环节,如采销、搜京东商智京东商智是京东向第三方商家提供数据服务的产品。京东商PCAPPQM便于商家更加及时方便地操作。36036010080001服务。智能营销智能营销产品是一款面向客户全生命周期的个性化营销工具,如图28所示。智能营销产品通过分析和挖掘客户的浏览、交易等数据,确定客户所处的全生命周期阶段,预测用户对各种商品(在品类、sku等各种维度)的促销响应,基于预测结果构建营200%上。图28:智能营销产品智能营销产品采用了大数据技术预测用户流失、预测用户上数据管家数据管家是专门为一线业务运营人员及管理层打造的一款提升运营效率和决策效率的数据化运营产品。方面覆盖SKUSKU的关系以及人员到岗位的映射,以适应人员的调整和变动。数据管家支持业务人员设置个人业绩目标,每日销售数据匹名下运营的SKU能,对于重要的SKU效管理。数据管家利用预测模型对重点指标进行预测,让业务人员对为便于业务人员和管理层随时随地掌握数据,数据管家也提供移动端的数据展示,为用户提供更方便的使用方式。祖冲之零售行业的创新发展已经进入到了一个新的阶段,线上零售祖冲之产品就是在这样的背景下产生的,它的定位是通过线化、精细化的运营指导。如图29从选址、开店、引流、商品货架规划等全方位的指导。图29:祖冲之数据维度和功能品牌商在拓展线下业务之前必然要关注行业的发展情况,比营销。商品货架的陈列是用户购物转化率的重要因素。祖冲之产品建议,并结合线上热销商品数据提供上新建议。结合京东强大的供应链管理能力,祖冲之产品未来将嫁接线上供应链服务能力到线下门店业务,包括销售预测、库存预警、京东大数据的应用场景营销领域作为实体经济和数字经济深度融合的创新型企业,京东拥有大数据智能不仅实现了千人千面的用户个性化推荐,同时在并挖掘精准营销的机会,然后借助AI驱动的智能营销工具进行在智能广告投放方面京东利用AI大大提升了广告主的投放效率。而在数据开放和智能数据分析方面,广告主可以实现受众的引入ISV物流领域随着大数据时代的到来,大数据和人工智能技术加快向物流方面起到积极的作用。在终端配送规划阶段,京东的大数据与人工智能通过全网干规划,保障路区产能科学平衡。供应链领域京东拥有中国最先进的零售供应链,借助自身极具价值的大存通过非常复杂的三级物流网络管理,实现了530万个SKU的库存周转天数仅有30多天。京东目前500多个仓库的数百万种商品,已有将近60%的订单通过人工智能技术实现了自动管理。销售预测与补货:预知市场,保证现货率供应链管理最难突破的就是计划管理。能否善用数据预测消SKU如果单纯靠人工进行SKU战。电商企业的供应链系统需要根据以往大量的用户数据、销售系统能够在消费者还没有下单前就提前将商品从供应商那里完成采购,并第一时间调拨到离消费者最近的仓库。库存健康:优化库存,处理滞销品京东的库存健康系统每天通过大数据和AI技术驱动库存管理更加高效,零售更加智能。京东零售平台借助大数据优化库存结构和降低库存成本,通升库存周转率为核心目标的智能系统群。智能选品与定价:合理定价,收益最大化京东电商管理平台自动抓取全网的商品数据,以此监控本平预期收益、价格的风险控制等强大功能。供应商协同:深度整合,打通产业链大数据下的供应商协同更加高效。电商平台可与供应商进行产业链发展共同体,打通供应链上下游。智能零售2017年可谓是零售行业变革的一年,大数据、人工智能和物京东之家、7fresh生鲜超市等无界零售新业态,这些零售模式创零售模式除了业态创新,还需要通过技术来实现零售运营和Take店、无人超市、京东之家、7fresh加油站、机场、酒店、购物中心等各种应用场景。金融业务创新京东数科充分利用京东集团超3亿活跃用户的交易数据及几十确保京东数字科技集团各级部门均可在保证数据隐私和安全的前融业务创新(客户服务创新、产品创新等)创造有利条件。理复杂的现状,实现应用系统建设模式的转变,提升相关IT系统的建设和运行效率。通过京东数科大数据的分析和挖掘,不仅完成了对金融业务体系的完备,也为未来的业务方向提供了有力的数据支撑。杠杆率并不高的现状推出白条等互联网金融产品中小企业融资京小贷和动产产品私募股权融资生态圈业务等创业服务生态。结果变得更加有效。定价。京东数科的风控体系不仅在自身产品和服务上得以应用,更低成本提高效率。比如“京保贝2.0”收账款。“京保贝2.0”应链金融能力。通过新型大数据风控以及流程优化等方法银行需要大量人力服务的业务转变成无需人工审核的线上自动融资的客户贸易量增长超过200%远低于业内平均坏账率水平。时尚创新随着AI人工智能和大数据技术在时尚领域打造新的产品和服务形态。SKU图片以及服饰标签数据,为服饰属性标注、而使智能算法能够应用于更加多元化的场景。京东的时尚技术不仅限于服装零售行业的产业赋能,同时也之下,未来时尚设计会更加精准。人工智能数据平台从2014些成果转化为实际的生产力运用在京东的内部场景中。在电商场景中,图像作为连接用户和商品信息媒介起到了非帮助京东优化用户体验,提升商家的经营效率。图像搜索特征检索模块是指从特征库中检索特定的特征向量。在数据到目前为止,京东的图像搜索技术已经应用在京东手机APP的拍照购业务。图像审核京东一直以来对于平台上售卖的商品的图像质量都有非常严经无法满足要求。京东大数据在2015核解决方案。整个解决方案覆盖了京东所有SKU的相关图像数T+1SKUSKU防止商家漏填、多填、错填,提升依赖属性数据的下游业务。片、血腥暴力图片等。用logo等情况。文字识别京东的文字识别系统历经了三年的研发,到目前为止京东的6合规、用户身份认证等30个项目中,每天请求次数达上千万。京东的文字识别系统中的检测模块和识别模块都采用了端到题。与其他的图像类算法不同,文字识别服务采用了长短记忆网及硬件、驱动和软件层面的优化。人脸识别人脸识别被广泛用于人脸门禁以及其他商业、安保设备的身APP95%(的人1:100top195%以上。我们还开发了一套功能完备的SDK,别技术在新一代的智能零售终端如智能门店中能够提升精准销户引导等功能。京东大数据的合作生态数据的技术能力和数据价值。我们和Intel、Nvidia等公司展开了广泛的合作。京东大数据IntelSparkonKubernetes及其相Spark双方的合作也有利于推动开源社区和整个行业在大数据技术领Intel我们同样在产学研的合作上也做了很好的实践。我们邀请清2017据技术的进步。以云为基础设施,大数据技术平台可以用PaaS的商家和用户提供了数据服务。大数据和IOT、AI等技术融合力,也可以为外部客户提供领先的供应链技术平台。京东大数据期望能以技术和数据,为大数据行业的生态建设贡献更多的力量。京东大数据的特点高可用和高性能YarnFederationHadoopYarn无法满足规模扩展的要求。京东大数据平台部自研了YarnFederation技术,如图30所示,解决目前开源版本的Yarn带来的性能瓶颈。通过YarnFederation技术打破了Hadoop分布式系HadoopHadoop图30:京东YarnFederation技术架构图Kubernetes是Google开源的容器集群管理系统。它构建在Docker技术之上,为DockerKubernetes了广泛的应用。京东大数据平台自研了“大数据虚拟化容器”技术,如图31所示,打通了Hadoop与Kubernetes系统之间的技术壁垒,实现了Hadoop与Kubernetes系统混合部署与资源共享。京东大数据平台的实时计算、Spark计算、HBase等核心数据服务可以同时运行在Hadoop与Kubernetes系统上,并实现了资体性能。图31:京东大数据虚拟化容器技术架构图VitualFileSystem一个HadoopIO之产生木桶效应,造成集群的资源浪费。通过对资源VitualFileSystem技术的研究,京东大数据平台自CPU、IO、负载、磁盘容量、网络等策略,降低了集群IOHadoop200%以上。一站式服务平台京东大数据平台是一站式的服务平台,主要体现在:完整的数据链条送到客服的完整过程,具有京东最完整的数据链条。完善的技术体系京东大数据平台建立了完善的技术体系。大数据平台支持结环境。全面的平台产品和服务的效率。大数据平台提供数据集市服务,基于SLA体验。可靠的安全保障大数据平台拥有业界领先数据保护和数据共享能力。平台提供敏感数据保护及数据共享功能,同时对数据全生命周期进行道加密,保证用户使用过程中的数据安全,全方位无死角的防篡改、防盗用、防截取,为平台内部数据保驾护航。数据分级保护数据安全,创造面向数据的安全管理系统,如图32所示。图32:数据安全管控示意图一级敏感数据使用物理环境完全隔离方式,严格控制数据访问与数据流动,数据审计,最大限度保障数据安全。二级业务数据通过用户的数据授权与审计方式,控制数据的流向,防止数据私下拷贝、下载等操作,实时监控数据血缘关系,标记数据最终流向。三级共享数据针对用户间共享数据,大数据平台会向数据生产方提供数据现有共享使用情况,同时支持共享数据的灵活授权功能,数据生产方能够更安全、更方便地进行数据分享。用户权限与用户认证大数据平台通过用户权限系统管控数据共享与数据私密性,授权可到文件级,满足最小化授权要求,同时保证用户信息不可伪造,进而保障用户数据安全,图33展示了用户权限系统的架构。图33:权限系统架构图传输通道加密34RPC图34:传输通道加密示意图京东大数据展望融合统一大数据技术从概念提出,经过了20多年的发展,特别是在ApacheHadoop势的一些见解。数据源的融合随着大数据技术的发展,越来越多的数据类型被纳入了其处(用户、订单数据、来自服务的日志数据(如点击流,到IoT(InternetofThings,物联网)设备产生的海量数据。这些数据在不同维度具有不同的特性:涵盖了结构化(如关系数据、半结构化(如web非结构化(如语音、图片)数据。读数、大数据处理的结果等。式方式接入。用户数据。(datalake据不一致。数据的融合,尤其是IoT数据的加入,也对大数据技术提出了相应的需求:(比如EB级别同时不同来源、属性的数据需要不同级别的安全保护。如IoT数据可以通过一些标准的协议如MQTT式实时处理。API身需要支持高效查询,并能够随着数据的变化而进行更新。API提供一个稳定的查询接口。大数据技术发展到现在,无论是开源方案还是专有的闭源方案,都衍生出了很多的产品。这里我们的讨论着眼于Apache开源生态圈的技术方案。不可否认,在大数据处理方面,ApacheHadoop及其相关的开源项目,正在成为业界的标杆。数据处理技术的融合可以从不同的层次来阐述:从分析引擎的角度,最初的HadoopMapRe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论