版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京中位科技物联网大数据平台整体设计李拓目录 TOC o 1-5 h z 前言3,文档目的3文档范围3 HYPERLINK l bookmark55 o Current Document 预期的读者及阅读建议 3术语3 HYPERLINK l bookmark70 o Current Document 项目概括4.项目背景4设计目标4 HYPERLINK l bookmark79 o Current Document 技术规划路线建议 4 HYPERLINK l bookmark83 o Current Document 大数据软硬平台网络架构规划建议 5. HYPERLINK l bookm
2、ark87 o Current Document 大数据应用集成点规划建议 5. HYPERLINK l bookmark91 o Current Document 大数据团队建设规划建议 5 HYPERLINK l bookmark95 o Current Document 大数据系统实行指导建议方案 5 HYPERLINK l bookmark99 o Current Document 数据平台整体架构规划5 HYPERLINK l bookmark103 o Current Document 数据平台愿景5. HYPERLINK l bookmark108 o Current Docum
3、ent 数据办理流程8. HYPERLINK l bookmark111 o Current Document 主要功能8 HYPERLINK l bookmark117 o Current Document 设计原则9 HYPERLINK l bookmark124 o Current Document 平台建设路线9. HYPERLINK l bookmark127 o Current Document 数据平台软件架构设计 10 HYPERLINK l bookmark131 o Current Document 数据平台构造图 1.Q HYPERLINK l bookmark138 o
4、 Current Document 数据收集系统LL HYPERLINK l bookmark144 o Current Document 数据储存系统LL HYPERLINK l bookmark147 o Current Document 离线计算系统1.2 HYPERLINK l bookmark153 o Current Document 海量数据库系统12 HYPERLINK l bookmark157 o Current Document 管理系统13 HYPERLINK l bookmark163 o Current Document 应用平台架构设计 1.4. HYPERLIN
5、K l bookmark167 o Current Document 5.1.应用平台架构图 14 HYPERLINK l bookmark170 o Current Document 平台安全 15 HYPERLINK l bookmark174 o Current Document 平台监控 15 HYPERLINK l bookmark178 o Current Document 部署架构 15 HYPERLINK l bookmark182 o Current Document 平台运维 15 HYPERLINK l bookmark194 o Current Document 10.
6、 团队建设16 HYPERLINK l bookmark197 o Current Document 运维工程师16 HYPERLINK l bookmark201 o Current Document 应用开发工程师 16 HYPERLINK l bookmark205 o Current Document 通讯协议开发工程师 16鉴于Hadoop的开发工程师16 HYPERLINK l bookmark210 o Current Document 数据开发工程师 16 HYPERLINK l bookmark214 o Current Document 数据发掘工程师 17刖言文档目的本文
7、档是对于xx公司物联网大平台的整体架构设计方案。本文包含以下内容:平台整体架构设计;五大子系统设计;应用平台设计平台部署架构设计;平台运维及团队建设;文档范围本文档仅限于北京xx科技公司内部人员和直接辅助北京xx科技进行大 平台建设的有关人员阅读。预期的读者及阅读建议本文档的预期读者:北京xx科技的大平台项目有关人员;直接辅助北京xx科技进行大平台建设的有关外面人员;术语Hadoop: Apache的散布式框架。HDFS : Hadoop的散布式文件系统。NameNode : Hadoop HDFS元数据主节点服务器。负责保持DataNode文件储存元数据信息。JobTracker: Hado
8、op 的 Map/Reduce 调动器,负责与 TackTrackei通讯分派计 算任务并追踪任务进度。DataNode : Hadoop数据节点,负责储存数据。TaskTracker: Hadoop调动程序,负责 Map,Reduce任务的详细启动和履行。Kafka :信息行列。Netty : NOH 架。项目概括项目背景跟着业务的增添,数据收集存贮备份能力严重不足数据办理剖析能力没法知足业务的需要公司业务创新转型的需要设计目标xx的大数据平台主假如为车辆、人员、物联网供给终端接入、数据剖析, 并为行业应用供给数据接口。平台建成后,早期可接入百万级的终端,可承载 多种业务及应用。跟着业务增添
9、,平台能够动向扩容,最后可实现千万级、 亿级终端的接入及数据剖析办理能力。本文档针对XX的大数据平台应用需求,联合数据的特色,提出将来公司 整体的系统架构,以充足知足公司在3到5年内的业务增添和数据增添需求。 并且在公司总系统统架构的基础上,提出系统的软硬件的详细选型方案,以 及供给大数据平台整体规划,分步实行和推行的建议;供给大数据平台产品 整合、集成、系统优化、稳固性等建议方案。技术规划路线建议对XX大数据平台系统进行整体规划,与现有的交通部数据中心以及各 个业务系统进行对接,以适应将来 3到5年内公司业务发展的要求。.大数据软硬平台/网络架构规划建议从需求的数据量、计算量、应用的场景、功
10、能、性能等因向来配置软硬 件平台的建议;提出详细的系统整体架构和软硬件部署构造建议;.大数据应用集成点规划建议Hadoop数据集成、应用集成、运维管理设计建议;.大数据团队建设规划建议对xx技术团队的人员需乞降配置状况以及所需要掌握的技术提出建 议;.大数据系统实行指导建议方案供给大数据平台整体规划,分步实行和推行的建议;供给大数据产品整 合、集成、平台化的建议系统优化、稳固性等建议方案。数据平台整体架构规划3.1 .数据平台愿景应用平台:应用开发人员开发鉴于数据平台的车辆监控、人员监控、J / 八/|,八 I 4 /II_II 丁V I如上图所示,XX的大数据平台最后建成后,应当是一个齐备的
11、数据服务平台,包含数据平台、应用平台、数据产品以及内部运转支撑应用环境,该平台上的用户既包含外面用户,也包含公司内部用户,既有最后用户,也有应用开发人员以及数据剖析和数据开发人员。1.数据服务平台构成数据平台:是数据的集散地。数据平台的主要目标是储存和办理海量数据,该平台除了汇聚XX全部的业务数据和用户数据以外,还有合作机构的有关数据,其中心功能包含数据收集、同步与集成、海量数据储存、海量数据办理框架、海量数据库房等。该平台的用户主要有数据剖析用户和数据开发用户,这两类用户在数据平台长进行数据剖析及数据集成、建模与发掘。世用甲咨分折剧II中心数裾存3T&物件监控等应用并部署在应用平台,供最后用
12、户接见。该平台的建 设目标是办理海量http!求,其中心功能包含应用服务器、散布式 缓存、散布式信息行列、散布式文件系统、散布式数据库以及散布 式简单储存等。内部运转支撑应用环境:该环境主要供公司内部用户将使用,包含 商业智能、营运支撑、系统运维、剖析应用等。该数据产品由大数 据平台开发人员进行研发。数据产品:当该平台稳固运转一段时间以后,公司依据业务发展 的需要,能够开发特意的数据产品,对外供给数据服务,供最后用 户使用。该数据产品由大数据平台开发人员进行研发。数据服务平台的用户区分应用开发用户:xx内部的技术研发人员,主要联合详细业务,开发 鉴于数据平台的应用,并部署到应用平台;数据剖析用
13、户:xx内部的技术研发人员,主要鉴于数据平台中的 海量数据,进行业务数据剖析,指导生产营运;数据开发用户:xx内部的技术研发人员,主要鉴于数据平台中的 海量数据,进行数据建模、集成和发掘,在指导生产营运的同时,发 掘新的收益增添点;内部数据产品用户:包含各条业务线上的各种业务人员如客服等。外面用户:合作机构如营运商、银行、商户,终端用户、公司用户 等。地点信息数据源数据平台能够从第三方平台(交通部数据中心、营运商)或定位中端 (车机、sim卡)等收集地点、状态等信息。不论是公司内部用户,仍是公司外面用户,不论是技术研发人员仍是业务人员,他们既是平台数据的生产者,同时也是平台数据的花费者。集储存
14、、计算、剖析于一体的大数据平台,涵盖了 xx业务数据的全生命周期管理,既 切合此刻行业大数据公司发展的趋向,也最后表现了 xx公司的最后最内v/涵的价值。3.2.数据办理流程收集平台海量储存计算办理平台非构造化数据及时流式同步构造化数据及时流式同步数据源构造化数据离线同应用服务平台xx大数据平台的数据办理流程如上上图所示。对各种终端产生的构造化和非构造化数据源第一经过数据收集平台进行数据收集,而后进入海量储存 计算办理平台,生成各样多维数据,供给用服务平台调用,支持最后的用户 接见。3.3.主要功能联合xx的目前业务发显现状,目前xx的大数据平台要点解决三类典型需求:业务数据归集、备份与靠谱储
15、存离线数据剖析发掘及时查问统计剖析针对这三类需求,大数据平台在数据收集和营运管理的辅助下,分别提 供储存系统、离线计算系统和海量数据库系统,分别知足上述三类需求。下 面第一介绍平台的软件架构设计。3.4.设计原则采纳鉴于Hadoop的开源技术路线整合公司的终端数据、职工、客户、计算、储存等全部资源于一体平台涵盖公司数据生产、储存、发掘、剖析、服务等全生命周期管理联合业务线,剖析发掘和业务支持等应用自主研发3.5 .平台建设路线项目分阶段达成。1期:开发数据收集系统,从第三方平台及终端收集地点信息,实现2种终端的接入。开发应用平台,供给接口给客户端接见数据。2期:实现多种终端的接入,并完美应用接
16、口。3期:开放储存系统和简单的MapReduce功能给其余用户使用,数据库 方面单表的简单查问或带条件查问,内部使用及时收集组件。4期:开放Hive这样的类SQL计算给外面门,内部开始引入Mahout进行 数据发掘,数据库方面改良查问语言,支持更多的SQL语法,及时收集能够 交给其余部门随意部署客户端,支持常有的异构数据源5期:计算平台成熟,完整成为各部门共同参加开发业务的平台,数据 库具备大多数SQL查问语法,及时收集系统稳固高效运转。数据平台软件架构设计4.1.数据平台构造图EHWork flow Manage PxrfPi源吉策译日志处理CoHectedClient化敏拒&入 2羿5如所
17、上图所示,大数据平台由五个子系统构成,分别为:储存系统、离 线计算系统、海量数据库系统、收集系统和管理系统。这五个子系统之间有 以下关系关系:管理系统为整个平台的辅助系统,为其余系统的正常运转供给有关的辅 助功能;收集系统负责平台的数据收集工作,这些数据的产生来自各业务生产系 统及第三方平台或终端;储存系统、离线计算系统和海量数据库系统共用一套基层文件系统,保 证了这三个主要系统的数据集成与有效共享;离线计算系统和海量数据库系统还能够依据各自的负载,能够动向分派 相应的计算能力。从错误!未找到引用源。能够看出,除收集系统和管理系统以外,包含基层储存环境在内的全部系统都是采纳开源软件搭建,而这些
18、软件都是经过有关行业的技术公司先验是成熟靠谱可行的。采纳开源软件,在平台能够达到低成本建设的成效的同时,相应开源社区的连续演进,也为平台后续的运 行升级供给了连续的技术支持和版本稳固保证。4.2 .数据收集系统功能负责接入第三方服务平台和终端设施。负责收集、冲洗和导入公司 各业务线上的全部的构造化业务数据和非构造化数据。要解决的问题目前,公司需要和交通部的数据中心对接,接收终端的地点数据。同时也要接入大批的终端。并且,将来业务生产线的系统日记信息 因为也需要保留下来,并进行剖析发掘。收集系统能够将业务生 产线的全部业务数据和日记数据收集到采纳低成本的开源可线性扩展的储存环境,达到了数据低成本安
19、全靠谱储存,并支持进一步的 数据剖析和发掘。搭建方法使用优异的Netty框架,与第三方应用和终端通讯,收集数据。针对 各样终端采纳的不一样通讯协议,开发相应的协议分析模块,将地 点和指令信息分析为构造化数据,保留到HDFS中。采纳业界成熟的Flume开源包将驻留在生产环境共享储存上的非构造化的日记数据以增量靠谱的方式收集到HDFS中,采纳Sqoop开 源包从备库中将业务构造化数据增量收集到HDFS中。4.3.数据储存系统1.功能为公司内部各业务部门供给低成本安全靠谱可扩展的一揽子储存解决方案,做为业务数据的备库、支持离线计算和实行办理系统的 数据导入与导出等。2.要解决的问题储存系统利用开源A
20、pache HDFS平台所供给的低成本、安全、靠 谱、可线性扩展的平台优势,能够解决公司的业务数据归集、备份 与低成本靠谱储存。4.4.离线计算系统功能为公司各业务部门的技术人员和业务人员供给海量数据的剖析、建 模、集成和发掘计算环境。要解决的问题搭建公司数据离线计算环境,安排专业的运维团队,用低成本、计 算共享、专业团队支撑的方式建设起来的可线性扩展的离线计算环 境。搭建方法在Hadoop HDFS 之上,用MapReduce进行散布式计算,用 Hive为用户供给友善的计算客户端,用Mathout解决机器学习数据发掘问 题。4.5 .海量数据库系统1. 功能为公司内部人员、家产链上下游合作伙
21、伴、终端用户供给高并发、 及时可扩展的数据剖析查问统计环境。2. 要解决的问题搭建及时查问统计剖析办理系统, 在专业开发和运维团队的支持下, 供给一个公司目前紧缺的专业的散布式海量数据及时办理环境。该环 境对内能够支撑公司有关业务的商业智能、业务支撑等应用,提高 业务能力,展开新的业务,对外能够支持公司上下游家产链的有关合 作伙伴、有关的公司用户的在线查问恳求,改良用户体验,提高服 务质量,加强客户的黏性,扩大用户范围,增添业务营收。搭建方法在Apache HDFS 基础上,经过HBase的海量储存能力和迅速的查问功能,对外供给Web和RESTfull API两种用户接口,为有关的用 户和应用
22、供给高并发、高吞吐量的鉴于海量数据的及时查问统计剖 析办理系统。4.6 .管理系统功能供给整个平台的共性功能,包含用户管理、接见控制、平台监控、平 台升级、性能隔绝和作业调动等辅助功能组件,为平台的连续靠谱 营运供给外头支撑环境。要解决的问题每一个好的生产系统,都有一个靠谱的运转辅助支撑环境。管理系统为整个大数据平台的稳固安全长久运转供给靠谱的外面辅助支撑。搭建方法用户系统能够采纳服务器当地系统和平台新建用户系统相联合的方式来解决;监控能够采纳HadoopAmbari来搭建;接见控制能够经 过设置用户接见权限、环境隔绝等方式来达到要求;要解决性能 隔绝和作业调动,一个最简单的方法是经过平台和任务监
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全员A证考试提分评估复习及参考答案详解【综合卷】
- 北京航空航天大学幼儿园招聘保育员考试备考试题及答案解析
- 安全员A证考试考前冲刺分析含答案详解(满分必刷)
- 食品安全管理员考试试题及答案(2024版)
- 安全员A证考试题库检测题型及答案详解(新)
- 《长征》(王树增)阅读理解及答案
- 2025年橡胶车安全测试题及答案
- 2025年食品安全知识问答题库及答案
- 2025年国考行测试卷及答案1
- 安全员A证考试考前冲刺模拟题库及参考答案详解【突破训练】
- 河南豫能控股股份有限公司及所管企业2026届校园招聘127人笔试模拟试题及答案解析
- 要谦虚不要骄傲课件
- 2026国家保安员资格考试题库及参考答案【完整版】
- 微生物检验质控措施分析
- 2026年黑龙江农业工程职业学院单招职业技能考试题库及参考答案详解1套
- 妇科肿瘤保留生育功能治疗策略
- 宫颈癌病理课件
- 2025东航股份综合管理部招聘笔试历年参考题库附带答案详解
- YY/T 1973-2025医用下肢外骨骼机器人
- 肿瘤晚期呼吸困难治疗
- 车间电缆整改方案模板(3篇)
评论
0/150
提交评论