




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、xxx大数据库中心数据库投资商和企业数据采集处理项目项目编号:i5300000000617001206技术方案xxx有限公司二一七年六月目录1引言.31.1项目背景.31.2项目目标.31.3建设原则.31.4参考规范.41.5名词解释.52云数据采集中心.72.1需求概述.72.2总体设计.72.3核心技术及功能.103大数据计算平台.343.1需求概述.343.2总体设计.343.3数据模型设计.354数据运营.384.1数据挖掘分析.384.2数据分析处理的主要工作.384.3数据分析团队组织和管理.395安全设计.426风险分析.467部署方案.478实施计划.489技术规格偏离表.4
2、910售后服务承诺.5211关于运行维护的承诺.5512保密措施及承诺.5613培训计划.581引言1.1项目背景xxx大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到xx投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监管、可协调、可管理、
3、可配对、可跟踪、可考核。本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。1.2项目目标l制定招商大数据运营规范及管理办法。l制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。l根据业务需求,研发招商大数据招商业务分析模型,并投入应用。l根据运营规范及管理办法的要求持续开展数据运营工作。1.3建设原则基于本项目的建设要求,本项目将遵循以下建设原则:l前瞻性和高标准整个项目要按照企业对大数据应用的需要的高要求和高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一
4、定前瞻性。l经济性和实用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。l先进性和成熟性为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。l高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。1.4参考规范ll
5、lllgb/t20269-2006信息安全技术信息系统安全管理要求gb/t20984-2007信息安全技术信息安全风险评估规范gb/t22239-2008信息安全技术信息系统安全等级保护基本要求gb/t22240-2008信息安全技术信息系统安全等级保护定级指南ga/t388-2002b计算机信息系统安全等级保护管理要求llllllllgb/t8567-1988计算机软件产品开发文件编制指gb/t11457-1995软件工程术语gb/t11457-2006信息技术软件工程术语gb/t16260.1-2006软件工程产品质量第1部分:质量模型gb/t16260.2-2006软件工程产品质量第2部
6、分:外部度量gb/t16260.3-2006软件工程产品质量第3部分:内部度量gb/t16260.4-2006软件工程产品质量第4部分:使用质量的度量gb/t14394-2008计算机软件可靠性和可维护性管理lgb/t17544-1998信息技术软件包质量要求和测试1.5名词解释ls2dfs:简单存储分布式文件系统(simplestoragedistributedfilesystem)ld2b:分布式数据库(distributeddatabase)ljss:作业调度服务(jobschedulerservice)ldcs:数据计算服务(datacomputerservice)lmps:消息处理服
7、务(messageprocessservice)lsds:流数据处理服务(streamdataservice)ldmq:分布式消息队列(distributedmessagequeue)ljgs:作业生成服务(jobgenerationservice)lacs:自动清理服务进程(automaticcleaningservices)lhttp:超文本传输协定(hypertexttransferprotocol)lsmb:服务器信息块协议(servermessageblock)2云数据采集中心2.1需求概述根据规划,云数据采集中心的建立至少满足1至2年内的数据存储和计算规模,需要满足:l数据采集范围
8、包括但不限于世界500强、全国500强、行业20强企业相关数据。l总数据容量至少达到30t。2.2总体设计整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。用硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服务器,分(来作统计、析以及搜索用的计算服务器,来部署分布式消息dmq)/web/app软件的web及消息服务器,用来部署用postgresql关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(jss)的作业调度服务器。作为数据通信用的全千兆三层交换其机等等。中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。存储服务器用来部署电分布式文件系统和分布式
9、数据库,同时存储非结构化和结构化(台标图片,商图片等等)。和结构化数(行为数据,索引数据,log数据,清理后的细颗粒度数据等等)计算服务器主要用来完成数据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前期也可以考虑把作业调度服务进程(jss)进程部署在存储/计算服务器上。由于云数据,采集中心需要面对多种宽带用户(电信、移动、联通)所以,数据中心的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速和可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主
10、体”部分,在核心技术章节会对“分布式文件系统(s2dfs)、“分布式数据库(d2b)、“分布式消息服务(dmq)”“作业调度服务进程(jss)、数据计算服务进程(dcs)”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的64位操作系统centos6.5(也可以选择rhel6.5x64);其核心软件或者进程有:分布式文件系统(s2dfs)、分布式数据库(d2b)、作业调度服务进程(jss)、数据计算服务进程(dcs)、作业生成服务进程(jgs)、消息处理服务进程(mps)、流数据处理进程(sds)等等。web及应用服务器软件apache&tomcat,消息队列软件分布式消息(dmq)。
11、还要实现整个云数据采集中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及ui表达层,功能实现需要基于软件平台层的支撑,后期设计和实施的主体。该层的主要功能应用有:数据采集应用、数据统计应用、云数据采集中心的资源监控及调度。和、通过公共数据网(电信、联通、移动)http协议,把采集的海量文本图片数据以及以用户行为数据存储在云数据采集中心里,供后期分析计算用。云数据采集中心整体架构图云数据采集中心网络结构图2.3核心技术及功能2.3.1分布式文件存储技术(1)传统存储技术面临的问题:n构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。n文件系统功能和性能差强人意:难以实现全局
12、命名空间的文件共享、文件系统难以扩展,容易形成瓶颈。)n扩展性困难:技术存在瓶颈(scale-up架构决定的、扩展成本无法控制。n可用性问题:潜在的单点故障,数据恢复困难,代价高。n应用目标差异:主要面临运营商、金融行业的oltp应用、很少针对海量的流数据,或者非结构化数据进行设计和优化。n异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷繁复杂,无法整合,资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技术架构。主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提供海量的存储平台,以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于
13、通用x86部件之上的高可用、高可靠、高可扩展的新型分布式文件系统。应用分布式文件系统,用户可以采用廉价可靠的通用服务器、sata/sas硬盘以及以太网络来构建媲美企业级存储产品的存储系统。(2)分布式文件系统应对的数据特性和访问特性:n数据量巨大,数百tb或pb级,增长迅速;n类型多样化,包括图像、文本、语音、视频等文件数据;n按时间有序生成,数据均带有时间标志;n前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记录或者上gb量数据;n更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查询涉及大量的磁盘读操作,查询处理产生大量的临时结果,不同类型的数据存在联合分析查询;分布式文件
14、系统的基本原理是采用集群方式来整合物理上独立的多个存储资源,以软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性,任意单一节点失效均不会导致数据丢失和数据服务的正常运行;同时,分布式文件系统通过良好设可计的系统结构和数据分布策略,保证系统性能的高可扩展性,并支持存储容量/性能的在线扩展。、,相比较于das(直连存储)san(存储区域网络)和nas(网络存储)应用提分布式文件系统构建的网络存储系统更像是一个nas,供类似于传统nas的文件级)访问接口(san和das都是块设备级别的访问接口。(3)分布式文件系统与传统nas/san设备的比较:比较项高端nasfc-san分布式文件系统
15、性能扩展能力一般双端口,性能受机头一般双端口,性能受性能随节点数的增加成线影响,难以扩展,出口带机头影响,难以扩展,性增长宽是瓶颈iops较好性能及容量无法扩展,或能较好扩展,但成本性能及容量按需扩展,动者有限扩展高昂态均衡可用性双raid方式保护,双机保raid方式保护,机护,停机raidrebuid,耗保护,停机时raidrebuid,耗时基于灵活的多副本机制,自动检测,动故障恢复,无需停机数据管理企业级功能需要单独购买企业级功能需要单内嵌多种企业级应用:快独照、镜像、回收站购买(还需要单独的文件系统,100多万一套)成本可维护性专有的硬件平台,软件拥专有的硬件平台,软开发通用的硬件平台,
16、一有成本高,扩展成本高件拥有成本高,扩展体化的软件,成本低,扩成本高展成本低专门的技术支持服务,需结构异常复杂,需要内嵌多种自动化的故障检国要培训大量培训,厂商服务测和恢复功能,内开发,昂贵技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统nas通常以单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和单一故障点。而分布式文件系统则有多个节点集合地提供服务,由于其结构特征,分布式文件系统的性能和容量均可在线线性扩展,并且系统内不存在单一故障点。对比参看下面两幅示意图:传统存储架构图分布式文件系统架构图分布式文件系统的设计应用特别适合海量非结构化数据存储,大量客
17、户端并发的i/o密集型应用。目前,分布式文件系统已经被应用于政府、医疗影像、勘查数据计算、视频服务以及动画制作等领域。这些领域的数据访问特征均为:数据量巨大,i/o吞吐率高,数据增长迅速以及数据可用性要求高。经过长时间的实际生产环境使用,分布式文件系统已被证明是该类型应用的有效解决方案。布式文件系统的服务器端程序运行于linuxx64系统之上,支持多种linux64位发行版,包括redhat、centos等。分布式文件系统客户端则支持linux和windows,同时分布式文件系统还可以通过第三方软件输出cifs和nfs接口,可以兼容大多数应用。(4)分布式文件系统的核心技术及特征:n扩展性和高
18、性能:分布式文件系统利用双重特性来提供几tb至数pb的高扩展存储解决方案。scale-out架构允许通过简单地增加资源来提高存储容量和性能,磁盘、计算和i/o资源都可以独立增加,支持10gbe和infiniband等高速网络互联。分布式文件系统弹性哈希(elastichash)解除了分布式文件系统对元数据服务器的需求,消除了单点故障和性能瓶颈,真正实现了并行化数据访问。n高可用性:分布式文件系统可以对文件进行自动复制,如镜像或多次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下也能正常访问。自我修复功能能够把数据恢复到正确的状态,而且修复是以增量的方式在后台执行,几乎不会产生性能负载。
19、分布式文件系统没有设计自己的私有数据文件格式,而是采用操作系统中主流标准的磁盘文件系统(如xfs/ext4/zfs)来存储文件,因此数据可以使用各种标准工具进行复制和访问。n全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一个单一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件。存储资源可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或收缩。当存储虚拟机映像时,存储的虚拟映像文件没有数量限制,成千虚拟机均通过单一挂载点进行数据共享。虚拟机i/o可在命名空间内的所有服务器上自动进行负载均衡,消除了san环境中经常发生的访问热点和性能瓶颈问题。n弹性哈希算法:分布式文件系统采用弹性哈希算
20、法在存储池中定位数据,而不是采用集中式或分布式元数据服务器索引。在其他的scale-out存储系统中,元数据服务器通常会导致i/o性能瓶颈和单点故障问题。分布式文件系统中,所有在scale-out存储配置中的存储系统都可以智能地定位任意数据分片,不需要查看索引或者向其他服务器查询。这种设计机制完全并行化了数据访问,实现了真正的线性性能扩展。n弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存,不会导致应用中断。逻辑卷可以在所有配置服务器中增长和缩减,可以在不同服务器迁移进行容量均衡,或者增加和移除系统,这些操作都可在线进行。文件系统配置更改也可以实时在线进行并应用,从而可以适应工作负载
21、条件变化或在线性能调优。:n完全软件实现(softwareonly)分布式文件系统认为存储是软件问题,不能够把用户局限于使用特定的供应商或硬件配置来解决。分布式文件系统采用开放式设计,广泛支持工业标准的存储、网络和计算机设备,而非与定制化的专用硬件设备捆绑。对于商业客户,分布式文件系统可以以虚拟装置的形式交付,也可以与虚拟机容器打包,或者是公有云中部署的映像。开源社区中,分布式文件系统被大量部署在基于廉价闲置硬件的各种操作系统上,构成集中统一的虚拟存储资源池。简而言之,分布式文件系统是开放的全软件实现,完全独立于硬件和操作系统。n完整的存储操作系统栈(completestorageoperat
22、ingsystemstack:分布式文件系统不仅提供了一个分布式文件系统,而且还提供了许多其他重要的分布式功能,比如分布式内存管理、i/o调度、软raid和自我修复等。分布式文件系统汲取了微内核架构的经验教训,借鉴了gnu/hurd操作系统的设计思想,在用户空间实现了完整的存储操作系统栈。:n用户空间实现(userspace)与传统的文件系统不同,分布式文件系统在用户空间实现,这使得其安装和升级特别简便。:n模块化堆栈式架构(modularstackablearchitecture)分布式文件系统采用模块化、堆栈式的架构,可通过灵活的配置支持高度定制化的应用环境,比如大文件存储、海量小文件存储
23、、分布式文件系统、多传输协议应用等。每个功能以模块形式实现,然后以积木方式进行简单的组合,即可实现复杂的功能。比如,replicate模块可实现raid1,stripe模块可实现raid0,通过两者的组合可实现raid10和raid01,同时获得高性能和高可靠性。:n原始数据格式存储(datastoredinnativeformats)分布式文件系统以原始数据格式(如ext3、ext4、xfs、zfs)储存数据,并实现多种数据自动修复机制。因此,系统极具弹性,即使离线情形下文件也可以通过其他标准工具进行访问。如果用户需要从分布式文件系统中迁移数据,不需要作任何修改仍然可以完全使用这些数据。:n
24、无元数据服务设计(nometadatawiththeelastichashalgorithm)对scale-out存储系统而言,最大的挑战之一就是记录数据逻辑与物理位置的映像关系,即数据元数据,可能还包括诸如属性和访问权限等信息。传统分布式存储系统使用集中式或分布式元数据服务来维护元数据,集中式元数据服务会导致单点故障和性能瓶颈问题,而分布式元数据服务存在性能负载和元数据同步一致性问题。特别是对于海量小文件的应用,元数据问题是个非常大的挑战。分布式文件系统独特地采用无元数据服务的设计,取而代之使用算法来定位,服务器都可以智能地对文件数据分片进行定位,仅仅根据文件名和路径并运用算法即可,而不需要
25、查询索引或者其他服务器。这使得数据访问完全并行化,从而实现真正的线性性能扩展。无元数据服务器极大提高了分布式文件系统的性能、可靠性和稳定性。分n基于标准协议:布式文件系统存储服务支持nfs,cifs,http,ftp以及分布式文件系统原生协议,完全与posix标准兼容。(5)分布式文件系统技术及性能指标:n支持设备数量:最大百万台以上n支持存储容量:最大1024pb以上n客户端的数量:最大支持上亿并发n网络支持:以太网:1gbps、10gbps/infiniband:10gbps、40gbpsn文件副本数量:任意(缺省1份),n协议:nfs/cifs/http/ftp/webdav,及原生协议
26、兼容posix标准n支持文件数量:最大上亿个文件n最大单个文件:16tb(6)s2dfs与hdfs的比较对比项hdfs(gfs)s2dfs架构类型带元数据库中心架构(瓶颈及故障易发生点)全分布式去中心架构存在方式使用方式分布式文件系统软件,基于x86平台cli/restapinativeclient/cifs/nfs标准协议(应用代码与平台无关性,便于移植和维护)系统可用性数据可用性数据定位方式同步方式负载均衡支持网络网络写:读(万兆/单流)低复制inode异步自动千兆以太网约100mb/s:160mb/s高类raidhash同步自动千兆/万兆以太网,ib网约800mb/s:1000mb/s读
27、(1*20gb)(万兆)写(1*20gb)(万兆)读/写(千兆)约125s约200s约25s约20s差距不大2.3.2分布式并行计算技术(1)概述从并行计算技术真正将传统运算转化为并行运算,而更加充分的利用广泛部署的普通计算资源实现大规模的运算和应用的目的,在此基础上为第三方开发者提供通用平台,为客户提供并行服务。这里主要为门户网站提供作业调度平台,实现日志分析,性能优化,全文检索,视频处理,用为分析等等的支撑平台。调用户通过统一计算平台把任务分派给系统内的多个节点,度节点资源执行任务,发挥多核并行处理优势,提升运算效率,充分运用网络内的计算资源达到解决大规模计算问题的目的。(2)分布式并行计
28、算架构图分布式并行计算架构图(3)作业调度及计算过程(4)分布式并行计算技术特点池化资源管理利用池化技术,任何一台联在互联网上的普通pc机从硬件到软件,可通过池化技术加入服务器池中,等待任务分配,系统能充分利用现有服务器资源,将所有运算子任务分配给节点服务器,有效避免计算资源闲置现象的发生。n无中心系统架构在平台管理下的单节点能力一致,使节点在部署上和使用上具备无差别性,任一节点功能可由其他节点替代或强化,可以最大程度确保平台资源使用的灵活性以及在灾备环境下的可靠性系统架构。n通道式工作机制平台为用户提供一个并行任务处理通道,处理过程对用户来说完全透明,由平台自动进行负载均衡、资源匹配、任务传
29、输等,使用户专注于自身任务管理,将执行过程交由平台完成。2.3.3分布式数据库技术d2b是一个具有高性能的高性能,可扩展,无模式,面向文档(document-oriented)的数据库,其内存储的是一种json-like结构化数据的分布式尤支以数据库软件,其具有高扩展性和高可靠性,持大表水平折分,及分区镜像。提供内存缓存数据,所以数据存取速度非常快,主要是由于它处理写入的方式:它们存储在内存中,然后通过后台线程写入磁盘。该软件支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。d2b另外的最大的特点是他支持的查询语言非常强大,其语法有点几类似于面向对象的查询
30、语言,乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。它的特点是高性能、易部署、易使用,存储数据非常方便。主要功能特性:l面向集合存储,易存储对象类型的数据”“面向集合(collenction-oriented),意思是数据被分组存储在数据集中,被称为一个集合(collenction)。每个集合在数据库中都有一个唯一的标识名,并且库,里表可以包含无限数目的文档。集合的概念类似关系型数据(rdbms)的(table)(不同的是它不需要定义任何模式schema)。l模式自由模式自由(schema-free),意味着对于存储在d2b数据库中的文件,我们不需要知道它的任何结构
31、定义。如果需要的话,你完全可以把不同结构的文件存储在同一个数据库里。l自动分片以支持云级别的伸缩性:自动分片功能支持水平的数据库集群,可动态添加额外的机器。llll支持动态查询支持完全索引,包含内部对象。自动处理碎片,以支持云计算层次的扩展性。可通过网络访问l可用于windows、macosx、linux和solaris的官方二进制版本。l可用于c、c#、c+、haskell、java、javascript、perl、php、python、ruby和scala的官方驱动程序,以及广泛可用于其他语言的社区支持的驱动程序。lad-hocjavascript查询让您能够使用基于任何文档属性的任何条件
32、来查找数据。这些查询对应于sql查询的功能,使sql开发人员能够很直观地编写d2b查询。l支持查询中的正则表达式。ld2b查询结果存储在提供过滤、聚合和排序等一系列功能的游标中,包括limit()、skip()、sort()、count()、distinct()和group()等等高级特性。l高级聚合的map/reduce实现。ll类似于rdbms的属性索引支持,可以直接在文档的选定属性上创建索引。使用提示、解释计划和分析的查询优化特性。l类似于mysql的主/从复制,支持复制和故障恢复。l基于集合的对象存储,在需要规范化数据时允许参考查询。l通过自动分片功能水平扩展。l高性能无争用并发机制的即时更新。d2b服务端可运行在linux、windows或osx平台,支持32位和64位应用。推荐运行在64位平台,因为d2b在32位模式运行时支持的最大文件尺寸为2gb。分布式数据库(d2b)集群示例图d2b与关系型数据库的逻辑结构对比:d2b关系型数据库数据库(database)集合(collection)文档(document)数据库(database)表(table)行(row)d2b的性能指标:10亿写(1亿,无索引)写(1亿,有索引)写(1亿:replicasets+sharding模式)读(1亿)读(1亿)统计一个值(1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论