数据采集处理项目技术设计方案

上传人：火*** IP属地：安徽上传时间：2022-08-18 格式：DOCX 页数：63 大小：1.83MB 积分：30 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、大数据库中心数据库投资者和企业数据收集和处理项目技术解决方案目录 TOC o 1-3 h z u HYPERLINK l _Toc111461608 1介绍 PAGEREF _Toc111461608 h 3 HYPERLINK l _Toc111461609 1.1项目背景 PAGEREF _Toc111461609 h 3 HYPERLINK l _Toc111461610 1.2项目目标 PAGEREF _Toc111461610 h 3 HYPERLINK l _Toc111461611 1.3施工原则 PAGEREF _Toc111461611 h 4 HYPERLINK l _T

2、oc111461612 1.4参考规格 PAGEREF _Toc111461612 h 5 HYPERLINK l _Toc111461613 1.5词汇表 PAGEREF _Toc111461613 h 6 HYPERLINK l _Toc111461614 2云数据采集中心 PAGEREF _Toc111461614 h 7 HYPERLINK l _Toc111461615 2.1要求概述 PAGEREF _Toc111461615 h 7 HYPERLINK l _Toc111461616 2.2整体设计 PAGEREF _Toc111461616 h 8 HYPERLINK l _T

3、oc111461617 2.3核心技术与功能 PAGEREF _Toc111461617 h 10 HYPERLINK l _Toc111461618 3大数据计算平台 PAGEREF _Toc111461618 h 37 HYPERLINK l _Toc111461619 3.1要求概述 PAGEREF _Toc111461619 h 37 HYPERLINK l _Toc111461620 3.2整体设计 PAGEREF _Toc111461620 h 37 HYPERLINK l _Toc111461621 3.3数据模型设计 PAGEREF _Toc111461621 h 39 HYP

4、ERLINK l _Toc111461622 4 数据操作 PAGEREF _Toc111461622 h 42 HYPERLINK l _Toc111461623 4.1数据挖掘分析 PAGEREF _Toc111461623 h 42 HYPERLINK l _Toc111461624 4.2 数据分析处理的主要工作 PAGEREF _Toc111461624 h 43 HYPERLINK l _Toc111461625 4.3 数据分析团队的组织与管理 PAGEREF _Toc111461625 h 44 HYPERLINK l _Toc111461626 5安全设计 PAGEREF _

5、Toc111461626 h 46 HYPERLINK l _Toc111461627 6风险分析 PAGEREF _Toc111461627 h 50 HYPERLINK l _Toc111461628 7部署场景 PAGEREF _Toc111461628 h 51 HYPERLINK l _Toc111461629 8实施计划 PAGEREF _Toc111461629 h 52 HYPERLINK l _Toc111461630 9 技术规格偏差表 PAGEREF _Toc111461630 h 52 HYPERLINK l _Toc111461631 10 售后服务承诺 PAGERE

6、F _Toc111461631 h 56 HYPERLINK l _Toc111461632 11 运维承诺 PAGEREF _Toc111461632 h 58 HYPERLINK l _Toc111461633 12 保密措施和承诺 PAGEREF _Toc111461633 h 58 HYPERLINK l _Toc111461634 13 培训计划 PAGEREF _Toc111461634 h 60的偏差 PAGEREF _Toc485473285 h 错误!未定义书签。1介绍1.1项目背景XXX大数据中心建设的出发点是从投资者的角度覆盖招商的全过程，尽量为投资者解决项目实施过程中的

7、困难和问题，使招商部门能够准确掌握全省招商数据，实现全省招商项目数据共享。全省招商工作是“一盘棋、一网一网、融为一体”的格局。大数据中心将充分发挥大数据优势，加强对企业投资项目和投资轨迹的分析，评估投资XX的可行性，为投资过程留下痕迹，找规律，找方向，提供“粮食”，提高效率，实现数据业务搜索、数据导入、数据业务辅助，实现数据资源实时共享、集中管理、随时查询，实现项目统计、监督、协调、管理，匹配、跟踪和评估。 .本次数据运营服务主要是为大数据平台制定数据运营规范和管理办法，同时为“企业数据库”提供数据采集、存储和分析服务，并根据企业数据库继续开展数据运营服务。操作规范的要求。1.2项目目标制定业

8、务大数据运营规范和管理办法。制定投资大数据相关元数据标准，完成相关数据的采集、整理和存储。根据业务需求，研究开发招商引资大数据投资业务分析模型并投入应用。继续按照运营规范和管理办法的要求开展数据运营。1.3施工原则根据本项目建设要求，本项目将遵循以下建设原则：高瞻远瞩、高标准整个项目要按照企业对大数据应用需求的高要求、高标准建设，参照行业标杆应用，确立符合需求的面向未来的目标。整个项目具有前瞻性。经济性和实用性整个项目在现有需求的基础上，充分考虑未来发展的需要来确定系统架构。既要减少系统的初期投资，又要满足服务对象的需要。同时，系统设计应充分考虑现有的投资保护，为已建成的数据中心、基础平台

9、、应用软件提供完整的集成方案。先进性和成熟度为确保项目具有较长的生命周期，应充分考虑管理创新和技术发展需求，按照先进的建设理念选择先进的技术架构和成熟的技术，满足业务需求。以高性能和安全的方式，提供合理且具有成本效益的应急预案，以确保系统系统稳定性，为各种服务对象提供可靠的服务。具有安全性，在系统受到攻击或崩溃时可以快速恢复，确保重要数据的机密性和完整性。1.4参考规格国标/吨20269-2006信息安全技术-信息系统安全管理要求国标/吨20984-2007信息安全技术-信息安全风险评估规范国标/吨22239-2008信息安全技术信息系统安全等级保护的基本要求国标/吨22240-2008信息安

10、全技术信息系统安全等级保护分级指南GA/T388-2002B计算机信息系统安全等级保护管理要求国标/吨8567-1988计算机软件产品开发文档指南国标/吨11457-1995软件工程术语国标/吨11457-2006信息技术软件工程术语国标/吨16260.1-2006软件工程产品质量首先1部分：质量模型国标/吨16260.2-2006软件工程产品质量首先2部分：外部指标国标/吨16260.3-2006软件工程产品质量首先3部分：内部指标国标/吨16260.4-2006软件工程产品质量首先4部分：使用质量的测量国标/吨14394-2008计算机软件可靠性和可维护性管理国标/吨17544-1998信

11、息技术包裹质量要求和测试1.5词汇表S 2 DF S ：简单存储分布式文件系统_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _D2B：分布式数据库（分布式数据库）JSS ：作业调度服务（作业调度器服务）DCS ：数据计算服务（数据计算机服务）MPS ：消息处理服务（消息过程服务）SDS ：流数据处理服务（ Stream数据服务）DMQ ：分布式消息队列（ Distributed Message Queue ）JGS : 工作生成服务 ( Job一代服务）ACS ：自动清理服务进程（ Automatic打扫服务）HTTP ：超文本传输协议（超文本

12、传输协议）SMB ：服务器消息块协议（服务器信息块）2云数据采集中心2.1要求概述根据规划，云数据采集中心的建立至少应满足1到2年度最佳数据存储和计算规模需要满足：数据采集范围包括但不限于世界500强、国家500强、行业20强企业的相关数据。总数据容量至少为30 T。2.2整体设计整个云数据采集中心分为硬件资源层、软件平台层、软件应用层三个部分。硬件资源层主要是指物理硬件设备，包括用于存储数据的光纤阵列机柜和存储服务器，用于统计、分析和搜索的计算服务器，用于部署分布式消息（ DMQ ） / WEB/APP。软件网络和用于部署的消息服务器PostgreSQL关系型数据库软件的应用数据库服务器，用

13、于部署作业调度服务进程（ JSS ）的作业调度服务器。作为全千兆三层交换机进行数据通信等。光纤阵列柜主要用于存储经过统计分析后的粗粒度数据。存储服务器用于部署分布式文件系统和分布式数据库，同时存储非结构化和结构化（站标图片、电子商务图片等）和结构化数据（行为数据、索引数据、 l o g数据、清理后的细粒度数据等）。计算服务器主要用于完成数据清洗、统计、搜索等计算任务。为了节省成本，降低通信成本，建议将存储服务器和计算服务器合二为一，使服务器同时具备计算和存储数据的功能。前期也可以考虑部署Job Scheduling Service Process（ JSS）流程。在存储/计算服务器上。因为云

14、数据采集中心需要面对多种宽带用户（电信、移动、联通）。因此，数据中心的外网需要直连中国电信、中国移动、中国联通这3家公司的网络。通信性能高速可靠。软件平台层是云数据采集中心的核心支撑层，也是我们方案设计和实现的主要部分。详细介绍了“分布式消息服务（DMQ）”、“作业调度服务流程（JSS）、数据计算服务流程（DCS）”的主要部分。软件平台层所有服务器统一部署64位操作系统CentOS 6.5（也可选择RHEL 6.5 x64）；其核心软件或流程包括：分布式文件系统（S2DFS）、分布式数据库（D2B）、作业调度服务流程（JSS）、数据计算服务流程（DCS）、作业生成服务流程（JGS）、消息处理

15、服务流程（MPS） )、流数据处理过程 (SDS) 等。 WEB及应用服务器软件Apache&Tomcat，消息队列软件Distributed Message (DMQ)。还需要实现整个云数据采集中心的资源管理和监控管理系统。软件应用层是功能实现和用户界面表达层，功能实现需要基于软件平台层的支持，是后期设计和实现的主体。该层的主要功能应用有：数据采集应用、数据统计应用、云数据采集中心的资源监控与调度。通过公共数据网络（电信、中国联通、中国移动）和HTTP协议，将采集到的海量文字、图片数据和用户行为数据存储在云端数据采集中心，供后期分析计算。云数据采集中心整体架构图云数据采集中心网络结构图2.3

16、核心技术与功能2.3.1分布式文件存储技术(一)传统存储技术面临的问题：建设成本高：大容量、高网络带宽的高端存储系统架构成本高。文件系统的功能和性能不尽如人意：难以实现全局命名空间的文件共享，文件系统难以扩展，容易形成瓶颈。困难：技术存在瓶颈（ Sc a le up架构），扩容成本无法控制。可用性问题：潜在的单点故障，数据恢复困难且昂贵。应用目标差异：主要面对运营商、金融行业OLTP应用，几针设计和优化海量流数据或非结构化数据。异构设备复杂：不同时期、不同公司、不同操作系统的异构设备众多复杂，无法集成，资源利用率极低。分布式文件系统是一种新型的大规模数据存储技术，主要是为了解决上述问题。技术

17、架构。主要为非结构化数据（视频/文件/文档/图像/音频等非结构化数据）提供海量存储平台，以集群方式提供线性水平扩展能力。分布式文件系统是x 8 6一种新的分布式文件系统，具有高可用性、高可靠性和高组件可扩展性。使用分布式文件系统，用户可以使用便宜可靠的通用服务器， SATA/SAS硬盘驱动器和以太网构建可与企业级存储产品相媲美的存储系统。( 2 )分布式文件系统的数据特征和访问特征：海量数据，数百条TB _或PB _水平，快速增长；多样化的类型，包括图像、文本、语音、视频等文件数据；按时间顺序生成，数据全部加时间戳;前端数据写入速度非常快，每秒写入的数据可以达到几万甚至几十万条记录。记录或上传

18、国标_体积数据;极少更新操作：以追加方式写入，一次写入，几乎没有数据修改，检查查询涉及大量磁盘读取操作，查询处理产生大量临时结果。联合分析查询中存在类型数据；分布式文件系统的基本原理是使用一个集群来集成多个物理上独立的存储。资源，在软件中提供单一命名空间；采用多副本保证数据的高可用，任何单节点故障都不会导致数据丢失，数据服务正常运行；同时，分布式文件系统通过精心设计的系统结构和数据分布策略，可以保证系统性能的高扩展性，支持存储容量/性能的在线扩展。相比DAS （直接附加存储）、 SAN （存储区域网络）和NAS （Network Storage ），用分布式文件系统构建的网络存储系统，更像

19、是一个N A S ,提供类似的N A S文件级访问接口( S A N和DAS _ _两者都是块设备级访问接口）。( 3 )分布式文件系统与传统NAS/SAN设备对比：比较高端NASFC-SAN分布式文件系统表现总则双口，性能取决于机头冲击、难扩、出口带宽度是瓶颈总则双口，性能有限头部冲击，难以扩展， IOPS更好的性能随节点数量而变化性增长可扩展性性能和容量无法扩展，或有限的扩张可以扩展更好，但成本高的可根据需要扩展性能和容量，状态均衡可用性袭击保护方式，双机保护保护,停止雷达_ _ _恢复，耗时_ _ _雷达_ _ _模式保护，双机节省保护,停机时间袭击重做，耗时基于灵活的多副本机制，自动

20、检测，故障自动恢复，不停机数据管理企业级功能需要单独购买企业级功能需要单独的购买（也需要单独的文件系统, 10 0如果放）嵌入多种企业级应用：快速照片、镜子、回收站成本专有硬件平台，软件有成本高，扩容成本高专有硬件平台、软件扩张成本高开发一个通用的硬件平台，一个集成软件、低成本、可扩展低成本可维护性需要专门的技术支持服务训练结构极其复杂，需要昂贵的供应商服务内置多种自动故障检测测试恢复功能，国内开发，快速技术支持用户使用分布式文件系统就像使用本地文件系统一样。不同的是，传统的NAS通常作为单节点实现，容量和性能的可扩展性有限，容易成为性能瓶颈和单点故障。另一方面，分布式文件系统有一组提供服务的

21、多个节点。由于其结构特点，分布式文件系统的性能和容量可以在线线性扩展，系统不存在单点故障。请看以下两张图进行对比：传统存储架构图分布式文件系统架构图分布式文件系统的设计与应用，特别适用于海量非结构化数据存储和大量客户端的并发I/O密集型应用。目前，分布式文件系统已应用于政府、医学影像、探索数据计算、视频服务和动画制作等领域。这些区域的数据访问特征是：海量数据， I/O高吞吐量、快速数据增长和高数据可用性要求。经过很长一段时间在实际生产环境中，分布式文件系统已被证明是此类应用程序的有效解决方案。分布式文件系统的服务器端程序运行在L i n u xx 6 4在系统上，它支持多种L i n u x

22、64位分布，包括红帽, CentOS等待。分布式文件系统客户端支持Linux和Windows ，分布式文件系统也可以通过第三方软件输出CIFS和NFS界面，与大多数应用程序兼容。( 4 )分布式文件系统的核心技术和特点：可扩展性和高性能：分布式文件系统利用双重特性提供多种结核病编号PB _高度可扩展的存储解决方案。 Scal - Out架构通过简单地添加资源、磁盘、计算和输入输出资源可以独立增加，支持10GbE和无限频带和其他高速互联网连接。分布式文件系统弹性喜（弹力Hash ) 消除了对分布式文件系统的元数据服务器的需求，消除单点故障和性能瓶颈，真正实现数据访问并行化。高可用：分布式文件系统

23、可以自动复制文件，如镜像或多个二级复制，确保数据始终可访问，即使在硬件故障的情况下也可以正常访问。自愈功能将数据恢复到正确的状态，并且修复在后台增量执行，性能开销很小。分散式文件系统不设计自己的私有数据文件格式，而是采用主流标准磁盘文件系统（如XFS/EXT4/ZFS ) 来存储文件，所以可以使用各种标准工具复制和访问数据。全局统一命名空间：全局统一命名空间将磁盘和内存资源聚合为一体单个虚拟存储池为上层用户和应用程序屏蔽了底层物理硬件。存储资源可以根据需要在虚拟存储池中进行弹性扩展，如扩容或收缩。存储虚拟机镜像时，存储的虚拟机镜像文件数量没有限制，数以千计的虚拟机通过单个装载点共享数据。虚拟机

24、输入输出可以命名跨空间中所有服务器的自动负载平衡，无需SAN环境经常访问发生的热点和性能瓶颈。弹性哈希算法：分布式文件系统使用弹性哈希算法在存储池中定位数据，而不是使用集中式或分布式元数据服务器进行索引。其他向外扩展在存储系统中，元数据服务器通常会导致输入输出性能瓶颈和点故障问题。在分布式文件系统中，所有向外扩展存储配置存储系统可以智能定位任何数据分片，而无需查看索引或要求它其他服务器查询。这种设计机制完全并行化数据访问，实现真正的线性性能缩放。灵活的卷管理：数据存储在逻辑卷中，可以从虚拟化物理存储中存储而不会导致应用程序中断。逻辑卷可以在所有供应服务器上增加和缩小，在服务器之间重新定位以实现

25、容量平衡，或者可以添加和删除系统，所有这些都在线。文件系统配置更改也可以实时在线进行和应用，从而适应不断变化的工作负载条件或在线性能调整。完全软件实现（软件_ _ _Only )：分布式文件系统认为存储是一个软件问题，无法通过将用户限制在特定的供应商或硬件配置中来解决。分钟分布式文件系统采用开放式设计，支持广泛的行业标准存储、网络和计算机设备而不是与定制的专用硬件设备捆绑在一起。对于商务客户，分布式文件系统可以作为虚拟设备交付，也可以与虚拟机容器结合使用打包，或者部署在公有云中的镜像。在开源社区中，分布式文件系统以廉价的闲置硬件为基础，广泛部署在各种操作系统上，形成集中统一的虚拟存储资源池。简

26、而言之，分布式文件系统是一个开放的、全软件的实现现在，完全独立于硬件和操作系统。完整的存储操作系统堆栈（ Complete贮存操作系统堆栈：点分布式文件系统不仅提供了分布式文件系统，还提供了很多其他重要的分布式功能，如分布式内存管理、 I/O调度，软袭击和自愈。分布式文件系统借鉴微内核架构，GNU /赫德操作系统的设计思想实现了用户空间的完全存储。存储操作系统堆栈。用户空间实现（ User Space）：与传统文件系统不同，分布式文件系统是在用户空间实现的，这使得安装和升级特别容易。模块化堆叠架构（ Mod u l a r St ac k a b l e Arch i tect u r e

27、）：分布式文件系统采用模块化堆叠架构，可配置支持高度定制化应用环境，如大文件存储、海量小文件存储、分布式文件系统、多传输协议应用等。每个功能以模块的形式实现，然后以积木的形式实现。简单的组合可以用来实现复杂的功能。例如，复制可实现模块RAID1 ,条带可实现模块RAID0 ，可以通过两者的结合来实现RAID10和RAID01同时获得高性能和高可靠性。原始数据格式存储（ DataS t o red in _N a t i v e F o r m a ts ) ：原始数据格式的分布式文件系统（例如EXT3 , EXT4 , XFS , ZFS ) 来存储数据和实现多种数据自动修复机制。因此，即使

28、在离线情况下，系统也具有极强的弹性也可以通过其他标准工具访问文件。如果用户需要从分布式文件下载数据在系统中迁移，无需任何修改，仍可充分使用数据。无元数据服务设计（ N o遇到了数据_ _与_ _t h e E l as t i c H as h A l g o r i t h m ) ：用于横向扩展对于存储系统，最大的挑战之一是在逻辑上和物理上记录数据。位置映射（称为数据元数据）也可能包括属性和访问权限等信息。传统的分布式存储系统使用集中式或分布式元数据服务来维护元数据。集中式元数据服务会导致单点故障和性能瓶颈，而分布式元数据服务存在性能负载和元数据同步一致性问题。特别是对于海量小文件的应用，

29、元数据问题是一个非常大的挑战。分布式文件系统独特地采用了无元数据服务的设计。相反，它使用一种算法来定位.服务器可以智能定位文件数据分片，只需根据文件名和路径使用算法，无需查询索引或其他服务器。这可以实现完全并行的数据访问，从而实现真正的线性性能扩展。无元数据服务器极大地提高了分布式文件系统的性能、可靠性和稳定性。基于标准协议：分布式文件系统存储服务支持NF S , CIF S , HTTP , _ _ _ _FTP和分布式文件系统的原生协议，完全兼容POSIX符合标准。( 5 )分布式文件系统技术及性能指标：支持设备数量：超过一百万支持存储容量：最大1024PB以上客户端数量：高达数亿并发网络

30、支持：以太网： 1 Gbps ， 10 Gbps / I N F I N I B A N D ： 10 G bp s ， 4 0 G bp s _ _文件副本数：任意（默认1部分）协议：NFS/CIFS/HTTP/FTP/WEBDAV和本机协议，兼容POSIX标准支持文件数：多达数亿个文件最大单个文件： 16TB( 6 )S2DFS使用HDFS比较对比HDFS （ GFS ） _S2 D FS架构类型带有元数据库的中央架构（瓶颈和故障易发点）全分布式去中心化架构存在方式分布式文件系统软件，基于x86平台如何使用命令行/休息API本地客户端/CIFS/NFS标准协议（应用程序代码独立于平台，易于

31、移动种植和维护）系统可用性低的高的数据可用性复制种类袭击数据位置节点哈希同步异步同步负载均衡自动的自动的支持网络千兆以太网千兆/ 10 千兆以太网， IB网络网络写入：读取（10 Gigabit /单流）关于100MB/秒： 160MB/秒关于800MB/秒： 1000MB/秒读取（ 1*20GB ）（10G）关于125秒关于25s写入（ 1*20GB ）（10G）关于200s关于20 多岁读/写（千兆）细微差别2.3.2分布式并行计算技术(一)概述并行计算技术真正将传统计算转变为并行计算，从而充分利用广泛部署的通用计算资源，达到大规模计算和应用的目的。在此基础上，为第三方开发者提供通用平台，

32、为客户提供并行计算。服务。主要为门户网站提供作业调度平台，日志分析、性能优化、全文检索、视频处理、使用分析等支持平台。用户通过统一的计算平台将任务分配给系统中的多个节点，调度节点资源执行任务，利用多核并行处理，提高计算效率，充分利用网络中的计算资源解决大规模计算问题。( 2 )分布式并行计算架构图分布式并行计算架构图( 3 )作业调度和计算过程( 4 )分布式并行计算技术特点汇集资源管理使用池化技术，任何连接到互联网的普通计算机个人电脑_从硬件到软件，可以通过池化技术将服务器加入到服务器池中，等待任务分配，系统可以充分利用当前有服务器资源，所有操作子任务都分配给节点服务器，有效避免计算计算空闲

33、资源的发生。的非中心系统架构一致，节点无差分，任何节点的功能都可以被其他节点替换或增强，可以最大程度的保证准确性。保证容灾环境下平台资源使用的灵活性和系统架构的可靠性。通道式工作机制平台为用户提供并行任务处理通道，处理过程完全为用户完成。透明，平台自动进行负载均衡、资源匹配、任务传输等，使用户能够专注于自身的任务管理，将执行过程留给平台完成。2.3.3分布式数据库技术D2B是一个高性能的一个高性能的、可伸缩的、无模式的、面向文档的数据库，它存储了一个_J S O N-喜欢_ _结构化数据的分布式数据库软件，尤其具有高扩展性和可靠性，支持大表的水平分区和分区镜像。提供内存缓存数据，因此数据访问非

34、常快，主要是由于它处理写入的方式：它们存储在内存中，然后由后台线程写入磁盘。软件支持的数据结构非常松散，类似于json的bjson格式，所以你可以存储更复杂的数据类型。 2乙_另一个最大的特点是它支持的查询语言非常强大。它的语法有点类似于面向对象的查询语言。几乎可以实现关系型数据库中类似单表查询的大部分功能，并且还支持数据的索引。它具有高性能、易于部署和易于使用的特点存储数据非常方便。主要特点：面向集合的存储，便于存储对象类型的数据“面向集合” （ C oll e n ct i o n - Oriented ），是指将数据分组并存储在一个数据集中，称为集合（ Colle n ct i on

35、）。每个集合在数据库中具有唯一的标识名称，并且可以包含无限数量的文档。集合的概念类似于关系数据库中的表（table ）（ R D B M S ），只不过它不需要定义任何模式（ s c hem a ）。模式自由无模式（ s c h e ma - free ），意思是存储在2乙_数据库中的一个文件，我们不需要知道它的任何结构定义。如果需要，您可以完全放置不同的结构文件存储在同一个数据库中。自动分片以支持云级可扩展性：自动分片功能支持水平数据库集群，能够动态添加额外的机器。支持动态查询支持完整索引，包括内部对象。自动处理碎片以支持云级别的可扩展性。网络可访问适用于Windows 、 Mac操

36、作系统X , Linux _和索拉里斯的官方二进制版本。官方驱动程序可用于 C、C#、C+、Haskell、Java、JavaScript、Perl、PHP、Python、Ruby 和 Scala，以及广泛的社区支持的其他语言驱动程序。Ad-hoc JavaScript 查询内容您使用基于任何文档属性的任何标准来查找数据。这些查询对应于 SQL 查询的功能，使 SQL 开发人员能够直观地编写 D2B 查询。支持查询中的正则表达式。D2B 查询结果存储在游标中，游标提供过滤、聚合和排序等一系列功能，包括 limit()、skip()、sort()、count()、distinct() 和 gro

37、up() 等高级功能。）。高级聚合的 map/reduce 实现。与 RDBMS 的属性索引支持类似，可以直接在文档的选定属性上创建索引。使用提示、解释计划和分析的查询优化功能。类似于MySQL主/从复制，支持复制和故障转移。基于集合的对象存储，在需要规范化数据时内容引用查询。通过自动分片水平扩展。立即更新高性能无争用并发。D2B服务器可以运行在操作系统_ _或者操作系统X平台，支持32位和64位应该利用。建议运行64位平台因为D2B存在32以位模式运行时支持的最大文件大小到2GB 。分布式数据库（ D2B ）集群示例图D2B对比关系型数据库的逻辑结构：D2B关系型数据库数据库_数据库_集合

38、_表_文件_行_D2B性能指标：101亿关于600GB以上（与每条记录的大小有关，这个数据单位： 1Kb/ bar)写（ 1亿，无索引）关于15000-20000片/秒写（ 1亿，索引）关于10000巴/秒写（ 1十亿：复制品套装+分片模型）关于6000-8000巴/秒阅读（ 11亿）关于80MB-120MB/秒阅读（ 11亿）8000-10000 次查询/秒计算一个值 ( 101亿）1024 （理论上）测试环境的硬件配置： Int e l氙气_7-8837 _2路16核心，256GB内存， 15kSAS16 * 600GB _硬盘， RAID 50 ；全部的12设备; 2乙_架构模式：副本套

39、+分片。2.3.4负载均衡1）开源负载均衡软件对比LVSNginxHAProxyLVS ( Linux虚拟的服务器）可以实现Linux平台下的负载均衡，供应具有三种IP负载均衡技术的IP虚拟服务器软件IPVS 、 Kernel Layer - 7 switch KTCPVS和基于内容请求分发的集群Nginx是一个轻量级、高可用的Web服务软件和反向代理软件，基于HTTP （第七层）应用代理服务器。它被国内大型互联网公司使用。HAProxy是一种高可用性基于TCP （第 4 层）和HTTP （第 4 层）第7层）应用代理软件。它被国内大型互联网公司使用。1 、抗负载能力强，工作在网络4层，仅作分

40、发，不产生流量。这个特性也决定了它在负载均衡软件中性能最强；2.配置比较低，是个缺点这也是一个优点，因为没有什么可以配置太多，所以不需要太多的接触，大大减少了人为错误的机会；3 、工作稳定，自带完整的双机热备解决方案，例如LVS+Keepalived和LVS+心跳；4.无流量，保证均衡器IO的性能会不会受到大流量的影响？5 、软件本身不支持正则处理。可以做动静分离；1.工作在7层网络，可以为http应用做一些导流策略，比如例如，对于域名和目录结构，其规则规则比HAProxy更强大、更灵活；2. N g inx对网络的依赖很小。理论上，如果可以ping通，就可以执行加载功能。能够;3. Ngin

41、x的安装、配置、维护都比较简单一;4 、能承受高负载压力且稳定，总则可以支持几万以上的并发；5.ng inx可以通过端口检测服务器内部故障，不支持url检测；6、Nginx也可以作为网页反向加速器登记;1.可以补充N g inx的一些不足，比如session保留、 cookie引导等。做;2.HAProxy对网络的依赖很小，理论上能ping通就可以进行加载功能;3.和LVS一样，只是它是一个负载均衡软件；单纯从效率上来说， HAProxy 会比Nginx效率更高，在并发处理上也比Nginx更好；4.HAProxy安装、配置、维护比例更简单；5 、能承受高负载压力且稳定，总则可支持数万次以上的并

42、发；建议使用Nginx （或HAProxy ）作为具有硬件负载的负载平衡（反向代理）软件使用负载平衡。选择 Nginx 还是 HAProxy 取决于团队对这两个软件的熟悉程度。越熟悉，就越容易控制和降低风险。我们团队对 Nginx 非常熟悉，所以这里我们推荐使用 Nginx 作为软件反向代理工具。2.3.5数据采集1)概述数据采集功能主要完成海量数据的采集和上传。数据收集的来源是：国家工商总局、企业网站、百度、谷歌等根据具体数据来源，不同应用，不同类型数据采集，并提供统一的数据采集方式，方便后台数据整合和数据存储。数据采集结构图：数据采集主要由采集服务器执行，通过HTTP协议和宁静的技术上传和

43、缓存数据韦伯_ _和消息服务器_ _并且消息服务器可以缓存一周上传的数据量。数据上传完成后，由消息处理服务进程（ MPS）进程完成对数据的最终清洗。最后入库。 _站标等非结构化数据存储在分布式文件系统（ S 2 DFS ）中，日志或者行为等结构化数据存储在分布式数据库（ MongonDB ）中。见下文数据采集/存储流程图：DMQ它是一个分布式消息服务平台，提供的功能包括：配置维护、名称服务它可以提供高性能、可靠、可扩展、分布式和可配置的关键特性DMQ 。核心技术特点：大堆内存和高可用性：假设你有100服务器，每个节点都有2GB该空间用于复制缓存，最终得到的数据总量大小为200GB ,每个服务器

44、只是一个副本。相反，借助分布式复制架构，可以获得100GB备份虚拟堆内存，可以在网格中的任何位置访问。如果服务器崩溃，网格只是创建丢失数据的新副本，并将它们放在另一台服务器上。应用程序不再需要依赖庞大的独立数据库来获取数据以追求最高性能。-这是超过80%的企业应用程序瓶颈是！可扩展性：由于数据是均匀分布的，除了考虑网络上的群组通信外，只要可以发现新节点，就根本不需要限制网络上组通信的网格大小。所有的数据采集方式都是通过点对点通信，即节点之间直接通信，非常容易控制。DMQ_ _ 在不关闭整个服务的情况下增加或减少。简单地从集群中添加或删除机器不会导致任何服务中断。数据分布： D MQ使用一致的散

45、列算法来确定键值在集群中的存储位置。一致的哈希值便宜、快速，最重要的是不需要额外的元数据或网络通信来确定密钥的位置。数据分发的目的是在环境中保留足够的状态副本以使其具有可持续性和容错性，但不要有太多副本妨碍DMQ的可扩展性。原子性：一个更新操作要么成功要么失败，并且没有第三个状态。顺序性：在一个DMQ在集群中，其中一个DMQ服务器上的消息一个存在消息b以前发表过，然后在所有DMQ服务器上的消息一个将在新闻中b之前发表过， DMQ将保持相同的顺序。实时：每个客户端, DMQ _ _ _ _集群中的所有服务器都将维护一个实时更新系统，以便所有服务视图都是最新的。分布式统一镜像： Client无论连

46、接到集群中的哪一个DMQ集群节点服务，都获得相同的镜像视图。可靠性：数据缓存在内存中2复制，任何电脑故障都不会造成导致数据丢失。2）分布式消息管理架构图：MPS1MPS3MPS5MPS7MPS9MPS MPS2MPS4MPS6MPS8MPS10统一的数据视图心跳/同步Server1【备】（数据）Server2【主】（数据）Server3【备】（数据）Server4【备】（数据）数据网（电信、移动、联通）智能终端智能终端智能终端智能终端智能终端智能终端智能终端智能终端DMQ主要有以下几种颜色对比，每种颜色对比的职责如下表所述？角色名称责任领队_是DMQ集群的老大。它不接受客户端的请求并管理其他D

47、MQ服务。它只负责投票的发起和决议，并最终更新状态。追随者_追随者的老板是领导者，领导者参与其中发起投票，下到面向客户端的交互，用于接收客户端的请求和响应将结果反馈给客户端。参与leader发起的投票。观察者_观察者可以接收客户端连接并将写请求转发到领导节点。但是Observer不参与投票过程，它只是同步leader的状态。Observer提供了一种扩展系统的方法。DMQ_ _原子广播的核心是原子广播，它保证每个服务器之间的同步有两种模式，恢复模式和广播模式。恢复模式：总则在服务刚启动或者领导者（ Leader ）崩溃后开始进入。恢复模式，此时将开始选举领导者之后，恢复模式结束。广播模式：恢复

48、模式结束后，即领导者（ Leader ）与追随者（ Follower ）通信进行状态同步后，他可以开始广播消息，即进入广播状态。3）分布式消息数据架构图：M M (消息_ _ _Manager ) ：消息数据管理器。 _ _ _通过嵌入没有sql _内核完成数百万并发数据缓存，提供异步发布和订阅。通过申请JDBC/REST/Memcached等待行业标准接口完成集群中消息缓存数据的操作，集群成员也通过这个接口完成成员之间的数据同步，就像一个检测步骤。4）典型分布式消息平台对比：由于常见的 RabbitMQ、ActiveMQ 和 ZeroMQ 消息中间件没有分布式功能，所以不包括在比较中。数据采

49、集中心面临着高并发、海量数据上传，因此分布式消息平台必须保证高性能的数据吞吐量、高可靠性、高扩展性、可维护性等属性。注意： *速度越快，速度越快。3大数据计算平台3.1要求概述根据应用，这个项目的数据量是30T ，企业数据量非常大，需要大量的并发。网络爬虫爬取的企业数据信息存储在数据中心。此数据量与企业记录相关联。同时，需要存储清理后的记录和计算出的推荐结果，但这些数据并不存储在数据中心。本项目后期会做实时计算，会用到流计算的相关计算和调度。计算量大，可部署更多DCS进程，提高计算并发，作业调度也应该采用子部署调度架构。3.2整体设计云数据采集中心和大数据计算平台是云数据采集中心提供存储和计算

50、资源。A P I大数据计算平台主要实现核心算法，包括图像匹配算法、挖掘算法、智能推荐算法、知识学习算法等。API方法构建统计应用、智能推荐应用等。大数据计算平台所需的数据：包括实时在线爬取、二次计算分析等，通过通用接口存储在云数据采集中心的分布式存储平台（分布式文件系统（ S2 ）中。DFS ) ,分布式数据库( D2B ) ) . _ _ _计算时，通过接口发起作业，云数据采集中心的作业调度服务进程（ J SS ）负责调度，数据计算服务进程（ DC S ）负责计算处理。 ,并处理结果。反馈给大数据计算平台的各个应用。根据2.3.2 _条对S 2 DF S分布式文件系统的详细介绍本章不再赘述。

51、由于需要添加新的存储设备，是否继续选择新设备上安装的分布式文件系统S2DFS或者HDFS ，我们需要回答以下问题：一、预算增加和扩展问题：部署H DF S ，两个高性能单元必须作为H DF S单独购买（注意：两台设备构成主从设备，配置不能比我们现在选择的设备配置差，否则会成为瓶颈，再差的话，数据节点扩不了几个。） .二、学习成本和进度：要使用HDFS ，你必须熟悉它API和更高版本带上整个HDFS _集群部署和维护工作，与可用团队资源冲突； S2DFS提供标准POSIX协议接口，应用代码不需要做任何可以实施任何更改。如果使用HDFS ，为了保证应用系统的透明性，所以统一接口的底层必须写两种代

52、码，第一种是面向S 2 DFS ，第二种是面向HDFS 。新增加的开发、维护和测试时间。三、空间浪费和孤岛问题： S2DFS使用HDFS是两个不同的文件系统。它们之间的设备和存储空间不能共享。后面增加的6个单元，装备存储与前面部署的10个相同。设备压缩原始数据后，仍有多余的存储空间。两者同时构成孤岛和浪费空间。四、应用场景问题： H DF S存储网页等文件更加友好，毕竟它的基因是为互联网搜索而开发的。3.3数据模型设计数据模型主要由企业数据模型和投资者数据模型两部分组成。3.3.1企业数据模型字段名称评论姓名公司名称经济种类企业类型register_capi注册资本范围业务范围term_sta

53、rt营业开始日期term_end _业务结束日期归属组织所属工商局操作名称法人开始日期成立时间地位在职的雇员.job_title关键人事职位雇员。性别主要员工性别员工姓名_关键人员姓名b牧场.name分店名称更改记录.change_item更改项目更改记录.change_date改变日期changerecords.before_content更改前的内容changerecords.after_content更改后的内容合作伙伴。 stock_name _股东姓名合作伙伴.stock_type _ _股东类型伙伴。识别类型_许可证/文件类型伙伴。识别号_许可证/文件编号合作伙伴.should

54、_capi_items .shoud_capi _ _ _认缴出资合作伙伴.should_capi_items.invest_type _ _ _ _ _资助方式合作伙伴.should_capi_items .should_capi_date _ _ _投稿时间合作伙伴。 real_capi_items 。 real_capi _实缴出资合作伙伴。 real_capi_items 。投资类型_资助方式合作伙伴。 real_capi_items 。 real_capi_date _付款时间3.3.2投资者数据模型字段名称评论姓名投资者姓名经济种类企业类型register_capi注册资本范围业务

55、范围term_start营业开始日期term_end _业务结束日期归属组织所属工商局操作名称法人开始日期成立时间地位在职的雇员.job_title关键人事职位雇员。性别主要员工性别员工姓名_关键人员姓名b牧场.name分店名称更改记录.change_item更改项目更改记录.change_date改变日期changerecords.before_content更改前的内容changerecords.after_content更改后的内容合作伙伴。 stock_name _股东姓名合作伙伴.stock_type _ _股东类型伙伴。识别类型_许可证/文件类型伙伴。识别号_许可证/文件编号合

56、作伙伴.should_capi_items .shoud_capi _ _ _认缴出资合作伙伴.should_capi_items.invest_type _ _ _ _ _资助方式合作伙伴.should_capi_items .should_capi_date _ _ _投稿时间合作伙伴。 real_capi_items 。 real_capi _实缴出资合作伙伴。 real_capi_items 。投资类型_资助方式合作伙伴。 real_capi_items 。 real_capi_date _付款时间投资_行业投资行业投资投资金额4 数据操作4.1数据挖掘分析行业数据挖掘分析总则采用CR

57、ISP-DM方法。 CRISP-DM将数据挖掘项目的生命周期定义为六个阶段：业务理解（也称业务理解）、数据理解、数据准备、模型构建、模型评估和模型发布。1.业务理解：从业务角度理解项目目标和需求，然后将需求转化为数据挖掘问题定义，并设计实现目标的初步计划。2. 数据理解：收集初始数据，识别数据质量问题，找到关于数据的基本观察，或假设隐含信息来监控感兴趣的数据子集。3、数据准备：对可用的原始数据进行一系列的组织和清理，使其满足建模要求。4.建立模型：选择各种建模技术并将其参数修正为优化值。通常需要退回到数据准备阶段。5、模型评估：对建立的模型进行评估，重点具体考虑结果是否符合第一步的业务目的。6

58、. 模型发布：总结和应用研究结果。4.2 数据分析处理的主要工作首先是建立数据仓库或数据集市对数据进行预处理。数据分析处理是根据企业管理的需要，根据不同的分析主题，从企业不同操作系统的众多数据中提取有用的数据，保证数据的正确性，然后提取、转换、加载，也就是说，ETL 流程，合并到企业级数据仓库中，产生企业数据的全局视图。二是在线分析处理和数据挖掘，将数据转化为信息和知识。 Online Analytical Processing 基于数据仓库对业务问题进行建模并对数据进行多维分析。数据挖掘是一种通过分析每一个数据，从大量数据中发现其规律性的技术。也就是说，使用神经网络和规则归纳等技术来发现数据

59、之间的联系并进行基于数据的推理。通过在线分析处理和数据挖掘，决策者和高级管理人员可以从多维度准确把握企业的经营状况，了解不同数据之间的相关性，从而做出正确的决策。最后是知识结论的可视化展示，实现了从知识到智慧的转化。借助信息系统，查询报表、统计分析、多维在线分析和数据挖掘的结论以简单、丰富、直观的形式呈现在企业管理者和决策者面前。随着管理者对知识的不断积累和更新，知识将进一步转化为企业管理者的智慧。最终结果是：根据招商局大数据平台数据运营规范的相关要求，提供至少三个月的数据运营服务，并提供数据运营报告。验证数据操作规范的流程，优化数据模板，形成具体的数据操作指南。4.3 数据分析团队的组织与管

60、理数据分析团队负责数据收集、数据处理、数据管理和综合数据分析。分析师进行预测建模、数据挖掘和其他一些高级分析工作，而不是像自定义报告和电子表格这样的程序化工作。他们解决问题的环境、他们使用的方法，甚至他们需要参加的培训类型都千差万别。因此，它在数据分析团队建设和组织管理方面有着非常特殊的要求。1、数据分析团队建设（一）合理组建数据分析团队。整合客服中心人力资源，成立数据分析团队，负责数据采集、数据处理、数据管理和数据综合分析。(2)强调共同价值观的体现。数据分析团队成员努力就目标、实现这些目标的途径以及加强团队支持所需的协作达成一致。强调数据分析团队的整体利益，确定共同目标，鼓励分析团队分享信

人人文库> 全部分类> 专业文献 > 建筑环境

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据采集处理项目技术设计方案

文档简介

温馨提示

最新文档

评论

相关文档