版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
税务大数据解决方案(智慧税务)XXXX技术有限公司XXXX税务大数据中心建设方案第第10页目录TOC\o"1-8"\h\u249511云数据中心项目概述 7187861.1建设背景 7244511.2金融业大数据应用投资分布 7178981.2.1税务大数据应用 884521.3面临的风险和挑战 1027391.4建设目标 11109721.5建设原则 1120941.6云计算大数据中心优势 13303402云数据中心需求分析 1565432.1现状分析 1590782.2总体建设需求 15135973云数据中心总体规划设计 1763463.1整体建设思想 17286193.2整体系统结构 17166043.3计算资源和存储资源配置估算 19304284云数据中心资源层规划设计 2058754.1云计算平台基础架构体系 20305584.1.1设计原则 20161874.1.2系统总体架构 21273244.1.3虚拟化拓扑的结构 24254994.2云计算中心虚拟化组件 25145324.2.1迁移 2592594.2.2高可靠性(HA) 25252804.2.3容错 2682734.2.4动态资源分配 26185964.2.5分布式电源管理 2714854.3分布式集群存储平台 29246664.3.1方案拓扑图 29156874.3.2方案描述 29145124.3.3系统软件 3018454云平台系统管理支撑系统 3011382.1产品定位 3116718.2XX税务云应用 314044.3客户收益 3117514.4产品架构 3212473.5产品体系 3319970.6产品功能 343443集群存储系统 353949.1集群存储系统的特点 3530219.2集群存储硬件介绍 3813378.3系统功能及特点 3815447.3.1国产硬件自主可控 3820758.3.2海量数据高效管理 3827731.3.3数据读写性能 3911492.3.4数据全局共享 396216.3.5数据安全性 4025349.3.6系统可扩展性 4124449.3.7与现有环境无缝兼容 422470.3.8系统的整体拥有成本 4219287.3.9使用分布式提高投资回报率 4210518.3.10降低管理及运行成本——简易存储 4315826.3.11提高用户应用的生产力 4429287基于大数据的税务数据管理与分析系统 4417979.1.1大数据平台介绍 4522582.1.1.1平台功能框架 454943.1.1.2分布式存储功能 45663.1.1.3分布式计算功能 4614324.1.1.4NoSQL功能 478053.1.1.5数据仓库功能 4724216.1.1.6分布式协调功能 4723276.1.1.7工作流管理功能 4810414.1.1.8维护管理功能 4826461.1.2税务数据分析系统架构 498927.1.2.1非格式数据的分类存储 4931574.1.2.2对格式化数据的全文检索合多线索加权检索 4915335.1.2.3完善的业务分析报表系统 507042.国内经济形势分析图 5023351.按照国家名称分析各国经济形势图 5031030.按照全球各大交易所数据技术分析各类产品的价格趋向图; 5024020.用户可以定制所关心的数据统计图 5012891.1.2.4数据分类存储与自动化数据引擎 5013071.1.3交易数据存储管理分析系统架构 5126059.1.3.1交易数据按照产品分类存储 5124577.1.3.2交易数据按照产品分类趋势分析图 5126448.1.3.3交易数据按照客户分类盈利分析图 5210233.1.3.4交易数据按照佣金盈利分析图 5230956.1.3.5交易数据按照客户操作手法分析图 5218745.1.3.6交易数据按照可户盈利排名分析图 5223316.1.3.7交易数据可以提示用户适合那种产品交易 5230897.1.3.8用户分布情况报表分析 5221501.1.3.9提供精准化客户服务指南 5223717.2XX大数据统一平台 523637.2.1数据采集 541370.2.2数据接入 5428956.2.3规则过滤 557223.2.4数据存储 5527122.2.5计算引擎 561290.2.5.1功能 564763.2.5.2组成 5719018.2.5.3基本算子集 5719276.2.6业务处理 5913449.2.7业务管理 6018099.2.8用户权限管理 6011906.2.9业务管理 6017504云计算中心安全层规划设计 6325174.1云平台安全建设需求 6321366.2云平台安全建设思路 648698.3云数据中心安全系统总体设计 662035.4云平台安全防护详细设计 6631723.4.1平云终端接入安全设计 667942.4.2主机层安全 689886.4.3服务器负载均衡 6813135.4.4虚拟机VM之间访问安全 6966.5平台层安全 7126629.6数据层安全 763541云计算数据中心备份设计 7727214.1逻辑架构 7731640.2方案实现设计 7725164云计算数据中心整体方案拓扑 7829284.1.1网络拓扑 78XX税务大数据项目概述税务大数据产生背景
1.金税工程三期的发展
"金税工程"三期属于国家级信息系统工程,统一全国国地税征管系统,搭建统一纳税服务平台,实现全国税收数据大采集。金税三期2013年部分地区试点,2016年底前全国上线,为税改提供强大的数据支持。2.互联网+税务的推动
在目前"互联网+"时代背景下,云计算、人工智能、GigData、互联网、物联网等已成为当下行业战略资源。
大数据的处理与应用、多方共享,即可加强税局税收征管,同时也可通过数据分析,为纳税人提供更好的创新服务。
3.信息化是时代的需要
虽然我国已迈入信息化管理阶段,但我国税局系统大部分仅为内部共享,不能实现全过打通,甚至部门省市当地国地税均无法实现信息共享,税务信息化的发展,将全国税务系统打通,及时掌握纳税人经济业务和税收的来龙去脉,让偷逃税行为扼杀在摇篮。税务大数据的意义
1.提升征管效率
通过对纳税人数据的采集,强化大数据分析,纳税人历史行为、最新动态呈现在税务征管管理者面前,从而可以提升征管与服务;经过数据比对与分析,实时监控纳税人三流问题,从而提高纳税人尊从度,防止偷逃税,同时也可作为纳税人信用等级评定基础依据。
2.数据驱动创新
在历史税收信息化来看,税收信息共享没有得到有效利用,如与工商部门信息共享("五证合一"的目的之一),目前通过DataSharing,可以摆脱滞后的传统数据分析,提高对错综复杂数据持续分析,进行风险评估、决策支持、预案制定等,使税务征管、稽查部门保持持续应变与创新能力。
税务大数据应用
1.互联网+发票
金税三期、新防伪税控系统,将对增值税发票票面信息(包括纳税人名称、数量、单价、税率、税额等)进行全面采集,发票在线开具数据实时传送,离线开票需在规定时间上传,否则导致无法开票。纳税人发票信息采集,税务征管将对发票信息深度分析、挖掘,快速、全面将纳税人经营情况反馈与呈现,切实加强后续管理,防范征管漏洞。
2.电子税局——O2O办税
受电子商务高质量服务的影响,电子税务局上线也形成了线上(Online)受理到线下(Offline)办理的O2O(线上线下)的纳税服务新模式。
税务大数据带来的机遇与挑战
1.机遇
BigData与"大规模数据"一脉相承,其数据体量、复杂性远超过传统数据。税务数据不再仅仅是处理对象,而是一种资源,甚至可以说是资产。对于庞大的数据系统,数据支持者或提供给决策者来讲,数据魔方、分析模型显得尤为重要,我们需要熟练高效的对动态数据进行自我调整、矫正分析等。以前,税务征管数据就是"税务信息孤岛",无法给各部门进行交换共享或交叉检查,税务大数据时代的到来,使得涉税信息交换平台和公共信用信息平台互通,政府部门深度信息融合,数据多方比对,差异逐渐发现,征管更加清晰。2.挑战
平台挑战:由于税务大数据平台建设涉及到多个政府部门,所以税务大数据平台建设、形成大数据解决方案、进行可视化数据分析极具挑战性安全挑战:税务数据信息庞大,如:纳税人报送信息、税务机关掌握信息、其他平台方涉及信息等安全性存在较大隐患
人才挑战:应高度重视"互联网+税务"人才培养的重要性,加强系统化培训学习,利用互联网提高征管水平,使用征管过程中能高效对涉水数据搜集、研究、深度挖掘等。
税务大数据存在问题在税局大数据提供便利的同时,涉税数据安全需要得到保障——信息安全政策不完善;
征管软件、系统不统一(征管系统、纳税评估系统、税总软件系统、地方软件系统等)导致信息重复,效率不高——税务大数据整合不到位;
数据运用不彻底、大数据认知不够,仍旧基于传统数据分析处理——大数据思维缺乏。建设目标依托云计算技术,对XX税务内部业务平台、税务数据、国家经济情报的分析系统实行统一规划和建设。所有资源整合后在逻辑上以单一整体的形式呈现,并可按需进行动态扩展和配置。按照分阶段可升级的标准要求,为多级单位提供应用支撑基础平台服务和数据存储、备份、交换等服务,实现基础软硬件资源的统一管理、按需分配、综合利用,增强数据中心的可管理性,提高应用的兼容性和可用性,加速业务系统的部署,提升硬件资源的利用率;1、制定数据规范化,提高数据质量要提高数据质量,必须要有数据管理标准和采集操作规范。一是要规范数据采集渠道。建立基层分局、县区局、市局、省局四级数据采集网,有条件的可设置涉税数据采集专业岗位,专门从事纳税人生产信息、交易信息、经营动态信息的采集。二是要加强数据质量的管理。按照统一标准录入有关数据,对采集的数据进行逻辑和真实性检验,把好数据进口关;制定数据审计规则,加强数据质量事中控制和事后比对,将数据质量纳入绩效考核,为数据应用提供准确可靠的信息来源。三是实行信息数据集中处理。建立覆盖采集、交换、分析、应用等主要环节的数据管理体系和运行机制,实现各个管理系统各类征管数据统一存储、加工和管理,实现各类信息资源互通互联共享,实现征管工作各环节在信息化支撑条件下的相互衔接。2、充分发挥政府职能作用,实现全社会的涉税信息共享一方面,大时代数据必将全方位构建数据网络体系,通过政府部门建立大数据仓库,实施统一的信息管理平台,将工商、供电、建设、房产、交通、国土等政府各部门的数据实施统一管理,并对这些数据建立政府数据共享机制。另一方面,积极健全各政府部门间的信息网络,明确各部门通过网络获取信息的相应用户权限,彻底改变信息离散、各自为阵的局面,实现高效的信息共享,为税务部门全面掌握涉税信息提供强有力的外部环境支撑。同时,地税部门的反馈信息也可以帮助社会综合治税的成员单位掌握有关情况,查找各自工作中的不足和监管漏洞,共同提高管理水平。3、创新数据挖掘分析方法,打造智能税务在调查研究的基础上,不断探索,创建科学有效的数据挖掘和分析体系。要建立税收数据仓库,对分散在各个应用系统中的数据进行集成、整合和统一管理,实现数据资源省级集中和共享,为数据挖掘分析提供基础支持。创新税收数据挖掘分析方法,应当注重五个结合:一是宏观与微观相结合。通过宏观分析了解本地区范围内不同行业、不同税种、不同类型企业的税收情况,找到税收管理的薄弱环节,对有疑点的企业、存在问题多的行业从微观上进行纳税评估、税务稽查,采取切实措施强化管理,堵塞漏洞。二是上级与下级相结合。瞄准税收管理现代化方向,省市县层层落实税源专业化管理思路,分级分类加强税收数据挖掘分析工作。三是全面与重点相结合。在全面分析的基础上,各地要结合本地实际突出重点,有的放矢地开展重点数据挖掘分析。四是定量与定性相结合,形成完整的科学的税收分析方法体系。五是动态与静态相结合。进行税收数据挖掘分析时,注意动态数据与静态数据的结合使用,坚持从经济看税源,从纳税人的发展看税源。(4、培养复合型税务人员,满足大数据税收工作需要人的因素是搞好一切工作的前提,实行税收现代化管理,必须培养复合型税务人员。复合型人才是“一专多能”、“多专多能”,以博见长,知识面广,易于融会贯通、触类旁通。培养既精通税收业务,又熟练掌握法律、财会、统计分析、计算机等方面知识和技能的复合型人才,是大数据时代税收工作对拥有复合型税务人员的需求。在大数据时代,我们每个人既是数据的创造者,又是数据的使用者,这就要求每个税务干部,必须要有大数据的思维,运用大数据方法和手段,不断创新税收管理手段和方式,才能实现税收现代化。建设原则结合本项目的实际应用和发展要求,在进行云计算、大数据平台方案设计过程中,应始终坚持以下原则:可扩展性原则为了保护已有的投资以及不断增长的业务需求,系统必须具有灵活的结构并留有合理的扩充余地,以便根据需要进行适当的变动和扩充;主要业务平台系统应采用开放的结构,符合国际标准、工业标准和行业标准,适应技术的发展和变化。由于本次市局信息系统整体东迁,相当于系统重新规划和建设,所以我们把主要精力放在满足现有业务需求和对未来的系统扩展的支持性上,也就是需要设计成一个便于扩展的系统架构,系统应具备良好的扩展能力并能够便捷地进行扩展。合理性原则在一定的资金条件下,以适当的投入,建立性能价格比高的、先进的、完善的业务系统。所有软硬件的选型和配置要坚持性能价格比最优原则,同时兼顾与市局已有设备和系统的互联互通能力,以及与目前操作系统和应用系统的兼容性。在满足系统性能、功能以及考虑到在可预见的未来不失去先进性的条件下,尽量取得整个系统的投入合理性,以构成一个性能价格比优化的应用系统。系统架构的设计应尽可能地运用虚拟化、云计算等新技术,以符合未来的技术发展方向。这种设计方法可以最大化地利用投资,并在利用率、管理、能源等各方面提高用户投资的效率,降低总体拥有成本,减少浪费的发生。结合新技术的运用,也可以让各应用系统更好地融入未来整体IT建设规划中,避免发生推到重建的现象,从而更好地保护市局在信息系统上的投入。可靠性原则系统要具有高可靠性及强大的容错能力。该系统必须保证7×24全天候不间断地工作,核心设备比如数据库服务器和存储设备具有全容错结构,并具有热插拔功能,可带电修复有关故障而不影响整个系统的工作,设计应保持一定数量的冗余以保证整体系统的高可靠性和高可用性。即便是在系统建设初期也要着重考虑系统可用性、可靠性问题,防止出现系统停顿等问题造成信息系统的中断服务。通过结合云计算等新技术,可以更好地提高系统的可靠性和可用性。可管理性原则选择基于开放的技术,采用标准化、规范化设计;同时采用先进的设备,易于日后扩展,便于向更新技术的升级与衔接,实现系统较长的生命力;保证后期在系统上进行有效的开发和使用,并为今后的发展提供一个良好的环境;在设计、组建中心机房系统时,采用先进的、标准的设备;在选购服务器、存储和连接设备时,确保系统部件间的严密配合和无缝联接,并获得良好的售后服务和技术支持;整个系统建成后按照整理一套完整的文档资料,以便提高整个系统的可管理性与可维护性。安全性原则严格按照XX关于信息安全的规定和要求,规划和部署中心机房的业务系统和备份系统;采用安全服务器、备份还原系统、来防止内外部的网络安全威协和数据丢失窃取威胁等;所有软硬件采用国产、自主研发的产品,从根本上保障系统的安全性。云计算大数据中心优势通过建立云计算大数据中心,通过服务的方式交付对物理硬件的需求,代替传统硬件设备跟随着应有系统的增加而增加的模式,对现有应用系统进行整合,实现IT服务的快速交付,节能响应国家号召,提升业务系统安全。国产硬件自主可控数据存储硬件采用我国完全自主研发的存储服务器,硬件和软件设计完全自主可控。存储服务器采国产化架构的高可靠性硬件平台和国产睿思操作系统,从根本上保证数据的安全性。海量数据高效管理随着地理信息处理业务的增多,存数据中心存储大量的数据,这就需要存储系统能够容纳海量的数据。同时,存储系统里面的文件数量也会快速增长,当文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。采用的分布式存储系统单卷可支持300PB以上的存储空间,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。分布式存储系统拥有高效的多元数据服务器集群技术和高效的海量文件检索技术,在存放上千亿文件的同时保持极高的文件检索效率。统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。合理利用硬件资源,减少运行消耗云计算平台可将服务器物理资源转换成池化的可动态分配的计算单元,从云计算数据中心具体需求出发,在资源池中划分出适合具体业务需要的服务计算单元,不再受限于物理上的界限,从而提高资源的利用率,简化系统管理,让信息化建设对地理情报工作的变化更具适应力,从而构建出信息系统平台的基础。云平台建成后,可减少物理服务器数量至原有数量的一半以上,机房空间占用面积大大减少,机房相应配套设施建设也可能够相应减少,在实际工作中预计可节省能源达到70%以上,响应国家节能减排的要求。完善应急安全机制云平台可以自动监控资源池中计算单元和应用单元的可用性,检测物理服务器故障,如果检测到故障,可重新在资源池中其他物理服务器上重新启动相关业务,整个过程无需人工干预。通过云安全平台,可快速部署网络安全应用防火墙、IPS、WEB应用防火墙等。提供便捷的管理运维方式。可以通过一个统一的管理平台,来进行对平台中运行的各项功能设立不同权限的管理账号,根据工作需要设置不同的管理权限,并可通过其管理日志追溯操作过程。XX税务大数据项目需求分析现状分析目前,办公管理信息数据、税务数据已经发展得非常庞大,信息化平台已日益变成业务运营与管理的重要支撑平台。在信息化平台建设的过程中,各个应用系统的业务之间的联系非常紧密,流程自动化程度非常高。因此在信息化高速发展的形势下,急需形成统一完备的综合技术集成体系,能提供一体化的数据存储共享,应用集成和统一展现能力。随着信息化建设和应用工作的进一步深入,对信息网络传输能力,数据中心存储能力和处理能力提出了更高要求,为支撑流程集成和业务应用的深入融合,需要提供统一高效的流程处理能力,数据转换能力以及数据分析能力;需要建立和完善统一的综合技术平台体系,涵盖数据采集,存储,共享,交互和展现能力。总体建设需求建立一个统一的超过300TB的数据存储系统,能够无缝兼容现有系统设备和云平台、大数据平台;建立统一的云平台系统,可以快速管理、扩展、配置XX税务内部的各种业务服务和数据存储服务,并能够提供相应服务冗余性;建立基于云平台的大数据存储管理与分析系统,可以管理XX税务历年来的交易数据、时实交易数据,并能根据数据交易情况和IP数据报文情况分析各种用户的交易习惯、产品分布、盈利能力,方便XX税务对客户提供精准化服务的能力;建立基于云平台的大数据情报管理与分析系统,可以方便的把全球的经济数据、政策变化、军事变化、文化等多各种金融产品交易的影响,能够指导公司规避即将产生的或潜在经济风险,提高公司和客户对交易风险的预判能力。通过建立统一的云平台运维管理系统,可以快速提高公司IT技术人员对所有IT资源的管理应用能力,保障公司实际的设备资源、网络资源能够得到充分的使用,同时也能够提高公司能效节约的能力。云数据中心总体规划设计整体建设思想XX税务云平台大数据中心将利用云计算相关技术,结合绿色数据中心建设的目标和需求,以战略支持型信息化建设为导向,以支持保障信息化业务发展为建设思路,构造一个功能齐全、设备先进、运行高效、使用灵活、维护方便、易于扩展、投资省、高安全可靠的全局性基于云平台数据资源中心。整体系统结构本次云数据中心解决方案将针对计算服务整体架构中的云计算服务区,通过对底层服务器硬件及存储资源实现虚拟化聚合部署,配合以云计算管理平台,实现云计算中基础架构即服务(IaaS)部分,同时该IaaS平台也为地球信息发布平台、大数据分析平台、web发布平台等(Paas)层提供更高层次的云计算服务,通过Paas层平台提供数据汇集管理、数据处理、数据服务、数据应用功能(Saas层),最终通过统一的系统门户向最终用户提供服务,总体逻辑架构如下:图3SEQ图\*ARABIC\s11云数据中心总体逻辑架构云数据中心的各个关键组件及逻辑层次。云数据中心基础架构:提供了一个功能完整的、标准开放的方便集成的IaaS服务层。这层提供的动态基础架构是整个云数据中心的核心支撑层,其最核心的部分包括采用了国产服务器、国产存储存储系统和虚拟化软件构建的云计算服务基础架构。该基础架构具备良好的性能、可用性和可靠性。通过部署虚拟化软件、服务器、存储设备、网络设备,内部搭建虚拟化环境,通过虚拟化技术构建新一代的数据中心,形成统一的云计算信息系统平台。在数据中心,这些资源根据需要进行动态扩展和配置,各单位最终信息系统业务按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。平台层:通过大数据分析平台、办公OA系统、财务管理系统、交易管理系统、web发布平台、用户管理系统等应用,平台为上层门户提供数据采集、数据处理等功能。云计算服务门户:为用户提供统一的服务门户,用以支撑整个云数据中心的日常运营。包括用户登录、服务加载、下载、审批、叠加显示、拼接请求等功能。云计算服务数据安全保护:通过部署云安全平台,可以帮助用户建立起一个既能充分利用云计算优势,同时又不牺牲安全性、控制力和遵从性的环境,其为虚拟数据中心和云计算环境提供了支持虚拟化的保护,使用户可以加强应用程序和数据安全,提高可见性和控制力,以及加快整个云计算中心的遵从性举措。云计算服务运维管理体系:为整个云数据中心平台搭建一套长期运维管理的体系,为云计算平台的长期有效运行提供保障。云计算运维管理体系包括组织管理模式、制度规范体系、技术支撑体系等多个层面的内容,采用云计算技术手段和云计算管理制度结合的方式保障整个政务云平台的平稳运行。计算资源和存储资源配置估算计算资源和存储资源是云中心的两大类核心资源。对计算资源和存储资源的合理估算和配置,是建设先进、高效云平台的必要条件。以下给出我们根据云计算数据中心现有业务应用和数据资源所作出的云中心计算资源、存储资源、基础网络和安全设施的初步估算。经详细调研计算资源需要cpu计算单元320核内存5120G存储空间300TB。拟新增10台高性能服务器,供云计算、云存储使用,新增2台高性能服务器器供云安全平台使用。云数据中心资源层规划设计云计算平台基础架构体系设计原则方案设计遵循以下几个原则:先进性、标准性、实用性、可扩展性、兼容性、易用性、安全性、可靠性和前瞻性:先进性系统设计达到业界领先水平,采用当今最新且成熟的计算机、网络、控制、数据存储等技术。符合最新的技术发展潮流,且各系统设计切实可行、并容易实现。标准性系统设计严格的按照国际和国家标准进行设计,并遵循国内外有关的规范要求。具体包括:遵循标准的整体协议框架、提供标准接口、使用标准的数据传输协议等。实用性系统设计注重实用性,系统配置满足整个预警平台的实际应用需要并符合用户的实际需要。可扩展性系统设计考虑了预警平台未来功能扩充发展的需要,留有充分的扩充余地,方便地实现系统的平滑扩展和升级。易用性系统设计注重易用性,要求系统参数配置少,调整少,自动化程度高,使用方便,操作简单,管理方便。安全性系统设计具备安全性,采用多种安全防范技术和措施,在物理、系统、网络、应用以及管理上全面的保障系统的安全。可靠性系统设计注重可靠性,能够长期稳定工作,保证7*24小时不间断地稳定可靠运行,适应工作环境能力强,故障率低,维护维修方便。前瞻性系统设计具有前瞻性,整个系统的硬件配置,应符合长远的规划和设计,保证3年内系统的需要。通过需求分析我们可以得知,本次项目建设项目的设计目标是构造一个功能齐全、设备先进、运行高效、使用灵活、维护方便、易于扩展、投资省、高安全可靠的信息系统。云计算技术的出现却给我们一最佳的选择,随着数据信息的增长,技术也需要随之变化。这些变化常常实施在运行关键业务应用的复杂系统内。通常会对共享硬件和软件资源有越来越多的需求,虚拟环境下有效的管理和控制了这种需求。虚拟化是通过对IT硬件资源整合、优化、共享的成熟高新技术,是实现云计算最基础的支撑技术。它可以有效增加组织的灵活性和效率,同时又可以降低其成本。虚拟化技术以其系统的先进性、高可用性、系统的灵活扩展能力、开放性以及高可管理性等可完全满足当前和未来几年内云数据平台信息系统的发展需求。系统总体架构通过部署虚拟化软件、服务器、存储设备、网络设备,内部搭建虚拟化环境,通过虚拟化技术构建新一代的数据中心,形成统一的云计算信息系统平台。在数据中心,所有资源整合后在逻辑上以单一整体的形式呈现,这些资源根据需要进行动态扩展和配置,各单位最终信息系统业务按需使用资源。通过虚拟化技术,增强数据中心的可管理性,提高应用的兼容性和可用性,加速应用的部署,提升硬件资源的利用率,降低能源消耗。虚拟化是云计算的基础,在数据中心,通过虚拟化技术将物理服务器进行虚拟化,具体为CPU虚拟化、内存虚拟化、设备I/O虚拟化等,实现在单一物理服务器上运行多个虚拟服务器(虚拟机),把应用程序对底层的系统和硬件的依赖抽象出来,从而解除应用与操作系统和硬件的耦合关系,使得物理设备的差异性与兼容性与上层应用透明,不同的虚拟机之间相互隔离、互不影响,可以运行不同的操作系统,并提供不同的应用服务。什么是服务器虚拟化服务器虚拟化将硬件、操作系统和应用程序一同装入一个可迁移的虚拟机档案文件中如图所示:图STYLEREF1\s4SEQ图\*ARABIC\s11服务器虚拟化在单台服务器虚拟化基础上,通过虚拟化管理中心(vCenter)将多台服务器、存储硬件基础资源进行整合,构建硬件(CPU、内存、I/O)资源池,实现数据中心整体硬件资源的按需分配。虚拟化结构如图所示:图STYLEREF1\s4SEQ图\*ARABIC\s12服务器虚拟化结构将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,或者让几台服务器变成一台服务器来用,我们不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力,从而构建出数据中心系统平台的基础。虚拟化拓扑的结构图STYLEREF1\s4SEQ图\*ARABIC\s13虚拟化拓扑结构针对上面的拓扑图,详细说明如下:整体架构可以分为三层,最底层为存储网络层,中间层为虚拟化系统,最上层为虚拟服务器层;其中,下面的两层为资源提供方,最上层为资源用户;而中间层的虚拟化系统又起到了资源分配调度的作用。部署虚拟化系统之后的整体架构和传统架构下是没很大区别的,利用共享存储实现数据集中和共享,结合管理中心实现应用系统的统一管理;虚拟化集群的形成,直接为应用系统提供了高可用和负载均衡的功能。云计算中心虚拟化组件迁移使运行中的虚拟机从一台物理服务器实时迁移到另一台物理服务器,同时保持业务的连续运行。实现了零停机时间和连续可用的服务,并能全面保证事务的完整性。是用于创建动态、自动化、自我优化的数据中心的关键促成技术。图STYLEREF1\s4SEQ图\*ARABIC\s14拟机迁移高可靠性(HA)自动监控物理服务器的可用性。可检测物理服务器故障,如果检测到故障,可重新在资源池中其他物理服务器上启动虚拟机,整个过程无需人工干预。该功能组件比传统的双机冷备更具有自动启动的优势。图STYLEREF1\s4SEQ图\*ARABIC\s15高可靠性(HA)容错功能相当于双机热备,但是比传统的双机热备更具有优势,它可以时刻在两个不同的物理服务器上保持两个相同的镜像,其中一台出现故障时,不影响业务的运行,同时自动在另一台物理服务器上建立以特相同的镜像,物理服务器不受硬件型号配置的限制。图STYLEREF1\s4SEQ图\*ARABIC\s16容错动态资源分配跨资源池不间断地监控利用率,并在多台虚拟机之间智能地分配可用资源,使资源优先用于最重要的应用程序,以便让资源与业务目标相协调。自动、不间断地优化硬件利用率,以响应不断变化的情况。为业务部门提供专用的虚拟基础结构,同时让IT部门能够集中、全面地控制硬件。执行零停机服务器维护。通过使用分布式电源管理来整合工作负载和关闭集群中的虚拟机暂时不需要的耗电服务器,从而减少数据中心的能耗。图STYLEREF1\s4SEQ图\*ARABIC\s17动态资源分配(DRS)分布式电源管理可用管理系统中,为了在虚拟化环境中能达到节能减排放的作用,设置了DPM的功能。这是一个高级电源管理功能它可以提供当虚拟化环境中不需要那么大的运算资源的的时候,同过统一管理平台功能管理模块相结合。可以是实现当我们的业务系统在不需要云平台提供那么大的计算能力的时候,为了节能减排放.通过自动调度将某些服务器上的虚拟机通过在线迁移的方式自动迁移到平台中的其它物理服务器中运行,将空闲服务器进行下电。当业务重新增长后,需要平台提供大规模计算的时候,会重新启动该服务器加入到平台中,为虚拟服务器提供运算支持。图STYLEREF1\s4SEQ图\*ARABIC\s18分布式电源管理分布式集群存储平台方案拓扑图图STYLEREF1\s4-SEQ图\*ARABIC\s19 分布式集群存储架构图方案描述分布式存储系统主要由云平台下的应用服务器集群、智能存储服务器集群、元数据服务器集群三大部分组成,配置存储服务器10台,元数据服务器2台。应用服务器集群:运行客户应用程序的集群,进行特定的计算、信息处理及业务服务等。应用服务器上需要安装分布式的应用服务器模块高效的访问存储。智能存储服务器集群:由万兆存储服务器组成。存储用户的实际数据,是整个分布式存储系统的存储资源提供者。当应用服务器进行数据访问时,存储服务器集群提供实际的数据IO服务。数据IO压力能够非常均衡的分布在存储服务器集群之间。元数据服务器集群:由万兆元数据存储服务器组成。管理文件系统的元数据(包括文件目录树组织、属性维护、文件操作日志记录、授权访问等),管理整个存储系统的命名空间,对外提供单一的系统映像,并负责整个存储集群的管理监控。元数据服务器协调指挥应用服务器和存储服务器之间的活动,并且元数据服务器集群能够均衡的负担整个分布式集群存储系统的相关元数据访问负载。本期项目配置10台存储服务器2台元数据服务器组成存储集群直接接入万兆交换机,提供高性能共享存储系统;计算节点均通过以太网交换机与存储系统能共享存储系统连接。工作机通过以太网与存储系统相连。计算节点均安装集群系统客户端,可根据权限以本地盘符的方式访问文件级统一命名空间,对存储系统进行并发访问,而且所有计算节点均通过光纤直接共享存储系统中数据,充分发挥光纤高带宽,低延迟的特点,提高了效率。系统具有良好的可靠性和冗余措施,元数据服务器成对配置,当其中1台发生故障后,另1台会自动接替系统服务,最大程度保证业务时效性。随着规模、容量的不断增加可以通过在线添加扩展柜的方式,扩展系统的容量、IO带宽和负载能力。系统软件云平台系统管理支撑系统云平台系统支撑系统是数据中心的核心系统,在此系统上可以快速配置和部署各种营运支持系统(OA办公系统、财务系统、CRM客户关系系统、交易支撑系统、大数据交易数据管理系统与分析系统、大数据情报数据管理系统与分析系统)等;XX云系统面向云数据中心,如大型企业私有数据中心、公有云平台、行业云服务平台等,提供从底层资源,到上层应用和数据管理的一体化管理平台,支持云基础架构以及各类物理资源、虚拟资源的管理,为网络应用提供安全、可靠的运行支撑环境,并面向大数据应用提供多源异构大数据的存储与处理。产品定位管资源:快速地构建起跨地域的云平台基础架构,对其中的物理资源和虚拟资源进行灵活的管理,对用户的IT需求实现快速的交付,并且支持资源弹性动态扩展。管应用:支撑业务应用的开发、测试、部署和维护等整个生命周期过程,并全方位监控应用的运行情况,及时对应用资源进行弹性伸缩,确保最大的应用稳定性和可靠性。管数据:对结构化、非结构化、半结构化数据提供统一存储,并且为应用提供相应的接口,并可以进行大数据分析和可视化展现。用数据:对业务系统的数据进行整合利用,形成信息资源中心,开放信息资源目录,支撑大数据应用开发。用软件:支持软件服务化接入,实现软件服务的上线、订购、开通、使用、下线等全生命周期管理。XX税务云应用希望以云计算的模式对本单位的信息化平台进行管理和运营的金融、金融等行业希望对数据中心进行云化并提供弹性云主机服务的服务商需要快速完成开发、测试和部署运行,简化应用开发和发布流程的软件企业致力于行业软件开发,并希望搭建行业SaaS云服务平台的软件服务提供商需要采集、存储、处理来自物联网、互联网的大数据并进行分析的企事业单位客户收益数据中心整合:从地理分散到逻辑统一,将服务器、存储、网络等设备整合到虚拟资源池中,提升资源利用率;运维投入节约:硬件资源、运维人力资源成本大幅降低;云服务能力提升:提升信息化运维能力,有效保障业务交付;创新的业务模式:创新云计算、大数据业务,提升自主创新能力。产品架构物理资源层。物理资源层包括支撑XX云系统自身运行和提供服务所需的物理基础设施,XX云系统可对分布在云数据中心的各类物理资源进行统一集中管理与运维,提供数据中心、物理资源两级资源管理,支持多数据中心管理。基础架构层。基础架构层是XX云系统的核心技术支撑层,由一个虚拟化管理平台、三大管理组件和四大核心引擎组成。该层的核心支撑是虚拟化管理平台,基于虚拟化管理平台,将支撑资源、数据和应用管理的核心技术封装为资源管理、大数据管理和运行平台管理三大管理组件,并将云管理平台的共性支撑技术封装为调度、服务、数据、监控四大引擎服务,为上层服务和应用提供基础支撑。服务层。服务层是XX云系统提供服务的核心支撑层,除资源、数据、应用三大核心服务组件外,服务层还兼容第三方服务。服务层还为支撑服务开发与管理提供了服务目录、服务封装、服务集成和服务质量组件,通过通用接口规范对外提供服务。应用层。应用层主要为应用开发与自动化部署提供技术支撑,包括开发、测试、生产环境的流程化定制与自动化部署,对应用运行环境的监控,对应用所需资源的弹性伸缩调度。通过应用层的技术支撑,用户可基于XX云系统平台快速开发并部署应用,同时可直接发布到XX云系统云平台提供云应用。门户层。门户层包括两部分:用户自服务门户和运营管理门户,用户自服务门户集成了用户所需的虚拟数据中心管理运维以及应用部署等功能;运营管理门户则集成了云平台运营所需的资源管理、服务管理以及计量计费等功能。平台管理体系。平台管理体系包括三部分:运维管理体系、安全体系和标准规范体系。运维管理体系针对XX云系统的资源管理架构规范了各种监控、报警、日志等日常运维管理机制;安全体系针对XX云系统提供的资源、数据和应用服务提供了一系列安全管理机制;标准规范体系则对XX云系统的资源管理、数据管理、服务管理提供了一系列开发与管理的技术规范和操作规程。产品体系XX云系统是一套由多个软件构成的软件套装,有多个软件或者模块组成。XX云系统采用分布式部署方式,各个软件或模块之间采用松耦合的架构进行交互,易于扩展,易于根据用户需求进行定制和实施。产品架构图如下图所示。核心架构平台。采用业内先进的云计算技术构建的自主可控的虚拟化、资源调度以及服务管理平台,支持KVM、Xen、VMware等主流虚拟化技术。运维管理系统。平台运维管理员使用该系统,对计算、存储、网络等各类云资源以及整个平台的基础架构进行管理,支持资源的全方位监控和应用集群的弹性伸缩。运营管理系统。平台运营管理员使用该系统,对平台服务进行发布、计费、受理等运营管理,对所有平台租户及其订单进行管理。服务管理系统。基于平台基础服务,形成整个平台的服务目录,并可按照一定的策略对服务进行组装和编排。另外对服务的使用情况进行计量;提供开放接口,支持服务集成。自服务系统。云平台租户使用该系统,申请云主机、云硬盘等各类虚拟资源,部署、运行并监控业务系统。云安全保障。身份认证、访问控制、容灾等,另外还包括从物理层、虚拟层到服务层、应用层的安全保障体系。产品功能融合管理的云基础架构将多地传统数据中心快速整合并虚拟化,兼容各种异构的x86服务器、各种品牌的存储设备及网络设备。按需交付、弹性扩展的IaaS服务云主机:Windows、Linux全系列虚拟机,并可根据用户需求进行定制。云硬盘:各种规格的云硬盘的快速挂载和使用。私有网络:构建独立的虚拟路由器、虚拟交换机和子网,良好的网络隔离。负载均衡:构建负载均衡集群,某节点宕机不影响业务系统运行。云集群:弹性应用集群,自定义弹性策略,根据集群负载自动伸缩。数据备份:支持主机备份、硬盘备份、异地灾备等多种备份方式。无需配置、一键即用的PaaS服务云数据库:快速创建MySQL、SQLServer、MangoDB等数据库实例,即刻获得数据库URL并访问使用,无需安装配置。运行时:快速创建Tomcat、IIS、Apache等主流运行时服务。互联互通、数据的大数据服务大数据存储:对象存储,企业级非结构化数据存储服务,打造专属私有“云盘”;物联数据存储,来自传感器的海量半结构数据存储服务。大数据分析:定制数据挖掘算法和模型,支持海量数据的分析、挖掘和可视化展现。数据整合共享:无障碍获取业务系统数据,实现数据共享和交换,打通“信息孤岛”。信息资源中心:抽取、清洗、转换业务系统数据,建立企业级信息资源中心,形成信息资源目录,开放数据规范接口,支持新应用开发。一处安装、多租户共用的SaaS服务SaaS管理服务平台:构建SaaS服务的订购、授权、使用流程,整合企业应用,打造一站式办公门户。SaaS服务化改造和标准化接入:将传统BS应用进行服务化改造为多租户模式,按照统一接口规范集成至SaaS服务平台,全面支持SaaS服务运营。全方位、多方式的监控预警服务监控预警:对物理资源、虚拟资源以及应用的全方位监控和多方式预警,可自定义资源监控指标,100多种指标任意组合集群存储系统集群存储系统的特点(1)数据负载能力现有的诸多存储方案一般都不具备存储容量动态扩展的能力,而且经过动态扩展之后如果没有数据动态负载均衡的功能,即使存储系统的容量增长,性能不会随之增长。负载均衡模块是专门针对存储扩展性需求较高的应用环境而提供。当存储系统按需在线动态扩展容量之后,管理员可以选择在合适的时间启动或者停止负载均衡软件,该功能将数据在存储服务器之间迁移,直到数据分布较为均衡停止。通过负载均衡模块的数据迁移工作,分布式集群存储系统的性能能够随着容量的增长而线性增长。图3-2图STYLEREF1\s4-SEQ图\*ARABIC\s110自动均衡数据分布示意图(2)灵活冗余能力灵活冗余模块是一种高效的数据保护方式,通过将冗余数据同时存放到不同的存储服务器上来对数据进行保护,不但消除了单点故障,还能够提高数据并发访问性能。冗余数据存放在不同的服务器上防止数据丢失和存储服务中断。而且用户可以将不同的数据设置不同的冗余数据等级,当冗余等级越高,数据就能够在极端恶劣的情况保证数据的完整性和服务的连续性。(3)故障自动恢复能力 故障自动恢复模块内置有一整套完整的故障恢复流程,能够自动探测集群存储系统内各类可能出现的故障,如磁盘损坏、系统宕机、网络中断等。该软件一旦发现了软硬件故障就会立刻启动相应的故障处理恢复流程对数据进行相应的恢复保护,确保数据的完整性,并且整个恢复过程完全不影响业务连续运行。而且由于故障自动恢复软件能够提供的是整个集群全局的数据恢复,充分的利用了集群内的空闲资源进行相应的处理,能够高出RAID技术五倍的数据恢复速度确保数据完整性,为业务长期稳定运行打下基础。图3-3图STYLEREF1\s4-SEQ图\*ARABIC\s111硬件故障恢复示意图(4)大目录支持能力传统的存储方案都存在着文件数量、单目录下文件数量等诸多限制,并且当存储系统内文件数量到达一定数量时,文件的检索效率就会急剧下降,从而影响了业务的运行效率。图3-4图STYLEREF1\s4-SEQ图\*ARABIC\s112集群存数文件效率集群系统大目录支持软件打破了存储系统在面向海量小文件时的种种限制,提供了几乎无限的单目录文件数量支持、高效的文件检索效率支持,帮助企业解决海量小文件存储带来的烦恼。集群存储硬件介绍国产存储服务器是基于专业控制器架构的存储阵列产品,提供标准网络文件共享服务,实现IPSAN/NAS一体化解决方案,为各种视频监控系统提供大容量、高扩展性、高安全性的集中存储解决方案,支持外接扩展柜,:系统功能及特点国产硬件自主可控分布式集群的硬件基础采用我国完全自主研发的处理器,硬件和软件设计完全自主可控。分布式存储服务器采用了非X86架构的高可靠性硬件平台和国产睿思操作系统,从根本上保证了用户数据的安全性。分布式存储服务器具有优良的网络性能和数据吞吐能力,运行稳定,能耗低,维护简单,适合大批量部署,为信息安全隐患的消除提供有力保障。海量数据高效管理随着资料处理业务的增多,存储系统中将积累大量的数据,这就需要存储系统能够容纳海量的数据。同时,存储系统里面的文件数量也会快速增长,当文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。分布式集群存储系统单卷可支持300PB以上的存储空间,高效的管理上千亿个文件,单目录可以高效支持千万级的文件数量。分布式集群存储系统拥有高效的多元数据服务器集群技术和高效的海量文件检索技术,在存放上千亿文件的同时保持极高的文件检索效率。分布式集群存储系统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。单目录下高达千万级的文件,单一文件系统文件数量支持超过千亿(实际案例:260亿小文件);单个共享文件系统支持上百PB级(4500TB、1024应用节点支持实际案例);不停机在线扩展系统容量;数据读写性能分布式集群存储系统通过多台存储服务器提供同时数据存取服务的方法以满足大量应用服务器的并发访问需求。在应用服务器端,当应用程序往存储系统上写文件时,文件将会被根据一定大小进行分片存放到多台存储服务器上;在应用程序读文件时,则并发的从多个服务器上读取数据。由于大量的数据IO请求都被分散到多台存储服务器上,使得所有的存储服务器上的磁盘性能和网络带宽都可以同时得到充分的利用,这样分布式集群存储系统的聚合带宽由多台的存储服务器上的IO带宽相加而成,从而克服了NAS的单一出口点所造成性能瓶颈,可以满足多台应用节点并发访问的带宽需求。通过实现多存储服务器的并发数据访问支持,消除了传统存储方案中常见的负载不均导致的热点数据问题。分布式通过数据在存储服务器集群中的条带化分布实现高效、全面的负载均衡功能,充分利用硬件和网络的性能,发挥出最高IO吞吐量。提供高达数百GB/s的IO带宽和上百万的IOPS;单套存储系统支撑数千个应用节点并发访问数据;不停机在线扩展IO带宽;系统故障自动恢复和负载均衡,保证性能随规模线性增长;数据全局共享分布式大规模集群存储系统采用文件系统全局命名空间,所有计算节点都可看到一致文件系统视图。数据的全局共享可以加强各计算节点之间的协作,提高了作业的运行效率。而且数据的统一管理也方便用户数据的统一管理,并简化应用系统的开发。图4-1 多用户访问示意图数据安全性基于数据安全性方面的考虑,用户可以通过分布式配置工具设置数据相应的安全等级,选择将数据和校验数据分别存放在不同的存储服务器上。分布式存储系统可以同时使用多条高速数据通道,可消除网络层的单点故障,进一步提高系统的高可用性。在这样的情况下,即使出现存储服务器宕机、网络中断、磁盘损坏时,仍然能够保障数据完整性和数据服务的持续运行。例如,在运行中存储服务器由于磁盘损坏而丢失了该磁盘上的部分数据,分布式集群存储系统将会立刻发现该异常并自发的启动数据恢复流程,利用存放于其它存储服务器中该部分数据的校验数据重新生成一份以保证数据仍有一定的冗余度。由于分布式的数据恢复是基于真实丢失的数据,并且数据恢复是通过整个存储集群同时并发进行,所以相对于传统的RAID技术具备更快的数据重建速度,这也能够有效提升数据的安全性。通过将数据和校验数据存放在不同存储服务器的方法可以对一系列的软硬件故障(网络、主机、磁盘等)进行自动的隔离,消除了存储系统的任何单点故障,而且也无需配置任何复杂的配置。用数据全局冗余技术取代Raid,提供了史无前例的可靠性;可根据不同数据定制的数据安全性保证;系统自动探测故障并恢复,实现最高的业务连续性保证;系统可扩展性分布式集群存储系统可以支持动态的扩展存储容量,而无需中断应用的运行。用户可以通过分布式的配置工具动态添加存储服务器以扩大系统的容量和规模,而且随着存储服务器数据的增多,整套系统的聚合带宽也会线性的增长,完全可以满足业务不断发展所产生的容量和性能需求。而工业标准的通用硬件良好的兼容性和可获得性方便了整套存储系统将来的使用和扩展,分布式支持在1小时内部署上百TB的存储系统,无缝的在线增加存储容量。图4-2 传统与分布式扩展对比与现有环境无缝兼容分布式存储系统的设计是面向通用的硬件和软件环境,如使用通用的以太网络作为数据传输通道可以确保充分利用现有的环境,并且可以无需对环境做出任何修改。另外分布式能够直接支持Linux、Windows、Mac等常用的操作系统之间进行数据共享,无需对操作系统做任何修改,所以能够无缝的接入到企业现有的软硬件环境。系统的整体拥有成本分布式大规模集群存储系统能够极大的降低构建和运维成本,主要有以下几点:极大地提高了数据可用性:通过分布式内置的高可用和故障自动恢复功能等卓越的功能,无需任何第三方软件,极大减少了系统由于维护或备份恢复所需的大量时间,从而彻底提高了企业的生产效率。数据的充分共享:数据可以被前端的各种类型的主机共享,无需在Linux和Windows、Mac系统之间进行数据迁移。这允许一个数据拷贝被所有人员与进程共享,大大减少了对不同环境下相同的数据的多种形式的管理费用。存储的运维成本:由于分布式采用了通用、企业级的硬件构建,具有极高的性价比和兼容性。管理员可以轻易的掌握分布式的运维管理,使得培训支出上的费用大大减少。使用分布式提高投资回报率真正的按需购买分布式存储系统的动态可扩展技术,使得用户可以按需扩展存储容量,无需一次性投入大量成本来构建存储系统,有效降低了用户投资的风险。内置的高可用架构分布式存储系统提供特有的全系统规模数据高可用技术,用户无需投入额外的资金。在传统的NAS和SAN系统中,高可用意味着价格高昂的软件和冗余硬件。高存储空间利用率分布式存储系统将所有的存储设备聚合成单一的存储池,提供给所有的前端应用服务器集群共享访问,克服了使用传统的DAS和SAN时所出现的存储设备利用率不均衡的情况。安全应用隔离分布式存储系统可以将不同的应用在逻辑上进行隔离,不同应用之间的存储内容相互独立,有效降低人为因素造成的数据损坏,大幅度提升了存储内容的安全性和数据的完整性。降低管理及运行成本——简易存储更低的存储架构规划成本分布式存储系统可与用户的现有应用环境无缝连接,便捷地加入到用户的应用环境中,并即时对外提供存储服务。无需像传统存储系统一样对大量复杂的硬件设备进行长期的分析、规划和配置,大大节约了前期的规划成本,极大提高了存储系统部署的效率。快速的安装及配置用户可在极短时间内为分布式存储系统部署上百TB存储空间和上千台应用服务器。无需像SAN那样对光纤交换机、光纤适配器等大量的专用硬件进行配置,极大简化了配置流程。简易管理分布式存储系统简单灵活的管理模块极大降低了管理员对系统管理的参与程度,减化了管理员操作出错风险,有效降低了系统的管理成本。减少培训费用分布式存储系统采用图形化管理工具,极大简化了对系统使用的复杂度,减短了对管理员的培训时间。提高用户应用的生产力提高应用服务器之间的协作效率分布式存储系统对外提供单一的系统映像,所有的应用服务器都看到相同的文件视图。集中的数据共享存储,方便用户各业务部门之间进行数据协同处理,极大提高了用户的整体生产效率。图4-3 应用协作对比图快速的数据交付分布式存储系统提供的数据读写加速技术极大缩短了对应用程序的响应时间,每秒高达几十万个的文件检索速度轻易的满足互联网等文件密集型应用的需求。快速的故障恢复分布式存储系统高效的自动数据恢复技术,使得故障恢复时间是通用RAID技术的五分之一,恢复过程不影响相应业务的运行,保证业务的连续性。基于大数据的税务数据管理与分析系统大数据税务数据综合分析平台和大数据交易数据管理与分析系统分别是两款大数据平台软件产品,都是集成海量数据的采集、过滤、转换、存储、检索、查询、统计、分析、可视化与安全管理等全生命周期管理的综合系统,但对数的关注点和管理方式有很大的不同。系统不仅提供了常用的数据采集,检索,分析功能,而且还提供了基本的检索,分析功能单元,可以根据各种行业应用和最终用户的需求,进行不同的组合,适应用户的不同业务场景,完成大规模行业数据的挖掘分析和应用对接。作为大数据分析平台,系统具有如下特点:软硬件国产自主可控多源异构数据接入数据关联融合、统一访问大规模、高性能、可扩展高可靠、高可用大数据平台介绍平台功能框架大数据平台必须是一个开放的体系,相关软件系统和硬件设备应是业界主流产品,遵循国家标准、行业标准,保证平台、设备、管理系统能够随时无障碍地进行更新和移植。大数据管理平台还应遵循统一的标准规范,充分考虑与外部系统(4A及其它网管系统、业务系统等)的接口。支撑数据挖掘、数据实时存储和访问、ETL计算平台这三类业务应用。分布式存储功能基于申威平台的分布式存储为用户提供企业级大数据平台软件一体化解决方案;并支持特殊应用场景下的定制化硬件加速。面对结构复杂、需求多变的异构数据处理业务,分布式存储不仅提供统一、稳定、高效的存储子系统,还整合了先进的分布式集群资源管理和进程调度方案、高性能数据总线技术、全并行架构分布式关系数据库、面向图计算的并行图数据库、分布式KV存数据库,以及面向用户业务的各类工具软件和库支持。基于分布式存储平台,用户可以以非常低的时间代价构建大规模企业大数据一体化解决方案。图STYLEREF1\s5-SEQ图\*ARABIC\s11存储组件的结构图上图是存储组件的结构图,主要包括如下功能组件:分布式集群存储:基于对象的高性能分布式文件存储系统。DFS:分布式文件系统。HBase:分布式Key-Value数据库。DSQL:分布式关系数据库。GraphDB:并行图数据库。DB:传统数据库。集群存储系统基于自主可控的申威硬件平台,采用带外分布式架构,隔离元数据信息与数据信息,降低二者之间的性能干扰,采用对象存储技术将文件切片分布式存储在存储服务器集群上,充分利用所有存储服务器硬件性能,并且同时对客户端提供访问服务,形成高效聚合带宽,增加业务读写效率。Hadoop分布式文件系统HDFS(HadoopDistributedFileSystem)能提供高吞吐量的数据访问,适合大规模数据集方面的应用。通过聚合数十上百台,甚至数千台服务器本地文件系统的吞吐能力,HDFS提供同时对超大数据文件的访问能力。分布式计算功能MapReduce是一种简化并行计算的编程模型,名字源于该模型中的两项核心操作:Map和Reduce。Map将一个任务分解成为多个任务,Reduce将分解后多任务处理的结果汇总起来,得出最终的分析结果。MapReduce适合于半结构化数据或非结构化数据的挖掘和分析。NoSQL功能HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,其设计目标是用来解决关系型数据库在处理海量数据时的局限性。HBase使用场景有如下几个特点:海量数据(TB或PB级别以上);需要很高的吞吐量;需要在海量数据中实现高效的随机读取;需要很好的伸缩能力;能够同时处理结构化和非结构化的数据;不需要完全拥有传统关系型数据库所具备的ACID特性。UnitedHadoop的HBase支持地理容灾、二级索引等高级特性,满足极高可靠性和开发易用性要求。HBase适合于建立海量数据存储平台,用于数据的存储和实时访问,例如历史明细查询、详单查询等业务。数据仓库功能Hive是一个建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。Hive主要特点如下:通过HQL语言非常容易的完成数据提取、转换和加载(ETL);通过HQL完成海量结构化数据分析;灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE等存储格式,并支持自定义扩展;Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。为保证Hive服务的高可用性、用户数据的安全及访问服务的可控制,UnitedHadoop的Hive具有如下特性:基于kerberos技术的安全认证机制;数据文件加密机制;双机热备;完善的权限管理。Hive适合于结构化数据或半结构化数据的挖掘和分析。分布式协调功能ZooKeeper是一个分布式、高可用性的协调服务。在Hadoop系统中主要提供两个功能:一个功能是帮助系统避免单点故障,建立可靠的应用程序,另一个功能是提供分布式协作服务和维护配置信息。ZooKeeper主要特点:顺序一致性:按照客户端发送请求的顺序更新数据。原子性:更新要么成功,要么失败,不会出现部分更新。单一性:无论客户端连接哪个server,都会看到同一个视图。可靠性:一旦数据更新成功,将一直保持,直到新的更新。及时性:客户端会在一个确定的时间内得到最新的数据。工作流管理功能Oozie是一个用来管理Hadoopjob任务的工作流引擎,Oozie流程基于有向无环图(DirectedAcyclicalGraph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合。Oozie主要特点:支持分发、聚合、选择等工作流流程模式;与Hadoop生态系统各组件紧密结合;流程变量支持参数化;支持流程定时触发;提供了HA机制;自带一个WebConsole,提供了流程查看、流程监控、日志查看等功能。维护管理功能提供的维护管理功能是Hadoop平台的维护管理系统,是Hadoop系统操作和维护的统一入口,提供操作的定义和流程引导,并对于系统中的各项资源运行情况和操作进行监控记录,为系统的日常维护提供依据;运维管理包括升级向导、日常向导、日志收集与分析、告警、监控、安装向导、配置管理、审计管理、用户管理等。集群管理包括集群资源授权管理、数据服务封装接口、集群资源动态调度、并发控制、备份和容灾、用户和应用接入安全、集群组件HA和数据私密性。集群管理系统负责整个系统的管理,包括北向接口、南向接口和本地管理GUI界面。北向接口包括OM类的Syslog、SNMP,以及安全管理对接接口LDAP。本地管理GUI界面提供系统中各类软硬件的图形化维护入口,包括日常维护,以及安装、升级和扩容向导等。税务数据分析系统架构图STYLEREF1\s5-SEQ图\*ARABIC\s12情报分析系统系统架构图如上图所示,作为一款情报综合分析平台,平台可以分为四个大的子系统。包括:采集子系统、存储分析子系统、业务管理子系统、系统管理子系统。存储分析子系统又自下而上可以分三层,情报来源方式、数据类型存储方式、关联分析模型算法以及业务跟踪与各种类型报表。非格式数据的分类存储系统采用分布式文件、分布式数据库、分布式集群计算等多种分布式技术作为构建系统的基础平台,使得整个系统平台具有了高扩展、高容错、高性能、高可用的能力。采集子系统提供多种接口,支持对不同数据源的采集,支持对多种数据类型的提取信息,同时对采集的数据进行分析提取,对数据内容进行匹配过滤,将各种类型的数据分门别类的存储到存储分析子系统中,供后者分析使用。子系统提供对多种文档类型的导入功能,包括word,ppt,execl,pdf,rtf,txt等多种文件类型。对格式化数据的全文检索合多线索加权检索业务管理子系统管理客户的大数据分析业务,系统提供用户权限、业务管理、数据全文检索、业务定义等功能模块,满足客户业务分析的管理需求,通过全文检索和加权检索,可以把不同的情报内容针对一个时间、事件进行关联起来,并形成事件发展趋势的分析图表,用来提供领导层对金融项目的决策和分析。完善的业务分析报表系统系统运维子系统管理整个系统的设备,软件,配置等,采用统计报表、状态显示等多种方式展示系统运行状态,维护整个系统稳定运行,实现系统的高可用性,高扩展性。存储分析子系统是整个系统的核心部分。实现海量数据的存储、检索、分析等功能。实现对目标数据、图像信息、声音信息等各种文件类型的海量存储,实现对这些类型的文件的关键字快速检索结果,并形成各种形式的业务报表系统。国内经济形势分析图根据大数据中,爬虫爬到的全球各国的经济数据和经济事件、就业数量、税务调整数据,分析每个国家的经济发展趋势;按照国家名称分析各国经济形势图根据国家名称可以方便把各个国家发展趋势图、经济热点分布图分析出来;按照全球各大交易所数据技术分析各类产品的价格趋向图;根据全球各个交易所每天的公开的价格数据,可以分析各种产品的价格趋势图(技术分析);用户可以定制所关心的数据统计图根据存在的数据和定义的算法,用户可以定义自己关心的数据统计图;数据分类存储与自动化数据引擎数据存储层:支持海量异构数据的统一可靠的存储管理,对外提供统一的分布式调用接口,提供文件、数据库、索引等多种存储形式。基本算法模块层:提供大数据分析的各种基本算法模块,支持多种计算模型的分布式计算框架,为上层业务系统提供专业的计算处理库。业务处理层:基于底层提供的算法模块和基础数据,完成各种业务分析处理,同时支持对基本算法的组合定义,实现客户自定义的业务处理任务。数据总线是系统运行的一个重要基础架构,整个系统中,包括子系统之间,子系统内部均采用数据总线技术,实现子系统之间和子系统内部的数据和消息传递。数据总线支持数据和消息的缓存、中转、分发、调度等。数据总线是计算与存储的枢纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。产品特点:各种异构数据接入海量数据存储,高可用,高扩展提供各种基本算法,可以组合业务模型基于权限管理业务,控制用户访问业务和数据交易数据存储管理分析系统架构云计算数据中心通过运行在单独的服务器上的云操作系统对服务器、存储、网络等资源进行虚拟化管理,提供可以自定义的虚拟机,在虚拟机上安装Hadoop、hbase等Nosql分布式数据库集群,对现有的数据ETL采集、清洗、转换、汇总进来,使用海量数据分布存储技术,用spark、storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。还可以在虚拟机上运行业务应用系统,提供负载均衡和冗余备份,达到系统的稳定、高可用和方便的扩展性。主要用来储存交易数据的格式化数据系统,通过把大量的格式化交易数据,通过数据交交易量、交易时间段、交易算法、交易品种、交易价格、交易加权、交易IP地址等关注的内容,用来分析用户关注盈利方式、行业产品趋势。交易数据按照产品分类存储系统根据各种交易产品的名称和特性,分类存储各种交易数据和其关联的其他信息数据;交易数据按照产品分类趋势分析图根据交易数据的大数据分析,系统能够快速的分析出每种商品的价格走势图,并根据技术分析,可以预测来价格发展趋向。交易数据按照客户分类盈利分析图根据客户的分类、可以盈利的情况,可以分析出每个客户产品种类排名图和统计图;交易数据按照佣金盈利分析图XX税务根据交易佣金和保证金的盈利情况,可以方便分析出哪种产品佣金最盈利。交易数据按照客户操作手法分析图根据用户的交易数据,可以分析出用户习惯的交易手法和盈利情况;交易数据按照可户盈利排名分析图根据交易数据可以分析出去每个客户盈利情况和相对的排名。交易数据可以提示用户适合那种产品交易根据交易说明,可以为每个用提供自己最合适产品进行交易和提示。用户分布情况报表分析根据用户的交易数据,可以分析出每个客户的分布情况,依据交易数中存在IP信息通过地址与坐标的转换,可方便的指导公司的客户分布在什么地方。提供精准化客户服务指南根据交易信息,可以为用户提供全方位的各种数据报表和数据产品,指导用户去做自己的产品。XX大数据统一平台分布式数据总线是分析系统的数据通路,其基于分布式内存实现,可实现高速的数据交换、缓冲及转换、迁移等。各子系统之间和子系统内部的各个组件之间通过分布式数据总线互联,实现数据在组件间的交换及同步;外部数据源接入内部存储组件前也要先经过数据总线进行缓冲、交换等预处理操作;此外为支持一体机对异构数据的关联融合,提供对异构数据的关联加载,并可利用数据总线的高速缓冲区进行多集合数据的join统一格式转换等处理;此外数据总线还可完成对异构存储组件内数据联合的功能,可支持上层一次操作对异构数据集的联合查询。图STYLEREF1\s5-SEQ图\*ARABIC\s13:数据总线架构图数据总线处于数据传输的关键路径上,因而对数据传输流起到控制作用,可完成对数据的分发和调度。同时还可根据上层存储访问的不同需求自动将数据分发到相应的存储组件,同时做到对上层透明。提供如下关键特性:各组件间数据融合、缓存、交换提供异构数据接入、分发及数据关联操作的内存融合数据流高速路由/分发基于配置策略的数据分发MQ/Buf/Mcache同时提供分布式消息队列(MessageQueue)、数据缓冲、热点缓存功能分布式内存管理提供逻辑统一视图,同时支持高可靠基于流池的动态均载基于流粒度的均载策略,保证流内一致性可定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 有感领导、直线责任和属地管课件
- 3d动画外包合同
- ui劳务外包合同
- 上班时签外包合同
- 买卖外包合同
- 京东客服外包合同
- 企业校招外包合同
- 人防装修外包合同
- 保险业务外包合同
- 公司合同转外包合同
- SL-T+712-2021河湖生态环境需水计算规范
- 如何在困难情境下运用沟通技巧
- 复数的三角表示式 高一下学期数学人教A版2019必修第二册
- 锰矿选矿厂运营与管理经验分享
- 《国有企业采购操作规范》【2023修订版】
- 范县民源新材料有限公司年产2000吨光稳定剂、1500吨光引发剂项目环评报告
- 歌词文化鉴赏教程
- 2023年语文真题 高考新课标Ⅱ卷现代文阅读讲评课件
- 《医疗纠纷预防与处理条例》解读
- GB/T 28252-2012磨前齿轮滚刀
- 【课件】6.3.1平面向量基本定理课件高一下学期数学人教A版(2019)必修第二册
评论
0/150
提交评论