总体技术方案2_第1页
总体技术方案2_第2页
总体技术方案2_第3页
免费预览已结束,剩余4页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、(2 )总体技术方案(包括项目所依据的技术原理、主要技术与性能指标、项目拟执行的质量标准类型、质量标准名称)1.大数据分布统一处理模型及编程方法架构1.1主要设计思想和设计目标?设计原则设计思想:将海量数据分解到由大量 ARM或X86架构计算机构成的低成本计算平台上进行实时处理,依靠分布式云计算软件进行容错,从而提升移动网络海量信令数据分析的实时性和性价比?设计目标利用ARM或X86架构计算机,建立云计算平台,能够对流量超过 48000Mbps的数据监测流进行实时处理,提供多种业务支持?系统具有可动态可伸缩性?高度容错性和响应实时性,达到较之传统方案一个数据量级的性能价格比提升?clientR

2、egisterJob logRegisterMastenJprinnarvJ-Master<standbyjif'SlV'slavelslavedslaveORunJobSubrnitjo-bslavedThreadz 1Output data设计原则(1)前瞻性技术与实际应用环境相结合本设计是既是先进技术应用示范,又是工程实施型设计?把握技术正确性和先进性是前提但是前瞻性技术实施必须在资源池的实际应用环境和实际监测流量的基础上进行,必须结合资源池平台的实际情况进行研究和开发,只有与实际应用环境相结合才有实际应用价值?(2)学习借鉴国外先进技术与自主创新相结合在基于资源池

3、的云计算平台用于超大规模数据处理方面,国内外几乎是在一个起跑线上;但在关键技术研究及既往的技术积累方面,国外一些大公司有着明显的优势?我们将积极学习借鉴国外先进的云计算技术 ,同时与自主创新相结合,形成功能强大?性能卓越的能够满足实际应用环境需求的云计算信令处理和分析平台?2.主要技术与性能指标2.1、分布式数据索引管理技术;随着移动互联网、物联网、云计算技术的蓬勃发展,非结构化、半结构化、结构化数据均成倍增长,非结构化数据的超大规模和增长,总数据量已经达到8090%,比结构化数据增长快10倍到50倍。因此,如何高效的进行分布式数据管理就成为了一个重中之重。下表列出了分布式数据存储系统的技术挑

4、战和应对措施。技术挑战应对措施数据完整性CRC校验和保证数据完整性,客户端写一个块之前会计算其对应的校验和。校验和文件和数据块存储在 data node 的相同目录下。客 户端读取数据块并读取其校验和文件,进行校验。 校验失败则尝试其他副本。数据块副本之间的简单一致性模型即一个文件一旦创建、写入、关闭之后就不需要一致性修改了体系架构采用主从结构的体系,一个集群是由一个名字节点管理元数据的 命名空间,和多个数据节点来管理数据块的存储。数据块存储将一个文件分割成一个或多个的数据块,这些数据块存储在一组 数据节点中。兀数据节点操作文件命名空间的文件或目录操作,如打 开,关闭,重命名,等等。它同时确定

5、块与数据节点的映射。数据节3点来负责来自文件系统客户的读写请求。数据副本放置位置在数据块复制数为 3的情况下,放置方式是将第一个放在本地数 据节点,将第二个复制放到本地机架上的另外一个数据节点而将第三 个复制放到不冋机架上的数据节点。这种方式减少了机架内的与流量,提高了写的性能。机架失效的机会远小于机器实效的。这种方式没有 影响数据的可靠性和可用性的保证。但是它减少了读操作的网络聚合 带宽。读操作时的副本选择对一个读操作来说应该读取离它最近的数据块副本。如果在读节 点的同一个机架上就有这个复制,就直接读这个,如果物理集群是跨 越多个数据中心,那么本地数据中心的复制是优先于远程的复制。22、实时

6、多表关联查询技术;高性能的关联查询需要根据不同的模式采用不同关联算法,在基于代价的优化方式下,一般采用hash join算法,它是一种用于equi-join (而anti-join 就是使用NOT IN时的join) 的技术。Hash join 的主要资源消耗在于 CPU (在内存中创建临时的hash表,并进行hash计算)。在绝大多数情况下,hash join 效率比其他join方式效率更高:在 Sort-MergeJoin(SMJ),两张表的数据都需要先做排序,然后做 merge。因此效率相对最差; Nested-Loop Join(NL)效率比SMJ更高。特别是当驱动表的数据量很大(集的

7、势高)时。这样可以并行扫描内表。Hash join效率最高,因为只要对两张表扫描一次。Hash join 般用于一张小表和一张大表进行join时。Hash join的过程大致如下(在并行情况下):(1)一张小表被hash在内存中。因为数据量小,所以这张小表的大多数数据已经 驻入在内存中,剩下的少量数据被放置在临时表空间中;(2) 每读取一条大表的记录,和内存中小表的数据比较,如果符合先做join,而不直接输出,直到整张大表数据读取完毕。如果内存足够,Join好的数据就保存在内存中。否则,就保存在临时表空间中。(3 )当大表的所有数据都读取完毕,将临时表空间中的数据以其输出。如果小表的数 据量足够小,那所有数据就都在内存中了,可以避免对临时表空间的读写。基于规则的优化方式下,经常采用Sort-Merge Join(SMJ)连接和Nested-LoopJoin(NL)连接。Nested Loop Join(嵌套循环联结)对于主表的每条记录将其与从表的每条记录在JOIN条件的字段上直接比较并筛选出符合条件的元组。被联结的表所处内层或外层的顺序 对磁盘I/O开销有着非常重要的影响,而 CPU开销相对来说影响较小。Nested Loop 一般在两个集合都很大的情况下效率就相当差了,而Sort-Merge 在这种情况下就比它要高效不少,尤其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论