




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上西安科技大学计算机科学与技术学院实习报告课程: 大数据和并行计算 班级: 网络工程 姓名: 学号: 专心-专注-专业前言技术(big data),或称巨量,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在及肯尼斯·库克耶的中大数据指不用随机分析法()这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。特点具体有:大数据分析相比于传统的应用,具有数据量大、查询分析复杂等特点。刊
2、登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台、及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归
3、纳为4个“V”Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。从某种程度上说,是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。1.大数据概念及分析毫无疑问,世界上所有关注开发技术的人都意识到“大数据”对企业商务所蕴含的潜在价值,其目的都在于解决在企业发展过程中各种业务数据增长所带来的痛苦。现实是,许多问题阻碍了大数据技术的发展和实际应用。因为一种成功的技术,需要一些衡量的标准。现在我们可以通过几个基本要素来衡量一
4、下大数据技术,这就是流处理、并行性、摘要索引和可视化。大数据技术涵盖哪些内容?1.1流处理伴随着业务发展的步调,以及业务流程的复杂化,我们的注意力越来越集中在“数据流”而非“数据集”上面。决策者感兴趣的是紧扣其组织机构的命脉,并获取实时的结果。他们需要的是能够处理随时发生的数据流的架构,当前的数据库技术并不适合数据流处理。1.2并行化大数据的定义有许多种,以下这种相对有用。“小数据”的情形类似于桌面环境,磁盘存储能力在1GB到10GB之间,“中数据”的数据量在100GB到1TB之间,“大数据”分布式的存储在多台机器上,包含1TB到多个PB的数据。如果你在分布式数据环境中工作,并且想在很短的时间
5、内处理数据,这就需要分布式处理。1.3摘要索引摘要索引是一个对数据创建预计算摘要,以加速查询运行的过程。摘要索引的问题是,你必须为要执行的查询做好计划,因此它有所限制。数据增长飞速,对摘要索引的要求远不会停止,不论是长期考虑还是短期,供应商必须对摘要索引的制定有一个确定的策略。1.4数据可视化可视化工具有两大类。探索性可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系,这是一种可视化的洞察力。叙事可视化工具被设计成以独特的方式探索数据。数据会按照地域逐月展示,并根据预定义的公式排序。2.并行处理2.1并行处理技术-概念是指在同一时刻或同一时间间隔内完成两种或两种以上性质相同或不相同的工
6、作,只要在时间上互相重叠,都存在并行性。计算机系统中的可从不同的层次上实现,从低到高大致可分为:2.1.1 内部的并行:是指指令执行中的各个微操作尽可能实现并行操作。2.1.2 间的并行:是指两条或多条指令的执行是并行进行的。2.1.3 任务处理的并行:是指将程序分解成并行处理的多个处理任务,而使两个或多个处理。2.1.4 作业处理的并行:是指并行处理两个或多个作业。如、等。另外,从上,也有从低到高的并行层次。2.1.5 字串位并:同时对一个二进制字的所有位进行操作。2.1.6 字并位串:同时对多个字的同一位进行操作。2.1.7 全并行:同时对许多字的所有位进行操作。2.2 三种形式2.2.1
7、 时间并行时间并行指时间重叠,在概念中引入时间因素,让多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部分,以加快硬件周转而赢得速度。?时间概念的实现方式就是采用流水处理部件。这是一种非常经济而实用的,能保证具有较高的性能价格比。目前的高性能微型机几乎无一例外地使用了流水技术。2.2.2 空间并行空间并行指资源重复,在概念中引入空间因素,以“数量取胜”为原则来大幅度提高的处理速度。大规模和的迅速发展为空间带来了巨大生机,因而成为实现并行处理的一个主要途径。空间主要体现在和多。但是在单系统中也得到了广泛应用。2.2.3 时间并行+空间并行指时间重叠和资源重复的综合应用,既采用时间
8、又采用空间并行性。显然,第三种带来的高速效益是最好的。2.3 并行计算机21世纪的在不同层次上采取了并行措施,只有当提高到一定层次时,具有了较高的并行处理能力,才能称为“并行处理系统”。一般有以下三种并行措施。2.3.1 时间重叠时间重叠是在概念中引入时间因素,即多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部件,以加快硬件周转而赢得速度。这各并行措施表现在解释的重叠及流水线部件与流水线。2.3.2 资源重复资源重复是在概念中引入空间因素。这种措施提高处理速度最直接,但由于受硬件价格昂贵的限制而不能广泛使用。目前,随着硬件价格的降低,已在多种中使用,如、陈列式处理机等。2.3
9、.3 资源共享资源共享也是在概念中引入时间因素,它是通过软件的方法实现的。即多个用户按一定的时间顺序轮流使用同一套硬件设备;既可以是按一定的时间顺序共享CPU,也可以是CPU与在工作时间上的重叠。这种并行措施表现在和中,而分布式处理系统和网络则是更高层次的资源共享。并行计算机具有代表性的应用领域有:建摸、VLSI电路的计算机辅助设计、大型、犯罪控制和国防战略研究等,而且它的应用范围还在不断地扩大。并行处理技术主要是以算法为核心,并行语言为描述,软硬件作为实现工具的相互联系而又相互制约的一种结构技术。本文就并行处理技术的算法策略、描述性定义及软硬件方面的实现做一个简单的介绍。2.4 并行算法的基
10、本策略在并行处理技术中所使用的算法主要遵循三种策略:2.4.1分而治之法:也就是把多个任务分解到多个或多个中,然后再按照一定的来进行求解。2.4.2重新排序法:分别采用或动态的词度方式。2.4.3显式/隐式结合:显式指的是并行语言通过编译形成并行程序,隐式指的是串行语言通过编译形成并行程序,显式/隐式并行性结合的关键就在于并行编译,而并行编译涉及到语句、进程以及各级程序的并行性。2.5并行软件并行软件可分成并行系统软件和并行应用软件两大类,并行系统软件主要指并行和并行操作系统,并行应用软件主要指各种软件工具和应用软件包。在软件中所牵涉到的程序的主要是指程序的相关性和网络互连两方面。程序的相关性
11、主要分为数据相关、控制相关和资源相关三类。2.5.1 数据相关:说明的是语句之间的有序关系,主要有流相关、反相关、输出相关、I/O相关和求知相关等,这种关系在程序运行前就可以通过分析程序确定下来。数据相关是一种偏序关系,程序中并不是每一对语句的成员都是相关联的。可以通过分析程序的数据相关,把程序中一些不存在相关性的并行地执行,以提高程序运行的速度。2.5.2 控制相关:是语句执行次序在运行前不能确定的情况。它一般是由转移引起的,只有在程序执行到一定的语句时才能判断出语句的相关性。控制相关常使正在开发的并行性中止,为了开发更多的并行性,必须用编译技术克服控制相关。2.5.3 网络互连将子系统互连
12、在一起或构造多处理机或多计算机时可使用静态或动态的网络。静态网络由点一点直接相连而成,这种连接方式在程序执行过程中不会改变,常用来实现的子系统之间或的多个计算结点之间的固定连接。是用开关通道实现的,它可动态地改变结构,使之与用户程序中的通信要求匹配。包括总线、交叉开关和多级网络,常用于共享存储型多处理机中。在网络上的消息传递主要通过寻径来实现。常见的寻径方式有存储转发寻径和虫蚀寻径等。2.6 发展概况遵循不同的技术途径,采用不同的并行措施,在不同的层次上实现并行性的过程,反映了体系结构向高性能发展的自然趋势。在中,主要的技术措施是在功能部件上,即改进各功能部件,按照时间重叠、资源重复和资源共享
13、形成不同类型的并行处理系统。在单处理机的并行发展中,时间重叠是最重要的。把一件工作分成若干相互联系的部分,把每一部分指定给专门的部件完成,然后按时间重叠措施把各部分执行过程在时间上重叠起来,使所有部件依次完成一组同样的工作。是指一个系统中有多个,它属于多多系统。按多机之间连接的紧密程度,可分为多机系统和多机系统两种。在多机系统中,按照功能专用化、多机互连和网络化三个方向发展并行处理技术。功能专用化经松散耦合系统及向高级语言处理机和数据库机发展。多机互连是通过紧密耦合在一起的、能使自身结构改变的可重构和高可靠性的容错多处理机。网络是为了适应计算机应用社会化、普及化面发展起来的。它的进一步发展,将满足多任务并行处理的要求,多机系统向分布式处理系统发展是并行处理的一种发展趋势。3. 并行处理在大数据时代的挑战对大数据来讲最主要的是在模型中做计算的约束是非常大的。我们看BSP模型,为什么在过去
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电动汽车的商业化运营模式与分析试题及答案
- 家居市场2025年线上线下融合模式创新模式下的家居行业产业创新研究报告
- 电池生产厂家考题试题及答案
- 家具行业设计的企业社会责任与实践探讨试题及答案
- 职业防护测试题及答案
- 建筑施工安全管理信息化在施工现场安全教育与培训中的应用报告
- 西北农林科技大学《计算力学》2023-2024学年第二学期期末试卷
- 全球流媒体市场2025年竞争格局及内容创新模式深度报告
- 电脑采购面试题及答案
- 幼儿园音乐试题及答案
- 校园原创歌曲大赛活动方案(3篇)
- 2025年粮食集团招聘笔试参考题库含答案解析
- 供应链管理供应商关系管理与维护指南
- 如何阅读文献
- DB45T 1551-2017 高等级公路水泥混凝土路面设计规范
- 《用友渠道政策》课件
- 公安机关涉案财物管理
- 蓝色插画风试用期员工转正述职模板
- 财务管理风险与报酬
- 病句真题训练100道
- 2024版区域代理合同书
评论
0/150
提交评论