高性能计算习题及答案.doc

上传人：u*** IP属地：浙江上传时间：2020-02-11 格式：DOC 页数：15 大小：1.47MB 积分：6 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

高性能计算练习题1、一下哪种编程方式适合在单机内并行？哪种适合在多机间并行？单机：Threading线程、OpenMP；多机：MPI。2、例题：HPC集群的峰值计算能力：一套配置256个双路X5670处理器计算节点的HPC集群。X5560:2.93GHz Intel XS5670 Westmere六核处理器，目前主流的Intel处理器每时钟周期提供4个双精度浮点计算。峰值计算性能：2.93GHz*4Flops/Hz*6Core*2CPU*256节点=36003.8GFlops。Gflops=10亿次，所以36003Gflops=36.003TFlops=36.003万亿次每秒的峰值性能。3、 Top500排名的依据是什么？High Performance Linpack(HPL)测试结果4、目前最流行的GPU开发环境是什么？CUDA5、一套配置200TFlops的HPC集群，如果用双路2.93GHz Intel westmere六核处理器X5670来构建，需要用多少个计算节点？计算节点数=200TFlops/(2*2.93GHz*6*4Flops/Hz)=14226、天河1A参与TOP500排名的实测速度是多少，效率是多少？2.57PFlops 55%7、 RDMA如何实现？ RDMA(Remote Direct Memory Access)，数据发送接收时，不用将数据拷贝到缓冲区中，而直接将数据发送到对方。绕过了核心，实现了零拷贝。8、InfiniBand的最低通讯延迟是多少？1-1.3usec MPI end-to-end，0.9-1us InfiniBand latency for RDMA operations9、GPU-Direct如何加速应用程序运行速度？通过除去InfiniBand和GPU之间的内存拷贝来加速程序运行。GPUs provide cost effective way for building supercomputers【GPUs提供高效方式建立超级计算机】Dense packaging of compute flops with high memory bandwidth 【使用高端内存带宽的密级封装浮点计算】10、网络设备的哪个特性决定了MPI_Allreduce性能？集群大小，Time for MPI_Allreduce keeps increasing as cluster size scales，也就是说集群的规模决定了MPI_Allreduce的性能。11、现排名世界第一的超级计算机的运行速度？K computer: 10PFlops 也就是10千万亿次,93%12、以下哪些可以算作是嵌入式设备：A 路由器 B机器人 C微波炉 D笔记本电脑13、选择嵌入式操作系统的头两个因素是： A 成本 B 售后服务 C可获得源代码 D相关社区 E开发工具14、构建嵌入式Linux的主要挑战是： A 需要广博的知识面 B深度定制的复杂性 C日益增加的维护成本 D稳定性与安全性 E开源项目通常质量低下15、The Yocto Project的主要目的是：A. 构建一个统一的嵌入式Linux社区 B. 提供高质量的工具帮助你轻松构建嵌入式Linux，从而专注于其上的研究工作 C. 包括一组经过测试的metadata，指导最核心的一些开源项目的交叉编译过程 D. 提供灵活的扩展接口，可以方便的导入新的项目，或是新的板级支持包(BSP)16、请描述交叉编译一个开源项目需要完成哪些工作？ Patch-Configure-Compile-Install-Sysroot-Package-Do_rootfs17. Top500排名的依据是什么？答：High Performance Linpack(HPL)测试结果18.Write codes to create a thread to compute the sum of the elements of an array.答：Create a thread to complete the sum of the elements of an array.struct arguments double *array;int size;double *sum;int main(int argc, char *argv) double array100; double sum; pthread_t worker_thread; struct arguments *arg; arg = (struct arguments *)calloc(1,sizeof(struct arguments); arg-array = array; arg-size=100; arg-sum = ∑ if (pthread_create(&worker_thread, NULL, do_work, (void *)arg) fprintf(stderr,”Error while creating threadn”); exit(1); .void *do_work(void *arg) struct arguments *argument; int i, size; double *array; double *sum; argument = (struct arguments*)arg; size = argument-size; array = argument-array; sum = argument-sum; *sum = 0; for (i=0;i pncomputing sum sn（2）Assignmentnthread k sums sk = f (Ak*n/p) + + f(A(k+1)*n/p-1) nthread 1 sums s = s1+ + sp (for simplicity of this example)nthread 1 communicates s to other threadsn（3）Orchestration nstarting up threadsncommunicating, synchronizing with thread 1n（4）Mappingnprocessor j runs thread jMFlops：Millions of floating point operations /secPOSIX ：Portable Operating System Interface of Unix可移植操作系统接口33. Thread线程：可作为独立单元被调度的一连串代码。（process进程）34. 编写多线程代码时要注意的问题（1）负载均衡（2）正确的存取共享变量（通过互斥代码或互斥锁实现）35. 用户级线程：多对一映射。不需要系统支持，操作开销小。一个线程阻塞时其他线程也要阻塞。内核级线程：一对一映射。每个内核线程调度相互独立，OS完成线程的操作。在一个处理器上每个内核线程可并行执行，一个线程阻塞时其他线程也可以被调度。线程调度开销大，OS要适应线程数目的变化。36. 多线程pthread_t ：the type of a threadpthread_create() ：creates a threadpthread_mutex_t ：the type of a mutex lockpthread_mutex_lock() ：lock a mutexpthread_self() ：Returns the thread identifier for the calling threadint pthread_create ( pthread_t *thread , pthread_attr_t *attr, void * (*start_routine) (void *) , void *arg); （1）计算数组元素之和struct arguments double *array;int size;double *sum;int main(int argc, char *argv) double array100; double sum; pthread_t worker_thread; struct arguments *arg; arg = (struct arguments *)calloc(1,sizeof(struct arguments); arg-array = array; arg-size=100; arg-sum = ∑ if (pthread_create(&worker_thread, NULL , do_work, (void *)arg) fprintf(stderr,”Error while creating threadn”); exit(1); .void *do_work(void *arg) struct arguments *argument; int i, size; double *array; double *sum; argument = (struct arguments*)arg; size = argument-size; array = argument-array; sum = argument-sum; *sum = 0; for (i=0;iarray = array; arg-size=100; arg-sum = ∑ if (pthread_create(&worker_thread, NULL , do_work, (void *)arg) fprintf(stderr,”Error while creating threadn”); exit(1); .if (pthread_join(worker_thread, &return_value) fprintf(stderr,”Error while waiting for threadn”); exit(1); RDMA，Remote Direct Memory Access,远程直接存储器存储，通过Zero-copy和Kernel bypass技术实现。37. InfiniBand 的最低通讯延迟是多少？高吞吐率（40Gb/s 点对点和120Gb/s连接；消息传递接近90M/s；发送接收和RDMA操作通过0复制），低延迟（11.3usec MPI 端对端；RDMA操作0.91us Infiniband延迟）38. 计算科学与理论科学和实验科学是人类认识自然的三大支柱。39. 应用领域：美国HPCC计划，包括：磁记录技术、新药设计、高速民航、催化作用、燃料燃烧、海洋建模、臭氧损耗、数字解析、大气污染、蛋白质结构设计、图像理解、密码破译。40. HPC衡量单位：十亿次Gflop/s，万亿次Tflop/s，千万亿次Pflop/s。41. Linpack是国际上最流行的用于测试高性能计算机系统浮点性能的benchmark。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试，评价高性能计算机的浮点性能。42. 共享存储对称多处理机系统(SMP，Shared Memory Processor)，任意处理器可直接访问任意内存地址,且访问延迟、带宽、几率都是等价的; 系统是对称的。43. Cluster集群：将多个计算机系统通过网络连接起来如同一个系统一样提供服务，可以获得高并行处理能力、高可用性、负载均衡和管理便捷性。44. Cluster技术进步的必然：高性能处理器、高速网络、集群OS和管理系统、并行/分布计算工具以及软件。 45. 并行计算Parallel computing: 单一系统，众核处理同一任务；分布式计算Distributed computing: 将多系统用调度器松散的结合起来，处理相关任务；网格计算Grid Computing: 用软件和网络将多系统和多处理器紧耦合，共同处理同一任务或相关任务。46. 并行计算的两大优势:处理器总体性能更强，总体内存更大。47. 并行式计算的分类：1）shared memory （共享内存），可以分为统一内存访问 Uniform memory access (UMA)即所有处理器访存相同和Non-uniform memory access (NUMA)访存延迟取决于数据存储位置；2）distributed memory （分布式内存）。可分为大规模并行处理器 Massively Parallel Processor (MPP)和集群Cluster。48. 对称多处理器SMP与全局内存通过总线或交叉开关crossbar互联。优点编程模型简单，问题总线带宽会饱和，交叉开关规模会随处理器个数增加而增大。缺点不宜扩展，限制了SMP的规模。49 集群优势：通用的高性能、高可用性、高扩展性和高性价比。50. 分布式内存编程模型：MPI51. 共享内存编程模型：OpenMP，Pthreads52. 并行粒度：PVM/MPI、Threads、Compilers、CPU。53. 消息传递是当前并行计算领域的一个非常重要的并行程序设计方式.54. MPI是一个库，而不是一门语言；MPI是一种消息传递编程模型，是提供一个实际可用的、可移植的、高效的和灵活的消息传递接口标准.55. 消息传送机制：阻塞方式，必须等到消息从本地送出之后才可以执行后续的语句；非阻塞方式，不须等到消息从本地送出就可以执行后续的语句，并不保证资源的可再用性。56. 并行加速的木桶理论：一个给定问题中的并行加速比受此问题的串行部分限制。57. 对于并行计算来说，最危险的缺陷就是将一个计算问题变成了一个通信问题：这种问题一般发生在各个节点为了保持同步而传输数据的时间超过了CPU进行计算的时间，常见网络Infiniband，10GE，GE，Myrinet。58. GPU，C-G混合架构。第二次课：蒋运宏59. VMM，Virtual Machine Monitor，虚拟机监控程序。60. VMM的基本特征：Equivalence（等价），Isolation（隔离），Efficiency（高效）。61. VMM需要能够控制整个物理平台，通过“Ring Deprivileging”实现CPU控制。62. 可虚拟化的指令集：特权指令，敏感指令。刘通：63. 什么是SuperComputing：biggest，fastest。About Size and Speed。64. Supercomputing用在对物理现象的仿真，数据挖掘，虚拟化。65. HPC的组件：硬件、软件、应用程序和人。66. Remote DMA：Zero-copy，Kernel bypass67. TCP/IP Networks: Overhead and Latency （负载和延迟）68. InfiniBand的高性能体现在：高的吞吐量（highest throughput，40Gb/s node to node and 120Gb/s switch to switch，Nearly 90M MPI messages per second，Send/receive and RDMA operations with zero-copy），低的延迟（lowest latency，1-1.3usec MPI end-to-end，0.9-1us InfiniBand latency for RDMA operations），低的CPU负载（Lowest CPU overhead）69. 影响可扩展性的关键元素：硬件，软件，程序本身70. 随着系统大小的增加，通信时间所占的比例持续增加71. Mostly used MPI functions，MPI最常用的函数：MPI_Wait, MPI_Allreduce, and MPI_Bcast 72. InfiniBand provides higher utilization, performance and scalability，提供了更高的利用率，性能和可扩展能力。王璟：73. 基本概念：并行计算(Parallel Computing），高端计算(High-end Parallel Computing)，高性能计算(High Performance Computing)，超级计算(Super Computing)74. 为何要做HPC：科学和工程问题的数值模拟与仿真，要求:在合理的时限内完成计算任务。75. 如何满足高精度计算的需求？并行计算，降低单个问题求解的时间，增加问题求解规模，提高吞吐率(多机同时执行多个串行程序).76. 高性能计算机：由多个计算单元组成，运算速度快、存储容量大、可靠性高的计算机系统。77. 科研创新的三大支柱：，理论分析，计算模拟，观察实验。78. HPC应用：汽车制造，气象预报，生物制药，飞机制造，动画渲染，金融计算，石油勘探。79. 并行计算的硬件体系：并行计算机就是由多个处理单元组成的计算机系统，这些处理单元相互通信和协作以快速、高效求解大型复杂问题。80. 结构模型：a）PVP；b）SMP； c）MPP（Massively Parallel Processor，大规模并行处理器）；d）DSM（distributed shared memory,动态分布式存储）；e）Cluster/COW；81. 访存模型：多处理机（单地址空间共享存储器），UMA: Uniform Memory Access，NUMA: Nonuniform Memory Access；多计算机（多地址空间非共享存储器），NORMA:No-Remote Memory Access。82.程序设计模型：a）隐式并行（Implicit Parallel），就是各种并行编程语言，如Fortran90, HPF(1992)；共享变量（Shared Variable），如POSIX threads线程模型，OpenMP；消息传递（Message Passing），如MPI （Message Passing Interface），PVM（Parallel Virtual Machine）。InfiniBand：以交换为核心；交换机是InfiniBand中的基本组件；点到点的交换结构：解决了共享总线、容错性和可扩展性问题；具有物理层低功耗特点和箱外带宽连接能力。InfiniBand的特点：高速度；远程直接内存存取功能；传输卸载；CPU加速-GPU；网络加速-InfiniBand；内存加速-虚拟存储；GPU（Graphic Processing Unit），用于个人计算机、工作站和游戏机的专用图像显示设备显示卡或主板集成。CPU更多资源用于缓存；GPU更多资源用于数据计算,适合具备可预测计算模式的应用.HPC面临的挑战：a）计算功耗比，即通用性和效率之间寻找一个平衡点；b）更高的并行度；c）足够价值的艾级应用；d）容错；e）所依赖的器件革命何时发生；f）与新兴应用的关系；g）高性能应用软件产业；83、集群技术的优势：通用的高性能：节点采用传统服务器平台，通用的硬件、操作系统，适应性强高可用性：高度的设备冗余，CPU、内存、磁盘、节点机高可扩展性：以交换设备为核心，节点机、存储可灵活填减更高的性价比：通用设备，统一的标准84、MPI：Massage Passing Interface:是消息传递函数库的标准规范.MPI是一个库，而不是一门语言；MPI是一种消息传递编程模型，并成为这种编程模型的代表和事实上的标准； MPI是一种标准或规范的代表，而不特指某一个对它的具体实现；目标: 是提供一个实际可用的、可移植的、高效的和灵活的消息传递接口标准.MPI提供C/C+和Fortran语言的绑定1.基本缩写（HPC）与高性能计算相关的缩写5个2.ConcurrencyPipelineRISC会画图 illustration3.How to improve performance?Coding.How I speed up my code?4.A Trivial Example load-balance speed up5.线程 PThread: POSIX Thread一、名词解释HPCC：High Performance Computing and Communications（高性能计算和通信）RISC: Reduced Instruction Set Computing（精简指令集）ILP： Instruction Level Parallelism指令集并行SMP：Symmetric Multi-Processors对称多处理器SMT：Simultaneous Multi Threading同步多线程MPP：Massively Parallel Processor大规模并行处理器SISD：single instruction single data单指令单数据SIMD：single instruction multiple dta单指令多数据MIMD：multiple instructions multiple dataMISD：multiple instructions single dataMSP：Multi-Streaming vector Processor多串流向量处理器MIPS：Millions of instructions / sec每秒百万条指令DAGs：Directed Acyclic GraphsFCFS：First Come First ServeEASY：Extensible Argonne Scheduling System可扩展的Argonne调度系统CUDA ：Compute Unified Device Architecture 通用并行计算架构并行计算提出的原因：1、提高性能和存储能力2、使用户和计算机之间相互协调3、获得一个问题的逻辑结构4、处理独立的物理设备并行的三大问题：性能，准确性，可编程性ProgrammabilityMPI ：Massage Passing Interface 是消息传递函数库的标准规范.1. Parallel computing ：单一系统，众核处理同一任务。时间上的并行就是指流水线技术，而空间上的并行则是指用多个处理器并发的执行计算。2. 并行计算优势：处理器总体性能更强；总体内存更大。3. HPC集群峰值计算能力：一套配置256个双路X5560处理器计算节点的HPC集群，X5560： 2.8GHz Intel X5560 Nehalem四核处理器，目前主流的处理器每时钟周期提供4个双

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

高性能计算习题及答案.doc

文档简介

温馨提示

最新文档

评论

高性能计算习题及答案.doc

文档简介

温馨提示

最新文档

评论

相关文档