实现对电阻抗断层成像程序的加速分析3500字

上传人：1*** IP属地：河北上传时间：2025-03-11 格式：DOCX 页数：7 大小：89.91KB 积分：9.6 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

实现对电阻抗断层成像程序的加速分析综述 1 1 2 2 2 4 4 5 61.1并行计算模型并行计算主要用于求解大型线性方程组，其目的是减轻计算机的压力，提高计算机的计算效率.在并行计算中，并行计算机的结构决定了计算模型存取内存的并行计算和顶级并行算法.并行计算机的主要分类主要不同于内存访问模型，微处理器和因特网，可分为机群(Cluster)、对称多处理共享存储并行计算机(SymmetricMultiprocessing,SMP)、星群(Constellation)、大规模并行计算机(MassivelyParallelProcessing,MPP)和分布式共享存储并行计算机(DistributedSharedMemory,DSM)五类错误；未找到弓用源。.与超级计算机相比，机群具有投资风险低、成本高、编程方便、可扩展性好的优点；机群广泛应用于多种编程语言中，特别是在分布式的环境中，一个聚类显示出很好的结果，Beowulf是最具代表性InformationSciences)组织中Thomas和DonBecker两位用以太网和16个节点构等重要科学和工程领域的实际需要中，处理通常需要并行计算模型，而传统的计算方法通常无能为力.并行计算机没有统一的计算模型.但是，几个有价值的参考模型已经在业内被广泛认可，比如PRAM模型、BSP模型、LogP模型等.PRAM假设有对其容量大小没有限制的一个共享存储器，并且有多个功能相同的处理器，在任意时刻PRAM中的同步时钟控制着所有的操作，并使这些操作都能同步进行.BSP计算分讨论网络的通信特性，并且放弃关于网络拓扑的讨论，LogP没有超级步骤的概念.,这是因为在LogP中消息是同步的，这意味着一旦消息到达处理器错误!未找到引用源。,就不必等待下一个超级步骤.的求解速率，而对于具体的服务器如何提升自身的计算，还可以借助于GPU,一种高性能的处理器.头),其物理结构复杂，使得其正问题中使用MATLAB进行对分解场域模型进行以减少EIT图像采集过程的计算时间.该求解器被广泛用于500万-1500万个单元网格的正演模拟.计算结果用于实验数据的图像重建错误!未找到引用源。.与MATLAB特别是对于一个典型的步骤繁琐的EIT应用程序.1.2GPU并行计算计算机图形处理单元(GPU)是一种单芯片处理器，集成了“几何变换，照质量，并促进了计算机图形学等领域的发展.与中央处理器(CPU)的串行设计模型有所不同，GPU是为图形处理而设计的，它实质上天生具有并行计算的能力.分为几个层次，最微观的层面是单个核心上的指令级并行(Instruction-LevelGPU内部的所有寄存器L1和L2缓存以及显存均支持ECC功能.在求解逆问题的雅可比矩阵时，求解速度通常与问题的建模通过有限元法推导后的矩阵一般都会超高阶(如人头，因为结构复杂),在CUDA被NVIDIA公司推出后，GPU再一次被推上新高度.GPU具有高浮点运算能力、高性能、低延迟和强逻辑运算能力.CUDA编程利用GPU和CPU的特性来一起处理任务.执行过程是在CPU端准备数据，然后将数据传输到GPU端进行并行计算，最后将计算结果返回到中央处理器.CPU与GPU的交互工作可以大幅提高计算性能.如图1.3-1所示为CUDA线程组织结构模型.为了知道CUDA程序设计是如何进行线程组织的，需要知道结构模型.从图线程(thread).一个线程索引(threadIndex)是1~3次元，另外，由多个thread组成的block也可以是1~3次元，就像线程构成线程块一样，线程块也可以由1~3是kernel函数.是.以grid形式构成，以block为单位，分别在block之间并行，不同的Block之间的数据共享只能通过整个显示来显示，同一block中的其他算和thread并行计算两个阶段可以将数据保存在共享内存中.为了尽可能减要以适当的方法进行数据合并访问.当执行内核函数时，本文将在线程块中运行.当内核网格启动时，线程块将分配给可用的SM.当在SM中保留线程块时，该线程仅驻留在指定的流多处理器上.在并发执行SM中，基于线程束(Warp)执行调度，并且当在SM中调度线程块时，线程块的线程被进一步划分为线程束，一个Warp由32个连续的线程未找到引用源。.图3.3.2-1展示了CUDA编程相对应的组件的示意图.这里创建的CUDA并行程序使用单指令多线程(SIMT)体系结构管理和执行线程.SIMT体系结构类似于单指令多数据(Single-instructionMulti-data)体系结构，将两条相同的指令广播到多个执行单元以实现并行.然而，在SIMT架构中，同一向量的所有元素必须在同一同步组中一起运行，但是在SIMT架构中，个线程可能仍具有不同的行为.SIMT体系结构可以确保创建各种并行代码.并行程序性能往往是由CUDA内存模型所影响的，它是最关键的因素之一.本地存储器、全局存储器、纹理存储器和其他可编程存储器类型.这些可编程存(LocalMemory)是内核(Kernel)中每个线程的隐私内存.该块(Block)具有自己的共享内存(SharedMemory

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

实现对电阻抗断层成像程序的加速分析3500字

文档简介

温馨提示

最新文档

评论

实现对电阻抗断层成像程序的加速分析3500字

文档简介

温馨提示

最新文档

评论

相关文档