基于 AMD GPU 的稀疏矩阵 LU 分解及其在电路仿真中的应用.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-26 格式：PDF 页数：10 大小：954.54KB 积分：7.2 举报 版权申诉

基于 AMD GPU 的稀疏矩阵 LU 分解及其在电路仿真中的应用.pdf_第2页

基于 AMD GPU 的稀疏矩阵 LU 分解及其在电路仿真中的应用.pdf_第3页

基于 AMD GPU 的稀疏矩阵 LU 分解及其在电路仿真中的应用.pdf_第4页

基于 AMD GPU 的稀疏矩阵 LU 分解及其在电路仿真中的应用.pdf_第5页

已阅读5页，还剩5页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于基于 amd gpu 的稀疏矩阵的稀疏矩阵 lu 分解分解及及其在电路仿真中的应用其在电路仿真中的应用任令任令陈晓明陈晓明张晨曦张晨曦指导教师指导教师汪玉汪玉摘要稀疏矩阵求解已成为spice仿真器的瓶颈由于稀疏矩阵lu分解中数据间的依赖性强目前关于稀疏矩阵求解的工作较少较强的数据依赖性也决定了并行稀疏矩阵lu分解算法只有在共享内存的计算设备上才能高效运行但是共享统一内存的cpu核的个数通常很有限最新的图形处理器 gpu 提供了一个可能的解决方案 gpu拥有共享内存的众核结构本文中我们首次提出了一个基于gpu的稀疏矩阵lu求解器我们针对gpu架构优化了任务划分活跃线程数和内存访问模式对于分解中浮点运算次数较多的矩阵我们的gpu稀疏矩阵lu分解相对单核cpu和8核cpu分别实现了10 5x和2 6x的加速比一一引言引言 spice simulation program with integrated circuit emphasis 1 是当今最常用的电路仿真器然而超大规模集成电路 vlsi 的快速发展对spice的性能提出了挑战在当今的超大规模集成电路中后仿真寄生参数提取后的电路矩阵的尺寸很容易到达几兆这使得后仿真在cpu上需要几天甚至数周的时间才能完成 spice仿真中两个最耗时的步骤是利用lu分解求解稀疏矩阵方程和参数更新这两个步骤要被迭代进行许多次近十年来 gpu在许多领域得到了重要应用 2 3 目前已有一些工作使用gpu完成参数更新 4 5 参数更新的并行化非常直观它由一系列独立的任务组成即电路中各个元件的参数更新然而由于稀疏矩阵的结构很不规则且lu分解中的数据间的依赖性很强稀疏矩阵求解器的并行化十分困难据我们了解目前尚没有能适合电路仿真的基于gpu的稀疏矩阵求解器以往的gpu lu分解工作集中在稠密矩阵上 6 9 尽管基于gpu的稠密矩阵lu分解性能非常可观在gtx 280上达到388 gflop s giga floating point operations per second 8 简单计算可知我们不应该将稀疏矩阵当作稠密矩阵分解以onetone2 大小为36k 36k 为例即使将稠密lu分解的性能计算为1000 gflop s 对onetone2进行稠密lu分解仍需要15 5s 而单核cpu上一个简单的串行稀疏lu分解只需要不到1s 目前稀疏矩阵lu求解器主要在cpu上实现为了利用更多的并行性 superlu 10 12 将 supernode思想与gilbert peierls g p 的leftlooking 13 算法结合起来实现了对具有稠密块的矩阵的高效分解 pardiso 14 也利用了supernode christen等人在gpu上实现了pardiso 15 他们的思路仍然遵循基于gpu的稠密矩阵分解他们用gpu计算稀疏矩阵中的稠密块而其余的工作在cpu上完成然而 supernode在电路矩阵等极稀疏的矩阵中很少出现这使得基于supernode的算法在处理电路矩阵时比基于列的算法效率低所以在klu这款针对电路仿真优化的稀疏求解器中采用了直接的g p left looking算法 13 和对角块矩阵形式block triangular form btf 16 而放弃了supernode思想 klu只有串行版本由于数据间高度依赖并行g p leftlooking算法只能高效运行在共享内存的计算设备上如现场可编程门阵列 field programmable gate array fpga 多核cpu and gpu 一些工作在fpga实现了g p leftlooking算法 17 19 但这些方法对大矩阵的可拓展性还受限于fpga很有限的片上资源我们在多核cpu上也实现了这一算法 20 但能共享内存的cpu 核数通常很有限大多数商用cpu都不超过6核如intel xeon x5680 amd phenom ii 最新的 gpu为该问题提供了一个可能的解决途径与cpu相比 gpu共享内存的核数远远多于cpu 且拥有更高的内存带宽因此在本文中我们首次针对电路仿真提出了一个基于的gpu的不选主元的稀疏矩阵lu分解器我们通过以下优化更好的利用了算法中的并行性挖掘更多挖掘更多并行性并行性 gpu拥有成千上万的同时运行的线程所以我们必须挖掘足够多的并行性从而在gpu实现高效的稀疏矩阵lu分解器在 20 中我们提出了两种并行模式来描述向量操作之前的并行性但是仅这一层并行性对于gpu来说是不够的我们进一步利用了向量操作内部的并行性为了有效的处理这两层并行性我们根据两种模式的不同特点和gpu的架构划分任务我们的策略减少了空闲线程节省了线程同步的开销并保证了全局有足够的线程数保证时序关系保证时序关系并行left looking算法中必须保证合适的时序关系在gpu上保证时序关系涉及到精确控制线程组 amd gpu中的wavefront 的数目优化访存模式优化访存模式我们 1 设计了适合gpu的中间结果数据格式 2 提出对非零元排序以提高数据局域性使得对global memory的访问更连续在36个矩阵上的实验结果说明基于gpu的稀疏矩阵lu分解对于分解过程中浮点运算次数较多我们的平台中大于600m 的矩阵非常有效在这些矩阵上 gpu相对单核cpu和8核cpu 分别实现了10 5x和2 6x的加速比对于分解中出现反常数 21 的矩阵加速比更大本文其余部分结构如下第二章详细介绍我们的基于gpu的稀疏矩阵lu分解第三章给出实验结果和讨论第四章结束全文二二基于基于 gpu 的稀疏矩阵的稀疏矩阵 lu 分解分解图1 基于gpu的稀疏矩阵lu分解流程图图1是我们基于gpu的稀疏矩阵lu分解的流程图预处理只在cpu上进行一次第二章第1 节数值分解部分我们挖掘g p left looking算法中更多的并行性并根据两种并行模式的不同特点和gpu的架构划分任务第二章第2节然后我们讨论基于gpu的稀疏矩阵lu分解算法中的几个关键问题包括gpu线程组之间的时序关系第二章第3节和对访存模式的优化第二章第4节 1 预处理预处理预处理包括3个步骤 1 为了提高数值稳定性使用hsl mc64算法 22 2 为了减少分解过程中的非零元填入使用近似最小自由度算法 amd approximate minimum degree 23 3 为了计算l和u的非零元结构使用基于g p算法的符号分解部分选主元的数值分解 13 在电路仿真的迭代过程中 l和u的非零元结构保持不变我们记预处理后的矩阵为a 2 并行性挖掘并行性挖掘算法1是串行的g p left looking算法其中的核心操作时向量乘加 mad 我们在 20 提出了该算法中的两种并行模式 cluster mode 和 pipeline mode 这两个并行模式描述了向量乘加操作之间的并行性我们以图2为例说明这一层并行性假设途中虚线圆圈表示的列已经分解完成而列8 9 10正在被处理用绿色实线箭头表示的操作都是可以执行的虽然对对某一未完成列的更新操作需要按照严格的顺序执行但这些操作中仍然是存在并行性的但是仅靠向量乘加操作间的并行性还不能利用gpu的高带宽我们利用了算法中另一层内在的并行性向量操作内部的并行性为了有效的处理这两层并行性我们通过任务划分充分利用gpu资源这个过程中有几个关键因素需要考虑为了方便无论我们用多少个线程来分解一列我们把它们称作一个虚拟组同一个虚拟组中的线程操作同一列中的非零元且必行同步较小的虚拟组可以减少空闲线程但是基于以下两个原因虚拟组也不应太小首先同时能被分解的列数即虚拟组个数受到存储空间的限制所以太小的虚拟组会导致全局的线程数过少这对gpu程序中不希望的第二 gpu按照单指令多数据的方式 simd single instruction multiple data 调度线程一组simd线程在amd gpu 上被称为一个wavefront 如果同一个wavefront内部的线程出现分支所必要的路径将被串行地执行不同的虚拟组处理不同的列从而经常出现分支因此从减少simd线程分支的角度考虑一个虚拟组至少应该包括一个wavefront 图2 并行left looking算法中的并行性和时序关系综合考虑以上因素我们提出下列任务划分策略 cluster mode中的列非常稀疏因此我们在保证全局线程数足够多前提下尽量减小虚拟组的大小而pipeline mode中的列通常非零元较多足够一个或几个wavefronts来处理此时虚拟组的大小在减少空闲线程的意义上并不重要我们选择用一个wavefront处理一列这样不仅减小了simd线程之间的分支也减少了线程同步的开销因为一个wavefront的线程间的同步已经自动由gpu的simd架构保证了 3 gpu 上时序关系的保证上时序关系的保证算法2是pipeline mode的并行left looking算法这种并行模式必须保证列之间恰当的时序关系如果列k依赖于列t 只有当列t完成后列k才能被列t更新我们仍然用图2的例子来解释所需的时序关系假设列8 9 10正在处理其他列已经完成此时列9可以首先被列4 6 7 更新对应途中的绿色实线箭头但目前列9不能被列8更新它必须等待列8完成对列10也存在类似的情况在gpu上保证时序关系值得特别注意此时 gpu程序中wavefront的个数必须精确控制这与gpu活跃wavefront的概念有关一个gpu kernel可以有很多的wavefront 通常由于资源限制一些wavefront不能立即开始执行而要等待其他wavefront完成后才能变为活跃然而在并行稀疏矩阵lu分解的pipeline mode中我们必须确保我们发布的所有wavefront 从一开始就是活跃的设想某一列被分配给了一个不活跃的wavefront 依赖于这一列的列就必须等待它分解完成但反过来负责这个未完成的列的wavefront一直没有机会活跃因为当前活跃的wavefront都无法结束运行这将形成死锁图3说明了这一情况假设我们在一个只支持两个活跃wavefront的gpu上发布了三个wavefront cluster mode中不会出现问题因为 wavefront 1和2最终总会结束运行于是wavefront 3可以开始但在pipeline mode中列9和列10依赖于列8 而列8被分配给了一个不活跃的wavefront 于是活跃的wavefront 1和2 陷入死循环一直等待列8 这反过来又是的wavefront 3没有机会活跃从而形成死锁图3 不活跃wavefront引起死锁的说明因此能被pipeline mode中并行分解的最大列数恰好等于kernel执行时活跃wavefront的数目这个数目依赖于许多因素如资源使用量和分支与循环数目 24 并显著影响我们的gpu稀疏lu 分解器的性能 4 访存模式的优化访存模式的优化 gpu稀疏矩阵lu分解的优化主要是针对访存模式的优化本小节讨论 1 我们对中间结果向量数据格式的选择和 2 对非零元排序以提高数据局域性使得对global memory的访问更连续中间向量格式中间向量格式我们有两种可选的方式来储存中间结果即算法2中的x csc compressed sparse column 稀疏向量或稠密数组 csc稀疏向量节省空间可以存储在local memory中而稠密数组只能存储在global memory中通常尽可能地利用local memory可以提高性能但在本问题中却不是这样首先csc格式的下标访问很不方便要访问csc格式的稀疏向量中的元素最快的方法就是二分搜索 binary search 即使访问的是local memory 效率仍然很低更重要的是过多使用local memory会减少每个运算单元 compute unit cu 上的活跃wavefront的数目每个cu的活跃work group数每个cu的local memory大小一个csc稀疏向量的大小从而使性能严重下降因此我们采用稠密数组储存中间结果提高数据局域性提高数据局域性在gpu中如果连续的work item访问连续的内存空间可以实现较高的带宽但预处理后 lu因子中非零元是乱序的这影响了访存的连续性我们用快速排序算法对l和u中的按照行号排序以提高主存中的数据的局域性如图4所示排序后一列中相邻的非零元更有可能被相邻的线程处理排序过程只需进行一次我们将它融合到预处理中实验证明对非零元排序的代价很小而可以使原kernel加速1 7倍图4 排序之后访问global memory更连续三三实验结果实验结果与讨论与讨论 1 实验环境实验环境 cpu程序用c编写运行环境为64位linux系统两块xeon e5405 cpu 共8核具有 2 6 mb l2缓存 16gb内存我们的cpu实现利用了sse streamingimd extensions gpu程序用opencl v1 1 25 编写运行环境为amd app sdk v2 4 amd radeon 5870 gpu 我们用 36个来自佛罗里达大学稀疏矩阵库 26 的矩阵进行测试虽然我们的应用背景是电路仿真我们也包括了一些来自其它应用的稀疏矩阵以证明我们的稀疏矩阵lu分解器并不局限于电路矩阵 2 性能与加速比性能与加速比表i给出了gpu稀疏矩阵lu分解的性能并与不同核数的cpu性能进行比较表中所列时间是数值分解时间不包括预处理和回代求解的时间有些数据传输在每次分解中都要进行这些时间被计入了gpu运行时间中我们发现gpu的加速比与分解某矩阵所需的浮点运算次数 flops 密切相关所以全部矩阵平均加速比和带宽并不反映太多有用信息我们将所用的测试矩阵分为四组前三组根据浮点运算次数分组表1 gpu lu分解性能及加速比1 matrix 2n k 3non zeros k 4mop 1 core cpu time s 1 core cpu bandwidth gb s gpu time s gpu bandwidth gb s speedup over 1 core 4 core 8 core klu hcircuit 103 2 513 1 1 0 0 02 1 38 0 04 0 70 0 51 0 32 0 32 0 70 lung2 109 5 492 6 1 1 0 01 2 24 0 03 0 91 0 41 0 23 0 23 0 68 circuit 4 80 2 307 6 2 5 0 02 3 07 0 07 0 96 0 31 0 15 0 13 0 43 rajat21 402 0 1893 4 3 3 0 09 0 97 0 58 0 16 0 16 0 16 0 15 0 24 bcircuit 67 3 375 6 5 1 0 05 3 03 0 04 3 49 1 15 0 34 0 34 1 31 5avreage 1 1 95 0 81 0 41 0 23 0 22 0 58 dc1 116 8 766 4 16 9 0 12 3 91 0 48 0 96 0 25 0 09 0 07 0 25 trans4 116 8 766 4 16 9 0 12 3 83 0 48 0 96 0 25 0 09 0 07 0 26 hvdc2 189 9 1347 3 19 2 0 15 3 50 0 10 5 25 1 50 0 84 0 53 6 17 onetone2 36 1 227 6 94 1 0 49 5 24 0 08 32 16 6 14 1 84 1 02 12 54 transient 178 9 961 8 107 8 0 60 4 94 0 36 8 19 1 66 0 50 0 30 1 68 ckt11752 dc 1 49 7 333 0 144 6 0 76 5 21 0 18 21 97 4 22 1 30 0 85 0 55 tsopf rs b300 c3 42 1 4413 5 211 1 1 18 4 90 0 20 28 86 5 89 2 92 2 53 1 25 epb3 84 6 463 6 267 2 1 42 5 13 0 21 34 79 6 78 1 92 1 09 34 44 raj1 263 7 1302 5 340 7 1 87 4 97 0 87 10 71 2 15 0 73 0 48 220 39 asic 680ks 682 7 2329 2 436 5 3 05 3 91 0 49 24 36 6 23 1 99 1 21 5 86 thermomech tc 102 2 711 6 449 4 2 40 5 12 0 37 33 21 6 49 2 00 1 14 5 70 asic 680k 682 9 3871 8 474 8 3 53 3 68 2 00 6 49 1 76 0 60 0 39 2 19 asic 100k 99 3 954 2 529 6 2 95 4 91 0 69 20 99 4 28 1 35 0 86 6 06 avreage 2 4 51 10 97 2 43 0 84 0 55 3 64 asic 100ks 99 2 578 9 663 0 3 71 4 88 0 34 53 32 10 92 3 44 2 21 15 38 rma10 48 6 2374 0 730 6 3 81 5 25 0 57 35 05 6 68 2 28 1 25 227 25 onetone1 36 1 341 1 799 8 3 48 6 29 0 41 53 34 8 48 2 84 1 83 61 75 thermomech dm 204 3 1423 1 898 8 4 84 5 08 0 71 34 61 6 81 2 15 1 32 5 96 venkat50 62 4 1717 8 1043 5 6 29 4 53 0 61 46 78 10 32 3 30 2 04 8 14 zhao1 33 9 166 5 1737 1 9 64 4 93 0 79 60 13 12 20 4 15 2 84 10 96 thermomech dk 204 3 2846 2 3637 9 22 22 4 48 2 05 48 52 10 84 3 78 2 56 8 72 crashbasis 160 0 1750 4 3933 0 22 46 4 79 2 12 50 73 10 59 3 79 2 56 9 42 g2 circuit 150 1 726 7 4780 0 26 51 4 93 2 10 62 24 12 62 4 59 3 52 22 20 twotone 120 8 1222 4 5245 0 28 06 5 11 2 10 68 29 13 36 4 76 4 01 11 19 sme3dc 42 9 3148 7 5291 9 29 10 4 97 2 60 55 65 11 19 3 98 3 20 10 04 xenon1 48 6 1181 1 10066 3 55 59 4 95 3 90 70 58 14 25 5 31 4 51 12 73 helm2d03 392 3 2741 9 13331 8 73 67 4 95 6 18 58 99 11 92 4 75 4 27 10 62 avreage 3 4 99 52 59 10 53 3 65 2 58 15 58 denormal 89 4 1156 2 2387 1 13 18 4 95 1 10 59 34 11 99 4 06 2 68 10 69 torso2 1033 5 116 0 651 4 6 91 2 58 0 47 37 90 14 70 4 52 2 42 13 81 majorbasis 160 0 1750 4 3933 0 46 22 2 33 2 12 50 73 21 80 6 97 3 97 20 65 asic 320k 321 8 2635 4 584 1 39 13 0 41 1 17 13 65 33 45 8 84 4 61 33 45 asic 320ks 321 7 1827 8 651 6 44 63 0 40 0 41 43 46 108 86 29 19 15 19 108 03 avreage 4 1 37 36 82 26 86 8 01 4 48 25 61 1 除klu之外其他cpu结果均指我们自己的cpu实现 2 矩阵大小 3 矩阵a中的非零元 4 分解中的浮点运算次数兆为单位 5 所有的平均值均为几何平均 1 分解第一组的矩阵需要的运算次数很少在这些矩阵上 gpu不能获得加速比甚至性能比单核cpu更差可以注意到对于这些矩阵 cpu和gpu的带宽都非常低这说明程序其他的开销占用了大多数运行时间 2 第二组的矩阵分解运算量适中此时cpu带宽已基本稳定 gpu在这些矩阵上的性能通常略优于单核cpu但比多核cpu差 3 分解第三组中的矩阵需超过600兆浮点运算 gpu对于这些矩阵的分解加速比非常可观相对于单核cpu和8核cpu分别有10 5倍和2 5倍加速比 gpu带宽可以到达50 70gb s 但与峰值154gb s仍有一定距离在图5中我们画出了前三组矩阵的浮点运算次数和gpu加速比之间的关系从图中我们可以看到gpu加速比正相关于浮点运算次数除了极少数例外点我们可以根据某个矩阵分解的浮点运算次数来推断gpu性能能否超过8核cpu 这个结果也说明至少在稀疏矩阵lu分解中只有在问题规模足够大的情况下 gpu超强的浮点计算能力和高带宽才能被很好的利用图5 各矩阵的浮点运算次数及加速比第四类矩阵比较特殊分解这些矩阵的过程中会出现许多反常浮点数 denormal floating point numbers 反常浮点数被用来表示极小的实数 cpu处理这种数很慢 8 因此分解这些矩阵时性能很差目前较新的gpu可以全速处理反常数这是amd gpu在科学计算应用中的一个优势 3 局限性局限性我们的稀疏矩阵lu分解的一个主要局限在于无法处理l u i中非零元太多的矩阵这是因为radeon 5870 gpu的主存相对来说较小 1gb 但目前最先进的gpu 如amd radeon 6990 已经具备4gb内存这对于大多数矩阵来说已经足够了随着gpu的发展我们的gpu稀疏矩阵 lu分解模块将能够处理具有更多非零元的矩阵四四结论结论本文首次提出了基于gpu的针对电路仿真的稀疏矩阵lu分解研究我们详细分析了我们的 gpu稀疏矩阵lu分解的性能并与cpu版本和klu做了比较我们发现分解中浮点运算次数超过较多的稀疏矩阵适合用gpu加速对这些矩阵上 gpu相对单核cpu和8核cpu分别实现了 10 5x和2 6x的加速比参考文献参考文献 1 l w nagel spice 2 a computer program to stimulate semiconductor circuits ph d dissertation university of california berkeley 1975 2 gpgpu 2 proceedings of 2nd workshop on general purpose processing on graphics processing units new york ny usa acm 2009 3 gpgpu 10 proceedings of the 3rd workshop on general purpose computation on graphics processing units new york ny usa acm 2010 4 n kapre and a dehon performance comparison of single precision spice model evaluation on fpga gpu cell and multi core processors in field programmable logic and applications international conference on 2009 pp 65 72 5 k gulati j f croix s p khatr and r shastry fast circuit simulation on graphics processing units in proceedings of the 2009 asia and south pacific design automation conference ieee press 2009 pp 403 408 6 n galoppo n k govindaraju m henson and d manocha lugpu efficient algorithms for solving dense linear systems on graphics hardware sc conference vol 0 p 3 2005 7 v volkov and j demmel lu qr and cholesky factorizations using vector capabilities of gpus eecs department university of california berkeley tech rep ucb eecs 2008 49 may 2008 8 s tomov j dongarra and m baboulin towards dense linear algebra for hybrid gpu accelerated manycore systems parallel comput vol 36 pp 232 240 june 2010 9 s tomov r nath h ltaief and j dongarra dense linear algebra solvers for multicore with gpu accelerators ieee international symposium on parallel distributed processing workshops and phd forum ipdpsw pp 1 8 2010 10 j w demmel s c eisenstat j r gilbert x s li and j w h liu a supernodal approach to sparse partial pivoting siam j matrix analysis and applications vol 20 no 3 pp 720 755 1999 11 j w demmel j r gilbert and x s li an asynchronous parallel supernodal algorithm for sparse gaussian elimination siam j matrix analysis and applications vol 20 no 4 pp 915 952 1999 12 x s li and j w demmel superlu dist a scalable distributed memory sparse direct solver for unsymmetric linear systems acm trans mathematical software vol 29 no 2 pp 110 140 june 2003 13 j r gilbert and t peierls sparse partial pivoting in time proportional to arithmetic operations siam j sci statist comput vol 9 pp 862 874 1988 14 o schenk and k gartner solving unsymmetric sparse systems of linear equations with pardiso computational science iccs 2002 vol 2330 pp 355 363 2002 15 m christen o schenk and h burkhart general purpose sparse matrix building blocks using the nvidia cuda technology platform 2007 16 t a davis and e palamadai natarajan algorithm 907 klu a direct sparse solver for circuit simulation problems acm trans math softw vol 37 pp 36 1 36 17 september 2010 17 j johnson t chagnon p vachranukunkiet p nagvajara and c nwankpa sparse lu decomposition

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于 AMD GPU 的稀疏矩阵 LU 分解及其在电路仿真中的应用.pdf

文档简介

温馨提示

最新文档

评论

基于 AMD GPU 的稀疏矩阵 LU 分解 及其在电路仿真中的应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档

基于 AMD GPU 的稀疏矩阵 LU 分解及其在电路仿真中的应用.pdf