面向异构计算与AI负载的下一代计算机体系结构创新教学设计_第1页
面向异构计算与AI负载的下一代计算机体系结构创新教学设计_第2页
面向异构计算与AI负载的下一代计算机体系结构创新教学设计_第3页
面向异构计算与AI负载的下一代计算机体系结构创新教学设计_第4页
面向异构计算与AI负载的下一代计算机体系结构创新教学设计_第5页
已阅读5页,还剩6页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

  面向异构计算与AI负载的下一代计算机体系结构创新教学设计

一、课程设计总览:理念、定位与目标体系

本课程面向计算机科学专业本科四年级(或硕士研究生一年级)学生,他们已具备坚实的计算机组成原理、数字逻辑、操作系统及编译原理等先修知识基础。课程旨在超越传统冯·诺依曼架构的范畴,引导学生深入理解并探索为应对后摩尔时代性能、能效及特定领域(如人工智能、大数据、科学计算)挑战而涌现的硬件架构创新范式。课程的核心设计理念是“问题驱动、跨层优化、系统思维与前沿探索”,强调从实际应用负载(Workload)的特征出发,理解其对底层硬件架构提出的需求,进而剖析从晶体管到系统级、从同构到异构、从通用到领域的多层次创新路径。

课程的教学目标体系分为三个层次:

1.知识理解层面:学生将系统掌握现代硬件架构创新的关键方向,包括但不限于异构计算(CPU、GPU、AI加速器、FPGA等)的集成与协同范式、内存层级结构的革命(如存算一体、高带宽内存HBM、非易失内存NVM)、新型互连技术(如芯片级互连、光电混合互连)、面向领域的体系结构(DSA)设计原则,以及保障计算基础的安全可信架构机制。学生需理解这些创新背后的物理限制、经济因素与市场需求驱动。

2.能力培养层面:学生将发展“跨层分析”与“系统级权衡”的核心能力。能够针对给定的应用负载特征(如计算密集、访存密集、通信密集、稀疏性、可并行性),分析其性能瓶颈,并评估不同架构创新方案(如添加专用加速单元、重构内存子系统、采用新型互连)的潜在收益、设计复杂性与成本代价。学生将通过课程项目,初步掌握架构探索的基本方法学,包括基准测试套件(BenchmarkSuite)的使用、性能建模与模拟(如使用Gem5、Sniper等模拟器或抽象模型),以及创新性架构方案的书面与口头论证能力。

3.素养与视野层面:培养学生对硬件发展脉络的洞察力与前瞻性思维,理解硬件与软件、算法、工艺协同演化的必然趋势。激发学生对于攻克计算领域“墙”(如内存墙、功耗墙、可编程性墙)的责任感与创新热情。通过引入国内外领先企业与研究机构(如英伟达、AMD、英特尔、谷歌TPU团队、寒武纪、华为昇腾等)的案例,培养学生的行业视野与工程伦理意识。

二、课程内容模块与逻辑脉络

课程内容围绕“应对挑战-创新路径-评估展望”的主线组织,分为以下六大递进式模块:

模块一:导论:后摩尔时代的计算挑战与架构创新脉络

本模块旨在建立全局视野。首先回顾冯·诺依曼架构的基本原理及其历史贡献,随后深入剖析其面临的现代挑战:内存墙(MemoryWall)、功耗墙(PowerWall)、指令级并行(ILP)挖掘殆尽、以及新兴应用(如深度学习、图计算、生物信息学)的多样化、专业化需求。引出“异构计算”、“近数据计算”、“特定领域架构”等核心概念作为课程的总纲。通过对比不同时代(单核CPU、多核CPU、众核GPU)的性能与能效曲线,让学生直观感受架构创新的驱动力。

模块二:内存与存储层次的重构:突破“内存墙”

这是架构创新的核心战场。首先深化学生对传统缓存层次结构的理解及其局限性。然后系统讲解三大革新方向:(1)高带宽内存:如HBM2e/3的技术原理、堆叠中介层(Interposer)技术、与处理器的高带宽互连,及其对GPU和高性能计算(HPC)的意义。(2)非易失内存(NVM):如英特尔傲腾(Optane)技术,探讨其介于DRAM与SSD之间的特性,如何引发存储级内存(SCM)和持久性内存(PersistentMemory)编程模型的变革。(3)存内计算(ComputinginMemory):从原理上讲解如何将部分计算逻辑嵌入内存阵列,减少数据搬运,重点介绍基于SRAM、DRAM及新兴非易失器件(ReRAM,PCM)的存内计算架构,并分析其目前面临的精度、密度、设计工具链等挑战。

模块三:处理器核心与片上互连:从同构到异构的协同

深入处理器芯片内部。首先分析现代多核/众核处理器(如ARMbig.LITTLE,英特尔酷睿,AMDZen)的同构/异构设计哲学。重点转向片上网络(Network-on-Chip,NoC)作为大规模核心集成的关键互连基础设施,讲解其拓扑结构、路由算法、流量控制及服务质量(QoS)。在此基础上,深入探讨异构计算芯片(如苹果M系列、华为麒麟/昇腾、高通骁龙)的架构:如何集成高性能CPU核心、高能效CPU核心、GPU、NPU(神经网络处理器)、ISP(图像信号处理器)、DSP等,以及实现它们之间高效数据共享与任务调度的片上互连架构与一致性协议(如缓存一致性互连CCIX、CXL的萌芽思想)。

模块四:特定领域架构:极致的性能与能效追求

本模块是课程的精髓,展示如何为特定计算范式定制硬件。以深度学习加速器为典型案例进行深度剖析:(1)从算法特征(大量乘加运算、参数可静态/动态量化、稀疏性)出发,推导出对硬件的基本需求:高并行度、高数据复用、低精度支持、稀疏计算激活。(2)深入解析谷歌TPU的脉动阵列(SystolicArray)架构,包括其数据流设计、权重预加载、以及如何最大化利用数据局部性。(3)对比分析其他主流AI加速器架构思想,如英伟达TensorCore的矩阵计算单元、寒武纪的Cambricon指令集与架构、以及基于FPGA的可重构AI加速设计。(4)将DSA思想扩展到其他领域,如网络处理(SmartNIC)、数据库加速、基因组学加速等,强调“软件2.0”(数据驱动)时代硬件与算法协同设计(Co-Design)的极端重要性。

模块五:安全、可靠与可信的架构基石

随着计算深入社会核心,硬件安全成为架构设计的首要约束。本模块探讨:(1)侧信道攻击(如Spectre,Meltdown)的微架构根源,以及相应的硬件缓解机制(如隔离的页表、预测器屏障)。(2)可信执行环境(TEE)的硬件实现,如IntelSGX,ARMTrustZone的架构原理与局限性。(3)硬件木马与供应链安全挑战,以及逻辑锁定(LogicLocking)、硬件混淆(Obfuscation)等主动防护设计技术。(4)面向高可靠应用(如自动驾驶、航空航天)的容错架构,包括锁步(Lockstep)核心、ECC内存、以及自检与修复电路。

模块六:前沿探索与未来展望

本模块旨在打开学生的想象边界。内容将包括:(1)量子计算架构简介:量子比特的物理实现(超导、离子阱等)、量子编程模型与经典-量子混合架构。(2)近似计算(ApproximateComputing):为追求能效而容忍可控误差的电路与架构设计。(3)神经形态计算(NeuromorphicComputing):受大脑启发的脉冲神经网络(SNN)硬件,如英特尔Loihi芯片的架构。(4)光计算与硅光互连的潜在颠覆性前景。(5)系统级封装(SiP)与芯粒(Chiplet)技术如何从封装层面推动架构创新,构建“异构集成”的生态系统,如UCIe(UniversalChipletInterconnectExpress)产业联盟的标准与意义。

三、教学实施过程(核心环节)

本课程采用“理论奠基-案例深剖-项目实践-前沿研讨”四维一体的混合式教学模式,共计划64学时。以下是核心教学活动的详细实施流程:

第一阶段:理论奠基与案例导入(第1-8周,约24学时)

本阶段对应模块一至模块三,侧重于通过精讲、经典文献阅读与案例研讨,构建坚实的知识框架。

1.课堂精讲与互动探究(每次2学时):

1.2.启动策略:每讲伊始,以一个“架构困境”问题或近期行业热点新闻(如某公司发布新款芯片,其宣称的架构创新点)切入,激发学生兴趣。例如,在讲解内存墙时,展示一个典型HPC应用性能分析图,显示CPU大部分时间在等待数据,引导学生思考根源。

2.3.核心内容展开:教师使用精心设计的图表、动画(如展示数据在脉动阵列中的流动、NoC中的报文路由)来阐释复杂原理。避免罗列知识点,而是围绕“问题-解决方案-权衡取舍”的逻辑链展开。例如,讲解HBM时,将其与传统GDDR5/6对比,既讲清TSV(硅通孔)等技术带来的带宽和功耗优势,也明确指出其成本增加、封装复杂度提升、容量相对受限等代价。

3.4.课堂互动:穿插使用即时问答(如利用课堂响应系统)、快速讨论(Think-Pair-Share)。例如,在讲完多核一致性协议后,提出一个简化的一致性场景,让学生两人一组,快速推断缓存状态的变化。

4.5.技术工具演示:适时在课堂展示关键工具,如使用Gem5模拟器快速演示不同缓存配置对程序CPI(每指令周期数)的影响,或使用Roofline模型工具分析一个内核的性能瓶颈在于计算还是访存。

6.案例深度研讨课(每模块结束1次,每次2学时):

1.7.课前准备:教师提前1-2周发布案例材料包,包括:1)一篇标志性学术论文(如介绍谷歌第一代TPU架构的ISCA论文节选);2)一篇相关的产业分析或技术解读文章;3)一组引导性问题。

2.8.课堂实施:采用“学生主导、教师穿针引线”的模式。首先由预先分组的学生团队(3-4人)进行15-20分钟的案例陈述,重点阐述该架构创新的动机、核心思想、评估方法及关键结论。之后进入开放式讨论环节,教师引导全班围绕引导性问题深入,例如:“TPU的脉动阵列设计对哪些类型的神经网络层效率最高?对哪些层可能不是最优?为什么?”“如果将这一设计思想迁移到图计算加速,可能需要做哪些改变?”鼓励学生批判性思考,比较不同方案的优劣。

3.9.产出:每个研讨课结束后,各组需提交一份简短的讨论总结与反思报告。

第二阶段:项目驱动与实践深化(第9-14周,约24学时)

本阶段对应模块四和部分模块五,是课程的核心能力培养环节。学生将以小组形式,完成一个完整的“架构创新探索项目”。

1.项目启动与选题(第9周,2学时):

1.2.教师发布多个具有挑战性但范围明确的项目选题方向,例如:

1.2.3.方向A(性能建模与评估):给定一个开源RISC-V处理器核心(如SweRV)的RTL或一个模拟器模型,为其添加一个简单的定制指令/协处理器(如用于AES加密或FFT计算),并使用基准测试程序评估其性能与面积开销。

2.3.4.方向B(架构探索与仿真):使用Gem5或Sniper等系统模拟器,为一个给定的多核处理器配置不同的NoC拓扑(Meshvs.Torus)或缓存一致性协议(MESIvs.MOESI),运行PARSEC或Splash-3基准测试套件中的程序,分析其对系统整体性能和能耗的影响。

3.4.5.方向C(DSA概念设计):选择一个小型但特征明显的算法(如稀疏矩阵向量乘-SpMV、K-means聚类),分析其计算与访存模式,提出一个简化的专用加速器数据流架构方案,并使用高级语言(如C++)或高层次综合(HLS)思想建立周期近似(Cycle-Approximate)的性能与资源模型,与通用CPU实现进行对比分析。

5.6.学生自由组队(3-4人/队),在教师指导下选定或微调题目,并提交初步的项目计划书,明确分工、技术路线与里程碑。

7.中期检查与工作坊(第11-12周,4学时):

1.8.以“架构设计评审会”形式进行。各小组进行10分钟进展汇报,重点展示:已完成的背景分析、初步设计方案、遇到的挑战及下一步计划。

2.9.教师和其他小组作为“评审团”提问并提供建议。教师在此期间安排2次技术工作坊,针对共性问题进行集中辅导,例如“如何在Gem5中配置一个自定义的缓存层级”、“如何使用McPAT进行功耗估算”、“如何构建一个合理的Roofline模型”。

10.项目实现与系统集成(第13-14周,课内外结合):

1.11.学生团队集中精力完成项目的核心实现、实验与数据收集。教师提供定期的线上/线下答疑时间。

2.12.强调工程实践中的严谨性:实验设置的可复现性、数据记录的规范性、结果分析的客观性(例如,区分架构改进带来的收益与实验误差)。

第三阶段:综合汇报与前沿拓展(第15-16周,约16学时)

1.终期项目答辩与展示(第15周,4学时):

1.2.模拟学术会议或企业技术评审会的形式。每个小组进行20分钟完整汇报(15分钟演讲+5分钟问答)。要求使用专业语言,清晰陈述问题、方法、结果、分析及结论。

2.3.评审团由教师、助教及随机抽选的学生代表组成,从创新性、技术深度、完成度、表达能力等多个维度进行评分。设立“最佳架构设计奖”、“最佳演示奖”等,激励学生追求卓越。

4.前沿专题讲座与开放研讨(第16周,8学时):

1.5.邀请2-3位来自学术界或产业界(如通过在线会议形式)的专家,就模块六中的前沿主题(如Chiplet生态、量子计算软硬件接口、光互连进展)做深度报告。

2.6.安排一次“未来计算架构”主题辩论或世界咖啡屋(WorldCafé)活动。设定若干有争议的辩题,如“未来十年,主导AI计算的将是通用GPU还是专用AI芯片?”、“存算一体架构是否会彻底取代现有的冯·诺依曼架构?”。学生分组准备,在开放、尊重的氛围中进行思想碰撞,教师作为主持人引导讨论深度,总结不同观点的合理性与前提条件。

7.课程总结与反思(第16周最后2学时):

1.8.教师带领学生回顾课程开始时提出的“挑战”,梳理各模块的创新方案如何回应这些挑战,绘制一幅完整的“硬件架构创新地图”。

2.9.学生进行个人课程学习总结,反思自己在知识、能力、思维上的收获,以及对未来职业或研究方向的启发。

四、课程评估与反馈机制

评估旨在全面衡量学生的学习成果,遵循过程性评价与终结性评价相结合的原则。

1.平时表现(20%):包括课堂互动参与度、案例研讨课的贡献(陈述与讨论)、课后思考题的完成质量。

2.个人作业(20%):布置3-4次个人作业,侧重基础知识的应用与分析。例如,分析给定代码段在不同内存层级下的缓存行为;为一个小型算法草图设计一个简单的数据流加速器;阅读一篇短论文并撰写批判性摘要。

3.小组项目(40%):这是核心评估环节。评分依据包括:项目计划书(5%)、中期检查表现(10%)、最终项目报告(15%)、最终答辩表现(10%)。报告要求结构完整、论证清晰、数据详实、引用规范。

4.期末考试(20%):采用开卷或半开卷形式,不侧重记忆,而是考察综合分析与设计能力。题型包括:基于场景的架构方案比较与选择、给定架构下的性能瓶颈分析、对新概念或新趋势的简要评述等。

建立持续的反馈机制:通过课堂即时反馈、作业批改评语、项目中期指导、课后线上论坛答疑等方式,及时了解学生学习困难并调整教学节奏。课程结束时,通过匿名问卷收集学生对课程内容、教学方式、项目设置等方面的全面反馈,用于课程的持续迭代改进。

五、教学资源与支持环境

1.核心教材与参考书:

1.2.《计算机体系结构:量化研究方法》(第6版),JohnL.HennessyDavidA.Patterson著。作为基础理论锚点。

2.3.《深

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论