《神经网络与深度学习》全套教学课件

上传人：b*** IP属地：浙江上传时间：2026-04-21 格式：PPTX 页数：121 大小：2.86MB 积分：38 举报 版权申诉

已阅读5页，还剩116页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

研究生教学版第1章绪论第2章CNN第3章循环神经网络第4章生成对抗网络第5章TensorFlow和PyTorch框架第6章自然语言处理第7章图像语义分割全套可编辑PPT课件研究生教学版第一章绪论从经典深度学习到2026基础模型与推理时代教材基础：第1章“绪论”扩展重点：多模态、推理模型、开源MoE、低比特推理与系统算力本章建议覆盖1–2节课第1课时：深度学习的基本范式、历史逻辑与教材主线第2课时：2026年应用格局、模型生态、算力系统与风险问题适合作为后续CNN/RNN/GAN/NLP/分割章节的总导引关键词端到端表示学习大模型多模态推理时计算开源MoEAI治理2学习目标与教学安排本章不是“背景介绍”而已，而是整门课的方法论起点第一章/绪论学习目标区分AI、机器学习、深度学习、基础模型与推理模型的层次关系。理解“端到端表示学习”为什么成为深度学习成功的核心范式。掌握教材第1章的两条主线：一条是“为什么深度学习有效”，另一条是“它能解决哪些问题”。把握2026年的新变量：多模态统一、推理时计算、开源高性价比、低比特推理与透明度问题。为后续章节学习建立统一视角：结构、训练、数据、系统、应用、风险。建议授课节奏第1课时教材主线定义、历史、成功条件、典型任务第2课时2026扩展大模型、推理、系统算力、开放生态课堂讨论为什么今天仍然要学习CNN/RNN/GAN的经典范式？3教材第一章的逻辑框架先忠实于教材，再做2026扩展第一章/绪论1.1引言围绕“深度学习的定义”展开围绕“端到端训练”展开围绕“多层表示学习”展开围绕“大数据与GPU的作用”展开1.2发展与典型应用围绕“机器视觉”展开围绕“语音与自然语言”展开围绕“推荐与数据挖掘”展开围绕“强化学习与控制”展开研究生扩展围绕“基础模型与推理模型”展开围绕“多模态统一”展开围绕“开源MoE与低成本训练”展开围绕“透明度与治理”展开教学原则：第一章要完成“框架建模”，不是堆砌名词，而是建立后续所有章节共享的认知坐标系。4从AI到基础模型：层次关系需要重新表述2026年“深度学习”不再只等于CNN/RNN的集合第一章/绪论人工智能AI目标：让机器完成感知、决策、生成与交互等智能任务。机器学习ML从数据中学习映射或策略，而不是显式编写所有规则。深度学习DL通过多层参数化表示学习特征与任务函数。基础模型/推理模型大规模预训练+对齐+工具使用+推理时计算。讲授重点：基础模型不是深度学习的“替代物”，而是其在数据、模型规模、系统工程与后训练技术上的阶段性汇合。5深度学习的核心范式：端到端表示学习研究生层面应把“模型”看成参数化函数族，而不是一组技巧第一章/绪论概念链条原始数据x表示h任务头g输出ŷ传统机器学习常把“特征设计”和“分类器训练”拆开处理。深度学习把表示学习h=fθ(x)与任务预测yˆ=gφ(h)合并为统一优化问题。因此，模型性能不仅依赖分类器，更依赖中间表示是否可迁移、可压缩、可泛化。统一优化形式fθ可以是CNN、RNN、Transformer或多模态模型。ℓ对应具体任务：分类、回归、生成、检索、对比学习或策略优化。Ω(θ)体现正则化、参数共享、稀疏性、低秩结构与其他归纳偏置。后续第2–7章，本质上都在讨论“如何更好定义fθ与训练流程”。6为什么深度学习在2012年后迅速崛起教材强调数据与GPU，研究生教学还应补上优化与软件栈第一章/绪论数据互联网与传感器带来海量标注/弱标注/自监督数据。算力GPU/TPU把矩阵运算从“可做”推到“可扩展”。优化ReLU、Dropout、归一化、残差连接等让深层网络更可训练。工程PyTorch/TensorFlow与开源生态降低了实验迭代成本。教材角度大数据+GPU+更深网络=更强表示能力2026角度预训练+后训练+推理时计算+系统优化=新的性能来源7发展主线：从感知模型到基础模型，再到推理模型建议把“历史”讲成一条技术范式演进链第一章/绪论1958感知机神经网络雏形1986反向传播多层网络可训练1998LeNet-5CNN进入实用视觉2006深层预训练缓解深层训练困难2012AlexNet深度学习爆发2017Transformer序列建模范式切换2020–24基础模型大规模预训练与多模态2025–26推理模型更强deliberation与工具使用课堂提醒：今天“基础模型很热”，并不意味着AlexNet之前的历史可以跳过。后续结构设计、优化方法、归纳偏置与系统效率，仍然从这条链上长出来。8教材中的关键判断：为什么“更深”往往更强但研究生必须同时理解“为什么更难训练”第一章/绪论表达能力更深的网络可以逐层抽象，从边缘、纹理到部件，再到对象与语义。深层表示为复杂任务提供了更高的函数逼近能力。这解释了为什么深度学习适合视觉、语言、语音与多模态任务。训练难点梯度消失/爆炸退化与优化困难过拟合与数据依赖部署时延与显存成本研究生视角“更深更强”不是无条件成立，它依赖数据规模、优化方法、结构归纳偏置和系统预算。2026年的大模型性能也不是只靠参数量堆起来，还依赖训练目标、对齐、蒸馏、工具调用与推理策略。因此，本章真正的核心不是记住口号，而是学会分析“性能从哪里来”。92026年的关键转折一：从预训练走向“推理时计算”性能提升不再完全由训练期参数规模单独决定第一章/绪论预训练大规模语料/图像/代码/视频学习通用表示后训练SFT/偏好优化/RL让模型更可用、更可控推理时计算更长思考、更强搜索调用工具与多轮规划系统执行检索、代码执行、网页、文件把回答变成工作流新的教学结论：在2026年，“会训练模型”已经不足以概括深度学习能力，“会设计推理与执行流程”同样重要。OpenAIo3强调模型能在工具链中完成更复杂的推理与执行。Gemini2.5把“thinkingmodel”与多模态理解、长上下文结合起来。这意味着课程中的“模型”概念，必须从静态映射扩展到动态推理过程。102026年的关键转折二：从单模态走向原生多模态“文本模型+外接视觉模块”正在被更统一的建模方式替代第一章/绪论教材时代的典型切分视觉→CNN语音→RNN/CNN文本→NLP模块控制→强化学习2026的统一趋势文本图像音频视频代码统一多模态表示要点：多模态不是把不同输入简单拼接，而是让模型在统一表示空间中完成理解、对齐与推理。11机器视觉：教材主线与2026扩展视觉仍然是理解深度学习最直观的入口第一章/绪论教材第1章强调的任务图像分类、目标检测、人脸检测与识别、图像分割、边缘检测、目标跟踪、视频分类。核心思想是：用卷积网络自动提取从局部到全局的层次特征。这一主线将自然衔接到第2章CNN与第7章图像语义分割。2026的视觉新形态视觉语言模型把“识别”扩展为“理解+问答+检索+规划”。视频理解从动作识别扩展到长视频摘要、事件定位、时空推理。提示式分割、视觉grounding、机器人视觉感知成为新热点。即使Transformer很强，CNN在高效视觉编码、边缘设备与小样本任务上仍很重要。教学建议：第一章先建立视觉任务全景图，第二章再深入“卷积为什么有效”。12自然语言与语音：从序列建模到长上下文推理教材中的RNN视角，在2026依然值得保留第一章/绪论教材任务机器翻译信息检索自动摘要问答系统文本分类语音识别方法演化RNN/LSTMAttentionTransformerFoundationModel2026扩展长上下文处理让模型可以消化论文、代码库、长视频与多文档任务。语音交互从ASR+TTS的串联管线走向更实时、更自然的统一代理。“写作/翻译/摘要”已升级为“分析/检索/编程/执行”复合工作流。RNN不再是主流大模型结构，但它是理解序列状态、记忆机制和门控思想的最佳教学入口之一。13其他应用：推荐、科学、机器人与产业系统第1章要让学生看到“深度学习不是只做分类题”第一章/绪论推荐与搜索用户建模、召回/排序、广告、电商、内容分发科学计算蛋白质、材料、气候、药物、物理模拟控制与机器人强化学习、具身智能、工业控制、自动驾驶企业智能体文档问答、代码协同、流程自动化、研究助手AIIndex2026指出，生成式AI在三年内达到约53%的人口层面采用率，且企业与消费者场景价值都在快速放大。14算力与系统：从GPU加速到Blackwell与低比特推理2026年的大模型竞争，本质上也是系统工程竞争第一章/绪论教材视角GPU擅长大规模矩阵与向量并行运算。这使深层网络训练和预测获得数量级加速。分布式计算成为大模型训练的基础设施。2026新变化推理成本成为核心约束。4-bit/KVcache/batching/MoE更关键。低延迟与高吞吐同等重要。典型实例NVIDIA把NVFP4作为Blackwell架构中的低精度推理/训练格式之一。DeepSeek-V3采用MoE架构，总参数671B、每token激活37B，并报告了较低训练成本。这说明“算法结构+数值格式+系统调度”已成为性能与成本共同决定因素。151632026模型生态：闭源前沿能力+开源高性价比并行发展教学上要让学生既看到能力边界，也看到工程可复制性第一章/绪论代表模型OpenAIo3更强调reasoning可结合工具链支持图像参与推理Gemini2.5Prothinkingmodel原生多模态长上下文能力突出DeepSeek-V3/R1MoE高性价比RLreasoning路线开源推动复现与蒸馏研究生理解重点比较模型不能只看benchmark，还要同时看：训练成本、推理成本、可复现性、开放程度、工具集成、风险披露。16为什么在2026年仍然要系统学习后续“经典章节”因为大模型时代并没有消灭结构、优化与归纳偏置问题第一章/绪论第2章CNN局部连接、参数共享、高效视觉归纳偏置第3章RNN状态、记忆、门控与序列依赖建模第4章GAN生成建模、对抗训练、分布对齐思想第5章框架实验实现、训练流水线与工程复现第6章NLP表示、序列、检索、生成与语义任务第7章分割像素级预测与视觉结构化输出结论：第一章的任务，是把这些章节重新组织成一个统一框架。17风险、瓶颈与研究议题：这一部分必须进入绪论课否则学生会误以为深度学习只是规模竞争第一章/绪论核心风险幻觉、错误推理与难以稳定评估。训练数据来源、版权、隐私与偏见。高能力模型的安全对齐与滥用风险。高能耗、大规模部署与系统资源压力。2026的现实提醒AIIndex2026指出，最强模型的透明度在下降，透明度指数平均分从58降到40。这意味着研究者更需要独立评测、系统实验与机制解释。研究生训练不能只会“调用API”，还要会质疑、验证与构建可复现证据。18本章总结与课后任务建议作为第一章收束页，兼具复盘与布置作业功能第一章/绪论六个带走的结论深度学习的本质是端到端表示学习。其成功来自数据、算力、优化、结构与工程生态的共同推动。教材第1章提供了“为什么有效+能做什么”的经典框架。2026年新增的重要变量是基础模型、多模态、推理时计算与系统优化。开源高性价比路线与闭源前沿能力路线并行存在。风险、透明度与评估问题已经成为研究的一等公民。课后任务阅读教材第一章。用1页笔记比较：AlexNetvso3/Gemini2.5/DeepSeek-R1。思考题：为什么今天仍然要系统学习CNN与RNN？下一步制作建议：继续按同样粒度进入第2章CNN。19研究生教学版第二章卷积神经网络CNN从卷积原理、训练机制到典型网络与视觉任务面向2026：从经典CNN走向视觉基础模型与高效部署本章建议•页数约15页，可覆盖1–2节课•主线：原理→架构→任务→2026扩展•重点：卷积/池化、LeNet/AlexNet/VGG/GoogLeNet、检测/分割/识别•难点：感受野、反向传播、尺度建模、CNN与Transformer的关系关键词：局部连接｜参数共享｜感受野｜检测｜分割1/15学习目标与教学安排2/15神经网络与深度学习｜研究生教学版学习目标•解释卷积、池化、步长、填充、感受野与参数共享的数学与工程意义•掌握LeNet、AlexNet、VGG、GoogLeNet的设计动机与结构差异•理解CNN在检测、识别、分割中的基本范式•能够从2026视角评价CNN与Transformer/基础模型的关系建议授课节奏•第1课：卷积与池化、训练算法、典型网络•第2课：检测/识别/分割与2026扩展建议课前提问•为什么图像任务不直接使用全连接网络？•卷积为什么能显著减少参数量？•池化为什么既帮助泛化，也会损失细粒度位置信息？•在Transformer很强的今天，为什么CNN仍未消失？课堂产出•原理层：卷积/池化/反传•架构层：LeNet→Inception•应用层：检测/识别/分割教材结构与本章主线3/15神经网络与深度学习｜研究生教学版2.1–2.3基础原理•卷积运算•池化•卷积层/池化层/全连接层•多通道与感受野2.4–2.5训练与典型网络•反向传播•SGD与Fine-Tune•LeNet•AlexNet/VGG/GoogLeNet2.6–2.8应用展开•人脸检测与目标检测•关键点定位与人脸识别•图像分割•图形学/NLP2.9历史与发展•CNN的历史演进•与2026模型生态的关系课堂抓手：不要只记模型名称，更要理解它们分别在解决什么瓶颈，例如参数量、可训练性、尺度建模、速度与定位精度。为什么CNN在图像上有效4/15神经网络与深度学习｜研究生教学版局部连接•图像相关性主要发生在局部邻域。卷积核只看局部窗口，避免了全连接的参数爆炸。参数共享•同一个卷积核在整幅图像上重复使用，本质上是“同一模式到处找”。参数量与存储成本显著下降。平移等变•输入发生平移时，特征图会相应平移。它不是完全不变，而是“以同样方式变化”。层次表征•前层学边缘与纹理，后层学部件与对象。深层网络把局部模式逐层组合成语义概念。要点：CNN的优势不是“神秘”，而是把图像先验写进了结构之中。卷积运算：从公式到输出尺寸5/15神经网络与深度学习｜研究生教学版核心公式教材强调：神经网络实现中常用的是不翻转卷积核的互相关（cross-correlation），工程实现更直接。尺寸关系•P：padding；S：stride；K：kernelsize•步长变大，分辨率下降更快•填充用于控制边界信息与输出尺寸教材示意图池化、下采样与感受野6/15神经网络与深度学习｜研究生教学版池化在做什么？•用局部区域的统计值替代原始响应•常见形式：最大池化、平均池化•作用：降维、增强局部平移不敏感性、减少下层计算量教材中的数值示例感受野为什么重要？•浅层感受野小，抓边缘与纹理•深层感受野大，聚合更宽上下文•堆叠小卷积核可在控制参数量的同时扩大有效感受野课堂提醒：池化不是无条件更好•优点：更稳、更省算力、更抗微小扰动•代价：精细位置信息丢失，密集预测任务受影响•因此检测与分割网络常改用步长卷积、空洞卷积、FPN或上采样路径从正向传播到训练：本章需要抓住的工程逻辑7/15神经网络与深度学习｜研究生教学版输入图像张量卷积局部感受野+共享参数非线性ReLU等池化/步长降采样分类头输出概率或回归量反向传播关注什么？•卷积层要把“误差对输出的梯度”传回卷积核与输入特征图•池化层没有可学习参数，但要把梯度正确路由回最大值位置或均匀分配•Mini-batchSGD用少量样本估计整体梯度，是深度学习训练的基本工作流为什么2012之后CNN能真正跑起来？•ReLU缓解深层网络梯度消失•Dropout、数据增强、归一化改善泛化与稳定性•GPU/TPU与大数据集使深层卷积网络具备现实可训练性•迁移学习/Fine-Tune让预训练特征在新任务上复用典型网络谱系：LeNet→AlexNet→VGG→GoogLeNet8/15神经网络与深度学习｜研究生教学版1998LeNet-5卷积+池化首次成型2012AlexNetReLU+Dropout+GPU2014VGG小卷积核堆叠，深度提升2014GoogLeNetInception，多尺度并行每一步改进都在回答同一个问题：如何让CNN更深、更准、更快、参数更省？LeNet与AlexNet：从可行原型到工程拐点9/15神经网络与深度学习｜研究生教学版LeNet-5（1998）•面向手写数字识别，输入为28×28灰度图•卷积层+池化层+全连接层的经典范式•参数规模小，体现了“结构化先验胜过全连接暴力建模”AlexNet（2012）•在ImageNet上大幅领先第二名，重新点燃CNN热潮•关键工程点：ReLU、Dropout、GPU训练、更深网络•说明“足够数据+足够算力+训练技巧”可让深层CNN发挥威力教学结论：LeNet证明CNN可行；AlexNet证明CNN可扩展、可工业化。VGG与Inception：两种“变深”的不同答案10/15神经网络与深度学习｜研究生教学版VGG的答案：堆叠小卷积核•统一使用3×3卷积核，把大卷积核的感受野拆解为多层小卷积•优点：参数更省、非线性层更多、结构规则整齐•代价：计算量仍然较大，后期成为很多检测/分割模型的骨干网络Inception的答案：多尺度并行+1×1降维•同一层同时做1×1、3×3、5×5卷积与池化，再拼接输出•核心目标：既要多尺度建模，又要控制计算量•1×1卷积在这里是“通道重排与降维工具”，不是简单线性层比较视角：VGG更规整；Inception更强调计算预算下的多尺度表达。检测、关键点与识别：CNN如何走向“结构化输出”11/15神经网络与深度学习｜研究生教学版CascadeCNN•逐级筛掉非人脸窗口，保证速度。DenseBox•全卷积网络直接输出框与置信度。MTCNN•Proposal/Refinement/Output三阶段逐步求精。关键点定位•从分类走向坐标回归，支撑对齐与识别。研究生应理解的不是算法名字本身，而是输出空间从“类别标签”扩展到“矩形框+坐标+关键点”的过程。通用目标检测：从R-CNN系列到YOLO/SSD12/15神经网络与深度学习｜研究生教学版一条线索：候选框是“先提再判”，还是“直接回归”？R-CNNSelectiveSearch+CNN+SVMSPP/FastR-CNN共享卷积特征+RoIPoolingFasterR-CNNRPN生成候选框YOLO网格化直接预测SSD多尺度特征图+默认框教材评价逻辑：检测精度看mAP，定位质量看IoU，工程取舍还要同时看速度、尺度适应性和候选框生成成本。人脸识别：从分类损失走向度量学习13/15神经网络与深度学习｜研究生教学版教材中的三条路线•DeepFace：3D对齐+CNN特征提取•DeepID：多图像块、多网络与识别/验证联合监督•FaceNet：直接学习到嵌入空间，使用TripletLossTripletLoss思路•anchor与positive应更近•anchor与negative至少拉开marginα•本质是直接优化“相似性几何结构”研究问题•损失函数如何更稳？•数据噪声与类内变化如何处理？•对齐、遮挡、姿态变化如何影响嵌入？•在大规模身份库中如何高效检索？这一页对应的是一个重要转向：CNN不再只输出“类别”，而是输出一个可以比较距离的表征空间。图像分割：FCN、SegNet、DeepLab与下一章的接口14/15神经网络与深度学习｜研究生教学版教材中的关键转折•分类网络输出一个标签；分割网络需要对每个像素给出类别•因此必须把“下采样得到的语义”重新映射回高分辨率空间•FCN用全卷积+上采样打通了像素级预测的基本框架从本章走向第7章•本章只建立分割问题的总体视角•第7章将系统展开FCN、U-Net等网络•建议学生把“空间分辨率恢复”作为连接两章的抓手教材图2-16与2-17：FCN/SegNet2026视角：CNN的位置、视觉基础模型与部署效率15/15神经网络与深度学习｜研究生教学版CNN还重要吗？•在通用视觉理解上，Transformer/多模态基础模型已成为主流接口•但在边缘设备、实时检测、早期特征提取与多尺度金字塔中，CNN仍有很强生命力•工程上大量系统采用“卷积stem+Transformer主体”的混合结构SAM2/Gemini2.5•SAM2代表promptablesegmentation，从固定类别像素分类走向可交互视觉接口•Gemini2.5的视频理解说明视觉模型不再只输出框或掩码，而是直接参与检索、总结与时序推理•视觉正在被纳入更大的多模态模型生态NVFP4与部署•NVIDIA表示Blackwell/BlackwellUltra上NVFP4带来更高吞吐与能效•这意味着视觉与多模态模型的工程边界正在被低比特推理持续推高•到2026，讲CNN不能只讲结构，还必须讲硬件友好性与部署成本一句话总结：CNN没有“退场”，而是从单一主角转为混合架构和基础模型系统中的高效基石。课程讲授/第3章第3章循环神经网络研究生教学版|教材内容梳理+2026发展扩展本章核心理解循环层的状态递推、参数共享与“记忆”机制掌握BPTT、梯度消失/爆炸及截断训练的工程意义理解LSTM/GRU/BiRNN/Seq2Seq/CTC的设计动机讨论2026年序列建模格局:RNN→Transformer→SSM/Mamba1–2节课安排理论主线RNN结构、BPTT、LSTM/GRU任务主线序列标注、CTC、语音识别、NLP扩展主线Transformer/多模态/SSM/Mamba工程主线流式推理、低比特部署、延迟约束教材依据:《神经网络与深度学习》第3章“循环神经网络”2026关键词推理模型原生音频长序列SSM/MambaBlackwell/NVFP41神经网络与深度学习|第3章第3章/循环神经网络学习目标与教学安排研究生教学版2神经网络与深度学习|第3章学习目标定义RNN的状态更新、输出映射与参数共享理解为什么BPTT会导致长链梯度问题掌握LSTM/GRU的门控思想与差异理解序列标注、CTC、Seq2Seq在不同任务中的位置能从2026视角判断RNN何时仍值得使用建议课堂节奏第1课时•RNN结构•时间展开•BPTT•梯度问题第2课时•LSTM/GRU•CTC/Seq2Seq•语音/NLP应用•2026扩展课堂讨论为什么今天大模型主流不再使用“纯RNN”，但在流式语音、低延迟、边缘场景中它仍然重要？课后任务阅读教材本章后，比较“PlainRNN/LSTM/Transformer/Mamba”在记忆机制、并行性、延迟和工程复杂度上的异同。第3章/循环神经网络教材第三章的逻辑框架研究生教学版3神经网络与深度学习|第3章3.1–3.2基础原理•循环层与输出层•时间展开•深度RNN•BPTT训练3.3序列预测•序列标注•CTC•Seq2Seq3.4–3.6应用•语音识别•自然语言处理•机器视觉/视频3.7–3.14扩展结构•双向RNN•编码-解码•LSTM/GRU•挑战与改进研究生教学建议:“先原理，后任务，再讨论范式迁移”本章不是为了和Transformer竞争，而是为了理解序列建模的基本思想与工程约束。第3章/循环神经网络为什么要引入循环:从“静态输入”到“时序依赖”研究生教学版4神经网络与深度学习|第3章前馈网络/CNN的优点•适合固定结构输入•并行性强•空间特征提取能力强•对局部模式建模高效时序任务的新需求•当前输出依赖过去输入•序列长度不固定•需要保留上下文•实时系统要求逐步输出RNN的回答•在隐藏状态中保留历史信息•使用参数共享处理任意长度序列•以递推方式实现“记忆”•自然适合流式输入核心思想:让网络在时刻t的状态hₜ同时依赖当前输入xₜ与上一时刻状态hₜ₋₁。第3章/循环神经网络RNN的基本结构:rolled与unrolled研究生教学版5神经网络与深度学习|第3章rolled表示RNNCellhₜ₋₁→hₜxₜyₜ按时间展开Cell1x1y1Cell2x2y2Cell3x3y3Cell4x4y4共享参数是RNN能处理任意长度序列的关键，但也导致梯度链条被反复相乘。第3章/循环神经网络隐藏状态、参数共享与序列映射类型研究生教学版6神经网络与深度学习|第3章隐藏状态hₜ的含义•历史输入的压缩表征•既是“记忆”，也是递推计算的中介变量•不同任务中可视为语言上下文、声学上下文或视频时序上下文参数共享•同一组Wxh,Whh,Wo在所有时刻重复使用•优点:参数量小、长度可变•代价:梯度传播路径变长四种典型映射•many-to-one:情感分类•one-to-many:文本生成/语音合成•many-to-many(对齐):序列标注•many-to-many(非对齐):机器翻译many→one评论情感分类one→many提示词到生成文本many→many分词/NER/音素标注enc→dec机器翻译/摘要第3章/循环神经网络BPTT:循环网络的训练为何“又自然又麻烦”研究生教学版7神经网络与深度学习|第3章训练流程•将RNN沿时间展开成深层网络•对每个时刻做前向传播•累积时刻损失L=ΣₜLₜ•反向时沿时间维度回传梯度工程上的典型做法•TruncatedBPTT:只回传最近k步•Mask/Padding处理变长序列•TeacherForcing稳定训练•梯度裁剪防止爆炸为什么会麻烦•时间链条长，梯度要跨越很多步•状态之间强耦合•序列越长，显存和算时开销越大•并行性明显弱于CNN/Transformer第3章/循环神经网络PlainRNN的核心难点:梯度消失与梯度爆炸研究生教学版8神经网络与深度学习|第3章数学直觉•梯度需经过多次雅可比矩阵连乘•若谱半径<1，梯度迅速衰减•若谱半径>1，梯度指数放大带来的后果•难以学习长距离依赖•训练不稳定，超参数敏感•早期时刻信息容易被“遗忘”常见缓解手段•梯度裁剪•更好初始化/归一化•残差与跳连•使用门控单元:LSTM/GRU教学提示:第3章真正的“转折点”不在RNN本身，而在于门控结构如何重建有效梯度路径。第3章/循环神经网络LSTM:用门控机制重建“可训练的记忆”研究生教学版9神经网络与深度学习|第3章CellStatecₜ₋₁→cₜ遗忘门fₜ输入门iₜ候选记忆gₜ输出门oₜhₜ直观理解PlainRNN把历史都压进hₜ；LSTM则显式区分“该忘什么、该写什么、该读出什么”。其本质是为梯度提供更稳定的跨时刻通路。第3章/循环神经网络GRU、双向RNN与Seq2Seq:三类常见扩展研究生教学版10神经网络与深度学习|第3章结构关键思想优点局限GRU用更新门+重置门简化LSTM参数更少、训练更快表达力略弱于完整LSTMBiRNN同时利用前向与后向上下文对标注任务更有效不适合严格流式在线场景Seq2Seq编码器压缩输入，解码器逐步生成输出支持输入/输出长度不一致早期版本受瓶颈向量限制，后续需注意力研究生视角:这些结构都在回答同一个问题—如何在序列依赖、可训练性与在线性之间取得平衡。第3章/循环神经网络序列任务三分法:序列标注、CTC、序列到序列研究生教学版11神经网络与深度学习|第3章序列标注输入与输出按时间对齐例:分词、词性标注、NER常配合BiLSTM/CRFCTC输入输出长度不同，但保持单调对齐例:语音识别、手写识别不需要精确帧级标注Seq2Seq输入输出可完全非对齐例:机器翻译、摘要后续通常结合注意力机制blank第3章/循环神经网络语音识别:从HMM/GMM到RNN，再到流式Transducer研究生教学版12神经网络与深度学习|第3章传统统计时代HMM/GMM显式建模状态转移深度声学模型RNN/LSTM/CTC更强时序建模在线端到端RNN-T流式逐步输出2026工业主流Conformer-Transducer/StreamingConformer兼顾性能与延迟为什么这一页对RNN重要？语音是RNN最成功的落地方向之一。即使今天编码器已大量转向Conformer/Transformer，Transducer仍然保留了“逐步输出+对齐建模”的在线精神。2026工程判断若任务要求低延迟、实时转写、边端部署，RNN-T及其演化形态仍然有现实价值；若任务允许全局上下文，CTC/Conformer/Whisper类方案通常更强。第3章/循环神经网络自然语言处理:RNN在教材中的任务谱系研究生教学版13神经网络与深度学习|第3章基础标注•中文分词•词性标注•命名实体识别特征:输入输出按时间对齐，BiLSTM曾长期是强基线分类任务•文本分类•情感分析特征:many-to-one映射，常用最后时刻隐藏状态或池化表示整体语义生成任务•自动摘要•机器翻译特征:编码器-解码器+注意力，RNN奠定了后续大模型的生成范式2026的重新定位•在前沿NLP中，纯RNN已几乎退出主流模型设计•但它仍然是理解自回归生成、隐状态记忆、teacherforcing、对齐学习的最佳入门范式•很多“现代概念”都可以追溯到RNN时代:seq2seq、attention、流式解码教学建议:第3章中的NLP部分，不应只讲“还能不能打”，更应讲“它留下了什么方法论遗产”。第3章/循环神经网络机器视觉、视频与时间序列:RNN并未完全退场研究生教学版14神经网络与深度学习|第3章教材中的视觉任务•字符识别•目标跟踪•视频分析本质上都需要把“空间特征”与“时间依赖”结合起来。今天仍适合RNN的场景•多传感器工业时间序列•小模型边缘部署•低延迟状态估计与预测•数据量不大但依赖稳定递推结构RNN的优势•递推推理，显存占用可控•适合在线场景•对序列长度变化天然友好•模型小、部署简单RNN的短板•难并行•长距离依赖难学•多模态融合能力较弱•大规模预训练生态不如Transformer结论:在“全局感知”任务上，RNN已被更强骨干替代；在“在线递推”任务上，它仍然有工程生命力。第3章/循环神经网络2026关键转折:前沿序列建模已从“纯RNN”转向更强范式研究生教学版15神经网络与深度学习|第3章OpenAIo3•强调reasoning+tooluse•在编码、数学、科学与视觉任务上刷新前沿表现•代表“复杂序列推理”已转向Transformer系列reasoning模型Gemini2.5原生音频•模型能原生理解并生成音频•支持实时语音对话、多说话人音频生成、多语言•说明现代序列建模已进入文本+语音+视频的统一多模态阶段DeepSeek-V3/开源MoE•671B总参数、每token激活37B•代表大规模开源序列模型在稀疏激活、效率与性能上的新平衡•训练/推理效率成为新的核心指标对本章的含义:RNN不再是“主流冠军模型”，但仍然是理解序列建模历史、机制与在线约束的关键桥梁。第3章/循环神经网络2026另一条演化线:从RNN到SSM/Mamba研究生教学版16神经网络与深度学习|第3章为什么会出现SSM？•Transformer在长序列上计算/显存成本高•RNN线性时间但长程建模弱•研究者尝试寻找“既高效又能处理长序列”的骨干Mamba的贡献•将选择性状态空间模型做成通用backbone•在recurrentmode下采用硬件友好并行算法•号称相对Transformer可获得更高吞吐与更长序列可扩展性研究含义•RNN思想并未消失，而是被“更现代的递推状态模型”继承•对音频、语言、基因组等长序列任务尤为重要•课堂上应将其视作“RNN思想的现代再解释”一句话概括:Transformer解决了表达力，SSM/Mamba试图重新拿回长序列效率，而RNN提供了递推状态建模的原型。第3章/循环神经网络系统与部署:流式推理、低比特计算与2026的工程现实研究生教学版17神经网络与深度学习|第3章为什么“在线性”重新重要？•实时语音/对话要求逐步输出•端侧与边缘计算受限于延迟、功耗和显存•因此很多系统更关注token/s、交互延迟，而不仅仅是离线精度Blackwell/NVFP4的意义•4-bit浮点开始进入训练与推理主流讨论•NVFP4面向Blackwell，目标是在更低精度下保持准确率•大模型的部署成本与交互吞吐被进一步改写回到本章•小型RNN/LSTM在流式任务中仍具部署优势•大型序列模型则受益于低比特推理与硬件协同•“模型结构”与“系统实现”正在被共同设计研究生应建立的工程观:序列模型的优劣，不只看benchmark，还要看时延、内存、吞吐、流式能力与透明度。第3章/循环神经网络本章总结与课后任务研究生教学版18神经网络与深度学习|第3章六个带走的结论1.RNN通过隐藏状态hₜ把“历史”压缩进当前计算。2.BPTT让RNN可训练，但也带来长链梯度问题。3.LSTM/GRU的本质是通过门控为梯度重建稳定通路。4.CTC、Seq2Seq、BiRNN分别对应不同序列任务约束。5.在前沿NLP/多模态中，纯RNN已退居次要位置。6.但在流式、低延迟、边缘场景与长序列效率研究中，递推思想仍然活跃。讨论题为什么说“RNN不是过时，而是被吸收进更大的序列建模家族”？编程任务用PyTorch复现一个字符级RNN或LSTM，并观察长序列训练时的梯度变化。阅读建议•教材第3章全部•Mamba论文摘要与引言•查阅一个流式ASR模型（RNN-T或Conformer-Transducer）•思考“结构、训练与系统”的共同优化问题课程讲授/第4章第4章生成对抗网络GAN研究生教学版|教材内容梳理+2026发展扩展本章核心理解GAN的“生成器–判别器”对抗式学习框架掌握minimax目标、训练不稳定来源与经典改进熟悉CGAN/DCGAN/WGAN/InfoGAN/Pix2Pix的动机从2026视角定位GAN与diffusion/autoregressive的分工1–2节课安排理论主线GAN模型、目标函数、训练算法与理论分析模型主线CGAN、DCGAN、WGAN、InfoGAN、Pix2Pix应用主线超分辨、图像翻译、医学图像、数据增强扩展主线GANvs扩散模型、低比特推理与生成安全2026关键词扩散TransformerSoraFLUX.2NVFP4深度伪造治理1神经网络与深度学习|第4章第4章/生成对抗网络学习目标与课堂安排研究生教学版2神经网络与深度学习|第4章学习目标•用博弈视角解释GAN的生成过程•能写出基本minimax目标并理解其含义•说清训练不稳定、模式崩塌与评估难点•区分不同GAN变体各自解决的核心问题•从2026视角判断GAN在现代生成体系中的位置建议教学节奏第1课时•4.1随机数据生成•4.2模型•4.3训练与理论分析第2课时•4.4改进与应用•4.5研究热点•2026发展扩展课堂讨论如果扩散模型已经在通用图像/视频生成中占主导，为什么GAN仍值得在研究生课程中系统学习？课后作业比较CGAN、WGAN-GP与Pix2Pix在输入条件、目标函数、训练稳定性和应用场景上的差异，并给出一个你认为GAN仍优于扩散模型的任务。第4章/生成对抗网络教材第四章的逻辑结构研究生教学版3神经网络与深度学习|第4章4.1随机数据生成•从噪声采样•目标:学到数据分布•为GAN铺垫“从z到x”4.2–4.3基本模型•生成模型G•判别模型D•minimax目标•训练与理论分析4.4改进与应用•CGAN/DCGAN•超分辨/WGAN•InfoGAN/Pix2Pix4.5研究热点•优化与评估•对抗攻击•现代生成模型关系研究生教学建议:先用“对抗学习”为主线，再把每个变体看成对训练难点的定点修补。第4章/生成对抗网络为什么需要GAN:从“生成数据”到“学习分布”研究生教学版4神经网络与深度学习|第4章生成任务的目标•不只是分类已有样本•而是从噪声中合成“看起来真实”的新样本•理想情况下，模型输出应服从真实数据分布传统难点•显式写出高维数据分布很困难•最大似然常常需要近似推断•图像数据维度高、结构复杂、感知质量难量化GAN的回答•用G直接从噪声z生成样本•用D学会区分真/假•通过“对抗”逼迫G逐步贴近真实分布直观比喻:G像“伪造者”，D像“鉴别者”，两者在博弈中共同提升。第4章/生成对抗网络GAN基本框架:生成器G与判别器D研究生教学版5神经网络与深度学习|第4章噪声z生成器G假样本G(z)真实样本x判别器D真/假概率关键观察D的提升会给G更强的学习信号；G的提升又会迫使D学会更细致的边界。对抗不是“谁赢谁输”，而是希望最终达到一种近似均衡。第4章/生成对抗网络目标函数:minimax博弈与它的含义研究生教学版6神经网络与深度学习|第4章判别器D想做什么？•让真实样本D(x)尽量接近1•让生成样本D(G(z))尽量接近0•本质上学习“真/假”分类边界生成器G想做什么？•让D(G(z))尽量变大•也就是让假样本骗过D•目标是让G(z)的分布逼近pdata平衡点的直观理解•当G足够好时，D很难区分真/假•理想情况下D(x)=0.5左右•此时生成分布与真实分布在统计意义上接近教学提示:不要把这个式子当成普通分类损失，而应把它看作两个目标相反、参数相互耦合的优化问题。第4章/生成对抗网络为什么GAN难训练:不稳定、模式崩塌与梯度问题研究生教学版7神经网络与深度学习|第4章问题1优化不是单目标•G与D同时更新•一个参数变化会改变另一个的目标面•训练轨迹容易震荡、循环甚至发散问题2模式崩塌•G只学会少数“容易骗过D”的模式•输出看似真实，但多样性下降•典型现象:生成样本长得都差不多问题3梯度饱和•若D太强，D(G(z))很快趋近0•原始目标会给G很弱的梯度•早期训练尤其明显工程应对•非饱和损失•标签平滑•梯度惩罚•BN/谱归一化•更新步数平衡第4章/生成对抗网络评估生成质量为什么比分类更难？研究生教学版8神经网络与深度学习|第4章分类任务•标签明确•准确率、召回率、F1都较直接•预测结果与标准答案一一对应生成任务•“像不像真样本”没有单一标准答案•既要看质量fidelity，也要看多样性diversity•人类主观感知与像素级误差常常不一致常见指标•InceptionScore:看类别置信度与多样性•FID:比较真实/生成特征分布差异•Precision&Recall:质量与覆盖面的拆分•人工评测:仍然重要教学提示:“高分”不一定等于“真实可用”，尤其在医学、遥感、安防等高风险场景。第4章/生成对抗网络GAN家族演化:每个变体都在修一个“痛点”研究生教学版9神经网络与深度学习|第4章CGAN加入条件变量，控制生成类别或属性DCGAN用卷积结构改进图像生成质量WGAN用Wasserstein距离缓解训练不稳定InfoGAN显式鼓励可解释潜变量Pix2Pix做配对图像到图像翻译一句话理解GAN变体的核心不是“堆更多模块”，而是针对条件控制、卷积归纳偏置、训练距离、表示可解释性和具体任务形式做定向设计。第4章/生成对抗网络CGAN:让生成变得“可控”研究生教学版10神经网络与深度学习|第4章核心思想•在G和D中同时加入条件变量y•y可以是类别、标签、属性甚至文本条件•目标从“随机生成”转为“按条件生成”zyG(z,y)D(x,y)典型应用•类别可控图像生成•条件补全与编辑•由语义标签到图像的生成•是后续文本条件生成的一条思想源头第4章/生成对抗网络DCGAN:用卷积归纳偏置提升图像生成研究生教学版11神经网络与深度学习|第4章DCGAN的四个经典经验①使用卷积/转置卷积替代池化②去除大部分全连接层③引入BatchNorm稳定训练④选择更合适的激活函数（如G用ReLU/Tanh，D用LeakyReLU）为什么有效？•CNN更适合图像局部结构•归纳偏置更强•参数共享提高表达效率教学重点•DCGAN不是改目标，而是改网络结构•它证明“架构归纳偏置”对生成质量极其重要与教材的连接教材强调它通过深度卷积结构改善大尺寸图像生成时的模糊问题，并总结了卷积替池化、去全连接、BN与激活函数设计等关键经验。这一页适合用来讲“为什么结构设计会影响优化景观”。第4章/生成对抗网络WGAN/WGAN-GP:把“距离”换掉，稳定性提升研究生教学版12神经网络与深度学习|第4章原始GAN的一个痛点•判别器过强时梯度会很差•JS散度在分布支撑集几乎不重叠时不够友好•训练曲线常常难以解释WGAN的核心•用Wasserstein-1距离近似替代原始散度•判别器变成critic，不输出概率而输出分数•训练中更容易观察“距离是否下降”为什么要加GP？权重裁剪过于粗糙，会限制critic表达能力；WGAN-GP用梯度惩罚更平滑地满足Lipschitz约束。梯度惩罚项第4章/生成对抗网络InfoGAN与Pix2Pix:可解释潜变量与图像翻译研究生教学版13神经网络与深度学习|第4章InfoGAN•在噪声之外显式加入潜变量c•通过互信息约束让c与生成结果建立可解释关系•目标:学到“可控且可解释”的潜在表示•适合课堂说明“生成模型也能做表示学习”Pix2Pix•解决“配对图像到图像翻译”•输入是源图像，输出是目标域图像•通常结合对抗损失+重建损失•经典任务:语义标签→街景、边缘图→照片、草图→图像教学提示:InfoGAN说明“潜变量可解释性”，Pix2Pix说明“任务条件化”。二者一起讲，学生更容易看懂GAN的能力边界。第4章/生成对抗网络GAN的典型应用版图研究生教学版14神经网络与深度学习|第4章超分辨/图像增强SRGAN等方法追求感知质量图像到图像翻译Pix2Pix/Cycle风格任务医学图像合成、重建、去噪、分割辅助数据增强缓解样本稀缺与类别不均衡隐私保护与匿名化以可控生成方式替换敏感细节风格迁移与内容创作视觉设计与AIGC原型系统第4章/生成对抗网络2026视角:GAN在现代生成模型中的位置研究生教学版15神经网络与深度学习|第4章维度GANDiffusionAutoregressive课程结论训练特点对抗博弈，易不稳逐步去噪，训练更稳定顺序建模，长度敏感GAN最适合讲“博弈式学习”生成质量高感知质量，但可能塌陷质量高且多样性更强在语言/代码中强通用视觉生成主流已转向diffusion速度单步生成可快采样步数多，但可加速逐token生成边缘低延迟场景GAN仍有吸引力适用场景翻译、增强、小样本通用图像/视频生成文本、代码、序列现代课程应讲“范式分工”第4章/生成对抗网络2026发展扩展:通用生成主流迁向扩散Transformer研究生教学版16神经网络与深度学习|第4章Sora给出的信号OpenAI在公开视频生成技术报告中明确指出，既往视频生成方法包括RNN、GAN、autoregressive与diffusion；而Sora本身采用diffusiontransformer路线，强调patch/token化与扩展性。开源图像生成的方向NVIDIA在2026年对FLUX.2的加速文章中，将其描述为diffusiontransformer模型，并展示了面向Blackwell的低比特推理优化。这说明现代高质量开源图像生成的工程主线也在向扩散Transformer靠拢。课程上的结论GAN不再是“通用图像/视频生成的唯一主线”，但它仍是理解生成学习、图像翻译、小样本增强、对抗训练和稳定性问题的最佳教学入口之一。第4章/生成对抗网络2026工程扩展:低比特推理正在重塑生成部署研究生教学版17神经网络与深度学习|第4章NVFP4是什么？NVIDIA2025官方文章介绍，NVFP4是面向Blackwell的4-bit浮点格式，目标是在超低精度下尽量保持模型精度，并通过双层缩放减少量化误差。为什么这和GAN课相关？今天学生实际部署生成模型时，往往面对的是扩散模型而非传统GAN；但理解低比特推理、延迟与显存约束，可以帮助他们回答“为什么某些场景还会回到更轻量、更快的模型家族”。课堂连接点•训练范式会变，但工程约束始终存在•生成质量、推理成本、可控性与安全性必须一起考虑•“会训练”与“能部署”是两回事第4章/生成对抗网络风险与治理:深度伪造、对抗攻击与可信评估研究生教学版18神经网络与深度学习|第4章深度伪造•高逼真生成能力会被用于伪造身份、语音和视频•课程中应强调技术双刃剑属性•不能只教“怎么生成”，也要教“怎么鉴别”对抗攻击•教材第4.5.2已将其列为研究热点•生成模型既可能被攻击，也可被用于构造攻击样本•安全评估需要超出视觉质量本身2026研究生教学建议•加入来源标注、模型水印与内容真实性讨论•区分研究demo与高风险应用•在作业中要求写出“潜在误用与缓解方案”第4章/生成对抗网络本章总结与课堂讨论题研究生教学版19神经网络与深度学习|第4章本章总结•GAN用对抗学习把“生成数据”变成可训练问题•经典难点是稳定性、模式崩塌与评估困难•主要变体都在围绕条件控制、卷积结构、距离设计和任务约束做修补•到2026年，GAN的“基础理论价值”大于其“通用大模型主线地位”建议板书题1.为什么说WGAN不是简单换损失？2.CGAN与Pix2Pix的条件有何不同？3.为什么GAN容易模式崩塌？4.GAN与diffusion谁更适合边缘实时生成？课后阅读方向•阅读教材第4章所有变体•复习本书第2章CNN与第7章分割，理解Pix2Pix与SRGAN如何借视觉归纳偏置提升生成质量•结合现代diffusion系统，思考范式迁移课程讲授/第5章第5章TensorFlow和PyTorch框架研究生教学版|教材梳理+2026工程生态扩展本章核心理解教材中的TensorFlow/PyTorch基础对象:张量、变量、激活、损失、模型搭建把“静态图vs动态图”的经典对比升级到2026的eager+compile视角掌握训练循环、自动求导、分布式训练与部署精度的现代工程主线建立“教学代码→研究原型→工业训练/推理”三层框架认知1–2节课安排教材层TensorFlow数据流图、张量、会话、变量、MNIST示例现代层EagerExecution、tf.function、GradientTape、Keras3PyTorch层Tensor、autograd、nn.Module、训练循环、pile系统层分布式训练、FSDP/DTensor、低比特精度与Blackwell2026关键词Keras3多后端pileFSDP/DTensorNVFP4tf.distribute1神经网络与深度学习|第5章第5章/TensorFlow和PyTorch框架学习目标与教学安排研究生教学版2神经网络与深度学习|第5章学习目标•识别框架层的关键对象与抽象边界•读懂教材中的TensorFlow1风格代码•将旧范式映射到TensorFlow2/Keras3•用PyTorch写出标准训练循环•能从研究与工程角度比较两大生态课堂节奏第1课时•教材内容梳理•图、张量、变量、会话•激活函数与损失第2课时•现代API映射•PyTorch训练循环•分布式/低比特/部署课堂讨论为什么今天的教学不能只讲“TensorFlow静态图vsPyTorch动态图”？2026年真正有价值的比较维度是什么？实验建议要求学生各用TensorFlow/Keras与PyTorch实现一次MNIST或CIFAR-10分类，比较代码长度、可调试性、吞吐、混合精度与部署路径。第5章/TensorFlow和PyTorch框架教材第五章的逻辑结构研究生教学版3神经网络与深度学习|第5章5.1TensorFlow基础•数据流图•计算图•张量/会话/变量5.1.8模型搭建•MNIST数据集•Softmax回归•训练与测试5.2PyTorch基础•Tensor•Variable/autograd•激活函数/损失5.2.6模型搭建•模块化建模•前向传播•训练循环研究生教学建议:“教材层”讲抽象，“现代层”讲API迁移，“系统层”讲规模化训练与部署。第5章/TensorFlow和PyTorch框架从教材视角到2026视角:框架范式已经发生变化研究生教学版4神经网络与深度学习|第5章教材中的经典对比•TensorFlow:静态计算图+Session•PyTorch:动态计算图+更易调试•重点是“图先定义还是边跑边建”2026的新现实•TensorFlow2默认eagerexecution•tf.function把Python代码转为图•PyTorch2.x用pile做图捕获与优化•两者都走向“易写+可编译+可部署”教学上要升级的问题•谁更适合研究原型？•谁更适合工业管线？•如何接入多GPU/TPU？•如何支持混合精度和低比特推理？结论:今天的比较重点已从“静态图vs动态图”迁移为“eager编程+compiler+distributed+deployment”。第5章/TensorFlow和PyTorch框架TensorFlow:教材中的核心概念与现代映射研究生教学版5神经网络与深度学习|第5章教材对象教材含义2026对应对象教学提示数据流图/计算图用图表达节点依赖与执行顺序eager+tf.function图转换先教“图是什么”，再教“图不一定手写”placeholder给运行时喂入输入函数参数/tf.keras.Input保留概念，不要求学生继续大量手写Session驱动图执行与资源管理默认eager执行强调TF1风格代码的历史价值Variable共享、可更新状态tf.Variable/Keras层权重引到优化器与检查点Graph+device指定CPU/GPU/分布式设备tf.distribute.Strategy从“设备指定”升级到“策略抽象”第5章/TensorFlow和PyTorch框架现代TensorFlow2主线:Tensor,Variable,GradientTape,tf.function研究生教学版6神经网络与深度学习|第5章Tensor•多维数组对象•dtype/shape/device•支持CPU/GPU/TPU•是计算图中的基本数据载体Variable•表示共享、持久、可更新状态•常用来存储模型参数•会被优化器更新•Keras层权重底层即tf.VariableGradientTape•记录前向运算•自动求导•取代教材里的Session+手工图执行直觉•是自定义训练循环核心tf.function•把Python函数转成数据流图•提升性能与可移植性•SavedModel/分布式训练常需要它第5章/TensorFlow和PyTorch框架TensorFlow的性能与规模化:tf.data+tf.function+tf.distribute研究生教学版7神经网络与深度学习|第5章输入管线•tf.data负责数据读取、shuffle、batch、prefetch•高吞吐训练需要输入管线跟上GPU/TPU•研究中常被忽视，工程中常是瓶颈图优化•eager方便调试•tf.function提供图执行、优化与导出能力•分布式场景中通常与图执行一起使用分布式训练•统一入口:tf.distribute.Strategy•覆盖单机多卡、参数服务器、多worker、TPU•指南明确指出该API最适合与tf.function配合使用•教学上应把“设备”抽象升级为“分布式策略”第5章/TensorFlow和PyTorch框架教材中的MNIST示例与现代教学写法研究生教学版8神经网络与深度学习|第5章#教材主线（TF1风格）x=tf.placeholder("float",[None,784])W=tf.Variable(tf.zeros([784,10]))b=tf.Variable(tf.zeros([10]))y=tf.nn.softmax(tf.matmul(x,W)+b)train_step=tf.train.GradientDescentOptimizer(0.01)\.minimize(cross_entropy)withtf.Session()assess:sess.run(init)#现代教学（TF2/Keras风格）model=tf.keras.Sequential([tf.keras.layers.Input((784,)),tf.keras.layers.Dense(10,activation="softmax")])pile(optimizer="sgd",loss="categorical_crossentropy",metrics=["accuracy"])model.fit(x_train,y_train,batch_size=100,epochs=10)教学建议建议先讲教材代码的“图执行逻辑”，再给出现代Keras写法。这样学生既能读老代码，也不会停留在过时API上。第5章/TensorFlow和PyTorch框架PyTorch核心抽象:Tensor+autograd+nn.Module研究生教学版9神经网络与深度学习|第5章Tensor•多维同质数组•CPU/CUDA/dtype/shape一等公民•是数学计算与模型状态的统一载体autograd•反向传播引擎•对requires_grad=True的张量记录运算图•backward()自动计算梯度nn.Module•模型、层、子模块的统一容器•负责参数注册与forward定义优化器•torch.optim管理参数更新•与训练循环显式配合研究生应掌握的关键点:PyTorch的“简洁”不是没有图，而是图在运行期被autograd隐式构建。第5章/TensorFlow和PyTorch框架PyTorchTensor操作:教材中的形状变换与现代实践研究生教学版10神经网络与深度学习|第5章教材重点•view/reshape•squeeze/unsqueeze•cat/stack•mm/add等张量运算工程理解•形状变换不是“语法题”•它决定batch维、通道维、时序维是否正确•很多bug本质上是shapebug现代提醒•优先使用reshape而非盲目view•注意contiguous与内存布局•device/dtype转换常用.to()x=torch.randn(4,4)y=x.view(16)z=x.view(-1,8)a=torch.tensor([[1,2,3]])a.squeeze()a.unsqueeze(2)x=torch.randn(2,3).to("cuda")y=torch.randn(2,3).to(torch.float16)out=x+y.float()第5章/TensorFlow和PyTorch框架激活函数与损失函数:第5章的“框架API层”研究生教学版11神经网络与深度学习|第5章激活函数•Sigmoid/tanh:经典但有梯度饱和问题•ReLU:计算快、收敛快、仍是默认首选•教材强调DeadReLU与初始化/学习率影响常见损失•L1/SmoothL1/MSE•CrossEntropyLoss是分类任务主力•本质是在“目标几何”上定义优化方向研究生要进一步理解•API名称只是表层•更重要的是输出空间、标签编码、数值稳定性与reduction方式•同样的损失函数，在检测/分割/回归中意义不同第5章/TensorFlow和PyTorch框架PyTorch模型搭建:训练循环比“框架语法”更重要研究生教学版12神经网络与深度学习|第5章model=Net().to(device)optimizer=torch.optim.Adam(model.parameters())criterion=torch.nn.CrossEntropyLoss()forx,yinloader:x,y=x.to(device),y.to(device)optimizer.zero_grad()logits=model(x)loss=criterion(logits,y)loss.backward()optimizer.step()显式优点•前向/反向/更新一目了然•易插入日志、裁剪、AMP、检查点•研究原型修改成本低显式代价•模板代码较多•初学者容易忘记zero_grad•训练细节需要手动管理教学建议先要求学生手写训练循环，再允许使用Lightning/Accelerate等高层封装。第5

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《神经网络与深度学习》全套教学课件

文档简介

温馨提示

最新文档

评论

相关文档