版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程讲授/第3章第3章循环神经网络研究生教学版|教材内容梳理+2026发展扩展本章核心理解循环层的状态递推、参数共享与“记忆”机制掌握BPTT、梯度消失/爆炸及截断训练的工程意义理解LSTM/GRU/BiRNN/Seq2Seq/CTC的设计动机讨论2026年序列建模格局:RNN→Transformer→SSM/Mamba1–2节课安排理论主线RNN结构、BPTT、LSTM/GRU任务主线序列标注、CTC、语音识别、NLP扩展主线Transformer/多模态/SSM/Mamba工程主线流式推理、低比特部署、延迟约束教材依据:《神经网络与深度学习》第3章“循环神经网络”2026关键词推理模型原生音频长序列SSM/MambaBlackwell/NVFP41神经网络与深度学习|第3章第3章/循环神经网络学习目标与教学安排研究生教学版2神经网络与深度学习|第3章学习目标定义RNN的状态更新、输出映射与参数共享理解为什么BPTT会导致长链梯度问题掌握LSTM/GRU的门控思想与差异理解序列标注、CTC、Seq2Seq在不同任务中的位置能从2026视角判断RNN何时仍值得使用建议课堂节奏第1课时•RNN结构•时间展开•BPTT•梯度问题第2课时•LSTM/GRU•CTC/Seq2Seq•语音/NLP应用•2026扩展课堂讨论为什么今天大模型主流不再使用“纯RNN”,但在流式语音、低延迟、边缘场景中它仍然重要?课后任务阅读教材本章后,比较“PlainRNN/LSTM/Transformer/Mamba”在记忆机制、并行性、延迟和工程复杂度上的异同。第3章/循环神经网络教材第三章的逻辑框架研究生教学版3神经网络与深度学习|第3章3.1–3.2基础原理•循环层与输出层•时间展开•深度RNN•BPTT训练3.3序列预测•序列标注•CTC•Seq2Seq3.4–3.6应用•语音识别•自然语言处理•机器视觉/视频3.7–3.14扩展结构•双向RNN•编码-解码•LSTM/GRU•挑战与改进研究生教学建议:“先原理,后任务,再讨论范式迁移”本章不是为了和Transformer竞争,而是为了理解序列建模的基本思想与工程约束。第3章/循环神经网络为什么要引入循环:从“静态输入”到“时序依赖”研究生教学版4神经网络与深度学习|第3章前馈网络/CNN的优点•适合固定结构输入•并行性强•空间特征提取能力强•对局部模式建模高效时序任务的新需求•当前输出依赖过去输入•序列长度不固定•需要保留上下文•实时系统要求逐步输出RNN的回答•在隐藏状态中保留历史信息•使用参数共享处理任意长度序列•以递推方式实现“记忆”•自然适合流式输入核心思想:让网络在时刻t的状态hₜ同时依赖当前输入xₜ与上一时刻状态hₜ₋₁。第3章/循环神经网络RNN的基本结构:rolled与unrolled研究生教学版5神经网络与深度学习|第3章rolled表示RNNCellhₜ₋₁→hₜxₜyₜ按时间展开Cell1x1y1Cell2x2y2Cell3x3y3Cell4x4y4共享参数是RNN能处理任意长度序列的关键,但也导致梯度链条被反复相乘。第3章/循环神经网络隐藏状态、参数共享与序列映射类型研究生教学版6神经网络与深度学习|第3章隐藏状态hₜ的含义•历史输入的压缩表征•既是“记忆”,也是递推计算的中介变量•不同任务中可视为语言上下文、声学上下文或视频时序上下文参数共享•同一组Wxh,Whh,Wo在所有时刻重复使用•优点:参数量小、长度可变•代价:梯度传播路径变长四种典型映射•many-to-one:情感分类•one-to-many:文本生成/语音合成•many-to-many(对齐):序列标注•many-to-many(非对齐):机器翻译many→one评论情感分类one→many提示词到生成文本many→many分词/NER/音素标注enc→dec机器翻译/摘要第3章/循环神经网络BPTT:循环网络的训练为何“又自然又麻烦”研究生教学版7神经网络与深度学习|第3章训练流程•将RNN沿时间展开成深层网络•对每个时刻做前向传播•累积时刻损失L=ΣₜLₜ•反向时沿时间维度回传梯度工程上的典型做法•TruncatedBPTT:只回传最近k步•Mask/Padding处理变长序列•TeacherForcing稳定训练•梯度裁剪防止爆炸为什么会麻烦•时间链条长,梯度要跨越很多步•状态之间强耦合•序列越长,显存和算时开销越大•并行性明显弱于CNN/Transformer第3章/循环神经网络PlainRNN的核心难点:梯度消失与梯度爆炸研究生教学版8神经网络与深度学习|第3章数学直觉•梯度需经过多次雅可比矩阵连乘•若谱半径<1,梯度迅速衰减•若谱半径>1,梯度指数放大带来的后果•难以学习长距离依赖•训练不稳定,超参数敏感•早期时刻信息容易被“遗忘”常见缓解手段•梯度裁剪•更好初始化/归一化•残差与跳连•使用门控单元:LSTM/GRU教学提示:第3章真正的“转折点”不在RNN本身,而在于门控结构如何重建有效梯度路径。第3章/循环神经网络LSTM:用门控机制重建“可训练的记忆”研究生教学版9神经网络与深度学习|第3章CellStatecₜ₋₁→cₜ遗忘门fₜ输入门iₜ候选记忆gₜ输出门oₜhₜ直观理解PlainRNN把历史都压进hₜ;LSTM则显式区分“该忘什么、该写什么、该读出什么”。其本质是为梯度提供更稳定的跨时刻通路。第3章/循环神经网络GRU、双向RNN与Seq2Seq:三类常见扩展研究生教学版10神经网络与深度学习|第3章结构关键思想优点局限GRU用更新门+重置门简化LSTM参数更少、训练更快表达力略弱于完整LSTMBiRNN同时利用前向与后向上下文对标注任务更有效不适合严格流式在线场景Seq2Seq编码器压缩输入,解码器逐步生成输出支持输入/输出长度不一致早期版本受瓶颈向量限制,后续需注意力研究生视角:这些结构都在回答同一个问题—如何在序列依赖、可训练性与在线性之间取得平衡。第3章/循环神经网络序列任务三分法:序列标注、CTC、序列到序列研究生教学版11神经网络与深度学习|第3章序列标注输入与输出按时间对齐例:分词、词性标注、NER常配合BiLSTM/CRFCTC输入输出长度不同,但保持单调对齐例:语音识别、手写识别不需要精确帧级标注Seq2Seq输入输出可完全非对齐例:机器翻译、摘要后续通常结合注意力机制blank第3章/循环神经网络语音识别:从HMM/GMM到RNN,再到流式Transducer研究生教学版12神经网络与深度学习|第3章传统统计时代HMM/GMM显式建模状态转移深度声学模型RNN/LSTM/CTC更强时序建模在线端到端RNN-T流式逐步输出2026工业主流Conformer-Transducer/StreamingConformer兼顾性能与延迟为什么这一页对RNN重要?语音是RNN最成功的落地方向之一。即使今天编码器已大量转向Conformer/Transformer,Transducer仍然保留了“逐步输出+对齐建模”的在线精神。2026工程判断若任务要求低延迟、实时转写、边端部署,RNN-T及其演化形态仍然有现实价值;若任务允许全局上下文,CTC/Conformer/Whisper类方案通常更强。第3章/循环神经网络自然语言处理:RNN在教材中的任务谱系研究生教学版13神经网络与深度学习|第3章基础标注•中文分词•词性标注•命名实体识别特征:输入输出按时间对齐,BiLSTM曾长期是强基线分类任务•文本分类•情感分析特征:many-to-one映射,常用最后时刻隐藏状态或池化表示整体语义生成任务•自动摘要•机器翻译特征:编码器-解码器+注意力,RNN奠定了后续大模型的生成范式2026的重新定位•在前沿NLP中,纯RNN已几乎退出主流模型设计•但它仍然是理解自回归生成、隐状态记忆、teacherforcing、对齐学习的最佳入门范式•很多“现代概念”都可以追溯到RNN时代:seq2seq、attention、流式解码教学建议:第3章中的NLP部分,不应只讲“还能不能打”,更应讲“它留下了什么方法论遗产”。第3章/循环神经网络机器视觉、视频与时间序列:RNN并未完全退场研究生教学版14神经网络与深度学习|第3章教材中的视觉任务•字符识别•目标跟踪•视频分析本质上都需要把“空间特征”与“时间依赖”结合起来。今天仍适合RNN的场景•多传感器工业时间序列•小模型边缘部署•低延迟状态估计与预测•数据量不大但依赖稳定递推结构RNN的优势•递推推理,显存占用可控•适合在线场景•对序列长度变化天然友好•模型小、部署简单RNN的短板•难并行•长距离依赖难学•多模态融合能力较弱•大规模预训练生态不如Transformer结论:在“全局感知”任务上,RNN已被更强骨干替代;在“在线递推”任务上,它仍然有工程生命力。第3章/循环神经网络2026关键转折:前沿序列建模已从“纯RNN”转向更强范式研究生教学版15神经网络与深度学习|第3章OpenAIo3•强调reasoning+tooluse•在编码、数学、科学与视觉任务上刷新前沿表现•代表“复杂序列推理”已转向Transformer系列reasoning模型Gemini2.5原生音频•模型能原生理解并生成音频•支持实时语音对话、多说话人音频生成、多语言•说明现代序列建模已进入文本+语音+视频的统一多模态阶段DeepSeek-V3/开源MoE•671B总参数、每token激活37B•代表大规模开源序列模型在稀疏激活、效率与性能上的新平衡•训练/推理效率成为新的核心指标对本章的含义:RNN不再是“主流冠军模型”,但仍然是理解序列建模历史、机制与在线约束的关键桥梁。第3章/循环神经网络2026另一条演化线:从RNN到SSM/Mamba研究生教学版16神经网络与深度学习|第3章为什么会出现SSM?•Transformer在长序列上计算/显存成本高•RNN线性时间但长程建模弱•研究者尝试寻找“既高效又能处理长序列”的骨干Mamba的贡献•将选择性状态空间模型做成通用backbone•在recurrentmode下采用硬件友好并行算法•号称相对Transformer可获得更高吞吐与更长序列可扩展性研究含义•RNN思想并未消失,而是被“更现代的递推状态模型”继承•对音频、语言、基因组等长序列任务尤为重要•课堂上应将其视作“RNN思想的现代再解释”一句话概括:Transformer解决了表达力,SSM/Mamba试图重新拿回长序列效率,而RNN提供了递推状态建模的原型。第3章/循环神经网络系统与部署:流式推理、低比特计算与2026的工程现实研究生教学版17神经网络与深度学习|第3章为什么“在线性”重新重要?•实时语音/对话要求逐步输出•端侧与边缘计算受限于延迟、功耗和显存•因此很多系统更关注token/s、交互延迟,而不仅仅是离线精度Blackwell/NVFP4的意义•4-bit浮点开始进入训练与推理主流讨论•NVFP4面向Blackwell,目标是在更低精度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年保安员工转正申请书模板
- 安全生产逃生通知讲解
- 2024年公司设备维修管理制度
- 2023年中核集团中核汇能(内蒙古)能源有限公司社会招聘岗位考试真题
- 质量基础设施“一站式”服务第一部分:平台建设规范编制说明
- 2023年高考化学必背知识点
- 2023年中级统计师考试统计工作实务试题及答案
- 2023年上半年银行从业资格考试风险管理考试试题及答案
- 智能仓储与配送机器人技术应用方案
- 2023海南高考语文试题及参考答案
- 实施指南(2025)《HB 8457-2014(2017)民用飞机研制项目工作分解结构》解读
- 《隧道内轨道式病害监测机器人技术规程》
- 高考语文复习:语文主观题答题规范大全
- 工具式模(板)专项施工方案
- 2025年广西公办高职高专院校单招对口职业适应性考试试题+答案
- 点菜英语教学课件
- 2025年数字孪生在城市绿地景观规划与生态效益评估中的应用案例研究
- DB32-T 5160-2025 传媒行业数据分类分级指南
- 辅警心理辅导讲座课件
- 急性外阴炎的护理
- 系统性红斑狼疮护理疑难病例讨论
评论
0/150
提交评论