版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
注意力与反馈网络汇报人:XXXX时间:XXXX目录CONTENTS01从注意力到反馈02自注意力崛起03Transformer骨架04视觉与通道注意力05反馈网络机制目录CONTENTS01训练与推理策略02前沿与总结01从注意力到反馈注意力机制提出背景突破传统瓶颈,实现动态对齐传统网络困境传统卷积与循环网络在建模长程依赖时面临参数冗余与距离衰减的瓶颈。核心思想诞生注意力机制通过动态权重直接关联任意位置,实现信息的灵活筛选与聚焦。软对齐与查询键值思想将输入抽象为三分支,实现可微分的加权求和Query(查询)当前待处理的信息→Key(键)用于匹配查询的索引→Value(值)实际需要提取的内容核心公式:Attention(Q,K,V)=softmax(QK^T/√d_k)VBahdanau注意力突破首次在机器翻译中引入软对齐,实现性能飞跃核心创新通过可学习的对齐分数,让解码器在生成每个词时,能动态聚焦源语言的相关词。性能提升在机器翻译任务上,BLEU分数提升4个点以上,并提供了直观的对齐可解释性。02自注意力崛起自注意力计算流程在序列内部完成计算,一步获取全局信息1.输入序列X(Seq,D)→2.生成Q,K,V线性变换→3.计算注意力ScaledDot-Product→4.输出加权求和
多头注意力机制设计并行计算,捕获多维度特征关系核心机制将Q,K,V线性投影到多个子空间,并行计算注意力,最后拼接输出。性能增益相比单头,8头注意力在机器翻译任务上BLEU提升1.8,能分别捕获句法、语义等不同关系。位置编码与顺序建模为无递归结构注入位置信息正弦/余弦位置编码使用固定公式生成,支持外推,在数据稀缺时泛化能力更强。PE(pos,2i)=sin(pos/10000^(2i/d))PE(pos,2i+1)=cos(pos/10000^(2i/d))可学习位置嵌入将位置视为可训练参数,在数据充足时可能达到更优性能。通过训练学习每个位置的向量表示,与词嵌入相加。缩放点积与维度缩放稳定训练的关键细节问题:梯度消失
方案:缩放因子
03Transformer骨架编码器层:标准化与残差保障深层网络训练的稳定与流畅输入+自注意力→残差连接→层归一化预归一化(Pre-LN)相比后归一化更利于深层模型收敛,是最佳实践。前馈网络与激活选择特征非线性变换的核心组件标准结构两层线性映射夹ReLU激活,隐藏层维度通常扩大4倍。激活选择ReLU是标准选择,GELU等变体有微小提升,但非主要瓶颈。解码器自回归与掩码确保自回归特性与信息正确流动未来掩码(Look-aheadMask)在自注意力中应用上三角负无穷掩码,确保第t个位置只能看到前t-1个位置的输出,保持自回归特性。ifj>i:mask[i,j]=-inf层数扩展与容量饱和深度与性能的权衡收益递减层数从6层增加到24层,性能提升逐渐放缓,出现容量饱和。解决方案当参数量超过阈值,需在数据规模和正则化上同步增加。04视觉与通道注意力非局部神经网络思想将自注意力从NLP迁移到视觉领域核心思想在视频或图像特征图上计算自注意力,捕获长距离时空依赖。性能提升在Kinetics动作识别数据集上,添加非局部块后Top-1准确率提升3.2个点。Squeeze激励与通道校准即插即用的通道注意力模块三步流程1.Squeeze:全局池化获通道描述。2.Excitation:全连接学习权重。3.Scale:与原特征相乘校准。性能增益SE-ResNet50参数量仅增10%,ImageNetTop-1提升1.2个点。CBAM空间与通道双重串行建模“什么”和“在哪里”串行结构先计算通道注意力,再计算空间注意力,逐层细化特征重要性。性能提升在MS-COCO目标检测任务上,mAP提升2.4个点。位置敏感与可解释为决策提供可视化依据热力图高亮通过注意力权重或梯度信号生成热力图,高亮模型关注的区域,提供可解释性。高价值场景在医疗诊断、自动驾驶等高风险场景中,帮助建立对AI决策的信任。05反馈网络机制前馈与反馈范式差异从单向传递到迭代修正前馈网络(Feed-forward)信息单向流动,缺乏高层语义对低层特征的再调控,难以进行逐步推理和细节修正。反馈网络(Feedback)通过循环连接将顶层表示反向传递,实现逐步推理与细节修正。循环CNN与迭代优化通过权重共享实现迭代式精细化预测核心思想将多个卷积块首尾相接形成循环结构,在测试时展开多次迭代以逐步细化预测。优势参数量仅为堆叠网络的1/3,图像去模糊任务PSNR提升1.5。注意力反馈与自校正自顶向下的动态特征调整核心思想高层注意力反向指导低层特征重新加权,实现自顶向下的注意力反馈,抑制背景噪声。性能提升图像分割任务mIoU提升2.1个点。时间反馈与迭代推理利用时序先验增强鲁棒性核心思想利用上一帧预测作为当前帧先验,实现时空一致性建模。性能提升多帧行人检测任务ID切换率降低15%。06训练与推理策略教师强制与计划采样缓解暴露偏差,缩小训练测试差异问题:暴露偏差训练时用真实标签,测试时依赖模型自身输出,导致误差累积。方案:计划采样按概率逐步用模型输出替换真实标签,需动态调整替换概率。迭代次数与早停在推理阶段平衡效率与精度核心问题反馈网络在测试时可展开多次迭代,需确定最佳迭代次数。早停策略通过验证集监控,当性能趋于饱和时停止迭代,防止过拟合和增加延迟。梯度流与共享权重反馈结构训练的工程细节梯度计算共享权重在反向传播时需展开计算图并按迭代次数累加梯度,易出现梯度爆炸。稳定技巧必须配合梯度裁剪和层归一化使用,以保证训练稳定。07前沿与总结注意力与反馈融合趋势互补优势,联合优化互补优势注意力提供动态权重,反馈引入迭代修正,二者结合可提升模型表达与鲁棒性。未来方向自适应迭代次数、可解释热力图反向监督、跨模态反馈等。课程回顾与展望从动态权重到双向信息流演进脉络从软对齐、自注意力到反馈迭代,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年智能关节活动监测仪项目可行性研究报告
- 牧原集团培训课件
- 2025年山东省枣庄市中考历史真题卷含答案解析
- 2025年电影城年度工作总结例文
- 农村电力网升级改造工程危险点、薄弱环节分析预测及预防措施
- 2025年工程测量员(三级)测绘工程安全文明施工考试试卷及答案
- 林场采伐作业实施方案
- 2025安全培训试题及答案
- 2025年企业挂职锻炼年度工作总结范例(二篇)
- 建设工程施工合同纠纷要素式起诉状模板告别反复修改
- 上腔静脉综合征患者的护理专家讲座
- 免责协议告知函
- 部编版八年级上册语文《期末考试卷》及答案
- 医院信访维稳工作计划表格
- 蕉岭县幅地质图说明书
- 地下车库建筑结构设计土木工程毕业设计
- (完整word版)人教版初中语文必背古诗词(完整版)
- GB/T 2261.4-2003个人基本信息分类与代码第4部分:从业状况(个人身份)代码
- GB/T 16601.1-2017激光器和激光相关设备激光损伤阈值测试方法第1部分:定义和总则
- PDM结构设计操作指南v1
- 投资学-课件(全)
评论
0/150
提交评论