版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章循环神经网络高等学校自然语言处理课程教材CONTENTS目录4.14.24.34.4循环神经网络概述RNN模型基于门控的RNN实验:基于THUCNews新闻标题据数集的文本分类任务本章学习目标第4章循环神经网络了解RNN的基本概念,以及简单RNN的发展过程;了解RNN的三种模式,以及这些模式的应用场景;了解基于门控的RNN,主要学习LSTM和GRU;掌握利用PyTorch开发环境搭建基于LSTM模型和GRU模型的网络,并编程实现简单的文本生成任务;熟练掌握采用RNN的方法解决NLP各类问题的具体流程和注意事项。4.1循环神经网络概述循环神经网络(RecurrentNeuralNetwork,RNN)是一种具有短期记忆能力的网络,开始于20世纪80-90年代,在本世纪初发展为深度学习算法之一。与前馈神经网络相比,RNN更加符合生物神经网络的结构,已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。图4-1RNN单元结构第4章循环神经网络第4章循环神经网络高等学校自然语言处理课程教材CONTENTS目录4.14.24.34.4循环神经网络概述
RNN模型基于门控的RNN实验:基于THUCNews新闻标题据数集的文本分类任务4.2RNN模型SRN又称为Elmannetwork,是由JeffElman在1990年提出来的,是在Jordannetwork(1986)的基础上进行了创新,简化了Jordannetwork的结构,Jordannetwork网络只有一个隐藏层。在一个两层的前馈神经网络中,只有相邻的层与层之间存在连接,隐藏层的节点之间无连接。ElmanNetwork是在JordanNetwork的基础上增加了从隐藏层到隐藏层的反馈连接。4.2.1简单循环神经网络(SRN)图4-2ElmanNetwork网络结构图4-3JordanNetwork网络结构第4章循环神经网络4.2RNN模型RNN应用范围较广,很多不同类型的机器学习任务都可以通过RNN进行实现。随着深度学习技术的不断发展,人们按照不同任务的特点,将RNN划分为以下几种模式:序列到类别模式、同步的序列到序列模式、异步的序列到序列模式。4.2.2RNN的三种模式第4章循环神经网络4.2RNN模型1、序列到类别模式4.2.2RNN的三种模式
图4-5序列到类别模式第4章循环神经网络4.2RNN模型2、同步的序列到序列模式4.2.2RNN的三种模式
图4-7同步的序列到序列模式第4章循环神经网络4.2RNN模型3、异步的序列到序列模式4.2.2RNN的三种模式
图4-9异步的序列到序列模式第4章循环神经网络第4章循环神经网络高等学校自然语言处理课程教材CONTENTS目录4.14.24.34.4循环神经网络概述RNN模型基于门控的RNN实验:基于THUCNews新闻标题据数集的文本分类任务4.3基于门控的RNN门控机制为了改善RNN的长程依赖问题,人们进行了相关研究。主要有两种方法:(1)选取合适的参数,同时使用非饱和的激活函数,这类方法主要依赖于人工调参,限制了模型的广泛应用。(2)改进模型或者优化方法来缓解循环网络的梯度消失和梯度爆炸问题。门控机制:在数字电路中,门(gate)定义为一个二值变量{0,1},“0”
代表关闭状态,即不允许信息通过,“1”
代表开放状态,允许所有信息通过。门控机制可以有选择地保留和丢弃一些信息,这使得门控RNN可以学习跨度相对较长的依赖关系,同时有效避免梯度消失和梯度爆炸问题。典型的门控RNN:LSTM和GRU。第4章循环神经网络4.3基于门控的RNN4.3.1LSTM
第4章循环神经网络
4.3基于门控的RNN4.3.1LSTM第4章循环神经网络图4-11LSTM的循环单元结构4.3基于门控的RNN第一种改进:无遗忘门的LSTM。LSTM最初被提出时,没有引入遗忘门的概念,则其内部状态的更新为:4.3.2LSTM的各种变体
第4章循环神经网络第二种改进:peephole连接。基于“门”的第二种改进是:在遗忘门,输入门,输出门这3个门的计算过程中加入了对上一个时刻记忆单元c_(t-1)的依赖。即:
4.3基于门控的RNN
4.3.2LSTM的各种变体第4章循环神经网络
4.3基于门控的RNNBiLSTM是由前向LSTM与后向LSTM组合而成,输出状态由这两个LSTM的状态共同决定,图4-13为BiLSTM在情感分类任务中的应用。4.3.3双向长短期记忆网络BiLSTM第4章循环神经网络图4-13BiLSTM在情感分类任务中的应用4.3基于门控的RNN相比于LSTM,GRU有两处修改:(1)它将内部单元状态和外部隐藏状态连接成为单个状态,称为重置门。重置门有助于捕获序列中的短期依赖关系;(2)它将输入门和遗忘门组合成一个更新门,更新门有助于捕获序列中的长期依赖关系。4.3.4门控循环单元GRU第4章循环神经网络图4-14GRU的循环单元结构4.3基于门控的RNNGRU引入门控机制来控制信息更新的方式。和LSTM不同,GRU不引入额外的记忆单元,GRU引入一个更新门(updategate)来控制当前状态需要从历史状态中保留多少信息(不经过非线性变换),以及需要从候选状态中接受多少新信息,即:4.3.4门控循环单元GRU第4章循环神经网络
4.3基于门控的RNN
4.3.4门控循环单元GRU第4章循环神经网络
综上,GRU的状态更新方式为:
第4章循环神经网络高等学校自然语言处理课程教材CONTENTS目录4.14.24.34.4循环神经网络概述RNN模型基于门控的RNN实验:基于THUCNews新闻标题据数集的文本分类任务4.4实验:基于THUCNews新闻标题据数集的文本分类第4章循环神经网络本案例采用基于序列到类别的模式对THUCNews新闻标题数据集通过LSTM模型进行分类,结果即为每一条数据预测的类别。数据来源及格式本案例使用的数据为《THUCNews新闻标题数据集》,每一条文本长度在20到30个字之间,一共10个类别,分别是财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐;每类2万条,共20万条。万科退赛恒大16.6亿抢下深圳建设集团 2华中科技大学2010年考研成绩查询开通 3多家网站关闭车票转让信息 4统计报告称埃及人口达7522万家庭总数1790万 6上海2010上半年四六级考试报名4月8日前完成 3习题1.分析CNN和RNN的异同点。2.简述梯度消失和梯度爆炸的原因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区规划免疫工作制度
- 电销上班期间工作制度
- 纪委信息发布工作制度
- 纪委监委督办工作制度
- 法院日常通报工作制度
- 社区教育服务工作制度
- 禁毒社区康复工作制度
- 法院督察督办工作制度
- 查验监督岗工作制度
- 河南学生资助工作制度
- 立春二声部合唱谱
- 初中地理新课标测试题及答案
- 浙江强基联盟2026年3月高三语文联考作文题目解析及范文:有的时候人们主动选择预制
- 提高肿瘤治疗前TNM分期评估率
- 2026年工会干部业务知识培训考试题库及答案
- 2026 年中小学深入实施学生体质强健计划心得体会三
- 荨麻疹的定义、分类、诊断及管理国际指南(2026)解读课件
- DB61∕T 5132-2025 西安城市轨道交通工程监测技术标准
- 2026湖北恩施州战略规划研究中心选聘1人备考题库含答案详解
- 高速公路机电工程监理实施细则
- 2026年心理咨询师考试题库300道【含答案】
评论
0/150
提交评论