




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于深度学习的文本自动生成主讲人信息工程学院高政霞老师《实战深度学习—原理、框架和应用》前言未来有一天可能计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本生成可包括文本到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等。文本自动生成是自然语言处理领域的一个重要研究方向,实现文本自动生成也是人工智能走向成熟的一个重要标志。文本自动生成技术极具前景。例如,可以应用于智能问答与对话等系统,实现更加智能和自然的人机交互;在自然语言处理与人工智能领域均有相当多的前沿研究,近几年已产生若干具国际影响力的成果与应用。例如,美联社自2014年7月开始已采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了记者的工作量。在本章中主要讲解文本到文本的生成。文本到文本的生成技术主要是指对给定文本进行变换和处理从而获得新文本的技术,具体来说包括文本摘要(DocumentSummarization)、句子压缩(SentenceCompression)、句子融合(SentenceFusion)、文本复述(ParaphraseGeneration)等。第一章第二章第三章第四章训练文本数据采集LSTM五言律诗自动生成设计测试LSTM模型本章总结01训练文本数据采集五言律诗的生成采用的是文本到文本的文本复述技术,即通过输入的文本生成新的文本,在输出的表达上各有不同,但是其结构基本相同。因此,五言律诗的自动生成输入的训练数据集也是五言律诗,由于五言律诗属于文学作品,在图书馆类型网站也可找到,比如360的个人图书馆()、短美文网()等。当然,把训练数据集换成小说也是可以的,小说的数据源可以在GitHub(/JinpengLI/chinese_text_dataset)网站下载。01训练文本数据采集
训练文本数据源下载的文本数据包含了诗歌名和作者名,这部分不是训练数据集想要的部分。所以就要对下载后的数据集做处理。观察已有数据后可发现诗歌名和作者均在同一行,只要找到那一行就可对数据集进行简单清理运行以上代码可得。下载好文本数据后会发现内容类似如下:01训练文本数据采集
训练文本数据整理12302LSTM五言律诗自动生成设计在进行长短期记忆网络五言律诗自动生成:
首先需获取足够的训练五言律诗数据集。训练的五言律诗数据集越大,五言律诗自动生成的多样性越多然后对五言律诗数据集规范化,规范化就是确保训练数据集只包含有五言律诗,每一句均是五言律诗
在获取到足够的训练五言律诗数据后,开始搭建长短期记忆网络,使用的是Keras函数库搭建长短期记
忆网络模型。长短期记忆网络包含了输入层、LSTM层、全连接层和输出层。
确定好层数后,进一步确定输出维度是多少,输出张量是属于3D还是2D,以及激活函数是ReLu函数还是Tanh函数。每层之间的Dropout正则化参数是多少,以及全连接层的激活函数是什么。02LSTM五言律诗自动生成设计
基于深度学习的诗歌自动生成,是使用Python实现神经网络搭建和文本数据预处理等过程,再使用Keras接口调用Theano或Tensorflow后端进行训练。文本预处理就是统计文本训练数据的长度、训练数据的字库及长度、创建唯一字符到整数的映射和反向映射02LSTM五言律诗自动生成设计
文本预处理五言律诗文本数据的标准化包括数据采集后的诗歌名删除、作者名删除和多余的标点符号进行删除。理论上来讲,最后的数据集只包含了五言律诗,诗歌的标点符号只包含有“,”、“;”和“。”。同时文本数据放入输入层之前也要进行数据的标准化,下方代码的x和y就是经过标准化的数据。02LSTM五言律诗自动生成设计
文本数据标准化长短期记忆网络的搭建使用的是Keras函数库进行搭建,在Theano后端运行。使用Keras搭建长短期记忆网络需要导入Keras相关的函数模块,包括keras.layers模块里的Dense、LSTM、Dropout模块,还包括keras.models里的Sequential、load_model模块和keras.utils的to_categorical、np_utils模块。02LSTM五言律诗自动生成设计
LSTM模型搭建完整的网络模型搭建如下首先,先使用Sequential函数定义模型的创建是自上而下的,然后再逐层的搭建。LSTM层里的input_dim表示的是输出维度,input_shape表示的是输入,值得注意的是仅仅第一层需要输入,其他层的输入来源于上一层的输出,Dropout正则化是Keras减少过拟合的一个重要函数,也是最简单的神经网络正则化方法。Dropout能够模拟具有大量不同网络结构的神经网络,并且反过来使网络中的节点更具有鲁棒性训练模型的目的是为了使得模型可以自动生成诗歌,直接读取数据,并把输入数据标准化后放入模型中训练,然后把训练结果保存在.hdf5文件中。fit函数中的batch_size为每次训练的样本数,epochs为训练轮数。02LSTM五言律诗自动生成设计
训练LSTM模型03测试LSTM模型用深度学习生成序列数据的通用方法就是使用前面的标记作为输入,训练一个循环网络或卷积网络来预测序列中接下来的一个或多个标记。图10-1使用语言模型生成文本的过程03测试LSTM模型
生成序列数据通常文本生成的基本策略是借助语言模型,这是一种基于概率的模型,可根据输入数据预测下一个最有可能出现的词,而文本作为一种序列数据(sequencedata),词与词之间存在上下文关系,所以使用循环神经网络(RNN)基本上是标配在训练完一个语言模型后,可输入一段初始文本,让模型生成一个词,把这个词加入到输入文本中,再预测下一个。过程如图10-1所示。生成文本时,如何选择下一个字符至关重要。一种简单的方法就是贪婪采样(greedysampling),就是始终选择可能性最大的下一个字符。但这种方法会得到重复的字符串,看起来不像连贯的语言。还有一种就是随机采样,在采样过程中引入随机性,即从下一个字符的概率分布中进行采样。从模型的softmax输出中进行概率采样是一种特别巧妙的方法,甚至可以在某些时候采样到不常见的字符,从而生成看起来更有趣的句子。但这种方法有一个问题,就是采样过程中的随机性无法控制。03测试LSTM模型
定义采样方法为了采样过程中随机性可控,引入一个叫softmax温度(softmaxtemprature)的参数,用于表示采样概率分布的熵,即表示所选择的下一个字符会有多么的出人意料。给定一个temperature值对原始概率分布(即模型的softmax输出)进行重新加权,计算得到一个新的概率分布。右侧代码表示当t等于None时才是贪婪采样,其他的1、1.5、2均是温度。03测试LSTM模型
定义采样方法接下来将对模型进行测试,从四个方面进行测试,分别是贪婪采样、温度为1的随机采样、温度为1.5的随机采样和温度为2的随机采样。知道采样方法后,即可开始对模型进行测试:03测试LSTM模型
定义采样方法输出结果如图10-2和图10-3所示。图10-2无输入标题生成五言律诗图10-3按输入标题生成五言律诗以上采用是的长短期记忆网络搭建的模型,在前文提到,卷积神经网络也可实现文本的自动生成,以下给出简单的CNN模型搭建,只要用以下代码替换LSTM模型部分的代码即可03测试LSTM模型
定义采样方法04本章总结04本章小结
在本章基于深度学习的文本自动生成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考作文中的责任与担当试题及答案
- 资本市场的风险与机遇试题及答案
- 材料疲劳裂纹扩展控制策略重点基础知识点
- 材料疲劳寿命预测模型原理重点基础知识点
- 公共体育场火灾应急预案(3篇)
- 公司火灾-爆炸应急预案(3篇)
- 血液透析火灾的应急预案(3篇)
- 信息处理技术员考试准备技巧试题及答案
- 行政管理学科发展的新思路与新途径试题及答案
- 行政法学练习题及专家解析试题及答案
- 中职《信息技术》教学课件任务1了解信息安全常识
- 中国脑卒中康复治疗指南课件
- 2022年全国外贸跟单员岗位专业考试外贸跟单基础理论试卷A卷(含英语)
- AI时代的挑战与机遇2024年人工智能的应用与发展
- 人教版六年级上册数学第五、六单元测试题(含答案)
- 高中化学优质课说课 海水资源的开发利用
- 企业录用通知书offer模板
- 责任书-景区安全生产责任书
- QB∕T 3826-1999 轻工产品金属镀层和化学处理层的耐腐蚀试验方法 中性盐雾试验(NSS)法
- 田径运动会竞赛团体总分记录表
- 药物临床试验质量管理规范(GCP)课件
评论
0/150
提交评论