深度学习技术应用课件:古诗文本数据预处理_第1页
深度学习技术应用课件:古诗文本数据预处理_第2页
深度学习技术应用课件:古诗文本数据预处理_第3页
深度学习技术应用课件:古诗文本数据预处理_第4页
深度学习技术应用课件:古诗文本数据预处理_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

五言绝句古诗词生成深度学习应用技术项目引导案例

古诗词的生成,这是自然语言处理里面最有意思的任务之一——自然语言生成(NLG),是让计算机具有与人一样的表达和写作能力的技术,即可根据一些关键信息及其在机器内部的表达形式,经过规划自动生成一段高质量的自然语言文本。

项目引导案例古诗文本数据预处理01模型搭建与训练02搜索一下

“小度”、“小冰”、“乐府”、“薇薇”等机器诗人做的诗词,你能发现与真人作诗的差异吗?项目引导案例古诗文本数据预处理职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

古诗文本数据预处理了解自然语言处理的概念了解自然语言生成的难点和思路了解文本数据预处理、文本过滤的方法能够正确使用python过滤无效文本内容能够正确使用python统计文本能够使用numpy保存文本数据处理后的结果职业能力目标01知识目标技能目标职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

古诗文本数据预处理

对古诗文本数据进行数据预处理,过滤不符合要求的数据,提取五言绝句诗句,并建立有效的数据利用体系。任务描述任务要求过滤古诗词文本数据的无效内容;完成五言绝句诗句主体的处理;使用统计方法分析文本数据;过滤低频字符,并建立有效的数据利用体系。任务描述与要求02职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

古诗文本数据预处理任务分析常见的文本数据处理的方法有哪些?如何统计文字出现的次数?任务分析与计划03任务计划表通过上面的思考,你是否对本任务要完成的工作有所了解?让我们一起来制订完成本次任务的实施计划吧!任务分析与计划03项目名称五言绝句古诗词生成任务名称古诗文本数据预处理计划方式自主设计计划要求请用8个计划步骤来完整描述出如何完成本次任务序号任务计划1

2

3

4

5

6

7

8职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

古诗文本数据预处理自然语言生成的基本思路204知识储备自然语言介绍1文本数据处理3自然语言处理04

自然语言处理(NaturalLanguageProcessing,NLP)是人工智能和语言学领域的分支学科。此领域以语言为对象,利用计算机技术来分析、理解和处理自然语言,并提供可供人与计算机之间能共同使用的语言描写。自然语言处理主要应用04语音识别文字识别知识图谱机器翻译舆情监测智能回答04NLP、NLU与NLG之间关系自然语言处理(NLP)主要包括自然语言理解(NLU)与自然语言生成(NLU)两部分。04自然语言理解自然语言理解(NaturalLanguageUnderstanding,NLU)就是希望机器能够像人一样,具备正常人的语言理解能力。自然语言的关键技能是意图识别和实体提取。语义的多样性01词、短语、句子、段落…不同的组合可以表达出很多的含义。语言的歧义性02联系环境、上下文,语言会有很大的歧义性。语言的鲁棒性03通过语音识别获得的文本,会存在多字、少字、错字、噪音等问题。语言的知识依赖04语言是对世界的符号化描述。如“7天”,可以表示时间,也可以表示酒店名。自然语言理解难点自然语言生成(NeuralLanguageGeneration,NLG)是自然语言处理的重要组成部分,主要目的是降低人类和机器之间的沟通鸿沟,根据一些关键信息及其在机器内部的表达形式,将非语言格式的数据转换成人类可以理解的语言格式。04自然语言生成自然语言生成系统须要决定如何把机器表述语言转化成人类的语言自然语言生成自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言自然语言理解04自然语言处理研究的难点单词的边界界定01在口语中,词与词之间通常是连贯的。在书写上,汉语也没有词与词之间的边界。词义的消歧02许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。有瑕疵的或不规范的输入04例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。语言行为与计划05句子常常并不只是字面上的意思。例如,“你能把盐递过来吗?”一个好的回答应当是动手把盐递过去。句法的模糊性03自然语言的文法通常是模棱两可的,我们必须要仰赖语义及前后文的信息才能在其中选择一棵最为适合的剖析树。自然语言生成的基本思路204知识储备自然语言介绍1文本数据处理3204自然语言生成的步骤本实验将注意力集中在文本生成上,根据输入(比如部分诗句)预测后续的诗句,来实现藏头诗,古诗自动补全等功能。传统上,将输入数据转换为输出文本的自然语言生成问题,通过将其分解为多个子问题来解决。04自然语言生成的六个步骤决定在建文本中包含哪些信息内容确定确定将在文本中显示的信息文本结构决定在单个句子中呈现哪些信息。此部分将会通过神经网络模型训练的方式预测诗句的文字组合句子聚合找到正确的单词和短语来表达信息语法化选择单词和短语以识别域对象参考表达式生成将所有单词和短语组合成格式良好的句子语言实现04完成本实验的基本思路内容确定文本结构句子聚合语法化参考表达式生成语言实现删除错误符号、生僻字删除非五言绝句格式统计方法+循环神经网络自然语言生成的基本思路204知识储备自然语言介绍1文本数据处理3204文本数据的基本体征提取04停用词数量01词汇数量02字符数量05特殊字符数量06数字数量03平均字长04文本数据的基本预处理04去除稀疏词01去除标点符号02去除停用词05拼写校正06分词03去除频现词04文本数据的常用python函数split()解释:通过指定分隔符对字符串进行切片,如果参数num有指定值,则分隔num+1个子字符串replace()解释:把字符串中的old(旧字符串)替换成new(新字符串),如果指定第三个参数max,则替换不超过max次。join()解释:用于将序列中的元素以指定的字符连接生成一个新的字符串。职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

古诗文本数据预处理05任务实施21成果保存3诗句主题处理无效内容过滤05本次实验使用的古诗数据集来源于网络,搜集了43030条古诗词数据保存于根目录下的data文件夹内,内容包含五言绝句、七言绝句、诗歌词赋等,原始数据包含古诗题目,作者,注释,诗句本体等内容。1、数据集介绍环境、数据准备05涉及代码函数介绍2、生成规整的五言绝句图像数据处理str.split(str,num):通过指定分隔符对字符串进行切片,如果参数num有指定值,则分隔num+1个子字符串,返回分割后的字符串列表。list.append(obj):用于在列表末尾添加新的对象str.replace(old,new[,max]):把字符串中的old(旧字符串)替换成new(新字符串),如果指定第三个参数max,则替换不超过max次。str.find(str,beg=0,end=len(string)):检测字符串中是否包含子字符串str,如果指定beg(开始)和end(结束)范围,则检查是否包含在指定范围内,如果包含子字符串返回开始的索引值,否则返回-1。053、删除带有无法识别符号的无效诗句生僻字被使用符号“”代替。此部分的无效诗句也需要进行过滤。图像数据处理append()函数:用于在列表末尾添加新的对象。语法:list.append(obj)其中:list:列表对象;obj:添加到列表末尾的对象。注意:append()函数无返回值,但是会修改原本的列表。05任务实施21成果保存3诗句主题处理

无效内容过滤051、统计文字出现次数涉及代码函数介绍训练集和测试集划分list(seq):用于将元组或字符串转换为列表。sorted(iterable,cmp=None,key=None,reverse=False):对所有可迭代对象进行排序操作。str.join(sequence):此方法用于将序列中的元素以指定的字符连接生成一个新的字符串。052、过滤低频文字由于低频文字得不到有效训练,因此需要过滤低频文字,并删除低频字所在的诗句。训练集和测试集划分delname[index]:del是Python中的关键字,专门用来执行删除操作,用来删除字典、列表的元素。name:表示列表或字典名称。index:表示元素的索引值。053、建立双向转换表涉及代码函数介绍训练集和测试集划分zip([iterable,...]):用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同。sorted(iterable,cmp=None,key=None,reverse=False):对所有可迭代的对象进行排序操作。05任务实施21成果保存3诗句主题处理

无效内容过滤051、打印处理结果打印诗的总数量等结果训练集和测试集划分word2num文字转id对应表num2wordid转文字对应表words文字列表files_content处理后的文字内容集合poems五言绝句古诗列表poems_num五言绝句的古诗数量052、保存成果使用numpy的保存函数,以“.npy”格式将数组保存到二进制文件中。训练集和测试集划分np.save(file,arr,allow_pickle=True,fix_imports=True)file要保存的文件名称,需指定文件保存路径,如果未设置,保存到默认路径。其文件拓展名为.npyarr为需要保存的数组,也即把数组arr保存至名称为file的文件中。职业能力目标01任务描述与要求02任务分析与计划03知识储备04任务实施05任务检查与评价06任务小结07任务拓展08

古诗文本数据预处理任务检查与评价061、请参照评价标准完成自评和对其他小组的互评。2、各组请代表分析本组任务实施经验。项目名称五言绝句古诗词生成任务名称古诗文本数据预处理评价方式可采用自评、互评、老师评价等方式说明主要评价学生在项目学习过程中的操作技能、理论知识、学习态度、课堂表现、学习能力等

评价内容与评价标准序号评价内容评价标准分值得分1理论知识(20%)了解自然语言处理基本知识和概念、研究的难点,自然语言生成的基本思路,和古诗词文本数据的处理方法。(20分)20分

2专业技能(40%)过滤无效内容(15%)正确的探索数据集(5分)15分

正确的规整输出文本(5分)正确的删除无效内容(5分)3提取主题内容(15%)正确的统计文字出现次数(5分)15分

正确的过滤低频文字(5分)正确的建立字符与数字双向转换表(5分)4模型数据预处理(10%)正确的检查预处理后的结果(5分)10分

正确的保存预处理后的结果(5分)5核心素养(20%)具有良好的自主学习能力、分析解决问题的能力、整个任务过程中有指导他人(20分)20分

具有较好的学习能力和分析解决问题的能力,任务过程中无指导他人(15分)能够主动学习并收集信息,有请教他人进行解决问题的能力(10分)不主动学习(0分)6课堂纪律(20%)设备无损坏、设备摆放整齐、工位区域内保持整洁、无干扰课堂秩序(20分)20分

设备无损坏、无干扰课堂秩序(15分)无干扰课堂秩序(10分)干扰课堂秩序(0分)总得分职业能力目标01任务描述与要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论