版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自然语言处理预训练模型数据准备自然语言处理模型应用课堂导入你知道自然语言处理的主要研究方向是什么吗?文本分类文本生成信息抽取文本挖掘语音识别语音合成问答系统舆情分析机器翻译项目目标(1)了解常用的自然语言处理的数据集及格式。(2)掌握文本分类数据处理方法。(3)掌握文本分类数据集加载的方法。项目描述自然语言处理是研究计算机处理人类语言的一门技术,是指让机器人理解并解释人类表达、说话方式的能力,主要研究方向包括:信息抽取、文本生成、问答系统、对话系统、文本挖掘、语音识别、语音合成、舆情分析、机器翻译等。在机器学习中,最为基础的一项工作就是数据准备。如何将大量的数据通过处理缺失数据、处理重复数据和处理异常数据等操作,得到数据处理和机器学习所需的有效数据是一项非常重要的工作。自然语言处理的数据集及格式自然语言处理的数据集通常有文本类、语音类和图像类,其中文本类的数据集格式主要为txt纯文本格式、Json格式以及表格形式等,接下来将对部分数据集及其格式进行解释说明。DuEE数据集BSTC数据集weibo_senti_100k数据集八类情感分类数据集自然语言处理的数据集及格式DuEE是用于事件提取的大规模通用中文数据集。它由17000个句子组成,其中包含20000个事件,共65个事件类型和相应的人工注释参数。根据百度的热门搜索板选择和确定事件类型。65个事件类型不仅包括传统事件提取评估中的常见事件类型,例如“婚姻,辞职和地震”,还包括具有鲜明的时间特征的事件类型。数据集包含约17000个句子,其中包括约12000个句子在训练集中,1500个在验证集中和3500个在测试集中。DuEE数据集中采用Json格式表示,示例数据格式如图:1DuEE数据集自然语言处理的数据集及格式BSTC(BaiduSpeechTranslationCorpus,百度语音翻译语料库)是用于自动同声传译的大规模数据集。BSTC1.0版包含50个小时的真实演讲,包括三个部分,音频文件,描述文件和补充文件。语料库可用于构建自动同声传译系统。语料库是从中国普通话的谈话和报道中收集的,包括科学,技术,文化,经济等。BSTC数据集中的描述文件采用Json格式表示,示例数据格式如下:2BSTC数据集自然语言处理的数据集及格式2BSTC数据集自然语言处理的数据集及格式另外补充文件包括talks.txt和speakers.txt,两个文件都采用txt格式表示,示例数据格式表示如下:talks.txt2BSTC数据集speakers.txt自然语言处理的数据集及格式weibo_senti_100k数据集的数据来源于新浪微博的各种评论,共10万多条数据。数据格式为:微博内容”review“,带情感标注”label“,1表示正向评论,0表示负向评论,正负向评论各5万条数据。weibo_senti_100k数据集采用表格格式表示,示例数据格式如下:3weibo_senti_100k数据集labelreview620500太过分了@Rexzhenghao//@Janie_Zhang:最近负面新闻越来越多呀...682630希望你?得好?我本"??史"[晕][哈哈]@Pete三姑父420211[给力]感谢所有支持的芝麻![爱你]777712013最后一天,在新加坡开心度过,向所有的朋友们问声:新年快乐!2014年,我们会更好[调...1003990大中午出门办事找错路,曝晒中。要多杯具有多杯具。[泪][泪][汗]247981[抱抱]
吉祥书8.8折优惠>>>自然语言处理的数据集及格式八类情感分类数据集的数据来源主要是微博上的一些评论内容,共26462条数据。数据集文件存放在实训平台”data“目录下,文件名为”moods_classify8_unprocessed.xlsx“,包含缺失值、重复值和异常值。数据标签如表格所示:4八类情感分类数据集labelsplit0.0none1.0like2.0disgust3.0happiness4.0sadness5.0anger6.0surprise7.0fear自然语言处理的数据集及格式情感分类数据集目录在本次情感分类数据准备中,实训平台的“data”目录下只存放了“moods_classify8_unprocessed.xlsx”数据集文件,为了使数据能够输入到模型当中,需要将数据集目录生成为以下格式,目录中包含训练集数据文件train.txt和测试集数据文件test.txt,测试数据集用于测试和验证。但在实际项目中,可以根据具体需求,额外再生成验证集数据文件用于验证。4八类情感分类数据集自然语言处理的数据集及格式情感分类数据集文件格式和内容生成的训练集、验证集和测试集的数据文件的编码格式建议为utf-8格式。内容的第一列是文本类别标签,第二列为文本内容,列与列之间以Tab键分隔。建议在数据集文件第一行填写列说明"label"和"text",中间以Tab键分隔,示例如下:4八类情感分类数据集PaddleHub介绍
PaddleHub是一个深度学习模型开发工具。它提供了可供百亿级大数据训练的预训练模型,利用它可简化模型训练和使用的流程。在PaddleHub中可以便捷地获取这些预训练模型,完成模型的管理和一键预测。
通过PaddleHub,开发者可以便捷地获取PaddlePaddle生态下的所有预训练模型,包括文本分类模型、词法分析模型、语义模型、情感分析模型、语言模型、图像分类模型、目标检测模型和视频分类模型等。
PaddleHub介绍
本项目将使用PaddleHub对数据集和模型进行加载,并将数据集和模型用于后续的模型训练和部署,通过以下命令安装PaddleHub。
PaddleHub安装完成后就可以通过调用PaddleHub集成的各种函数对数据集和模型进行加载。pipinstallpaddlehub
文本分类数据处理方法
本项目所使用的8类情感分类数据集中,存在许多缺失数据、重复数据以及异常数据。接下来介绍使用以下相关函数对这些数据进行查找和处理,以便后续进行文本数据加载和模型训练。
用于进行文本数据查找和处理的相关函数如下。isnull():查找是否存在缺失数据。drop():删除数据。fillna():填充缺失数据。duplicated():查找重复数据。drop_duplicates():删除重复数据。
查找异常数据的常用方法是使用箱线图,然后将查找到的异常数据删除。文本分类数据集加载方法加载自定义数据集的流程文本分类数据集加载方法
在文本分类数据集的加载过程中,首先需要定义数据目录、数据模式以及标签列表,然后根据指定的数据模式读取相应的数据文件,接着对读取到的文本数据进行文本分词和判断是否包含头部,再根据输入文本的长度对文本数据进行填充和截断等数据处理操作,使文本数据转化为模型可接收的数据形式。文本分词数据填充和截断0102文本分类数据集加载方法数据填充和截断的示例数据集加载
自定义数据集类需要继承基类TextClassificationDataset,具体需要进行以下设置。base_path:定义存放数据集的根目录,用于后续读取目录下的数据文件。label_list:定义标签列表,列表中的标签与数据文本中的标签一致。tokenizer:定义模型文本分词器,其表示将对输入文本完成分词,将原始输入文本转化成模型可以接收的输入数据形式。数据集加载max_seq_len:定义模型使用的最大序列长度,即每条数据的最大长度,若出现显存不足的问题,则可适当调低这一参数。mode:定义数据模式,可选项有train、test和val,默认值为train,即表示选择训练集数据。data_file:定义读取指定模式的数据文件,根据所选择的数据模式读取对应的数据文件。is_file_with_header:定义是否包含头部,设置为True表示数据文件中包含头部信息如“label”和“text_a”,若设置为False则表示数据文件中不包含头部信息。处理、拆分和加载情感分类数据集实施思路导入项目所需库查看数据集处理数据集拆分数据集加载数据集知识拓展
百度阅读理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年及未来5年市场数据中国超声水表行业市场全景分析及投资战略规划报告
- 2025 高中信息技术数据与计算之数据在智能医疗药物疗效评估数据挖掘中的应用课件
- 2026年语料库版权授权机制设计方案
- 2026年无人机物流气象安全保障:6分钟预报与6级风停飞标准
- 2026年零碳工厂验收评估碳核算边界与方法规范
- 2026年央企产业焕新未来产业启航行动新能源人工智能量子信息布局
- 2026年冰雪装备国产化突破:从代工到品牌出海的转型路径
- 2026年航空发动机热端部件冷却孔超快激光加工工艺
- 2026年聚合物自润滑轴承干摩擦及润滑状态下磨损试验方法
- 2026年数据资产价值波动对收益分配影响与动态重估机制
- 2026年安徽财贸职业学院单招职业技能测试题库附答案详解
- 2025小红书医美行业精准获客与营销增长白皮书
- 介绍嘻哈饶舌说唱
- GB 46750-2025民用无人驾驶航空器系统运行识别规范
- 焊工考试题库及焊工证模拟考试100题含答案
- 2025江西华赣航空产业投资集团有限公司招聘工作人员16人笔试历年典型考点题库附带答案详解试卷3套
- 2025广西投资集团有限公司招聘4人笔试历年备考题库附带答案详解试卷3套
- 祖国不会忘记二声部合唱简谱
- 血管内导管相关性血流感染预防与诊治指南2025
- 2025年中级会计财务管理真题及答案
- 农行笔试真题全套及答案
评论
0/150
提交评论