大数据采集与预处理技术(微课版)课件 6.2图书信息数据标注-label studio_第1页
大数据采集与预处理技术(微课版)课件 6.2图书信息数据标注-label studio_第2页
大数据采集与预处理技术(微课版)课件 6.2图书信息数据标注-label studio_第3页
大数据采集与预处理技术(微课版)课件 6.2图书信息数据标注-label studio_第4页
大数据采集与预处理技术(微课版)课件 6.2图书信息数据标注-label studio_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据采集及预处理技术*

*图书信息数据标注序号软件配置要求1Doccano/2LabelStudio/一、项目目标:1、完成文本标注工具的下载安装,掌握其使用方法。2、完成图书信息数据命名实体标注、语法标注、词性标注,熟悉其标注后的数据格式。3、掌握Doccano和LabelStudio的使用方法,并完成数据标注。二、环境要求:任务一图书信息数据标注一、任务目标1、了解常见的文本标注工具和标注理论;2、掌握常见的文本标注工具使用如Doccano、LabelStudio;二、操作任务1、使用LabelStudio完成文本的标注。2、导出标注的数据,并查看其基本格式。1、

LabelStudio标注工具LabelStudio是一个开源的多功能标注工具,广泛应用于各类数据标注任务,如文本、图像、音频、视频等。它提供了灵活且易用的界面,支持多种数据类型的标注,非常适合用于训练机器学习模型的数据集标注。LabelStudio支持多种标注任务,包括但不限于文本分类、命名实体识别(NER)、序列标注、图像标注、音频标注、视频标注。1)安装:pipinstalllabel-studio启动命令:label-studiostart启动完成后访问链接http://localhost:8080即可打开首页,自行创建账号(点击“Signup”)并登录,如下图所示:2)创建项目①项目设置。LabelStudio刚启动时,项目列表是空的,需要创建一个项目用于标注任务,点击“CreateProject”输入项目名称,然后保存即可。②模板设置。点击“LabelingSetup”,选择“NaturalLanguageProcessing”自然语言处理,选择标注模板,比如“NamedEntityRecognition”命名实体识别。2)创建项目删除自带的标签,创建自己需要的标签,在“Labels”出点击标签右侧的“×”可以删除标签,在左侧“Addlabelnames”处可以添加标签,可以添加“人名”、“地名”、“日期”、“书名”。设置好标签后点击save完成项目创建。③数据导入。创建项目后,在项目项目右上方点击“Import”导入要标注的txt数据,跳转到文件选择页面,选择文件上传,然后选择页面右上方“Import”按钮,跳出“TreatCSV/TSVas”选择窗口,选择“Listoftasks”。④数据标注。点击LabelAllTasks按钮开始标注工作,选择标签后,在文本上面的划选,标记完成后,记得点击Submit(也可以按快捷键Ctrl+回车)。然后再进行下一段文字标注,直到所有的文字完成标注。⑤数据导出。标注完数据后,在项目页右上方选择“Export”导出标注好的数据,弹出导出数据类型选择,可以选择需要的格式,然后点击“Export”按钮,数据就完成导出。查看导出的标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论