版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能数据服务第五章文本数据标注5.1文本数据标注概念5.2文本数据标注分类5.3文本数据标注的工具5.4实战:文本标注5.5小结5.6习题5.7课后拓展2目录
目录5.1文本数据标注概念
5.1文本数据标注概念章节引言
文本数据标注是自然语言处理(NLP)中的基础性环节,旨在通过为原始文本添加结构化标签(如语义、情感、实体等),使其具备计算机可理解的语义信息。本节将从定义、核心因素与规范、应用领域三个维度,阐述文本标注的本质、操作要求及其在实际场景中的价值,揭示其作为监督学习数据基础的关键作用。
5.1.1什么是文本数据标注定义与核心本质
文本数据标注是对文本进行特征化标记的过程,通过为文本添加语义(如“北京是城市”)、结构(如“主语-谓语”)、语境(如对话场景)、目的(如“提问”“陈述”)、情感(如“正面”“负面”)等元数据标签,使机器能够通过学习这些标注数据,识别文本中隐含的意图或情感。本质是将人类对语言的理解与知识(如语法规则、情感判断)转化为机器可识别的结构化信息,搭建“人类语言→机器理解”的桥梁,使计算机能更接近人类的方式处理自然语言。
5.1.1什么是文本数据标注实例解析实例1:情感标注在用户评论“今天的电影太精彩了,推荐大家观看!”中,标注“情感:正面”,帮助模型学习“精彩”“推荐”等词与正面情感的关联。实例2:命名实体标注对新闻“习近平主席访问俄罗斯”标注“习近平:人名(PER)”“俄罗斯:地名(LOC)”,使模型能自动识别文本中的关键实体。实例3:意图标注在智能客服对话“请问如何退款?”中标注“意图:咨询退款流程”,支撑系统快速匹配解决方案。
5.1.1什么是文本数据标注文本标注的重要性核心价值
文本标注是NLP模型训练的“燃料”,其质量直接决定模型性能。高质量标注数据能帮助模型精准学习语言规律(如语法结构、语义关联)和提升泛化能力,在未见过的文本上仍能准确预测,还能支撑复杂任务落地,如机器翻译、情感分析、智能问答等。行业影响没有标注数据,NLP模型将无法实现监督学习,难以从非结构化文本中提取有效信息,导致智能系统“无法理解”人类语言。
5.1.1什么是文本数据标注实际应用场景案例智能客服
某电商平台通过标注10万条用户咨询数据(如“查订单”“改地址”“投诉质量”),训练出的意图识别模型准确率达92%,使自动响应率提升60%,人工客服压力降低40%。舆情监测政务系统对社交媒体文本标注“正面/负面/中性”情感及“涉政/民生/经济”主题,实现对公共事件舆情的实时追踪,辅助政策调整。机器翻译
通过标注“中-英”平行语料(如“我是学生”→“Iamastudent”),翻译模型BLEU值提升15%,翻译流畅度显著改善。
5.1.1什么是文本数据标注标注的核心要求全面性
需覆盖文本中所有关键信息,不遗漏重要特征。例如,在合同文本标注中,需完整标注“甲方”“乙方”“金额”“期限”等核心实体,避免因信息缺失导致模型误判。准确性
标签必须与文本内容严格匹配,杜绝错标。例如,不能将“悲伤”误标为“正面”情感,或把“清华大学”错标为“地名”。客观性与一致性
减少主观偏差,多人标注同一文本时结果需统一。例如,对“还行”的情感标注,需约定统一标准(如界定为“中性”而非部分标“正面”、部分标“负面”)。
5.1.2文本数据标注因素和规范核心因素——总览与目的范围核心因素概述
文本标注需综合考虑五大因素,确保标注结果科学、可用,分别是:标注目的和范围、标注类别和标签、标注规则和约定、一致性与完整性、可重复性与可扩展性。标注目的和范围
明确任务目标是若任务是“识别新闻中的灾害事件”,需界定标注范围为“地震”“洪水”等事件及发生时间、地点。划定边界是避免超出任务需求的冗余标注,如上述任务无需标注“记者姓名”等无关信息。
5.1.2文本数据标注因素和规范核心因素——类别、标签与规则标注类别和标签
标签需简洁明了,例如用“POS”代表“正面”,而非“PositiveEmotion”等冗长名称。且与实体匹配,标签需准确反映实体属性,如“金额”标签对应“100元”“5万美元”等数值,而非文本描述。标注规则和约定
统一定义:如词性标注中约定“NN”代表名词、“VB”代表动词,避免混乱。歧义处理:对多义词(如“行”读“xíng”或“háng”),需约定根据上下文判断并标注,如“银行”中“行”标“háng”。
5.1.2文本数据标注因素和规范统一方式与准确标注统一标注方式标签体系统一例如全球通用的命名实体标签体系(PER/LOC/ORG),避免企业自定义标签导致数据无法共享。格式统一如序列标注采用IOB格式(B-PER代表实体开头,I-PER代表实体内部),确保机器可解析。命名规范文件命名、字段名称统一,如“情感标注_202401.csv”“实体类型”字段名固定。准确标注
避免漏标如“小明在上海工作”中,不能漏标“小明(PER)”或“上海(LOC)”。避免多标无需对同一实体重复标注,如“北京”在一句话中出现3次,只需标注1次即可。多标签逻辑清晰如“北京”同时标“LOC”和“首都”时,需注明“首都”是“LOC”的属性。
5.1.2文本数据标注因素和规范具体化与版权合规标注数据具体化对主观性标签明确边界,减少模糊性。例如情感标注中,“正面”需细分“喜悦”“满意”“赞赏”等子类别,并定义判断标准(如“满意”对应“产品符合预期”)。实体关系标注中,“关联”需明确是“父子”“合作”还是“竞争”关系。版权和使用权合规
是第三方数据是使用网络文本、书籍片段等时,需获得版权方授权,避免侵权(如某公司因擅自标注并使用小说文本被起诉)。隐私保护,对含个人信息的文本(如病历、聊天记录),需脱敏后标注,遵守《个人信息保护法》。
5.1.3文本数据标注应用领域应用领域——数据分类与NLP数据分类按主题、行业、风格等对文本归类,实现有序管理。例如新闻网站将文章分为“政治”“娱乐”“体育”,方便用户检索,学术数据库将论文按“计算机科学”“医学”“经济学”分类,辅助科研人员快速定位文献。自然语言处理(NLP)
为各类NLP任务提供训练数据,是模型学习的基础。例如文本分类模型通过标注的“垃圾邮件/正常邮件”数据,学习识别垃圾邮件特征;句法分析模型借助标注的“主谓宾”结构数据,掌握句子语法规则。
5.1.3文本数据标注应用领域应用领域——信息检索与语义分析信息检索通过标注关键词、实体或主题,提升搜索精准度。例如图书馆系统对书籍内容标注“作者”“关键词”“摘要”,用户搜索“鲁迅”可快速找到相关书籍,法律数据库对判例标注“罪名”“判决结果”,律师检索“盗窃罪”可获取同类案例。文本语义分析
挖掘文本深层含义,支撑情感、意图等复杂分析。例如企业通过标注用户评论的“情感倾向”,分析产品优缺点(如“包装差”标“负面”,“口感好”标“正面”),社交媒体平台标注文本“政治倾向”,识别极端言论。。
5.1.3文本数据标注应用领域应用领域——问答系统与总结信息问答通过标注问题与答案的对应关系,提升系统响应准确性。例如智能问答机器人对“故宫在哪里?”与“北京”标注关联,用户提问时能直接返回答案,客服系统标注“如何退货?”与“退货流程:申请→寄回→退款”,实现自动化回复。应用领域总结
文本数据标注渗透于NLP的全链条,从基础的数据整理到复杂的语义理解,均依赖高质量标注数据,是推动人工智能语言理解能力提升的核心支撑。
5.2文本数据标注分类5.2文本数据标注分类文本数据标注根据任务目标和应用场景,可分为七大类:实体标注、实体关系标注、文本属性标注、文档分类标注、阅读理解标注、多实体标注、情感色彩标注。每类标注针对不同的语言特征(如实体、关系、情感等),为特定NLP任务提供结构化数据支持。本节将详细解析各类标注的定义、特点及应用实例。总览
5.2.1实体标注定义实体标注是在文本中识别并标记具体实体(人、地点、组织、时间、专业术语等实际对象或概念)的过程,目的是让机器理解文本中的关键信息,支撑信息提取、问答系统等任务。主要类型
1.命名实体标注:标注具有特定名称的实体,如人名(“钱学森”)、地名(“北京”)、组织(“科大讯飞”)、日期(“2024年”)等。
2.特殊信息标注:标注时间、数量、货币等特殊实体,如“500元”“3小时”。
3.自定义实体标注:针对特定领域标注专属实体,如医疗领域的“肺癌”“CT影像”,花卉领域的“玫瑰(学名:Rosarugosa)”。句子“2024年,习近平主席访问俄罗斯”标注“2024年:时间”“习近平:人名(PER)”“俄罗斯:地名(LOC)”。
5.2.1实体标注应用场景信息抽取:从新闻中提取“事件发生地”“涉事人员”等关键信息;知识图谱构建:标注实体作为图谱节点,支撑后续关系构建;智能检索:通过实体标注实现“按人名/地名”精准搜索。应用与注意事项注意事项要边界清晰避免实体拆分或合并错误,如“清华大学”需整体标注为“组织”,不可拆分为“清华”“大学“还要类型准确:区分易混淆实体,如“苹果(公司)”与“苹果(水果)”需根据上下文标注不同类型。
5.2.2实体关系标注定义实体关系标注是在识别实体的基础上,标注不同实体之间的关联(如因果、亲属、从属、竞争等),使机器理解文本中实体的互动逻辑。定义与关系类型常见关系类型亲属关系,“小明是小红的弟弟”中,“小明-弟弟-小红”,从属关系:“刹车盘属于刹车部件”中,“刹车盘-属于-刹车”,因果关系:“下雨导致路滑”中,“下雨-导致-路滑”,合作关系:“华为与百度合作研发AI”中,“华为-合作-百度”。对“李白是唐朝诗人”标注“李白-身份-诗人”“李白-朝代-唐朝”。
5.2.2实体关系标注应用场景知识图谱:构建实体间的关系边(如“人物-出生地-地点”);事件分析:标注“事件-参与方-影响”等关系,辅助舆情追踪;智能问答:理解“为什么”“谁的”等涉及关系的问题(如“地球的卫星是什么?”依赖“地球-卫星-月球”标注)。应用与挑战主要挑战关系歧义:同一实体对可能存在多种关系(如“张三和李四是同学,也是同事”);隐性关系:需从上下文推断(如“他来自北京”隐含“他-籍贯-北京”);跨句关系:实体分布在不同句子中,需跨句关联(如“小王在华为工作。该公司总部在深圳”中,“小王-任职-华为”“华为-总部-深圳”)。
5.2.3文本属性标注定义
文本属性标注是标记实体或文本的特征、特性、参数(如情感、发音、词性等),本质是从实体指向其属性值的“边”,不同属性对应不同的边。主要类型情感标注:标记文本的情感倾向(正面、负面、中性),如“这部电影很精彩”标“正面”。分词标注:对文本进行词语切分,如“我爱中国”标“我/爱/中国”,支撑自动分词算法训练。多音字拼音标注:标注多音字的正确发音,如“银行”中“行”标“háng”,“行走”中“行”标“xíng”。数字拼音标注:标注数字的读法,如“2024”标“èrlíngèrsì”(年份)或“两千零二十四”(数量)
5.2.3文本属性标注文本属性标注的实际应用语音合成(TTS)是多音字、数字拼音标注确保合成语音准确,如“10月1日”标“shíyuèdìyīrì”,避免误读为“yīlíngyuèyīrì”。然后是情感分析系统,作用是情感标注支撑舆情监测,如电商平台通过标注用户评论的“正面/负面”,快速定位产品差评并改进。分词系统是分词标注为分词算法提供训练数据,提升中文分词准确性(如区分“上海/市”与“上/海市”)。还有语言学习工具音标注辅助外语学习者掌握正确发音,如对外汉语教材中“行”的多音标注。应用场景
5.2.4文档分类标注常见分类维度主题:“科技”“体育”“娱乐”(如新闻分类);用途:“报告”“小说”“论文”(如文档管理系统);风格:“正式”“口语化”“幽默”(如社交媒体内容分类);敏感程度:“公开”“内部”“机密”(如企业文档管理)。定义与分类维度定义文档分类标注是根据文档的内容、主题、风格、用途等特征,为其分配预定义标签,实现文档的有序组织与高效管理。
5.2.4文档分类标注核心价值提升信息检索效率,减少人工筛选成本,使大规模文档库从“无序堆积”转为“有序可用”,支撑快速决策与知识复用。应用与价值应用场景新闻推荐:根据用户偏好(如“体育”)推送标注相同标签的新闻;学术资源管理:图书馆通过“学科”标签归类论文,方便研究者检索;内容审核:对“暴力”“色情”等标签的文档进行过滤,净化网络环境;企业知识管理:标注“产品手册”“客户案例”等标签,员工可快速查找所需文档。
5.2.5阅读理解标注主要任务取式标注:标注文本中直接回答问题的片段,如对问题“中国首都是哪里?”标注文本中“北京是中国的首都”中的“北京”。推理式标注:标注问题答案的推理依据,如对问题“为什么下雨?”标注文本中“因为暖湿气流相遇”作为依据。多选式标注:标注选择题的正确选项与文本对应位置,如问题“下列城市属于首都的是?”标注“北京”。定义与任务定义阅读理解标注是标记文本与问题之间的对应关系(如答案位置、推理依据),使机器能像人类一样阅读文本并回答相关问题,是机器阅读理解(MRC)任务的核心数据基础。
5.2.5阅读理解标注技术要点答案边界清晰:准确标注答案在文本中的起止位置(如段落、句子、词语);推理链完整:对需要多步推理的问题,标注每一步的依据文本;覆盖多样问题类型:包括“是什么”“为什么”“如何做”等,提升模型泛化能力。应用与关键技术应用场景智能问答系统:如“百度知道”通过标注数据自动回答用户问题;智能客服:标注产品手册中“问题-答案”对应关系,支撑客服机器人快速响应;教育辅助:标注习题与教材内容的对应关系,辅助学生自主学习(如“这道数学题对应教材第5章”)。
5.2.6多实体标注显著特点实体密集:文本中包含多个实体(如新闻“马云创立的阿里巴巴与腾讯合作,投资了京东”含“马云、阿里巴巴、腾讯、京东”4个实体);类型多样:实体分属不同类别(如上述例子中“马云:人名”“阿里巴巴:组织”);可能重叠或嵌套:如“北京大学校长王恩哥”中,“北京大学:组织”与“王恩哥:人名”嵌套。
定义与特点定义
多实体标注是在单一段落或句子中同时识别和标记多个命名实体,并分类到预定义类型中,重点解决实体密集型文本的结构化问题。
5.2.6多实体标注主要挑战与解决方案实体边界模糊:通过上下文语义判断(如“中科院自动化所”整体标“组织”,而非拆分);类型混淆:结合领域知识区分(如“苹果”在科技新闻中多为“组织”,在农业新闻中多为“水果”);重叠实体:采用分层标注(如先标“北京大学”,再在其内部标“王恩哥”)。应用与挑战应用场景金融舆情分析:从财经新闻中同时提取“公司、人物、金额、时间”等实体,分析市场动态;简历解析:从简历中提取“姓名、学历、工作单位、技能”等多类实体,实现自动化筛选;事件追踪:标注新闻中“涉事方、时间、地点、原因”等实体,构建事件时间线。
5.2.7情感色彩标注情感维度基本情感:正面(喜悦、满意)、负面(愤怒、悲伤)、中性(客观陈述);情感强度:对正面/负面情感细分程度,如“满意→非常满意→狂喜”“失望→愤怒→暴怒”;情感对象:明确情感指向的实体,如“我喜欢这家餐厅的菜,但服务很差”中,“菜:正面”“服务:负面”。定义与维度定义情感色彩标注是对文本的情感倾向(如正面、负面、中性)及强度(如“非常满意”“有点失望”)进行标记,帮助机器理解人类主观情绪表达。
5.2.7情感色彩标注注意事项结合语境避免字面判断(如“这道菜太‘惊喜’了”若带讽刺语气,需标“负面”),区分客观与主观:客观描述(如“气温30℃”)标“中性”,主观评价(如“好热”)标“负面”;统一强度标准明确“有点”“非常”等词对应的强度等级,确保标注一致性。应用与注意事项应用场景舆情监测:政府通过标注社交媒体文本情感,实时掌握公众对政策的态度;产品优化:企业分析用户评论的情感标注,如“包装:负面”“口感:正面”,针对性改进;心理健康辅助:标注用户言论的情感倾向,识别“抑郁”“焦虑”等负面情绪并预警。5.3文本数据标注的工具
5.3文本数据标注的工具Doccano的介绍Doccano是一款强大的开源文本标注工具,具备直观的Web界面和协作功能,适用于文本分类、序列标注和文本聚类。支持多语言、自定义标签,简化了复杂的标注任务。其灵活的导入和导出功能使用户能够方便地处理各类文本数据。Doccano能够为团队提供了高效而可协作的标注环境,是处理自然语言处理任务的理想选择。
5.3.1Doccano的环境安装1.登录Python官网,如图5-1所示,点击“Download”,选择下载最新Python版本。图5-1Python官网
5.3.1Doccano的环境安装2.双击安装文件,选择“InstallNow”,如图5-2所示,同时勾选下方两个选项:使用管理员权限安装;添加python.exe至环境变量PATH。图5-2Python安装
5.3.1Doccano的环境安装3.安装成功界面如图5-3所示图5-3Python安装成功界面
5.3.1Doccano的环境安装4.进入命令行窗口,输入命令“python--version”,即可查看当前Python版本;输入命令“piplist”,即可查看当前Pip版本,以及pip所管理的第三方包,如图5-4所示。图5-4查看Python和Pip版本
5.3.1Doccano的环境安装5.利用pip安装Doccano。打开命令提示符窗口输入“pipinstallDoccano”,如图5-5所示。【提示】命令提示符窗口打开方法:按“Window+R”组合键,在弹出的“运行”对话框中输入“cmd”,单击“确定”按钮。图5-5pip安装Doccano
5.3.1Doccano的环境安装6.输入命令“doccanoinit”,初始化用户,如图5-6所示图5-6pip初始化用户
5.3.1Doccano的环境安装7.输入命令“doccanocreateuser--username***--password******”,创建一个超级用户。如图5-7所示,用户名设置为“admin4”,密码为“123456”。请读者根据自身需要进行设置。图5-7pip创建用户
5.3.1Doccano的环境安装8.输入命令“doccanowebserver--port8000”,启动webserver,如图5=8所示。图5-8设置程序端
5.3.1Doccano的环境安装9.打开一个新的命令提示符窗口,输入命令“doccanotask”,启动任务队列,如图5-9所示。图5-9启动程序任务
5.3.1Doccano的环境安装10.打开浏览器,在地址栏输入“:8000/”进入Doccano的开始页面。单击“登录”按钮,输入之前设置的用户名和密码,即可完成登录。如图5-10即为doccano主页面。图5-10进入Doccano界面
5.3.2创建Doccano文本标注项目1.如图5-11页面,单击“创建”按钮,进入项目创建页面。
图5-11创建项目页面
5.3.2创建Doccano文本标注项目2.在创建页面有多种项目可以选择,如图5-12所示。用户可根据需要进行选择。图5-12项目选择
5.3.2创建Doccano文本标注项目项目选择文本分类是通过对文本进行分析和判断,将文本分配到不同的事先定义好的文本分类之中;序列标注是一种自然语言处理任务,目标是为给定的输入序列中的每个元素分配一个标签或类别;序列到序列是一种深度学习模型,用于处理输入和输出都是序列的任务;意图识别和槽位填充通常是自然语言处理中用于理解和检索用户意图的技术;图像分类是计算机视觉领域中的一项核心任务,其目标是将输入的图像分为不同的预定义类别;图像描述是指通过计算机视觉和自然语言处理技术,为图像生成相应的文本描述。
5.3.2创建Doccano文本标注项目3.选定需要创建的项目类型后,即可开始配置项目信息,如图5-13即为配置页面。图5-13项目配置
5.3.2创建Doccano文本标注项目分别输入项目名称、描述、Tags(标注所需标签)。根据所选项目类型不同,所对应的选项也各不相同。其中项目名称、描述、Tags为必填项,项目名称和描述需要做到见名知义,随后可单击“创建”按钮完成创建。以下为常见英文选项的解释:Allowsigellabel:允许单一标签;Allowprojectmembertocreatelabeltypes:允许项目成员添加标签类别。
5.3.2创建Doccano文本标注项目4.导入数据集。在左侧菜单栏选择“数据集”选项,单击“操作”→“导入数据集”按钮,选择数据集,如图5-14所示。图5-14导入数据
5.3.2创建Doccano文本标注项目5.根据数据源种类选择数据集类型,这里支持的数据类型有:TextFile、TextLine、JSONL、CoNll,根据数据源类型选择并上传数据文件,如图5-15所示为所有类型选项。【注意】当数据类型为txt文本形式,如果希望以文本的整体作为标注对象,则选择“TextFile”,如果以文本中的每一行作为标注对象,则需选择“TextLine”。图5-15数据类型选择5.4实战:文本标注5.4实体标注案例本节节介绍在本节中,将选择具有典型特点的案例,分别介绍单实体标注、多实体标注、实体关系标注以及情感色彩标注。其他分类操作方法类似,请读者自行探索。5.4.1实体标注案例标注介绍命名实体识别(NamedEntityRecognition,NRE)是一种自然语言处理任务,用于识别文本中具有特定意义的实体。文本中待抽取的实体可以是一种也可以是多种,下面首先以抽取单一实体为例,讲解单实体文本标注案例。5.4.1实体标注案例1.单击“创建”按钮,如下图所示,进入项目创建页面。图5-16单实体标注项目创建5.4.1实体标注案例2.如下图所示,在左侧菜单栏选择“数据集”选项,单击“操作”→“导入数据集”按钮,选择数据集。图5-17单实体标注项目配置5.4.1实体标注案例3.如下图所示,在左侧菜单栏选择“数据集”选项,单击“操作”→“导入数据集”按钮,选择数据集。图5-18单实体标注数据导入5.4.1实体标注案例【注意】本案例中的数据集为文本多行数据,每行作为一个数据条目,因此数据源类型选择“TextLine”,如下图所示。图5-19单实体标注导入数据选择5.4.1实体标注案例如下图所示,单击“Dropfileshere”,选择数据文件,等待数据上传完成后,单击“导入”。图5-20单实体标注导入数据完成5.4.1实体标注案例如下图所示,导入后文本数据的每一行即为一条待标注的数据。图5-21单实体标注导入数据展示5.4.1实体标注案例4.如下图所示,在左侧菜单栏选择“标签”选项,单击“操作”→“创建标签”按钮添加标签。图5-22单实体标注创建标签15.4.1实体标注案例如下图所示,在“标签名”中输入标签名称,并为该标签选择合适的颜色。每一个标签都有对应的键值,例如在当前案例中添加的标签名为“词”,对应的键为0。当然,和程序中的字典变量的键值对定义类似,可以为当前的标签定义不同的键值。图5-23单实体标注创建标签25.4.1实体标注案例5.在左侧菜单栏单击“开始标注”按钮,如下图所示,即可开始对数据文本进行标注。图5-24单实体标注开始标注5.4.1实体标注案例长按鼠标左键,选中一个词,松开鼠标左键后将会弹出标签选择的对话框,以供用户选择标签,如下图所示。
图5-25单实体标注选择标签5.4.1实体标注案例中文词不用于英文词语的表达,相同的字在不同情况下可能是词的一部分,也可自成一词,例如“最终可以成功”,“方可以德服人”中都包含“可以”,单标签词划分能够完成不同语境下分词,如下图所示。
图5-26单实体标注结果5.4.1实体标注案例6.单击“操作”→“导出数据集”按钮,如图2-5-2723所示图5-27单实体标注导出数据15.4.1实体标注案例选择数据集格式“JSONL”,单击“导出”按钮,如下图所示,数据将会自动下载。图5-28单实体标注导出数据25.4.1实体标注案例解压数据标注文件,使用文本工具“记事本”或VSCode打开,可以看到文本的ID、原文,以及标识出的单个分词在原字符串中的起止位置,如图5-29所示。图5-29单实体标注结果展示5.4.2多实体标注案例介绍多实体识别标注是指在文本中同时识别和标注多个命名实体的任务,主要目标是准确地识别并标注出文本中出现的所有实体,并将它们分类到预定义的实体类型中,这为后续的信息抽取、知识图谱构建、问答系统等任务提供了重要的基础,常应用于金融、医疗等领域。示例文本科大讯飞最近发布了一款名为“超脑”的全新人工智能平台,该平台集成了自然语言处理、语音识别和机器翻译等多项核心技术,旨在为教育、医疗和智能客服等多个领域提供智能解决方案。超脑使用先进的深度学习算法在多种场景下都表现出色,极大提升了信息处理的效率和准确性。5.4.2多实体标注案例1.进入页面单击左上角“创建”按钮,如图5-30所示,进入项目操作界面。图5-30多实体标注创建项目5.4.2多实体标注案例2.选择项目类型“序列标注”,并填写项目名称与描述,如图5-31所示。图5-31多实体标注配置项目5.4.2多实体标注案例3.如图5-32所示,选择页面左侧菜单栏中“数据集”,单击“操作”按钮,选择“导入数据”。图5-32多实体标注导入数据5.4.2多实体标注案例3【注意】本案例数据集为文本数据,以整个文本作为语料,数据源类型需要选择“TextFile”,如图5-33所示。图5-33多实体标注导入数据选择5.4.2多实体标注案例如图5-33所示,选择数据源后,单击按钮“Dropfileshere”,选择需要导入的文件,文件将自动加载,直至下方显示“Uploadcomplete”,表示数据导入成功。图5-33多实体标注导入数据选择5.4.2多实体标注案例4.选择左侧菜单栏“标签”,单击按钮“操作”,选择“创建标签”添加标签,如图5-34所示。
图5-34多实体标注创建标签5.4.2多实体标注案例结合标注文本,添加合适的标签。在“标签名”中输入标签名称,并为该标签选择合适的颜色。每一个标签都有对应的键值,结合当前案例,需要添加的标签为“组织”和“产品”,“时间”,“平台”,选择“组织”标签的颜色和对应的键值后,单击“Saveandaddanother”,再使用相同方法创建“产品”等标签,如图5-35所示。图5-35多实体标注标签选择5.4.2多实体标注案例5.在左侧菜单栏选择“主页”,可查看已经导入的数据,单击右侧“标注”按钮,如图5-36所示,进行实体标注。图5-36多实体标注开始标注5.4.2多实体标注案例6.在文本语料中找到待标注实体词,长按鼠标左键选中标注词,松开鼠标左键,将弹出标签选择对话框。例如,长按鼠标左键选中标注词“科大讯飞”,在弹出的标签选择对话框中选择“组织”,如图5-37所示,即完成了一个实体词的标注。图5-37多实体标注选择标签5.4.2多实体标注案例继续以相同的方法选中实体词,并为之选择标签,直至语料中所有的实体都标注完毕,如图5-38所示。图5-38多实体标注结果5.4.2多实体标注案例7.导出数据。单击“操作”按钮,单击“导出数据集”如图5-39所示。图5-39多实体标注导出数据5.4.2多实体标注案例8.导出数据类型,选择“JSONL”,并单击“导出”按钮,如图5-40所示。图5-40多实体标注导出数据选择5.4.2多实体标注案例9.解压数据标注文件,使用文本工具“记事本”或VSCode打开,可以看到文本的ID、原文,以及标识出的单个分词在原字符串中的起止位置,如图5-41所示。图5-41多实体标注结果展示5.4.3实体关系标注案例其中正方形表示实体,圆形为该实体的属性,菱形表示实体间关系。学生与课程的关系是选修,可以理解为学生选修课程。学生的属性是姓名和学号,课程的属性是课程号与课程名。“选修”包含成绩属性,因为学生选修了课程才会有成绩。实体关系标注可以帮助揭示文本中实体之间的联系、了解事件发展的动态和推断实体之间的关联性。实体关系标注主要用于分析和理解文本中实体之间的关系。进行实体关系标注,首先需要从业务领域了解实体之间的关系。以所熟悉的学生与课程关系为例,绘制的关系模型如图5-42所示。图5-42实体关系模型图5.4.3实体关系标注案例1.单击左上角“创建”按钮,进入创建项目界面。如图5-43所示。图5-43实体关系标注项目创建5.4.3实体关系标注案例2.为项目选择“序列标注”的标注方式,如图5-44所示,并填写项目名称及描述。图5-44实体关系标注项目配置5.4.3实体关系标注案例在本案例中,需要添加标签间的关系,在创建项目时请选中“Userelationlabeling”(使用关系标签),如图5-45所示,单击“创建”按钮完成项目创建。其他选项解释:“Countgraphemeclustersasonecharacter”:将字形簇计数为一个字符。图5-45实体关系标注项目配置5.4.3实体关系标注案例3.如图5-46所示,在左侧菜单栏选择“数据集”,单击“操作”按钮,选择“导入数据集”。图5-46实体关系标注导入数据5.4.3实体关系标注案例【注意】本案例数据集为txt文本数据,数据条目为整个文本,数据源类型选“TextFile”。如图5-47所示。图5-47实体关系标注导入数据选择5.4.3实体关系标注案例4.选择数据源后,单击“Dropfileshere”,选择需要导入的文件,数据文件将自动加载,直至下方显示“Uploadcomplete”,表示数据导入成功。左侧菜单栏选择“标签”,标签创建页包含“Span”与“Relation”2个选项卡,Span表示实体标签,Relation表示关系标签。首先进行实体标签的创建,选择“Span”选项卡,单击“操作”按钮,选择“创建标签”,如图5-48所示。图5-48实体关系标注创建标签5.4.3实体关系标注案例5.进入创建标签页面,输入标签名,选择颜色与键值,单击按钮“Saveandaddanother”,创建下一个标签。本案例中需添加的实体标签为“车型”和“部件”,如图5-49所示。所有标签创建完成后单击“Save”按钮。图5-49实体关系标注标签选择5.4.3实体关系标注案例6.添加关系标签。返回标签页,选择“Relation”选项卡,并单击“操作”按钮选择“创建标签”,如图5-50所示。图5-50实体关系标注关系标签创建5.4.3实体关系标注案例7.进入创建标签页面,输入标签名,选择颜色和键值,创建“属于”标签关系,单击“Save”保存标签,如图5-51所示。图5-51实体关系标注关系标签选择5.4.3实体关系标注案例8.在左侧菜单栏选中“数据集”,单击语料右侧“标注”按钮,如图5-52所示,开始数据标注。图5-52实体关系标注开始标注5.4.3实体关系标注案例9.进入标注页面,开始实体与关系标注。右侧页面中“span”滑动框表示当前标注状态为实体标签标注,完成实体标注后,可单击“span”滑动框,切换为实体关系标注“Relation”,继续完成关系标注,如图5-53所示。图5-53实体关系标注数据展示5.4.3实体关系标注案例10.进行实体标注。长按鼠标左键,选中一个实体词,松开左键后将会弹出标签选择对话框,以供用户选择标签。例如,语料中“红旗SUV”为车型实体,“刹车”为部件实体,长按鼠标左键并选中“红旗SUV”,在弹出的标签选择对话框中选择“车型”;长按鼠标左键并选中“刹车”,在弹出的标签选择对话框中选择“部件”,如图5-54所示,即完成了实体部分的标注。图5-54实体关系标注教学5.4.3实体关系标注案例11.实体标签标注完成后,单击右下角“span”左侧的滑动框,切换到标签关系标注“Relation”,如图5-55所示。图5-55实体关系标注切换5.4.3实体关系标注案例12.确保右下角选择“Relation”,此时下方将显示建立的关系标签。单击需要建立关系的标签,例如,此处“刹车盘”是属于“刹车”的部件,因此首先单击已标注的“刹车盘”标签,再单击“刹车”标签,最后选择“属于”标签,如图5-56所示,即完成了一个实体关系的标注。图5-56实体关系标注标签关系标注教学5.4.3实体关系标注案例13.实体关系标注后,需要确认关系箭头方向是否正确。箭头的射出方向为关系的发起方,射入方向为关系的接收方,如图5-57所示。在本例中为后者“刹车盘”指向前者“刹车”,表示“刹车盘”实体“属于”“刹车”实体。图5-57实体关系标注标签关系标注展示5.4.3实体关系标注案例14.选择左侧菜单栏“主页”返回主页面,单击“操作”按钮,选择“导出数据”。如图5-58所示。图5-58实体关系标注数据导出5.4.3实体关系标注案例15.解压数据标注文件,并使用文本工具“记事本”或VSCODE打开,可以看到文本的ID、原文,以及被标识出的单个分词在原字符串中的起止位置;实体关系在“relations”中进行了记录,列举了关系标签id、关系所涉及的实体id以及标签类型,如图5-59所示。图5-59实体关系标注结果展示5.4.4感情色彩标注案例1.在主页中单击左上角“创建”按钮,进入项目创建页面,如图5-60所示。图5-60情感标注创建页面5.4.4感情色彩标注案例2.为项目选择“文本分类”的标注方式,目的是对导入文本的情感进行分类,如图5-61所示。填写项目名称及描述。图5-61情感标注项目配置5.4.4感情色彩标注案例3.在左侧菜单栏选择“数据集”,单击“操作”按钮,选择“导入数据集”,如图5-61所示。【注意】本案例中的数据集为txt文本多行数据,每行作为一个数据条目,因此数据源类型选择“TextLine”。图5-61情感标注项目配置5.4.4感情色彩标注案例单击选择数据类型“TextLine”,单击“Dropfileshere”,选择数据文件,等待数据上传完成后,单击“导入”,如图5-63所示。图5-63情感标注导入数据格式选择5.4.4感情色彩标注案例4.创建标签。在左侧菜单栏选择“标签”,单击“操作”按钮,再选择“创建标签”。如图5-64所示。图5-64情感标注创建标签5.4.4感情色彩标注案例进入创建标签页面,建立“正面”“负面”“中立”三种标签。请分别输入标签名,选择颜色和键值,单击按钮“Saveandaddanother”,创造下一个标签,创建完成后单击按钮“Save”保存标签,如图5-65所示。图5-65情感标注标签选择5.4.4感情色彩标注案例5.在左侧菜单栏选择“数据集”,可见导入的所有数据。在一条语料右侧,单击按钮“标注”,可进入标注页面,如图5-66所示。图5-66情感标注开始标注5.4.4感情色彩标注案例6.判断文本情感色彩,并在上方标签中选择,此处根据语意“今天收到来自母亲的生日礼物,感觉开心,满满的一个大蛋糕”选择“正面”标签,单击键盘方向键“→”,如图5-67所示,即可进入下一条文本内容的标注。图5-67情感标注标签选择5.4.4感情色彩标注案例7.所有语料标注完成后,在左侧菜单栏中选择“数据集”,单击“操作”按钮,选择“导出数据”,如图5-68所示。图5-68情感标注导出数据5.4.4感情色彩标注案例8.选择数据集格式“JSONL”,单击按钮“导出”,如图5-69所示,数据将会自动下载。图5-69情感标注导出数据格式选择5.4.4感情色彩标注案例9.解压数据标注文件,使用文本工具“记事本”或VSCode打开,可以看到文本的ID、原文,以及标识出的每个句子的情感色彩标签,如图5-70所示。图5-70情感标注结果展示5.5小结5.5小结核心内容回顾本章系统介绍了文本数据标注的核心知识,涵盖四大关键模块1.基础概念:明确文本数据标注是对文本添加语义、结构、情感等元数据标签的过程,核心是将人类语言知识转化为机器可理解的结构化信息,为自然语言处理(NLP)模型提供训练基础。2.分类体系:详细阐述七大类标注类型,包括实体标注(识别具体对象)、实体关系标注(标记实体关联)、文本属性标注(如情感、拼音)、文档分类标注(按主题等分类)、阅读理解标注(支撑问答系统)、多实体标注(处理密集型实体)、情感色彩标注(解析情绪倾向),每类均有明确的适用场景。3.规范与工具:强调标注需遵循统一方式、准确标注、版权合规等规范;重点介绍了Doccano工具的安装与使用,包括环境配置、项目创建、数据导入及标注
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 47024.2-2026高原电工产品特殊试验方法第2部分:工频/直流复合电压
- 2026零跑A10大定提车用户画像报告-电动汽车用户联盟
- 农村人居环境整治中农户付费意愿的异质性研究意义
- 报表生成作业指导书
- 2026年湖南省长沙市中考二模九年级历史试题附答案
- 重庆大学《电子技术基础》课件-第4章三相电路及其应用
- 2026年广东省初中学业水平模拟考试物理试卷(二)(含答案)
- 一级建造师考试(机电工程管理与实务)题库含答案(2025年大连)
- 2025年度一级建造师职业资格考试(水利水电工程管理与实务)复习题库含答案
- 石油工程应急预案
- 考核化验员管理办法
- 混凝土采购供货投标文件
- 浙二医院胸外科护士进修汇报
- 2025年国能考试题库春季
- 《液压与气压传动》课件-第六章 基本回路
- 企业尽职免责管理办法
- DGTJ08-2323-2020 退出民防序列工程处置技术标准
- 党支部书记讲廉洁党课讲稿
- 猴痘培训课件
- 保税货物考试题及答案
- 北航叶轮机械原理课件第4章 轴流压气机气动设计
评论
0/150
提交评论