自然语言处理(微课版)课件 第六章 信息抽取_第1页
自然语言处理(微课版)课件 第六章 信息抽取_第2页
自然语言处理(微课版)课件 第六章 信息抽取_第3页
自然语言处理(微课版)课件 第六章 信息抽取_第4页
自然语言处理(微课版)课件 第六章 信息抽取_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息抽取简介/命名实体识别/实体链接/关系抽取/事件抽取/小样本事件抽取/预训练信息抽取模型2026/6/11第六章信息抽取命名实体识别任务简介、NER模型概述实体链接通用架构、常见研究方向关系抽取任务简介、RE模型概述、常见研究方向事件抽取事件检测、论元抽取小样本信息抽取预训练信息抽取模型2026/6/126.1简介信息抽取(informationextraction,IE),即从文本中抽取出特定的信息(如实体、事件)并将海量内容自动分类、提取和重构。命名实体识别(NamedEntityRecognition,NER)实体链接(EntityLinking,EL)关系抽取(RelationExtraction,RE)事件抽取(EventExtraction,EE)……2026/6/136.2命名实体识别任务简介(NamedEntityRecognition,NER)命名实体一般指文本中具有特定意义或者指代性强的实体经典的类型:实体类,时间类,数字类(三大类)和人名、地名、组织机构名、时间、日期、货币、百分比(七小类)在实际场景中,根据业务需求的不同,需要识别出更多类别的实体2026/6/146.2命名实体识别任务简介(NamedEntityRecognition,NER)NER从非结构化的文本中抽取出实体例如:对于文本“苹果公司是由乔布斯、沃兹尼艾克和罗纳德·韦恩创办的。”,实体包括:“苹果公司”(组织机构名),“乔布斯”、“沃兹尼艾克”和“罗纳德·韦恩”(人名)2026/6/156.2命名实体识别NER模型基于规则的NER系统:规则设计通常基于句法、语法、词汇模式以及特定领域的知识等方面基于规则的NER系统在字典规模有限时可以达到很好的效果不通用,对于新的领域,需要重新制定规则并使用不同的词典2026/6/166.2命名实体识别NER模型基于传统机器学习的NER系统:隐马尔可夫模型(HiddenMarkovModel,HMM):直接建模转移概率和表现概率,并统计共现概率来解决序列标注问题最大熵(MaximumEntropy,ME)模型:结构紧凑、通用性强,但训练时间复杂度非常高最大熵马尔可夫模型(MaximumEntropyMarkovModel,MEMM):建立联合概率来统计条件概率,解决了HMM容易陷入局部最优解的问题2026/6/176.2命名实体识别NER模型基于传统机器学习的NER系统:支持向量机(SupportVectorMachine,SVM):在准确率上比HMM更高,但是HMM能够通过Viterbi算法优化,使其在训练和识别时的速度更快条件随机场(ConditionalRandomFields,CRF)模型:通过统计全局概率,考虑数据在全局的分布而非在局部进行归一化,解决了MEMM中标记偏置的问题。但是,CRF模型也存在收敛速度慢、训练时间长的问题2026/6/186.2命名实体识别NER模型基于深度学习的NER系统:近年来,基于神经网络的命名实体识别方法越来越受到关注,其结合了注意力机制、图神经网络、迁移学习和远程监督等技术2026/6/196.2命名实体识别NER模型基于深度学习的NER系统——优势深度学习可以适应非线性转换深度学习避免了大量手动特征的构建,节省了设计NER模型的大量人工成本深度学习通过梯度传播进行训练,可以构建更复杂的网络深度学习可以在端到端的方式下进行训练,避免了多阶段的繁琐处理2026/6/1106.2命名实体识别NER模型基于预训练模型的方法:预训练语言模型如BERT、RoBERTa等均能在单词级别进行分类,因而能够适用于NER任务并取得较好的效果例如:仅通过BERT+CRF层便能超过各种精心设计的基于BiLSTM的模型,这得益于预训练语言模型中包含的大量通用领域的知识,使得模型能够更好地学到上下文相关的词表示2026/6/1116.3实体链接引言机器往往需要解析非结构化文本,挖掘实体并与知识图谱中的记录匹配,最终从知识图谱中获取相关语义信息,这一过程被称为“实体链接”实体链接是指将自然语言文本中出现的实体提及(entitymention)关联到知识库实体实体链接可分为实体识别(EntityRecognition)和实体消歧(EntityDisambiguation)两个阶段。实体识别阶段负责提取文本中出现的实体提及,实体消歧阶段负责将提及链接到知识图谱中存在的记录中2026/6/1126.3实体链接通用架构2026/6/1136.3实体链接通用架构候选实体生成:发现针对给定的实体提及其可能的链接对象,提高实体链接的准确率,同时尽可能排除不相关实体,减小排序空间基于文本匹配生成候选实体基于“提及-实体”词典生成候选实体基于实体描述生成候选实体基于搜索引擎生成候选实体2026/6/1146.3实体链接通用架构候选实体排序:负责对生成的候选实体进行精排,确定最终的链接目标。通常而言,该部分将提及连同其上下文以及候选实体编码为稠密向量,最终结合向量相似度以及提及与实体的先验匹配概率对候选实体排序实体提及、上下文编码:将给定实体提及与其对应上下文编码为低维稠密的向量化表示实体编码:将实体编码为低维稠密的向量化表示,该阶段常常考虑实体在知识图谱中的关系信息,实体描述信息等辅助资源2026/6/1156.3实体链接研究方向联合实体识别与消歧:实体链接方法往往将实体识别与实体消歧作为两个独立的步骤,部分研究提出使用一个模型同时完成实体识别与消歧,以联合学习方式提升实体链接整体性能。使用同一个模型解决两个不同的任务显然是更加困难的设置,但实体识别与消歧存在相互依赖关系,这两个步骤之间的相互作用有助于提升整体模型性能2026/6/1166.3实体链接研究方向零样本实体链接:在现实应用中,使用者通常希望链接到专业实体词典,例如法律案例、公司项目描述、小说中的字符集或术语表。然而,获取这类专业领域中的标记数据往往代价高昂。因此,部分研究者开始研究可以泛化到专业领域的实体链接系统,由于没有频率统计和元数据,这一任务颇具挑战性2026/6/1176.3实体链接研究方向零样本实体链接——挑战由于缺乏强大的别名表和频率先验,模型必须从实体描述中挖掘有价值的线索并与提及进行匹配由于不提供任何测试实体的训练数据,模型必须适应新的提及上下文和实体描述2026/6/1186.4关系抽取引言形如(主体,关系,客体)的三元组以结构化形式描述了世界知识,这些知识可能显式或隐式地存在于文本中。例如,句子“SteveJobs创建了Apple公司”表示事实(Apple公司,创建者,SteveJobs)2026/6/1196.4关系抽取引言关系抽取(RelationExtraction,RE)的目标是从文本中提取这些关系事实。在确定了文本中的提及(mention)后,RE主要通过上下文信息推断提及之间的关系。RE提取出的关系事实在知识图谱构建、语义搜索、智能问答等多个下游应用中有着广泛应用。2026/6/1206.4关系抽取关系抽取方法基于规则的方法:通过语句分析工具获取文本中的句法元素,再基于句法元素自动构建规则来进行关系抽取为了尽可能多地构建高效准确的规则,人们尝试使用更大的语料库、更多的规则抽取方法然而,由于规则都是自动构建的,因此往往需要人类专家进一步检查筛选,较为复杂繁琐,同时也限制了这类方法的适用范围2026/6/1216.4关系抽取关系抽取方法基于统计的方法:一种典型的方法是基于特征的关系分类,该类方法首先设计词汇,句法和语义特征,并将这些特征和实体上下文一起送入关系分类器基于句法依赖图的关系分类模型则将实体,文本和关系之间的依赖关系通过句法分析抽象为有向无环图,然后使用推理模型来识别正确的关系2026/6/1226.4关系抽取关系抽取方法基于统计的方法:基于嵌入的关系分类方法将文本编码为低维向量,并从语义空间中抽取实体之间的依赖关系基于统计的关系分类方法依然面临诸多挑战,基于特征的方法严重依赖于设计的特征,基于句法依赖图和嵌入的方法则受限于模型容量2026/6/1236.4关系抽取关系抽取方法基于神经网络的方法:基于神经网络的关系分类方法可以更加有效的捕获文本信息并拥有更强的泛化能力。该类方法主要研究如何利用不同的网络架构来捕获文本中的语义关系2026/6/1246.4关系抽取关系抽取方法基于神经网络的方法:例如,卷积神经网络可以有效捕捉文本的局部模式;递归神经网络可以更好的处理长序列数据;图卷积神经网络可以利用实体文本之间的句法依赖图推断语义关系;基于注意力的神经网络则可以利用注意力机制聚合相关信息,更好的处理长距离依赖问题2026/6/1256.4关系抽取研究方向弱监督关系抽取:传统有监督学习的关系抽取模型依赖于大规模高质量标注数据,然而人工标注这样的数据集代价高昂。为了方便的获取更多的数据,基于远程监督的数据标注方法被广泛使用,不可避免的引入大量噪声标签。如何在弱监督条件下进行关系抽取成为重要的研究方向2026/6/1266.4关系抽取研究方向小样本关系抽取:现实世界的关系分布是长尾的,只有少数常见关系存在足够的训练样本,大多数关系的相关样本则非常有限。由于这种现象,我们需要能够更有效地学习长尾关系的模型。小样本学习(few-shotlearning)专注于使用少量训练样本来训练模型,非常适用于现实应用中罕见关系的抽取2026/6/1276.4关系抽取研究方向小样本关系抽取:处理few-shotlearning主要有两种方法:①度量学习:在数据上学习语义度量方法,将查询样本与训练示例进行比较来进行关系分类;②元学习:也称为“学会学习”,旨在通过在元训练数据上获得的经验,掌握参数初始化和优化的方法,从而在训练数据有限的情况下快速收敛,获得在不同任务间快速迁移的能力2026/6/1286.4关系抽取研究方向开放域关系抽取:大多数关系抽取系统只能较好地处理预先定义的关系集。但现实场景中,关系的种类可能不断地增长。因此,我们希望关系抽取系统不仅能抽取预先定义的关系类型,还能抽取新出现的关系类型,也就是进行开放域关系抽取一些方法利用聚类技术从无监督数据中发现关系,另一些方法则使用抽取式模型直接从文本中抽取出关系名称2026/6/1296.5事件抽取引言事件抽取旨在从非结构化纯文本中抽取结构化的事件信息。事件的结构化信息主要包含表达特定事件的动名词(即触发词)和参与事件的核心要素(即论元)两部分2026/6/1306.5事件抽取事件检测:事件抽取的一个子任务,涉及识别文本中特定类型事件的实例并将这些实例精确地分类为事件类型。主要挑战性:某些触发词具有歧义性,基于上下文的不同,同一个触发词可能对应多种事件类型一个句子中经常会含有多个触发词,这些触发词之间的共现关系对事件检测的效果往往有很大影响2026/6/1316.5事件抽取事件检测——例:基于CNN的模型2026/6/1326.5事件抽取事件检测——例:基于CNN的模型CNN是事件检测的一个不错的选择,CNN能通过滑动窗口对文本的局部上下文进行表示,并为单词序列抽取最重要的部分预训练词向量的选择对事件检测

任务的性能有重要影响。用于训练词向量的数据、大小和训练算法都会影响性能2026/6/1336.5事件抽取事件检测——例:基于CNN的模型改进方案:添加更多的语义和语法特征来表示整个句子可以考虑创建字符级特征,其能在形态学上反映词语的特征,而原始词向量则能有效地捕获词级句法和语义信息例如,如果取一个不在训练数据中出现的新词,torturing,给定词根和后缀(即torturing),很自然地猜测这个新词是torture的变体,并且后者可能代表相同类型的事件,即Life.Injure。同时,因为词向量模型缺乏对不常见词的训练,添加字符级特征的另一个优点是可以处理拼写错误或自定义词语2026/6/1346.5事件抽取事件检测——例:基于CNN的模型改进方案:添加更多的语义和语法特征来表示整个句子除了字符级表示外,句子表示的另一种常用方法是使用RNN模型最后一层的隐状态向量。对于事件检测任务,还可在CNN或LSTM模型之上使用注意力机制来引入额外的信息源来指导句子表示的抽取2026/6/1356.5事件抽取2026/6/136融合基于RNN的句子表示的事件检测模型6.5事件抽取论元抽取:论元角色抽取问题,即识别和特定触发词相关的论元。该任务是事件抽取的第二个子任务,其前序任务是事件检测。理论上,事件抽取和事件检测是高度相互依赖的,但在实践中,这两个任务经常被看作两个独立的步骤论元抽取任务通常具有和事件检测任务相近的模型结构。如果一个句子中识别出了触发词,则执行下一阶段的论元抽取。2026/6/1376.5事件抽取开放域事件抽取:开放域事件抽取侧重于从文本中检测新的或从未出现过的事件,所以没有预定义的事件类型基于聚类的方法基于句法分析的方法基于半监督和远程监督的方法基于贝叶斯的方法基于对抗领域适应的方法……2026/6/1386.6小样本信息抽取信息抽取涵盖的几大任务,都是自然语言处理领域较为复杂的语义分析任务,数据集标注耗时耗力,在现实中通常难以获取较大规模的带标签数据真实应用场景经常需要针对某个领域特别定制模型,如金融领域、司法领域等,这些领域一般只能提供少量标注样本作为示例2026/6/1396.6小样本信息抽取传统的有监督学习方法更加难以应用,在这一背景下,小样本信息抽取应运而生。小样本信息抽取是指模型在泛化到新的类或者新的领域上时,只需要借助少量样本(一般每个类不多于20个样本)微调,就能做出准确的预测。小样本学习的定义形式较为多样,但目前最常使用元学习(Meta-learning)框架来解决小样本问题2026/6/1406.6小样本信息抽取元学习的含义为学会学习,即learntolearn。元学习希望使得模型获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务元学习在训练阶段会构造很多个轮数(Episode),来模拟小样本任务设置,每个Episode仅包含N*K个样本(N个类,每个类K个样本)作为支持集(SupportSet),另包含N*Q个样本(N个类,每个类Q个样本)作为查询集(QuerySet),支持集和查询集分别作为每个Episode内部的小型训练集和小型测试集使用,在训练阶段模型在支持集上微调,并通过查询集的预测结果来计算损失;在测试阶段模型则通过输出查询集的预测结果来验证其泛化性能2026/6/1416.6小样本信息抽取2026/6/142基于元学习的小样本信息抽取6.7预训练信息抽取模型通过前面几个小节的介绍,我们知道信息抽取是多一项样化的任务。例如:从任务类型来看,有命名实体识别、关系抽取、事件抽取等等从输出结构来看,有Span、Triplets、Records等等2026/6/1436.7预训练信息抽取模型信息抽取是多一项样化的任务如果为每个特定任务构建特定模型、数据,那么相对耗时耗力因此,一些研究考虑通过预训练的范式,构建一个统一的模型来处理这些信息抽取任务。除了便捷,这种建模方式也有利于知识在不同任务和场景下的共享以下以UIE(UniversalInformationExtraction)模型为例,介绍相关内容2026/6/1446.7预训练信息抽取模型2026/6/145UIE模型结构6.7预训练信息抽取模型UIE模型的主要思想在于,将IE任务分解为以下两个通用的原子过程,实现任务形式的统一Spotting:定位目标信息片段,如实体、事件的trigger、argument。具体地说,Spotting阶段根据特定的语义类型(semantictypes),定位对应的span——例如在"In1997,StevewasexcitedtobecometheCEOofApple"句中,若要求的语义类型是"person"(实体抽取),则需要定位的span就是"Steve";若要求的语义类型是"sentimentexpression"(情感抽取),则需要定位的span就是"excited2026/6/1466.7预训练信息抽取模型UIE模型的主要思想在于,将IE任务分解为以下两个通用的原子过程,实现任务形式的统一Aassociating:基于任务模式需求,关联上述片段,如entitypair间的relation、eventargument的role。具体地说,Associating阶段会在预先定义的模式(schema)中,为span分配角色——例如对于"_workfor_"这个模式,分别将"Steve"和"Apple"这两个span填进去2026/6/1476.7预训练信息抽取模型完成了上述的任务形式的统一后,UIE进一步通过定义统一的结构化表达语言和预训练,解决以下的几个问题:为不同的结构统一建模针对不同的任务自适应确定目标结构学习面向不同的任务的、通用的信息抽取知识2026/6/1486.7预训练信息抽取模型基于StructuredExtractionLanguage的UniformStructureEncoding2026/6/149StructuredExtractionLanguage6.7预训练信息抽取模型通过上图所示的二级结构统一不同IE任务的结构形式:AssoName的InfoSpan通过AssoName指示的关系与其上级SpotName的InfoSpan关联起来例如:①对于实体识别,就只需要SpotName这一级:SpotName:InfoSpan⇔EntityType:Span;②对于关系抽取:SpotName:InfoSpan⇔EntityType:Subject;AssoName:InfoSpan⇔Relation:Object;③对于事件抽取:SpotName:InfoSpan⇔EventType:EventTrigger;AssoName:InfoSpan⇔Role:Argument统一建模各项任务的结构还有一个优势,能同时进行多种类型的信息抽取2026/6/1506.7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论