版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
情感分析引言/基于注意力机制/基于图神经网络/预训练情感分析模型2026/6/11第五章情感分析引言常见子任务(情感分类、方面抽取、观点摘要)基于注意力机制的情绪分析通用注意力机制框架、注意力机制分类基于图神经网络的情绪分析图神经网络概念、图神经网络分类预训练情绪分析模型SentiWSP模型、SpanASTE模型、DualGCN模型案例:基于MindSpore实现的情绪分析2026/6/125.1引言情感分析:也称观点挖掘(opinionmining),旨在分析文本中表达的观点、情感等文档级别情感分析句子级别情感分析方面级别情感分析:捕获文本中对于某个确切的观点评价对象的情感“这家餐馆的服务很好,但环境有些差”餐馆的服务:正向情感餐馆的环境:负向情感2026/6/135.1引言方面级别情感分析:目标实体:如商品、服务、主题、人、事件等方面(aspect):目标实体的一个具体属性,如商品的质量、人的人品情绪:目标实体当前方面所包含的情感——如正向、中立、负向2026/6/145.1引言情感分析常见子任务:情感分类方面抽取观点摘要2026/6/155.1引言
2026/6/165.1引言
2026/6/175.1引言
2026/6/185.1引言情感分类:任务方法基于情感词典的无监督学习:情感词典包含情感词和情感短语的情感倾向性和情感强度。此外,还可结合情感加强词(“非常”,“很”等)、情感反转词(如,“但是”,“非”等)等。基本方式:将文本中的正面情感文本表述赋予正值,负面情感文本表述赋予负值,并考虑情感加强/反转词对于情感的影响,对文档中所有的情感表达的值进行求和。2026/6/195.1引言情感分类:任务方法基于监督学习的分类方法:传统机器学习:朴素贝叶斯、支持向量机等深度学习2026/6/1105.1引言方面抽取情感文本中通常存在一个或多个评价的对象或目标,方面抽取就是对给定的情感文本进行分析,抽取出其中涉及的情感对象“这家餐馆的服务很好,但环境有些差”
→餐馆的服务、环境2026/6/1115.1引言方面抽取传统机器学习方法:基于出现频率及词语属性的方法该类方法通常假设语料库中谈及某一对象时用的词语相同或类似,难以识别低频的方面词2026/6/1125.1引言方面抽取传统机器学习方法:基于句法关系的方法情感词和观点对象之间存在句法关系,表征两者之间的评价或修饰关系例如:“这家餐厅有着优越的地理位置”,情感词是“优越”,用于修饰方面词“地理位置”较依赖于句法解析结果的准确性,容易产生级联误差;且现在社交媒体等文本中,存在大量非正式文本,使得句法解析的正确性大大降低2026/6/1135.1引言方面抽取传统机器学习方法基于传统监督学习的方法:隐马尔可夫模型2026/6/1145.1引言
2026/6/1155.1引言观点摘要:情感信息挖掘结构化的关键任务,旨在对多个观点的结构化表示,以短文本形式输出2026/6/1165.1引言观点摘要子任务属性(方面)抽取:定位所有观点中的方面词,以及具有这些方面的句子情绪分类:对属性(方面)抽取中抽取的方面词进行情感极性预测观点生成:提取或生成非结构化文本中的重要观点摘要可视化:将提取到的结构化信息进行可视化2026/6/1175.1引言观点摘要有监督方法两阶段的方法:先抽取突出的观点子集,再基于抽取的观点子集进行摘要生成总结模型:抽取步骤容易导致信息损失,且不利于用户的定制化观点摘要生成。总结模型首先将所有输入评论压缩为稠密向量,直接用于摘要生成2026/6/1185.1引言观点摘要无监督方法知识驱动的弱监督框架:结合两个弱监督组件识别突出的观点,并从多评论中生成抽取式摘要,其中一个组件为在多任务目标下训练的方面提取器,另一个基于多实例学习进行情感预测个性化的观点摘要方案:使用户可以定制摘要的属性,如摘要长度,感兴趣的具体方面等2026/6/1195.2基于注意力机制的情绪分析注意力机制(Attentionmechanism)由于信息处理的能力限制,人类会有选择地关注一部分信息,而忽略其他信息。这种机制通常称为注意力机制注意力机制主要涉及两个方面:决定需要关注的信息的哪些部分,以及将有限的资源分配给重要的信息2026/6/1205.2基于注意力机制的情绪分析通用注意力机制框架2026/6/1215.2基于注意力机制的情绪分析
2026/6/1225.2基于注意力机制的情绪分析
2026/6/1235.2基于注意力机制的情绪分析注意力机制分类强注意力机制经典的注意力机制通常采用了软注意力的实现方式(通过注意力分布给不同的输入向量加权求和,从而将这些向量融合)相比之下,强注意力(HardAttention)则根据注意力分布从输入向量中选择一个作为输出2026/6/1245.2基于注意力机制的情绪分析注意力机制分类强注意力机制:两种输出选择方式选择分数最大的那一项对应的输入向量作为Attention机制的输出根据注意力分布进行随机采样,采样结果作为Attention机制的输出2026/6/1255.2基于注意力机制的情绪分析注意力机制分类强注意力机制:选择方式根据注意力分布从输入向量中选择一个作为输出会导致损失函数与注意力分布之间的函数关系不可导,从而无法使用反向传播算法来优化模型因此,通常需要使用强化学习算法进行训练,这种方法更加复杂且不稳定2026/6/1265.2基于注意力机制的情绪分析
2026/6/1275.2基于注意力机制的情绪分析
2026/6/1285.3基于图神经网络的情绪分析简介图:表示实体(顶点)的信息以及它们之间的连接关系(边)的数据结构。图的节点所包含的信息、边表达的信息、以及整个图表达的信息都可以用向量来表示2026/6/1295.3基于图神经网络的情绪分析图片:将每个像素点看成一个顶点,邻接的关系看成图中的边的,就可以用邻接矩阵来表示这个图片2026/6/1305.3基于图神经网络的情绪分析文本:将每个单词看成一个顶点,相邻的单词可以看成存在有向边连接2026/6/1315.3基于图神经网络的情绪分析其它:分子结构2026/6/1325.3基于图神经网络的情绪分析其它:人物关系2026/6/1335.3基于图神经网络的情绪分析简介图神经网络:在一个图结构中,每个节点都由自身的特征以及与其相连的节点特征来定义。图神经网络(GraphNeuralNetwork,GNN)是用于处理图结构数据的方法2026/6/1345.3基于图神经网络的情绪分析
2026/6/1355.3基于图神经网络的情绪分析
2026/6/1365.3基于图神经网络的情绪分析
2026/6/1375.3基于图神经网络的情绪分析
2026/6/1385.3基于图神经网络的情绪分析
2026/6/1395.4预训练情绪分析模型SentiWSP模型(Sentiment-AwareWordandSentenceLevelPre-training)从词级别学习更加丰富的情感信息在句子级别构造更加有效的预训练任务,提升模型对文本整体情感信息的学习2026/6/1405.4预训练情绪分析模型SentiWSP模型2026/6/1415.4预训练情绪分析模型SentiWSP模型词级别预训练随机掩盖15%的单词,基于SentiWordNet对句子中出现的情感词进行标记,再继续对这些情感词经行掩盖生成器会对遮盖的词生成概率分布,模型将在这些概率分布中做采样进行替换,然后将替换之后的句子再输入到判别器,判断每一个词是否被替换了2026/6/1425.4预训练情绪分析模型SentiWSP模型句子级别预训练目的:学习更加高效的表征正例构造:对原始序列的情感词进行遮掩后形成query,而原始的序列即作为其正例负例构造:同一个batch内的非正例作为负例、基于近似最近邻居检索的困难负例挖掘2026/6/1435.4预训练情绪分析模型SpanASTE模型该模型面向情感三元组抽取(AspectSentimentTripletExtraction,ASTE)任务,希望输出方面项(目标项)、情感极性和意见项提出一种基于跨度的方法,从而更好地学习目标项和观点项之间的关系,同时,基于跨度的方法可以确保抽取出的结果有更好的情感一致性,且这种端到端的方法可以避免现有的Pipeline方法中的误差传播问。2026/6/1445.4预训练情绪分析模型SpanASTE模型该模型面向情感三元组抽取(AspectSentimentTripletExtraction,ASTE)任务,希望输出方面项(目标项)、情感极性和意见项2026/6/1455.4预训练情绪分析模型SpanASTE模型2026/6/1465.4预训练情绪分析模型SpanASTE模型模型主要由三个模块构成——句子编码模块(SentenceEncoding)、提及模块(MentionModule)和三元组模块(TripletModule)句子首先输入到句子编码模块,获得token级别的表示后,再从中得到每个枚举跨度的跨度级别表示,然后用方面项抽取和观点项抽取任务来监督双通道跨度修剪策略,得到修剪后的候选目标和候选观点,再对它们进行耦合,作为特征进行分类2026/6/1475.4预训练情绪分析模型DualGCN模型利用依赖树的图神经网络已被用于显式地建模方面和观点词之间的联系,但由于依赖解析结果具有不确定性,且一些数据集收集的在线评论的非正式表达和复杂性,都会影响这种方法的性能该模型利用双重图卷积网络(DualGCN),同时考虑句法知识和语义相关性,并设计了两个正则化器来增强性能2026/6/1485.4预训练情绪分析模型DualGCN模型这个例子展示了一个句子中包含两个方面项,且对应的情感极性时不同的2026/6/1495.4预训练情绪分析模型DualGCN模型2026/6/1505.4预训练情绪分析模型DualGCN模型模型主要分为四个部分——基于句法的GCN(SynGCN)、基于语义的GCN(SemGCN),双仿射模块和正则化器首先利用BiLSTM或BERT作为句子编码器获得隐藏的上下文表示,然后将句子的隐藏表示分别输入SynGCN和SemGCN模块,接着用双仿射模块进行有效的信息交流,最后通过池化和连接聚合得到最终的方面表示2026/6/1515.5案例:基于MindSpore实现的情绪分析本小节以IMDB影评情感分类为例来体验MindSpore在自然语言处理中情感分类任务上的应用参数配置模型搭建模型训练模型评估2026/6/1525.5案例:基于MindSpore实现的情绪分析2026/6/153#加载库、mindspore框架importargparsefrommindsporeimportcontextfromeasydictimportEasyDictasedict
#LSTM网络设置lstm_cfg=edict({
'num_classes':2,'learning_rate':0.1,'momentum':0.9,'num_epochs':10,
'batch_size':64,'embed_size':300,'num_hiddens':100,'num_layers':2,
'bidirectional':True,'save_checkpoint_steps':390,'keep_checkpoint_max':10})
cfg=lstm_cfg5.5案例:基于MindSpore实现的情绪分析2026/6/154#参数设置parser=argparse.ArgumentParser(description='MindSporeLSTMExample')parser.add_argument('--preprocess',type=str,default='false',choices=['true','false'])parser.add_argument('--aclimdb_path',type=str,default="./datasets/aclImdb")parser.add_argument('--glove_path',type=str,default="./datasets/glove")parser.add_argument('--preprocess_path',type=str,default="./preprocess")parser.add_argument('--ckpt_path',type=str,default="./models/ckpt/nlp_application")parser.add_argument('--pre_trained',type=str,default=None)parser.add_argument('--device_target',type=str,default="GPU",choices=['GPU','CPU'])args=parser.parse_args(['--device_target','GPU','--preprocess','true'])
#配置训练所需相关参数context.set_context(mode=context.GRAPH_MODE,save_graphs=False,device_target=args.device_target)5.5案例:基于MindSpore实现的情绪分析2026/6/155参数含义:preprocess:是否预处理数据集,默认为否aclimdb_path:数据集存放路径glove_path:GloVe文件存放路径preprocess_path:预处理数据集的结果文件夹ckpt_path:CheckPoint文件路径pre_trained:预加载CheckPoint文件device_target:指定GPU或CPU环境以下以LSTM网络为例,搭建模型5.5案例:基于MindSpore实现的情绪分析2026/6/156以下以LSTM网络为例,搭建模型#导入初始化网络所需模块frommindsporeimportnnimportmindspore.opsasopsimportnumpyasnpfrommindsporeimportTensor5.5案例:基于MindSpore实现的情绪分析2026/6/157classSentimentNet(nn.Cell):
def__init__(self,vocab_size,embed_size,num_hiddens,num_layers,bidirectional,num_classes,weight,batch_size):
super(SentimentNet,self).__init__()
#词嵌入
self.embedding=nn.Embedding(vocab_size,embed_size,embedding_table=weight)
self.embedding.embedding_table.requires_grad=False
self.trans=ops.Transpose()
self.perm=(1,0,2)
self.encoder=nn.LSTM(input_size=embed_size,hidden_size=num_hiddens,num_layers=num_layers,
has_bias=True,bidirectional=bidirectional,dropout=0.0)
self.concat=ops.Concat(1)
self.squeeze=ops.Squeeze(axis=0)
ifbidirectional:
self.decoder=nn.Dense(num_hiddens*4,num_classes)
else:
self.decoder=nn.Dense(num_hiddens*2,num_classes)5.5案例:基于MindSpore实现的情绪分析2026/6/158classSentimentNet(nn.Cell):
def__init__(self,vocab_size,embed_size,num_hiddens,num_layers,bidirectional,num_classes,weight,batch_size):
#(参考上页)
defconstruct(self,inputs):
#input:(64,500,300)
embeddings=self.embedding(inputs)
embeddings=self.trans(embeddings,self.perm)
output,_=self.encoder(embeddings)
#states[i]size(64,200)
->encoding.size(64,400)
encoding=self.concat((self.squeeze(output[0:1:1]),self.squeeze(output[499:500:1])))
outputs=self.decoder(encoding)
returnoutputs5.5案例:基于MindSpore实现的情绪分析2026/6/159embedding_table=np.loadtxt(os.path.join(args.preprocess_path,"weight.txt")).astype(np.float32)network=SentimentNet(vocab_size=embedding_table.shape[0],embed_size=cfg.embed_size,
num_hiddens=cfg.num_hiddens,num_layers=cfg.num_layers,
bidirectional=cfg.bidirectional,num_classes=cfg.num_classes,
weight=Tensor(embedding_table),batch_size=cfg.batch_size)
print(network.parameters_dict(recurse=True))在上面这段代码中,lstm_default_state函数用来初始化网络参数及网络状态;stack_lstm_default_state函数用来初始化小算子堆叠需要的初始化网络参数及网络状态;针对CPU场景,自定义单层LSTM小算子堆叠,实现了多层LSTM大算子功能;Cell方法,定义网络结构后,通过实例化SentimentNet,成功创建网络,最后输出了网络中加载的参数5.5案例:基于MindSpore实现的情绪分析2026/6/160以下代码在创建优化器和损失函数模型,并加载训练数据集(ds_train)并配置好CheckPoint生成信息后,使用model.train接口进行模型训练frommindsporeimportModelfrommindspore.train.callbackimportCheckpointConfig,ModelCheckpoint,TimeMonitor,LossMonitorfrommindspore.nnimportAccuracyfrommindsporeimportnn5.5案例:基于MindSpore实现的情绪分析2026/6/161os.system("rm-f{0}/*.ckpt{0}/*.meta".format(args.ckpt_path))loss=nn.SoftmaxCrossEntropyWithLogits(sparse=True,reduction='mean')opt=nn.Momentum(network.trainable_params(),cfg.learning_rate,cfg.momentum)model=Model(network,loss,opt,{'acc':Accuracy()})loss_cb=LossMonitor(per_print_times=78)print("==============StartingTraining==============")config_ck=CheckpointConfig(save_checkpoint_steps=cfg.save_checkpoint_steps,
keep_checkpoint_max=cfg.keep_checkpoint_max)ckpoint_cb=ModelCheckpoint(prefix="lstm",directory=args.ckpt_path,config=config_ck)time_cb=TimeMonitor(data_size=ds_train.get_dataset_size())ifargs.device_target=="CPU":
model.train(cfg.num_epochs,ds_train,callbacks=[time_cb,ckpoint_cb,loss_cb],dataset_sink_mode=False)else:
model.train(cfg.num_epochs,ds_train,callbacks=[time_cb,ckpoint_cb,loss_cb])print("==============TrainingSuccess==============")5.5案例:基于MindSpore实现的情绪分析2026/6/162模型验证frommindsporeimportload_checkpoint,load_param_into_netargs.ckpt_path_saved=f'{args.ckpt_path}/lstm-{cfg.num_epochs}_390.ckpt'print("==============StartingTesting==============")ds_eval=lstm_create_dataset(args.preprocess_path,cfg.batch_size,training=False)param_dict=load_checkpoint(args.ckpt_path_saved)load_param_into_net(network,param_dict)ifargs.device_target=="CPU":
acc=model.eval(ds_eval,dataset_sink_mode=False)else:
acc=model.eval(ds_eval)print("=============={}==============".format(acc))信息抽取简介/命名实体识别/实体链接/关系抽取/事件抽取/小样本事件抽取/预训练信息抽取模型2026/6/163第六章信息抽取命名实体识别任务简介、NER模型概述实体链接通用架构、常见研究方向关系抽取任务简介、RE模型概述、常见研究方向事件抽取事件检测、论元抽取小样本信息抽取预训练信息抽取模型2026/6/1646.1简介信息抽取(informationextraction,IE),即从文本中抽取出特定的信息(如实体、事件)并将海量内容自动分类、提取和重构。命名实体识别(NamedEntityRecognition,NER)实体链接(EntityLinking,EL)关系抽取(RelationExtraction,RE)事件抽取(EventExtraction,EE)……2026/6/1656.2命名实体识别任务简介(NamedEntityRecognition,NER)命名实体一般指文本中具有特定意义或者指代性强的实体经典的类型:实体类,时间类,数字类(三大类)和人名、地名、组织机构名、时间、日期、货币、百分比(七小类)在实际场景中,根据业务需求的不同,需要识别出更多类别的实体2026/6/1666.2命名实体识别任务简介(NamedEntityRecognition,NER)NER从非结构化的文本中抽取出实体例如:对于文本“苹果公司是由乔布斯、沃兹尼艾克和罗纳德·韦恩创办的。”,实体包括:“苹果公司”(组织机构名),“乔布斯”、“沃兹尼艾克”和“罗纳德·韦恩”(人名)2026/6/1676.2命名实体识别NER模型基于规则的NER系统:规则设计通常基于句法、语法、词汇模式以及特定领域的知识等方面基于规则的NER系统在字典规模有限时可以达到很好的效果不通用,对于新的领域,需要重新制定规则并使用不同的词典2026/6/1686.2命名实体识别NER模型基于传统机器学习的NER系统:隐马尔可夫模型(HiddenMarkovModel,HMM):直接建模转移概率和表现概率,并统计共现概率来解决序列标注问题最大熵(MaximumEntropy,ME)模型:结构紧凑、通用性强,但训练时间复杂度非常高最大熵马尔可夫模型(MaximumEntropyMarkovModel,MEMM):建立联合概率来统计条件概率,解决了HMM容易陷入局部最优解的问题2026/6/1696.2命名实体识别NER模型基于传统机器学习的NER系统:支持向量机(SupportVectorMachine,SVM):在准确率上比HMM更高,但是HMM能够通过Viterbi算法优化,使其在训练和识别时的速度更快条件随机场(ConditionalRandomFields,CRF)模型:通过统计全局概率,考虑数据在全局的分布而非在局部进行归一化,解决了MEMM中标记偏置的问题。但是,CRF模型也存在收敛速度慢、训练时间长的问题2026/6/1706.2命名实体识别NER模型基于深度学习的NER系统:近年来,基于神经网络的命名实体识别方法越来越受到关注,其结合了注意力机制、图神经网络、迁移学习和远程监督等技术2026/6/1716.2命名实体识别NER模型基于深度学习的NER系统——优势深度学习可以适应非线性转换深度学习避免了大量手动特征的构建,节省了设计NER模型的大量人工成本深度学习通过梯度传播进行训练,可以构建更复杂的网络深度学习可以在端到端的方式下进行训练,避免了多阶段的繁琐处理2026/6/1726.2命名实体识别NER模型基于预训练模型的方法:预训练语言模型如BERT、RoBERTa等均能在单词级别进行分类,因而能够适用于NER任务并取得较好的效果例如:仅通过BERT+CRF层便能超过各种精心设计的基于BiLSTM的模型,这得益于预训练语言模型中包含的大量通用领域的知识,使得模型能够更好地学到上下文相关的词表示2026/6/1736.3实体链接引言机器往往需要解析非结构化文本,挖掘实体并与知识图谱中的记录匹配,最终从知识图谱中获取相关语义信息,这一过程被称为“实体链接”实体链接是指将自然语言文本中出现的实体提及(entitymention)关联到知识库实体实体链接可分为实体识别(EntityRecognition)和实体消歧(EntityDisambiguation)两个阶段。实体识别阶段负责提取文本中出现的实体提及,实体消歧阶段负责将提及链接到知识图谱中存在的记录中2026/6/1746.3实体链接通用架构2026/6/1756.3实体链接通用架构候选实体生成:发现针对给定的实体提及其可能的链接对象,提高实体链接的准确率,同时尽可能排除不相关实体,减小排序空间基于文本匹配生成候选实体基于“提及-实体”词典生成候选实体基于实体描述生成候选实体基于搜索引擎生成候选实体2026/6/1766.3实体链接通用架构候选实体排序:负责对生成的候选实体进行精排,确定最终的链接目标。通常而言,该部分将提及连同其上下文以及候选实体编码为稠密向量,最终结合向量相似度以及提及与实体的先验匹配概率对候选实体排序实体提及、上下文编码:将给定实体提及与其对应上下文编码为低维稠密的向量化表示实体编码:将实体编码为低维稠密的向量化表示,该阶段常常考虑实体在知识图谱中的关系信息,实体描述信息等辅助资源2026/6/1776.3实体链接研究方向联合实体识别与消歧:实体链接方法往往将实体识别与实体消歧作为两个独立的步骤,部分研究提出使用一个模型同时完成实体识别与消歧,以联合学习方式提升实体链接整体性能。使用同一个模型解决两个不同的任务显然是更加困难的设置,但实体识别与消歧存在相互依赖关系,这两个步骤之间的相互作用有助于提升整体模型性能2026/6/1786.3实体链接研究方向零样本实体链接:在现实应用中,使用者通常希望链接到专业实体词典,例如法律案例、公司项目描述、小说中的字符集或术语表。然而,获取这类专业领域中的标记数据往往代价高昂。因此,部分研究者开始研究可以泛化到专业领域的实体链接系统,由于没有频率统计和元数据,这一任务颇具挑战性2026/6/1796.3实体链接研究方向零样本实体链接——挑战由于缺乏强大的别名表和频率先验,模型必须从实体描述中挖掘有价值的线索并与提及进行匹配由于不提供任何测试实体的训练数据,模型必须适应新的提及上下文和实体描述2026/6/1806.4关系抽取引言形如(主体,关系,客体)的三元组以结构化形式描述了世界知识,这些知识可能显式或隐式地存在于文本中。例如,句子“SteveJobs创建了Apple公司”表示事实(Apple公司,创建者,SteveJobs)2026/6/1816.4关系抽取引言关系抽取(RelationExtraction,RE)的目标是从文本中提取这些关系事实。在确定了文本中的提及(mention)后,RE主要通过上下文信息推断提及之间的关系。RE提取出的关系事实在知识图谱构建、语义搜索、智能问答等多个下游应用中有着广泛应用。2026/6/1826.4关系抽取关系抽取方法基于规则的方法:通过语句分析工具获取文本中的句法元素,再基于句法元素自动构建规则来进行关系抽取为了尽可能多地构建高效准确的规则,人们尝试使用更大的语料库、更多的规则抽取方法然而,由于规则都是自动构建的,因此往往需要人类专家进一步检查筛选,较为复杂繁琐,同时也限制了这类方法的适用范围2026/6/1836.4关系抽取关系抽取方法基于统计的方法:一种典型的方法是基于特征的关系分类,该类方法首先设计词汇,句法和语义特征,并将这些特征和实体上下文一起送入关系分类器基于句法依赖图的关系分类模型则将实体,文本和关系之间的依赖关系通过句法分析抽象为有向无环图,然后使用推理模型来识别正确的关系2026/6/1846.4关系抽取关系抽取方法基于统计的方法:基于嵌入的关系分类方法将文本编码为低维向量,并从语义空间中抽取实体之间的依赖关系基于统计的关系分类方法依然面临诸多挑战,基于特征的方法严重依赖于设计的特征,基于句法依赖图和嵌入的方法则受限于模型容量2026/6/1856.4关系抽取关系抽取方法基于神经网络的方法:基于神经网络的关系分类方法可以更加有效的捕获文本信息并拥有更强的泛化能力。该类方法主要研究如何利用不同的网络架构来捕获文本中的语义关系2026/6/1866.4关系抽取关系抽取方法基于神经网络的方法:例如,卷积神经网络可以有效捕捉文本的局部模式;递归神经网络可以更好的处理长序列数据;图卷积神经网络可以利用实体文本之间的句法依赖图推断语义关系;基于注意力的神经网络则可以利用注意力机制聚合相关信息,更好的处理长距离依赖问题2026/6/1876.4关系抽取研究方向弱监督关系抽取:传统有监督学习的关系抽取模型依赖于大规模高质量标注数据,然而人工标注这样的数据集代价高昂。为了方便的获取更多的数据,基于远程监督的数据标注方法被广泛使用,不可避免的引入大量噪声标签。如何在弱监督条件下进行关系抽取成为重要的研究方向2026/6/1886.4关系抽取研究方向小样本关系抽取:现实世界的关系分布是长尾的,只有少数常见关系存在足够的训练样本,大多数关系的相关样本则非常有限。由于这种现象,我们需要能够更有效地学习长尾关系的模型。小样本学习(few-shotlearning)专注于使用少量训练样本来训练模型,非常适用于现实应用中罕见关系的抽取2026/6/1896.4关系抽取研究方向小样本关系抽取:处理few-shotlearning主要有两种方法:①度量学习:在数据上学习语义度量方法,将查询样本与训练示例进行比较来进行关系分类;②元学习:也称为“学会学习”,旨在通过在元训练数据上获得的经验,掌握参数初始化和优化的方法,从而在训练数据有限的情况下快速收敛,获得在不同任务间快速迁移的能力2026/6/1906.4关系抽取研究方向开放域关系抽取:大多数关系抽取系统只能较好地处理预先定义的关系集。但现实场景中,关系的种类可能不断地增长。因此,我们希望关系抽取系统不仅能抽取预先定义的关系类型,还能抽取新出现的关系类型,也就是进行开放域关系抽取一些方法利用聚类技术从无监督数据中发现关系,另一些方法则使用抽取式模型直接从文本中抽取出关系名称2026/6/1916.5事件抽取引言事件抽取旨在从非结构化纯文本中抽取结构化的事件信息。事件的结构化信息主要包含表达特定事件的动名词(即触发词)和参与事件的核心要素(即论元)两部分2026/6/1926.5事件抽取事件检测:事件抽取的一个子任务,涉及识别文本中特定类型事件的实例并将这些实例精确地分类为事件类型。主要挑战性:某些触发词具有歧义性,基于上下文的不同,同一个触发词可能对应多种事件类型一个句子中经常会含有多个触发词,这些触发词之间的共现关系对事件检测的效果往往有很大影响2026/6/1936.5事件抽取事件检测——例:基于CNN的模型2026/6/1946.5事件抽取事件检测——例:基于CNN的模型CNN是事件检测的一个不错的选择,CNN能通过滑动窗口对文本的局部上下文进行表示,并为单词序列抽取最重要的部分预训练词向量的选择对事件检测
任务的性能有重要影响。用于训练词向量的数据、大小和训练算法都会影响性能2026/6/1956.5事件抽取事件检测——例:基于CNN的模型改进方案:添加更多的语义和语法特征来表示整个句子可以考虑创建字符级特征,其能在形态学上反映词语的特征,而原始词向量则能有效地捕获词级句法和语义信息例如,如果取一个不在训练数据中出现的新词,torturing,给定词根和后缀(即torturing),很自然地猜测这个新词是torture的变体,并且后者可能代表相同类型的事件,即Life.Injure。同时,因为词向量模型缺乏对不常见词的训练,添加字符级特征的另一个优点是可以处理拼写错误或自定义词语2026/6/1966.5事件抽取事件检测——例:基于CNN的模型改进方案:添加更多的语义和语法特征来表示整个句子除了字符级表示外,句子表示的另一种常用方法是使用RNN模型最后一层的隐状态向量。对于事件检测任务,还可在CNN或LSTM模型之上使用注意力机制来引入额外的信息源来指导句子表示的抽取2026/6/1976.5事件抽取2026/6/198融合基于RNN的句子表示的事件检测模型6.5事件抽取论元抽取:论元角色抽取问题,即识别和特定触发词相关的论元。该任务是事件抽取的第二个子任务,其前序任务是事件检测。理论上,事件抽取和事件检测是高度相互依赖的,但在实践中,这两个任务经常被看作两个独立的步骤论元抽取任务通常具有和事件检测任务相近的模型结构。如果一个句子中识别出了触发词,则执行下一阶段的论元抽取。2026/6/1996.5事件抽取开放域事件抽取:开放域事件抽取侧重于从文本中检测新的或从未出现过的事件,所以没有预定义的事件类型基于聚类的方法基于句法分析的方法基于半监督和远程监督的方法基于贝叶斯的方法基于对抗领域适应的方法……2026/6/11006.6小样本信息抽取信息抽取涵盖的几大任务,都是自然语言处理领域较为复杂的语义分析任务,数据集标注耗时耗力,在现实中通常难以获取较大规模的带标签数据真实应用场景经常需要针对某个领域特别定制模型,如金融领域、司法领域等,这些领域一般只能提供少量标注样本作为示例2026/6/11016.6小样本信息抽取传统的有监督学习方法更加难以应用,在这一背景下,小样本信息抽取应运而生。小样本信息抽取是指模型在泛化到新的类或者新的领域上时,只需要借助少量样本(一般每个类不多于20个样本)微调,就能做出准确的预测。小样本学习的定义形式较为多样,但目前最常使用元学习(Meta-learning)框架来解决小样本问题2026/6/11026.6小样本信息抽取元学习的含义为学会学习,即learntolearn。元学习希望使得模型获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务元学习在训练阶段会构造很多个轮数(Episode),来模拟小样本任务设置,每个Episode仅包含N*K个样本(N个类,每个类K个样本)作为支持集(SupportSet),另包含N*Q个样本(N个类,每个类Q个样本)作为查询集(QuerySet),支持集和查询集分别作为每个Episode内部的小型训练集和小型测试集使用,在训练阶段模型在支持集上微调,并通过查询集的预测结果来计算损失;在测试阶段模型则通过输出查询集的预测结果来验证其泛化性能2026/6/11036.6小样本信息抽取2026/6/1104基于元学习的小样本信息抽取6.7预训练信息抽取模型通过前面几个小节的介绍,我们知道信息抽取是多一项样化的任务。例如:从任务类型来看,有命名实体识别、关系抽取、事件抽取等等从输出结构来看,有Span、Triplets、Records等等2026/6/11056.7预训练信息抽取模型信息抽取是多一项样化的任务如果为每个特定任务构建特定模型、数据,那么相对耗时耗力因此,一些研究考虑通过预训练的范式,构建一个统一的模型来处理这些信息抽取任务。除了便捷,这种建模方式也有利于知识在不同任务和场景下的共享以下以UIE(UniversalInformationExtraction)模型为例,介绍相关内容2026/6/11066.7预训练信息抽取模型2026/6/1107UIE模型结构6.7预训练信息抽取模型UIE模型的主要思想在于,将IE任务分解为以下两个通用的原子过程,实现任务形式的统一Spotting:定位目标信息片段,如实体、事件的trigger、argument。具体地说,Spotting阶段根据特定的语义类型(semantictypes),定位对应的span——例如在"In1997,StevewasexcitedtobecometheCEOofApple"
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美银-互联网电子商务行业概述:智能体AI与更强大互联网的前景-Agentic AI and the promise of a more capable Internet-20260528
- 农业技术推广对农户绿色生产行为的影响研究意义
- 包装跌落测试作业指导书
- 家庭藤编家具清洁指南
- 《时尚北京》26年6月刊
- T∕CROAKER 009-2026 大黄鱼活体运输病原控制规程
- 2026年天津市汉阳道中学中考英语模拟试卷(含详细答案解析)
- 人类的起源与进化(教学课件)2025-2026学年苏科版八年级下册生物
- 2026年【金属非金属矿山安全检查(地下矿山)】考试总结及金属非金属矿山安全检查(地下矿山)试题及解析
- 慢性咳嗽病因诊断与对症诊疗指南 (2026 版)
- 土地制度与政策2016.4
- JGT266-2011 泡沫混凝土标准规范
- 部队安全员职责
- 心内科运用PDCA降低心内科住院病人跌倒发生率品管圈成果汇报书
- 施耐德ATS48软启动器使用手册
- 环境影响评价报告公示:脂肪叔胺及季铵盐第章工程现状分析环评报告
- LY/T 1000-2013容器育苗技术
- GB/T 30516-2014高粘高弹道路沥青
- GB/T 23723.1-2009起重机安全使用第1部分:总则
- GA/T 487-2020橡胶减速丘
- 人教版八年级下册道德与法治全册教案完整版教学设计含教学反思
评论
0/150
提交评论