版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章信息抽取信息抽取的三大基本任务:实体、关系与事件抽取第七章信息抽取命名实体识别从文本中识别出实体的命名性指称并分类,如人名、地名、机构名等,是信息抽取的基础任务。关系抽取识别实体间的语义关系,如“任职”“位于”,构建实体间的结构化关联,支撑知识图谱构建。事件抽取抽取事件的触发词及其论元角色,如时间、地点、参与者,实现对复杂语义场景的结构化建模。目录命名实体识别关系抽取事件抽取基于预训练语言模型与大语言模型的信息抽取第七章信息抽取命名实体识别相关概念人名组织/机构名地理位臵时间/日期字符值金额值第七章信息抽取命名性指称指实体的正式名称,如人名、地名等专有名词,是NER主要识别对象。名词性指称通过描述性短语指代实体,如‘特斯拉首席执行官’,依赖上下文理解。指代性指称使用代词如‘他’‘她’指代前文实体,需结合语境进行消解。命名实体识别挑战人名组织/机构名地理位臵时间/日期字符值金额值第七章信息抽取实体嵌套问题实体歧义问题实体对齐问题新词/特殊词问题语言多样性问题新词、网络用语、缩写及跨语言表达频现,且中文无显式词边界,加大了特征提取与模型泛化难度。文本中存在嵌套、交叉的实体结构,如“南京市长江大桥”包含多层命名实体,难以准确切分边界。同一词语在不同上下文中可能指向不同类型实体,如“苹果”可指公司或水果,增加识别不确定性。通用领域与特定领域的实体类型差异第七章信息抽取01通用实体类型涵盖人名、地名、机构名等常见类别。这些类型在多数文本中广泛存在。适用于通用信息抽取场景。02特定领域扩展如生物医学中的蛋白质、基因。金融领域的股票、合伙人等实体。需专业知识支持识别。03命名体系复杂特定领域实体命名规则繁杂。依赖专业术语与上下文理解。增加识别难度。04依赖专业语料精准识别需领域内标注数据。训练模型依赖高质量语料库。缺乏数据影响效果。05应用驱动界定实体类型根据使用场景确定。不同任务关注不同实体。体现实际需求导向。06医疗信息抽取需重点识别疾病与药物名称。反映领域特异性需求。展示精细化差异。实体歧义、别名指代与实体对齐问题的现实影响第七章信息抽取01实体消歧挑战同一名称可能指向不同实体,需结合上下文判断。上下文信息对准确识别至关重要。消歧是提升识别精度的关键步骤。02指代多样性同一实体常有多种别名或表达方式。这增加了识别与归一化的难度。模型需具备强泛化能力应对变体。03名称歧义问题不同实体可能共享相同名称。缺乏上下文易导致识别错误。需依赖语境进行精准区分。04实体统一难点将多样指称关联到唯一真实实体是核心挑战。涉及指代消解与知识融合。影响知识库构建质量。05上下文依赖性准确识别依赖前后文语义信息。孤立词语难以确定实体类型。上下文增强模型理解能力。06知识结构化难实体识别是知识融合的基础环节。识别不准将影响后续结构化处理。制约知识图谱构建效率。无显式词界中文词语间无空格分隔,需依赖模型自动切词,增加实体边界识别难度。字符级复杂中文字符组合灵活,单字多义性强,对上下文建模能力提出更高要求。命名实体识别方法第七章信息抽取范式转变从依赖人工规则到数据驱动的深度学习,信息抽取实现了由知识工程向表示学习的范式跃迁。特征工程差异传统方法需手工设计特征,而深度学习自动学习上下文语义表示,显著提升模型泛化能力。模型架构进化从HMM、CRF到BiLSTM-CRF,再到BERT等预训练模型,编码能力持续增强,抽取精度大幅提升。基于规则的方法基于统计机器学习的方法基于深度学习的方法基于规则的实体抽取方法第七章信息抽取实体识别人名识别匹配‘Xxxxx+himself’模式,识别如‘Jordanhimself’为人名实体。基于语法规则提取独立大写词组合,判断为人称指称。结合上下文消歧,排除代词重复指代的干扰项。机构识别通过‘Titleof/at/withXxxx+’结构识别机构名称。标注如‘DirectorwithSchoolofComputer’为机构实体。利用领域关键词库辅助判断组织类名词短语。规则构建由语言学家手工设计句法-语义融合规则。依托专家知识定义实体边界的触发条件和约束。模式匹配使用正则表达式实现对固定结构的语言模式捕获。支持大小写敏感与词性标签联合匹配机制。专家系统依赖人工构建的知识库进行高精度实体判定。适用于特定领域且标注一致性要求高的场景。应用效果在限定文本中可准确标注复合结构的人名与机构名。对未登录模式泛化能力弱,需持续更新规则集。第七章信息抽取规则驱动识别基于语言学规律设计显式规则,匹配文本中符合模式的命名实体,无需训练数据即可启动识别。词典与模式结合利用人工构建的词典和正则表达式,结合上下文词汇、大小写、标点等特征定位候选实体。句法语义规则通过语法结构(如主谓宾)和语义搭配(如‘任职于’后接机构名)提升识别准确性。早期系统应用爱丁堡大学LTG系统使用手工规则库,实现对人名、地点、组织等实体的有效识别。规则冲突专家手工设计的规则可能存在逻辑矛盾,导致同一文本片段被赋予不同标签,需进行优先级判定与消解。召回率低依赖固定词典与有限规则难以覆盖新词、变体及隐含表达,大量真实实体未被识别,造成系统漏检严重。泛化性差领域特定规则难以迁移至其他场景,面对新领域需重新构建规则库,维护成本高且扩展能力弱。基于规则的实体抽取方法基于统计机器学习的命名实体识别——序列标注第七章信息抽取字本身的特征-是否是数字-是否是字符前后缀特征-姓氏:李XX、王X-地名:XX省、XX市词本身的特征-边界特征:边界词概率-词性-依存关系基于统计机器学习的命名实体识别——序列标注第七章信息抽取IOB标注体系IO标注体系IOB标注体系IO标注体系由OO印B-ORGI-ORG中B-ORGI-ORG尼I-ORGI-ORG国I-ORGI-ORG女I-ORGI-ORG女I-ORGI-ORG队I-ORGI-ORG队I-ORGI-ORG的OO的OO王B-PERI-PER叶B-PERI-PER莲I-PERI-PER钊I-PERI-PER香I-PERI-PER颖I-PERI-PER迎OO战OO基于统计机器学习的命名实体识别——HMM、CRF第七章信息抽取有向图模型生成式模型找到使P(X,Y)最大的参数假设特征之间是独立的无向图模型判别式模型找到使P(Y|X)最大的参数没有关于特征之间是独立的假设基于深度学习的命名实体识别第七章信息抽取自动特征学习深度学习模型可自动从原始文本中学习有效特征,无需人工设计词性、大小写等手工特征。端到端建模模型直接输入字或词序列,输出标签序列,实现端到端训练,简化流程并提升泛化能力。上下文感知强通过BiLSTM、Transformer等结构捕捉长距离语义依赖,显著提升实体边界和类型判断精度。基于统计机器学习的命名实体识别——LSTM-CRF第七章信息抽取GuillaumeLampleetal.NAACL-HIT.
2016标签转移CRF引入标签转移矩阵,学习合法标签跳转模式,如I-PER必须前接B-PER或I-PER。全局优化CRF通过维特比算法搜索全局最优标签序列,避免局部错误导致的不连贯标注。基于统计机器学习的命名实体识别第七章信息抽取序列建模方法RNN模型通过隐藏状态传递序列信息,具有时序记忆能力。受限于梯度消失问题,难以捕捉长距离依赖关系。LSTM改进引入输入门、遗忘门和输出门控制信息流动。有效缓解梯度消失,增强对长序列的建模能力。BiLSTM结构结合前向和后向LSTM,同时捕获上下文语义特征。显著提升上下文表示能力,适用于NER等任务。上下文理解自然语言具有强序列依赖,需准确识别实体边界。模型需充分建模前后文以理解语义类型与结构。命名实体识别利用BiLSTM作为编码层提取上下文特征表示。结合CRF等解码策略,实现端到端实体识别。深度网络演进从简单RNN到门控机制,体现对长程依赖的优化。双向结构进一步推动序列建模范式的发展。目录命名实体识别关系抽取事件抽取基于预训练语言模型与大语言模型的信息抽取第一章绪论关系抽取概念及挑战第七章信息抽取同一种关系多种表达同一动词触发不同关系关系重叠问题隐藏关系、多元关系关系抽取概念及挑战第七章信息抽取公司A公司B关系(A是B的)时间来源中兴通讯卓翼科技(002369)客户2013.03.05
中国证券网
公司公告中兴康讯Acacia客户2015.12.28OFweek光通讯网
行业新闻关系涉及实体跨句、跨篇章公司A公司B关系
(A是B的)时间来源中兴通讯中国联通合作伙伴2016.03.23
公司新闻中兴通讯中国联通客户2015.06.12
公司新闻中兴通讯英特尔(INTC)合作伙伴2013.01.16
公司新闻关系抽取概念及挑战第七章信息抽取联网中兴通讯非上市公司上市公司中兴康讯Acacia(IPO中)卓翼科技美国高通共进股份互宇顺电子美国博通子公司供应商客户竞争对手合作伙伴中国移动英特尔华为中国联通大富科技华星创业盛路通信超声电子当中兴通讯被制裁事件发生后,帮助客户快速分析受影响的公司关系抽取概念及挑战第七章信息抽取ACE评测标准下的常见语义关系类型集合第七章信息抽取关系涉及实体跨句、跨篇章关系抽取框架社会关系识别家庭关系,如父子、夫妻等亲属关联。雇佣关系,识别雇主与雇员之间的职场隶属。组织关系分析成员归属,判断个体是否属于某组织。领导关系,明确组织内部的上下级结构。合作关系,识别多个组织间的协同项目。物理关系建模空间位置,描述实体之间的方位或距离。接触状态,判断两个物体是否相互接触。归属关系判定所有权,明确某物归某人或组织所有。组成部分,识别整体与其子部件的关系。创建关系提取作品创作,识别作者与其著作之间的关联。事件发起,确定某人发起或触发某个事件。语义角色标注角色明确性,确保每个参与者语义角色清晰。上下文依赖,依据语境判断角色动态变化。关系抽取方法分类第七章信息抽取基于规则的关系抽取方法基于模板的Pattern监督学习方法基于统计机器学习的关系抽取基于深度学习的关系抽取基于弱监督的关系抽取方法远程监督Bootstrapping句子级抽取在单句内识别实体间语义关系,适用于结构清晰、信息完整的短文本,如新闻标题或百科摘要。文档级抽取跨多个句子整合关系事实,解决指代与碎片化问题,适用于长文分析如报告或医学文献。基于规则的关系抽取方法——模板pattern第七章信息抽取黄晓明妻子杨颖刘德华配偶朱丽倩X
妻子
YX
配偶
Y夫妻关系(X,
Y)姚明老婆叶莉X
老婆Y徐峥
老婆
陶虹缺点特定领域的模板需要专家构建难以维护可移植性差规则集合小的时候,召回率很低基于规则的关系抽取方法——依存句法pattern第七章信息抽取依存句法分析句子的句法结构以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定基于统计机器学习的关系抽取方法——特征工程第七章信息抽取确定实体对的情况下根据上下文对实体关系进行预测,构建一个监督学习应该怎么做?预先定义好关系的类别人工标注一些数据设计特征表示选择一个分类方法(SVM、NN、Naive
Bayes)评估结果轻量级特征实体前后的词实体的类型实体之间的距离中等量级特征Chunk序列重量级特征实体间的依存关系路径实体间树结构的距离特定的结构信息基于统计机器学习的关系抽取方法——特征工程第七章信息抽取机器学习方法特征设计BryanRinket.alACL
2016基于深度学习的关系抽取方法——分段卷积PCNN第七章信息抽取ZhaoJunet.alACL
2015Pipeline方法基于深度学习的关系抽取方法——Att-Pooling-CNNs第七章信息抽取ZhiyuanLiuet.alACL
2016应用注意力机制目前最好的方法(F1值88.0)Pipeline方法基于深度学习的关系抽取方法——监督学习方法对比第七章信息抽取ZhiyuanLiuet.alACL
2016Pipeline方法不同模型在SemEval-2010
Task
8
数据集上的效果比较基于深度学习的关系抽取方法——联合LSTM-RNNs模型第七章信息抽取Miwaet.alACL
2016joint方法识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果Pipeline实体识别和关系分类的过程是共同优化的Joint基于深度学习的关系抽取方法——标记管道方法PURE第七章信息抽取ChenDqet.alNAACL
2021Pipeline方法基于统计机器学习的关系抽取方法——优缺点第七章信息抽取优点准确率高,标注数据越多越准确缺点标注数据成本太高不能扩展新的关系标注依赖人力有监督关系抽取依赖大量人工标注的实体关系样本,需语言专家逐句标注实体对及其语义关系,耗时耗力。标注标准复杂关系类型体系繁杂,标注需遵循严格规范,不同标注者易产生不一致,需反复校验以保证数据质量。领域迁移困难特定领域(如医疗、金融)缺乏通用标注数据,重新标注成本高昂,难以快速构建高质量训练集。标注规模受限高质量标注数据规模有限,模型易过拟合,难以覆盖长尾关系和复杂语言现象,制约性能提升。基于弱监督的关系抽取方法第七章信息抽取问题背景实体对在多句中表达同一关系,但单句标注稀疏,传统监督学习难以覆盖完整语义。没有足够多标注数据的情况下,怎么办数据量特别大的情况下,如何抽取实体间关系?远程监督方法知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力Bootstrapping通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组核心思想将文档中提及相同实体对的所有句子归为一个包,共享关系标签,实现跨句联合学习。基于弱监督的关系抽取方法——远程监督学习第七章信息抽取两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。在某知识库中存在:
创始人(乔布斯,
苹果公司)则可构建训练正例:乔布斯是苹果公司的联合创始人和CEO具体步骤从知识库中抽取存在关系的实体对从非结构化文本中抽取含有实体对的句子作为训练样例优点可以利用丰富的知识库信息,减少一定的人工标注缺点假设过于肯定,引入大量噪声,存在语义漂移现象很难发现新的关系基于弱监督的关系抽取方法——半监督Bootstrapping第七章信息抽取给定种子集合,如:<姚明,
叶莉>从文档中抽取出包含种子实体的新闻,如姚明老婆叶莉简历身高曝光X
老婆Y
简历身高曝光姚明与妻子叶莉外出赴约X
与妻子Y
外出赴约姚明携爱妻叶莉外出赴约X
携爱妻Y
外出赴约将抽取出的Pattern去文档集中匹配小猪与妻子伊万外出赴约根据Pattern抽取出的新文档如种子库,迭代多轮直到不符合条件优点构建成本低,适合大规模构建可以发现新的关系(隐含的)缺点对初始给定的种子集敏感存在语义漂移问题结果准确率较低缺乏对每一个结果的臵信度的计算目录命名实体识别关系抽取事件抽取基于预训练语言模型与大语言模型的信息抽取第一章绪论事件定义第七章信息抽取事件起源于认知科学,常常在哲学、语言学、计算机科学等领域被广泛讨论。但遗憾的是目前对事件还没有统一的定义,在不同领域,针对不同的应用,不同的人对事件有不同的描述。不同的动作或者状态的改变代表不同类型的事件同一个类型的事件中不同的元素代表了不同的事件实例同一个类型的事件中不同粒度的元素代表不同粒度的事件实例第二次世界大战抗日战争淞沪会战事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变事件抽取定义第七章信息抽取事件抽取是信息抽取中的难点问题事件抽取依赖实体抽取和关系抽取相较于实体抽取和关系抽取,事件抽取难度更大例:1992年10月3日,奥巴马与米歇尔在三一联合基督教堂结婚实体抽取:1992年10月3日,
奥巴马,米歇尔,三一联合基督教堂关系抽取:夫妻关系:奥巴马,米歇尔事件抽取:事件类型:结婚事件配偶:奥巴马,配偶:米歇尔时间:
1992年10月3日地点:三一联合基督教堂事件抽取相关概念第七章信息抽取事件指称(Mention)事件类型(Type)事件触发词(Trigger)论元角色(ArgumentRole)事件论元(Argument)事件抽取样例第七章信息抽取事件类型会谈触发词会谈参与者斯瓦拉吉、王毅时间-地点-事件类型撤军触发词撤军参与者中印双方时间周五事件类型建造触发词建起参与者印度军方时间-地点边界地区事件类型破坏触发词毁坏参与者印方时间-地点-简单事件抽取事件嵌套第七章信息抽取中印边界对峙事件类型:冲突触发词:起因:结果:活动:- …活动事件类型:建造触发词:建起参与者:印度军方时间:地点:边界地区活动事件类型:破坏触发词:毁坏参与者:印方时间:地点:撤军事件类型:撤军触发词:撤军参与者:中印双方时间:周五地点:会谈事件类型:会谈触发词:会谈参与者:斯瓦拉吉、王毅时间:地点:相关评测01事件嵌套第七章信息抽取(1)标注样本费时费力。深度学习监督事件抽取模型需要大量的高质量的人工标注训练数据集。消耗人力成本和时间成本的工作,个人主观性,标注过程需要采用多人协同交叉标注机制,这进一步增加了标注成本,也极大地限制了基于深度学习的监督事件抽取模型对新事件类型或新领域的迁移应用。(2)事件论元跨越句子边界。传统的事件抽取任务主要关注于句子级,其假设事件论元分布在一个句子内,而这个假设在很多情况下并非成立。事件的重要论元以较大概率跨越句子边界,分散在整个篇章中,这也给事件抽取任务带来更大挑战。事件抽取
数据集及评价第七章信息抽取MUCTDTACE(KBP)全称Message
UnderstandingConferenceTopicDetection
and
TrackingAutomatic
ContentExtraction举办方DefenseAdvancedResearchProjectsAgency(DARPA)DARPANationalInstitute
ofStandardsandTechnology(NIST)时
间1987-19971998-2004ACE:2000-2008KBP:2014-2017评测内容抽取指定的事件,包括参与这些事件的各个实体、属性和关系。例如:MUC-2是从海军军事情报中抽取事件填入预定义模板中,共10个槽MUC-4(1700个样本+4个事件类型+5个论元类型)将文本切割为不同的新闻报道,监控其中新事件的报道,并且将同一话题下的分散的报道按照某种结构有效组织起来.TDT-3:
240个topic指定的源语言数据中发现特定类型的事件,并且识别出与事件相关的信息填入预设的事件模板中。ACE2005中共计8大类33个小类的599个样本事件抽取评测第七章信息抽取消息理解会议(MUC)MUC是由美国DARPA发起,目的在于鼓励和开发信息抽取系统,主要以召回率和精确率来评价信息抽取系统性能的重要指标,一般是基于召回率和精确率来计算法F1值自动内容抽取(ACE)由美国国家标准技术研究所(NIST)组织的评测会议,主要包括实体检测与跟踪、关系检测与表征、事件检测与跟踪,与MUC解决的问题类似,只是对MUC的任务进行融合。知识库填充(KBP)由文本分析会议主办,其目的是开发和评估从非结构化文本中获取知识填充知识库的技术,主要任务包括实体发现与链接、槽填充、事件跟踪和信念与情感分析。语义评测(SemEval)由ACL-SIGLEX组织发起,是比较早进行实体消歧的评测任务的机构,目的是增进人们对词义与语义现象的理解,主要包括语义角色标注、情感分析、跨语言语义分析等ACE事件类型体系第七章信息抽取事件抽取数据集第七章信息抽取WikiEvents(246篇文档+59个论元类型+22%跨句论元标注数据)、RAMS(12000篇新闻+9124个具体事件+65个论元类型),金融领域的事件抽取数据集包括DCFEE(2976篇文档+5个事件类型)[11]、ChFinAnn(32040篇文档+5个金融事件类型+35个论元类型)[12]。以上数据集要么规模过小,要么事件类型过少,为了进一步推进DEE技术的发展,清华大学于2022年构建并提出DocEE数据集。DocEE拥有18万多篇文档,59个事件类型,356个事件论元类型和27485个具体事件,是迄今为止规模最大的带标注篇章级数据集,通过9个前沿EE模型在DocEE数据集上的对比实验结果发现,即使是SOTA模型其事件抽取的性能远低于人类水平,进一步说明篇章级事件抽取任务极具挑战。[16]其他事件抽取相关数据集第七章信息抽取(event_type:胜负,role:时间,胜者,败者,赛事名称)、(event_type:夺冠,role:夺冠事件,夺冠赛事,冠军)。2个目标事件:竞赛行为-胜负,竞赛行为-夺冠各自事件的论元:比如事件的发生时间/地点,以及胜者、败者、冠军分别是谁。/weixin_42691585/article/details/115557227其他事件抽取相关数据集第七章信息抽取百度的LIC2021事件抽取任务事件抽取模型01事件抽取方法分类-DMCNN第七章信息抽取Skip-gramContext-wordfeature(CWF)Positionfeature(PF)Event-typefeature(EF)[1]ChenY,XuL,LiuK,ZengD,ZhaoJ.EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetworks.Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing(Volume1:LongPapers),Beijing,China:AssociationforComputationalLinguistics;2015,p.167–76./10.3115/v1/P15-1017.pipeline流水线式模型:先训练一个实体抽取模型,然后再训练一个关系抽取模型,两个模型相互不影响joint联合抽取式模型:将实体抽取和关系抽取放在同一个模型上,loss=实体抽取loss+关系抽取loss。事件抽取方法分类-DMCNN第七章信息抽取[1]ChenY,XuL,LiuK,ZengD,ZhaoJ.EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetworks.Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing(Volume1:LongPapers),Beijing,China:AssociationforComputationalLinguistics;2015,p.167–76./10.3115/v1/P15-1017.triggerclassification:setthewindowsizeas3,thenumberofthefeaturemapas200,thebatchsizeas170andthedimensionofthePFas5argumentclassification:setthewindowsizeas3,thenumberofthefeaturemapas300,thebatchsizeas20andthedimensionofthePFandEFas5.在触发词分类中,我们在词汇级特征表示中仅使用候选触发词及其左右相邻的词元(tokens)。在句子级特征表示中,我们采用与论元分类中相同的上下文词特征(CWF),但仅利用候选触发词的位置来嵌入位置特征。此外,我们不再将句子划分为三个部分,而是以候选触发词为界,将句子划分为两个部分。事件抽取方法分类-JRNN2016第七章信息抽取[2]NguyenTH,ChoK,GrishmanR.JointEventExtractionviaRecurrentNeuralNetworks.Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,SanDiego,California:AssociationforComputationalLinguistics;2016,p.300–9./10.18653/v1/N16-1034.事件抽取方法分类-JMEE2018第七章信息抽取[3]LiuX,LuoZ,HuangH.JointlyMultipleEventsExtractionviaAttention-basedGraphInformationAggregation.Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Brussels,Belgium:AssociationforComputationalLinguistics;2018,p.1247–56./10.18653/v1/D18-1156.事件抽取方法分类-PLMEE2019第七章信息抽取[4]YangS,FengD,QiaoL,KanZ,LiD.ExploringPre-trainedLanguageModelsforEventExtractionandGeneration.Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,Florence,Italy:AssociationforComputationalLinguistics;2019,p.5284–94./10.18653/v1/P19-1522.事件抽取方法分类-PLMEE2019第七章信息抽取[4]YangS,FengD,QiaoL,KanZ,LiD.ExploringPre-trainedLanguageModelsforEventExtractionandGeneration.Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,Florence,Italy:AssociationforComputationalLinguistics;2019,p.5284–94./10.18653/v1/P19-1522.事件抽取方法分类-RCEE2020第七章信息抽取[5]LiuJ,ChenY,LiuK,BiW,LiuX.EventExtractionasMachineReadingComprehension.Proceedingsofthe2020ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),Online:AssociationforComputationalLinguistics;2020,p.1641–51./10.18653/v1/2020.emnlp-main.128.QuestionTopicGeneration.template-basedmethodse.g.thequerytopicforthesemanticroleTimemightbe“When[...]”,forAttackermightbeWho[...]”.QuestionContextualization.
styletransfer=descriptive->question-stylestatement事件抽取方法分类-Doc2EDAG(篇章-财经)第七章信息抽取[6]ZhengS,CaoW,XuW,BianJ.Doc2EDAG:AnEnd-to-EndDocument-levelFrameworkforChineseFinancialEventExtraction.Proceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalLanguageProcessingandthe9thInternationalJointConferenceonNaturalLanguageProcessing(EMNLP-IJCNLP),HongKong,China:AssociationforComputationalLinguistics;2019,p.337–46./10.18653/v1/D19-1032.1)entityextraction,extractingentitymentionsasargumentcandidates,2)eventdetection,
adocumenttobetriggeredornotforeacheventtype3)eventtablefilling,fillingargumentsintothetableoftriggeredevents.(transfomer-based)事件抽取方法分类-GIT2021第七章信息抽取[7]XuR,LiuT,LiL,ChangB.Document-levelEventExtractionviaHeterogeneousGraph-basedInteractionModelwithaTracker.Proceedingsofthe59thAnnualMeetingoftheAssociationforComputationalLinguisticsandthe11thInternationalJointConferenceonNaturalLanguageProcessing(Volume1:LongPapers),Online:AssociationforComputationalLinguistics;2021,p.3533–46./10.18653/v1/2021.acl-long.274.Document-levelEventExtractionviaHeterogeneousGraph-basedInteractionModelwithaTracker(GIT)事件抽取应用及挑战第七章信息抽取事件模板推导(EventSchema
Induction,ESI)任务被提出用于自动从原始语料库中学习和推理出事件模板。事件间关系抽取:因果关系、包含关系、共指关系、时序关系这四种常见事件关系的挖掘对舆情分析、阅读理解和事件预测应用具有重要支撑作用。事件关系识别包括事件因果关系抽取(Eventcausalityidentification,ECI)、子事件抽取(Subevent
Extraction,SE)、事件共指消解(EventCoreferenceResolution,ECR)和事件时序关系抽取(EventTemporalAnalysis,ETA)。目录命名实体识别关系抽取事件抽取基于预训练语言模型与大语言模型的信息抽取第一章绪论回顾预训练语言模型在NER与RE任务中的微调应用第七章信息抽取预训练模型语义表示通过海量文本学习深层语言特征,捕捉词汇和句法的抽象表达。生成上下文相关的嵌入,优于传统静态词向量如Word2Vec。上下文理解能够根据句子前后文区分多义词的不同含义,提升语义判别力。支持复杂语言结构建模,如指代消解和长距离依赖分析。模型微调在特定任务标注数据上进行参数微调,适配下游应用场景。仅需少量额外参数即可实现高性能,具备高效迁移能力。命名识别识别文本中的人名、地名、组织等实体,是信息抽取的基础任务。结合BERT与CRF结构可有效处理标签序列依赖问题,提高准确率。关系抽取从句子中提取实体之间的语义关系,如‘出生于’、‘任职于’等。利用上下文嵌入增强语义匹配能力,显著优于规则和统计方法。技术演进从传统手工特征转向深度预训练模型,实现端到端高精度抽取。推动信息抽取进入自动化、通用化、精准化的新阶段。展示BERT+CRF模型在实体识别中结合上下文表示的优势第七章信息抽取上下文建模BERT通过双向Transformer编码文本,捕捉词语在上下文中的动态语义,显著提升歧义词的识别准确率。标签约束优化CRF层引入标签转移规则,避免非法序列输出,确保实体边界和类型标签的逻辑一致性。端到端学习BERT+CRF联合训练,自动提取深层特征并优化序列标注,减少人工特征依赖,提高整体性能。Prompt-basedLearning在少样本信息抽取中的潜力第七章信息抽取少样本挑战传统模型依赖大量标注数据,而在低资
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 遂宁市2026届高三二诊考试政治试卷(含答案)
- 机房消防维护规程
- 2026银行上半年工作总结12篇
- 厂内车辆维修管理制度
- 一例中药保留灌肠患者护理个案
- 《公路监测预警设施设计图例》
- 趾肌腱缝合术后护理查房
- 2026年跨境电商独立站运营合同协议
- 物流行业安全运输制度
- 新中式国风建筑旭日山水风景
- 2026中国中煤能源集团有限公司春季校园招聘备考题库及答案详解一套
- IT系统运维流程与管理方案
- 小学五育并举工作制度
- ISO9001 认证辅导服务协议
- 20S515 钢筋混凝土及砖砌排水检查井
- 永辉生鲜采购制度
- 盘锦北方沥青股份有限公司招聘笔试题库2026
- 广西三支一扶2026年真题
- 音体美新教师培训
- 《半纤维素》团体标准(征求意见稿)-0629
- 2026年叉车人员培训考试题库及完整答案一套
评论
0/150
提交评论