版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章词法分析词法分析05语言中的词汇词是语言中可以独立运用的基本单位,是由音、形、义等元素构成的符号组合,具有明确的语法功能和意义,其形态遵循特定的规则,呈现出内在的结构特征。在语言学中,研究词语及其构成方式以及它们与同一语言中其他词的关系的学科称为形态学。在形态学中,词通常是由语素或词素构成。语素是语言表达中最小的语法功能单位,是语言中最小的语音语义结合体。其主要分为词根和词缀。词根是一个词的核心,通常是构成词的最主要语素,是语言中最小的有意义或语法功能的单位。词缀是一种附着在词根的语素,它可以在词根的基础上生成新词,涵盖前缀、中缀以及后缀等,自身不能单独成词。例如,在“老虎”一词中,“老”是词缀,“虎”是词根;英文词"cats"中,"cat"为词根,"-s"为词缀。第五章词法分析英文词语规范化英文词语规范化的主要目的是将文本中的单词进行统一处理,对有多种形式的单词使用一种统一的形式进行表示,主要包括词形归并和词干还原。词形归并是将词的各种变换形式还原成其原形或词典中的词,以实现词语的规范化的过程。例如,“am”“are”和“is”有共同的词根“be”;"happy"和"happiness"有共同的词根"happy"。词干还原是将词的词缀去除得到其词干,即获得词最一般的写法,从而减少不同形式的词对于文本处理和分析的干扰。例如,“cats”,“catlike”,“catty”的词干是“cat”。常用算法如后缀去除和后缀替代算法第五章词法分析后缀替代后缀去除词法分析词法分析:将输入的句子转换成词序列并标记出各词的词性,是自然语言处理流程中的第一步,为文本的进一步处理提供了基本的语言单位信息,使自然语言处理系统能够更好地理解和处理自然语言文本。词法分析具体包括词的识别和词性标注:词的识别是指将输入的字符串序列转换成一系列词条进行输出,在中文里称为分词,在英文里称为词条化(tokenization)。词性标注是将句子中的每个词标注它在句子中的词性(如动词,名词,形容词等)第五章词法分析中文分词词是汉语里表达意义的基本单位,是有意义的最小语法单位,因此自然语言处理首先面临的任务就是分词,在此基础上才能进一步进行词性标注、句法分析等其他语言分析,并最终实现语言的理解。分词的主要难点表现在未登录词识别和歧义切分两大问题。未登录词指词表中没有包含的词,主要包括命名实体(如人名)和新词(如哈基米)。分词歧义则指同一字符串存在多种切分形式。第五章词法分析例:我家门前的小河很难过。我家|门前|的|小河|很|难过。我家|门前|的|小河|很|难|过。乒乓球拍卖完了。乒乓球|拍卖|完|了。乒乓球拍|卖|完|了。中文分词方法基于词表的分词方法又称最大匹配分词法或机械分词法。该方法遵循长词优先的原则,把一个句子从左向右扫描一遍,遇到词表里存在的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词正向最大匹配分词法逆向最大匹配分词法优点:复杂性低,简单、快速、可控。缺点:基于大词优先原则,分词粒度单一,不灵活机器翻译中,分词粒度大则更易于处理。信息检索中,分词粒度小查全率更高。第五章词法分析中文分词方法基于统计语言模型的分词方法的主要思想是:如果分词得到的一个词串在实际应用中出现的概率越高,则认为这种分词结果越合理。该方法采用的统计模型主要有:n元统计语言模型、隐马尔可夫模型和最大熵模型等。其中,基于n元统计语言模型分词方法假设一个词的出现仅依赖它前面出现的n-1个词,整个句子的概率就是各个词出现概率的乘积。分词过程就是寻找一种词的划分方式,使得整个句子的概率最大。其步骤如下:建立分词语料库参数估计计算概率最大的分词串第五章词法分析中文分词方法基于n元统计语言模型——建立分词语料库统计语言模型的参数估计必须基于足够规模、质量可靠的分词语料库。比较著名的中文分词语料库有中文宾州树库(ChinesePeenTreebank,CTB)和北京大学人民日报分词语料库,这两个语料库是全球自然语言处理研究者研究中文分词的基础语料库。第五章词法分析中文分词方法
第五章词法分析中文分词方法
第五章词法分析中文分词方法基于n元统计语言模型——计算概率最大分词串基于统计语言模型的分词系统选择概率最大的分词串作为最终结果。第五章词法分析所有可能的分词情况为:第一种切分的概率为:以一元语言模型为例,其计算过程如下:经常/有意/见/分歧经常/有意/见/分/歧经常/有/意见/分歧经常/有/意见/分/歧需要穷举所有可能的词串,并计算其概率,然后得到最大概率词串作为输出,计算效率较低。中文分词方法基于n元统计语言模型——计算概率最大分词串现实中,比较可行的求解方法是Viterbi算法。Viterbi算法通过动态规划的方式,将分词问题转化为寻找最短路径问题,从而提高计算效率。将求-ln[P(x)]的最小值转变为求最短路径的问题第五章词法分析从最短路径的最后一个结点回溯,可以得到路径0→2→3→5→7,即词串“经常/有/意见/分歧”为最优结果。中文分词方法基于n元统计语言模型——计算概率最大分词串现实中,比较可行的求解方法是Viterbi算法。Viterbi算法通过动态规划的方式,将分词问题转化为寻找最短路径问题,从而提高计算效率。将求-ln[P(x)]的最小值转变为求最短路径的问题第五章词法分析从最短路径的最后一个结点回溯,可以得到路径0→2→3→5→7,即词串“经常/有/意见/分歧”为最优结果。中文分词方法基于统计语言模型的分词方法优点:考虑了上下文,输出是基于概率的整体最优结果,因此能够较好解决歧义问题。缺点:依赖语料库,未能解决未登录词的问题。第五章词法分析中文分词方法基于字标注的分词方法是把分词过程视为字在字串中的构词位置标注问题,并使用序列标注模型对该问题建模。具体来说,对输出的词序列使用词性标签序列进行编码,然后再经过简单合并处理后就可以表示成分词结果。词位标签可以是B(词首)、M(词中)、E(词尾)和S(单独成词)。基于序列标注的分词方法可以采用支持向量机、最大熵和条件随机场等模型进行求解。此外,研究者还提出了基于神经网络的分词方法,利用神经网络模型进行标签预测(如RNN,LSTM)第五章词法分析词性标注词性是词汇最基本的语法属性,通常也称为词类。词性标注也称词类标注,就是为给定词序列中的词赋予词性标记(如动词,名词,形容词等),如:第五章词法分析把/q-p-v-n这/r篇/q报道/v-n编辑/v-n一/m-c下/f-q-v北京大学人民日报语料库词性标记集词性标注方法早期主要采用基于人工规则的方法,但人工编写的规则对语言现象的覆盖率低;之后有学者提出为兼类词赋予可能性最大的词性标记方法;随着统计机器学习技术的发展,研究人员开始采用基于统计和基于神经网络的词性标注方法。第五章词法分析词性标注方法基于规则的方法构建一套合适的标注规则来获得正确的词性标注,如:建立非兼类词典建立兼类词典(词性可能出现的概率高低排列)构造兼类词识别规则词性标注方法基于隐马尔可夫模型的方法隐马尔可夫模型(HiddenMarkovModel,HMM)由Baum等在1966年提出,是一种用于时序数据建模的统计概率模型。该模型包含可观测序列和随时间变化的隐藏状态序列,并通过观测序列推断隐藏状态的转移及其生成规律。第五章词法分析
词性标注方法基于隐马尔可夫模型的方法隐马尔可夫模型(HiddenMarkovModel,HMM)由Baum等在1966年提出,是一种用于时序数据建模的统计概率模型。该模型包含可观测序列和随时间变化的隐藏状态序列,并通过观测序列推断隐藏状态的转移及其生成规律。HMM有以下两个假设:齐次马尔可夫性假设,即假设隐藏的马尔可夫链在任意时刻t的隐藏状态只依赖于其前一时刻的隐藏状态,与其他时刻的隐藏状态及观测状态无关,也与时刻t无关观测独立性假设,即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态,与其他观测及状态无关。第五章词法分析词性标注方法基于隐马尔可夫模型的方法第五章词法分析词性标注方法基于隐马尔可夫模型的方法HMM的三个基本问题估值问题:如何快速计算观察序列的概率——使用前向算法解码问题:如何由观察序列求出隐藏最优的状态序列——使用维特比算法学习问题:如何调整模型参数,使观察序列的概率最大——使用前向-向后算法第五章词法分析词性标注方法
第五章词法分析
词性标注方法
第五章词法分析
词性标注方法基于隐马尔可夫模型的方法问题2:如何求取序列最大概率?第五章词法分析4×1×1×2×2×2×3=96种可能性,哪种可能性最大?寻找最优路径问题词性标注方法基于隐马尔可夫模型的方法问题2:如何求取序列最大概率?第五章词法分析Veterbi算法:一种动态规划方法,通过把一个复杂问题分解为相对简单的子问题的方式来求解。
AB=2;AC=3;BD=9;BE=11;BF=8;CD=7;CE=6;CF=10;DG=3;DH=3;EG=7;EH=5;FG=6;FH=4;GI=2;HI=5;每个路段的权值ABEHI为最佳路径,值为2+11+5+5=23对于每个节点,需要知道两个信息:(1)从起点到达当前节点的累计最大权值为多少;(2)要达到这个累计最大权值,它的上一个节点是哪一个节点;词性标注方法基于隐马尔可夫模型的方法问题3:估算HMM的参数利用已标注语料进行参数估算——有监督的学习利用未标注语料(生语料)进行估算——无监督学习利用生语料估算参数,属于无监督学习,又称为:前向后向算法(Baum-Welch算法)第五章词法分析词性标注方法基于隐马尔可夫模型的方法问题3:估算HMM的参数,基于已标注语料库,根据大数定理,用相对频次估算概率第五章词法分析转移概率的估计:发射概率(生成概率)的估计:初始概率的估计:标记“t1”在语料中出现在句首start的次数词性标注方法基于CRF的方法基于CRF的方法通过建立指数形式的概率模型来进行序列数据的标注。相对于HMM,CRF模型能够同时使用当前词的前n个词和后m个词作为该词的上下文信息。这样,当前词的词性不仅与它前面的词有关,还与它后面的词有关,更加符合实际情况。第五章词法分析词性标注方法分词词性标注一体化分词和词性标注有着十分紧密的联系。分词为词性标注提供了基础,将连续文本切分为独立的词语单元,明确了词语的边界,而词性标注则进一步为这些单元赋予语法功能标签,两者共同构建了对词语的完整理解。早期,研究者总是将分词和词性标注任务分开处理,这种方法无法同时利用词和词性信息,导致分词和词性标注准确性较低。将分词和词性标注过程融为一体有利于歧义消解和系统准确性的提高,也有利于减少系统开销。近年来,基于神经网络的深度学习技术的发展促进了分词词性标注一体化方法的进步。第五章词法分析词性标注方法分词词性标注一体化基于神经网络的方法例如LSTM+CRF、BiLSTM+CRF、BERT+CRF等。第五章词法分析第五章词法分析
谢谢!第六章句法分析目录成分句法分析依存句法分析句法分析工具及相关语料库第六章句法分析成分句法分析句法分析是自然语言处理的一项基本任务,该任务要求计算机以句为单位,根据给定的语法体系,自动推导出句子的语法结构,即将句子转化为一棵结构化的语法树。成分句法分析又称为短语结构分析,关注句子的语法构成规律,是根据美国语言学家乔姆斯基(Chomsky)提出的短语结构语法(phrasestructuregrammar,PSG)来分析句子所包含的语法单元。在成分句法分析中,乔姆斯基形式文法极为重要。第六章句法分析成分句法分析乔姆斯基形式文法可以表示为四元组:其中是非终结符的有限集合;是终结符的有限集合;是
中的初始符号,相当于语法范畴中的句子是重写规则,也称为生成规则,一般形式为,其中都是符号,中至少含有一个属于
中的符号文法G中不含非终结符的句子称为G生成的句子。由文法G
生成的语言记做L(G),指G生成的所有句子的集合。第六章句法分析成分句法分析根据规则形式不同,可以将文法分为0型文法(无约束文法,unrestrictedgrammar,UG)、1型文法(上下文相关文法,context-dependentgrammar,CDG)、2型文法(上下文无关文法,context-freegrammar,CFG)、3型文法(正则文法,regulargrammar,RG)其中,上下文无关文法中所有的产生式左边只有一个非终结符,比如:上下文无关文法的描述能力强,可以描述自然语言中的大部分结构,同时又是可递归的。因此通过上下文无关文法构造句法分析器在自然语言处理中得到了广泛的应用。第六章句法分析成分句法分析成分句法分析的结果可以用句法树表示,具体分析过程就是按照语法规则对句子的终结符逐步归约为根节点的过程。规约过程中使用的语法规则一般用产生式表示,所以又叫做产生式规则,如:上述产生式规则左部只有一个非终结符号,属于上下文无关文法。第六章句法分析成分句法分析下图展示一个基于上下文无关文法的示例:其中,IP表示简单从句,HLN表示标题,NP表示名词短语,SBJ表示主语,PN表示代词,NN表示普通名词,NR表示专有名词,CC表示连词,VP表示动词短语,VV表示动词。第六章句法分析成分句法分析自然语言中存在大量的句法歧义现象,即一个句子有多个句法分析结果与其对应。下面展示一些句法歧义的例子,其中[]表示不同的短语划分:第六章句法分析成分句法分析上表中第5个示例对应的不同句法树:引起其句法歧义的原因是单字词“和”的语法性质不定。上图左边的句法树中,“和”的词性为P(介词),表示小王是小李结婚的对象,而右边的句法树中,“和”的词性为CC(连词),表示小王结婚了,小李也结婚了。第六章句法分析成分句法分析常见的成分句法分析方法:基于规则的方法、概率上下文无关文法、神经网络方法。基于规则的方法:基于规则的句法分析大致有三种策略:自底向上、自顶向下、自底向上与自顶向下相结合。自底向上的策略是从句子中的词语出发,将一个符号序列匹配归约为某个产生式规则的左部(即用产生式规则左边的符号来改写右边的符号),以逐渐减少符号序列长度直到只剩下开始符S为止。自顶向下的策略是从根节点符号S开始搜索,用某条产生式右边的符号来改写左边的符号,然后通过不同的方式搜索并改写非终结符,直到生成了输入的句子或者遍历了所有可能的句子为止。第六章句法分析成分句法分析基于规则的方法中,常用的句法分析算法有线图(chart)分析算法、CYK分析算法等。其中,线图法是一种很重要的分析方法,采用自底向上的策略,将每个词看作一个节点,通过在节点间连边的方式进行分析,该方法是基于上下文无关文法规则的分析方法,主要思想如下:第六章句法分析成分句法分析算法需要的数据结构主要有:算法过程中,引入了点规则的概念,用于表示规则右部被归约的程度,可以理解为点的左边都是匹配到的规则的一部分。如果点的左边是规则右部的所有内容,那么就说明规则右边已经被完全匹配。第六章句法分析成分句法分析线图法的优点是:简单、易实现。缺点是:算法效率低,时间复杂度为O(n3);需要高质量的规则,因为分析结果与规则质量密切相关;难以区分歧义结构。线图法时间复杂度计算如下:设n
为输入句子的长度,C为上下文无关文法中的非终结符的数目,M为点规则的状态数目(大于规则的数目),显然M>C。由于待处理表中最大的元素个数为Cn2,所以线图中最大的元素数目为
Cn2,由于算法对于长度为n的输入句子要执行n次循环,因此,线图法最大执行的操作次数为O(n3)。上述基于规则方法的最大缺点就是难以区分或处理歧义结构。第六章句法分析成分句法分析概率上下文无关文法(ProbabilisticContext-FreeGrammar,PCFG)统计词与词、词与词组以及词组与词组之间的规约信息,并给出句子的概率。由于句法解析存在歧义性,有多个候选语法树,通过PCFG能够找出可能性最高的句法树,即概率最大的句法树。PCFG是上下文无关文法(CFG)的概率拓广,PCFG中规则的形式为:其中P
为该规则出现的概率,且满足约束:第六章句法分析成分句法分析对句子“Astronomerssawstarswithears”分别用PCFG和CFG进行句法分析的结果第六章句法分析成分句法分析基于PCFG的句法分析主要目标是在句法分析过程中计算整棵句法树出现的概率,对于有句法歧义的句子,认为概率最大的句法树为最佳句法树。如下图所示的例子,对于给定的句子S,存在两棵句法分析树t1与t2,且P(t1)>P(t2),则句法分析树t1正确的可能性大于t2。第六章句法分析成分句法分析
第六章句法分析成分句法分析PCFGViterbi算法流程如下:基于PCFG方法的优点主要有:可以利用概率减少分析过程的搜索空间;可以对概率较小的子树剪枝,提高算法效率;还可以定量地比较句法树。第六章句法分析成分句法分析基于神经网络的方法研究者最早在句法分析过程中引入递归神经网络(RecursiveNeuralNetwork,RvNN),将处理对象在结构上分解为一系列相同的单元,这些单元组成的神经网络可以在结构上展开并传递信息。RvNN的单元结构和信息传递方式如下图所示。第六章句法分析成分句法分析在句法分析中,RvNN输出两个信息:句法分析树的分数
及其对应的句嵌入表示
。对句子“我弟弟准备一切用品”采用基于RvNN的句法分析过程示例:第六章句法分析成分句法分析评价指标成分句法分析需要评估句法分析器生成的树结构与标准树结构之间的一致程度。主要采用精确率(precision)和召回率(recall)两个指标来评价,定义如下:第六章句法分析目录成分句法分析依存句法分析句法分析工具及相关语料库第六章句法分析依存句法分析依存句法分析(DependencyParsing,DP)是基于法国语言学家特思尼耶尔(Tesniere)1959年提出的依存语法理论(dependencygrammar)来分析词与词之间的依存关系。它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系,即指出词语之间的句法搭配关系。这种搭配关系和语义相关联。依存语法理论与乔姆斯基生成语法等传统语言学理论有明显的区别。传统语言学突出句子中主语的地位,句中其它成分称为谓语。依存语法打破了这种主谓关系,认为谓语中的动词是一个句子的中心,其他成分与动词直接或间接产生联系,其重点是描述词与词之间的关系。第六章句法分析依存句法分析依存句法的句法结构由词汇组成,词汇之间由二元非对称关系连接,这些关系叫作依存关系。依存关系可用一个有向弧表示,该有向弧叫做依存弧,方向由支配词指向从属词。每个依存弧上有一个标记,表示该依存对中的两个词之间的依存关系类型。通常支配词体现了主要语法和语义特征;而从属词在语义上从属于支配词,起修饰补充支配词的作用,所以也称为修饰词。由于支配词和从属词在一般情况下是不能互换语义角色的,因此依存关系是非对称关系。依存句法树是非对称的有向树,上层节点是下层节点的支配词,越接近根节点越能够表达句子的语义。第六章句法分析依存句法分析1970年,研究者通过对句子中的依存关系进行约束,提出了依存语法的4条公理:(1)一个句子中只有一个成分是独立的。(2)其他成分直接依存于某一成分。(3)任何一个成分都不能同时依存于两个或两个以上的成分。(4)如果成分A直接依存于成分B,而成分C在句子中位于A和B之间,那么成分C或者依存于A,或者依存于B,或者依存于A和B之间的某一成分。第六章句法分析依存句法分析公理(1)∼(3)通常被认为是具有良好合式性的依存结构的本质特征。公理(1)(2)表明句子中只有一个词可以是没有支配词的,这个词通常被称为句子的中心词,其他所有的词都应该具有支配词。公理(3)表明除了句子的中心词外所有词的支配词都只能有一个。根据公理(1)∼(3),可以看出任何句子的依存结构都可表示为依存句法分析树。树中的节点为句中的词,根为句子的中心词,边连接了具有直接依存关系的两个词。通过树中的路径,任意两个词直接或间接发生依存关系。公理(4)表明了依存结构具有投影性,即位于词A和词B之间的词C不能依存于A和B之外的其他词。这个性质表明依存句法分析树上不可能存在交叉的边。第六章句法分析依存句法分析下面展示一个具体的依存句法分析示例,对句子“外资企业成为外贸重要增长点”进行依存句法分析。图中带箭头弧线代表两个词存在的依存关系,从支配词指向从属词,如“企业”是“外资”的支配词。可以看出,依存句法分析就是分析句子的“主谓宾”、“定状补”这些语法成分及其关系。第六章句法分析依存句法分析常见的依存关系:第六章句法分析依存句法分析目前主流的数据驱动的依存句法分析方法主要有:基于图(graph-based)的方法、基于转移(transition-based)的方法和基于神经网络的方法。基于图的方法将依存句法分析问题看成从完全有向图中寻找最大生成树的问题,对于给定的句子x
和模型参数,在所有可能的候选句法树(即从根节点出发,包含句子中所有词的有向树)集合
中,找到概率最大的句法树
。第六章句法分析依存句法分析例如,对句子“我吃米饭”采用基于图的方法进行依存句法分析,包括以下步骤:(1)生成完全有向图(2)计算边权重:为每条边计算一个权重,表示两个词具有依存关系的可能性。这通常需要通过一个模型来计算。例如基于模型获得的权重为:(吃→米饭:0.9)等。第六章句法分析依存句法分析(3)获取最大生成树:对于完全有向图中的每一棵候选句法树,根据边权重对每条边进行打分,将各条边的分数综合起来即为整棵句法树的分数,并得到最高分数的句法树即为最大生成树(4)格式化输出:根据最大生成树,得到依存关系树并输出可视化结果。第六章句法分析依存句法分析基于转移的方法将依存树的构成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。研究者们最初使用局部分类器(如支持向量机等)决定下一个动作。后来采用全局分类器来决定下一个动作。该方法的基本思想是从左到右遍历整个句子,每读入一个词便根据该词的特征和当前分析状态格局特征利用分类器确定当前最佳动作,最后将这些动作拼装成句法树。该方法用三元组(S,I,A)表示分析状态格局,其中S表示栈、I表示队列、A表示依存弧集合。第六章句法分析依存句法分析栈S:表示用来储存已经处理过的句法子树的根节点。初始状态下S=[ROOT],栈顶元素为S1,从栈顶起的第i个元素为Si。队列I:用来存放未处理节点序列。初始状态下队列就是整个句子x=[w1,w2,...,wn]。例如对句子“脚步声打断了我的沉思”进行依存句法分析时,初始队列如图所示:第六章句法分析依存句法分析依存弧集合A:其中的依存弧有动作类型、依存关系名称两个信息。在经典的arc-eager分析法中,动作类型有如下4种:(1)入栈(shift)操作:读取队列I
中第一个词,并入栈。(2)依存弧向左指(left-arc)操作:当队列头部词与栈顶词存在依存关系,且队列头部词为支配词时执行左指操作。第六章句法分析依存句法分析依存弧集合A:其中的依存弧有动作类型、依存关系名称两个信息。在经典的arc-eager分析法中,动作类型有如下4种:(3)依存弧向右指(right-arc)操作:当队列头部词与栈顶词存在依存关系,且队列头部词为从属词时执行右指操作。第六章句法分析依存句法分析依存弧集合A:其中的依存弧有动作类型、依存关系名称两个信息。在经典的arc-eager分析法中,动作类型有如下4种:(4)出栈(reduce)操作:当S栈顶词已经有支配词时出栈。最终,得到依存关系树:第六章句法分析依存句法分析基于神经网络的方法,与基于转移的方法相似,用低维分布式表示代替复杂高维的稀疏特征表示。典型的方法是基于长短期记忆网络(LSTM)的方法,该方法将词、词性等特征信息项作为输入,由神经网络自动进行特征提取和组合。该方法将分析状态格局的栈、队列和动作分别用三个stack-LSTM(栈式LSTM)表示,所分析的格局信息为全部上下文信息,分析过程仍是每读入一个词,根据该词的当前格局和动作历史信息确定当前最佳动作,最后一步步拼装成句法树。第六章句法分析依存句法分析栈操作对stack-LSTM的影响如图所示:第六章句法分析依存句法分析神经依存分析方法还可基于序列到序列架构实现,该架构主要包含编码器、注意力层和解码器。在编码阶段,对于输入句x中的每个词语,使用词嵌入、节点嵌入(node2vec)、子词(sub-word)嵌入、字符嵌入和词性嵌入等五种特征的拼接来表示。解码阶段在输出时刻t输出的是输入句中第t个词为支配词的概率分布,即对于词xt,其支配词为yt的概率为:最后的句法分析结果为取得最大生成概率的序列y:第六章句法分析依存句法分析在句法分析中,支配词只可能来源于输入句中的词语,若继续使用建立在整个语料库上的词表,很容易使得预测的支配词落在输入句词语的范围外。为此,在预测xt的支配词时,模型预测的是支配词与在句子中相对于xt的位置,而非预测支配词本身。如下图所示,在句子Thathasoutragedsomefans.中,outraged的支配词ROOT处于outraged左边第3个位置。第六章句法分析依存句法分析评价指标无标签依存正确率(UnlabeledAttachmentScore,UAS):带标签依存正确率(LabeledAttachmentScore,LAS):第六章句法分析依存句法分析依存正确率(DependencyAccuracy,DA):根正确率(RootAccuracy,RA):完全匹配率(CompleteMatch,CM):第六章句法分析目录成分句法分析依存句法分析句法分析工具及相关语料库第六章句法分析句法分析工具及相关语料库句法分析工具SpaCy是由ExplosionAI公司开发的工业级的自然语言处理工具,完成了NLP领域的很多任务,比如词性标注、命名实体识别、依存句法分析、归一化、停用词去除。FudanNLP是复旦大学自然语言处理实验室开发的中文自然语言处理工具包,它提供了一系列的中文自然语言处理工具,包括分词、词性标注、命名实体识别、依存句法分析、情感分析等功能。DDParser是百度自然语言处理部基于深度学习平台飞桨(PaddlePaddle)和大规模标注数据研发的中文依存句法分析工具。第六章句法分析句法分析工具及相关语料库句法分析语料库与相关评测宾州树库(PennTreebank,PTB),由美国宾夕法尼亚大学1993年构建,数据主要来源于WallStreetJournal中的故事。最初的PTB句法结构树比较简单,之后逐渐增加了各种详细的标注内容,能够较好地体现句子中的句法成分,并较好建立了句法到语义之间的联系。中文宾州树库(ChinesePennTreebank,CTB)由美国宾夕法尼亚大学在2000年构建,与英语PTB的标注体系一致。CTB包含约五十万个词。由于与PTB共享共同的标注框架,因此该树库在实现英语和汉语的双语信息标注方面具有一定优势。第六章句法分析句法分析工具及相关语料库句法分析语料库与相关评测清华大学句法标注语料库由一系列子库组成,包括句法树库(TsinghuaChineseTreebank,TCT)、功能语块标注库(FunctionalChunkBank,FCB)、基本块标注库(BaseChunkBank,BCB)等计算自然语言学习会议(ConferenceonComputationalNaturalLanguageLearning,CoNLL)是自然语言处理领域影响力最大的技术评测会议,与句法分析相关的评测主要有:2007年的“多语言依存分析”、2008年的“英语依存句法-语义角色联合标注”、2009年的“7种语言的依存句法-语义角色联合标注”、2017年“面向文本生成的多语言通用依存句法分析”评测和2018年“通用句法分析”评测。第六章句法分析第六章句法分析
谢谢!第七章信息抽取信息抽取的三大基本任务:实体、关系与事件抽取第七章信息抽取命名实体识别从文本中识别出实体的命名性指称并分类,如人名、地名、机构名等,是信息抽取的基础任务。关系抽取识别实体间的语义关系,如“任职”“位于”,构建实体间的结构化关联,支撑知识图谱构建。事件抽取抽取事件的触发词及其论元角色,如时间、地点、参与者,实现对复杂语义场景的结构化建模。目录命名实体识别关系抽取事件抽取基于预训练语言模型与大语言模型的信息抽取第七章信息抽取命名实体识别相关概念人名组织/机构名地理位臵时间/日期字符值金额值第七章信息抽取命名性指称指实体的正式名称,如人名、地名等专有名词,是NER主要识别对象。名词性指称通过描述性短语指代实体,如‘特斯拉首席执行官’,依赖上下文理解。指代性指称使用代词如‘他’‘她’指代前文实体,需结合语境进行消解。命名实体识别挑战人名组织/机构名地理位臵时间/日期字符值金额值第七章信息抽取实体嵌套问题实体歧义问题实体对齐问题新词/特殊词问题语言多样性问题新词、网络用语、缩写及跨语言表达频现,且中文无显式词边界,加大了特征提取与模型泛化难度。文本中存在嵌套、交叉的实体结构,如“南京市长江大桥”包含多层命名实体,难以准确切分边界。同一词语在不同上下文中可能指向不同类型实体,如“苹果”可指公司或水果,增加识别不确定性。通用领域与特定领域的实体类型差异第七章信息抽取01通用实体类型涵盖人名、地名、机构名等常见类别。这些类型在多数文本中广泛存在。适用于通用信息抽取场景。02特定领域扩展如生物医学中的蛋白质、基因。金融领域的股票、合伙人等实体。需专业知识支持识别。03命名体系复杂特定领域实体命名规则繁杂。依赖专业术语与上下文理解。增加识别难度。04依赖专业语料精准识别需领域内标注数据。训练模型依赖高质量语料库。缺乏数据影响效果。05应用驱动界定实体类型根据使用场景确定。不同任务关注不同实体。体现实际需求导向。06医疗信息抽取需重点识别疾病与药物名称。反映领域特异性需求。展示精细化差异。实体歧义、别名指代与实体对齐问题的现实影响第七章信息抽取01实体消歧挑战同一名称可能指向不同实体,需结合上下文判断。上下文信息对准确识别至关重要。消歧是提升识别精度的关键步骤。02指代多样性同一实体常有多种别名或表达方式。这增加了识别与归一化的难度。模型需具备强泛化能力应对变体。03名称歧义问题不同实体可能共享相同名称。缺乏上下文易导致识别错误。需依赖语境进行精准区分。04实体统一难点将多样指称关联到唯一真实实体是核心挑战。涉及指代消解与知识融合。影响知识库构建质量。05上下文依赖性准确识别依赖前后文语义信息。孤立词语难以确定实体类型。上下文增强模型理解能力。06知识结构化难实体识别是知识融合的基础环节。识别不准将影响后续结构化处理。制约知识图谱构建效率。无显式词界中文词语间无空格分隔,需依赖模型自动切词,增加实体边界识别难度。字符级复杂中文字符组合灵活,单字多义性强,对上下文建模能力提出更高要求。命名实体识别方法第七章信息抽取范式转变从依赖人工规则到数据驱动的深度学习,信息抽取实现了由知识工程向表示学习的范式跃迁。特征工程差异传统方法需手工设计特征,而深度学习自动学习上下文语义表示,显著提升模型泛化能力。模型架构进化从HMM、CRF到BiLSTM-CRF,再到BERT等预训练模型,编码能力持续增强,抽取精度大幅提升。基于规则的方法基于统计机器学习的方法基于深度学习的方法基于规则的实体抽取方法第七章信息抽取实体识别人名识别匹配‘Xxxxx+himself’模式,识别如‘Jordanhimself’为人名实体。基于语法规则提取独立大写词组合,判断为人称指称。结合上下文消歧,排除代词重复指代的干扰项。机构识别通过‘Titleof/at/withXxxx+’结构识别机构名称。标注如‘DirectorwithSchoolofComputer’为机构实体。利用领域关键词库辅助判断组织类名词短语。规则构建由语言学家手工设计句法-语义融合规则。依托专家知识定义实体边界的触发条件和约束。模式匹配使用正则表达式实现对固定结构的语言模式捕获。支持大小写敏感与词性标签联合匹配机制。专家系统依赖人工构建的知识库进行高精度实体判定。适用于特定领域且标注一致性要求高的场景。应用效果在限定文本中可准确标注复合结构的人名与机构名。对未登录模式泛化能力弱,需持续更新规则集。第七章信息抽取规则驱动识别基于语言学规律设计显式规则,匹配文本中符合模式的命名实体,无需训练数据即可启动识别。词典与模式结合利用人工构建的词典和正则表达式,结合上下文词汇、大小写、标点等特征定位候选实体。句法语义规则通过语法结构(如主谓宾)和语义搭配(如‘任职于’后接机构名)提升识别准确性。早期系统应用爱丁堡大学LTG系统使用手工规则库,实现对人名、地点、组织等实体的有效识别。规则冲突专家手工设计的规则可能存在逻辑矛盾,导致同一文本片段被赋予不同标签,需进行优先级判定与消解。召回率低依赖固定词典与有限规则难以覆盖新词、变体及隐含表达,大量真实实体未被识别,造成系统漏检严重。泛化性差领域特定规则难以迁移至其他场景,面对新领域需重新构建规则库,维护成本高且扩展能力弱。基于规则的实体抽取方法基于统计机器学习的命名实体识别——序列标注第七章信息抽取字本身的特征-是否是数字-是否是字符前后缀特征-姓氏:李XX、王X-地名:XX省、XX市词本身的特征-边界特征:边界词概率-词性-依存关系基于统计机器学习的命名实体识别——序列标注第七章信息抽取IOB标注体系IO标注体系IOB标注体系IO标注体系由OO印B-ORGI-ORG中B-ORGI-ORG尼I-ORGI-ORG国I-ORGI-ORG女I-ORGI-ORG女I-ORGI-ORG队I-ORGI-ORG队I-ORGI-ORG的OO的OO王B-PERI-PER叶B-PERI-PER莲I-PERI-PER钊I-PERI-PER香I-PERI-PER颖I-PERI-PER迎OO战OO基于统计机器学习的命名实体识别——HMM、CRF第七章信息抽取有向图模型生成式模型找到使P(X,Y)最大的参数假设特征之间是独立的无向图模型判别式模型找到使P(Y|X)最大的参数没有关于特征之间是独立的假设基于深度学习的命名实体识别第七章信息抽取自动特征学习深度学习模型可自动从原始文本中学习有效特征,无需人工设计词性、大小写等手工特征。端到端建模模型直接输入字或词序列,输出标签序列,实现端到端训练,简化流程并提升泛化能力。上下文感知强通过BiLSTM、Transformer等结构捕捉长距离语义依赖,显著提升实体边界和类型判断精度。基于统计机器学习的命名实体识别——LSTM-CRF第七章信息抽取GuillaumeLampleetal.NAACL-HIT.
2016标签转移CRF引入标签转移矩阵,学习合法标签跳转模式,如I-PER必须前接B-PER或I-PER。全局优化CRF通过维特比算法搜索全局最优标签序列,避免局部错误导致的不连贯标注。基于统计机器学习的命名实体识别第七章信息抽取序列建模方法RNN模型通过隐藏状态传递序列信息,具有时序记忆能力。受限于梯度消失问题,难以捕捉长距离依赖关系。LSTM改进引入输入门、遗忘门和输出门控制信息流动。有效缓解梯度消失,增强对长序列的建模能力。BiLSTM结构结合前向和后向LSTM,同时捕获上下文语义特征。显著提升上下文表示能力,适用于NER等任务。上下文理解自然语言具有强序列依赖,需准确识别实体边界。模型需充分建模前后文以理解语义类型与结构。命名实体识别利用BiLSTM作为编码层提取上下文特征表示。结合CRF等解码策略,实现端到端实体识别。深度网络演进从简单RNN到门控机制,体现对长程依赖的优化。双向结构进一步推动序列建模范式的发展。目录命名实体识别关系抽取事件抽取基于预训练语言模型与大语言模型的信息抽取第一章绪论关系抽取概念及挑战第七章信息抽取同一种关系多种表达同一动词触发不同关系关系重叠问题隐藏关系、多元关系关系抽取概念及挑战第七章信息抽取公司A公司B关系(A是B的)时间来源中兴通讯卓翼科技(002369)客户2013.03.05
中国证券网
公司公告中兴康讯Acacia客户2015.12.28OFweek光通讯网
行业新闻关系涉及实体跨句、跨篇章公司A公司B关系
(A是B的)时间来源中兴通讯中国联通合作伙伴2016.03.23
公司新闻中兴通讯中国联通客户2015.06.12
公司新闻中兴通讯英特尔(INTC)合作伙伴2013.01.16
公司新闻关系抽取概念及挑战第七章信息抽取联网中兴通讯非上市公司上市公司中兴康讯Acacia(IPO中)卓翼科技美国高通共进股份互宇顺电子美国博通子公司供应商客户竞争对手合作伙伴中国移动英特尔华为中国联通大富科技华星创业盛路通信超声电子当中兴通讯被制裁事件发生后,帮助客户快速分析受影响的公司关系抽取概念及挑战第七章信息抽取ACE评测标准下的常见语义关系类型集合第七章信息抽取关系涉及实体跨句、跨篇章关系抽取框架社会关系识别家庭关系,如父子、夫妻等亲属关联。雇佣关系,识别雇主与雇员之间的职场隶属。组织关系分析成员归属,判断个体是否属于某组织。领导关系,明确组织内部的上下级结构。合作关系,识别多个组织间的协同项目。物理关系建模空间位置,描述实体之间的方位或距离。接触状态,判断两个物体是否相互接触。归属关系判定所有权,明确某物归某人或组织所有。组成部分,识别整体与其子部件的关系。创建关系提取作品创作,识别作者与其著作之间的关联。事件发起,确定某人发起或触发某个事件。语义角色标注角色明确性,确保每个参与者语义角色清晰。上下文依赖,依据语境判断角色动态变化。关系抽取方法分类第七章信息抽取基于规则的关系抽取方法基于模板的Pattern监督学习方法基于统计机器学习的关系抽取基于深度学习的关系抽取基于弱监督的关系抽取方法远程监督Bootstrapping句子级抽取在单句内识别实体间语义关系,适用于结构清晰、信息完整的短文本,如新闻标题或百科摘要。文档级抽取跨多个句子整合关系事实,解决指代与碎片化问题,适用于长文分析如报告或医学文献。基于规则的关系抽取方法——模板pattern第七章信息抽取黄晓明妻子杨颖刘德华配偶朱丽倩X
妻子
YX
配偶
Y夫妻关系(X,
Y)姚明老婆叶莉X
老婆Y徐峥
老婆
陶虹缺点特定领域的模板需要专家构建难以维护可移植性差规则集合小的时候,召回率很低基于规则的关系抽取方法——依存句法pattern第七章信息抽取依存句法分析句子的句法结构以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定基于统计机器学习的关系抽取方法——特征工程第七章信息抽取确定实体对的情况下根据上下文对实体关系进行预测,构建一个监督学习应该怎么做?预先定义好关系的类别人工标注一些数据设计特征表示选择一个分类方法(SVM、NN、Naive
Bayes)评估结果轻量级特征实体前后的词实体的类型实体之间的距离中等量级特征Chunk序列重量级特征实体间的依存关系路径实体间树结构的距离特定的结构信息基于统计机器学习的关系抽取方法——特征工程第七章信息抽取机器学习方法特征设计BryanRinket.alACL
2016基于深度学习的关系抽取方法——分段卷积PCNN第七章信息抽取ZhaoJunet.alACL
2015Pipeline方法基于深度学习的关系抽取方法——Att-Pooling-CNNs第七章信息抽取ZhiyuanLiuet.alACL
2016应用注意力机制目前最好的方法(F1值88.0)Pipeline方法基于深度学习的关系抽取方法——监督学习方法对比第七章信息抽取ZhiyuanLiuet.alACL
2016Pipeline方法不同模型在SemEval-2010
Task
8
数据集上的效果比较基于深度学习的关系抽取方法——联合LSTM-RNNs模型第七章信息抽取Miwaet.alACL
2016joint方法识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果Pipeline实体识别和关系分类的过程是共同优化的Joint基于深度学习的关系抽取方法——标记管道方法PURE第七章信息抽取ChenDqet.alNAACL
2021Pipeline方法基于统计机器学习的关系抽取方法——优缺点第七章信息抽取优点准确率高,标注数据越多越准确缺点标注数据成本太高不能扩展新的关系标注依赖人力有监督关系抽取依赖大量人工标注的实体关系样本,需语言专家逐句标注实体对及其语义关系,耗时耗力。标注标准复杂关系类型体系繁杂,标注需遵循严格规范,不同标注者易产生不一致,需反复校验以保证数据质量。领域迁移困难特定领域(如医疗、金融)缺乏通用标注数据,重新标注成本高昂,难以快速构建高质量训练集。标注规模受限高质量标注数据规模有限,模型易过拟合,难以覆盖长尾关系和复杂语言现象,制约性能提升。基于弱监督的关系抽取方法第七章信息抽取问题背景实体对在多句中表达同一关系,但单句标注稀疏,传统监督学习难以覆盖完整语义。没有足够多标注数据的情况下,怎么办数据量特别大的情况下,如何抽取实体间关系?远程监督方法知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力Bootstrapping通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组核心思想将文档中提及相同实体对的所有句子归为一个包,共享关系标签,实现跨句联合学习。基于弱监督的关系抽取方法——远程监督学习第七章信息抽取两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。在某知识库中存在:
创始人(乔布斯,
苹果公司)则可构建训练正例:乔布斯是苹果公司的联合创始人和CEO具体步骤从知识库中抽取存在关系的实体对从非结构化文本中抽取含有实体对的句子作为训练样例优点可以利用丰富的知识库信息,减少一定的人工标注缺点假设过于肯定,引入大量噪声,存在语义漂移现象很难发现新的关系基于弱监督的关系抽取方法——半监督Bootstrapping第七章信息抽取给定种子集合,如:<姚明,
叶莉>从文档中抽取出包含种子实体的新闻,如姚明老婆叶莉简历身高曝光X
老婆Y
简历身高曝光姚明与妻子叶莉外出赴约X
与妻子Y
外出赴约姚明携爱妻叶莉外出赴约X
携爱妻Y
外出赴约将抽取出的Pattern去文档集中匹配小猪与妻子伊万外出赴约根据Pattern抽取出的新文档如种子库,迭代多轮直到不符合条件优点构建成本低,适合大规模构建可以发现新的关系(隐含的)缺点对初始给定的种子集敏感存在语义漂移问题结果准确率较低缺乏对每一个结果的臵信度的计算目录命名实体识别关系抽取事件抽取基于预训练语言模型与大语言模型的信息抽取第一章绪论事件定义第七章信息抽取事件起源于认知科学,常常在哲学、语言学、计算机科学等领域被广泛讨论。但遗憾的是目前对事件还没有统一的定义,在不同领域,针对不同的应用,不同的人对事件有不同的描述。不同的动作或者状态的改变代表不同类型的事件同一个类型的事件中不同的元素代表了不同的事件实例同一个类型的事件中不同粒度的元素代表不同粒度的事件实例第二次世界大战抗日战争淞沪会战事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变事件抽取定义第七章信息抽取事件抽取是信息抽取中的难点问题事件抽取依赖实体抽取和关系抽取相较于实体抽取和关系抽取,事件抽取难度更大例:1992年10月3日,奥巴马与米歇尔在三一联合基督教堂结婚实体抽取:1992年10月3日,
奥巴马,米歇尔,三一联合基督教堂关系抽取:夫妻关系:奥巴马,米歇尔事件抽取:事件类型:结婚事件配偶:奥巴马,配偶:米歇尔时间:
1992年10月3日地点:三一联合基督教堂事件抽取相关概念第七章信息抽取事件指称(Mention)事件类型(Type)事件触发词(Trigger)论元角色(ArgumentRole)事件论元(Argument)事件抽取样例第七章信息抽取事件类型会谈触发词会谈参与者斯瓦拉吉、王毅时间-地点-事件类型撤军触发词撤军参与者中印双方时间周五事件类型建造触发词建起参与者印度军方时间-地点边界地区事件类型破坏触发词毁坏参与者印方时间-地点-简单事件抽取事件嵌套第七章信息抽取中印边界对峙事件类型:冲突触发词:起因:结果:活动:- …活动事件类型:建造触发词:建起参与者:印度军方时间:地点:边界地区活动事件类型:破坏触发词:毁坏参与者:印方时间:地点:撤军事件类型:撤军触发词:撤军参与者:中印双方时间:周五地点:会谈事件类型:会谈触发词:会谈参与者:斯瓦拉吉、王毅时间:地点:相关评测01事件嵌套第七章信息抽取(1)标注样本费时费力。深度学习监督事件抽取模型需要大量的高质量的人工标注训练数据集。消耗人力成本和时间成本的工作,个人主观性,标注过程需要采用多人协同交叉标注机制,这进一步增加了标注成本,也极大地限制了基于深度学习的监督事件抽取模型对新事件类型或新领域的迁移应用。(2)事件论元跨越句子边界。传统的事件抽取任务主要关注于句子级,其假设事件论元分布在一个句子内,而这个假设在很多情况下并非成立。事件的重要论元以较大概率跨越句子边界,分散在整个篇章中,这也给事件抽取任务带来更大挑战。事件抽取
数据集及评价第七章信息抽取MUCTDTACE(KBP)全称Message
UnderstandingConferenceTopicDetection
and
TrackingAutomatic
ContentExtraction举办方DefenseAdvancedResearchProjectsAgency(DARPA)DARPANationalInstitute
ofStandardsandTechnology(NIST)时
间1987-19971998-2004ACE:2000-2008KBP:2014-2017评测内容抽取指定的事件,包括参与这些事件的各个实体、属性和关系。例如:MUC-2是从海军军事情报中抽取事件填入预定义模板中,共10个槽MUC-4(1700个样本+4个事件类型+5个论元类型)将文本切割为不同的新闻报道,监控其中新事件的报道,并且将同一话题下的分散的报道按照某种结构有效组织起来.TDT-3:
240个topic指定的源语言数据中发现特定类型的事件,并且识别出与事件相关的信息填入预设的事件模板中。ACE2005中共计8大类33个小类的599个样本事件抽取评测第七章信息抽取消息理解会议(MUC)MUC是由美国DARPA发起,目的在于鼓励和开发信息抽取系统,主要以召回率和精确率来评价信息抽取系统性能的重要指标,一般是基于召回率和精确率来计算法F1值自动内容抽取(ACE)由美国国家标准技术研究所(NIST)组织的评测会议,主要包括实体检测与跟踪、关系检测与表征、事件检测与跟踪,与MUC解决的问题类似,只是对MUC的任务进行融合。知识库填充(KBP)由文本分析会议主办,其目的是开发和评估从非结构化文本中获取知识填充知识库的技术,主要任务包括实体发现与链接、槽填充、事件跟踪和信念与情感分析。语义评测(SemEval)由ACL-SIGLEX组织发起,是比较早进行实体消歧的评测任务的机构,目的是增进人们对词义与语义现象的理解,主要包括语义角色标注、情感分析、跨语言语义分析等ACE事件类型体系第七章信息抽取事件抽取数据集第七章信息抽取WikiEvents(246篇文档+59个论元类型+22%跨句论元标注数据)、RAMS(12000篇新闻+9124个具体事件+65个论元类型),金融领域的事件抽取数据集包括DCFEE(2976篇文档+5个事件类型)[11]、ChFinAnn(32040篇文档+5个金融事件类型+35个论元类型)[12]。以上数据集要么规模过小,要么事件类型过少,为了进一步推进DEE技术的发展,清华大学于2022年构建并提出DocEE数据集。DocEE拥有18万多篇文档,59个事件类型,356个事件论元类型和27485个具体事件,是迄今为止规模最大的带标注篇章级数据集,通过9个前沿EE模型在DocEE数据集上的对比实验结果发现,即使是SOTA模型其事件抽取的性能远低于人类水平,进一步说明篇章级事件抽取任务极具挑战。[16]其他事件抽取相关数据集第七章信息抽取(event_type:胜负,role:时间,胜者,败者,赛事名称)、(event_type:夺冠,role:夺冠事件,夺冠赛事,冠军)。2个目标事件:竞赛行为-胜负,竞赛行为-夺冠各自事件的论元:比如事件的发生时间/地点,以及胜者、败者、冠军分别是谁。/weixin_42691585/article/details/115557227其他事件抽取相关数据集第七章信息抽取百度的LIC2021事件抽取任务事件抽取模型01事件抽取方法分类-DMCNN第七章信息抽取Skip-gramContext-wordfeature(CWF)Positionfeature(PF)Event-typefeature(EF)[1]ChenY,XuL,LiuK,ZengD,ZhaoJ.EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetworks.Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing(Volume1:LongPapers),Beijing,China:AssociationforComputationalLinguistics;2015,p.167–76./10.3115/v1/P15-1017.pipeline流水线式模型:先训练一个实体抽取模型,然后再训练一个关系抽取模型,两个模型相互不影响joint联合抽取式模型:将实体抽取和关系抽取放在同一个模型上,loss=实体抽取loss+关系抽取loss。事件抽取方法分类-DMCNN第七章信息抽取[1]ChenY,XuL,LiuK,ZengD,ZhaoJ.EventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetworks.Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing(Volume1:LongPapers),Beijing,China:AssociationforComputationalLinguistics;2015,p.167–76./10.3115/v1/P15-1017.triggerclassification:setthewindowsizeas3,thenumberofthefeaturemapas200,thebatchsizeas170andthedimensionofthePFas5argumentclassification:setthewindowsizeas3,thenumberofthefeaturemapas300,thebatchsizeas20andthedimensionofthePFandEFas5.在触发词分类中,我们在词汇级特征表示中仅使用候选触发词及其左右相邻的词元(tokens)。在句子级特征表示中,我们采用与论元分类中相同的上下文词特征(CWF),但仅利用候选触发词的位置来嵌入位置特征。此外,我们不再将句子划分为三个部分,而是以候选触发词为界,将句子划分为两个部分。事件抽取方法分类-JRNN2016第七章信息抽取[2]NguyenTH,ChoK,GrishmanR.JointEventExtractionviaRecurrentNeuralNetworks.Proceedingsofthe2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,SanDiego,California:AssociationforComputationalLinguistics;2016,p.300–9./10.18653/v1/N16-1034.事件抽取方法分类-JMEE2018第七章信息抽取[3]LiuX,LuoZ,HuangH.JointlyMultipleEventsExtractionviaAttention-basedGraphInformationAggregation.Proceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Brussels,Belgium:AssociationforComputationalLinguistics;2018,p.1247–56./10.18653/v1/D18-1156.事件抽取方法分类-PLMEE2019第七章信息抽取[4]YangS,FengD,QiaoL,KanZ,LiD.ExploringPre-trainedLanguageModelsforEventExtractionandGeneration.Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,Florence,Italy:AssociationforComputationalLinguistics;2019,p.5284–94./10.18653/v1/P19-1522.事件抽取方法分类-PLMEE2019第七章信息抽取[4]YangS,FengD,QiaoL,KanZ,LiD.ExploringPre-trainedLanguageModelsforEventExtractionandGeneration.Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,Florence,Italy:AssociationforComputationalLinguistics;2019,p.5284–94./10.18653/v1/P19-1522.事件抽取方法分类-RCEE2020第七章信息抽取[5]LiuJ,ChenY,LiuK,BiW,LiuX.EventExtractionasMachineReadingComprehension.Proceedingsofthe2020ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),Online:AssociationforComputationalLinguistics;2020,p.1641–51./10.18653/v1/2020.emnlp-main.128.QuestionTopicGeneration.template-basedmethodse.g.thequerytopicforthesemanticroleTimemightbe“When[...]”,forAttackermightbeWho[...]”.QuestionContextualization.
styletransfer=descriptive->question-stylestatement事件抽取方法分类-Doc2EDAG(篇章-财经)第七章信息抽取[6]ZhengS,CaoW,XuW,BianJ.Doc2EDAG:AnEnd-to-EndDocument-levelFrameworkforChineseFinancialEventExtraction.Proceedingsofthe2019ConferenceonEmpiricalMethodsinNaturalLanguageProc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 17428-2026建筑管道耐火试验方法
- 港口施工高处坠落应急演练脚本
- (完整版)学校实验室危化品管理体系及管控措施
- 锅炉出渣机维护规程
- 门禁道闸设备维护保养计划方案
- 数控车床高级工应知试卷含答案
- 计算机网络基础 教案全套 李超 项目1-7 初识计算机网络-Internet基础与应用
- 2026年矿山生态修复合同协议
- 关节紊乱护理查房
- 年产1.0万吨储能铁-铬液流电解液项目可行性研究报告模板拿地申报
- 在职员工培训需求分析
- 卫生院医保内部管理制度
- 2026年地铁运营控制中心行车调度员招聘笔试题库含答案
- 广西循环经济发展:模式、成效、挑战与展望
- 2024年公路养护工专业技能考试题库(附答案解析)
- 艺人助理课件
- 2025 七年级数学下册实数大小比较的特殊值代入法课件
- 大检修培训课件
- 2025年甘肃卫生职业学院单招职业适应性考试模拟测试卷附答案
- 2025年江苏省安全员《A证》考试题库及答案
- 2025年AP考试物理C真题
评论
0/150
提交评论