知识图谱入门-知识抽取与挖掘(I)_第1页
知识图谱入门-知识抽取与挖掘(I)_第2页
知识图谱入门-知识抽取与挖掘(I)_第3页
知识图谱入门-知识抽取与挖掘(I)_第4页
知识图谱入门-知识抽取与挖掘(I)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识图谱⼊门——知识抽取与挖掘(I)⽂章⾸发于博客,本⽂链接为本⽂主要介绍了⾯向⾮结构化数据、半结构化数据和结构化数据的知识抽取。知识抽取任务定义对于知识图谱来说,我们需要从不同来源、不同结构的数据中进⾏抽取,形成知识存⼊到知识图谱。知识抽取的技术与难点:从结构化数据库中获取知识:D2R难点:复杂表数据的处理从链接数据中获取知识:图映射难点:数据对齐从半结构化(⽹站)数据中获取知识:使⽤包装器难点:⽅便的包装器定义⽅法,包装器⾃动⽣成、更新与维护从⽂本中获取知识:信息抽取难点:结果的准确率与覆盖率知识抽取的⼦任务1.命名实体识别1.检测:西⽠书的作者是周志华。→[西⽠书]:实体2.分类:西⽠书的作者是周志华。→[西⽠书]:书籍2.术语抽取1.从语料中发现多个单词组成的相关术语。3.关系抽取1.抽取出实体、属性等之间的关系。例⼦:王思聪是万达集团董事长王健林的独⼦。→[王健林]<⽗⼦关系>[王思聪]4.事件抽取1.相当于多元关系抽取例⼦:5.共指消解例⼦:⾮结构化数据的知识抽取实体抽取实体抽取的任务是抽取⽂本中的原⼦信息元素,包括⼈名、组织/机构名、地理位置、时间/⽇期、字符值、⾦额值等(原⼦根据场景来定义)。例⼦:⾮结构化数据的实体抽取可以认为是⼀个序列标注问题,于是我们可以使⽤序列标注的⽅法,例如使⽤HMM、CRF等⽅法,也可以使⽤LSTM+CRF的⽅法,⼏种⽅法通过F1值的⽐较如下:实体识别与链接识别⾮结构化数据(⽂本)中的实体,并将它们链接到知识库中,是让机器理解⾃然语⾔的第⼀步,也是⾄关重要的⼀步。实体识别出来的实体名可能是有歧义的,可能有多个实体都对应着某个实体名,也可能摸个实体对应着多个实体名,如china可能是中国也可能是瓷器,此时我们需要对实体进⾏消歧与链接。实体链接的流程如下:实体链接的例⼦:关系抽取关系抽取是从⽂本中抽取出两个或者多个实体之间的语义关系。关系抽取主要有基于模板的⽅法、监督学习⽅法和弱监督学习⽅法。基于模板的⽅法基于触发词的Pattern⾸先确定⼀个触发词(triggerword),然后根据触发词做pattern的匹配及抽取,然后做⼀个映射。例⼦:基于依存句法分析的Pattern⽂本⼀般具有⼀些句法结构,如主谓结构、动宾结构、从句结构、这些结构可以是跨多个词所产⽣的。最常见的情况是动宾短语,所以我通常以动词为起点,构建规则,对节点上的词性和边上的依存关系进⾏限定(可以理解为泛化的正则表达式)。具体的流程如下:例⼦:董卿现⾝国家博物馆看展优雅端庄⼤⽅。依存分析:上图中,我们可以看出这个例⼦中的依存关系路径中“-1”代表谓语,同时可以看出“董卿”这个词依存关系路径为1,说明此处的董卿是和词顺序为“1”的现⾝关联,于是可以得到“董卿,现⾝”;接着看“国家博物馆”也是和“现⾝”所关联,所以可以得出⼀个动宾关系“现⾝,国家博物馆”。抽取结果:(董卿,现⾝,国家博物馆)→位于(董卿,国家博物馆)监督学习的⽅法确定实体对的情况下,根据句⼦上下⽂对实体关系进⾏预测,构建⼀个监督学习应该怎么做?预先定义好关系的类别⼈⼯标注⼀些数据设计特征表⽰选择⼀个分类⽅法(SVM、NN、NaiveBayes)评估结果上述步骤主要需要考虑特征的选择,特征的选择往往使⽤如下做法:常规做法轻量级特征实体前后的词实体的类型实体之间的距离(也就是实体之间的相似度)中等量级特征Chunk序列:如词组重量级特征实体间的依存关系路径实体间树结构的距离特定的结构信息深度学习⽅法——Pipeline识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果CR-CNN模型-仅使⽤词向量和位置向量作为输⼊-F1值84.1,超过现有的⾮深度学习⽅法Att-CNN模型-应⽤注意⼒机制(表现为不同的词对上下⽂来说有不同的权重)-⽬前最好的⽅法(F1值88.0)Att-BLSTM模型存在的问题:存在错误传递深度学习⽅法——JointModel实体识别和关系分类的过程是共同优化的。同时整合前⾯的两个任务,是全局最优化,效果⼀般情况下优于Pipeline,但是参数空间会提⾼。LSTM-RNNs模型该模型将依存关系使⽤Bi-TreeLSTM的树型模型表⽰。监督学习的⽅法⼩结优点:准确率⾼,标注数据越多越准确缺点:标注数据成本太⾼;不能扩展新的关系弱监督学习的⽅法当我们的标注数据不⾜或数据量⼜特别⼤的情况下,关系的抽取可以采⽤弱监督学习⽅法。远程监督⽅法知识库与⾮结构化⽂本对齐来⾃动构建⼤量训练数据,减少模型对⼈⼯标注数据的依赖,增强模型跨领域适应能⼒。若两个实体在知识库中存在某种关系,则包含该两个实体的⾮结构化句⼦均能表⽰出这种关系。例⼦:在某知识库中存在:创始⼈(乔布斯,苹果公司)则可构建训练正例:乔布斯是苹果公司的联合创始⼈和CEO具体的步骤:1.从知识库中抽取存在关系的实体对2.从⾮结构化⽂本中抽取含有实体对的句⼦作为训练样例这⾥需要有标注的数据给定⼀些关系,这些数据该如何得到是其中的⼀个问题。可以通过已有的知识库的三元组出发,将实体进⾏实体链接或实体发现,也就是使⽤现有的知识库去标注数据。但是这些标注数据不⼀定都满⾜我们需要的关系(即可能含有噪声),于是我们需要训练处⼀个抗噪模型。缺点:假设过于肯定,引⼊⼤量噪声,存在语义漂移现象;很难发现新的关系。Bootstrapping在前⾯的⽅法是基于⼿⼯书写的模板(如基于dependency的模板)来做的,在Bootstrapping中,我们使⽤并需要⾃⼰定义模板,⽽是是去学习模板。整体步骤如下:假设给定了⼀个种⼦集合,种⼦词⼀般都是实体对,如:<姚明,叶莉>1.从⽂档中抽取出包含种⼦实体词的新闻;如图,将原来的种⼦词替换成⼀个置位词(如图中的X,Y),同时可以利⽤互联⽹的冗余性对每个学到的pattern进⾏计数并算出频率,由于会有许多相似的pattern,可以对这样的pattern做聚类来学出⼀个更加抽象的pattern。2.将抽取出来的Pattern与⽂档集中匹配;3.根据Pattern抽取出的新⽂档如种⼦库,迭代多轮直到不符合条件。优点:构建成本低,适合⼤规模构建;可以发现新的关系(隐含的)。缺点:对初始给定的种⼦集敏感;存在语义漂移问题;结果准确率较低;缺乏对每⼀个结果的置信度的计算。事件抽取事件抽取的概念从⾃然语⾔中抽取出⽤户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发⽣的时间、地点、发⽣原因、参与着等。事件抽取的相关术语:事件描述(EventMention):描述事件的词组或句⼦事件触发(EventTrigger):表明事件出现的主要词汇事件元素(EventArgument):事件的重要信息元素⾓⾊(ArgumentRole):元素在句⼦中的语义⾓⾊事件是可以嵌套的,可以做事件的检测与跟踪:事件抽取的任务:事件抽取任务最基础的部分包括:识别事件触发词及事件类型抽取事件元素同时判断其⾓⾊抽出描述事件的词组或句⼦此外,事件抽取任务还包括:事件属性标注事件共指消解事件抽取的Pipeline⽅法有监督的事件抽取⽅法的标准流程⼀种pipeline的⽅法,将事件抽取任务转化为多阶段的分类问题,需要的分类器包括:事件触发次分类器(TriggerClassifier)⽤于判断词汇是否是是事件触发词,以及事件的类别元素分类器(ArgumentClassifier)判别词组是否是事件的元素元素⾓⾊分类器(RoleClassifier)判定元素的⾓⾊类别属性分类器(attributeclassifier)判定事件的属性可报告性分类器(Reportable-EventClassifier)判定是否存在值得报告的事件实例分类器模型可以是机器学习⽅法中的各种分类器模型,⽐如MaxEnt、SVM等。典型的分类特征:存在的问题:误差从前⾯的环节传播到后⾯的环节,使得性能急剧衰减各个环节的预测任务是独⽴的,之间没有互动⽆法处理全局的依赖关系事件抽取的联合⽅法JointInference(联合推理⽅法):是⼀种集成学习的⽅法,构建n个模型,最后对n个模型的结果进⾏求和等⽅法来预测。可以基于以下⽅法:ConstrainedConditionalModelsILPRe-ranking(整形规划重排序)DualdecompositionJointModeling:实际上是⼀种多任务学习,在不同任务中共享⼀些隐层特征,如word特征、embedding特征、句法特征等。可以基于如下⽅法:ProbabilisticGraphicalModelsMarkovlogicnetworksJointModelingwithStructuredPrediction:使⽤⼀个模型同时抽取出所有的信息的联合。将问题建模成结构预测问题,使⽤搜索⽅法进⾏求解。避免了误差传播导致的性能下降。全局特征可以从整体的结构中学习得到,从⽽使⽤全局的信息来提升局部的预测。基于深度学习的事件抽取⽅法基于动态多池化卷积神经⽹络的事件抽取⽅法:动态多池化层:传统的神经⽹络利⽤最⼤池化层事件抽取中,⼀个句⼦可能包含多个事件结构化数据的知识抽取结构化数据即⾏数据,存储在数据库⾥,可以⽤⼆维表结构来逻辑表达实现的数据,如关系数据库。如下将左边的结构化ER模型转换成右边的结构化模型就是从结构化数据中进⾏知识抽取的例⼦。DirectMapping通过明确在关系模式中编码的语义,将关系数据转换为RDF。如下按照⼀些简单的规则创建uri:MaptabletoclasscolumntopropertyrowtoresourcecelltoliteralvalueinadditioncelltoURIifthereisaforeignkeyconstraint例⼦:R2RMLR2RML:RDBtoRDFMappingLanguage映射的任务是将逻辑表作为输⼊,然后依据规则“triplesmap”将其转换成三元组的集合。逻辑表:adatabasetableadatabaseview,oranSQLqueryTriplesMaps:triplesareproducedby:subjectmapspredicatemapsobjectmaps.例⼦:ThesubjectIRIisgeneratedfromtheempnocolumnbythetemplate()ThepredicateIRIistheconstantex:nameTheobjectistheliteral"SMITH”,thatiscopiedfromtheENAMEcolumn半结构化数据的知识抽取百科类知识抽取接下来以从维基百科抽取图灵奖获得者TimBerners-Lee来介绍。抽取出Label,将短摘要(第⼀段)作为comment,长摘要作为abstract;通过WikimediaCommons抽取出图像信息作为depiction;将infobox的数据转换成⼀些property;接下来还包括抽取内链、类别、歧义以及重定向等。WEB⽹页数据抽取:包装器互联⽹中的数据往往也具有⼀定的结构,我们可以通过包装器等⽅法进⾏知识的抽取。包装器是⼀个能够将数据从HTML⽹页中抽取出来,并且将它们还原为结构化的数据的软件程序。包装器抽取流程如下:对于包装器的⽣成我们可以使⽤⼿⼯⽅法、包装器归纳⽅法和⾃动抽取的⽅法。包装器⽣成:⼿⼯⽅法⼿⼯⽅法需要查看⽹页结构和代码,通过⼈⼯分析,⼿⼯写出适合这个⽹站的表达式,这个表达式的形式可以是XPath表达式,也可以是CSS选择器的表达式等。包装器⽣成:包装器归纳包装器归纳是基于有监督学习的,他从标注好的训练样例集合中学习数据抽取规则,⽤于从其他⽤相同标记或相同⽹页模板抽取⽬标数据。⽹页清洗有些⽹页结构不规范,例如前后标签不对成,没有结束标签符。不规范的⽹页结构容易在抽取的过程中产⽣噪声。清洗可以⽤Tidy来完成。⽹页标注⽹页标注是在⽹页上标注你需要抽取数据的过程。标注的过程可以是给⽹页中的某个位置打上特殊的标签表明这是需要抽取的数据。例如我们要抽取上⾯举例的“华为P10”搜索页⾯的商品信息和价格信息,就可以在通过在他们所在的标签⾥打上⼀个特殊的标记作为标注。包装器空间的⽣成对标注的数据⽣成XPath集合空间,对⽣成的集合进⾏归纳,形成若⼲个⼦集。归纳的规则是在⼦集中的XPath能够覆盖多个标注的数据项,具有⼀定的泛化能⼒。包装器评估评估规则⼀:准确率。将筛选出来的包装器对原先训练的⽹页进⾏标注,统计与⼈⼯标注的相同项的数量,除以当前标注的总数量。准确率越⾼评分越⾼。评估规则⼆:召回率。将筛选出来的包装器对原先训练的⽹页进⾏标注,统计与⼈⼯标注的相同项的数量,除以⼈⼯标注的总数量。召回率越⾼评分越⾼。包装器归纳结果经过前⾯⼀系列的⼯作之后,得到“华为P10”搜索结果页⾯最后价格信息的XPath的路径。例⼦:包装器⽣成:⾃动抽取⽹站中的数据通常是⽤很少的⼀些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。包装器训练⾃动抽取⽹页中的信息不需要任何的先验知识和⼈⼯数据的标注。将⼀组⽹页通过聚类将相似的⽹页分成若⼲个组,每组相似的⽹页将获得不同的包装器。包装器应⽤将需要抽取的⽹页与之前⽣成包装器的⽹页进⾏⽐较,在某个分类下则使⽤该分类下的包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论