




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
徐源北京邮电大学,知识库构建与应用,1,-,目录,语义信息抽取知识库语义检索海量数据处理,2,-,语义信息抽取泛网资源与信息语义抽取内容模式抽取层级构建,3,-,语义信息抽取海量资源与信息,泛在网为我们提供了无所不在的资源及信息。如何在海量信息中获取我们需要的信息?如何快捷的获取?机器理解?如何让机器更好的理解?语义抽取,4,-,语义信息抽取语义抽取内容,实体抽取(Namedentityextraction):人物、地点、机构、疾病,等命名或专有实体。属性抽取(Attributeextraction):实体的自身属性。关系挖掘(Relationmining):实体之间的关系。事件挖掘(Eventmining):由多个关系元组所构成。,5,-,语义信息抽取实体抽取,识别文本中出现的实体MUC(1997):Person,Location,Organization,Date/Time/CurrencyACE(2005):100多种更具体的类型针对不同实体类型与领域考虑不同方法封闭类(e.g.,geographicallocations,diseasenames,geneVisAofI种子改变:(China,capital)(China,capital,Beijing)基于WikipediaInfobox基于HTML表格,10,-,语义信息抽取关系抽取,ACE(AutomaticContentExtraction)会议将关系抽取任务表述为:探测和识别文档中特定类型的关系,并对这些抽取出的关系进行规范化表示。一个比较完整的关系抽取系统应包括依次相连的5个模块:NLP处理和实体抽取、模式匹配或分类、共指消解、新关系处理以及规范化输出。关系抽取的困难可以归纳为3个方面:特定领域标引数据集的获取模式的获取共指消解,11,-,语义信息抽取关系抽取,基于模式匹配的关系抽取先构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。基于词典驱动的关系抽取基于词典驱动的关系抽取方法非常灵活,新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。但只能识别以动词为中心词的关系。基于机器学习的关系抽取将关系抽取看作是一个分类问题。在人工标引语料的基础上构造分类器,然后将其应用在领域语料关系的类别判断过程中。目前使用比较多的学习算法有MBL算法和SVM算法。混合抽取方法基于词汇:“locatedin”基于句法结构:“(Obj)(Verblocated)(*)(Subj)”机器学习方法有监督学习:基于人工标注数据训练模型(SVM,MaxEnt,KNN等)1.基于特征的方法2.核方法:核函数Kernel(x,y)定义对象x与y之间的相似度,则可直接使用核函数代替上述公式中基于显式特征的点积运算半监督学习:基于自举方法从种子样例中训练模型自举方法(Bootstrapping)轮流发现实体关系对与抽取模板。无监督学习:自动发现主要的关系与相应的对象基于对象对与关系上下文的对偶性利用聚类算法,12,-,语义信息抽取事件抽取,事件由事件触发词和描述事件结构的元素构成,通常需要共指消解,消岐,去重,推理。事件抽取由两个步骤组成:事件类别识别:事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别。事件元素识别:事件元素是指事件的参与者。根据所属的事件模板抽取相应的元素,并为其标上正确的元素标签。,13,-,语义信息抽取事件抽取,事件抽取主要有两种方法:模式匹配和机器学习的方法。模式匹配的方法对某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。机器学习的方法把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。,14,-,语义信息抽取模式抽取,一阶共现:模版(PB)Hoursmayvaryonholidays,suchasEaster,ThanksgivingandChristmas.Pattern:(suchas|including)T,T*(and|,|.)Easter,Thanksgiving,Christmas二阶共现:分布式相似性(DS)前提是假设:出现在相似上下文(词语、句法)中的词语比较相似。定义上下文(句法上下文,词语上下文.)将每个短语表示为一个特征向量(特征:短语出现的一个上下文;特征值:上下文针对短语的权重)计算短语相似性(特征向量之间的相似性:Cosine,Jaccard),15,-,语义信息抽取语义层级构建,为短语(term)赋予类标签或上位词(label)Beijingcity,capital;Applecompany,fruit方法:Patternmatching+counting为语义类(semanticclass)赋予类标签(label)Beijing,Shanghai,Dalian.cities,Chinesecities.方法:投票(Voting)构建层级,16,-,知识库典型知识库构建方式应用,17,-,知识库典型知识库,人工构建的知识库WordNet:专家构建、英语Wikipedia:社区网民构建,实体/属性自动抽取得到的知识库YAGO:Wikipedia+WordNet,自动构建,准确率高DBpedia:Wikipedia+社区网民创建的映射规则,召回率高Freebase:Wikipedia+其他数据库+用户编辑,18,-,知识库构建方式,YAGO自动构建方式1.利用WordNet和Wikipedia(Infobox和Categories)抽取相关知识,再合并构成联通本体。2.一致性检查:包括实体的唯一性;关系领域与范围;类型的一致性。http:/www.mpi-inf.mpg.de/yago-naga/yago/,19,-,知识库构建方式,Dbpedia自动构建方式1.人工构建分类体系ontology:259classes,6levels,1200properties。2.映射规则:将Wikipediainfoboxesandtables映射到其自有的ontology,人工映射规则。,20,-,知识库构建方式,Freebase自动构建方式1.从Wikipedia,ChefMoz,NNDB和MusicBrainz等多个数据源导入数据。2.用户可贡献数据。Totaltriples:1.9billion,21,-,知识库应用,自动问答系统语义相似性计算情感倾向Web数据标注地图标注侧面搜索,22,-,语义检索语义解析语义计算文本推理文本复述,23,-,语义检索语义解析(词法分析),词法分析(英语:lexicalanalysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。如下所示,24,-,句法分析语义解析(短语结构分析),短语结构指的是词法分析之后词和词之间的结构关系,包括并列,动宾等等。如下所示,25,-,句法分析语义解析(依存关系分析),依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。如下所示,26,-,句法分析语义解析(语义角色标注),语义角色标注是指在语法分析的基础上,对句子中各种词语进行更深一层的角色分析。如下所示,27,-,语义计算,词汇语义计算是语义计算的基础,也是关键技术点,28,-,语义计算词汇语义计算,词语相似度的计算主要分两类:(1)基于语义词典的方法,如wordnet、知网等(2)基于语料统计的方法,29,-,语义计算基于语义词典的词汇,语义词典一般由多个同义词集合组成,每个集合里面是表示相同词义的词的集合。每个词条包括多个同义词集合,同义词集合通过不同的词义关系相连。使用同义集合代表概念,词汇关系在词语之间体现,语义关系在概念之间体现。基于语义词典的词汇语义计算方法很多,如下介绍几种典型的:(1)WuAndPalmer算法通过与概念词最近的公共父结点概念词的位置关系来计算其相似度;(2)LeacockAnd-Chodorow算法则是将两概念间的路径长度转化为信息量来进行相似度计算;(3)在基于信息内容的算法上,Resnik提出了直接利用公共父结点概念词的信息内容来计算概念词之间的相似度的算法。,30,-,语义计算基于语义词典,语义词典方法的缺点:(1)对于很多语言并没有好用的语义词典(2)有些词不被语义词典包含,例如实体、新词等(3)大部分方法依赖于上下位层次关系:这限于名词,对于形容词和动词并不完善,31,-,语义计算基于语料统计,上下文共现向量方法潜在语义分析LSA(LatentSemanticAnalysis)词向量,32,-,语义计算上下文共现向量方法,构建上下文向量,每个词为一个1xV(V为所有词总数)的向量,记录其他词是否与该词一起出现基于向量距离/相似度公式(典型的胃余弦距离)进行计算两个词的相似度,33,-,语义计算潜在语义分析LSA,构建词和文档的矩阵A给词赋予权重,例如TF-IDF权重对矩阵进行SVD(SingularValueDecomposition)分解留下奇异值不为0对应的k行和k列矩阵U中的每一行表示相应词语与隐含语义空间中语义维度之间的关联,34,-,语义计算词向量,词向量是用来将语言中的词用数学方式表示成一个向量的形式,一种最简单的词向量方式是one-hotrepresentation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的位置。但这种词表示有两个缺点:(1)容易受维数灾难的困扰,尤其是将其用于DeepLearning的一些算法时;(2)不能很好地刻画词与词之间的相似性(术语好像叫做“词汇鸿沟”)。针对这种情况,Hinton于1986年提出DistributedRepresentation,之后对词向量的研究成为学术界的热点,尤其是在2000年之后,提出了多种词向量训练模型。,35,-,语义计算词向量解释,模型中的隐层有多少个节点,词向量就是多少维,隐层中的每一个节点相当于一个语义,从输入层到隐层的映射,相当于将一个词映射到不同的语义维度上。语义越相近的词,向量相似度越高。语料库越大,训练出来的词向量越准确。,36,-,语义计算文本推理,从自然语言表示角度,在词法层,句法层,语义层,将文本依次看成字符串形式,成分结构或依存关系和语义表达/逻辑表达式。在基于各个表达层级选择推理逻辑方法。文本推理的难点:需要大量背景知识的支持句式结构、语义表达的多样化需要构建使用完整的推理规则,37,-,语义计算文本复述,根据在知识库索引中找到的信息,进行文本组织复述,反馈给查询者复述生成方法:基于规则的方法基于词典的方法基于自然语言生成的方法基于机器翻译的方法,38,-,海量数据处理Nesper,39,-,NesperNEsper概念,背景:针对实时信息的高并发性和高吞吐量的需求而设计Esper是用于CEP(复杂事件处理)和ESP(事件流处理)应用程序的组件,是一个适合实时分析数据的内存计算引擎。(Java)高吞吐量低延迟复杂计算Nesper引擎(类似数据库倒置)设定查询条件实时数据通过这些查询条件,引擎对其进行数据过滤核心包NEsper.dll:EPL语法解析引擎,事件监听机制,事件处理核心模块NEsper.IO.dll:与excel,database,msmq,http,socket,XML等数据源读,40,-,Nesper事件处理流程,程序先获取数据把数据传入EPL语句进行执行(执行时可以进行筛选处理)监听获取处理后的数据,进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 听力导航模拟试题及答案
- 2025福建龙岩市上杭县文化旅游发展有限公司(上杭古田建设发展有限公司)所属企业招聘人员拟聘用人选考前自测高频考点模拟试题及答案详解参考
- 大坝安全检测试题及答案解析
- 综合科室考试试题及答案
- 2025年天津市和平区面向靖远籍招聘事业单位工作人员考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025-2030工业软件云化转型中的信息安全防护体系构建研究
- 2025-2030工业视觉检测算法优化与制造业提质增效报告
- 2025-2030工业级无人机巡检服务石油管道领域替代人工评估
- 2025-2030工业级3D打印金属粉末成本结构与下游应用拓展报告
- 2025-2030工业物联网边缘计算节点部署策略优化报告
- 2025年镇江市中考英语试题卷(含答案)
- 航海船舶因应气象预报方案
- 铝合金介绍教学课件
- 电气班组安全教育培训课件
- 《2025同上一堂思政课》观后感10篇
- SY4201.2-2019石油天然气建设工程施工质量验收规范设备安装塔类检验批表格
- 电机的工作原理课件
- 设计质量意识培训课件
- 2025年四川省高考化学试卷真题(含答案解析)
- 2025年新玩家股东招募协议书
- 食品安全知识培训会议记录范文
评论
0/150
提交评论