版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
工业大数据与人工智能2024年2月6日HFUT主编:汪萌1汇报人:徐娟03知识抽取04知识图谱构建02知识表示01知识图谱的定义205知识图谱可视化06知识图谱在工业上的应用3是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱的定义(国内外研究动态)国内外研究动态一系列以海量数据为基础的深度语义挖掘、深层语义分析及决策支持技术在学术界和工业界吸引了广泛关注谷歌知识图谱、DeepMind、SemanticMachine、AdaptMindIBMWatson智能服务面向基础教育问题理解的Aristo、Plato计划、高考机器人项目面向海量数据资源的常识知识获取:Alexandria计划相关学术会议的吸引力不断增强传统会议参与者快速增长ICLR、AKBC等会议在工业界、学术界影响力日益提高4知识图谱的定义(国内外研究动态)国内工业界的参与搜狗、百度阿里、腾讯、头条华为、科大讯飞有一批创业公司开展了基于知识图谱的创新应用应用业态语义搜索基于知识的自动问答人机交互:多轮对话,智能客服知识服务与辅助决策:医疗、法律、金融等5知识图谱的定义知识图谱的类型通用知识图谱与领域知识图谱通用知识图谱领域知识图谱...按照构建和维护方式划分手工构建的知识图谱自动构建的知识图谱...按照可访问性划分开放知识图谱私有知识图谱...按照数据类型划分结构化知识图谱非结构化知识图谱...按照应用场景划分企业级知识图谱学术知识图谱...6知识图谱的定义知识图谱的构建步骤包括知识表示、知识抽取和图谱构建,最后进行知识图谱的可视化。知识图谱的构建-知识表示-知识抽取-图谱构建-知识图谱的可视化7知识表示这一概念,是指将现实世界纷繁复杂的知识体系转化为计算机能够理解和运作的结构化形式。通常的,它包括有知识表示方法和知识建模方法。知识表示方法:主要分为基于符号的知识表示方法与基于表示学习的知识表示方法。知识建模方法:知识建模,旨在探索并确定最佳的知识表达方式,通过创建一套完善的本体模型来对知识进行详尽而精准的表达。核心任务包括确立一系列的概念定义、属性列举以及概念间错综复杂的关联关系设定,这些都是构建知识体系框架的基础要素。知识表示8知识表示方法基于符号的知识表示方法一阶谓词逻辑表示法产生式规则表示法框架表示法语义网络表示法基于表示学习的知识表示方法知识表示9基于符号的知识表示方法知识表示一阶谓词逻辑表示法运用命题、逻辑联结词、个体变元、谓词以及量词等基本逻辑元素,构建出谓词公式来详细刻画和描述客观世界中的实体、属性、状态和相互关系。产生式规则表示法产生式规则表示法,该方法采用“IF-THEN”结构来组织和表述知识,显著特点在于与人类认知习惯中的因果判断模式高度契合,表现得既直观又自然,极大地便利了人工系统进行逻辑推理和决策制定的过程。框架表示法框架作为一个通用的数据结构,能够承载个体以往积累的大量信息和经验,为新信息的理解和解释提供背景支持。在框架中,可以有效地表示出不同实体的类别、个体成员、它们的属性特征以及彼此间错综复杂的关联关系。语义网络表示法语义网络本质上是一种图形化的知识模型,表现为一个依托实体及其之间语义关联的有向图结构。各节点被赋予丰富的含义,涵盖了事物的本质、属性特质、概念框架、状态变迁、事件过程、情境条件以及行为动作等诸多维度。10基于表示学习的知识表示方法处理实体间的语义关系时,尤其是一些模糊、抽象或情境化的语义关系时,往往显得力不从心,无法有效地实施精确计算和推理。因此,基于表示学习的知识表示方法应运而生。知识表示知识表示方法TransE(Translation-basedEmbedding)TransR/CTransR(Relation-specificTranslation)DistMult(MultiplicativeInteractionModel)ComplEx(ComplexEmbeddingsforRelationalLearning)RotatE(Rotation-basedEmbedding)RESCALSimplE(SimpleEmbeddingforLinkPredictioninKnowledgeGraphs)ConvE(Convolutional2DKnowledgeGraphEmbeddings)11知识建模方法知识建模涉及构建知识图谱的底层数据结构,它涉及定义表示知识的方法,即创建一个本体模型来描述知识体系。这个模型包括本体的概念、属性以及这些概念间的相互关系。知识建模有两种主要策略:自顶向下和自底向上,这两种方法分别遵循不同的逻辑路径以构建和完善知识图谱。知识表示12知识建模方法知识表示自顶向下的知识建模方法,采取一种先决的顶层设计策略。在这种方法中,构建知识图谱的初始阶段着重于精心设计和规定数据模式。他们从最高级别的概念出发,逐步向下细化和延伸,建立起一个层次分明、结构井然的分类体系。这种方法强调事先规划和预设知识结构,确保知识图谱的构建遵循预定的逻辑框架。自底向上的知识建模方法,采取了一种归纳演绎的渐进式构建策略。首先始于对现实世界中现有实体的收集和初步归类,通过对这些底层基础概念的整合和理解,逐步上升到更高层次的概念抽象与整合。这种方法在开放域知识图谱的构建中尤为适用。13实体抽取关系抽取事件抽取知识抽取14实体抽取的概念知识抽取实体抽取,这一过程也被称作命名实体识别(NamedEntityRecognition,NER),其核心目标在于从非结构化的文本数据中自动识别并抽取具有特定意义的实体对象,涉及的实体类型广泛,如人物姓名、组织机构名讳、地理位置标识、时间点、日期、特定数值(如货币金额)等关键性要素。实体抽取可以分为三类:基于规则的方法、基于统计模型的方法以及基于深度学习的方法。15实体抽取知识抽取1.基于规则的方法早期内部实体识别技术主要依赖于人为编写的规则化方法进行实体信息的提取。这类方法依赖于人工制定详尽的实体识别规则集,规则的具体内容和形式皆由人工逐一手工设定。随后,在实际应用过程中,系统会将这些规则与待处理的文本内容进行对照匹配,以此来辨识和提取出具有特定意义的命名实体。2.基于统计模型的方法基于统计模型的命名实体识别方法摒弃了人工编写规则的传统思路,转而采用完全标注或部分标注的语料库进行模型训练,从而实现自动化实体抽取。此类方法的核心技术包括但不限于隐马尔可夫模型(HiddenMarkovModel,HMM)、条件马尔可夫模型(ConditionalMarkovModel)、最大熵模型(MaximumEntropyModel,MEM)以及条件随机场模型(ConditionalRandomFields,CRFs)等。16知识抽取2.基于统计模型的方法(隐马尔可夫模型,HMM)隐马尔可夫模型是广泛应用在序列标注任务中的统计学习框架。其中,HMM架构起一种带有向性的图形概率模型结构,这个模型内嵌有一个不可见的(或称“隐藏”的)状态序列以及与之相对应的可观测事件序列。在任意t时刻的状态只依赖于其前一时刻的状态,与其他观测及状态无关,如式(1)。任意时刻的观测只依赖于该时刻的马尔可夫链的状态,与其他观测及状态无关,如式(2)。(1)(2)17关系抽取知识抽取概念:若有两个存在着关系的实体,我们可将两个实体分别成为主体和客体,那么关系抽取就是在非结构或半结构化数据中找出主体与客体之间存在的关系,并将其表示为实体关系三元组,即(主体,关系,客体)。关系抽取技术依据不同的学习策略被划分为三大主流类别:1.基于模板的关系抽取方法2.基于监督学习的关系抽取方法3.基于弱监督学习的关系抽取方法18关系抽取知识抽取1.基于模板的关系抽取方法概念:模板匹配方法,该方法立足于语义学理论,并紧密结合实际文本数据的特征,通过领域专家的手动干预,设计并制定了特定的模板以匹配文本中表示特定关系的实体对。在处理范围有限、领域固定的实体关系抽取任务时,基于模板的策略确实能够实现相对理想的效果。优势:构建过程相对直接,便于快速实现,能够针对小规模数据集。缺点:数据量大需要大量人工,可迁移性不强等。19关系抽取知识抽取2.基于监督学习的关系抽取方法概念:基于监督学习的关系抽取方法,实际上是将关系抽取问题转化为一个分类任务,并在大规模标注数据的支持下,通过训练有监督学习模型实现关系抽取。具体步骤:首先,明确预设的关系类型,并通过人工标注数据集;其次,设计并计算关系识别所需的特征,这些特征通常依据实体所在的句子上下文信息得出;接着,选用适当的分类模型,如支持向量机、神经网络或是朴素贝叶斯等,基于标注数据对模型进行训练;最后,对训练完成的模型进行性能评估。20知识抽取2.基于监督学习的关系抽取方法通常的,在有监督的关系抽取中,用到较多的方案便是深度学习方法。以下列举几个深度学习的网络结构样例:[1]ZengD,etal.Relationclassificationviaconvolutionaldeepneuralnetwork[C]//ProceedingsofCOLING2014:2335-2344.[2]ZhouP,etal.Attention-basedbidirectionallongshort-termmemorynetworksforrelationclassification[C]//Proceedingsofthe54thannualmeetingoftheassociationforcomputationallinguistics.2016:207-212.方法[1]方法[2]21关系抽取知识抽取3.基于弱监督学习的关系抽取方法概念:基于监督学习的关系抽取技术在很大程度上依赖于充足的训练数据,尤其是对于那些基于深度学习的模型,其优化过程对大量标注数据的需求更为显著。然而,在面对标注数据匮乏的情形下,弱监督学习方法成为一种可行的解决方案,它允许在有限的标注数据基础上进行模型训练与优化,降低了对大规模标注数据集的依赖。常见的方法:弱监督学习方法在关系抽取领域的应用主要包括远程监督方法和Bootstrapping方法。22事件抽取知识抽取概念:事件抽取聚焦于从纷繁复杂的自然语言文本中捕捉事件的发生、参与者及其相互作用等要素信息,并将其转换为便于计算机理解和处理的结构化形态。举例来说,揭示事件发生的确切时间坐标、地理环境、驱动因素以及牵涉的人物或组织等核心细节。事件抽取的案例:事件抽取任务包含的子任务有:A.识别事件触发词及事件类型;B.抽取事件元素的同时判断其角色;C.抽出描述事件的词组或句子;D.事件属性标注;事件共指消解。23事件抽取知识抽取事件抽取方法可以分为流水线方法和联合抽取方法。1.事件抽取的流水线方法流水线方法将事件抽取这一复杂的任务细分为一系列相互衔接的基于分类的子任务,涵盖了事件识别、构成元素提取、元素角色分类、属性鉴别以及事件可报道性判断等多个环节。2.事件的联合抽取方法联合推断方法首先为每个子任务单独建立模型,随后将各个子任务模型的目标函数有机融合,构建出一个综合的联合推断目标函数。通过优化这个联合目标函数,可以同时获得事件抽取各个子任务的最佳结果,从而减少单个任务误差对整体结果的影响。24知识图谱构建是一项囊括数据收集、整合、表示与组织在内的系统性工程,旨在构建一个结构化的、富含信息的知识库。该构建过程主要分为两大策略:自顶向下(Top-down)与自底向上(Bottom-up)。知识图谱构建25知识图谱可视化平台开发者可视化设计应用领域CiteSpaceDrexelUniversity节点链接可视化、简化表达可视化、树状图构建知识图谱用于科学文献的可视化分析智图智言科技节点链接可视化、层次结构可视化智能搜索、决策分析等领域达观知识图谱达观数据节点链接可视化、简化表达可视化智能搜索领域、制造业领域的故障分析与决策DataExa-Sati渊亭科技矩阵表达可视化、层次结构可视化金融、安全、教育、医疗等领域的数据分析与决策ProtegeStanfordUniversity节点链接可视化、树状图基于本体的知识分析推理任务SCI2IndianaUnivers
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023云南大数据公司内部员工笔试复习题附答案
- 2021洛阳二中小升初高频考点押题卷附答案解析
- 2026年法律法规测试题及答案
- 2024甘肃省书记员考试历年真题考点复现率统计及答案
- 2020征信业专业面必考35题及完整标准答案解析
- 2023河南工勤职业道德考试高分秘籍配套题库及答案解析
- 通过率超95%的2020济南工程综评内部密卷带答案
- 2026特聘动物防疫专员招聘考试押题密卷附全题答案
- 伊减少履行伊核协议书
- 分公司风险承包协议书模板
- 2026广东东莞市塘厦镇招聘专职网格员7人考试参考试题及答案解析
- 幼儿园年检自查报告
- 国家层面“十五五”产业规划与布局:产业研究专题系列报告之一规划篇
- 血液透析中心静脉导管临床实践指南
- 水利监理教育培训制度
- 机场鸟击防范生态调研报告
- 沥青混凝土销售培训课件
- 2026年《必背60题》京东TET管培生综合方向高频面试题包含详细解答
- 2026年二级建造师之二建建筑工程实务考试题库500道附完整答案(必刷)
- 儿童节气诗歌朗诵方案设计
- 2025年10月自考15040习概论试题及答案
评论
0/150
提交评论