版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知识图谱大纲知识图谱简介基于非结构化数据的自动知识图谱构建提及检测提及消歧关系抽取图谱补全知识图谱的应用知识是什么?柏拉图的定义:合理的(Justified)、真的(True)、信念(Beliefs)Whereisthewisdomwehavelostinknowledge?Whereistheknowledgewehavelostininformation?—ThomasStearnsEliotKNOWLEDGEINFORMATIONWISDOMDATA知识中,我们舍弃的智慧,去了哪里?信息中,我们错过的知识,去了哪里?——诺贝尔文学奖得主:托马斯艾略特从数据到知识人工智能的最终目标不仅仅是回答问题(被动思考),而是提出问题(主动思考)4做正确的事情把事情做好什么是知识图谱?以图的形式存储可以被机器利用的结构化知识,用于描述物理世界的对象、概念及其相互关系。知识图谱包括:实体、属性、关系、概念(本体)等元素在图中实体是图的节点实体(节点)被一些属性所定义或描述连接两个实体的边定义了这两实体之间的关系知识图谱的模式与结构(如,实体、属性、关系的取值范围或类型)由本体来定义我们为什么需要知识图谱?图谱是数据的一种结构化组织形式,与传统结构化数据库相比具有以下优势:可以更有效的表达稀疏长尾的数据属性与关联类型形成更灵活的异构数据关联支持更高效的基于路径的检索与分析图谱是天然的知识存储形式填补数据与语义之间的鸿沟对抗信息过载提供启发式结构是支持知识驱动型任务的有利工具6知识图谱与人工智能7知识图谱与人工智能人的大脑依赖所学的知识进行思考、逻辑推理、理解语言...8知识图谱发展历程简介9Cyc:theCommonSenseKnowledgeBase1984年由DouglasLenat创建,目标是通过人工录入建立人类最大的常识知识库,1986年DouglasLenat预测如果想要完成Cyc这样庞大的常识知识系统,这将涉及25万条规则,并将要花费350个人年才能完成。Cyc知识库中表示的知识一般形如“每棵树都是植物”、“植物最终都会死亡”。该知识库中包含了320万条人类定义的断言,涉及30万个概念,15000个谓词。10WordNet由普林斯顿大学的认知科学实验室从1985年开始开发。最著名的词典知识库,主要用于词义消歧。定义了名词、动词、形容词和副词之间的语义关系。WordNet3.0包含超过15万个词和20万个语义关系11DBPedia早期的语义网项目从Wikipedia抽取半结构化数据包含600万实体,95亿关系(三元组)12InfoboxBabelNet类似于WordNet的多语言词典知识库BabelNet3.7包含了271种语言,1400万同义词组,36.4万词语关系,和3.8亿从Wikipedia中抽取的链接关系13Freebase类似Wikipedia的创作共享类网站,所有内容都由用户添加所有条目采用结构化数据形式三层结构:Domain->Type->Topic14WikiData在2015年底FreeBase查询接口停止运营后,由WikiMedia运营的WikiData继承了FreeBase,并在此之上加入了众多新特性,如:多语言,自动抽取+人工校验,SPARQL查询支持等。15基于非结构化数据的自动知识图谱构建16手工创建(Cyc,WordNet)基于半结构化数据(DBPedia)?基于非结构化数据的自动知识图谱构建非结构化数据占到目前数据总量的80%以上,其增长速度是结构化数据的10-50倍。17事故报告(保险公司)诊断报告(医院)法庭案例文件(律师事务所)专利数据(科技公司)非结构化数据(人可以阅读与利用)结构化数据(机器可以阅读与利用)基于非结构化数据的自动知识图谱构建181.提及检测2.提及消歧3.关系抽取4.图谱补全人在回路提及检测与分类(命名实体识别)命名实体识别:识别文本中具有特定意义的实体,主要包括人名、地名、机构名等常见方法:基于规则与词典的方法无监督学习方法基于特征的监督学习方法基于深度学习的方法19小杨在浙江大学的永谦剧场看了一场表演。人名机构名地名提及检测与分类基于规则与词典的方法依赖于人工定义的规则和词典不需要训练数据需要依靠大量的专家来编写规则,难以适应数据变化的新需求无监督学习的方法利用基于巨大语料得到的词汇资源、词汇模型、统计数据来推断命名实体的类别20基于手工特征的监督学习方法将命名实体识别任务视为词的多分类任务或者序列标注任务特征工程十分关键常用特征:单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征常用方法:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaximumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandomFields,CRF)等21...浙江大学位于杭州...观测变量隐变量...
B-ORG
I-ORG
I-ORG
E-ORG
O
O
B-LOC
E-LOC
...基于深度学习的命名实体识别是目前研究与应用的主流方法,其优点是不需要定义手工特征。自底向上可分成三个阶段利用分布式词向量表示文本,作为输入;利用上下文编码器编码每个的单词上下文;利用标签解码器将单词上下文解码成之前所述的序列标签。22基于深度学习的命名实体识别利用分布式词向量表示文本,作为输入除了词之外,词素对应命名实体识别也非常重要,因此也需要进行编码作为输入23基于深度学习的命名实体识别常见的上下文编码方法:24卷积神经网络循环神经网络递归神经网络基于深度学习的命名实体识别常见的标签解码器基于非结构化数据的自动知识图谱构建261.提及检测2.提及消歧3.关系抽取4.图谱补全人在回路提及消歧解决自然语言存在歧义性的问题(一词多义)解决自然语言存在多样性的问题(一义多词)特定的概念可能有多种表达方式27提及消歧(实体链接)实体链接:将每一个上阶段检测到的实体提及,去匹配特定知识图谱中提及所对应的真正实体。自底向上可分成三个阶段候选实体生成候选实体排序不可链接提及预测(新词发现)28候选实体列表上阶段监测到的实体提及提及消歧(实体链接)候选实体生成基于命名词典的方法是候选实体生成的主要方法,词典D根据来自Wikipedia的特征建立实体页面,重定向页面,歧义实体页面,实体页面第一段中所包含的短语,文章中包含的超链接等词典D由一系列的(Key,Value)对构成,Key是实体名称,Value是所对应的知识库中的实体基于搜索引擎的方法利用搜索引擎生成候选实体集合29提及消歧(实体链接)常用的候选实体排序策略实体的热度:mention所对应潜在实体列表中实体的热度(popularity/commonness)上下文相似性:mention所在上下文与知识库中对于entity的描述之间的相似性主题相关性:同一个文档或者段落中出现的实体,往往会共享相同的主题不可链接提及预测若候选实体集合为空,则认为该提及不可链接30基于非结构化数据的自动知识图谱构建311.提及检测2.提及消歧3.关系抽取4.图谱补全人在回路关系抽取目标:基于上一步的结果,确定文本中两个实体之间的预先定义好的属性或语义关系。常用方法:将关系抽取视为句子分类问题给定正样本集合和负样本集合输入句子:32S
w1w2...e1...wi...e2...wn
1wn
实体:奥巴马——属性:出生地——值:美国例子:奥巴马1961年出生于美国夏威夷州火奴鲁鲁。基本思路:远程监督如果一个句子中的两个实体存在某种关系,那么这个句子就以某种方式表示这种关系。基于远程监督的关系抽取33奥巴马出生于美国夏威夷州火奴鲁鲁姚明出生于中国上海两个句子都有出生地的关系,句子有类似的结构;如果新的一个句子有类似的结构,那么,这个句子中的实体也有这种关系。假设基于远程监督的关系抽取远程监督方法输入数据包含某种特定关系的实体对包含实体对和该关系的语料库模型生成句子级的训练样本正样本:同时包含实体对中两个实体的句子负样本:仅包含一个正确实体,另一个实体类型的句子存在问题远程监督模型假设过强,训练样本噪声大使用传统方法时,手工构造特征复杂费时34基于远程监督的关系抽取代表方法:PiecewiseCNN(Zeng,Daojian,etal.2015)传统TextCNN在句子级别分类上取得了非常好的效果,PiecewiseCNN根据关系抽取的特点,利用实体位置,分段池化,分别获得句子内的结构化信息。最后利用多实例学习(MIL)来训练模型,进行抑噪35基于非结构化数据的自动知识图谱构建361.提及检测2.提及消歧3.关系抽取4.图谱补全人在回路图谱补全不完整与缺失在大规模知识图谱中相当常见如,在FreeBase中71%的人缺失“出生日期”图谱补全的主要任务预测缺失的关系输入实体ehead和etail,预期它们之间的关系r预测缺失的实体输入实体ehead和关系r,预测缺失的实体etail输入实体etail和关系r,预测缺失的实体ehead37基于词嵌入的图谱补全方法词嵌入的一致性:e.g.king–man+woman=queen(Mikolovetal.2013)38基于词嵌入的图谱补全方法代表方法:TransE(Bordesetal.2013)假设:在实体向量空间中,对于存在关系三元组<head,relation,tail>,若将head与relation对应的向量相加,产生的向量应该与tail接近定义距离公式:d(h,r,t)=||h+r–t||2通过不断调整,使得(h+r)尽可能与t相等;对于不满足关系r的h
和t’,使得(h+r)尽可能与t’远39基于路径推理的图谱补全方法预测Charlotte是否是一个作家可以用下图描述:图谱上已有的多条路径可以帮助我们来判断C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装饰工程材料检测实施方案
- 工程建筑物能效提升方案
- 2026中国东方航空第二期国际化储备人才招聘备考题库含答案详解(考试直接用)
- 2026中共舟山市委党校(舟山行政学院)招聘教师3人备考题库(浙江)及完整答案详解一套
- 2026北京大学光华管理学院招聘劳动合同制人员1人备考题库及一套完整答案详解
- 2026银川市殡仪馆招聘13人备考题库含答案详解(典型题)
- 2026广西贵港桂平市木根镇卫生院招聘编外工作人员的2人备考题库及答案详解参考
- 2026中交天和机械设备制造有限公司常熟制造中心招聘4人备考题库含答案详解(b卷)
- 2026浙江台州市博物馆招聘编外用工人员1人备考题库及答案详解一套
- 2026江铜铜箔科技股份有限公司第一批次春季校园招聘89人备考题库附答案详解(培优)
- 部编版五年级道德与法治下册全册全套课件【审定版】
- 2026年中盐甘肃省盐业(集团)有限责任公司管理人员招聘笔试参考题库及答案解析
- 2026年及未来5年市场数据中国输入法APP行业市场深度分析及发展趋势预测报告
- 拒绝暴力创建和谐校园-主题班会课件
- 2026年东营市人民医院(东营市妇幼保健院)人才引进(25人)考试备考题库及答案解析
- 法学概论题库及答案
- 2026年高考化学命题逻辑深度解析与备考策略
- 2026年四川省泸州市江阳区中考语文一模试卷
- 2025-2026学年湖北省宜昌市高三(下)调研英语试卷(3月份)
- DB42∕T 2514-2026 住宅建筑模数化设计标准
- 上海中国极地研究中心(中国极地研究所)2025年招聘20人笔试历年参考题库附带答案详解(5卷)
评论
0/150
提交评论