AI产品经理的入门必修课(4)知识图谱_第1页
AI产品经理的入门必修课(4)知识图谱_第2页
AI产品经理的入门必修课(4)知识图谱_第3页
AI产品经理的入门必修课(4)知识图谱_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

编辑导语:通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式;本文作者分享了关于AI产品经理的知识图谱简介以及利用,我们一起来了解一下。AI核心要研究的是如何让计算机去完成以往需要人的智力才能胜任的工作,而人的智能性核心体现在对不同事物的感知能力、推理能力、决策能力;因AI对感知智能而言,AI感知能力,通过摄像头、麦克风或者其他的传感设备,借助语音识别、图像识别的一些算法模型,能够进行识别和理解。感知智能的发展能够采集到海量的不同来源及不同存储方式的数据,如果想要用这些数据做出具体场景化的应用,目前市面上常用的方式有两种:了解知识图谱是什么之前,先了解数据、信息、知识之间的关系。eg:「38.5」这是一条数据,不具有任何意义。「小明测量体温为38.5度」这是一条信息,并且38.5是一个关键指标。「正常人体的温度为36-37度,当体温超过基础体温1度及以上时,即认为发热,而不同的温度范围又可分为低热、高热…」这是一条知识,是通过许多病例、实验总结出的公认正确的。「小明发热了,因为他体温为38.5度」这个结果是由知识推理而来的。知识图谱是基于图模型来描述知识以及构建关联关系模型的技术手段,现实世界中常用到的知识,或者我们脑海中记住的知识,通常是一段描述性的并利用图谱的形式呈现出来。如下图即是一个简单的知识图谱,「张柏芝」、「谢霆锋」、「王菲」是人物主体;「出生年月」、「性别」、「年龄」为主体属性;「前妻」、「现任女友」、「情敌」为知识抽象出的关系。知识推理过程知识:男女双方在法律上曾经成立过婚姻,后通过协议或诉讼的方式解除了婚姻,终止了夫妻间权利和义务,对男方而言称呼女方为前妻。推理过程:张柏芝和谢霆锋之间在法律上曾经成立过婚姻,后解除了婚姻,且张柏芝是女性,因此张柏芝是谢霆锋的前妻。在知识图谱技术中,「张柏芝」、「谢霆锋」、「王菲」被称为节点,节点可以是实体也可以是抽象出的概念;加粗的黑线称为边,表现实体或概念之间的关系,如「张柏芝」和「谢霆锋」的关系是「前妻」。图中每一个圆都是一个节点,连接圆的直线都是边,可以看出知识图谱是由节点和边组成;而节点和节点之间的边,可以是属性、也可以是关系,例如「张柏芝」、「谢霆锋」之间的边代表的是关系,「张柏芝」、「性别:女」之间的边代表的是属性。可以用来做什么?页间的超链接、搜索关键词与网页包含关键词的匹配关系进行精确或模糊搜索。但互联网终极形态是万物的互联,搜索的终极目的也是对万物的直接搜索,因此仅依靠关键词之间的匹配不足以满足日益丰富的搜索需求。能是某个网页中包含了「谢霆锋的前妻是张柏芝」这句话,我们才能找到网页,在从网页中的信息中得知谢霆锋的前妻是张柏芝这个结论。而上图知识图谱的建立,当搜索需求产生时会快速的返回「张柏芝」及个人信息。知识图谱的构建原理及流程?google、百度搜索等搜索引擎建立的知识图谱属于开放域知识图谱为垂直领域的知识图谱。两种图谱的场景应用不太一样,但涉及的底层逻辑和构建流程是相似的。知识图谱的构建涉及了知识表示、知识获取、知识处理和知识利用等多方面。知识表示:简单理解就是设计者把得到的知识,针对各种问题的类型和场景,设计成多种表现形式,而使用者可以直接使用这种设计好的表示方法来代表这类知识信息。例如我作为系统设计者,我定义了“V”为“或”的意思,其它使用者均可用“V”代表“或”。知识获取:指人通过设计、程序编码、人机交互使机器获取知识;例如人为建立知识库,让专家系统来获取知识,大部分都是通过人工的方式将人类的知识存储到机器中,这个过程就是知识获取的过程。知识处理:包含了知识的加工、逻辑判断、推理、知识输出的过程。nlp自然语言处理是知识处理的核心。知识利用:将规范的知识结构应用到具体的场景之中,创造价值。在构建技术上,数据和算法是知识图谱的底层支持,包含了信息表示、信息抽取、信息融合、信息推理和信息决策等多个阶段。信息来源:通常可以通过多个渠道或者来源来获取知识图谱的数据,包含了文本、结构化数据库、多媒体数据、传感器数据、人工众包数据等。信息表示:利用计算机语言来描述人脑或者文本中的知识,来帮助进行下一步推理。应用到的技术手段,例如文本数据,通常会使用nlp自然语言处理技术,进行实体识别、实体链接、关系抽取、事件抽取等从文本中抽取出知识,在利用RDF把三元组作为基本的数据模型。基本逻辑包含了实体、实体属性、实体之间的关系。信息抽取:结构化和文本化的数据是目前主要使用的数据形式,从结构化数据中抽取信息一般使用现有的D2R工具,如D2RServer。从文本中抽取信息主要经历实体识别和关系抽取两部分,关系抽取一般可以使用基于特征模版的方法(人工打标签),或者机器学习的方式进行抽取。信息融合:通常自己的数据源或者知识库不足以构建解决实际问题时,会去从第三方的知识库或者收集其他渠道的结构化数据进行融合;主要包含了模式层的融合和数据层的融合,核心解决的问题是避免实体与关系的冲突,或者相同实体含义但使用的不同的数据标识符,造成了不必要冗余。知识图谱补全与推理:此环节核心是依赖于补全算法去实现,一种方法是基于本体推理的补全方法,另一种是基于图结构和关系路径进行补全。通常推理和补全是一个相互协作的过程,通过推理发现有问题的地方,进行补全。应用与决策:语义检索、智能问答、智能决策系统、推荐系统。下面通过具体示例来理解知识图谱的构建流程:重要。拆解。在电商这个领域下进行知识表示时,首先需要确认共涉及多少个一级本体、二级本体,电商知识主要的获取来源是知识众包,核心涉及了本体的设计,围绕商品本身的属性、消费者的需求、平台运营管理的机制。会略有差异;例如电商的卖点、详情、图片、评价,舆情信息中的品牌和口碑,涉及了大量的文本数据、图像数据。在进行知识表示时涉及了各种NLP、CNN技术;要求知识命名识别系统具有大规模实体类型识别的能力,并且把识别出的主体与知识图谱进行链接。以阿里电商认知图谱的示例主要包括:商品域:型号、尺码、大小、颜色、口感、材质..用户域:性别、年龄、风格、品牌、购买力…LBS域:购物场景、群体、泛品类……然后需要对实体进行描述,除了基础的属性及属性值以外,需要通过实体标签进行实现,大部分实体标签变化比较快,通常是通过知识推理获取的;例如商品的标签中,可以通过材料的配比或者国家行业标准进行处理。例如:通过知识推理,可以根据商品配料表中的数据转化为「无糖」、「低糖」的知识点,从而将数据转化为知识标签;大部分信息在提取之后会比较零散,需要将已建立好关系的知识库中或者第三方的知识库来源的信息做融合,以及实体对齐、实体消歧义的技术操作。实体对齐:例如迪奥是一个品牌名,DIOR为同一个品牌的英文名,虽然是同一个品对齐和统一化。实体消歧:例如苹果是一种水果,在某些上下文中它可能表达苹果手机,这时需要根据上下文进行实体消歧。完成上述操作后,才会进行实体的抽取,实体抽取的过程中会利用算法进行实体间的相似性计算,主要依赖于本体库中建立的本体之间的关系,进行推理和补齐;例如不同人买了同一件商品,或买了相似商品,该以怎样的节点进行知识图谱的关联;可以采用自动化抽取或者人工抽取的方式进行实现,自动化抽取可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论