知识图谱构建实践_第1页
知识图谱构建实践_第2页
知识图谱构建实践_第3页
知识图谱构建实践_第4页
知识图谱构建实践_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识图谱构建实践1

2概念框架

为什么要用知识图谱

两类用户、三类知识

技术框架建设步骤

六步建设法

经验总结案例介绍

营销实践

金融实践

地铁实践

媒资实践

政务实践3目录知识图谱 连通企业内外部异构数据 连通大数据技术与AI技术 连通人类智能和人工智能

通过“眼睛”“耳朵”等器官,机器也拥有视

觉、听觉、触觉等感知

能力。能够帮助人类完

成“看”和“听”的简

单工作。

释放AI红利,并解决AI应用场景碎片化问题;

解决知识资产化问题,

缓解知识难分享、难传

承、难管理;

机器具备像人类一样的学习和思考能力,能够

独自做出决策和采取行

动,能够部分或全部替

代人类的工作

存储和处理海量数据。能够帮助人类完成大量

的存储和复杂的计算。

这一步是感知和认知的

基础。

整合业务系统、物联网、互联网数据,使

得数据分析参与到生

产与经营环节,决策

过程有据可循。

无纸化办公,使得进销存、人财物数据化,

实现数据在线,提升

管理和决策效率数字化转型趋势AI技术趋势认知智能智能化感知智能信息化网络化计算智能时代背景增效•知识库增强的检索、推荐、可视化、规划•可解释性强,更贴近业务语言创新•标签关联→语义空间距离→

二阶推理•反事实干预、问答降本•复用性强:员工间、问题间、领域间•稳定性高:数据源变化数据挖掘的三种工作范式数据中台式知识中台式数据湖式知识图谱服务化带来哪些好处参考:•野中郁次郎

:《创造知识的企业》•国家标准委

:知识管理框架,GB/T

23703研究对象:组织内的知识知识的不同类型知识的循环过程•事实知识

Know-what•原理知识

Know-why•决策知识

Know-how•知识官:中高层管理者•知识工程师:一线人员两类用户三类知识用户与知识类型系统架构:KaaS(Knowledgeasa

Service)概念框架

为什么要用知识图谱

两类用户、三类知识

技术框架建设步骤

六步建设法

经验总结案例介绍

营销实践

金融实践

地铁实践

媒资实践

政务实践231目录1.

知识建模2.知识抽取3.

知识管理4.

知识计算5.知识应用6.

知识演化HI→AIAI→OI

OI→

HI六步建设法六步建设法(1):知识建模任务体系示例类别体系示例•

原则

:•

层次化

网络化

一般性

约束性

可维护•

可协作

方式

:•

自顶向下•

自底向上•

循环迭代六步建设法(1):知识建模六步建设法(2):知识抽取数据类型问题现象问题实质技术任务结构化结构不统一、

质量不稳定规范性问题数据治理数据映射非结构化信息丢失、

信息冗余、

信息重叠词汇歧义、结构鸿沟、

常识不完备实体识别关系抽取事件抽取隐性知识难总

结知识表示事理识别网络嵌入表示时序嵌入时序点过程知识抽取技术路线图CRF层BiLSTM层词嵌入层B-LOCc2b2h2w4我BiLSTM-CRF模型依存层(关系)softmax标签嵌入序列层(实体)softmaxtanh隐藏层LSTM单元……依存嵌入词/词性嵌入层prep

pobj清华

大学

坐落

北京。联合学习的序列树结构LSTM模型PHYStanhBi-TreeLSTM

B-ORG

I-ORGtanhBiLSTM词嵌入表示层

词语级别特征表示流水线法:DMCNN模型a

cameramandiedwhenatankfiredinBaghdad联合学习法:JRNN模型实体识别、关系抽取、事件抽取记忆矩阵论元矩阵

触发词预测双向LSTM句子嵌入句子级别特征抽取句子特征

卷积层

动态多层池化层特征表示记忆

矩阵a

cameraman

diedwhen

an

American

tank

firedin…

LSTM单元

嵌入

dropout词嵌入实体类型嵌入

依存关系嵌入a

cameramandiedwhena

tankfiredin

Baghdad本地特征抽取器特征映射3特征映射2max(C13)

max(C12)

max(C11)实体提及“cameraman”实体提及“Baghdad”北京坐落大学于事件类型

特征预测输出上下文

特征分类输出层输入句子词嵌入层LSTM单元位置

特征隐藏层特征映射1h3h4h1b3b4b1I-LOC隐藏层w3w2w1nsubjc4c1c3爱中国OO...……参数共享有监督组件…………参数共享……

时间序列网络结构节点分类链接预测节点相似度…

…xj (1)yjy

(k)y

(1)xjjxi八

(1)yiy

(k)y

(1)xiiit

1

t2

t

3

t

t+dt*t时刻之前的概率F

(t)t时刻之后的概率S*(t)隐性知识无监督组件

无监督组件[t,t+dt]时刻之间的概率*f

(t)

:=f(t|H(t))SDNE模型拉普拉斯

特征映射历史H(t)*f

(t)dtG=(

V,E)表示学习网络嵌入|V|

×k特征t=T节点j节点ij六步建设法(3):知识管理

类别属性子类

不相交本体1person

Document本体2Agent

Documents本体融合实例/关系融合流程融合格式转换先验对齐对齐结果知识库知识库2知识库1(a)图嵌入模型

(b)图匹配网络知识融合Reviewer

paperReviewsubmission知识融合Author

paperReview联合训练模型预训练语言模型图向量传播预处理识别

抽取治理结构化数据库信息抽取

writtenBY向量空间相似度向量空间相似度数据映射化文本haswritten资源非结构参数≤

>清洗映射分类典型代表典型应用场景数据模型优点不足关系型MySQL

OracleOLTP的绝大多数场景二维表格模型易理解,使用方便,易于

维护和支持SQL读写效率低,固定的表结构,面向日益复杂多样的场景略显呆板列存储Cassandra

HBase,分布式的文件系统以列簇式存储,将同一

列数据存在一起查询速度快,可扩展性强,

更容易进行分布式扩展功能相对局限键值型Redis

,Oracle

BDB内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等Key指向Value的键值对,通常用Hashtable来实现查询速度快数据无结构化,通常只被当做字符串或者二进制数据文档型MongoDB

CouchDB,Web应用数据结构要求不严格,表结构可变,不需要预先定义表结构支持嵌套结构,支持二级索引,可对任意字段进行高效查询查询性能不高,而且缺乏

统一的查询语法时序OpenTSDB,ClickHouse异常检测、趋势分析、

系统运维由数据源(标签)、度

量、时间戳三部分表示写入与查询速度快,可扩

展性强功能相对局限图数据库Neo4j

InfoGrid专注于构建关系,如社

交网络,推荐系统等。图结构利用图结构相关算法,如

最短路径寻址等很多时候需要全图计算,

结构不易实现分布式集群知识存储•

异构数据库组合:融合后的增删改查,及效率提升方案;•

分层次的数据仓库:大而全,存历史、存全量;小而美,支持特定应用,实时响应、批量同步;•

知识溯源:溯源元数据,血缘关系记录与分析,可溯源哈希;六步建设法(4):知识计算

因果性

因果推断4

相关性

1规则

模型工作流概念定义(关联的)概念体系下的事实数仓集市语义库

数据图谱可视化探索配置文件

模型抽取业务指标标签逻辑

ETL逻辑(零散的)事实互联网物联网L1:从人到人的非结构化知识表示:处于这一层次的知识,无论是言传身教,还是文字

图表,都属于非结构化表达,需要人去阅读、理解、

吸收,然后加以利用。L2:从人到人的半结构化知识表示:知识按照预先的约定(结构体系、符号体系)去表达,便于读者快速检索和理解。如:药品说明书L3:从人到机的结构化知识表示:人类所生产和表达的知识能够让机器可读、可执行。

L4:从机到机的结构化知识表示:机器可以从数据源中抽取、

归纳出知识并形式化的

表达,然后在应用环节自动化执行。知识计算的四个层次文档管理KaaSUGC文件抽象具体检索推荐行为日志业务数据(更新的)(先验的)几类常见知识的执行规范机器学习模型工作流因果模型规则指标基于SCM的推理引擎WfMC参考实现PMML规范六步建设法(5):知识应用KGE方法归类一切知识管理相关的问题,归根结底都是知识表示问题。·从解释性洞察,到探索性洞察;

·从洞察到行动;可视化的一般框架知识库增强的可视化

stackedareachart

Linehistogram

可视化Tableswithembeddedcharts对比分布关系stacked

100%barchartwithBarchartverticalscatterplot

bubble

sizestacked

100%

areachartstacked

100%

barchart无周期stackedbarchart短期相对比例简单份额不同时刻短期时序有周期多类别两个变量绝对组成三个变量两个变量相对增减长期少数类别含子元素静态不同元素少数类别动态长期时序waterfallchartvariablewithchart绝对组成相对比例BarchartverticalBarcharthorizontalcircularareachart

单元素单变量

单元素多变量scatterplot单变量scatterplotpiechartTreemapLinechartLinechartBarhistogram组成及绝对差可视化

大量数据

少量数据多类别组成subcomponents检索信息检索常用框架知识库增强的检索算法EDRM模型技术框架•LIUZ,XIONG

C,

SUNM,

et

al.

Entity-DuetNeuralRanking:Understanding

the

Role

of

Knowledge

Graph

Semantics

inNeural

Information

Retrieval[C]//

ACL2018.•XIONGC,POWERR,

CALLAN

J.

Explicit

semantic

ranking

for

academic

search

via

knowledge

graph

embedding[C]//WWW2017.unigramsCNN…Bigrams…Trigrams增强的实体嵌入表示N-gram嵌入表示增强的实体嵌入表示MwwMewMweMee排序特征集成知识增强:1.知识图谱2.数据增强文档检索:1.稀疏方法2.稠密方法文档重排序:1.神经网络模型2.预训练模型……朱元璋描述类型家族族谱描述类型查询文档softMatchFeatureΦ(M)步骤1

步骤2

家族族谱朱元璋交互矩阵M最终排序

得分top-k文档相关文档kernelpooling注意力步骤3CNN>>…………推荐算法发展历程:协同过滤、矩阵分解、逻辑回归、特征交叉、GBDT+LR、大规模分段线性模

型、深度学习推荐•王喆.深度学习推荐系统[M]

.北京:电子工业出版社,2020•YUB,ZHOU

C,ZHANG

C,

et

al.A

Privacy-Preserving

Multi-Task

Framework

for

Knowledge

Graph

Enhanced

Recommendation[J].

IEEE

Access,

2020在Deep部分替换成有双向交互层的MLPNFM实体向量

关系向量学习>知识库增强的推荐算法KGE

引入

学习>

>

>(b)联合学习

(c)交替学习DNN/MLP加入ARGRU序列模型,对兴趣演化过程建模将LR作为wide部分,

将MLP作为Deep部分实体向量

关系向量

用户向量

物品向量将wide部分替

换为跨层网络

处理特征交叉Deep&crosswide&Deepwide部分改进DeepcrossingDeep部分改进推荐系统用户向量

物品向量推荐系统实体向量

关系向量将因子分解机的隐向量

作为嵌入表示初始化值交替学习MKR在嵌入层与MLP之

间加入注意力机制在Deep部分加

入注意力网络用神经网络替代协同过滤中的点积操作将wide部分由

LR替换为FMAutRecFNNAFMDeepFMNeuralcFFMDRNPNNKGE

>学习

>推荐系统与

强化学习结合基于ResNet的

经典DNN结构推荐DIENDIN用户向量

物品向量

>加入Product层基于单隐层

自动编码器(a)依次学习}推荐系统知识库知识库知识库KGEFAQ问答的一般框架向量建模方法示意图BORDESA,CHOPRA

S,WESTONJ.QuestionAnsweringwith

SubgraphEmbeddings[J].Computer

Science唐朝素叶城碎叶城Tokmok安西都护府知识库问答可以分为:•

基于语义解析•

基于信息抽取•

基于向量建模问答系统可以分为:•

信息检索式问答、•

FAQ问答、•

知识库问答。FAQ

①-

相似问句

选择模块候选答案与问句的匹配度候选相似

问句查询问句标准问题

答案问句的二进制编码φ(q)子图的二进制编码Ψ(a)问句的嵌入式表示f(q)候选答案子图

a(碎叶城)子图的嵌入式表示g(a)在Freebase中检测

问句中的实体嵌入矩阵

W嵌入矩阵

W得分s(q,a)

=f(q)Tg(a)Freebase子图嵌入模型“诗

?”问答问句q检索模块点积李白>≤六步建设法(6):知识演化?r

y

>marriedTo

y

>hasChild

z

>hasChild

z

>hasChild

z

>hasChildhasChild(z,x)←marriedTo(y,z)∧hasChild(y,x)基于图结构基于表示学习时序预测推理

元学习小样本强化学习推理添加悬挂边添加闭合边y

marriedTo

-

z

hasChild

:知识推理技术路线y

marriedTo

>z

hasChild

>演绎推理技术

归纳推理技术hasChildsupervises……marriedToinfluences……传统的规则推理中的AMIE算法基于规则推理算法学习推理

产生式规则方法

本体推理方法知识推理

查询重写方法

逻辑编程推理

混合推理xxxxx?r概率逻辑神经网络(图灵,出生于,伦敦)(图灵,居住地,英国)知识推理规则与知识联合训练KALE算法示意图GUO

S,WANGQ,WANGL,etal.Jointlyembedding

knowledge

graphs

and

logical

rules[C]//

EMLP2016

观察到的

真。

隐藏的

×

假?

1.5待预测权重pLogicNet示意图QUM,TANGJ.Probabilisticlogicneuralnetworksforreasoning//arXiv:1906.08495实体嵌入关系嵌入真值[0,1]逻辑知识√√×√(巴黎,首都,法国)(巴黎,坐落于,法国)国籍

←居住地国籍

从政于出生于

^坐落于

国籍1.5(伦敦,坐落于,英国)(图灵,从政于,英国)?

(图灵,国籍,英国)逻辑连接≤

>真值++2.60.2知识推理实体预测关系路径推理θ3θ5θ6θ4ηηθ2头实体描述Φ(h)

关系名Ψ(r)

尾实体描述Φ(t)

尾实体名Ψ(t)

ητ

ξ

iθθ词嵌入

查询语义平均内容掩码目标融合上下文

特征抽取特征LAON,COHENW.Relationalretrievalusingacombinationof

path-constrainedrandomwalks[J].Machinelearning,2010PatrickBrontëisA

>θ7θ1SHIB,WENINGERT.Open-worldknowledgegraphcompletion[C]//AAAI2018Painter>头实体名

Charlotte

BrontëWriterATaleof

Two

CitiesCharles

DickensNovelJaneEyreConMask算法示意图PRA算法示意图hasFatherpublish-1publish-1

wroteΨ(h)isA-1i

ξ

i

ξ

iwroteisA?isAisAisAisA

w6

w7

w

1

w2

w3

w4w5ηηη>>>>>>>>ττ1.

领域schema:先自上而下确定一级主题,再自下而上针对场景做主题分解2.

人机协同:•理解业务:资深的业务专家比蹩脚的数据分析师更有价值•理解技术的局限性:历史≠未来,关联≠因果,一阶智能•先机器反向标注,再人工修正3.

主动学习:降低相似样本的重复标注成本4.多行业KG协同、语境,如:猎豹穿越森林数据源分析schema设计人工标注模型开发错误分析图谱构建迭代更新KaaS建设经验总结(1)精度难保障反复做无用功算法门槛高依赖专家经验认知偏差大难以一步到位标注成本高结果一致性差1.

ROI:•

平衡与妥协:数据成本、时间成本、运维成本、人力成本•

商业价值、社会价值

,行业标准化程度2.

解决实际问题,不全是训练模型:•

管理手段

+技术手段•

数据质量、标注成本、现场考察•

场景容错性:技术上限v.s.商用下限3.

训模型不全是高大上的算法:•

规则、线性模型不一定比非线性模型差,关键在特征•

提高泛化能力是永远的追求,加快速度也是•

传统行业中多数场景下可解释性很重要•

数据利用能力:从未标记、有噪音的数据中学习LRDLMFSVMDT

NBROI

=

=

投入成本需求分析'方案设计'开发'标注'训练'运维KaaS建设经验总结(2)产出收益应用价值

∗复用性简单规则规则引擎简单模型复杂模型特征工程集成学习1

2概念框架

为什么要用知识图谱

两类用户、三类知识

技术框架建设步骤

六步建设法

经验总结案例介绍

营销实践

金融实践

地铁实践

媒资实践

政务实践3目录售前售中售后金融营销、反欺诈、信用评分智能投顾、智能投研、反洗钱、行为评分、贷中提醒、核保核赔催收、审计、智能客服医疗智能分诊、药物挖掘智能问诊、影像诊疗、健康管理电子病历、自动回访教育营销、自适应学习、智能排课智能评测、分级阅读视频分析零售营销物流管理、自主结算、数字供应商顾客行为分析、销售复盘工业安全防护缺陷监测、生产优化、供应链优化、机器人智能维保政务重点人员监控、消防应急交通指挥、自动驾驶、一网通办、一网通管、

团伙发现、诉讼辅助行业应用消费品营销公安地铁制造业餐饮、零售消费品营销公安地铁制造业餐饮、零售车辆

工务

机电

信号人

料法

环图谱化什么?——企业的核心生产要素和核心价值创造活动营销活动供应链案件侦破

社会治理事实知识:企业的核心生产要素技能知识:企业的核心价值创造活动生产制造

运营调度

供应链协同 消费者产品

销售活动

供应链

服务活动

设备管理

组织应急处置设备维护车辆运行人场人物地货事技术方案业务需求营销场景示例推广技能体系多人协作编辑类别体系洞察营销场景示例功效成分产品舆情关系网络客户广告品牌品类性别维

度情

感原文来源曝

光效

果指标体系投放人群标签兴趣标签延展属性年龄作者日期行为时序媒体内容基础属性代言人TA使用渠道类型消费者生产者场

景场

景步

骤痛

点人

群探索性洞察

猜测事物间可能存在的关系,寻

求机会做验证

如:针对特定客群,探索营销创

意内容关联性洞察

以二部图的方式展现要素间的关

联关系

如:声量统计解释性洞察

根据结果,一步步反推,探寻结

果背后的原因

如:对于爆款产品,分析其成果

的营销策略营销洞察实践产品人群场景痛点线下门店示例:导购话术推荐为了在划伤时划痕不明显,特意多上了一层漆有的。这款车有5层漆珍珠白有底漆吗?•

数据质量问题:跨系统、历史遗留;•统计口径问题:经营指标不一致,口径难以统一;•手工报表:零散的需求很多,提数周期长;•数据利用度低:无法加工复杂逻辑的衍生变量;•打通内外部数据,构建关系网络;•统一建模平台与系统接口,消除烟囱;•缩短建模周期;风控客户画像统一授信资产质量监控规则有效性模型稳定性销售运营客群细分客群净值提升交叉销售流失预警挽留直销技能培训直销绩效考核

渠道质量监控

渠道分级管理需求与痛点技术方案金融:需求、方案数据资源数据资产知识资产离线加工异构数据管理决策引擎语义层(指标体系、集市)主题层数据模型(资产目录)报表系统(明细报表、指标体系)培训考核保全策略催收策略数据修复信用评估反欺诈材料核验培训考核全量存储ID关联打通异构查询在线学习特征工程模型管理数据路由时序表示关系图谱工作流引擎分类回归规则引擎异常检测产品、运营、

风控、审计作业、销管、

财务、高管实时画像衍生加工消息队列实时清洗API查询SQL查询拖拽查询半自动化

经营报告镜像同步文件交换区数据规范

质量监控权限与加

解密控制日志收集

检索告警服务监控资源管控任务调度可视化

导航模型参

数配置规则集配置工作流

配置元数据

维护策略配置与管理三方爬虫离线文件业务

系统CRMSDK数据服务系统质量监控实时加工贷后审批数据源坏账率•

数据:人行征信+外部数据•

算法:模型集成•

重点:大数据红利•

数据:人行征信+外部数据•

算法:在线学习•

重点:客户特征漂移问题•

数据:人行征信报告•

技术:线性模型•

重点:强变量的精耕细作•

数据:人行征信报告•

技术:非线性模型•

重点:算法优化X

强变量

弱变量

隐藏单元

输出单元偏置梯度支持向量真实坏账率

线上LR最新LRGBTSMOB金融:信用评分模型(a)宽度学习

(b)宽深度学习(c)深度学习变量选择模型开发数据获取实施跟踪数据预处理探索性分析信用评分模型评估M第一阶段:第二阶段:第三阶段:第四阶段:-基础分值o

-

分值刻度设置>>>-

Ks指标-变量离散化-有效性监控

o-

稳定性监控-拟合度曲线

o

-稳定度指标-存量客户数据-潜在客户数据-WOE变换

o

-交叉验证-变量分布情况-

中位数、均值-对接业务系统-好坏比-缺失值处理-异常值处理-单变量分析-共线性分析=

1X各模型效果-坏账率表现(按通过率40%计算)T

Y12

3

4

5

6

78910

111213

141516

17

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论