专家观点复旦肖仰华-从知识图谱到认知智能(61 页 P P T)_第1页
专家观点复旦肖仰华-从知识图谱到认知智能(61 页 P P T)_第2页
专家观点复旦肖仰华-从知识图谱到认知智能(61 页 P P T)_第3页
专家观点复旦肖仰华-从知识图谱到认知智能(61 页 P P T)_第4页
专家观点复旦肖仰华-从知识图谱到认知智能(61 页 P P T)_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

从知识图谱到认知智能肖仰华复旦大学知识工场实验室Kw.fudan.eshawyh@•知识图谱作为一种语义网络,是大数据时代知识表示的重要方式之一•知识图谱作为一种技术体系,是大数据时代知识工程的代表性进展知识图谱富含实体、概念、属性、关系

等信息,使得机器理解与解释成为可能Curiosity:知识图谱探索式系统知识图谱人工智能时代需要机器智脑:实现知识工作自动化大数据时代需要知识引擎:释放大数据价值战略意义n全方位、深度渗透到各行各业、各个环节n颠覆性影响,重塑行业形态,甚至社会形态智能化升级与转型已经成为各行各业的普遍诉求从信息化走向智能化是必然趋势AI+成为AI赋能传统行业的基本模式知识图谱使能认知智能领域/通用知识的积累与沉淀是智能化的必经路径解释搜索推荐决策问答nnn3 •

深度学习、大规模预训练模型的一大规模应用,对基于知识的应用形成替代广义的知识呈现在数据中的能够有效求解问题

的“输入-输出”数据模式机器视角人类视角•

深度学习发展迅速,机器隐形知识兴起

大规模训练模型可以视作是一类新型的统计驱动的知识库狭义的知识justifiedtrue

belief技术生态变化Petroni,Fabio,etal.Languagemodelsasknowledgebases?(EMNLP2019)n随着知识图谱应用的深化,其成本与效用之间的矛盾日益突出场景不明哪些应用场景能够借力知识图谱?技术风险图谱仍是发展中技术,不定型,面临着技术换代的风险效用成本成本与效用矛盾突出Heiko

Paulheim.How

much

isaTriple?

EstimaingtheCostof

KnowledgeGraph

Creation.In

Proceedings

ofthe

17th

International

SemanticWeb

Conference(ISWC

2018),

Monterey,

CA,

USA.

Springer.景上添花图谱应用大都属

于景上添花,而

非雪中送炭运维成本图谱建设不是一次性投入,

需要持续运维构建成本人工构建成本:2~6美元自动构建成本:1~15美分数据成本有特色的稀有图谱建设需要相应的数据成本认知智能知识智能知识图谱智能应用、服务困难知识表示、获取困难数据获取、治理困难知识图谱面临全新挑战6世界上有两件东西能震撼人们的心灵:—件是我们心中崇高的道德标准;另—件是我们头顶上灿烂的星空。——康德 •

Intelligenceistheabilitytolearnfromexperience,solveproblemsanduseourknowledgetoadapttonewsituations.Intelligence什么是智能knowledgeDiscoverUse8 •

Knowledge=JustifiedTrueBelief•It

mustbetrue•Wemustbelieve

it•

Wemusthavesome

justification

forbelievingit•

数据:对客观世界的符号化记录•

信息:被赋予意义的数据•

知识:信息之间有意义的关联39

体温39摄氏度体温达到39摄氏度,可能发烧了数据

信息

知识什么是知识9认知智能:

让机器具备⼈

类的⾼阶认知能⼒高阶认知(人类特有的认知)人类的

认知低阶认知(人类和动物共有的认知)智能机器将成为“认知”世界的新主体

10文化认知思维认知语言认知心理认知神经认知 认知智能是以知识的发现和应用为核心内容的智能形式归纳解释理解规划推理演绎认知智能人类认知层次认知智能11

人类的知识是显性、有结构 机器的“知识”是隐性的暗知识广义的知识呈现在数据中的能够有效求解问题

的“输入-输出”数据模式

知识是认知的结果,认知是获取知识的手段人类视角机器视角认知的目的是获取知识狭义的知识justified

true

belief•

认知智能以知识智能为核心现实世界

认知

知识•

认知智能与感知智能是双向互动关系内:心灵

认知外:身体

感知与运动人类智能机器智能视觉:鸭兔错觉Itwasfoundthatthe

*eelwasonthe

axle听觉:音位恢复人类独特的脑补效应本质上是认知对于感知的有益引导与补充机器感知智能的瓶颈的突破需要认知牵引

认知智能不仅是感知智能升级的一个全新阶段认知与感知之间的关系Ref:吴强、肖仰华,《人工智能(高中)》前言

Ref

Leonard

Mlodinow,《Subliminal:

How

Your

Unconsciousness

control

your

behavior》nn12行为/进化主义n

实现人类的物理交互:运动n

实现人类的社会认知

认知智能的实现需要AI三大流派的合流,形成合力认知智能的思想支撑n

实现人类的

“慢思考”n

345*1234=?n

实现人类的

“快思考”n

3*4=

?联结主义符号主义13 •

有效的、合理的反馈是进化主义解决问题的关键•

文本/图像/语音理解等为代表的认知任务需要从知识库(人类认知世界的逻

辑结果)寻求有效的反馈机制面向认知的进化主义从物理世界的寻求反馈

从逻辑世界寻求反馈面向运动与感知的强化学习面向认知的强化学习Knowledge14解释

认识洞悉

认知智能的核心能力是“理解”和“解释”

,体现在机器能够理解数据、理解语言进而理解现

实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一

系列人类所独有的认知能力上。——《知识图谱与认知智能》,

肖仰华n理解与解释是人类最为复杂但尚未得到深入理解的智能现象n理解与解释是后深度学习时代人工智能的核心使命之一理解与解释是认知智能的核心体现理解n

认知智能是数据、算力、模型发展背景下,数据智能、知识智能的集成融合创新的产物认知智能的技术内涵常识理解●Cognitive

Machine高阶认知语言理解价值认知类比与隐喻多模态理解归纳与演绎自省认知因果理解元认知16大规模KG多模态的应用•增强预训练语言模型•增强机器常识理解能力•提升图像到文本生成准确性•作为多模态额外特征增强NLP任务性能 人类的理解一定程度上体现为从符号产生体验联想 大规模符号接地是机器理解世界的前提,是实现认知智能的基础之一•

大规模符号接地是赋予符号以体验

与意义的过程多模态理解17服务机器⼈进⼊⼈类⽣活需要具备常识理解能⼒构建机器智脑常识知识是专业知识的基础,是发展⾏业智能化的基础行业智能化发展常识认知能⼒缺失制约了机器感知能⼒的进⼀步发展感知智能发展常识知识缺失、常识理解有限,难以支撑人工智能应用需求n

常识理解有可能是认知智能乃至人工智能发展的第一性问题“

常识知识是指我们⼤多数⼈都知道的事实与概念

……”—《情感机器》,马文明斯基婴⼉车过斑马线,车中婴⼉被机器识别为违章常识理解18P(y!

|x′)P(y|do(x))P(y|x)•

“人类认识世界的过程是基于人们对某种因果关系的猜测“——波普尔,《猜想与反驳》•

何为因果:•TE

=

E

Y

x

=

1-E{YIx

=

0}•Total

Effect大于0时,则x和Y存

在因果关系。n从统计相关到事理因果是机器感知智能(深度学习)

向认知智能法发展的重要内容之一n

因果分析是深化大数据洞察与理解的重要方式之一因果理解章:基于知识图谱的语言理解实体:法国(法国足球国家队)克罗地亚(克罗地亚足球国家队)场景:夺冠主题:体育内涵:国际足联世界杯获得第一名的国家足球队概念:国家足球队、足球队、冠军球队

浅层理解深层理解关系/属性:击败法国4:2击败克罗地亚时隔20年再夺世界杯冠军语言理解语言

认知"Ln20•

归纳与演绎是人类认知的重要形式归纳:从具体到抽象

智能体现在沿着概念层级进行归纳与演绎的能力演绎:从抽象到具体哲学家有自己的哲学思想柏拉图是哲学家,所以柏拉图有自己的哲学思想n大规模概念图谱是实现机器归纳与演绎的基础归纳与演绎PersonEatFood“真是病来如山倒,祛病如抽丝哇”类比推理是把两个或者两类事物或者情形进行比较,找出它们在某一抽象层面上的相似关系。并以这种关系为依据,将有关知识加以适当整理,对应到另一事物或情况,从而获得求解另一事物或情形的知识Case发展情况隐喻n机器在大规模开放环境下的类比推理能力仍然十分有限n大规模知识库支撑下的类比推理机会巨大

,有着重大应用价值

basedReasoning1971年,Kling,R.E.,提出了记忆网模型和案例;

1981年,JaimeG

.Carbonel1提出了转换类比;1983年,JaimeG

.Carbonel1提出了派生类比;1991年,JaimeG

.Carbonel1等人开发了PRODIGY系

统;

……类比是人类认知中最丰富和活跃的思维方式,类比是人类认知的核心,也是人类智能的核心。是人类通过应用过去的经验来解决新问题的一种思维过程。类比与隐喻类比推理3+4=7类比43722

•领域(行业)有哪些核心概念?概念的层级体系如何?“元知识(Meta-knowledge)是有关知识的知识”

•概念存在哪些核心属性?概念之间存在哪些核心关系?•机器能否以及如何自动化建立领域的认知体系?n人类社会日益复杂,远超出人类专家的理解能力,专家已经难以梳理元知识体系n机器辅助人类建立知识体系日益必要,也初具可能OpenIE+聚类+人工评估开放信息抽取

专家定义Schema人机结合的元知识获取方法SchemainductionfrominstancesGenerationfromlanguagemodels元认知AS2was

created

in

2002

by

the

IETF

to

replaceAS1,which

they

createdin

the

early

1990s.Concept/attribute/relationextraction完善schemaSpecifiedbyhumanexpertsIRCcanbeconnectedtovia

IPv4,the

old

versionof

theInternetProtocol.元知识获取的典型方式直接匹配23•人:我渴了,给我一杯喝的•机器:您要饮料还是茶水•人:水吧•机器:有糖还是无糖•

人:无糖吧•机器:有气泡还是无气泡•

人:无气泡吧•机器:热水还是冷水•

人:冷水吧•

机器:要加冰块么•

人:不加吧•机器:水是要矿泉水还是普通水呢•

人:我只是想要一杯水喝

•高阶认知,实现机器认知的主动性•我知道你知道/需要/想什么•

我知道你知道他知道什么机器智能人机协作过程中,

机器认知的主动

性将逐步提升高阶认知能力n

人机协作需要机器具备高阶认知能力,实现主动协作n

当前交互类应用“智障”的集中呈现在于缺乏高阶认知高阶认知缺乏高阶认知的人机对话24人类:鲁迅老公是谁?机器:这个问题不合理,鲁迅是男的人类:

**药物的禁忌症是什么?机器:这个问题我的知识库有缺失,

回答不了,请寻求人类帮助人类:

***发动机不均匀度范围多少机器:

1%。请进一步参考**指南

获取确信信息人类:

给我降压药机器:您今天已经吃过了,不建议

再吃了•

反思与自省•

如何触发反思?•

如何获得自省?•

自知之明•知道自己知道什么•知道自己不知道什么•知道自己何时犯错•知道自己犯了什么错误不合理问题的拒绝

不能答问题的提醒不确信问答的提示善意的抗辩与提醒n

自省认知的本质是对未知保持适度的敬畏n实现自省认知的关键是评价与评估n实际应用的兜底方案需要自省认知“知之为知之,不知为不知,是知也。”—《论语-为政》“除了上帝,没有人全知全能”自省认知••25AI科技评论:模型

C

的效果最好,

但是我们发现,模型

C

也最有可

能将更积极的情感赋予「主角是男人」

这句话,而不是「主角是女人」

这句话。我们应该重新思

考这个问题吗?央视新闻:据相关数据显示,2019

年,中国全行业外卖订单单均配送

时长比3年前减少了10分钟,系统

限定的送餐时间越来越短,而交通事故率却随之不断递增。北京日报客户端:呼吁有关部

门,对互联网平台落实社会责任情况加强监管。社会各界共

同呵护核心价值观,守住底线,别让闹剧再闹下去。百度百科:

网络群体极化;社会

粘性丧失。在社群内的交流更加

高效的同时,社群之间的沟通并

不见得一定会比信息匮乏的时代更加顺畅和有效。美与丑是与非

对与错善与恶价值认知语言模型的性别偏见马保国审丑文化信息茧房:推荐外卖算法实践不仅具有普遍的资格,而且具有绝对现实的资格。——黑格尔27面向(工业)领域的认知智能

2021/7/13

1

章:知识图谱概述28大规模简单应用场景单一的应用模式简单的知识应用智慧出行

智慧美食智能购物

智能搜索繁杂的应用场景深度的知识应用密集的专家知识有限的数据资源认知智能应用场景转变n

认知智能逐渐由消费互联网向工业互联网转变智慧医疗司法智能小规模复杂应用场景词汇简单,以事实知识为主大规模用户数据智能工业智能金融•

政策文件智能解读•

市场环境辅助分析、风险预测•

智能物流路线规划•

自然灾害影响分析预测

传统工业技术•

设备故障根因定位•

实时统计业务影响•

设备健康管理系统认知智能

n

认知智能从以“人”为中心逐步发展到“人机物”并重u

从互联网的以“人”为中心逐步发展到“人”与“设备”并重u

工业智能化的实现是知识图谱技术的重大历史使命•

业务数据部门间贯通•

物料仓储及资源智能管理•

模拟实验促进研发进程环境•

企业图谱传承企业经验积累•

供需产业链有助商机挖掘

机认知对象逐渐多元化人•

员工画像提升个人工作效率助力工业发展物 •

将工业相关知识以及推理能力赋予机器,实现甚至超越人类水平的智能工作•工业认知是机器推理决策的基础,在规模、时效等方面,机器可以远超人类工业认知的本质文档数据专家n

知识如何获取?认知如何实现?知识

+推理智能应用场景复杂推理链条长、相关因素多

人机交互要求高数据来源多样

形态复杂治理困难知识专家知识隐性,难外化

知识体系庞杂,难表示

受众小、难获取工业认知智能的主要困难

•工业是一类典型的复杂巨系统•工业系统首先是人造系统,体现的是人类对世界的认知•工业模拟器是人类知识的主要体现n

数据驱动与知识引领相融合是解决工业认知的基本路径n

以纯数据驱动为特色的消费互联网的技术体系难以在工业互联网取得良好效果实现工业认知的基本思路数字孪生、工业模拟是工业知识/机理的集中呈现工业系统是复杂巨系统在输入数据中融合

:在原始数据集外,融入独

立的先验知识在模型选择融合

:使用知识建立模型、

选择

超参数,等等在模型构造中融合

:在机器学习的损失函数等

中融入知识在最终结果中融合

:利用知识评价、验证、修

正、改善已建立好的模型湖泊温度建模领域知识:物理定律(在同一时刻,湖水深度越深,密度越大)深度关系:

if

d1

<d2密度关系:

P[d1,

t]

P[d2,

t]≤0利用领域知识:在神经网络的损失函数中,额外加入一个正则

化项,用于量化模型与物理定律的不一致程度。工业机理与统计模型的深度融合Source:Anuj

Karpatne,WilliamWatkins,JordanS.

Read,Vipin

Kumar:

Physics-guided

Neural

Networks

(PGNN):AnApplicationin

LakeTemperature

Modeling.CoRR

abs/1710.11431

(2017)物理知识

建模表示:34

人机协作是关键,随着机器认知能力的提升,人的认知需求将会降低Human-in-the-loop仍是基本模式n机器的隐性知识将是人类知识体系的显著补充n机器的认知能力将显著拓展人类的认知能力机器•

事实•

静态关联

明确•

常规•

封闭性

单一•

价值无关人类•

元知识•

决策过程•

模糊•

异常•

开放性

融合•

价值相关人类的知识机器的知识35认知智能解决问题问题的一般框架

面向领域的认知智能框架日益成熟文本/多模态任务标注抽取分类多模态表示文本

图像

视频LM语言模型RL增强学习KG知识图谱语料结果搜索

推荐问答

游戏

……

知识应用自知之明

价值引领推理

归纳(符号/隐性)

与演绎实体理解概念理解常识理解

因果理解自主学习决策Meta-cognitionWhywhy/what?InferenceWhy?Taxonomy百科图谱语言模型概率图模型…大规模知识网络抽取生成众包萃取知识获取认知智能的技术架构UnderstandingWhat?Language

modelschema理解多模态理解知识表示认知引擎LM

KGcorporaDNDT机器如何表达知识?2021/7/13

1

章:知识图谱概述38P(word|context)?P(北京|中国首都是?)

=0.9P(南京|中国首都是?)

=0.01P(上海|中国首都是?)

=0.01预训练语言模型•

Feature-based以

ELMo为代表•

Fine-tuning以

BERT、GPT为代表•

改进型及领域定制型以ALBERT、XLNET为代表 基于LM的知识萃取将成为知识获取的全新手段

LM的简单知识蓄水池效应日益明显语言模型(LM)成为知识蓄水池•基于大规模通用语料训练而得的语言模型•使得机器具备了足够广度的浅层文本认知“知识萃取是⼀种从⼤规模语⾔模型中按需提纯特定知识的过程”-《知识萃取——知识获取新范式》,肖仰华,等常识知识事实知识语言知识……知识图谱增强萃取39Ontology,FrameKnowledgeGraph

Language

Model

Multimodal

Modeln认知需要多元、异构、混合的知识表示,相互交织组成大规模知识网络n融合:隐形与显性、Taxonomy与Folksonomy、通用与专业40KG将向大规模知识网络演进BayesiannetworkLogicrulesDecisiontree•专家真的是按照指南与规章在解决问题么?•

否,只有新手才如此•

专家从来是根据经验在解决问题•

人类的专家•

工匠:富有经验解决问题

but很少能明确表达•

大师:富有经验解决问题and能明确清晰表达自

己的经验•知识指引下的RLAgent经过较多案例的演化学习有可能再现有经验的工匠技能n

下一代知识工程的核心有可能是无表征知识工程n机器智能的首要任务在于再现人类工匠的技能•

“无表征智能”

美国机器人制造专家RodneyBrooks

于1991年提出[1],基于该理论,创新性地

设计了

behaviour-based

robotics(基于行为的机器人技术)•

传统AI:“需求-建模-计划-行动”框架•自上而下

的研究方法,

基于知识

的方法•

无表征AI:“需求-行动”框架•自下而上

的研究方法,

基于行动

的方法能力的产生,在于对

能力的需求。因此,

赋予机器某种能力,

只需要保证需求实现

的最大化,不一定需

要为能力的产生给予

明确的定义。无表征也是一种知识表示41•通用智能的基本形式应该遵循进化主义•进化主义的关键在能够模拟合理的进化环境•进化的效率将是阻碍其落地效果的一个关键因素•Reward

isenough

的前提在于存在万能模拟

器•

Isalmost

impossible•

Give

meanappropriate

simulator,I

can

createany

intelligence•人类知识的重要意义在于加速机器智能进化的进

程、降低机器进化的起点KGguided

RL实现无表征知识工程42 •

基于分布式表示的Policy是人类解题技能与经验的最佳表示方式之一State

2State

1强化学习中的问题求解策略基于分布式表示的Policy可视作一类知识表示BLANK(x,y)ΛBLANK(y,

z)Nationality(x,

z)Action

1

:

add

BornInBornIn(x,y)

ΛBLANK(y,z)Nationality(x,

z)CalculateRewardby

Eq.(12)BornIn(x,y)

ΛCountry(y,

z)Nationality(x,

z)Rule

Miningover

KnowledgeGraphsvia

Reinforcement

Learning

submittedto

ICDM

2021Reward

State

0Action

2:

add

Country分布式表示43

l

词汇概念知识图谱l

词汇间的上下位关系(isA关系)组成,如isA(apple,fruit)l

给定文本“Kobe

Bryantdiedatage41,alongwith

his

13-year-old

daughter

...”,现有预训

练语言模型也难以将其分类,缺乏先验知识isA(Kobe

Bryant,

NBAstar)l

挑战l

现有模型忽视了隐性但十分重要的兄弟信息l

词汇概念知识图谱中存在大量的一词多义

l

实验l

在链接预测、关系分类、文本分类中达到了最优效果概念的分布式表示—基于结构JingpingLiu,XiaoYanghua,etal.LearningTermEmbeddingsfor

Lexical

Taxonomies,AAAI2021.44意义:•类人的概念表示:人类通过原型理解概念,因此原型的思想可能也可以帮助机器理解概念。•小样本下的有效表示:基于原型的原型网络在小样本分类上已经取得了成功,验证了在机器中结合原型思想的可行性,而概念表示与其类别表示有许多相似之处。PrototypicalRepresentationof

ConceptsonLarge-scaleTaxonomy,TechniqueReportof

KW,2021原型

:•

心理学家认为,原型是人类概念理解的基础。•定义:在认知心理学的原型理论中,一个概念被描述为一个实例的集合,而原型即这个集合在人们认知世界里的中心。•概念的原型从人类对其实例的认知中产生,承载了我们对概念的知识,并成为我们基于概念进行推理的基础。•比如,当人们判断实例是否是某一概念的成员时,人们倾向于将实例同该概念的原型进行比较。提出机器的分布式的概念原型表示概念的分布式表示—基于原型45•

结论•知识图谱总体上是稀疏、异配的,其度分布符合(指数截尾的)幂律分布•相对于手工构建,自动化构建的知识图谱不同领域间的语义丰富度更不均衡•

自动化构建知识图谱的K-Core部分或许是常识部分•知识图谱中粗粒度概念语义更加丰富Analysisoverlarge-scaleknowledgegraphs:Fromacomplexnetworkperspective

TechniqueReportof

KW,2021

人工构建的知识库与机器自动构建的知识库存在怎样的差异?•

从复杂网络视角展开实证分析,探索机器“认知”与人类认知的异同人机知识的定量化实证分析46•

知识图谱是否越大越好?•知识图谱规模并不是越大越好•同质化的知识容易被少量规则压缩•多样性的知识图谱构建更合理•

知识图谱的冗余性(同质性)评估•利用对知识图谱的无损压缩评估知识图谱的冗余性。利用规则对知识图谱中可

以被规则推理的三元组进行压缩知识图谱评估The

Bigger,The

Better?The

Compressiblity

of

Knowledge

Graphs,Technique

Report

of

KW,202147机器如何获取知识?48Q

:美国的现任总统是谁?corpora抽取三元组生成生成模型A

:特朗普“中国的首都是

[MASK]。”取预训练语言模型众包AnswerCo||ection北

京待标注文本

知识库知识抽取模型or

规则库知识获取的四种范式TaskSe|ection萃•

Semanticdriftbecomesthebiggestprobleminbootstrapping-basedIE•Semanticdrift:

Concepts’

intentionsgraduallychangeasthedomain

evolves•Anextractedpatternintroduceserrorswhenusedforother

entities•

Thegoodnessofapatterndepends

onitsexecuting

context!Pattern

:X

invasion

of

Y=>(X,Place,Y)•TheNormandylandingswerethelandingoperations

of

theinvasionofNormandy=>(Normandy

Landings,Place,Normandy)å

amassiveconventionalNVAinvasionofSouth

Vietnam=>(Vietnam

War,Place,

South

Vietnam)•

InvasionoftheDinosaursis...televisionseriesDoctor

=>(Invasionof

theDinosaurs,Place,theDinosaurs)BootstrappingInformationExtractionviaConceptualization

ICDE2021基于模版的抽取-知识指引Extractsmoretriples(10%+)

,achieveshighprecisionsinbothChinese(~95%)andEnglish(~90%)knowledgebases√Whox50Google

was

founded

on

Sept.4,

1998by

Larry

Page

and

Sergey

Brin,and

is

recognized

as

the

world’s

largest

search

engine

company.concept2Google

is

a

United

States

multinational

technology

company,whoseconcept

1business

includes

Internet

search,cloud

computing,advertisingtechnology,etc

…•基于阅读理解(MRC)的概念识别•

为CN-DBpedia新增78w概念,平均为每个实体新增一个概念(一个isa关

系)•

准确率达到93%Large-scaleConcept

Extraction

Basedon

Machine

ReadingComprehensionfor

Knowledge

Graph

Completion

ISWC

202151使用阅读理解

模型实现文本

概念片段抽取

之后借助随机

森林和规则匹

配进行筛选和

过滤端到端抽取—基底模型函数与“先关系-后实体”的抽取框架。方法:优点:1)问题建模使得负样本比例大大减少,2)关系层面的标注错误可以通过集成损失函数得到修正,3)实体级别假阴性不会得到影响关系分类效果。Xie,etal.“RevisitingtheNegativeDataof

Distantly

SupervisedRelationExtraction.”ACL,2021.问题:为了处理由知识库缺失导致的远程标注噪音,与数据不平衡问题,分别采用集成损失端到端抽取—抽取策略

目标:使得关系抽取模型具备持续学习的能力•方法:基于原型网络的思想,由关系的典型样本生成关系原型表示,并将其作为记忆网络的记忆模块对模型的样本编码结果优化,使得模型在学习新的关系的同时保持对旧关系的分类能力端到端抽取—持续学习\注意力模块样本编码结果关系原型

Refining

SampleEmbeddingswithRelationPrototypestoEnhanceContinualRelationExtraction.

ACL’202153Out-of-LM知识将成为知识获取的主要目标语言智能将走上KG+LM双轮驱动的新范式n语言模型在常识理解、逻辑推理、常尾知识、元知识理解等方面仍然存在局限知识萃取是重要的知识获取方式之一LM太阳有几只眼睛?

2只LM的

局限Petroni,Fabio,etal.Languagemodelsasknowledgebases?(EMNLP2019)推理能力元知识时空知识概念理解数值理解常识理解长尾知识复杂知识••54粗粒度概念歌手

演员细粒度概念香港男演员

著名流行男歌手isA

isA刘德华

属性

细粒度概念生成:

多样化query,增加流量生成也是知识获取的有益手段之一地区香港歌曲风格流行性别男实体的更细节描述语料中出现少,难以获取实体的基础定性容易获取大量缺失!生成isA

isA

1.哪些属性值可用于构成概念?

中国

√1961-09◊2.有否更多属性值可用?

热带

->亚热带、温带、寒带3.多个属性值如何组合成概念

70年代摇滚歌手√摇滚70年代歌手

◊根据结构化信息生成细粒度概念的框架这一方案为CN-Dbpedia增加了130多万的细粒度概念,准确率91%Towardsthegenerationoffine-grainedconcepts

,TKDE,2021细粒度概念生成•借助大规模语言模型中所蕴含的隐性知识,生成概念•具有一定的创造力,不受限于词汇•

具有一定的推理能力•挑战:概念漂移•

比如,关于小说描述,容易生成主题相近的错误概念“作家”Conceptselectorgenerationmodel

Candidateconcepttopic

conceptwriterFigureAmericannovelBookAmericannovelistFigureAmericanfemalewriterFigureFigure

1:

The

comparison

between

concept

extractionand

concept

generation

from

the

descriptive

text

of

agiven

entity.Table3:

Pre-trainedtextgenerationmodels’conceptinferencebasedondescriptivetexts.LouisaMay

Alcottwasan

Americannovelist,shortstorywriterandpoetbestknownastheThethreebodyproblemThethreebody

problemwasfirstpublishedin

May2008.GPT-2bookmT5book,publicationT5PEGASUSbook,publicationLIUCixinLiuCixinwrotethenovelThethreebody

problemfrom2006to

2010.GPT-2novel,bookmT

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论