《自然语言处理：基于预训练模型的方法》课件09-多模态融合的预训练模型

上传人：h*** IP属地：山东上传时间：2026-03-02 格式：PPTX 页数：22 大小：19.21MB 积分：15 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多模态融合的预训练模型多语言融合1多媒体融合2异构知识融合3多语言融合1多媒体融合2异构知识融合34HARBININSTITUTEOFTECHNOLOGY背景超过6,500种语言5HARBININSTITUTEOFTECHNOLOGY背景数据分布的长尾现象（Long

Tail

Distribution）Figurecredit:GrahamNeubig源语言（Rich-Resource）目标语言（Low-Resource）迁移6HARBININSTITUTEOFTECHNOLOGY多语言BERTMultilingual

BERT/google-research/bert/blob/master/multilingual.md统一的多语言表示空间（104种语言）为什么有效？语言的混合使用（Code-Switch现象）共享子词7HARBININSTITUTEOFTECHNOLOGY跨语言预训练语言模型XLM（Lample

and

Conneau,

NeurIPS,

2019）翻译语言模型（Translation

Language

Modeling,

TLM）依赖双语平行句对大规模平行句对获取难度较高受限于句子级上下文（篇章/文档级平行数据更为稀少）8HARBININSTITUTEOFTECHNOLOGY应用零样本迁移（Zero-shot

Transfer）将源语言（资源丰富，如英语）上训练得到的模型直接应用于目标语言（通常为资源稀缺语言）XTREME基准测试集（Hu

al.,

ICML

2020）多语言融合1多媒体融合2异构知识融合310HARBININSTITUTEOFTECHNOLOGY背景多媒体数据语言图像视频跨媒体应用图像描述生成（Image

Captioning）跨媒体检索（如：以文搜图/视频）辅助单模态任务……图片来源：/blog/dall-e/11HARBININSTITUTEOFTECHNOLOGYVideoBERTVideobert:Ajointmodelforvideoandlanguagerepresentationlearning.

(Sun

al.,

ICCV

2019)“文本+视频”预训练模型数据：视频以及对应的文本字幕预训练任务：掩码标记预测应用视频检索、视频字幕生成等12HARBININSTITUTEOFTECHNOLOGYVL-BERTVl-bert:Pre-trainingofgenericvisual-linguisticrepresentations.

(Su

al.,

ICLR

2019)“文本+图像”预训练模型13HARBININSTITUTEOFTECHNOLOGYDALL・EZero-ShotText-to-ImageGeneration

(Ramesh

al,

2021)通过离散变分自编码器（Discrete

VAE）将图像表示为离散标记序列由文本生成图像，采用自回归语言模型aclockinthe

shapeofapeacock.（一个孔形的时钟）输入：输出：14HARBININSTITUTEOFTECHNOLOGYCLIP，ALIGNCLIP:

LearningTransferableVisualModelsFromNaturalLanguageSupervision

(Radford,

al.,

2021)ALIGN:

ScalingUpVisualandVision-LanguageRepresentationLearningWithNoisyTextSupervision

(Jia

al.,

2021)通过对比学习学习图像与文本的联合表示多语言融合1多媒体融合2异构知识融合316HARBININSTITUTEOFTECHNOLOGY知识增强的预训练模型“站在巨人的肩膀上”知识库：（半）结构化知识、外部世界知识、常识知识等如词典，实体库，知识图谱等已有任务的标注数据HowNet维基百科/zh-cn/苹果公司17HARBININSTITUTEOFTECHNOLOGY命名实体Ernie:Enhancedrepresentationthroughknowledge

integration

(Sun

al.,

2019)预训练任务：掩码语言模型子词掩码实体掩码短语掩码示例：有助于实体间关系的学习，如上例（Harry

Potter，J.

Rowling）18HARBININSTITUTEOFTECHNOLOGY命名实体KnowBERT:

Knowledgeenhancedcontextualword

representations

(Peters

al.,

EMNLP

2019)利用实体消歧（Entity

Linking）以及相应的文本描述在BERT相邻两层Transformer之间引入知识融合模块19HARBININSTITUTEOFTECHNOLOGY知识图谱ERNIETHU

(Zhang

al.,

2019)知识编码器（K-Encoder）融合文本与知识图谱中的实体表示利用TransE获取知识图谱中的实体表示K-BERT推理阶段的知识融合树状结构输入（根据知识图谱对实体进行扩展）对自注意力分布进行约束20HARBININSTITUTEOFTECHNOLOGY多任务知识充分利用已有任务的标注数据及资源文本分类：如情感分类回归问题：句子相似度预测句对分类：文本蕴含与基于海量无标注数据的自监督预训练相媲美MT-DNN：Multi-task

Deep

Neural

Network

(Liu

al.,

ACL

2019)CoLA,

SST-2RTE,

MNLI,

MRPCQNLI21HARBININST

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《自然语言处理：基于预训练模型的方法》课件09-多模态融合的预训练模型

文档简介

温馨提示

最新文档

评论

《自然语言处理：基于预训练模型的方法》 课件09-多模态融合的预训练模型

文档简介

温馨提示

最新文档

评论

相关文档

《自然语言处理：基于预训练模型的方法》课件09-多模态融合的预训练模型