NLP、多模态智能和机器学习 -深度学习驱动的语言-视觉跨模态语义理解与内容生成-何晓冬

上传人：大*** IP属地：广东上传时间：2023-08-28 格式：PPT 页数：37 大小：6.04MB 积分：20 举报 版权申诉

NLP、多模态智能和机器学习 -深度学习驱动的语言-视觉跨模态语义理解与内容生成-何晓冬_第2页

NLP、多模态智能和机器学习 -深度学习驱动的语言-视觉跨模态语义理解与内容生成-何晓冬_第3页

NLP、多模态智能和机器学习 -深度学习驱动的语言-视觉跨模态语义理解与内容生成-何晓冬_第4页

NLP、多模态智能和机器学习 -深度学习驱动的语言-视觉跨模态语义理解与内容生成-何晓冬_第5页

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

NLP、多模态智能和机器学习深度学习驱动的语言-视觉跨模态语义理解与内容生成何晓冬10.31.20190人工智能的初心及圣杯–语义理解与人机对话图灵测试通过人类和机器之间的对话与交流来判断机器是否具有智能。艾伦.图灵"ComputingMachineryandIntelligence"(1950)2最近一次人工智能的发展浪潮由深度学习驱动3[HintonandSalakhutdinov,“Reducingthedimensionalityofdatawithneuralnetworks.”Science,July2006]深度学习需要从学术界走向工业界NIPS08workshop我们邀请Hinton来做报告并探讨与工业界合作4深度学习率先在大词表语音识别任务上产生突破2010年深度学习将大词表语音识别性能提升20%，2017年在Switchboard上精度达到人类水平！[Dahl,Yu,Deng,Acero,"Largevocabulary2010年MSR(LiDeng’sgroup)首次在大规模AI核心任务(ASR)上展示了深度学习的威力和潜力continuousspeechrecognitionwithcontext-dependentDBN-HMMS,"ICASSP2011]5.1%Microsoft2017,Switchboard[Xiong,Wu,Alleva,Droppo,Huang,Stolcke,"The2017年MSR(XDHuang’sgroup)在Switchboard上精度达到人类水平Microsoft2017conversationalspeechrecognitionsystem,"5随后开启了一系列深度学习在人类语言技术（HLT）领域的突破。ICASSP2018]语言理解/语义槽值提取2013年成功应用RNNforSLU/SlotFilling[Mesnil,He,Deng,Bengio,InterSpeech2013]语言理解/语义意图分类Introducingself-attentionHierarchicalAttentionNet(HAN)2016年提出的层次烤猪，带子？我不喜欢带子。这里的鸡尾酒令有，味道好下次我再来这个城市时，我一定会再一次超推化注意力模型(HAN)能在单词、句子、段落等多个层面来建模理解语言，判断意图，并通过对神经元激活的可视化来给出一定程度的可解释性。，7[Yang,Yang,Dyer,He,Smola,Hovy,“HAN”,NAACL2016]语言理解/语义的表征从自然语言中抽取出语义并将其投影到语义空间以帮助搜索、推荐、分类、问答等应用抽象的语义表征通过深度神经网络逐步抽取语义上的不变性(invariance)神经网络输入自然语言的描述小明快递了一袋苹果给外公语义相似的描述语义不同的描述“外公从小明那收到了袋红富士”“小明送给女友最新一代的苹果X”8[Huang,He,Gao,Deng,Acero,Heck,“DSSM”,CIKM2013]DSSM:深度结构化语义模型基于相对相似度的训练目标函数:ComputeCosinesimilaritybetweensemanticvectorscosꢈ(ꢎ

ꢎ

ꢋcosꢈ(ꢎ

ꢎ

ꢋꢄꢏ

ꢐꢃComputegradientsꢆꢇꢈ(ꢉꢊꢁ(ꢀ

ꢀꢂ

ꢋꢋꢏꢐꢃꢁꢈꢅꢅWꢌꢆꢇ(ꢈ

ꢉꢊꢁ(ꢀ

ꢀ

ꢋꢋꢍꢁꢈ

ꢂꢍꢃꢄꢂ

={ꢂ

,ꢂ

}ꢀꢁꢀꢂꢃꢀꢂꢄSemanticvectord=300d=500d=500d=300d=300d=500Wt,4Wt,4Wt,3Wt,2Wt,1Ws,4Ws,3Ws,2d=500d=500Wt,3Wt,2Wt,1Char-trigramembeddingmatrixd=500Char-trigramencodingmatrix(fixed)dim=50Kdim=50Kdim=100Mdim=50KWs,1Bag-of-wordsvectorInputword/phrasedim=100Mdim=100Ms:“小明快递了一袋苹果给外公t+:”“外公从小明那收到了袋红富士”t-:“小明送给女友最新一代的苹果X”9[Huang,He,Gao,Deng,Acero,Heck,“DSSM”,CIKM2013;Shen,He,Gao,Deng,Mesnil,“CDSSM”,知识推理及问答在连续向量空间表达知识、解析语义、执行推理和应答谁是贾斯汀.比伯的姐姐?贾木尼.比伯语义解析ꢀꢁ.

ꢂsister_of(justin_bieber,ꢂꢂꢂꢁꢃSQL搜索匹配sibling_of(justin_bieber,ꢂxꢃ

∧

gender(x,ꢂfemaleꢃ10[Yih,He,Meek,ACL2014;Yih,Chang,He,Gao,ACL2015;Golub&He,EMNLP2016;…]对话机器人[Shum,He,Li,“FromElizatoXiaoIce”,FITEE2018]零售全链条智能人机对话与交互服务售前售中售后物流智能导购智能情感客服智能情感客服智能语音外呼（电话）智能语音应答智能语音应答（电话）（电话）京东智能客服智能调度智能导航智能摘要实时辅助应答智能质检智能创事件从语言理解、问答、到人机对话进展显著“对话机器人不仅需要响应用户的请求，完成任务，还需要满足用户对沟通和情感的需求，与用户建立情感联系。”“我们将成为有史以来第一代与AI共生的人类。”—“从Eliza到小冰：社交对话机器人的机遇和挑战,”沈向洋，何晓冬，李迪。中国工程院院刊FITEE“人工智能2.0：理论与应用”特刊(10.1631/FITEE.1700826)视觉智能2012年深度学习将大规模图像识别性能提升超过30%,2015年在ImageNet上精度达到人类水平！TorontoGeoffHinton‘sgroup(AlexNet)(1000类物体识别测试)MSRJianSun’sGroup(ResNet)人类物体识别错误率约5%[Krizhevsky,Sutskever,Hinton,"Imagenetclassificationwithdeepconvolutionalneuralnetworks,"NIPS2012][He,Zhang,Ren,Sun,"Deepresiduallearningforimagerecognition,"CVPR2012后，主流模型是深度神经网络2012前，大都是线性模型142016]语言+视觉多模态智能:语音,语言,视觉,知识

+贝拉克·侯赛因·奥巴马，美国民主党籍政治家，第44任美国总统，为美国历史上第一位非裔美国人（美国黑人）。语音语言知识视觉16建立多模态语义空间：跨模态表征学习视觉-语言多模态语义空间通过深度结构语义模型（DSSM）把图像和文字均表征成语义空间内的向量在此空间中进行语义相似度计算，生成最匹配图像内容的文字表述W4W3W2W1W4W3W2W1H3H2H1H3H2H1InputsInputt1Fullyconnected图像特征文字表述:一位男士手拿球拍在网球场上Convolution/poolingRawImagepixels[Fang,Gupta,Iandola,Srivastava,Deng,Dollar,Gao,He,etal.,“FromCaptionstoVisualConceptsandBack,”CVPR2015]CNN17图像描述：理解图像,用语言表达一个棒球一个棒球运动员abaseballplayerthrowingaball“一个棒球运动员在扔一个球。”一个棒球运动员在扔一个棒球运动员在扔一个球18[Fang,Gupta,Iandola,Srivastava,Deng,Dollar,Gao,He,etal.,“FromCaptionstoVisualConceptsandBack,”CVPR2015]与实体知识融合Jen-HsunHuang,XiaodongHe,JianSunetal.,thatareposingforapicture.[Guo,Zhang,Hu,He,Gao,"MS-Celeb-1M:Adatasetandbenchmarkforlarge-scalefacerecognition",ECCV2016][Tran,He,Zhang,Sun,etal.,"Richimagecaptioninginthewild,"CVPRDeepVisionWorkshop2016]19可控的语言表达控制语言生成，让AI用语言来表达浪漫或者幽默的风格-StyleNet[Gan,Gan,He,Gao,Deng,“StyleNet”,CVPR2017][Gan,Gan,He,Gao,Deng,“SemanticCompositionalNet”,CVPR2017]20视觉-语言多模态机器问答（VisualQA）Answernaturallanguagequestionsaccordingtothecontentofareferenceimage.VisualQuestionAnswering(VQA)21从图片描述到图文问答：

推理能力SpatialfeaturevectorsofdifferentToansweraquestionaboutaimage:Multiple-stepsofreasoningovertheimagetoinfertheanswerNeedtounderstandsubtlerelationshipsamongmultipleobjectsNeedtofocusonthespecificregionsthatarerelevanttotheanswer.22堆叠注意力网络

(StackedAttentionNet)SANsperformmulti-stepreasoning1.QuestionmodelSpatialfeaturevectorsofdifferentge2.Imagemodel3.Multi-levelattentionmodel4.Answerpredictor5.End-to-endlearningusingSGD[Yang,He,Gao,Deng,Smola,“StackedAttentionNetworks,”CVPR2016]跨模态表征融合与联结(Pooling&Grounding)第一层注意力…ꢀꢊspatialimagefeaturevectorsꢀꢁAttention1{ꢀꢉ}ꢂꢃꢄꢂꢃ

…MultimodalPooling(level1)ꢀꢁattentionmapꢀ

ꢋ

ꢂ

ꢀꢊꢉ

ꢉꢍ

ꢀꢊ

ꢀꢁ{ꢂꢉ}ꢌꢂꢃꢇꢈꢂꢃꢅꢆTothenextꢀꢁ

attentionlevel跨模态表征融合与联结(Pooling&Grounding)第二层注意力…ꢁꢂspatialimagefeaturevectorsꢁꢉAttention2{ꢁꢈ}ꢇꢊꢋꢇꢊ

…MultimodalꢀPooling(level2)attentionmap(ꢃꢄꢁ

ꢅ

ꢇ

ꢁꢂꢈ

ꢈ(ꢃꢄ(ꢃꢄ{ꢇꢈ}ꢀ

ꢁ

ꢀꢂꢆꢇꢊꢎꢏꢇꢊꢌꢍTotheanswerꢀ

predictorQueryvectorfromthe1stlevelattentionBottom-UpandTop-DownAttention（BUTD）注意力模型的一个新视角Inhumanvisualsystem,therearetwokindsofattentions:Top-downattention:proactivelyinitiatedbythecurrenttask(e.g.,lookforsomething)Bottom-upattention:spontaneouslyemergefromvisualsalientstimuli26Bottom-UpandTop-DownAttention（BUTD）Adoptsimilarterminologytohumans’attentionsystem:•

attentionmechanismsdrivenbynonvisualortask-speciﬁccontextas‘top-down’•

purelyvisualfeed-forwardattentionmechanismsas‘bottom-up’.OverallAttentionNetforVQA:Top-downfeatures:fromCNNBottom-upfeatures:fromF-RCNN27VQAChallenge@CVPR2017[1]Bottom-UpandTop-DownAttentionforImageCaptioningandVisualQuestionAnswering,CVPR18[2]TipsandTricksforVisualQuestionAnswering:Learningsfromthe2017Challenge,CVPR18BecauseofBottom-upAttention此后几乎所有的VQA队伍都使用了“Bottom-UpandTop-Down(BUTD)”注意力模型或其变种。28视觉-语言多模态导航结合语言理解和对环境的视觉信息建模，智能代理能按指令从一个地方走到另一个地方[Andersonetal.,CVPR2018][Wangetal.,CVPR2019]理解语言,用绘画来表达(Text-to-Image)Objectivefunction:[Reedetal.,“Generativeadversarialtext-to-imagesynthesis”,ICML2016]AttnGAN:GANwithAttentionThefinalobjectivefunction:ꢀ

ꢀꢁꢂꢃ

ꢄꢀꢅꢂꢆꢇꢆ[Xu,Zhang,Huang,Zhang,Gan,Huang,He,“AttnGAN,”CVPR2018]绘画机器人(AttnGAN):精准理解,精确绘制一只红羽毛白肚子的短咀小鸟32[Xu,Zhang,Huang,Zhang,Gan,Huang,He,“AttnGAN,”CVPR2018]更多例子thisbirdhasthisbirdhasagreencrownblackprimariesandawhitebellywingsthatareblueandhasa

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

NLP、多模态智能和机器学习 -深度学习驱动的语言-视觉跨模态语义理解与内容生成-何晓冬

文档简介

温馨提示

最新文档

评论

NLP、多模态智能和机器学习 -深度学习驱动的语言-视觉跨模态语义理解与内容生成-何晓冬

文档简介

温馨提示

最新文档

评论

相关文档