【中文译版】StableDiffusion3技术报告_第1页
【中文译版】StableDiffusion3技术报告_第2页
【中文译版】StableDiffusion3技术报告_第3页
【中文译版】StableDiffusion3技术报告_第4页
【中文译版】StableDiffusion3技术报告_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

***平等贡献。<first.last>@stability.ai。1Dickstein等人,2015年;Song和Ermon,2020年)。人,2022;Rombach等人,2022Podell等人,2023;Dai等人,2023;Esser等人,2023;Blattmann等人,2023b;Betker等人,2023;前向路径的一个特殊选择是所谓的整流流(Liuetal.,2022;Albergo定量评估(Ghoshetal.,2023)。dyt=vθ(yt,t)dt,(1)2pt(zt)=EN(0,I)pt(zt|),将zt、x0与duceψt和ut之间的关系表示为,-1我们介绍‑12Lw(x0)=-Lw(x0)=-2222它生成边缘概率路径pt(Lipmanetal.,2023)(参见B.1pt(z|)ut(z)=EN(0,I)ut(z|)pt(z)整流流整流流(RFsLiuetal.,2022;Albergo&Vanden‑Eijnden,2022;Lipmantt1-t。t1-t。LCFM=Et,pt(z|),p()||vθ(z,t)-ut(z|)||22,-1tt)=atx-1tt在在在在‑在‑在‑),我们可以将方程(9)‑),我们可以将方程(9)重写为ut(zt|)=atzt-在tλt(10)atbtLCFM=Et,pt(z|),p()||vθ(z,t)-λz+2att||2atbt=Et,pt(z|),p()-λ2-2λ-2λzt=x0+bt(14)-1s2222Cosine(Nichol&Dharizt=cosπtx0+sinπ&Gao,2023),-λt/2权重由下式给出:wt=e3对于给定的边界值β0和βT‑1,βt=β0+DDPM用途tT-1(βT-1-β0)且LDM使用βt=2tβ0+T-1(βT-1-β0)更改为密度为π(t)的分布相当于加权损失Lwπ==2121,,tπ2dtf模式(t)。dtf模式(t)。特别是,我们正在寻找映射f:u→f(u)1-f(u)=2log1-f(u)=2log1dtfdtf-1(t)=π-2πt+2πt2(t)=π-2πt+2πt2cctxt。4缩放整流流量变压器以实现高分辨率图像合成y+y++y注意力V(a)所有组成部分的概述。(b)一个MM‑DiT块5rf/cosmapedm(0.00,edm/rfedm(‑1.20,5步50步3.502.718.502.753.252.831.502.884.253.332.754.132.00 3.002.502.752.754.003.255.757.759.00 edm(‑1.20,1.20)eps/线性v/cosv/线性0.2470.2360.2470.2360.2450.2440.24649.700.21794.9063.120.200116.6048.420.22290.3450.740.20997.8751.680.217100.76射频/对数范数(0.50,0.60)0.25680.410.233120.84射频/模式(1.75)0.25344.390.21894.06射频/对数范数(1.00,0.60)0.254114.260.234147.6945.640.21945.780.22489.9145.640.21945.780.22489.91(-1.2,1.2)续修改时间步采样的公式比LDM‑Linear(Rombachetal.,2022)公式(Rom‑bachetal.,2022)或EDM(Karrasetal.,2022),甚至可以与6SSIM(↑)峰值信噪比(↑)0.850.680.450.750.790.8625.1226.4028.62我们之前描述了如何改进所有这些组件扩展第5.3节中的最终方法。5.2.1.改进的自动编码器在预训练自动编码器的潜在空间中(Rombach这低维空间x=E(X)∈R5.2.2.改进的字幕贝特克等人。(2023)证明综合生成的字幕可以极大地改进文本到图像的模型68.0918:0041.5693.7552.5311.7571.54人类生成的字幕的性质50%原始字幕和50%合成字幕。优于仅使用原始字幕的模型。5.2.3.改进的文本到图像的骨架而不是按序列串联(Chenetal.,2023))78图5.QK归一化的效果。在计算注意力矩阵之前中已有报道(Dehghani等人,2023年;Wortsman等人,2023年)。与之意力逻辑和注意力熵在2B(d=24)模型的最后5个块上的平均值。仅观察到很小的增益(以增加参数数量和VRAM使用为代价因此在这项工作的其余部分中选择前一个选项。5.3.2.高分辨率微调5.3.1.数据预处理预计算图像和文本嵌入我们的模型使用多个预训练的冻结网络的输9222hmax-s2hmax-s2nnnt1-t):nn米米缩放整流流量变压器以实现高分辨率图像合成5.3.3.结果训练具有不同参数数量的模型500k包括图像预训练中的FLOP。0.660.490.550.980.740.370.760.800.850.770.850.800.810.830.670.730.740.830.890.020.040.080.070.100.150.100.130.430.340.330.400.340.33相对CLIP分数下降[%]5/50步10/50步20/505/50步191.13187.96185.960.210.24191.13187.96185.960.210.240.080.860.700.14深度=15深度=30深度=38达到他们的巅峰表现。灵活的文本编码器虽然主要动机缩放整流流量变压器以实现高分辨率图像合成所有文本编码器不含T5(Raffel等人,2019)out.ideogram.ai/1.0。v2‑5/。/blog/products/ai‑machine‑learning/bfloat16‑云上高om/criteo/autofaiss.2018年。URL/CorpusID:49310446。打开。com/papers/dall‑e‑3。pdf,2(3),2023。型数据集。arXiv预印本arXiv:2311.15127,2023a。Gordon,C.、Schuhmann,C.、Schmidt,L.和Jitsev,J.对比的可重放定律语言图像学习。2023年IEEE/CVF计算机视觉和模式识别会议CVPR52729.2023.00276。Gilmer,J.、Steiner,A.、Caron,M.、Geirhos,R.、Alabdulmohsin,I.,arXiv预印本arXiv:2112.07068,2021。成的综合基准。arXiv预印本arXiv:2307.06350,2023。https://books.google.de/books?id=Vg8OAAAAQAAJ。Fischer,JS,Gui,M.,Ma,P.,Stracke,N.,Baumann,SA,和Ommer,B.通过流量匹配促进潜在扩散。arXiv预印本arXiv:2312.07360,2023。心的框架。arXiv预印本arXiv:2310.11513,2023。10.18653/v1/2021.emnlp‑main.595。Ho,J.和Salimans,T.无分类器扩散指导,CorpusID:1152227。Radford,A.、Wu,J.和Amodei,D.缩放比例神经语言模型定律,2CorpusID:249240415。型的训练动态。arXiv预印本arXiv:2312.02696,2023。N.删除重复训练数据使语言模型变得更好。arXiv预印本arXiv:2107.06499,2021。10.1007/978‑3‑319‑10602‑148.网址http://dx.d/10.1007/978‑3‑319‑10602‑148.id=PqvMRDCJT9t。Dekel,T.、Holynski,A.、Kanazawa,A.等。视觉计算扩散模型的最新技术。arXiv预印本arXiv:2310.07204,2023。J.、Penna,J.和Rombach,R.Sdxl:改进高URL/CorpusID:3312944。Lu,C.,Zhou,Y.,Bao,F.,Chen,J.,Li,C.,andZhu,J.Dpm‑solver++:用于扩散概率模Nichol,A.Dall‑e2预训练缓解措施。/research/dall‑e‑2‑pre‑training‑mitigations,2022年。网址/novelai‑improvements‑on‑stable‑diffusion‑e110.1109/cvpr52688.2022.01042。网址/10.1109/CVPR52688.2022.01042。0d38db82ac。Peebles,W.和Xie,S.带变压器的可扩展扩散模型。2023年IEEE/CVF计算机视觉国际/10.1109/ICCV51070.2023.00387。网址/10.1007/978‑3‑319‑24574‑428。30547。api.semant/CorpusID:227209335。Bengio,Y.改进和推广基于流的生成模型小批量最Villani,C.最佳交通:新旧。2008。网址https://https://api.semanticscho/CorpusID:5560643。Sauer,A.、Lorenz,D.、Blattmann,A.和Rombach,R.对抗扩散蒸馏。arXiv:2311.17042,2023。Parikh,D.和Taigman,Y.Emu编辑:通过识别和生成进行精确图像编辑任务。arXiv预印本arXiv:2311.10089,2023。Gafni,O.,Parikh,D.、Gupta,S.和Taigman,Y.制作视频:无需文本视频数据的文Sohl‑Dickstein,JN、Weiss,EA、Maheswaranathan,N.和Ganguli,S.使https://api.semanticscholar。org/CorpusID:14888175。Somepalli,G.、Singla,V.、Goldblum,MSomepalli,G.、Singla,V.、Goldblum,M.、Geipin模型中的复制。arXiv预印本arXiv:2305.20086,2023b。觉专家。arXiv预印本arXiv:2311.03079,2023。和Kornblith,S.大规模变压器训练不稳定性的小规模代理,2023年。Yu,J.,Xu,Y.,Koh,JY,Luong,T.,Baid,G.,Wang,Z.,Vasudevan,V.,Ku,A.,Yang,Y.,Ayan,BK,等人。缩放自回归模型以生成内容丰富的文本Song,Y.和Ermon,S.通过估计进行生成建模2020年数据分布梯度。晚上在木桌上用寿司制成的一个可爱城市的倾斜移位航空照片。B.1.有关流程的无模拟训练的详细信息ddtpt(x)+∇·[pt(x)vt(x-∇[ut(z)pt(z)]=-∇[ut(z)pt(z)]=-∇[EN(0,I)ut(z|)pt(z)]pt(z)=EN(0,I)-∇·[ut(z|)pt(zd=EN(0,I)dtpt(z|)=dtpt(z),LFM(θ)=Et,pt(z)||vθ(z,t)-ut(z)||22=Et,pt(z)||vθ(z,t)||22-2Et,pt(z)vθ(z,t)|ut(z)+c=Et,pt(z)||vθ(z,t)||22-2Et,pt(z|),p()vθ(z,t)|ut(z|)+c=Et,pt(z|),p()||vθ(z,t)-ut(z|)||22+c=LCFM(θ)+c(26)(27)(28)(29)(30)(31)(32)(33)等式(36)。Ept(z|),p()vθ(z,t)|ut(z|)=dzdpt(z|)p()vθ(z,t)|ut(z|)pt(z|)=dzpt(z)vθ(z,t)|dp()ut(z|)pt(z)=dzpt(z)vθ(z,t)|ut(z)=Ept(z)vθ(z,t)|乌特(z)(34)(35)(36)B.2.有关图像和文本表示的详细信息潜在图像表示我们遵循LDM(Rombachetal.,2022)并使用预训练的自动编码器来表示RGB图像X∈R。我们使用空间下采样因子8,使得h=和w=,并在第5.2.1节中使用不同的d值20T5T5缩放整流流量变压器以实现高分辨率图像合成22

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论