2026年AI绘画技术专业培训冲刺试卷及答案_第1页
2026年AI绘画技术专业培训冲刺试卷及答案_第2页
2026年AI绘画技术专业培训冲刺试卷及答案_第3页
2026年AI绘画技术专业培训冲刺试卷及答案_第4页
2026年AI绘画技术专业培训冲刺试卷及答案_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年AI绘画技术专业培训冲刺试卷及答案一、单项选择题(本大题共20小题,每小题2分,共40分。在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填在题后的括号内。)1.2025-2026年度主流AI绘画模型架构已从传统的U-Net向Transformer架构深度迁移,StableDiffusion3和Flux模型的核心架构被称作()。A.ConvolutionalNeuralNetworks(CNN)B.GenerativeAdversarialNetworks(GAN)C.DiffusionTransformers(DiT)D.VariationalAutoencoders(VAE)2.在StableDiffusionXL(SDXL)及后续版本中,为了实现更好的文本语义理解,模型采用了双文本编码器架构。这两个编码器通常是()。A.BERT-large和RoBERTaB.CLIPViT-L/14和OpenCLIPViT-bigG/14C.T5-XXL和GPT-4D.CLIPViT-B/32和T5-Base3.在AI绘画的采样器选择中,"DPM++2MKarras"相比于"Eulera"其主要优势在于()。A.生成速度最快B.显存占用最低C.在较少步数下收敛性更好,细节更丰富D.能够生成超高清分辨率4.ControlNet是目前控制画面构图的关键技术,其中用于控制人物姿势和动作的预处理器模型是()。A.CannyB.DepthC.OpenPoseD.MLSD5.关于LoRA(Low-RankAdaptation)模型在AI绘画中的作用,下列说法错误的是()。A.LoRA通过低秩分解来模拟大模型的权重变化B.LoRA文件体积通常远小于全量微调的CheckPointC.一个LoRA模型只能用于画风控制,不能用于特定角色训练D.LoRA可以通过调整权重系数来控制对生成画面的影响程度6.在StableDiffusionWebUI中,"Hires.Fix"(高清修复)功能的主要原理是()。A.直接在潜空间中放大图像B.先生成低分辨率图像,再通过重采样和额外去噪步骤放大C.使用ESRGAN算法进行简单的后处理放大D.调整VAE的参数以输出更高分辨率的潜向量7.提示词工程中,使用语法(word:1.5)表示()。A.将"word"的权重降低到1.5B.将"word"的权重增加到1.5C.在生成过程的第1.5步开始应用该词D.在生成过程的第1.5步结束应用该词8.潜空间扩散模型(LDM)相比于像素空间扩散模型,其核心优势在于()。A.生成的图像色彩更鲜艳B.计算效率大幅提升,降低了计算资源需求C.完全不需要文本编码器D.能够生成视频9.在训练StableDiffusionLoRA时,"RepeatedToken"(重复标记)的主要作用是()。A.增加训练集的图片数量B.增强模型对特定实例(如角色名)的关联强度C.减少显存占用D.防止模型过拟合10.下列哪种文件格式是StableDiffusion系列模型通用的、包含完整网络权重的格式?()A..pngB..ptC..safetensorsD..json11.在使用IP-Adapter进行图像提示时,其核心机制是()。A.将参考图像编码为文本向量输入B.将参考图像的CLIP视觉特征注入到Cross-Attention层C.直接将参考图像作为噪声输入D.使用GAN的判别器进行特征匹配12.关于CFGScale(Classifier-FreeGuidanceScale),下列说法正确的是()。A.CFG值越高,画面越接近提示词描述,但过高可能导致画面“烧焦”或色彩崩坏B.CFG值越低,生成速度越快C.CFG值只影响画面风格,不影响内容D.CFG值通常设置为0以获得最佳效果13.StableDiffusion3引入了一种新的流匹配(RectifiedFlow)技术,其数学目标是()。A.最大化数据的似然概率B.寻找从高斯噪声分布到数据分布的最优直线路径(ODE轨迹)C.最小化生成图像与真实图像的MSE损失D.对抗训练生成器和判别器14.在ComfyUI中,"KSampler"节点不包含以下哪个参数?()A.SeedB.DenoiseC.ModelD.ImageResolution15.下列哪种情况最适合使用"Img2Img"功能而非"Txt2Img"?()A.从零开始创作一幅赛博朋克风格的街道B.将一张线稿草图上色并完善细节C.批量生成不同姿态的同一角色D.训练一个新的画风模型16.AnimateDiff是用于生成动态效果的技术,它主要处理的是()。A.3D网格动画B.潜空间中的运动帧插值C.视频文件的压缩编码D.音频与图像的同步17.在AI绘画的数学原理中,去噪过程通常遵循的马尔可夫链过程,其公式q(A.从噪声预测原始图像的过程B.从添加噪声生成的前向过程C.文本条件c对图像x的约束D.模型的反向去噪预测18.为了解决显存不足的问题,WebUI中常用的优化手段是()。A.增加BatchSizeB.启用--xformers或--flash-attention参数C.提高CFGScaleD.使用Hires.Fix19.下列关于"NegativePrompt"(反向提示词)的描述,不准确的是()。A.用于告诉模型不希望出现的内容B.常用词汇包括"lowquality,blurry,badanatomy"C.在SD3等新架构中,反向提示词的机制与传统模型完全一致且必不可少D.本质上是在引导采样过程中远离特定的语义空间20.在商业应用中,使用开源模型(如SDXL)生成图像的版权归属一般遵循()。A.图像版权归属于模型开发者B.图像版权归属于软件平台(如WebUI)C.在多数司法管辖区,若无其他法律限制,AI生成图像通常归属于使用者或属于公共领域D.AI生成的图像不受任何版权保护二、多项选择题(本大题共10小题,每小题3分,共30分。在每小题列出的五个备选项中有两个或两个以上是符合题目要求的,请将其代码填在题后的括号内。多选、少选、错选均不得分。)1.2026年主流AI绘画工作流中,常用的局部重绘工具有哪些?()A.InpaintB.OutpaintC.InpaintSketchD.UpscaleE.Crop2.下列哪些属于基于扩散模型的AI绘画技术的核心组件?()A.VAE(VariationalAutoencoder)B.U-Net或DiT(作为去噪核心)C.TextEncoder(如CLIP,T5)D.discriminator(判别器)E.Generator(生成器)3.在StableDiffusion模型训练或微调中,常见的正则化手段包括?()A.使用AdamW优化器B.引入"PriorLoss"保持原有能力C.设置合适的LearningRateD.使用DropoutE.增加无限多的训练数据4.下列哪些采样器属于"Karras"系列推荐,适合快速出图?()A.DPM++2MKarrasB.DPM++SDEKarrasC.EuleraD.LMSE.DDIM5.ControlNet的Shuffle模型通常用于?()A.控制画面风格迁移B.保持画面内容的细节结构C.打乱图像细节以提取风格特征D.精确控制人物边缘E.增加画面的随机噪点6.下列关于"Latent"(潜变量)的描述,正确的有?()A.是图像在压缩特征空间中的表示B.潜空间的维度通常远小于原图像像素维度C.VAE负责将图像压缩到潜空间D.扩散过程发生在潜空间而非像素空间E.潜变量可以直接被人眼识别为图像7.为了改善生成人物的手部和面部细节,可以采取哪些措施?()A.使用ADetailer或类似插件进行自动重绘B.增加SamplingStepsC.在提示词中加入"masterpiece,bestquality"D.使用ControlNetDepth或OpenPose约束结构E.彻底移除VAE8.下列哪些是ComfyUI相比WebUI的优势?()A.节点式工作流,逻辑清晰B.内存管理更高效,适合复杂任务C.界面更美观,适合初学者D.支持更复杂的中间处理逻辑E.无法使用LoRA9.在提示词语法中,可以使用哪些符号进行权重调整?()A.()B.[]C.{}D.<>E./E./10.下列哪些技术属于"NeuralStyleTransfer"(神经风格迁移)在AI绘画中的延伸或替代?()A.IP-AdapterB.Reference(Only)C.StyleLoRAD.ControlNetCannyE.SimpleUpscale三、判断题(本大题共10小题,每小题1分,共10分。请判断下列说法的正误,正确的打“√”,错误的打“×”。)1.StableDiffusion1.5模型是专门为生成4K分辨率图像设计的,因此不需要放大算法。()2.Seed(种子数)为-1时,每次点击生成都会产生完全不同的随机图像。()3.VAE(变分自编码器)在推理阶段是可选的,如果没有加载VAE,StableDiffusion依然可以生成图像,但图像可能会变糊(偏灰/偏绿)。()4.CLIP模型的作用仅仅是生成图像,不涉及文本处理。()5.在训练LoRA时,分辨率必须设置为512x512,否则无法训练。()6.DPM++2MKarras采样器通常比Eulera采样器更稳定,且不容易产生“闪烁”感。()7.使用"Refiner"(细化器)模型时,通常在生成过程的最后阶段(如步数的后20%)切换模型以提升细节。()8.所有的LoRA模型都可以在任何版本的StableDiffusion主模型上混用。()9.提示词的顺序对生成结果没有影响,因为模型采用注意力机制并行处理。()10.AI绘画模型中的"BatchSize"(批大小)指的是一次生成多少张图像,增加它可以提高GPU利用率,但会增加显存消耗。()四、填空题(本大题共10小题,每小题2分,共20分。请将答案写在题中的横线上。)1.扩散模型的前向过程是不断向数据中添加________,而反向过程则是预测并去除________。2.StableDiffusion模型默认的训练数据分辨率通常是512x512,而SDXL模型则提升到了________和________。3.在ComfyUI中,连接不同节点的线条颜色通常代表________的类型,例如粉色代表图像,蓝色代表模型。4.写出标准的CLIP文本最大Token限制:SD1.5为75,SDXL为________。5.若要计算去噪过程中的预测噪声,模型输入通常包括:当前时刻的潜变量、时间步t和________向量。6.在数学公式中,SD模型的去噪过程可以表示为(|)=7.为了在生成图像中保留特定的边缘线条,我们通常使用ControlNet的________预处理器。8.常见的模型权重文件格式.safetensors相比.pt格式,其最大的安全优势是________。9.在提示词中,使用BREAK语法的作用是________。10.2026年前沿的AI模型训练中,________流匹配技术正在逐步取代传统的DDPM加噪调度。五、简答题(本大题共4小题,每小题10分,共40分。)1.请简述StableDiffusion(潜在扩散模型)的工作原理,并解释为何要在“潜空间”而非“像素空间”进行扩散操作。2.请详细说明ControlNet的工作机制,特别是“零卷积”(ZeroConvolution)层的作用。3.在训练角色LoRA时,如果发现生成的角色脸部特征相似但总是无法还原特定的发型或服饰,可能的原因有哪些?请给出至少三种优化策略。4.请解释Classifier-FreeGuidance(CFG)的数学原理及其在图像生成中的直观效果。六、综合应用题(本大题共2小题,每小题30分,共60分。)1.场景分析与工作流设计:某游戏公司需要制作一批宣传图,要求如下:(1)画面主体必须保持为该公司设计的原创角色“Alice”(已有LoRA模型:alice_v1.safetensors)。(2)画面背景需要根据不同的游戏场景(森林、沙漠、城堡)进行切换,且背景风格必须统一为“暗黑幻想风格”(已有StyleLoRA:dark_fantasy.safetensors)。(3)角色的姿态需要严格匹配原画师提供的草图(已有草图文件:pose_sketch.png)。(4)最终输出分辨率需为1024x1536(竖屏)。请基于StableDiffusionWebUI或ComfyUI,设计一套完整的工作流方案。要求:列出所需的关键模型(Checkpoint,LoRA,VAE等)。详细描述参数设置(采样器、步数、CFG、LoRA权重等)。说明如何利用ControlNet实现姿态控制。解释如何处理分辨率与训练分辨率不匹配可能带来的构图崩坏问题。2.原理分析与计算:在扩散模型的去噪过程中,假设我们使用DDPM采样器。(1)请写出加噪前向扩散过程的方差调度的定义域,以及的递推公式。(2)解释在推理阶段,如何从预测,并进而推导出。(3)假设总步数T=1000,当前步t=500,若模型预测的噪声为(,t)(4)分析为何在采样步数较少(如20步)时,DDIM采样器比DDPM采样器更受青睐?参考答案及解析一、单项选择题1.C。解析:2025-2026年主流模型如SD3和Flux均采用了DiffusionTransformers(DiT)架构,替代了传统的基于CNN的U-Net架构,以获得更好的语义理解和生成质量。2.B。解析:SDXL采用了OpenAI的CLIPViT-L/14和LAION的OpenCLIPViT-bigG/14作为双文本编码器,以增强文本理解能力。3.C。解析:DPM++2MKarras是一种高级采样器,基于Karras提出的噪声调度表,相比Eulera,它在较少的步数下能更快收敛到高质量图像,且细节更丰富。4.C。解析:OpenPose专门用于提取和控制人物的身体骨架及姿态。5.C。解析:LoRA极其灵活,既可以用于画风训练,也可以用于特定角色、概念甚至物体的训练。6.B。解析:Hires.Fix的原理是先在低分辨率生成图像,然后通过LatentUpscale放大,再进行一定的去噪步骤以补充细节。7.B。解析:语法`(word:1.5)`表示增加该词的权重,使模型更关注该词。8.B。解析:LDM将图像压缩到低维的潜空间进行扩散操作,大幅降低了计算复杂度,是SD能在消费级显卡上运行的关键。9.B。解析:RepeatedToken用于增强实例词(如触发词)与图像特征的关联,防止模型遗忘或关联不强。10.C。解析:.safetensors是目前最安全、最通用的格式,.pt是PyTorch旧格式,存在安全风险。11.B。解析:IP-Adapter将参考图像的视觉特征注入到Cross-Attention层,实现图像提示功能。12.A。解析:CFGScale越高,对提示词的依从度越高,但过高会引入伪影,导致画面过饱和或“烧焦”。13.B。解析:RectifiedFlow(流匹配)旨在寻找从噪声到数据分布的直线或更简单的ODE轨迹,比传统扩散模型的曲线路径更高效。14.D。解析:KSampler负责采样过程,包含Seed,Denoise,Model,Sampler_name等,但不直接包含ImageResolution(分辨率通常在EmptyLatentImage或VAEDecode节点设定)。15.B。解析:Img2Img适合基于已有图像进行修改或完善,如给线稿上色。16.B。解析:AnimateDiff在潜空间中对帧间运动进行建模,生成视频。17.B。解析:q(18.B。解析:xformers或flash-attention是通过优化注意力机制计算来大幅降低显存占用和提升速度的关键技术。19.C。解析:SD3等新架构引入了新的注意力机制(如线性注意力或双流机制),对反向提示词的处理方式发生变化,甚至某些变体中反向提示词的作用机制与传统模型不完全一致,不再像旧版那样是绝对必须的。20.C。解析:目前主流观点认为,AI生成图像在无具体法律禁止的情况下,通常归属于使用者或无版权(公共领域),而非模型开发者。二、多项选择题1.ABC。解析:Inpaint(局部重绘)、Outpaint(外绘重绘)、InpaintSketch(局部重绘涂鸦)都是局部修改工具。2.ABC。解析:扩散模型核心包括VAE、去噪网络(U-Net/DiT)、TextEncoder。GAN和Discriminator不是扩散模型的核心组件。3.ABCD。解析:优化器、PriorLoss、学习率、Dropout都是常见的正则化或优化手段。4.AB。解析:DPM++2MKarras和DPM++SDEKarras属于Karras系列推荐。5.AC。解析:Shuffle模型用于风格迁移,打乱细节以提取风格。6.ABCD。解析:潜变量是压缩特征,维度低,VAE负责编解码,扩散在潜空间进行。潜变量不能直接被人眼看见。7.ABCD。解析:ADetailer、增加步数、高质量提示词、ControlNet结构约束均可改善细节。8.ABD。解析:ComfyUI优势在于节点式、高效内存管理、复杂逻辑支持。界面对于初学者不如WebUI直观,且完全支持LoRA。9.AB。解析:SDWebUI主要使用()进行权重调整,[]用于步数控制。10.ABC。解析:IP-Adapter、Reference、StyleLoRA都涉及风格迁移或保持。三、判断题1.×。SD1.5最佳生成分辨率在512x512左右,4K需要配合放大算法。2.√。Seed为-1即为随机。3.√。VAE负责解码潜变量为像素,缺失会导致图像模糊(噪点)。4.×。CLIP是文本-图像对比模型,负责处理文本。5.×。LoRA训练分辨率可以自定义,不限于512,但最好与生成分辨率匹配。6.√。DPM++系列更稳定。7.√。Refiner通常在最后阶段切换以优化细节。8.×。LoRA通常基于特定基础模型训练,跨版本混用可能导致效果不佳或报错。9.×。虽然注意力机制很强,但在某些模型(尤其是非DiT的旧版)中,Token顺序和权重依然有影响。10.√。BatchSize增加显存占用。四、填空题1.高斯噪声;高斯噪声2.1024x10243.数据4.77(注:SDXL的ClipG限制通常也是77,但双编码器下T5限制更大,此处填77或提及双编码器差异均可,通常单题填77)5.条件/文本6.均值7.Canny(或Lineart/Scribble,Canny最标准)8.防止恶意代码执行9.切分提示词/改变注意力作用域10.RectifiedFlow五、简答题1.答:StableDiffusion的工作原理分为三个主要部分:(1)VAE(变分自编码器):将像素空间的图像压缩到低维的“潜空间”,并在生成后将潜变量解码回像素空间。(2)U-Net/DiT(去噪网络):核心组件,负责预测潜空间中的噪声。它接收带有噪声的潜变量和时间步信息,逐步预测并去除噪声。(3)TextEncoder(文本编码器,如CLIP):将用户输入的提示词转化为向量,作为条件引导去噪过程。在潜空间操作的原因:像素空间的数据量极大(例如512×512×3通道),直接在像素空间进行扩散去噪计算量是巨大的,难以在消费级硬件上实现。通过VAE压缩到潜空间(例如2.答:ControlNet的工作机制是通过“锁住”预训练模型的原始权重,并复制一份可训练的副本连接到原始模型的每个部分(通常是U-Net的Encoder和MiddleBlock)。零卷积的作用:在训练初期,ControlNet的副本层中的卷积层被初始化为全零(即权重为0,偏置为0)。(1)保证初始一致性:在训练开始时,零卷积层的输出为0,这意味着ControlNet的额外输入(如边缘图)对原始模型的输出没有任何影响。此时的输出与不加ControlNet完全一致。(2)安全训练:这确保了无论输入什么样的控制条件,模型都不会在训练初期产生剧烈的破坏性波动,保护了原始模型的生成能力,使得网络可以安全地学习控制条件与图像之间的映射关系。3.答:原因及优化策略:(1)原因:训练数据不足或数据多样性不够;模型过拟合于面部特征而忽略了发型/服饰细节;触发词权重设置不当;正则化图片干扰。(2)优化策略:增加特定特征的数据:在训练集中增加包含该发型和服饰的特写图片,并在Tag中加强描述。调整Loss权重:使用如LyCORIS或更高Rank的LoRA,或者在训练脚本中增加对特定区域的Loss权重。调整InstancePrompt:使用更精确的提示词,并在生成时提高该词的权重。使用Masked训练:如果训练工具支持,使用Mask仅对发型或服饰区域进行重点训练。调整网络维度:增大LoRA的Dim(如从128调至256),增加模型的信息承载量。4.答:数学原理:Classifier-FreeGuidance结合了“无条件生成”和“有条件生成”的预测结果。设(,最终的预测噪声ϵ^ϵ其中w即为CFGScale(引导系数),是给定提示词时的预测,是空提示词(或反向提示词)时的预测。直观效果:该公式本质上是在向“有条件”的方向上推动去噪过程。当w=当w>直观上,提高CFG会让画面更清晰、内容更符合要求,但过高会导致画面失真、色彩过饱和或出现伪影(因为强行推离了自然图像流形)。六、综合应用题1.答:工作流方案:(1)基础模型:选择一个高质量的SDXL或SD1.5动漫/写实类CheckPoint(如anythingV5或realisticVision),需与LoRA训练时的底模兼容。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论