版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年AI计算机视觉专项训练试卷附答案一、单选题(每题2分,共20分)1.在YOLOv8中,若将输入图像从640×640放大到1280×1280,anchorfree检测头的感受野理论上会A.缩小为原来1/2B.保持不变C.扩大为原来2倍D.与特征金字塔层数成反比变化答案:B解析:YOLOv8采用anchorfree机制,依赖FPN+PAN结构,感受野由网络深度决定,与输入分辨率无关。分辨率增大仅提高空间采样密度,不改变理论感受野。2.使用VisionTransformer做目标检测时,若将patchsize从16×16改为8×8,模型参数量约A.增加4倍B.增加2倍C.减少2倍D.几乎不变答案:A解析:patch数量与面积成反比,8×8时patch数为16×16的4倍;Transformer编码器序列长度增加4倍,QKV投影矩阵参数量线性增长,故总参数量≈4倍。3.在自监督对比学习MoCov3中,若队列长度从65536减至4096,最可能出现的现象是A.训练速度线性下降B.负样本多样性降低导致精度下降C.梯度爆炸D.键编码器更新过快答案:B解析:MoCo依赖大队列维护大量负样本,队列缩短直接减少负样本多样性,对比学习目标变简单,表征质量下降。4.将RGB图像输入ConvNeXt前,若采用“通道顺序随机扰动”数据增强,对下列哪项指标影响最大A.ImageNetTop1精度B.模型推理延迟C.参数量D.FLOPs答案:A解析:通道扰动破坏颜色统计一致性,ImageNet预训练权重基于RGB顺序学习,顺序打乱后分布偏移,Top1精度显著下降;其余指标与数据无关。5.在CenterNet中,若高斯核σ固定为2.5,而输出步长从4变为8,同一目标中心heatmap峰值会A.降低为原来1/2B.不变C.降低为原来1/4D.消失答案:C解析:输出步长增大2倍,同一物理尺寸在特征图上缩小2倍,高斯核覆盖像素数减少为1/4,峰值按面积比例衰减。6.使用TensorRT8.6对YOLOv7进行INT8量化时,若校准集只含白天场景,夜晚场景mAP从0.42降至0.19,最主要原因是A.量化粒度不足B.校准集分布偏移C.激活函数非线性过强D.BatchNorm折叠错误答案:B解析:INT8缩放因子由校准集统计决定,夜晚亮度低、噪声高,激活分布与白天差异大,量化误差增大,导致mAP暴跌。7.在DINOv2中移除“局部自蒸馏”分支后,下列哪项能力几乎不受影响A.密集预测任务性能B.图像检索Recall@1C.线性probe精度D.小样本分类答案:B解析:局部自蒸馏主要提升空间密集特征,检索任务依赖全局特征,Recall@1对局部分支不敏感。8.将SwinTransformer的windowsize从7×7改为14×14,显存占用约A.增加4倍B.增加2倍C.减少2倍D.不变答案:A解析:windowattention计算复杂度与window面积成平方关系,14×14是7×7的4倍,显存占用线性增长。9.在MMSegmentation框架中,使用DeepLabV3+训练Cityscapes,若cropsize从512×512改为1024×1024,单卡batchsize=2可训练,但改为batchsize=8必现OOM,最合理策略是A.启用gradientcheckpointB.将backbone换成MobileNetV3C.降低学习率D.冻结BN层答案:A解析:crop增大4倍显存占用平方级增长,gradientcheckpoint以时间换空间,可缓解OOM;换backbone需重训,降低lr与冻结BN不解决显存瓶颈。10.在MMDetection3中,使用FasterRCNN+R50,若将FPNtop层通道从256改为128,检测小目标AP_s最可能A.提升1.5B.下降0.8C.提升0.3D.几乎不变答案:B解析:top层通道减半,特征表达能力下降,小目标依赖高分辨率弱语义特征,AP_s下降约0.8。二、多选题(每题3分,共15分)11.下列哪些操作可缓解ViT在少量数据上过拟合A.随机深度(StochasticDepth)B.MixupC.增加patchsizeD.LayerScale答案:A、B、D解析:随机深度与LayerScale为正则化技术;Mixup扩充数据分布;增大patchsize减少序列长度,降低容量,反而可能欠拟合。12.关于ConvNeXt与SwinT在ImageNet1K训练,下列说法正确的是A.ConvNeXt使用更少的归纳偏置B.SwinT的shiftedwindow可跨窗口交互C.ConvNeXt的invertedbottleneck降低内存访问成本D.二者在224×224输入下FLOPs接近答案:B、C、D解析:ConvNeXt仍基于卷积,归纳偏置强于Swin;shiftedwindow实现跨窗交互;invertedbottleneck减少激活内存;官方配置二者FLOPs约4.5G。13.在目标检测中,使用DIoU损失相较GIoU可带来A.收敛速度提升B.对旋转目标更鲁棒C.中心点距离惩罚D.减少框回归震荡答案:A、C、D解析:DIoU显式加入中心点距离,加速收敛、抑制震荡;旋转鲁棒需CIoU或PIoU。14.关于SelfSupervisedLearning中的maskimagemodeling,下列哪些方法使用encoderdecoder结构A.BEiTB.MAEC.SimMIMD.MaskFeat答案:B、C解析:MAE与SimMIM采用非对称encoderdecoder;BEiT用离散tokenizer无需decoder;MaskFeat用HOG目标无需decoder。15.在TensorRT部署YOLOX时,下列哪些层可能导致INT8量化误差显著增大A.SiLU激活B.1×1卷积后接concatC.DCNv2D.输出层1×1卷积答案:A、C、D解析:SiLU在负半轴平滑,量化区间难估计;DCNv2为动态卷积,权重不固定;输出层靠近loss,梯度敏感,均易放大误差;concat本身无参数,误差来源为输入分布差异。三、判断题(每题1分,共10分)16.DeiT使用知识蒸馏,教师模型为RegNetY16GF。答案:√解析:DeiT原文采用RegNetY16GF作为教师,提供软标签。17.在MMRotate中,将旋转框表示为五点法比八参数法更易于学习。答案:×解析:五点法存在边界不连续问题,八参数法(中心+宽高+角度)更稳定。18.ConvNeXt完全去掉BatchNorm,改用LayerNorm。答案:√解析:ConvNeXt追随Transformer,使用LayerNorm替代BN。19.DETR中objectqueries数量越多,训练收敛所需epoch越少。答案:×解析:queries过多增加二分图匹配难度,收敛变慢。20.使用CutMix时,若混合区域面积比例λ=0.5,则图像级标签变为onehot与mix的硬标签。答案:√解析:CutMix按像素面积比例分配标签,λ=0.5即0.5×onehot_A+0.5×onehot_B。21.SwinTransformer的relativepositionbias表大小与windowsize平方成正比。答案:√解析:bias表尺寸为(2w1)×(2w1),与w²成正比。22.在CenterNet训练阶段,若heatmap生成使用高斯半径r=0,则网络无法学习。答案:×解析:r=0退化为单像素峰值,仍可学习,但收敛慢、精度低。23.YOLOv5的anchor设置通过kmeans在COCO上聚类得到,类别不平衡会导致长宽比偏移。答案:√解析:kmeans受样本数量影响,小目标过多会拉低平均IoU,anchor偏向小框。24.使用RandAugment时,若Magnitude=10,则所有变换幅度固定为最大值。答案:×解析:Magnitude为上限,具体幅度在[0,M]均匀采样。25.DINOv2的L2标准化仅应用于学生网络输出。答案:×解析:教师与学生输出均做L2标准化,保证余弦相似度计算稳定。四、填空题(每空2分,共20分)26.在DeformableDETR中,若编码器层数为6,每层采样点数为K=4,则单头注意力计算时,偏移量预测分支输出通道数为________。答案:2×4=8解析:每个采样点预测二维偏移,4个点共8通道。27.使用MMDetection3训练MaskRCNN,若roi_head中mask_head的num_convs由4改为8,且保持输入通道256不变,则mask_head参数量增加________。答案:(84)×(256×3×3×256)=4×589824=2359296解析:每层conv参数=256×3×3×256=589824,增加4层。28.在ConvNeXtBase中,depthwiseconv的groups参数等于________。答案:输入通道数解析:depthwiseconv的groups=in_channels。29.若将SwinL的droppathrate线性增加至0.5,则第18层(共24层)的droppathrate为________。答案:0.5×18/23≈0.391解析:线性增长rate=l/L×max_rate,L=23(从0起计)。30.在BYOL中,预测器输出投影维度为________。答案:与投影器输出维度相同解析:BYOL预测器需匹配投影器输出维度,才能计算MSE。31.使用TensorRTINT8量化EfficientNetB0,若某层激活动态范围统计值为[3.2,6.8],则scale=________。答案:max(abs(3.2),abs(6.8))/127=6.8/127≈0.0535解析:对称量化scale=max(abs(min),abs(max))/127。32.在YOLOv7的ELAN模块中,若base_channels=40,且growth_rate=2,则最终concat后的输出通道为________。答案:40×2+40×2×2=80+160=240解析:ELAN分支两倍通道再两倍,concat后相加。33.若ViTB/16在ImageNet1K上训练,patchsize=16,则序列长度为________。答案:(224/16)²+1=14²+1=197解析:加clstoken。34.在Mask2Former中,若decoder层数为9,queries=100,则单次前向的mask预测张量形状为________。答案:(B,100,H/4,W/4)解析:Mask2Former输出原图1/4分辨率mask。35.使用MMSegmentation的UperNet,若backbone输出4级特征,通道分别为[64,128,320,512],则PPM(pyramidpoolingmodule)拼接后通道为________。答案:64+128+320+512+4×512=1024+2048=3072解析:PPM每级池化后升维至512,共4级,再加原特征。五、简答题(每题8分,共24分)36.描述DeiT与ViT在训练策略上的三点关键差异,并解释为何DeiT能在ImageNet1K上达到与ViTL相近的精度。答案与解析:1)蒸馏token:DeiT引入distillationtoken,与clstoken并行,通过hard蒸馏吸收CNN教师归纳偏置,弥补数据不足。2)数据增强:DeiT使用RandAugment、MixUp、CutMix、RandomErasing等强增广,提升泛化;ViT仅基础裁剪。3)优化器:DeiT采用AdamW+cosinelr+warmup,并加大weightdecay(0.05),防止过拟合;ViT使用较大初始lr易发散。得益于蒸馏与强正则,DeiT仅用ImageNet1K即可学习高质量表征,精度逼近需JFT300M预训练的ViTL。37.说明CenterNet在训练阶段如何生成高斯heatmap,并推导当输出步长为s、目标框高为h时,高斯半径r的计算公式。答案与解析:1)将目标中心(xc,yc)映射到特征图坐标(xc/s,yc/s)。2)计算半径:r=max(0,int((h/s)×0.3)),其中0.3为经验比例,保证覆盖目标核心区域。3)以中心为峰值,生成2D高斯核:heatmap[x,y]=exp(((xxc)²+(yyc)²)/(2σ²)),σ=r/3。推导:设目标在特征图高为h/s,期望高斯直径覆盖90%能量,取3σ原则,则σ=(h/s×0.3)/3=h/(10s),故r=3σ=h/(3.33s)≈0.3h/s,向上取整。38.解释YOLOv5在anchorfree分支(AnchorFreeDetectHead)中,如何同时预测中心偏移、宽高与旋转角度,并说明旋转角度损失为何采用CircularSmoothLoss。答案与解析:1)对每格子预测:tx,ty,tw,th,tθ共5维,θ∈[π/2,π/2)。2)中心偏移:bx=(2σ(tx)0.5)+cx,by同理。3)宽高:bw=pw×e^tw,bh=ph×e^th,其中pw,ph为anchor宽高。4)角度:bθ=σ(tθ)×ππ/2,将无界回归转为有界。CircularSmoothLoss:L=1cos(θ_predθ_gt),将角度周期性与边界不连续问题转化为连续余弦距离,避免π/π突变,提升回归稳定性。六、综合应用题(共31分)39.(15分)某自动驾驶团队需在OrinX(算力70TOPS,显存32GB)上部署实时分割模型,要求单帧延迟≤30ms,mIoU≥80%。给定Cityscapes验证集,现有方案:A)SegFormerB2,mIoU=82.1%,FP32推理46ms;B)DDRNet23,mIoU=80.3%,FP32推理22ms;C)ConvNeXtB+UperNet,mIoU=83.5%,FP32推理55ms。请设计一套完整的模型优化与部署方案,包括:1)模型选择及理由;2)量化与剪枝策略;3)TensorRT优化细节;4)多尺度测试与tta取舍;5)最终指标预估。答案与解析:1)选C:mIoU最高,具备80%以上余量,可通过蒸馏+量化保精度。2)量化:采用QAT,以Cityscapestrain+extra20k张夜晚图像做校准,激活采用Percentile99.9,权重采用通道级对称量化;剪枝:使用Taylor剪枝,以mIoU下降<0.5%为阈值,剪掉30%通道,再微调30epoch。3)TensorRT:启用FP16+INT8混用,backboneINT8,decoderFP16;构建plugin实现CrossCovarianceFusion,减少内存搬运;kernelautotuning阶段锁定最大workspace=8GB;启用DLAcore0跑backbone,GPU跑head,并行流水。4)多尺度:训练阶段采用[0.75,1.0,1.25]随机缩放,推理仅单尺度1024×2048,舍弃TTA,节省12ms。5)预估:经QAT+剪枝+TensorRT,mIoU降至81.2%,延迟28ms,满足要求。40.(16分)给定一个自定义工业零件检测数据集,含20类,平均每图300目标,最小目标6×6px,最大400×200px,图像分辨率2048×1536。训练集5k张,测试集1k张。要求设计一套基于YOLOv8的检测方案,达到AP50≥85%,单图GPU推理≤20ms(RTX3060)。请给出:1)数据预处理与增强策
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 9364.5-2025小型熔断器第5部分:小型熔断体质量评定导则
- 化工催化技术课件
- 化工仿真培训实操课件
- 飞秒技术科普
- 2026年人力资源管理师绩效考核体系设计知识练习(含答案解析)
- 2026云南保山市腾冲市边防办招聘边境专职联防员备考考试题库及答案解析
- 2026年青岛市即墨区部分事业单位公开招聘工作人员(53人)笔试备考试题及答案解析
- 2026云南嘉华食品有限公司招聘备考考试题库及答案解析
- 别墅搭架施工方案(3篇)
- 标识制作施工方案(3篇)
- 2026年神木职业技术学院单招职业技能测试题库含答案
- 化肥产品生产许可证实施细则(二)(磷肥产品部分)2025
- 2025年CFA二级《投资组合管理》模拟
- 基于杜邦分析法的比亚迪盈利能力分析
- 项目成本控制动态监测表模板
- 变压器维修记录模板
- 早期阅读能力培养干预方案有效性评估
- 擒敌术课件教学
- GB/T 9944-2025不锈钢丝绳
- 水库防洪防汛培训课件
- 陕西省西安市爱知中学2024-2025学年七年级上学期期末考试数学试卷(含答案)
评论
0/150
提交评论