2026年ai基础考试试题及答案

上传人：1*** IP属地：四川上传时间：2026-03-15 格式：DOCX 页数：13 大小：42.98KB 积分：12 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年ai基础考试试题及答案一、单项选择题（每题2分，共30分）1.在深度学习中，若某卷积层输入特征图尺寸为64×64×3，卷积核尺寸为5×5×3，共128个卷积核，步长为1，填充为2，则输出特征图的尺寸为A.64×64×128 B.60×60×128 C.66×66×128 D.62×62×1282.下列关于Transformer中自注意力机制的说法，正确的是A.自注意力权重仅由查询向量决定B.自注意力计算复杂度与序列长度呈线性关系C.缩放点积注意力中缩放因子为d_k^{-1/2}D.多头注意力必须保持各头维度一致且等于模型维度3.若某GAN的判别器损失函数为L_D=-\mathbb{E}_{x\simp_{data}}[\logD(x)]\mathbb{E}_{z\simp_z}[\log(1-D(G(z)))]则在理想平衡状态下，D(x)与D(G(z))的期望值分别趋近于A.0,0 B.0.5,0.5 C.1,0 D.1,14.在强化学习中，采用ε-greedy策略时，若ε=0.1，则智能体在第100步选择随机动作的概率为A.0.01 B.0.1 C.0.9 D.1-(0.9)^{100}5.下列关于BERT预训练任务的说法，错误的是A.MLM任务中15%的token被选中作为候选B.NSP任务输入为两个句子对，预测其是否相邻C.MLM任务对所有被选token均替换为[MASK]D.采用WordPiece分词以缓解未登录词问题6.若某LSTM单元遗忘门输出f_t=0，输入门输出i_t=1，候选记忆c̃_t=2，上一时刻记忆c_{t-1}=3，则当前记忆c_t为A.0 B.2 C.3 D.57.在联邦学习场景下，采用FedAvg算法，若本地epoch=5，客户端学习率η=0.01，则全局模型更新量等于A.所有客户端本地更新量的加权平均B.所有客户端本地模型参数的加权平均C.所有客户端本地梯度之和D.服务器随机挑选一个客户端的更新量8.下列关于VisionTransformer(ViT)的说法，正确的是A.图像块尺寸越小，模型参数量一定越少B.分类token在最后一层仅与自身注意力有关C.位置编码可采用一维可学习向量D.必须使用LayerNorm前置于MSA模块9.若某模型在ImageNet上Top-1准确率为76.3%，其单张224×224图像推理耗时为8ms，则其理论每秒可处理图像数约为A.125 B.64 C.1000 D.810.在扩散模型DDPM中，若前向过程方差调度为线性β_t∈[1×10^{-4},2×10^{-2}]，T=1000，则β_{500}的取值为A.1×10^{-4} B.1.005×10^{-2} C.2×10^{-2} D.1×10^{-2}11.下列关于模型量化的说法，错误的是A.INT8量化可将权重存储减少为原来的1/4B.对称量化零点偏移量恒为0C.量化感知训练需在前向过程引入伪量化D.KL散度校准法以最小化浮点与量化输出分布差异为目标12.若某优化器更新规则为m_t=\beta_1m_{t-1}+(1-\beta_1)g_tv_t=\beta_2v_{t-1}+(1-\beta_2)g_t^2\theta_t=\theta_{t-1}\eta\frac{m_t/\sqrt{v_t}+\epsilon}则该优化器为A.SGD B.AdaGrad C.RMSprop D.Adam13.在目标检测任务中，若采用YOLOv5的CIoU损失，其惩罚项不包含A.中心点距离 B.长宽比一致性 C.预测框置信度 D.重叠面积14.下列关于PromptTuning的说法，正确的是A.仅更新预训练模型全部参数B.软提示长度增加一定带来性能提升C.可视为一种参数高效微调方法D.不能与LoRA同时应用15.若某GPU显存为24GB，混合精度训练下模型权重占用12GB，激活值峰值占用8GB，则理论上最大batchsize还受限于A.优化器状态与梯度占用 B.数据加载线程数 C.CPU内存大小 D.磁盘I/O带宽二、多项选择题（每题3分，共15分）16.下列技术可有效缓解神经网络过拟合的有A.Dropout B.BatchNorm C.L2正则 D.Earlystopping E.增加网络深度17.关于自监督学习中的对比学习方法，正确的有A.SimCLR使用同一图像的不同增强视图作为正样本对B.MoCo采用动量更新编码器C.BYOL依赖负样本对D.SwAV引入聚类约束E.BarlowTwins优化互相关矩阵18.在模型部署阶段，下列做法可提升推理速度的有A.算子融合 B.权重稀疏化 C.动态batching D.使用FP64精度 E.TensorRT引擎缓存19.下列关于AI伦理的说法，符合《人工智能伦理规范》要求的有A.保障人类自主权 B.提升算法黑箱化程度 C.尊重隐私 D.确保可追溯性 E.强化歧视性标注20.若某文本生成模型出现“幻觉”现象，可采取的缓解策略有A.增加后验校验模块 B.引入检索增强生成 C.提高解码温度 D.使用事实一致性奖励微调 E.扩大模型参数量至10倍三、判断题（每题1分，共10分）21.在ReLU激活函数下，神经元死亡是指梯度恒为0且无法恢复。22.残差连接的主要作用是增加网络深度从而提升参数量。23.联邦学习必然保证数据不出本地。24.扩散模型反向过程可用DDIM采样加速。25.知识蒸馏中，学生模型logits接受的温度系数越高，软标签越尖锐。26.LayerNorm在RNN中通常应用于时间步维度。27.在VisionTransformer中，去掉位置编码会导致模型无法区分图像块顺序。28.使用混合精度训练时，损失缩放因子过大可导致梯度下溢。29.模型剪枝后无需任何微调即可保持原精度。30.采用GroupNorm时，批量大小为1也能稳定训练。四、填空题（每空2分，共20分）31.若交叉熵损失为-\sum_{i=1}^Cy_i\logp_i，当真实标签为one-hot形式且类别数为10，预测概率分布为[0.1,0.1,…,0.1]时，损失值为__________。32.在Transformer中，若隐藏维度d=512，注意力头数h=8，则每个头的维度为__________。33.若某卷积层输出尺寸公式为O=\lfloor(I+2P-K)/S\rfloor+1，当I=127，K=7，S=2，P=3时，O=__________。34.若采用cosine学习率调度，初始学习率η_0=0.1，总步数T=100，当前步数t=40，则η_t=__________。35.在DDPM中，若α_t=1-β_t，则前向过程单步转移方差为__________。36.若某模型参数量为1.2×10^8，采用FP16存储，则权重占用显存__________MB。37.若梯度裁剪阈值为1.0，某参数梯度范数为2.5，则裁剪后梯度乘以系数__________。38.在BERT-base中，Transformer层数为__________。39.若某图像被划分为14×14的patches，每个patch尺寸为16×16，则原图尺寸为__________。40.若某检测框坐标为(x1,y1,x2,y2)=(100,150,200,250)，则其面积为__________。五、计算与推导题（共25分）41.（8分）给定一个两层的全连接神经网络，输入维度d_0=4，隐藏层维度d_1=3，输出维度d_2=2，采用Sigmoid激活，损失为MSE。(1)写出前向传播表达式；(2)推导输出层对隐藏层权重W^(2)的梯度；(3)若输入x=[1,2,3,4]^T，真实标签y=[0,1]^T，学习率η=0.1，请手工计算一步梯度下降后W^(2)第一行第一列元素更新值（初始W^(2)全为0.1）。42.（7分）在强化学习中，已知MDP状态空间S={s1,s2}，动作空间A={a1,a2}，折扣因子γ=0.9，转移与奖励如下：P(s1|s1,a1)=0.8,P(s2|s1,a1)=0.2,r(s1,a1)=1；P(s1|s1,a2)=0.5,P(s2|s1,a2)=0.5,r(s1,a2)=0；P(s2|s2,a1)=0.1,P(s1|s2,a1)=0.9,r(s2,a1)=-1；P(s2|s2,a2)=0.6,P(s1|s2,a2)=0.4,r(s2,a2)=2。求：在策略π(a1|s)=0.5，π(a2|s)=0.5下，状态s1的价值函数V^π(s1)。43.（10分）在VisionTransformer中，假设输入图像为224×224×3，patch尺寸为16×16，隐藏维度d=768，分类token1个，MLP扩展比为4，注意力头数12，Transformer层数L=12。(1)计算patchembeddings参数量；(2)计算所有MSA模块的QKV投影总参数量；(3)计算所有MLP块总参数量；(4)若采用FP16推理，批量大小为32，忽略激活值，求权重占用显存（MB）。六、综合设计题（共30分）44.（15分）某城市希望部署一套实时交通违法检测系统，要求单路口摄像头≥4路1080p@30fps，检测类别包括车辆、行人、非机动车、红绿灯、车牌，延迟≤200ms，边缘设备算力为30TOPSINT8，内存8GB。请设计一套端到端方案，涵盖：(1)模型选择与优化策略；(2)数据增强与微调流程；(3)推理框架与流水线并行；(4)效果与性能评估指标；(5)后续迭代升级机制。45.（15分）某医疗影像公司计划开发一款低剂量CT肺结节筛查助手，数据来自全球6家医院，共5万例DICOM，标签含结节位置、直径、恶性概率。因隐私限制，数据无法集中。请设计一套联邦学习方案，要求：(1)联邦模式与客户端选择策略；(2)模型架构及参数高效微调；(3)非独立同分布(non-IID)数据缓解方法；(4)差分隐私与梯度压缩机制；(5)临床验证与监管合规流程。答案与解析1.A 解析：输出尺寸=(64+2×2−5)/1+1=64，通道128。2.C 解析：缩放因子为d_k^{-1/2}防止点积过大。3.B 解析：理想平衡时D无法区分真假，输出均为0.5。4.B 解析：ε-greedy每步随机概率恒为ε。5.C 解析：15%候选token中仅80%替换为[MASK]，10%随机，10%不变。6.B 解析：c_t=f_t⊙c_{t-1}+i_t⊙c̃_t=0+2=2。7.B 解析：FedAvg对本地模型参数加权平均。8.C 解析：ViT常用一维可学习位置编码。9.A 解析：1000ms/8ms=125。10.B 解析：线性调度β_t=1e-4+(2e-2−1e-4)·t/1000，t=500得1.005e-2。11.A 解析：INT8存储为1字节，FP32为4字节，减少为1/4。12.D 解析：含m_t、v_t校正，为Adam。13.C 解析：CIoU不含置信度项。14.C 解析：PromptTuning冻结原模型，仅训练提示向量，属参数高效微调。15.A 解析：Adam优化器需保存一阶二阶动量，占用显存。16.ACD 解析：Dropout、L2、Earlystopping直接缓解过拟合；BatchNorm有轻微正则效果，但非主要目的；增加深度可能加剧过拟合。17.ABDE 解析：BYOL无需负样本。18.ABCE 解析：FP64精度降低速度。19.ACD 解析：B、E与伦理规范相悖。20.ABD 解析：提高温度或盲目扩大模型可能加剧幻觉。21.√ 22.× 23.√ 24.√ 25.× 26.× 27.√ 28.× 29.× 30.√31.2.3026 解析：−log(0.1)=2.3026。32.64 解析：512/8=64。33.64 解析：(127+6−7)/2+1=64。34.0.0951 解析：cosine(40/100·π)=0.309，0.5(1+cos)=0.6545，η_t=0.1×0.6545/0.5=0.0951。35.β_t 解析：q(x_t|x_{t-1})=N(\sqrt{1-β_t}x_{t-1},β_tI)。36.228.9 解析：1.2e8×2byte≈240MB，1MB=1024×1024byte，得228.9MB。37.0.4 解析：乘以1/2.5=0.4。38.1239.224×224 解析：14×16=224。40.10000 解析：(200−100)×(250−150)=100×100=10000。41.(1)z^{(1)}=W^{(1)}x+b^{(1)},a^{(1)}=\sigma(z^{(1)}),z^{(2)}=W^{(2)}a^{(1)}+b^{(2)},\haty=\sigma(z^{(2)})(2)∂L/∂W^{(2)}=(\ha

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年ai基础考试试题及答案

文档简介

温馨提示

最新文档

评论

2026年ai基础考试试题及答案

文档简介

温馨提示

最新文档

评论

相关文档