2026年蔚来集团视觉算法实习生工程师高频常见面试题包含详细解答+避坑指南_第1页
2026年蔚来集团视觉算法实习生工程师高频常见面试题包含详细解答+避坑指南_第2页
2026年蔚来集团视觉算法实习生工程师高频常见面试题包含详细解答+避坑指南_第3页
2026年蔚来集团视觉算法实习生工程师高频常见面试题包含详细解答+避坑指南_第4页
2026年蔚来集团视觉算法实习生工程师高频常见面试题包含详细解答+避坑指南_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蔚来视觉算法实习生高频面试题

【精选近三年60道高频面试题】

【题目来源:学员面试分享复盘及网络真题整理】

【注:每道题含高分回答示例+避坑指南】

1.请做一个自我介绍(基本必考)

2.请详细介绍一段你觉得最具挑战性的项目经历,重点讲你在其中的贡献(基本必考|适合

讲项目)

3.手撕代码:实现非极大值抑制(NMS)算法(极高频|重复度高)

4.Transformer和CNN在计算机视觉任务中的区别与优劣势对比(极高频|需深度思考)

5.讲一下BatchNormalization(BN)的原理、作用及在训练推理时的区别(极高频|重点准

备)

6.手撕代码:计算两个矩形框的IoU(交并比)(高频|重复度高)

7.详细推导一下Self-Attention的计算过程和时间复杂度(极高频|需深度思考)

8.介绍一下YOLO系列算法的演变(从v1到v8),重点谈谈Anchor-based和Anchor-free的区

别(高频|近两年常问)

9.常见的损失函数有哪些?请解释FocalLoss是如何解决正负样本不平衡问题的(极高频|

重点准备)

10.什么是感受野(ReceptiveField)?如何计算?(高频|较为重要)

11.介绍一下ResNet的残差结构解决了什么问题?为什么有效?(极高频|多次验证)

12.你的项目中遇到了哪些过拟合问题?具体采用了哪些手段解决?(高频|适合讲项目)

13.C++基础:虚函数和纯虚函数的区别,多态是如何实现的?(高频|较为重要)

14.介绍一下BEV(Bird'sEyeView)感知的基本原理及常用的转换方法(如IPM、LSS、

Transformer)(近两年常问|需深度思考)

15.优化器对比:SGD、Momentum、Adam和AdamW的区别是什么?(高频|重点准备)

16.手撕代码:实现K-Means聚类算法(高频|网友分享)

17.讲一下L1正则化和L2正则化的区别及几何解释(高频|较为重要)

18.在目标检测中,mAP是如何计算的?Precision和Recall的定义是什么?(基本必考|重点

准备)

19.对于小目标检测难点,你有什么具体的改进思路?(高频|需深度思考)

20.Python基础:装饰器(Decorator)的作用和生成器(Generator)的区别(高频|较为重

要)

21.讲一下VisionTransformer(ViT)的PatchEmbedding是如何实现的?(近两年常问|重点

准备)

22.什么是梯度消失和梯度爆炸?如何缓解?(高频|较为重要)

23.激活函数对比:Sigmoid、ReLU、LeakyReLU和GELU的优缺点(高频|多次验证)

24.多模态融合(如雷达与摄像头)常见的融合策略有哪些(前融合、特征融合、后融合)?

(近两年常问|需深度思考)

25.你的模型在部署时做了哪些优化?了解TensorRT或ONNX吗?(高频|适合讲项目)

26.C++基础:智能指针(shared_ptr,unique_ptr,weak_ptr)的用法及循环引用问题(高频|

较为重要)

27.手撕代码:二叉树的层序遍历或最近公共祖先(高频|重复度高)

28.介绍一下DETR(DetectionTransformer)的整体架构及二分图匹配(Hungarian

Algorithm)(近两年常问|重点准备)

29.深度学习中参数初始化有哪些方法?为什么不能全零初始化?(高频|较为重要)

30.什么是GroupConvolution和DepthwiseSeparableConvolution?有什么优势?(高频|较

为重要)

31.手撕代码:最长递增子序列(LIS)或最大子数组和(高频|网友分享)

32.讲一下SwinTransformer的ShiftedWindowAttention机制(近两年常问|需深度思考)

33.如何处理长尾分布(Long-tailDistribution)的数据问题?(高频|需深度思考)

34.介绍一下CLIP模型的原理及其在Zero-shot任务中的应用(近两年常问|学员分享真题)

35.你的项目中是如何进行数据增强的?Mosaic、Mixup等方法的原理是什么?(高频|适合

讲项目)

36.C++中堆(Heap)和栈(Stack)的区别(高频|较为重要)

37.相机标定了解吗?内参矩阵和外参矩阵分别包含哪些信息?(高频|重点准备)

38.介绍一下NeRF(NeuralRadianceFields)的基本原理(近两年常问|需深度思考)

39.常见的语义分割网络(如UNet、DeepLab系列)的核心思想是什么?(高频|较为重要)

40.为什么Transformer需要PositionEncoding?有哪些位置编码方式?(高频|需深度思考)

41.手撕代码:反转链表(递归与非递归实现)(基本必考|重复度高)

42.讲一下Dropout在训练和测试时的不同行为,以及其底层原理(高频|较为重要)

43.什么是OccupancyNetwork(占用网络)?在自动驾驶中有什么应用?(近两年常问|需

深度思考)

44.模型量化(Quantization)了解吗?PTQ和QAT的区别是什么?(高频|适合讲项目)

45.介绍一下MAE(MaskedAutoencoders)的预训练流程(近两年常问|学员分享真题)

46.手撕代码:快速排序(QuickSort)及其时间复杂度分析(高频|重复度高)

47.Python中深拷贝和浅拷贝的区别(高频|记住就行)

48.自动驾驶场景中,如何解决遮挡问题?(高频|需深度思考)

49.了解知识蒸馏(KnowledgeDistillation)吗?Teacher和Student网络是如何交互的?(高

频|较为重要)

50.最近读了哪些计算机视觉领域的顶会论文?请详细介绍一篇(高频|考察软实力)

51.什么是RoIAlign和RoIPooling?它们的区别是什么?(高频|较为重要)

52.对比一下CNN中的池化层(Pooling)和Transformer中的Attention在降维/特征提取上的异

同(高频|需深度思考)

53.手撕代码:岛屿数量(DFS/BFS)(高频|重复度高)

54.为什么选择蔚来?你对自动驾驶行业的理解是什么?(高频|考察软实力)

55.你认为做算法实习生最重要的素质是什么?(高频|考察软实力)

56.实习期间能保证的实习时长和出勤天数是怎样的?(高频|重复度高)

57.如果项目进展不顺利,你会如何排查问题并调整方向?(高频|考察软实力)

58.手撕代码:寻找数组中的第K大元素(高频|重复度高)

59.介绍一下单目深度估计(MonocularDepthEstimation)的难点和常见方法(高频|较为重

要)

60.我问完了,你有什么想问我们的吗?(面试收尾题)

【蔚来集团视觉算法实习生】面试题深度解答

Q1:请做一个自我介绍

❌不好的回答示例:

面试官您好,我叫张三,是XX大学计算机专业的硕士研究生。我主要的研究方向是

计算机视觉。在校期间我学过Python和C++,也读过很多论文。我有过一段在某公

司的实习经历,主要做图像分类,那个项目让我学到了很多。我很喜欢蔚来的车,

特别是自动驾驶技术,觉得很有前景,所以非常想来这里实习,希望您能给我一个

机会。

为什么这么回答不好:

1.流水账式陈述,缺乏亮点:只是罗列了学校和技能,没有结合具体的量化成果(如“提升

了多少精度”、“优化了多少耗时”),面试官无法捕捉到候选人的核心竞争力。

2.实习经历描述过虚:仅提到“做图像分类”和“学到很多”,却未提及具体解决了什么难点、

使用了什么SOTA模型或Trick,显得专业度不足。

3.动机缺乏深度:对蔚来的向往停留在“喜欢车”和“觉得有前景”的客套话层面,未体现对蔚

来具体感知业务(如NAD、Aquila超感系统)的调研和理解。

高分回答示例:

面试官好,我是XX大学模式识别专业的硕士研究生张三。我目前的求职意向是视觉

感知算法实习生,我的核心竞争力主要体现在以下三点:

1.扎实的算法落地能力:我熟悉PyTorch框架及TensorRT部署,在上一段独角兽企业的实习

中,我负责单目3D检测模型的轻量化工作。面对边缘端算力受限的痛点,我通过引入结

构化剪枝和知识蒸馏策略,在保持mAP仅下降0.5%的前提下,将推理延迟从45ms降低至

28ms,成功在Orin平台上落地。

2.敏锐的学术复现能力:我长期关注CVPR/ICCV顶会,曾在GitHub复现过Swin

Transformer和DETR源码,并针对遮挡场景下的小目标检测问题,提出了一种基于注意力

机制的特征融合模块,相关论文目前在投。这让我具备了快速理解并改进新算法的能力。

3.极高的岗位匹配度:我非常认可蔚来全栈自研的策略,特别是对BEV感知和多传感器融

合很感兴趣。我深入研读过蔚来关于OccupancyNetwork的技术分享,相信我的工程落地

经验能快速适配团队在量产车感知算法上的迭代需求。

Q2:请详细介绍一段你觉得最具挑战性的项目经历,重点讲你在其中的贡献

❌不好的回答示例:

我之前做过一个交通标志检测的项目。这个项目主要就是用YOLOv5去识别路边的

牌子。最开始效果不好,因为数据比较少,后来我就去网上找了很多开源数据集加

进去。然后我还调了一些超参数,比如学习率和BatchSize。最后模型的效果提升

了,准确率达到了90%以上。这个项目让我熟悉了目标检测的整个流程,也学会了

怎么处理数据,我觉得挺有挑战的。

为什么这么回答不好:

1.挑战点定义模糊:“数据少”是通用问题,不够硬核。未能定义出具体的场景难点(如严重

遮挡、极端光照、长尾分布等),导致解决思路显得平平无奇。

2.归因过于简单:仅仅通过“加数据”和“调参”解决问题,这是初级炼丹师的操作,无法体现

候选人对模型架构、损失函数或数据增强深层原理的思考。

3.缺乏个人核心贡献:叙述中使用了通用的“我做了...”,没有将“团队的工作”和“我的独创性

改进”剥离,面试官无法判断这90%的准确率主要归功于开源模型本身还是候选人的优

化。

高分回答示例:

我想介绍在迈向L4自动驾驶项目中,负责“夜间雨天场景下红绿灯检测”的经历。该

项目的核心挑战在于:夜间雨水在路面形成倒影,导致传统检测器极易将地面反光

误检为红绿灯,且远距离小目标仅占图像10x10像素,极易漏检。

1.针对误检问题的HardSample挖掘:我首先分析了BadCase,发现误检主要集中在强

反光区域。我没有简单加数据,而是设计了一种基于颜色的自适应阈值过滤算法进行预处

理,并针对性地构建了NegativeSamples(负样本)数据集,在训练中引入FocalLoss

重点关注这些难分样本,最终将误检率降低了15%。

2.针对小目标漏检的架构优化:我发现YOLO原生的下采样倍率过大,导致小目标特征丢

失。我修改了FPN结构,增加了一个P2层的高分辨率特征分支,并引入了SPD-Conv(空

间到深度卷积)替代部分StridedConvolution,保留了更多细粒度特征。

3.结果量化:最终,该模型在自建的极度困难测试集上,mAP@0.5从基准的68%提升至

76%,且保持了实时性。这个方案后来被集成到了主线版本中。

Q3:手撕代码:实现非极大值抑制(NMS)算法

❌不好的回答示例:

NMS就是用来去掉重复框的。首先我们有一堆预测出来的框,每个框都有置信度。

我们先把这些框按置信度排序,选出最高的那个。然后把剩下的框和这个最高的框

算IoU。如果IoU大于一个阈值,比如0.5,就把那个框删掉,因为它和最高的框太

像了。重复这个过程,直到没有框为止。代码的话,就是写个循环,每次取第一

个,算IoU,保留剩下的,最后返回保留的列表。

为什么这么回答不好:

1.逻辑表述缺乏结构:虽然大致流程对,但缺乏算法复杂度的意识,且没有提到边界条件

处理(如空数组检查)。

2.缺乏代码细节:没有提到具体的坐标系处理(x1,y1,x2,y2),也没有提到在计算IoU时如

何利用向量化操作(Vectorization)来加速,这在Python中非常重要。

3.未体现优化思维:没有提及Soft-NMS或IoU-GuidedNMS等进阶变体,显得知识面仅停

留在基础教材层面。

高分回答示例:

NMS是目标检测后处理的核心步骤。实现逻辑如下:首先,输入包含所有预测框的

坐标和置信度得分。

1.预处理与排序:

首先判断输入是否为空。如果不为空,根据置信度Score对所有框进行降序排

列。这一步是为了优先保留最高质量的检测结果。

2.循环抑制(核心逻辑):

创建一个列表keep用于存储最终结果。在循环中,每次取出得分最高的框A加入

keep。然后,计算框A与剩余所有框B_i的IoU(交并比)。

在计算Intersection时,利用xx1=np.maximum(x1[i],x1[order[1:]])等向量化操

作,避免Python层面的for循环,大幅提升效率。

计算出IoU后,保留那些IoU小于阈值(如0.5)的框,因为大于阈值的被视为重复检测

予以剔除。

更新剩余框列表,重复直至列表为空。

3.代码关键点:

在实现时,我会特别注意坐标的(x2-x1+1)是否需要加1(取决于像素定

义),以及防止分母为0的情况。此外,对于Dense场景,为了避免遮挡目标被

误删,实际项目中我可能会考虑Soft-NMS,即通过衰减得分而非直接删除来保

留部分高重叠框。

Q4:Transformer和CNN在计算机视觉任务中的区别与优劣势对比

❌不好的回答示例:

CNN是主要用卷积核提取特征,像ResNet、VGG这些。Transformer是用

Attention机制,像ViT。CNN的优势是速度快,参数少一点,适合做实时任务。

Transformer的效果一般更好,但是它需要的数据量很大,训练起来很慢,显存占

用也高。现在大模型都用Transformer。CNN主要看局部,Transformer看全局。

为什么这么回答不好:

1.理论深度极浅:仅停留在“速度快/慢”、“效果好/坏”的表象对比,未触及“归纳偏置

(InductiveBias)”这一核心概念。

2.片面化理解:简单地说“Transformer效果一般更好”是不严谨的,在小数据集上CNN往往

优于Transformer。

3.缺乏底层机制对比:未能对比权重共享(WeightSharing)与动态权重(Dynamic

Weight)的区别,也未提及位置编码在两者中的不同地位。

高分回答示例:

这两种架构的本质区别在于归纳偏置(InductiveBias)**和**感受野的构建方

式。

1.归纳偏置与特征提取:

CNN具有很强的归纳偏置,即平移不变性和局部性。卷积核在全图滑动共享权重,这

使得CNN在小数据集上极其高效,容易收敛,且天然适合提取边缘纹理等底层特征。

Transformer(ViT)**则通过Self-Attention建立像素(Patch)间的长程依赖,它的

归纳偏置很弱。这意味着它需要海量数据(如JFT-300M)来“学习”空间关系,但在大

数据集下上限更高,且具有**动态权重特性(根据输入内容调整关注点)。

2.感受野(ReceptiveField):

CNN的感受野随网络深度线性或线性累积增加,浅层只能看局部。

Transformer在第一层就能通过GlobalAttention拥有全局感受野,这在处理多模态融合

或大跨度目标检测时优势明显。

3.计算复杂度与部署:

CNN的时间复杂度通常与图像尺寸呈线性关系。

标准Transformer的Self-Attention复杂度是,对高分辨率图像极不友好。因此,

在蔚来这种对实时性要求极高的自动驾驶场景中,我们通常会采用SwinTransformer这

样的窗口机制,或者CNN-Transformer混合架构(如DETR的Backbone仍常选用

ResNet)来平衡精度与速度。

Q5:讲一下BatchNormalization(BN)的原理、作用及在训练推理时的区别

❌不好的回答示例:

BN就是批归一化。它的原理是把每一层的输出减去均值再除以方差,变成标准正态

分布。作用是防止梯度消失,还能加快训练速度,防止过拟合。在训练的时候,是

用当前Batch的均值和方差。在推理的时候,因为没有Batch了,所以要用别的方

法,好像是用训练时候算好的全局均值和方差。具体公式就是除以sigma。

为什么这么回答不好:

1.公式描述不完整:漏掉了至关重要的可学习参数(缩放)和(平移)。没有这两个

参数,BN会破坏网络已学到的特征分布,限制网络表达能力。

2.推理机制解释模糊:仅仅说“别的方法”,没有准确说出是使用移动平均(Running

Mean/Variance)在训练过程中统计出来的。

3.原理层面缺失:未提及InternalCovariateShift(内部协变量偏移)这一经典解释,虽然

学术界有争议,但这是标准答案的一部分。

高分回答示例:

BatchNormalization旨在解决深度网络中的InternalCovariateShift(内部协

变量偏移)问题。

1.基本原理与公式:

BN首先对当前Batch的数据进行标准化:,使其均值为0方差为

1。

关键点在于:接着会通过两个可学习参数和进行线性变换:。

这一步是为了恢复网络的表达能力,如果,则可以恢复原始分布,

这保证了BN至少不会降低模型性能。

2.训练与推理的严格区分:

训练时:使用当前Batch的统计量()进行归一化。同时,模型会维护一对全

局统计量(RunningMean/Var),通过动量更新策略(Momentum)不断追踪整个数

据集的分布。

推理时:单张图片输入没有Batch概念,必须使用训练期累计下来的全局Running

Mean和RunningVar进行归一化,且参数被固定。

3.作用:

BN平滑了优化地形(OptimizationLandscape),允许使用更大的学习率,显

著加速收敛;同时引入了少量的噪声(受Batch采样影响),具有轻微的正则化

效果,能缓解过拟合。

Q6:手撕代码:计算两个矩形框的IoU(交并比)

❌不好的回答示例:

IoU就是交集除以并集。假设有两个框box1和box2。我们先算交集的面积。先找交

集矩形的左上角,是两个框左上角坐标取大的那个。右下角是取小的那个。然后宽

就是x2-x1,高就是y2-y1。交集面积就是宽乘以高。并集面积就是两个框面积加起

来减去交集。最后除一下就行了。要注意宽和高如果小于0要变成0。

为什么这么回答不好:

1.变量命名混乱:纯口述极其容易让面试官听晕,缺乏结构化的输入输出定义(如box=

[x1,y1,x2,y2])。

2.关键逻辑缺失:提到了“小于0变成0”,但没有强调这是在计算交集宽/高时的关键步骤m

ax(0,...),这是最容易写bug的地方。

3.除零错误风险:未提及当并集面积为0(虽然极少见,但作为健壮代码需考虑)或极小值

时的防除零处理(EPS)。

高分回答示例:

IoU是评估检测精度的基石。计算函数通常接收两个框box1,box2,格式为[x1,

y1,x2,y2]。

1.计算交集(Intersection)坐标:

首先确定交集矩形的几何边界。

左上角xx1=max(box1[0],box2[0]),yy1=max(box1[1],box2[1])

右下角xx2=min(box1[2],box2[2]),yy2=min(box1[3],box2[3])

2.计算有效交集面积:

这是最容易出错的点。必须考虑两个框完全不相交的情况。

w=max(0,xx2-xx1)

h=max(0,yy2-yy1)

inter_area=w*h

如果不用max(0,...),不相交时坐标相减为负,乘积可能变成正数,导致逻辑错

误。

3.计算并集(Union)与比率:

box1_area=(box1[2]-box1[0])*(box1[3]-box1[1])

box2_area=(box2[2]-box2[0])*(box2[3]-box2[1])

union_area=box1_area+box2_area-inter_area

最后返回inter_area/(union_area+1e-6),添加Epsilon防止除零异常。在

Pytorch中,我会直接使用torch.max和广播机制来实现批量IoU计算。

Q7:详细推导一下Self-Attention的计算过程和时间复杂度

❌不好的回答示例:

Self-Attention就是Q、K、V三个矩阵。输入X,分别乘上三个权重矩阵得到

QKV。然后Q和K转置相乘,算出一个分数。这个分数要经过Softmax。然后结果再

乘以V。这就是输出。时间复杂度大概是N平方吧,因为要矩阵相乘。如果是图像的

话,N就是像素个数,所以图像大了就算不动了。

为什么这么回答不好:

1.缺乏数学严谨性:漏掉了核心的**缩放因子**。没有这个缩放,点积结果会很大,

导致Softmax进入饱和区,梯度消失。

2.维度描述缺失:没有说明Q、K、V的具体维度(),导致后续推导复杂度的依据

不足。

3.复杂度分析粗糙:只说了,没有区分计算AttentionMap和加权求和V的两个阶

段,也没有体现出Embedding维度的影响。

高分回答示例:

Self-Attention的核心公式是:。假设输入

序列长度为,特征维度为。

1.计算过程:

线性映射:输入()分别乘以(),得到,这一

步复杂度为。

相似度计算:计算,得到的AttentionMap。这一步进行了次点

积,复杂度为。这里必须除以,是为了防止点积数值过大导致

Softmax梯度极小。

加权求和:将的权重矩阵与()相乘,得到最终输出。复杂度为

2.时间复杂度瓶颈:

总时间复杂度为。在视觉任务中,N是图像Patch数量(

)。

当图像分辨率较高时,项占主导,计算量呈二次方爆炸。这就是为什么ViT很

难直接处理高分辨率图像,而需要像SwinTransformer那样引入窗口注意力机

制,将复杂度降为线性的原因。

Q8:介绍一下YOLO系列算法的演变(从v1到v8),重点谈谈Anchor-based

和Anchor-free的区别

❌不好的回答示例:

YOLOv1是最早的,把检测当回归做,但是不好用。v2加了Anchor,v3加了多尺

度,效果好很多。v4用了Mosaic和CSPNet。v5是现在用的最多的,工程化做得

好。v8是最新的,变成了Anchor-free。Anchor-based就是需要预先设定框,

Anchor-free就是不需要框,直接预测点。Anchor-free更灵活,因为不需要调

Anchor的大小了。

为什么这么回答不好:

1.演变逻辑断层:只是罗列版本号,没有讲出“技术痛点驱动更新”的逻辑(例如:v2引入

Anchor是为了解决召回率低,v3引入FPN是为了解决小目标检测差)。

2.核心概念解释浅薄:对Anchor-free的解释仅停留在“不需要框”,未触及正负样本匹配策

略(Assigner)的本质变化(如SimOTA,TaskAlignedAssigner)。

3.缺乏对DecoupledHead的认知:v8除了Anchor-free,极其重要的改进是分类与回归的

解耦头(DecoupledHead),这点未提及。

高分回答示例:

YOLO系列的演变是一部不断平衡精度与速度、从经验主义走向这一自适应的进化

史。

1.v1-v3(Anchor时代的建立):YOLOv1开创了One-stage先河,但定位误差大。v2引入

了AnchorBox机制,显著提升了召回率。v3引入了Darknet53和类似FPN的多尺度预

测,彻底解决了小目标检测难题,确立了工业界地位。

2.v4-v5(工程化巅峰):这一时期重点在于Backbone优化(CSPNet)和数据增强

(Mosaic,Mixup)。v5并没有大的架构突破,但在工程落地(自适应Anchor、Focus

层、极简部署)上做到了极致。

3.v6-v8(Anchor-free回归):

Anchor-based的痛点:需要针对不同数据集聚类设计Anchor,且大量Anchor导致正

负样本极端不平衡,计算量大。

Anchor-free(YOLOv8):v8摒弃了Anchor,采用Center-based的方法,直接预测目

标的中心点和到四边的距离。更重要的是,它引入了SimOTA或TaskAligned

Assigner等动态标签分配策略,不再根据IoU死板分配正样本,而是根据分类和回归的

综合质量动态分配,这才是性能提升的核心。此外,v8采用了DecoupledHead,将

分类和回归分支解耦,加快了收敛。

Q9:常见的损失函数有哪些?请解释FocalLoss是如何解决正负样本不平衡问

题的

❌不好的回答示例:

常见的Loss有MSE、CrossEntropy。检测里还有IoULoss、GIoULoss。Focal

Loss主要是为了解决正负样本不平衡,比如背景太多了。它在交叉熵前面加了一个

权重。如果是容易分类的样本,权重就小一点;难分类的样本,权重就大一点。这

样模型就会多关注难分的样本,效果就好了。

为什么这么回答不好:

1.公式描述缺失:面试算法岗,核心Loss必须能写出数学形式,仅口语化描述“加了个权

重”不够专业。

2.混淆概念:没有区分清楚类别不平衡(参数)和难易样本不平衡(参数)的区别。

FocalLoss同时处理了这两个问题,但回答只笼统说了一个。

3.缺乏对梯度的视角:这里的“权重变小”本质上是主导了梯度的贡献,未从梯度传播角度解

释模型训练的动态。

高分回答示例:

在视觉任务中,分类常用CrossEntropy(CE),回归常用L1/L2/SmoothL1及IoU

系列(GIoU,DIoU,CIoU)。关于FocalLoss,它主要由RetinaNet提出,旨在

解决One-stage检测器中极端的正负样本不平衡(背景框远多于目标框)及难易样

本不平衡问题。

1.核心公式:

其中是模型对GroundTruth类别的预测概率。

2.机制解析:

解决难易不平衡(ModulatingFactor):引入项(通常)。当样

本被简单分类时(例如背景,),该系数趋近于0,自动降低其Loss贡献。反

之,对于难分样本(很小),系数趋近于1,维持Loss。这使得模型训练过程不会

被海量的简单背景样本(EasyNegatives)所主导。

解决类别不平衡(Alpha):引入参数。通常给正样本设置较高的(如0.25vs

0.75的配置需结合具体实现),平衡正负样本的总量差异。

3.应用场景:

在我的项目中,当检测小目标或数据存在长尾分布时,用FocalLoss替换标准

CELoss,通常能显著提升Recall,因为它强迫模型去“啃”那些难啃的骨头。

Q10:什么是感受野(ReceptiveField)?如何计算?

❌不好的回答示例:

感受野就是特征图上一个点能看到原图多大的区域。层数越深,感受野越大。比如

3x3的卷积,第一层看3x3,第二层看5x5。计算的话就是一层层加起来。感受野越

大越好,能看到全局信息。如果感受野太小,就检测不到大物体。

为什么这么回答不好:

1.计算逻辑错误:“一层层加起来”是错误的表述。感受野的计算是累乘步长(Stride)的,

不仅和KernelSize有关,更和Stride息息相关。

2.缺乏数学公式:没有给出递推公式,显得不够严谨。

3.结论绝对化:“感受野越大越好”是错的。对于小目标检测,过大的感受野可能引入过多背

景噪声,导致特征被淹没。

高分回答示例:

感受野(RF)定义为卷积神经网络每一层输出特征图上的像素点,在输入图像上映

射的区域大小。它是理解CNN捕捉上下文能力的关键。

1.计算公式(从后向前递归):

或者更直观的从前向后公式:

这里是卷积核大小,是步长。可以看出,Stride(步长)的累积乘积是导致

深层网络感受野呈指数级增长的核心因素,而不仅仅是卷积核大小。

2.有效感受野(EffectiveRF):

理论感受野通常是一个矩形,但研究表明,像素对输出的贡献符合高斯分布,即

中心区域影响最大。因此,实际有效的感受野往往比理论值小。

3.实际意义:

在设计网络时,我们需要确保输出层的感受野覆盖目标物体的大小。例如在

YOLO中,DetectHead的大尺度分支(检测小物体)感受野较小,而小尺度分

支(检测大物体)感受野必须足够大,否则网络将无法“看全”物体,导致识别错

误。

Q11:介绍一下ResNet的残差结构解决了什么问题?为什么有效?

❌不好的回答示例:

ResNet主要是解决了梯度消失的问题。以前网络做不深,做深了效果反而变差。

ResNet加了一个Shortcut,把输入直接加到输出上,变成H(x)=F(x)+x。这样

梯度就可以直接传过去,网络就能做得很深了,比如ResNet152。有效是因为它让

网络更容易训练,不会退化。

为什么这么回答不好:

1.问题定义不精准:ResNet核心解决的是“退化问题(DegradationProblem)”,即深层

网络在训练集上的误差反而比浅层网络高,这不同于简单的梯度消失(可以通过BN解

决)。

2.原理解释浅层:仅提到“梯度直接传”,未提及恒等映射(IdentityMapping)在数学上的

意义,以及残差学习让拟合目标从变为为何更容易。

3.缺乏集成学习视角:未提及“ResNet可以被视为多个浅层网络的集成(Ensemble)”这一

深层解释。

高分回答示例:

ResNet主要解决了深层网络中的退化问题(DegradationProblem),即随着层

数增加,训练集准确率反而下降的现象(非过拟合)。

1.残差单元(ResidualBlock):

ResNet引入了ShortcutConnection,将输出定义为。这使

得网络只需要学习输入与输出之间的残差(Residual),而不是直接学习

目标映射。

2.为什么有效(数学视角):

恒等映射的易学性:如果深层特征已经最优,模型只需将的权重学为0,即可

退化为浅层网络(实现恒等映射)。这比学习复杂的非线性变换要容易得

多。

梯度高速公路:在反向传播时,梯度。这里的保证了

梯度可以直接无损地传回浅层,有效避免了连乘导致的梯度消失。

3.为什么有效(结构视角):

后续研究(如Veit等人)表明,ResNet表现得像多个浅层网络的集成。删除某个

残差块并不会导致网络崩溃,说明其路径具有独立性和冗余性。

Q12:你的项目中遇到了哪些过拟合问题?具体采用了哪些手段解决?

❌不好的回答示例:

我的项目里模型训练的时候,训练集准确率很高,但是测试集很低,这就是过拟

合。解决办法主要就是加大数据集,做了一些翻转、旋转的数据增强。然后我还用

了Dropout,设置成0.5。还有就是用了L2正则化。最后我也试了早停法,效果就好

很多了。

为什么这么回答不好:

1.手段罗列,缺乏针对性:只是背诵了教科书上的防过拟合方法,没有结合具体的视觉任

务(如检测、分割)说明具体用了哪种技术(如Cutout,Mixup等)。

2.缺乏深度归因:没有分析导致过拟合的具体原因(是模型参数量过大?还是数据分布单

一?),导致解决方案听起来像“乱枪打鸟”。

3.Dropout在CNN中的特殊性:在现代CNN(特别是ResNet及以后)中,Dropout用得其

实很少(通常用BN),盲目说用Dropout0.5可能会暴露实战经验不足。

高分回答示例:

在我的瑕疵检测项目中,由于缺陷样本极少(正负样本比1:100),模型在训练集

上mAP达到95%,但测试集仅为60%,出现了严重的过拟合。我采取了以下分层策

略:

1.数据层面(强增强):

简单的旋转翻转不够,我引入了Mosaic和Mixup增强。特别是Mosaic,它通过

拼接4张图片,丰富了背景并增加了小目标数量,这不仅扩充了数据,还利用BN

层统计了更鲁棒的分布,这是最有效的手段。

2.模型层面(正则化与结构调整):

我使用了LabelSmoothing(标签平滑),将One-hot标签软化(如0.9和0.1/K),防

止模型对预测过于自信,这显著提升了泛化能力。

针对小数据集,我发现ResNet50过大,将其替换为MobileNetV3,减少参数量,降低

了模型记忆噪声的风险。

3.训练策略:

引入了CosineAnnealing(余弦退火)学习率策略和EarlyStopping。最终测

试集mAP提升至82%,且模型在未见过的光照条件下表现更加稳定。

Q13:C++基础:虚函数和纯虚函数的区别,多态是如何实现的?

❌不好的回答示例:

虚函数就是前面加virtual关键字,子类可以重写它。纯虚函数就是后面写等于0,没

有函数体,子类必须重写。多态就是父类指针指向子类对象,调用虚函数的时候,

会运行子类的函数。原理好像是有个虚函数表,里面存了函数地址。

为什么这么回答不好:

1.定义不严谨:纯虚函数不是“没有函数体”,是可以有的(虽然少见),重点在于强制子类

实现。

2.机制解释太浅:“好像有个虚函数表”这种表述非常减分。需要讲清楚vptr(虚表指针)存

储在哪里,vtable(虚表)何时生成。

3.遗漏关键点:未提及虚析构函数的重要性。如果做算法落地(TensorRT/C++),内存管

理是核心,不提虚析构会导致内存泄漏,这是面试官的大忌。

高分回答示例:

这是C++实现运行时多态的基础。

1.定义区别:

虚函数(virtualvoidfoo()):父类提供默认实现,子类可选择重写

(Override)。

纯虚函数(virtualvoidfoo()=0):父类不提供实现(通常),定义了接口规

范,包含纯虚函数的类称为抽象类,无法实例化,子类必须强制实现该接口。

2.多态实现原理(vptr&vtable):

编译期:编译器为每个包含虚函数的类创建一个虚函数表(vtable),表中存储该类

对应的虚函数地址。

运行期:每个对象内存头部隐藏着一个虚表指针(vptr)。当使用父类指针调用虚函

数时base_ptr->foo(),程序会根据对象的vptr找到对应的vtable,再查找函数地址进

行动态绑定(DynamicBinding)。

3.工程实践(虚析构):

在算法部署工程中,如果使用工厂模式返回基类指针,必须将基类析构函数声明

为虚函数。否则,deletebase_ptr只会调用基类析构,导致子类申请的内存

(如CUDA显存)无法释放,造成严重的内存泄漏。

Q14:介绍一下BEV(Bird'sEyeView)感知的基本原理及常用的转换方法

❌不好的回答示例:

BEV就是鸟瞰图,把摄像头的视角转成从天上看下来的样子。这样做规划比较好,

因为距离是真实的。转换方法有用IPM,就是逆透视变换,假设路是平的。现在比

较流行用Transformer转,比如DETR3D或者BEVFormer。还有一个叫LSS的方

法。蔚来应该也是用这些。

为什么这么回答不好:

1.原理阐述不清:没点出BEV的核心难点是“2D到3D的深度模糊性(Ill-posed

problem)”,即一个像素对应一条射线。

2.方法对比缺乏深度:只是报菜名(IPM,LSS,BEVFormer),没有解释它们的适用场景

和优缺点。例如IPM无法处理颠簸路面,LSS极其依赖深度估计准确性。

3.缺乏对Attention机制的解释:提到Transformer但没说Query是什么,Key/Value是什么,

这是考察重点。

高分回答示例:

BEV感知的核心是将多视角摄像头的2D图像特征统一转换到以车身为中心的3D

(鸟瞰)坐标系下,消除透视畸变,便于后续规划控制。核心难点在于解决深度模

糊性。主流转换方法有三类:

1.基于几何假设(IPM):

利用相机内外参和路面平坦假设进行投影。优点是计算快,缺点是路面颠簸或有

障碍物时会产生严重拉伸畸变,目前仅用于车道线检测等辅助任务。

2.基于深度估计(LSS-Lift,Splat,Shoot):

先预测每个像素的离散深度分布(Lift),结合相机内参将特征点云化,再投射

到BEV网格(Splat)。优点是显式利用了几何先验,缺点是极度依赖深度预测

的准确性,且计算量较大(需高效CumSum算子优化)。

3.基于Transformer(Query-based,如BEVFormer):

预定义一组BEV网格上的GridQueries,通过Cross-Attention机制,利用相机

内外参索引到对应的2D图像特征区域进行聚合。

蔚来/自动驾驶趋势:这种方法不依赖显式深度,端到端学习能力强,且容易融合

LiDAR特征,是目前SOTA的主流方向。我了解到蔚来的NAD系统也在向

BEV+Transformer架构演进。

Q15:优化器对比:SGD、Momentum、Adam和AdamW的区别是什么?

❌不好的回答示例:

SGD就是随机梯度下降,每次选一个样本更新,震荡很大。Momentum加了动量,

能冲过局部极小值。Adam是自适应的,每个人学习率不一样,收敛快,但是容易

过拟合。AdamW就是Adam加了权重衰减。一般现在都用AdamW,效果最好。

为什么这么回答不好:

1.AdamW的核心改进没讲对:仅仅说“加了权重衰减”是不准确的。Adam也有L2正则,

AdamW的区别在于解耦(Decoupled)了WeightDecay和梯度更新,这才是关键。

2.缺乏对“二阶动量”的描述:解释Adam时未提及它利用了梯度的均值(一阶)和未中心化

的方差(二阶)来动态调整学习率。

3.SGD的优势未提及:虽然Adam快,但SGD+Momentum往往能收敛到更好的泛化解,很

多Top级论文(如ResNet,ViT)最终SOTA还是靠SGD跑出来的。

高分回答示例:

这几种优化器的演进主要围绕加速收敛和提升泛化能力展开。

1.SGD与Momentum:

SGD更新方向完全依赖当前Batch,震荡大。Momentum引入了一阶动量(惯

性),更新量由当前梯度和历史更新方向共同决定。这不仅加速了收敛,还能借

惯性冲出鞍点或局部极小值。

2.Adam(AdaptiveMomentEstimation):

结合了Momentum(一阶动量)和RMSProp(二阶动量,即梯度的平方)。它

能为每个参数自适应调整学习率:梯度大的参数步长小,梯度小的步长大了。

缺点:这里的L2正则化通常被实现为加在梯度上,这在自适应学习率下会导致正则化

力度不均匀,导致泛化性往往不如SGD。

3.AdamW(AdamwithDecoupledWeightDecay):

这是Transformer训练的标配。它修正了Adam中L2正则化的实现方式,将

WeightDecay直接作用于权重参数本身,而不是混合在梯度中。这种解耦让权

重衰减独立于学习率,使得模型在保持Adam快速收敛的同时,获得了类似SGD

的优异泛化性能。

Q16:手撕代码:实现K-Means聚类算法

❌不好的回答示例:

K-Means就是先随机选K个点当中心。然后算每个点到这K个中心的距离,离谁近

就归谁。分好类之后,算每个类的平均值,变成新的中心。一直重复,直到中心不

动了。代码的话写个while循环,里面算距离,更新中心,判断一下如果不动了就

break。

为什么这么回答不好:

1.初始化风险未提及:K-Means对初始化非常敏感,随机初始化可能导致陷入局部最优

(如两个中心挤在一起)。虽然不要求写K-Means++,但口头必须提到这点。

2.收敛条件单一:仅说“中心不动”,实际代码中通常还需要设置最大迭代次数(Max

Iterations),防止死循环。

3.距离计算细节:未提及利用广播(Broadcasting)机制批量计算距离,如果是写Python

代码,用for循环逐点计算距离是极其低效的,面试官会认为工程能力弱。

高分回答示例:

K-Means的核心是EM算法思想(Expectation-Maximization)。代码实现主要包

含三个步骤:

1.初始化:

随机选择K个样本作为初始质心(Centroids)。为了避免局部最优,实际工程中

我会使用**K-Means++**策略(即选距离已有中心越远的点越大概率成为新中

心),但手写基础版可先随机选。

2.迭代循环(Assignment&Update):

E步(归类):计算所有样本与个质心的欧氏距离。这里利用

广播机制:dist=((X[:,None]-Centroids[None,:])**2).sum(axis=2),得

到矩阵,通过argmin找到每个样本所属的簇。

M步(更新):对归属同一簇的样本求均值,作为新的质心。注意处理空簇的情况

(即某簇没有样本),需重新随机初始化该质心。

3.终止条件:

判断新旧质心的位移变化是否小于阈值(Tol),或者达到最大迭代次数

(Max_Iter)。

Q17:讲一下L1正则化和L2正则化的区别及几何解释

❌不好的回答示例:

L1是绝对值,L2是平方。L1能让权重变成0,产生稀疏解,可以用来做特征选择。

L2是让权重变小,但是不会变成0,叫权重衰减。几何上,L1是菱形,L2是圆形。

因为菱形有尖角,所以容易相交在坐标轴上,就是0了。圆形不容易碰到轴,所以

只是变小。

为什么这么回答不好:

1.描述过于通俗:“不容易碰到轴”这种说法不够数学化。应该解释等高线(Contour)**与

**约束域的相切问题。

2.贝叶斯视角缺失:高级算法岗通常期待听到贝叶斯先验的解释(L1对应拉普拉斯先验,

L2对应高斯先验)。

3.应用场景不明:未结合深度学习现状——为什么现在主流(如ResNet/Transformer)多

用L2(WeightDecay)而少用L1?(因为L1不可导,且现代网络更倾向于保留所有特征

但抑制幅值)。

高分回答示例:

它们都是在Loss中引入罚项以限制模型复杂度,防止过拟合。

1.数学与功能区别:

L1(Lasso):添加权重绝对值之和。它的梯度是常数(符号函数),能使权

重强行归零,产生稀疏解,常用于特征选择。

L2(Ridge):添加权重平方和。它的梯度与线性相关,使权重趋向于0但

不为0(平滑),防止单个特征主导模型,提升鲁棒性。

2.几何解释(带约束的优化):

将正则化视为约束条件(或)。

Loss函数的等高线向中心收缩时,会与约束域相切。

L2的约束域是圆/球,切点通常在圆周上,很难正好落在坐标轴上。

L1的约束域是菱形/多面体,其“尖角”突起在坐标轴上。等高线极大概率优先接触到这

些尖角,导致部分维度权重为0。

3.贝叶斯视角:

L1相当于引入了拉普拉斯先验(LaplacePrior),L2相当于引入了高斯先验

(GaussianPrior)。

Q18:在目标检测中,mAP是如何计算的?Precision和Recall的定义是什么?

❌不好的回答示例:

Precision是查准率,Recall是查全率。Precision=TP/(TP+FP),Recall=

TP/(TP+FN)。mAP就是MeanAveragePrecision。先算每个类的AP,然后取

平均。AP就是PR曲线下的面积。TP就是检测对了,FP是检测错了。FN是漏检

了。计算的时候要看IoU,IoU大于0.5就算TP。

为什么这么回答不好:

1.TP定义不严谨:仅仅说“IoU大于0.5”是不够的。必须强调“IoU>阈值且置信度>阈值”

且“同一GT只能被匹配一次”(去重逻辑),否则多重检测会被误算为多个TP。

2.AP计算逻辑简化:现在的COCO标准mAP不是简单的曲线积分,而是平滑插值(比如11

点插值或101点插值)后的面积,这点细节能体现专业度。

3.mAP的具体含义混淆:COCOmAP通常指mAP@[.5:.95],即在不同IoU阈值下的平均

值,而不仅仅是IoU=0.5的情况。

高分回答示例:

mAP(MeanAveragePrecision)是衡量检测器综合性能的指标。

1.基础定义:

Precision(精确率):,即“检出的框里有多少是对的”。

Recall(召回率):,即“所有的真值里检出了多少”。

TP判定:预测框与GT的IoU>阈值(如0.5),且该GT未被其他更高分的预测框匹配

(唯一性)。

2.AP(AveragePrecision)计算:

我们将所有预测框按置信度排序,逐个纳入计算,得到一系列(R,P)点,绘制P-

R曲线。AP即为该曲线下的面积。

平滑处理:实际上,通常采用插值法(如PascalVOC的11点或COCO的101点),即

对每个Recall值,取,保证曲线单调递减,消除“锯

齿”波动。

3.mAP@[.5:.95]:

现在的标准(如COCO)不仅计算IoU=0.5时的AP,而是计算IoU从0.5到0.95

(步长0.05)共10个阈值下的AP,然后求平均。这要求模型不仅要“框住”,还

要“框得准(位置贴合)”,这对自动驾驶等高精场景尤为重要。

Q19:对于小目标检测难点,你有什么具体的改进思路?

❌不好的回答示例:

小目标难检测是因为像素太少了,特征都没了。改进的话,可以把图片放大再输进

去。或者用多尺度训练。还可以用FPN,把深层和浅层特征融合一下。另外就是

Loss上面改一下,把小目标的权重调大一点。我觉得数据增强也很重要,比如多复

制几个小目标贴到图里。

为什么这么回答不好:

1.思路散乱:缺乏系统性框架(输入端、模型端、Loss端、后处理端)。

2.技术术语匮乏:“复制几个贴进去”应该表述为Copy-Paste或Mosaic。

3.未触及本质:没提到下采样率(Stride)的问题。现有网络通常下采样32倍,小目标可

能在FeatureMap上只剩不到1个点,这才是核心痛点。

高分回答示例:

小目标检测(如远处的交通灯、行人)主要难在特征在下采样中丢失及正样本匹配

匮乏。我的改进思路主要分为三点:

1.数据增强与输入端:

Copy-Paste/Mosaic:增加小目标出现的频次和背景多样性。

SAHI(SlicingAidedHyperInference):针对高分辨率图,采用切片推理。将大图

切成重叠小块分别推理,再合并结果,相当于物理上放大了小目标,这在工程上极有

效。

2.模型架构优化:

减少下采样倍率:很多Backbone最后Stride=32,我会在FPN中利用空洞卷积

(DilatedConv)替代部分下采样,或者专门增加P2层(Stride=4)的高分辨率分支,

保留细粒度特征。

特征融合:加强FPN的横向连接,甚至使用BiFPN(EfficientDet)来更好地融合深层

语义和浅层纹理。

3.匹配策略与Loss:

Anchor策略:如果是Anchor-based,需重新聚类设计更小的Anchor。

动态匹配(SimOTA):小目标IoU通常很低,传统IoU匹配容易将其丢弃。使用基于

Cost的动态匹配策略,能让小目标更容易分配到正样本。

Q20:Python基础:装饰器(Decorator)的作用和生成器(Generator)的

区别

❌不好的回答示例:

装饰器就是@那个符号,写在函数上面。它可以给函数加功能,比如记日志、算时

间,不用改原来的代码。生成器就是用yield的函数。它不会一下把数据都算出

来,是用一个算一个,省内存。比如range就是一个生成器。区别就是装饰器是改

函数的,生成器是产生数据的。

为什么这么回答不好:

1.定义不准确:range在Python3中是迭代器(Iterator)对象,虽然行为像生成器,但严

格来说生成器是指带yield的函数。

2.装饰器原理未解释:没说清楚装饰器本质是闭包(Closure),即接收一个函数返回一

个新函数。

3.应用场景单一:生成器除了省内存,在深度学习DataLoader中的流式读取数据流

(Streaming)也是核心应用,未结合岗位背景。

高分回答示例:

这两者是Python的高级特性,在深度学习框架开发中非常常见。

1.装饰器(Decorator):

原理:本质是闭包。它接收一个函数作为参数,并返回一个新的函数,实现在不修改

原函数代码的前提下扩展功能(AOP面向切面编程思想)。

应用:在我之前的项目中,我写了一个@time_limit装饰器来监控推理函数的耗时;

在PyTorch中,@torch.no_grad()也是典型的上下文管理器/装饰器用法,用于推理阶

段关闭梯度计算。

2.生成器(Generator):

原理:使用yield关键字。与普通函数一次性返回(return)所有结果不同,生成器

保存执行状态,每次调用next()时计算并返回一个值,实现惰性求值(Lazy

Evaluation)。

应用:这对AI训练至关重要。当处理TB级的数据集时,无法一次性读入内存。我们需

要自定义Dataset,利用生成器机制,在训练过程中流式(Streaming)读取硬盘数据

并动态进行Augmentation,从而用有限内存训练海量数据。

Q21:讲一下VisionTransformer(ViT)的PatchEmbedding是如何实现的?

❌不好的回答示例:

PatchEmbedding就是把一张图切成很多小方块。比如图片是224x224,Patch大

小是16x16,那就切成了14x14个块。然后把每个块拉平成一条向量,再经过一个

全连接层(Linear)映射到想要的维度。最后再加上位置编码输入到Transformer

里面去。代码里通常就用循环或者切片来实现这个过程。

为什么这么回答不好:

1.工程实现认知偏差:虽然逻辑上是“切片+全连接”,但在PyTorch等框架的实际高效实现

中,几乎没人用循环或切片操作,而是直接使用步长等于核大小的卷积(Conv2d)。

2.遗漏关键Token:忘记提及CLSToken(分类Token)的拼接。ViT在序列头部加了一个

可学习的CLSToken用于最终分类,这是复刻BERT的关键设计。

3.维度变化描述不清:没有清晰描述Tensor的维度变换流程(

),这在面试中是考察对数据流理解的关键。

高分回答示例:

PatchEmbedding是将2D图像转化为Transformer能够处理的1D序列数据的关键

步骤。

1.核心实现(Conv2dTrick):

虽然理论上是分块铺平,但在代码落地时,最高效的方法是使用一个卷积层。

假设输入为,PatchSize为16,输出维度为768。我们会定义一

个nn.Conv2d(in=3,out=768,kernel_size=16,stride=16)。

这个卷积层的步长和核大小一致,意味着它在每个Patch上滑动一次且不重叠,

直接完成了“分块+特征映射”两步。输出为。

2.Flatten与维度变换:

接着将空间维度拉平(Flatten),得到的序列。

3.特殊Token与位置编码:

CLSToken:拼接一个可学习的向量到序列头部,用于后续汇聚全局分

类信息,此时序列长度变为197。

PositionEmbedding:最后加上一个同样形状的LearnablePositionEmbedding,

以保留空间位置信息,因为Transformer本身不具备平移不变性。

Q22:什么是梯度消失和梯度爆炸?如何缓解?

❌不好的回答示例:

梯度消失就是网络太深了,反向传播的时候梯度越乘越小,最后变成0了,前面几

层就没法更新参数。梯度爆炸就是反过来,梯度越乘越大,变成NaN了。缓解的方

法就是用ReLU激活函数,因为它导数是1。还有就是用BatchNormalization。或

者把网络层数弄少一点。

为什么这么回答不好:

1.数学本质解释不清:未能从链式法则(ChainRule)的角度解释连乘效应。即,

当多项小于1时消失,大于1时爆炸。

2.解决方案不系统:只是零散提到了ReLU和BN,未涵盖初始化策略(He/Xavier)和网络

结构设计(ResNetShortcut)这两个极其重要的方面。

3.爆炸的解法缺失:针对梯度爆炸,最直接且标准的工程解法是梯度裁剪(Gradient

Clipping),回答中未提及。

高分回答示例:

这两个问题都源于深度神经网络反向传播中的链式法则。梯度计算涉及连续矩阵乘

法:。

1.成因:

消失:当激活函数导数(如Sigmoid饱和区)或权重初始化过小,连乘后

梯度指数级衰减趋近于0,导致浅层参数无法更新。

爆炸:当权重初始化过大,连乘后梯度呈指数级增长,导致权重更新幅度过大,网络

不稳定甚至溢出(NaN)。

2.系统性缓解策略:

模型结构:使用ResNet残差连接。梯度可以通过Shortcut路径直接无损回传(

),是解决消失问题最有效的结构手段。

激活函数:使用ReLU或LeakyReLU。在正区间导数恒为1,避免了Sigmoid导数最

大只有0.25导致的衰减。

归一化:BatchNormalization将每层输入拉回标准正态分布,保证输入落在激活函

数的敏感区,且限制了权重的尺度。

初始化:采用He初始化(针对ReLU)或Xavier初始化(针对Tanh/Sigmoid),保持

每层输出方差一致。

针对爆炸:直接使用GradientClipping(梯度裁剪),设定阈值强制截断梯度范

数。

Q23:激活函数对比:Sigmoid、ReLU、LeakyReLU和GELU的优缺点

❌不好的回答示例:

Sigmoid是把输压缩到0到1,以前用的多,现在不怎么用了,因为它有梯度消失。

ReLU就是大于0的部分保留,小于0的变成0,计算很快,现在用的最多。

LeakyReLU就是给负数部分一个小斜率,不让它死掉。GELU好像是BERT里用

的,效果比较好,比较平滑。

为什么这么回答不好:

1.Sigmoid缺点不全:除了梯度消失,Sigmoid还存在非零中心化(NotZero-centered)

的问题,这会导致收敛变慢(Zigzagpath),这点常被忽略。

2.DeadReLU解释不清:提到“死掉”,但没解释清楚为什么会死掉(大梯度流经导致权重

更新过猛,偏置变负,之后永远落入负区间)。

3.GELU原理缺失:GELU是目前Transformer的标配,只说“平滑”不够,需要提到其概率解

释(Dropout思想+激活)。

高分回答示例:

激活函数的演进体现了对优化性质的追求。

1.Sigmoid:

缺点:极易导致梯度消失(导数最大0.25);输出非零中心化,导致梯度更新方向震

荡;包含幂运算,计算昂贵。目前主要仅用于二分类输出层。

2.ReLU(RectifiedLinearUnit):

优势:正区间导数为1,解决梯度消失;计算极快(仅阈值判断);收敛速度快。

缺点:DeadReLU问题。如果某个神经元输入落入负区间,梯度为0,该神经元可能

永远无法被激活。

3.LeakyReLU:

在负区间给予一个微小的斜率(如0.01),保证梯度能回传,解决了DeadReLU问

题,通常比ReLU稍好。

4.GELU(GaussianErrorLinearUnit):

特点:在Transformer中是SOTA。它结合了ReLU的性质和Dropout的随机性思想,可

以看作是期望下的ReLU:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论