版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年人工智能训练师异常值处理实操考核试题1单选题(每题2分,共20分)1.1在图像分割数据集中,某张512×512像素的掩膜出现单个孤立白点(面积=1像素),最合理的首轮处理策略是A直接删除整张图像B使用3×3中值滤波C标记为“忽略像素”并在损失函数中赋零权重D用双线性插值放大到1024×1024再训练1.2时间序列传感器数据以1Hz采集,连续30s内出现一次40℃的跳变,相邻值均为22℃。采用IQR法则时,若Q1=21.8℃、Q3=22.4℃,则该点A必为异常B必为正常C需结合传感器精度指标再判断D需用Grubbs检验补测1.3在文本分类任务中,某训练样本的标签字段为“{-1:0.97,3:0.02,7:0.01}”,已知标签字典仅有0~6类,正确的处理方式是A保留并视为多分布标签B把-1映射为0继续训练C判定为标注异常并触发人工复核D用softmax重新归一化1.4使用孤立森林检测多维特征异常时,若设置n_estimators=200、max_samples=256,当某样本平均路径长度=6.2,则其异常得分最接近A0.91B0.50C0.21D−0.101.5在联邦学习场景下,客户端上传的梯度范数‖g‖₂突然增大100倍,服务器端最优先的异常处理动作是A立即聚合B丢弃该客户端本轮更新C用median-of-means聚合D降低学习率0.01倍再聚合1.6对表格数据做One-Hot后,某一列全为0,其余列正常,则该列A必含异常B必为冗余C可能为固定缺失,需回溯原始业务D可直接删除且无需记录1.7在音频数据增强流水线中,若随机裁剪导致某段波形全为0,检测该异常的最佳域是A时域能量B频域MFCCC相位谱D复数域STFT1.8采用AutoEncoder重构误差阈值法时,若验证集95%分位误差=0.042,则阈值设置0.05会A提高召回率B降低精确率C提高F1D无影响1.9在图神经网络中,节点特征出现NaN,最鲁棒的聚合方式是A求和B均值C最大值D加权求和且权重归一化跳过NaN1.10对于带权重的回归任务,若某样本权重=−3,正确的处理是A取绝对值后训练B视为异常并剔除C用权重截断为0D报错并终止训练2多选题(每题3分,共15分;多选少选均不得分)2.1下列哪些做法可能引入“伪异常”A对右偏分布取对数后再用3σ准则B在数据增强阶段使用CutMixC将uint16图像直接除以65535转为floatD对类别型变量用TargetEncoding后未做交叉验证2.2关于时间序列滑动窗口异常检测,正确的有A窗口越大,延迟越高B窗口越小,对突变越敏感C窗口大小与采样频率无关D使用指数加权移动平均可降低相位滞后2.3在CV领域,以下哪些异常属于“标签异常”A目标框坐标超出图像边界B类别ID大于预设num_classesC图像EXIF显示拍摄日期在未来D分割掩膜出现非零值不在类别列表2.4使用GAN做异常检测时,判别器损失突然降至0,可能原因A生成器崩溃B判别器过拟合C学习率过高D梯度惩罚系数λ过大2.5在NLP任务中,以下哪些信号可直接用于触发“回退到人工”A模型对某样本预测熵>0.9B该样本长度>mean+3σC该样本包含OOV比例>30%D该样本被BERTtokenizer截断3判断题(每题1分,共10分;正确打“√”,错误打“×”)3.1对于高维稀疏向量,cosine距离比欧氏距离更容易产生异常误判。3.2在医疗影像中,只要像素值在[0,255]范围内就不存在异常。3.3使用Z-score时,若总体服从t分布,则阈值仍可取±3。3.4在流式训练场景,可用ReservoirSampling保存异常候选。3.5对类别不平衡数据,异常样本通常属于少数类。3.6若LSTM输入序列含NaN,可采用masking层跳过。3.7在联邦学习中,Byzantine攻击者可能上传反向梯度。3.8对表格数据做PCA后,第一主成分方差贡献率<5%可直接丢弃。3.9使用LOF时,k=1会导致分母为零。3.10对文本数据,若TF-IDF后某特征列方差=0,则该列一定无信息。4填空题(每空2分,共20分)4.1给定样本x∈ℝᵈ,采用马氏距离检测异常,其公式为Dₘ(x)=__________,其中Σ为__________。4.2在图像分类中,若某张图片的Softmax最大概率=0.9999,第二大概率=0.0001,则其预测置信度熵H≈__________(保留3位小数)。4.3使用指数加权移动平均EWMA(zₜ)=αxₜ+(1−α)zₜ₋₁,若α=0.05,则约__________步后权重衰减至初始值的1/e。4.4在SQL数据探查阶段,计算列级缺失率应使用函数__________。4.5对于音频采样率16kHz,若采用帧长25ms、帧移10ms,则每帧样本点数为__________,相邻帧重叠__________样本点。4.6在PyTorch中,若需忽略NaN计算损失,可用torch.nan__________函数。4.7使用孤立森林时,异常得分s(x)取值范围是__________。4.8在CV领域,若边界框格式为[x,y,w,h],则面积=__________。4.9对时间序列做季节性分解时,经典加法模型写为yₜ=__________+__________+__________。4.10在联邦学习安全聚合中,若采用TrimmedMean,需剔除最高__________%和最低__________%的梯度坐标。5简答题(每题5分,共15分)5.1说明在视频行为识别任务中,如何结合光流与RGB双流结果,设计一套异常片段自动定位方案,要求对“突然黑屏”与“标签跳变”两类异常分别给出触发条件与回退策略。5.2描述在推荐系统冷启动阶段,如何利用用户侧实时行为流(点击、停留、滑走)构建异常检测流水线,以识别“爬虫账号”与“误标注正反馈”,并给出特征工程与模型选型理由。5.3当训练数据为医疗时序波形(ECG),但标签来自不同医院且采样率不一致,请给出端到端的异常值治理流程,涵盖采样率统一、标签对齐、专家复核、版本控制四个环节,并指出各环节最易引入新异常的风险点。6计算与实操题(共70分)6.1统计检验(10分)某传感器连续记录50个温度值(单位:℃):[22.1,22.0,22.2,22.1,22.0,22.3,22.1,22.2,22.0,40.2,22.1,22.2,22.0,22.1,22.3,22.2,22.1,22.0,22.2,22.1,22.0,22.1,22.3,22.2,22.0,22.1,22.2,22.1,22.0,22.2,22.1,22.0,22.3,22.2,22.1,22.0,22.2,22.1,22.0,22.1,22.3,22.2,22.0,22.1,22.2,22.1,22.0,22.2,22.1,22.0](a)用Grubbs检验判断40.2是否为异常,显著性水平α=0.05。(b)若剔除该点后,再用IQR法是否还能检出新的异常?给出过程。6.2高维异常得分(10分)已知样本x=[3,5,7,2]ᵀ,总体均值μ=[2,4,6,1]ᵀ,协方差矩阵Σ=[[1,0.5,0,0],[0.5,2,0,0],[0,0,1,0.3],[0,0,0.3,1]]请计算马氏距离Dₘ(x)并判断其在χ²₀.₀₅(4)临界值9.488下是否异常。6.3孤立森林得分(10分)设某二维数据点x=(10,10),训练集服从N([0,0],I)。已知孤立森林树深极限log₂(256)=8,若x在200棵树中平均路径长度l(x)=4.5,请用标准公式s(x)=2^{−l(x)/c(n)},其中c(n)=2H(n−1)−2(n−1)/n,H(k)为调和数,n=256,计算s(x)并解释其含义。6.4时间序列平滑与突变检测(15分)给出Python代码模板,要求:(1)用pandas读取CSV(字段:timestamp,value),完成缺失值向前填充;(2)实现EWMA平滑,α=0.08;(3)计算平滑后序列的3σ区间,标记超出点为异常;(4)对连续异常段≥3个点输出起止时间;(5)将异常段原始值替换为线性插值,并写回新CSV。请补全缺失代码并给出核心行注释。6.5图像标签异常自动修复(15分)某目标检测数据集标签格式为YOLO:每行“classx_centery_centerwidthheight”,坐标归一化到[0,1]。现发现部分行出现负坐标或>1。(a)设计正则表达式提取五字段并校验范围;(b)对轻微越界(∈[−0.02,1.02])采用裁剪到边界,严重越界直接删除;(c)若裁剪后宽高<0.001,视为无效框删除;(d)统计修复前后标签数量并输出日志。请写出完整Python脚本,要求用argparse接收输入输出路径,日志含UTC时间。6.6模型级异常溯源(10分)某分类模型在验证集突然下降6%,经排查发现新增5万条“干净”数据。给出基于“影响函数”(InfluenceFunction)估算最具危害样本的完整推导与实现步骤,要求:(1)写出损失梯度和Hessian近似公式;(2)说明如何无需存储n×n矩阵即可近似计算;(3)给出PyTorch伪代码,筛选影响力最大的前10条样本;(4)说明如何人工复核并决定是否回滚。7综合设计题(20分)场景:某城轨公司每日产生1.2亿条车载振动数据(采样率1kHz,三轴),需构建实时异常检测系统,以识别轨道裂缝、车轮扁疤、信号干扰三类异常。数据经边缘网关上传至Kafka,延迟<200ms。任务:(1)设计边缘端预处理流水线,包含去噪、降采样、特征提取、缓存策略;(2)选择两种算法(一为轻量级,一为高精度),说明触发条件、资源消耗、互补机制;(3)给出云端复核与标注回流机制,确保模型周级更新;(4)说明如何在不泄露列车编号、位置的前提下,完成跨线路联邦训练;(5)给出评估指标、灰度发布、降级方案。要求:画系统架构图(文字描述即可),列出各模块输入输出、数据格式、异常码表,并估算边缘端内存占用峰值。卷后答案与解析1单选题答案1C2C3C4A5B6C7A8B9D10B解析:1.1单像素白点多为椒盐噪声,中值滤波易破坏边缘,赋零权重最稳妥。1.4路径长度越短得分越接近1,公式计算得s≈0.91。2多选题答案2.1AD2.2ABD2.3ABD2.4ABC2.5AC3判断题答案3.1√3.2×3.3×3.4√3.5√3.6√3.7√3.8×3.9√3.10×4填空题答案4.1Dₘ(x)=√[(x−μ)ᵀΣ⁻¹(x−μ)],Σ为协方差矩阵4.2H≈0.0064.3约20步4.4COUNT()-COUNT(column)4.4COUNT()-COUNT(column)4.5400,1604.6torch.nansum或torch.nanmean4.7[0,1]4.8w×h4.9yₜ=Trendₜ+Seasonalₜ+Residualₜ4.10各剔除k%,通常k=205简答题答案要点5.1黑屏:RGB帧平均亮度<5且光流平均幅值<0.5持续≥5帧→触发;标签跳变:相邻帧预测类别不一致且置信度均>0.8→人工复核。回退:自动降权该片段损失,次日人工确认后重训。5.2特征:点击间隔熵、滑走加速度、会话时长、UA、IP变动频率;模型:在线LOF+轻量GBDT;爬虫:间隔熵极低且UA模板化;误标注:滑走后端打标为正→置信度低→回退。5.3采样率统一:重采样至500Hz,用抗混叠滤波;标签对齐:动态时间规整+人工锚点;专家复核:版本对比工具高亮差异;版本控制:DVC+GitLFS;风险:重采样引入吉布斯波纹、对齐误差不一致。6计算与实操题答案6.1(a)均值x̄=22.46,s=2.58,G=|40.2−22.46|/2.58=6.89,查Grubbs临界值G₀.₀₅,50≈2.96,6.89>2.96→异常。(b)剔除后n=49,Q1=22.0,Q3=22.2,IQR=0.2,上下界=[21.7,22.5],无点超出→无新异常。6.2Σ⁻¹经计算得[[1.33−0.3300][−0.330.6700][001.1−0.33][00−0.331.1]](x−μ)ᵀΣ⁻¹(x−μ)=4.0,Dₘ=2.0<√9.488→不异常。6.3H(n−1)≈ln(n)+0.577=5.55+0.577=6.127,c(n)=2×6.127−2×255/256≈10.25,s(x)=2^(−4.5/10.25)≈0.73,属高度异常。6.4核心代码```pythonimportpandasaspd,numpyasnp,datetimedf=pd.read_csv('data.csv',parse_dates=['timestamp'])df['value']=df['value'].ffill()alpha=0.08df['smooth']=df['value'].ewm(alpha=alpha).mean()res=df['value']-df['smooth']sigma=res.std()df['upper']=df['smooth']+3sigmadf['upper']=df['smooth']+3sigmadf['lower']=df['smooth']-3sigmadf['lower']=df['smooth']-3sigmadf['flag']=(df['value']>df['upper'])|(df['value']<df['lower'])连续异常≥3df['grp']=(~df['flag']).cumsum()ranges=df[df['flag']].groupby('grp').agg(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合肥市西市区2025-2026学年第二学期五年级语文期末考试卷(部编版含答案)
- DB43-T 2801-2023 石菖蒲采收与产地初加工技术规程
- 邢台市内丘县2025-2026学年第二学期五年级语文第七单元测试卷(部编版含答案)
- 喀什地区泽普县2025-2026学年第二学期五年级语文期末考试卷(部编版含答案)
- 2026初中新学期新责任课件
- 2026年滨州中考语文试卷及答案
- 2026年人类智慧考试试题及答案
- 2026初中感恩教育开学第一课课件
- 人力资源规划模板战略导向
- 科技成果转化义务与承诺书8篇
- 北京市2025国家发展和改革委员会城市和小城镇改革发展中心面向应届毕业生招聘1人笔试历年参考题库典型考点附带答案详解
- 街道办反邪教工作制度
- 2026年教案合集2026年春人教版八年级下册英语Unit 1~Unit 8全册教案新版
- 产业基金设立方案
- 2026年数字化供应链标准研制与贯标试点
- 2026济南市第七人民医院公开招聘派遣制工作人员(2名)考试参考试题及答案解析
- 邮政营业员复习题集
- 浙江省2024年中考数学试卷【附真题答案】
- 儿科误吸的应急预案
- 细节决定成败课件
- JJF(纺织) 027-2010 染色摩擦色牢度仪校准规范
评论
0/150
提交评论