2026年人工智能训练师数据标注实操真题模拟考试_第1页
2026年人工智能训练师数据标注实操真题模拟考试_第2页
2026年人工智能训练师数据标注实操真题模拟考试_第3页
2026年人工智能训练师数据标注实操真题模拟考试_第4页
2026年人工智能训练师数据标注实操真题模拟考试_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师数据标注实操真题模拟考试一、单选题(每题2分,共20分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在医疗影像分割任务中,若医生要求“将左心室心肌壁内外膜同时标注为同一类别”,下列做法最符合要求的是()A.使用多边形工具分别描边内膜与外膜,并赋予同一标签IDB.使用画笔工具粗略涂抹整个心肌壁区域,赋予同一标签IDC.使用语义分割工具,将内膜与外膜分别赋予不同标签,再合并D.使用实例分割工具,分别生成两个实例,再强制合并实例ID2.对一段60秒、采样率16kHz的单声道语音进行句级切分,已知首句能量峰值位于第0.8秒,末句能量峰值位于第57.3秒,若采用“能量谷值≤-25dB且持续≥300ms”作为切分准则,则理论上最多可切出句子的上限为()A.190B.191C.192D.1933.在3D点云车道线标注中,若雷达坐标系为右手系,X轴向前,Y轴向左,Z轴向上,则车道线点云在局部坡度为+3%的路段上,其纵向偏差主要体现为()A.X值随Z值增大而系统性偏大B.X值随Z值增大而系统性偏小C.Y值随Z值增大而系统性偏大D.Y值随Z值增大而系统性偏小4.对一段4K50fps的视频做目标跟踪,若采用“IOU>0.5且外观特征余弦相似度>0.75”作为匹配条件,则下列哪种情况最可能导致ID-switch()A.目标被遮挡8帧后重新出现,外观光照不变B.目标被遮挡15帧后重新出现,外观光照轻微变化C.目标被遮挡5帧后重新出现,外观光照剧烈变化D.目标被遮挡3帧后重新出现,外观光照不变5.在文本情感四分类(喜、怒、哀、惧)任务中,若原始标注员A与仲裁员B对同一条评论独立标注,结果分别为“怒”与“惧”,下列仲裁策略最合理的是()A.直接采纳仲裁员B结果B.召集第三位仲裁员C,取多数投票C.回溯评论上下文,若含威胁性词汇则改为“怒”D.标记为“模糊样本”,留作后续一致性训练6.对一份PDF扫描合同进行OCR后,发现某字段“年化利率8.5%”被识别为“年什利率8.S%”,下列正则表达式可一次性捕获并修正该错误的是()A.r'年([化什])利率(\d\.\d)%'B.r'年([化什])利率(\d\.\d)%'替换为r'年化利率\2%'C.r'年([化什])利率(\d\.[\dS])%'替换为r'年化利率\2%'D.r'年([化什])利率(\d\.[\dS])%'替换为r'年化利率{re.sub("S","5",\2)}%'7.在无人车夜视红外图像中,若行人目标与背景温差<0.5℃,下列增强方式最能提升标注精度的是()A.直方图均衡化B.CLAHE(限制对比度自适应直方图均衡)C.伪彩色映射+边缘锐化D.高斯滤波后再直方图均衡化8.对一段中文对话做意图标注,若用户语句为“我就随便看看”,系统预标注为“Browse”,但质检发现用户后续立即下单,则该样本应被标记为()A.负样本(意图错标)B.正样本(意图正确)C.噪声样本,直接丢弃D.意图改为“Purchase”,并标记为强时序依赖9.在2D人体关键点任务中,若图像分辨率从1920×1080降采样到960×540,原坐标(840,520)的关键点应映射到新坐标()A.(420,260)B.(420,259)C.(421,260)D.(421,259)10.对一份法律文书中“甲方住所地”进行实体抽取,若出现“甲方主要办事机构所在地位于北京市朝阳区建国门外大街1号”,则该实体边界最合适的BIO标注为()A.B-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地B.B-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地C.B-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地/OD.B-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地/I-住所地二、多选题(每题3分,共15分。每题有两个或两个以上正确答案,请将所有正确选项字母填入括号内,漏选、错选均不得分)11.下列关于“人脸关键点98点”标注质量检查的说法,正确的有()A.左右眼瞳孔中心点水平距离之差不得超过2pxB.嘴角点应位于唇缘外侧边缘,不可落入口腔内部C.鼻尖点应位于鼻小柱中点,不可偏移至鼻翼D.眉毛上缘点应位于眉毛像素最上沿,允许1px误差E.下颌轮廓点需沿下颌骨边缘均匀分布,间隔不得超过5px12.在自动驾驶语义分割数据集中,若要求“可行驶区域”不包含“对向车道”,则下列属于必须额外标注的类别有()A.道路边缘线B.道路中心线C.自车道箭头D.对向车道箭头E.停止线13.对一段中文语音做音素级对齐,若采用MontrealForcedAligner,下列做法可能导致对齐失败的有()A.字典缺失轻声音节B.音频采样率22050Hz,而声学模型训练采样率为16000HzC.文本中存在阿拉伯数字“2026”未正则化为“二零二六”D.音频首尾含>5秒静音未裁剪E.文本与音频语言方向不一致(文本简体,音频粤语)14.在电商评论属性抽取中,若评论为“裙子颜色比图片深,但面料很垂,总体满意”,下列属性-观点-情感三元组标注正确的有()A.(颜色,比图片深,负)B.(面料,很垂,正)C.(版型,很垂,正)D.(总体,满意,正)E.(裙子,满意,正)15.对一份20小时英文播客进行说话人日志(SpeakerDiarization),若要求“说话人数量≤4”,下列指标可直接用于评估系统输出质量的有()A.DER(DiarizationErrorRate)B.JER(JaccardErrorRate)C.BLEUD.CPWER(ConcatenatedMinimum-PermutationWordErrorRate)E.MSI(MisclassificationIndex)三、判断题(每题1分,共10分。正确请填“√”,错误填“×”)16.在3Dboundingbox标注中,若物体中心Z坐标为负值,则说明该物体位于相机坐标系下方,此说法正确。()17.对图像做旋转增强时,若旋转角θ=17°,则采用最近邻插值比双线性插值更能保持边缘锐度,因此标注员可直接在旋转后图像上微调框,无需回原图。()18.在命名实体识别中,若出现嵌套实体“北京协和医院”,且任务仅需识别“医院”类实体,则标注“北京协和医院”整体为“医院”类别即可,无需拆分。()19.对视频目标跟踪,若采用DeepSORT,其外观特征提取网络在夜间红外场景下无需重训练也可直接复用白天可见光模型,因为ReIDbackbone具有域不变性。()20.对OCR后文本进行实体链接时,若候选实体得分相同,优先选择维基百科点击量更高的实体,此策略在学术文献场景下同样可靠。()21.在语音情绪识别中,若标注员仅依据文本内容“太好了”而标记为“Happy”,却忽略语音基频均值仅为120Hz且能量单调下降,则该标注属于“语境-音频不一致”错误。()22.对激光雷达点云做地面滤除时,若采用RANSAC平面拟合,设置阈值0.2m,则坡度>15%的桥面点云可能被误滤除,导致后续车道线点缺失。()23.在医疗影像AI标注中,DICOM标签(0020,0032)定义的是图像像素间距,可用于将像素坐标转换为物理坐标,该说法正确。()24.对文本进行关系抽取时,若句子为“张三与李四是夫妻”,则头实体为“张三”,尾实体为“李四”,关系为“配偶”,该标注顺序不可颠倒,否则会导致模型训练阶段负采样失败。()25.在数据标注项目交付前,采用“双人盲标+第三人仲裁”模式,可将一致性指标Kappa从0.78提升至0.92,但项目成本约增加1.8倍,此结论在业界已被多案例验证。()四、实操题(共35分。请根据要求完成标注或计算,将答案写入指定区域)26.【语音分割与标注】(8分)素材:提供一段时长30秒、16kHz单声道wav文件,内容为中文客服对话,首句为“您好,很高兴为您服务”,末句为“感谢您的来电,再见”。请完成:(1)使用Praat软件,以“能量谷值≤-30dB且持续≥200ms”为切分准则,给出所有句子起止时间戳(精确到0.01秒);(2)将第3句文本“我帮您查询一下”做音素级对齐,输出对应的BIESO标签序列(采用普通话通用音素集,轻声不标调)。答题区:(1)时间戳列表:(2)BIESO序列:27.【2D目标检测微调】(9分)素材:提供一张2048×1536街景jpg,内含3辆小汽车、1辆公交车、2辆自行车,均已用矩形框初标。请完成:(1)检查初标框,若框与目标最小外接框IOU<0.95,则给出修正后的左上角、右下角坐标(整数像素);(2)对公交车,若存在“车窗”可透视看见车内乘客,需在原框内部再嵌套一个“可见车窗”子框,子框类别ID=“bus_window”,给出子框坐标;(3)计算修正后所有框的总面积占图像比例,以百分数表示,保留两位小数。答题区:(1)修正坐标:(2)子框坐标:(3)面积占比:28.【3D点云车道线精修】(9分)素材:提供一段100m长的高速公路点云(已做地面滤除),坐标系为ROS标准“X前Y左Z上”,单位米。请完成:(1)用CloudCompare手工补全缺失的左侧车道线点,要求补全点间隔≤0.5m,高度与地面平行,给出补全后点集(X,Y,Z)CSV(保留3位小数);(2)对补全后的左侧车道线,采用三次B样条平滑,节点向量步长1m,给出0m、25m、50m、75m、100m处的曲率κ,保留4位小数;(3)若车道线宽为0.2m,请计算补全+平滑后的车道线点云与原始右侧车道线之间的平均横向距离,公式:¯D=答题区:(1)CSV(节选前10行):(2)曲率κ:(3)平均横向距离:29.【医疗影像DICOM脱敏与掩膜】(9分)素材:提供一张腹部CT增强动脉期DICOM,矩阵512×512,像素间距0.703mm×0.703mm,需完成:(1)使用ITK-SNAP,手动勾画“腹主动脉”横截面(层厚1mm),要求沿Z轴从腹腔干起始至髂总分叉共40层,给出每层掩膜像素数;(2)若窗宽/窗位设为400/60HU,则计算腹主动脉平均CT值,公式:¯H=其中P_i为掩膜内像素,H_i为像素HU值;(3)将DICOM头文件中的患者姓名、生日、医院名称做哈希脱敏,给出SHA-256(小写hex)前8位。答题区:(1)像素数列表(节选前5层):(2)平均CT值:(3)哈希前8位:五、综合设计题(共20分)30.某城市欲构建“夜间垃圾焚烧事件”视觉检测系统,需利用道路监控摄像头视频(1080p25fps)进行数据标注。请设计一套“数据标注-质检-迭代”闭环方案,要求:(1)列出需标注的实体/事件类别及最小粒度;(2)给出标注工具链(含开源/商业方案)与格式;(3)设计双人盲标+仲裁流程,计算在预算仅允许每人每小时标注50事件帧的条件下,如何在一周内完成10万事件帧的标注并保证Kappa≥0.90;(4)说明如何利用主动学习减少后续30%标注量,给出不确定性采样函数公式;(5)阐述如何规避“火光被误标为车灯”的混淆,给出至少两条数据层面策略。答题区:(1)类别与粒度:(2)工具链与格式:(3)流程与人力计算:(4)主动学习函数:(5)混淆规避策略:【答案与解析】一、单选题1.B解析:内膜与外膜在同一类别下只需整体涂抹,无需分离。2.B解析:60÷0.2=300理论窗,300+1=301,但首尾峰值已占0.8与57.3,剩余56.5秒,56.5÷0.2≈282,282+1=283,综合边界效应最大191句。3.A解析:坡度+3%表示Z增加时X随之增加,故X值系统性偏大。4.C解析:外观剧烈变化+遮挡最易突破阈值。5.D解析:情感模糊需单独标记,用于后续一致性训练。6.C解析:捕获“什”与“S”两种错误并统一修正。7.C解析:伪彩色+边缘锐化最能提升人眼分辨。8.A解析:意图与行为不符,属负样本。9.B解析:840/2=420,520/2=260,但520为奇数,向下取整259。10.A解析:所有字符均纳入住所地实体。二、多选题11.BDE12.BD13.ABCDE14.ABD15.ABE三、判断题16.√17.×解析:旋转后需回原图微调,否则误差累积。18.√19.×解析:夜间红外域差异大,需重训练。20.×解析:学术文献实体链接需基于知识库而非点击量。21.√22.√23.×解析:(0020,0032)是图像位置,像素间距为(0028,0030)。24.×解析:关系方向由模型决定,标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论