2026年人工智能训练师数据质量检测实操试题及解析_第1页
2026年人工智能训练师数据质量检测实操试题及解析_第2页
2026年人工智能训练师数据质量检测实操试题及解析_第3页
2026年人工智能训练师数据质量检测实操试题及解析_第4页
2026年人工智能训练师数据质量检测实操试题及解析_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师数据质量检测实操试题及解析一、单选题(每题2分,共10分)1.在数据血缘追溯中,下列哪一项最能直接定位“脏数据”产生的根因?A.字段级数据字典B.行级哈希指纹C.列级统计摘要D.业务规则引擎日志2.对类别型变量做一致性检测时,若出现“同义不同词”现象,优先采用哪种技术?A.Jaro-Winkler距离B.Word2Vec平均向量余弦C.编辑距离+同义词林D.独热编码后欧氏距离3.对时间戳字段做异常值检测,给定分布右偏且存在季节周期,下列哪种方法最鲁棒?A.3σ准则B.IQRC.季节分解+MedianAbsoluteDeviationD.DBSCAN4.在图像数据质量报告中,发现“亮度直方图双峰但标签为单类”,应首先怀疑:A.标签错误B.过曝光C.色彩空间未归一化D.压缩伪影5.对文本数据做隐私合规扫描时,下列正则表达式哪条能最低误报地捕获中国护照号?A.`E[0-9]{8}`B.`P[0-9]{7}`C.`G[0-9]{8}`D.`S[0-9]{7}`二、多选题(每题3分,共15分,漏选、错选均不得分)6.下列哪些指标可直接用于衡量“数据新鲜度”?A.记录入库延迟B.上游系统最后更新时间C.数据被查询次数D.业务允许的最大滞后阈值7.在构建“数据质量规则知识库”时,必须包含的元数据有:A.规则编号B.责任人工号C.规则类型D.阈值参数E.风险等级8.对传感器数值流做漂移检测,可采用的统计量有:A.KL散度B.PopulationStabilityIndexC.Wasserstein-1距离D.卡方检验E.CUSUM9.在图像分类数据集里,发现“标签分布与真实世界分布差异>20%”,可能引起:A.模型置信度校准失效B.少数类召回骤降C.梯度消失D.过拟合风险上升10.对语音数据做质量评估时,下列哪些属于“信号域”指标?A.SNRB.PESQC.语速D.有效语音占比E.频带能量比三、判断题(每题1分,共5分,正确打“√”,错误打“×”)11.数据质量维度中的“可理解性”与“可解释性”在ISO25012中被定义为同一概念。12.对高维稀疏向量做缺失值填补,使用Simple-Imputer(strategy='mean')会引入虚假相似度。13.在联邦学习场景下,数据质量报告只需在中心节点生成,无需下发到参与方。14.对NLP数据做“词干还原”会降低拼写错误检测的召回率。15.若图像EXIF中GPS高度为负值,则该照片一定拍摄于地下。四、数据剖析与报告撰写(20分)16.给定文件`retail_2026Q1.csv`(100万行,12列),请完成以下任务并回写结果:(1)生成“列级缺失率”条形图,保存为`missing_rate.png`;(4分)(2)计算“price”列的数值异常率,异常定义为超出[Q1−3×IQR,Q3+3×IQR];(4分)(3)对“category”列做值域一致性检查,列出出现频率<0.01%的罕见值;(4分)(4)撰写一段≤150字的英文质量摘要,指出最严重的一个问题及其业务影响;(4分)(5)将上述结果打包为`profile_retail.json`,格式须符合JSONSchemav7;(4分)五、编程实操题(30分)17.异常协同检测文件:`sensor_matrix.npy`形状(10000,50),代表50个传感器30天的分钟级采样。任务:(1)用矩阵分解法定位协同异常片段,要求:a.采用RobustPCA,惩罚参数λ=0.0125×√max(n,m);(6分)b.输出异常评分矩阵`A_score.npy`,浮点32位;(4分)(2)对异常评分做二值化,阈值按FPR=0.5%自适应计算,保存`A_mask.npy`;(5分)(3)绘制热力图,x轴为传感器编号,y轴为时间(天),标红异常区域,保存`sensor_heatmap.png`;(5分)(4)统计每一天的异常传感器占比,写入`daily_anomaly_ratio.csv`,列名=`day,ratio`;(5分)(5)在代码头部注释中说明RobustPCA的数学假设及可能失效的场景,中英双语,各≤80字。(5分)18.文本标签纠错文件:`news_train.jsonl`含50000条中文新闻,字段`text`、`label`(共14类)。任务:(1)基于TF-IDF+余弦相似度,挖掘潜在错误标签Top200,输出`candidate_error.jsonl`,每条含`idx`,`pred_label`,`confidence`;(10分)(2)人工模拟校验预算仅允许抽查50条,设计不确定性采样策略,使得预期错误发现数最大,写出策略公式并保存`strategy.md`;(8分)(3)对最终确认的20条错误标签,生成混淆矩阵热图`confusion_fix.png`,要求对角线绿色,其余红色;(7分)(4)计算纠错后的宏平均F1预期提升值,写入`expected_gain.txt`,保留4位小数。(5分)六、综合案例分析(20分)19.背景:某市卫健委委托构建“电子病历质量实时监控系统”,数据每日增量80GB,涵盖结构化字段(患者ID、性别、年龄、ICD编码、药品编码)与非结构化文本(主诉、现病史)、影像(DR胸片)。要求:(1)设计一套“数据质量评分卡”,至少覆盖完整性、一致性、及时性、准确性、隐私合规五个维度,给出各维度量化公式、权重及阈值;(8分)(2)针对“ICD编码”字段,写一条可执行的质量规则(伪代码或Python),能捕获“主诊断码与年龄冲突”的案例,例如新生儿出现J44(慢阻肺);(4分)(3)对影像数据,说明如何在不落地原始DICOM的前提下,完成“隐私标签(如患者姓名)擦除”的流水线,要求列出所用开源库、关键函数及参数;(4分)(4)给出实时计算架构图(文字描述即可),并指出当“数据质量评分”低于80分时如何触发下游模型熔断机制。(4分)————————答案与解析————————一、单选题1.B 解析:行级哈希指纹可精确定位哪一行在哪一环节被篡改,是血缘追溯的“原子”证据。2.C 解析:编辑距离量化拼写差异,同义词林解决语义等价,组合后“同义不同词”召回最高。3.C 解析:季节分解先剔除周期,再用MAD,对右偏和异常值均鲁棒。4.A 解析:亮度双峰却单类标签,典型标签与视觉内容不一致。5.C 解析:中国普通电子护照号格式为G+8位数字。二、多选题6.ABD 解析:查询次数与新鲜度无直接因果。7.ACDE 解析:责任人工号属管理元数据,非质量规则知识库核心。8.ABCE 解析:卡方检验主要用于类别型,不适用于连续值流。9.ABD 解析:梯度消失与标签分布无直接因果。10.ABDE 解析:语速属“语义域”指标。三、判断题11.× 解析:ISO25012中“可理解性”指数据被用户理解的程度,“可解释性”指模型对数据决策的解释,属不同子维度。12.√ 解析:均值填补在稀疏高维场景会制造虚假共线性,抬高余弦相似度。13.× 解析:联邦学习要求参与方本地生成质量报告并加密上传,确保无数据出境。14.√ 解析:词干还原会把“flying→fly”,拼写错误检测字典需还原后才能匹配,召回下降。15.× 解析:GPS高度为负值也可能表示海平面以下航拍,未必地下。四、数据剖析与报告撰写(参考实现)```pythonimportpandasaspd,matplotlib.pyplotasplt,json,numpyasnpdf=pd.read_csv('/workspace/2026_aqdt/retail_2026Q1.csv')(1)missing=df.isnull().mean()plt.figure(figsize=(6,4))missing.sort_values().plot(kind='barh')plt.savefig('/workspace/2026_aqdt/missing_rate.png',dpi=300,bbox_inches='tight')(2)q1,q3=df['price'].quantile([0.25,0.75])iqr=q3q1lo,hi=q13iqr,q3+3iqrlo,hi=q13iqr,q3+3iqrout_rate=((df['price']<lo)|(df['price']>hi)).mean()(3)cat_vc=df['category'].value_counts(normalize=True)rare=cat_vc[cat_vc<0.0001].index.tolist()(4)summary="Themostsevereissueis7.3%missingvaluesin'discount'column,causingrevenueforecastbiasupto12%."(5)profile={"missing_rate":missing.to_dict(),"price_outlier_rate":round(out_rate,4),"rare_categories":rare,"summary":summary}withopen('/workspace/2026_aqdt/profile_retail.json','w')asf:json.dump(profile,f,ensure_ascii=False,indent=2)```评分标准:图像清晰、数值精确、JSON可验证、英文摘要无语法错误即得满分。五、编程实操题17.参考实现(核心片段)```pythonimportnumpyasnp,cv2,osfromnumpy.linalgimportsvdX=np.load('/workspace/2026_aqdt/sensor_matrix.npy').astype(np.float32)n,m=X.shapelambda_=0.0125np.sqrt(max(n,m))lambda_=0.0125np.sqrt(max(n,m))RobustPCAviaPrincipalComponentPursuitmu=nm/(4np.linalg.norm(X,ord=1))mu=nm/(4np.linalg.norm(X,ord=1))L=np.zeros_like(X)S=np.zeros_like(X)Y=np.zeros_like(X)for_inrange(500):updateLU,sigma,VT=svd(XS+Y/mu,full_matrices=False)sigma=np.maximum(sigma1/mu,0)L=U@np.diag(sigma)@VTupdateSS=np.sign(XL+Y/mu)np.maximum(np.abs(XL+Y/mu)lambda_/mu,0)S=np.sign(XL+Y/mu)np.maximum(np.abs(XL+Y/mu)lambda_/mu,0)updateYY=Y+mu(XLS)Y=Y+mu(XLS)ifnp.linalg.norm(XLS,'fro')<1e-6:breakA_score=np.abs(S)np.save('/workspace/2026_aqdt/A_score.npy',A_score.astype(np.float32))(2)自适应阈值flat=A_score.ravel()threshold=np.percentile(flat,1000.5)A_mask=(A_score>threshold).astype(np.uint8)np.save('/workspace/2026_aqdt/A_mask.npy',A_mask)(3)热力图plt.figure(figsize=(12,8))plt.imshow(A_mask.reshape(10000,50).T,aspect='auto',cmap='Reds')plt.colorbar(label='Anomaly')plt.xlabel('Time(min)')plt.ylabel('SensorID')plt.savefig('/workspace/2026_aqdt/sensor_heatmap.png',dpi=300)(4)每日占比daily=[]fordayinrange(30):idx=slice(day10000//30,(day+1)10000//30)idx=slice(day10000//30,(day+1)10000//30)ratio=A_mask[idx].mean()daily.append((day,ratio))pd.DataFrame(daily,columns=['day','ratio']).to_csv('/workspace/2026_aqdt/daily_anomaly_ratio.csv',index=False)```注释(中英双语):RobustPCAassumessparsenoise+low-rankstructure.Failswhennoiseiscolumn-correlatedorrankunbounded.RobustPCA假设噪声稀疏且背景低秩,若噪声列相关或秩无界则失效。18.文本标签纠错(1)核心代码```pythonfromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similarityimportjson,tqdmdata=[json.loads(line)forlineinopen('/workspace/2026_aqdt/news_train.jsonl')]texts=[x['text']forxindata]labels=[x['label']forxindata]vec=TfidfVectorizer(max_features=20000,ngram_range=(1,2))X=vec.fit_transform(texts)按label分组计算质心label2vec={}forlbinset(labels):mask=np.array(labels)==lblabel2vec[lb]=X[mask].mean(0)candidates=[]foridx,(tx,lb)inenumerate(tqdm.tqdm(zip(texts,labels),total=len(texts))):v=X[idx]scores={l:cosine_similarity(v,label2vec[l].reshape(1,-1))[0,0]forlinlabel2vec}pred_lb=max(scores,key=scores.get)ifpred_lb!=lbandscores[pred_lb]>0.8:candidates.append({'idx':idx,'pred_label':pred_lb,'confidence':float(scores[pred_lb])})candidates=sorted(candidates,key=lambdax:x['confidence'],reverse=True)[:200]withopen('/workspace/2026_aqdt/candidate_error.jsonl','w')asf:foritincandidates:f.write(json.dumps(it,ensure_ascii=False)+'\n')```(2)不确定性采样策略公式:U(x)=-其中Margin=p1−p2,λ=0.5。优先选择U(x)最大的50条。(3)混淆矩阵热图使用seaborn.heatmap,mask对角线后调色。(4)预期F1提升ΔF1=写入`expe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论