AI 模型效果评测技师考试试卷及答案_第1页
已阅读1页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

AI模型效果评测技师考试试卷及答案一、填空题(每题1分,共10分)1.分类模型中,正确预测的正例数占所有实际正例数的比例称为______。2.混淆矩阵中,TN表示______的数量。3.评估模型泛化能力的常用方法是______。4.ROC曲线的横轴是假阳性率,纵轴是______。5.针对不平衡数据集,常使用______作为核心评测指标(非准确率)。6.A/B测试中,两组用户需满足______原则以保证结果可比性。7.模型评测时,数据集通常划分为训练集、验证集和______。8.PR曲线下面积(AUC-PR)越______,模型性能越好。9.语言模型的______越低,说明对文本的预测越准确。10.多分类模型的宏平均是对每个类别计算指标后取______。答案:1.召回率2.真阴性3.交叉验证4.真阳性率5.F1分数6.随机分配7.测试集8.大9.困惑度10.算术平均二、单项选择题(每题2分,共20分)1.下列哪个指标不适合评估不平衡数据集?A.准确率B.精确率C.召回率D.F1分数2.完美分类器的ROC曲线AUC值为?A.0B.0.5C.1D.0.83.以下不属于离线评测方法的是?A.交叉验证B.混淆矩阵分析C.A/B测试D.困惑度计算4.精确率(Precision)的计算公式是?A.TP/(TP+FN)B.TP/(TP+FP)C.TN/(TN+FP)D.TN/(TN+FN)5.模型泛化误差指的是?A.训练集误差B.测试集误差C.验证集误差D.平均误差6.图像分类模型常用指标不包括?A.Top-1准确率B.Top-5准确率C.BLEUD.混淆矩阵7.A/B测试样本量计算的核心依据不包括?A.显著性水平B.统计功效C.预期效应量D.服务器配置8.混淆矩阵中FP表示?A.真阳性B.假阳性C.真阴性D.假阴性9.语言模型困惑度与性能的关系是?A.越高越好B.越低越好C.无关D.线性正相关10.多分类微平均的计算方式是?A.全局TP/FP等再算指标B.类别指标平均C.只算主要类别D.加权平均答案:1.A2.C3.C4.B5.B6.C7.D8.B9.B10.A三、多项选择题(每题2分,共20分,多选、少选均不得分)1.模型评测核心维度包括?A.准确性B.效率C.公平性D.可解释性E.成本2.分类模型评测指标有?A.准确率B.召回率C.精确率D.F1分数E.均方误差3.数据集划分常用比例(训练:验证:测试)是?A.6:2:2B.7:1:2C.8:1:1D.5:3:2E.9:0.5:0.54.不平衡数据集评测方法有?A.采样调整B.F1分数C.AUC-ROCD.AUC-PRE.仅看准确率5.离线评测优势包括?A.可控性强B.快速迭代C.不影响线上用户D.真实场景还原E.样本灵活6.文本生成模型评测指标有?A.BLEUB.ROUGEC.困惑度D.准确率E.均方根误差7.A/B测试关键步骤包括?A.确定目标指标B.样本量计算C.随机分组D.数据采集E.显著性检验8.混淆矩阵作用包括?A.计算分类指标B.识别错误类型C.分析类别不平衡D.评估公平性E.优化参数9.泛化能力差的原因包括?A.过拟合B.训练数据不足C.特征工程差D.模型复杂度低E.正则化过度10.公平性评测指标包括?A.差异率B.均等机会C.统计parityD.精确率差异E.召回率差异答案:1.ABCDE2.ABCD3.AC4.BCD5.ABCE6.ABC7.ABCDE8.ABCD9.ABC10.ABCDE四、判断题(每题2分,共20分,对打√,错打×)1.准确率越高,模型性能一定越好。()2.F1分数是精确率和召回率的调和平均。()3.ROC曲线适用于所有分类任务(含不平衡数据)。()4.交叉验证可完全避免过拟合。()5.A/B测试样本量越大,结果越可靠。()6.困惑度越低,语言模型预测能力越强。()7.多分类宏平均与微平均结果一定相同。()8.评测数据集应与训练集分布一致。()9.模型效率评测仅关注推理速度。()10.公平性评测是AI模型评测的必要环节。()答案:1.×2.√3.√4.×5.√6.√7.×8.√9.×10.√五、简答题(每题5分,共20分)1.简述精确率与召回率的区别及适用场景。答案:精确率是“预测为正例中实际为正例的比例(TP/(TP+FP))”,侧重预测准确,适合误判代价高的场景(如医疗阳性诊断、垃圾邮件过滤);召回率是“实际为正例中预测为正例的比例(TP/(TP+FN))”,侧重漏判少,适合漏判代价高的场景(如癌症筛查、反恐识别)。两者呈trade-off关系,需结合业务需求选择(如医疗优先召回,电商垃圾邮件优先精确)。2.什么是交叉验证?其作用是什么?答案:交叉验证是将训练集划分为k个互斥子集,每次用k-1个子集训练、1个子集验证,重复k次取平均的方法。作用:①充分利用有限数据,避免浪费;②减少单次验证的随机误差,使结果更稳定;③辅助选择最优模型参数(如正则化强度);④评估模型泛化能力,比单次验证更可靠(常用k=5或10)。3.简述A/B测试与离线评测的区别。答案:①场景:离线在模拟环境,A/B在真实线上;②可控性:离线可控(固定数据/变量),A/B受真实用户行为影响;③速度:离线快速(几小时到几天),A/B需等待足够样本(几天到几周);④指标:离线侧重模型性能(F1、准确率),A/B侧重业务指标(点击率、转化率);⑤风险:离线无用户风险,A/B若效果差可能影响体验。两者互补:离线迭代模型,A/B验证业务价值。4.为什么不平衡数据集不能仅用准确率评测?举例说明。答案:准确率=(TP+TN)/总样本,当数据集不平衡(如99%负例、1%正例),模型全预测负例准确率达99%,但完全漏判正例(召回率0),无法反映对少数类的识别能力。例如:癌症筛查中,假阴性(漏诊)代价极高,仅用准确率会掩盖漏诊问题;垃圾邮件过滤中,假阳性(误判正常邮件)代价高,仅用准确率无法体现误判情况。需结合F1、AUC-ROC等指标。六、讨论题(每题5分,共10分)1.如何平衡AI模型的准确性与公平性?结合场景说明。答案:平衡需从多环节入手:①数据层面:检查数据集偏见(如性别/种族不平衡),过采样少数类或增强数据;②模型层面:加入公平性正则项(如损失函数约束),用对抗去偏模型;③评测层面:同时监控准确性(F1)和公平性(均等机会、差异率);④业务层面:根据场景优先级调整(如医疗需优先公平,避免性别偏见漏诊)。例如:招聘AI模型,若男性样本占比高,需过采样女性样本,确保男女录用率差异<5%,避免歧视。2.文本生成模型自动评测指标(BLEU、ROUGE、困惑度)的局限性,及如何补充人工评测?答案:自动指标局限性:①BLEU侧重n-gram匹配,忽略语义错误(如“猫吃鱼”与“鱼吃猫”BLEU相近);②ROUGE适用于摘要,但无法判断内容相关性;③困惑度反映语言模型困惑度,不代表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论