大模型训练数据清洗标注技师考试试卷及答案_第1页
大模型训练数据清洗标注技师考试试卷及答案_第2页
大模型训练数据清洗标注技师考试试卷及答案_第3页
大模型训练数据清洗标注技师考试试卷及答案_第4页
大模型训练数据清洗标注技师考试试卷及答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大模型训练数据清洗标注技师考试试卷及答案试题部分一、填空题(每题1分,共10分)1.常用开源标注工具除Labelbox、Prodigy外,还有______2.数据清洗中重复数据的核心处理方法是______和合并去重3.NER标注任务的全称是______4.标注的核心原则包括客观性、一致性和______5.大模型训练数据清洗的第一步是______6.标注歧义处理需遵循______优先原则7.文本数据去除特殊符号属于______清洗8.图像目标检测标注框常见格式是______9.标注质量控制的方法有抽检、复核和______10.大模型训练数据需满足高质量、多样性和______二、单项选择题(每题2分,共20分)1.以下不属于数据清洗步骤的是?A.数据收集B.数据去重C.数据标注D.数据验证2.标注矛盾优先参考的是?A.个人经验B.业务规则C.他人结果D.口头要求3.属于序列标注的任务是?A.图像分类B.实体识别C.目标检测D.图像分割4.缺失值处理不包括的方法是?A.删除行B.填充均值C.填充众数D.随机生成5.标注的主要目的是?A.提高美观度B.提供监督信号C.减少数据量D.简化格式6.开源免费的标注工具是?A.LabelStudioB.LabelboxC.ProdigyD.SageMakerGroundTruth7.标注一致性的核心是?A.结果完全相同B.符合业务定义C.速度一致D.人数足够8.去除停用词的目的是?A.减少噪声B.增加数据量C.提高可读性D.统一格式9.语义分割的标注要求是?A.像素分类B.画boundingboxC.图像打标签D.标注关键点10.属于标注错误的是?A.漏标实体B.框覆盖90%目标C.按规则分类D.保留最新记录三、多项选择题(每题2分,共20分)1.数据清洗的内容包括?A.去重B.去噪C.补全缺失值D.格式统一2.标注质量控制措施有?A.标注培训B.实时质检C.复核D.冲突解决3.文本标注任务包括?A.NERB.文本分类C.情感分析D.语义分割4.训练数据需具备的特性是?A.高质量B.多样性C.代表性D.低噪声5.缺失值处理方法有?A.删除法B.填充法C.插值法D.忽略法6.标注工具核心功能包括?A.任务创建B.标注操作C.质量监控D.数据导出7.图像标注任务包括?A.目标检测B.图像分类C.关键点标注D.语义分割8.标注原则包括?A.客观性B.一致性C.准确性D.效率性9.数据噪声类型包括?A.重复数据B.异常值C.格式错误D.缺失值10.标注冲突解决方式有?A.参考业务规则B.咨询主管C.交叉验证D.随机选择四、判断题(每题2分,共20分)1.标注人员可自行修改标注规则()2.所有缺失值必须删除()3.训练数据不需要多样性()4.标注一致性指不同人员结果一致()5.所有停用词都需去除()6.标注框越精确越好()7.标注前无需培训()8.异常值都是错误数据()9.开源工具功能不如付费工具()10.抽检比例越高质量越好()五、简答题(每题5分,共20分)1.简述大模型训练数据清洗的主要步骤2.标注质量控制的常用方法有哪些?3.文本NER标注的要点是什么?4.图像目标检测的标注要求是什么?六、讨论题(每题5分,共10分)1.如何平衡训练数据多样性与标注成本?2.标注歧义时应如何处理?答案部分一、填空题答案1.LabelStudio2.删除去重3.命名实体识别4.准确性5.数据收集与初步筛选6.业务场景7.格式8.VOC/COCO格式9.交叉验证10.代表性二、单项选择题答案1.C2.B3.B4.D5.B6.A7.B8.A9.A10.A三、多项选择题答案1.ABCD2.ABCD3.ABC4.ABCD5.ABC6.ABCD7.ABCD8.ABC9.BCD10.ABC四、判断题答案1.×2.×3.×4.√5.×6.√7.×8.×9.×10.√五、简答题答案1.①数据收集与初步筛选,去除明显无效样本;②数据去重,删除重复/近似重复数据;③缺失值处理,采用删除、填充等方法补全;④噪声去除,清理格式错误、异常值;⑤格式统一,转换为模型要求格式;⑥数据验证,检查清洗后数据的准确与完整性。2.①标注前培训,确保理解规则;②实时质检,标注中实时检查;③交叉复核,多人重复标注核对;④抽检机制,定期随机抽检查质量;⑤冲突解决流程,按业务规则处理矛盾;⑥量化评估,用准确率、一致性等指标评估质量。3.①明确实体类型(人名、地名等);②标注边界准确,完整包含实体字符;③一致性,不同人员标注的类型与边界一致;④歧义处理,按业务规则明确多义实体;⑤避免漏标/错标,确保所有实体正确标注。4.①标注框准确覆盖目标,无偏移遗漏;②目标类型标注正确,符合预设类别;③避免重叠标注,同一目标只标一次;④格式统一(如VOC的<xmin,ymin,xmax,ymax>);⑤一致性,不同人员的框与类别标注一致。六、讨论题答案1.①分层抽样,按场景/类型比例抽样,保证多样性同时控制总量;②优先标注高价值数据,聚焦对模型影响大的样本;③半监督标注,用少量标注数据训练模型,再标注未标注数据;④优化流程,减少重复工作;⑤自动化辅助

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论