下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据质量工程师考试试卷及答案一、填空题(每题1分,共10分)1.数据质量核心维度中,“数据符合业务规则和实际情况”指的是______性。2.数据质量评估流程第一步通常是明确______。3.常用数据质量检查工具包括______(举1个)。4.“完全随机缺失”的缩写是______。5.数据一致性指不同数据源同一数据项的______一致。6.PDCA循环中,数据质量管控的“A”代表______。7.描述数据结构的元数据是______元数据。8.数据重复的常见类型包括精确重复和______重复。9.数据质量报告的核心是呈现______和改进建议。10.数据质量治理的最高层组织是______。二、单项选择题(每题2分,共20分)1.以下不属于数据质量维度的是?A.准确性B.完整性C.可扩展性D.时效性2.检查“客户年龄为负数”属于哪种问题?A.缺失B.错误C.重复D.不一致3.GreatExpectations的核心功能是?A.数据抽取B.质量测试C.数据存储D.数据分析4.“数据项存在必要值”对应的维度是?A.完整性B.准确性C.一致性D.有效性5.处理模糊重复的常用方法是?A.精确匹配B.Levenshtein距离算法C.删除行D.手动核对6.“识别问题后制定改进措施”属于数据质量哪个阶段?A.评估B.监控C.改进D.规划7.描述数据业务含义的元数据是?A.技术元数据B.业务元数据C.操作元数据D.统计元数据8.数据时效性差的原因不包括?A.更新延迟B.传输慢C.格式错误D.系统同步问题9.数据质量治理的关键角色是?A.数据科学家B.数据质量工程师C.前端开发D.产品经理10.“不同系统同一客户ID姓名不一致”属于?A.不一致B.错误C.缺失D.重复三、多项选择题(每题2分,共20分)1.数据质量核心维度包括()A.准确性B.完整性C.一致性D.时效性E.可访问性2.数据质量问题常见类型有()A.缺失值B.重复数据C.格式错误D.不一致E.过时数据3.数据质量评估方法有()A.规则检查B.统计分析C.抽样验证D.元数据分析E.手动核对4.数据质量管控步骤包括()A.需求定义B.评估分析C.问题修复D.监控预警E.持续改进5.模糊重复匹配算法有()A.Levenshtein距离B.Jaccard相似度C.精确匹配D.余弦相似度E.哈希匹配6.数据质量治理角色包括()A.数据治理委员会B.质量负责人C.业务数据所有者D.技术团队E.终端用户7.缺失值处理方法有()A.删除行B.填充默认值C.均值填充D.模型预测填充E.忽略8.数据质量工具分类包括()A.评估工具B.监控工具C.修复工具D.治理工具E.分析工具9.时效性评估指标包括()A.更新频率B.延迟时间C.有效期D.准确率E.完整性10.数据质量报告核心内容包括()A.评估范围B.问题统计C.根因分析D.改进建议E.执行计划四、判断题(每题2分,共20分)1.数据准确性指数据符合业务规则及实际情况。()2.模糊重复无法通过工具自动识别,只能手动处理。()3.数据质量评估不需要考虑业务需求。()4.MCAR是指缺失值与数据本身无关的随机缺失。()5.数据一致性仅指同一数据源内的数据一致。()6.GreatExpectations可实现自动化质量测试。()7.数据质量治理目标是消除所有数据问题。()8.元数据对数据质量管控无帮助。()9.数据时效性差会影响业务决策。()10.数据质量工程师仅负责问题识别,不参与修复。()五、简答题(每题5分,共20分)1.简述数据质量的5个核心维度。2.数据质量评估的基本流程是什么?3.模糊重复数据的处理方法有哪些?4.数据质量治理的关键作用是什么?六、讨论题(每题5分,共10分)1.如何平衡数据质量检查的成本与效果?2.数据质量问题的根因分析应从哪些维度展开?---答案部分一、填空题答案1.准确2.业务需求3.GreatExpectations(或DataProfiler等)4.MCAR5.值6.改进(或处理)7.结构8.模糊9.问题统计(或问题)10.数据治理委员会二、单项选择题答案1.C2.B3.B4.A5.B6.C7.B8.C9.B10.A三、多项选择题答案1.ABCD2.ABCDE3.ABCDE4.ABCDE5.ABD6.ABCDE7.ABCD8.ABCD9.ABC10.ABCDE四、判断题答案1.√2.×3.×4.√5.×6.√7.×8.×9.√10.×五、简答题答案1.5个核心维度:①准确性(符合业务规则及实际);②完整性(无必要值缺失);③一致性(跨源数据值一致);④时效性(及时满足业务时间要求);⑤有效性(格式合法、取值合规)。这些维度是数据质量评估的基础,需结合业务场景判断。2.评估流程:①需求定义(明确业务需求、范围);②数据采集(获取数据源及元数据);③规则制定(基于维度和业务规则);④执行评估(工具/手动检查,统计问题);⑤报告输出(呈现问题、根因、建议)。流程需循环迭代,持续优化。3.模糊重复处理:①算法匹配(Levenshtein距离、Jaccard相似度识别相似数据);②规则匹配(如“姓名相似+手机号后8位一致”);③处理方式(标记重复、合并核心数据、删除冗余项)。需结合业务场景避免误判。4.治理关键作用:①支撑业务决策(可靠数据避免错误);②降低成本(减少返工及业务损失);③提升效率(规范流程减少清理时间);④合规保障(满足监管要求);⑤增强信任(支撑数字化转型)。六、讨论题答案1.平衡成本与效果:①优先级管理(聚焦核心业务数据、高风险环节);②自动化工具(用GreatExpectations替代手动,降本);③迭代优化(初期覆盖关键规则,后期完善);④成本-收益分析(淘汰低ROI检查项)。通过以上方法保障核心
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年南京市建邺区事业编单位人员招聘笔试试题及答案详解
- 成都市成华区卫生健康局所属事业单位招募2026年医疗卫生辅助岗(80人)笔试备考试题及答案详解
- 加气混凝土配料浇注工操作知识强化考核试卷含答案
- 铸管工安全知识宣贯知识考核试卷含答案
- 基层慢病管理|随访 + 健康教育 + 数据上报课件
- 2026及未来5年中国三色提花行业发展研究报告
- 小儿支气管肺炎 MDT 多学科联合查房|医护药综合教学课件
- 2025年中国黑铁丝网片市场调查研究报告
- 2025年中国高纤度丝市场调查研究报告
- 2025年中国防爆万能开桶扳手市场调查研究报告
- 2026年国企财务笔试题目及答案高分
- 2026年临床执业医师资格考试医学综合笔试(第一单元)真题卷(后附答案解析)
- 2026年保密教育线上培训考试答案汇-总
- 2025-2026学年人教版PEP五年级英语下册全册单词表(带音标)
- Q∕320116 BL001-2025 BL螺锁式预应力混凝土实心异型方桩
- 2025-2026学年人教版六年级语文下册全册知识点总结(完整版)
- 六年级下语文期末总复习1-6单元押题考点
- 2026汽车线控制动系统功能安全要求与冗余设计报告
- 部编版六年级下册1-8单元作文范文
- 2026中国智能客服系统企业采纳度与效果评估报告
- 2026年水利安全生产考核b证练习题附答案详解(基础题)
评论
0/150
提交评论