2025年数据质量考试试题及答案_第1页
2025年数据质量考试试题及答案_第2页
2025年数据质量考试试题及答案_第3页
2025年数据质量考试试题及答案_第4页
2025年数据质量考试试题及答案_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据质量考试试题及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于数据质量六维模型(DAMA定义)的核心维度?A.准确性(Accuracy)B.完整性(Completeness)C.可解释性(Interpretability)D.一致性(Consistency)2.某电商平台用户表中,"出生日期"字段存在"2025-02-30"这样的记录,该问题属于数据质量中的:A.唯一性问题B.有效性问题C.及时性问题D.一致性问题3.数据清洗过程中,针对"某患者年龄字段值为-5"的异常值,最合理的处理方式是:A.直接删除该记录B.用字段平均值填充C.联系业务部门核实原始数据D.标记为缺失值后忽略4.主数据管理(MDM)中,"客户主数据"的核心作用是:A.确保客户数据在各系统中的实时同步B.提供唯一、权威的客户标识和属性定义C.替代各业务系统的客户数据存储D.优化客户数据的查询性能5.以下哪种场景最需要关注数据的及时性(Timeliness)?A.银行年报数据的审计B.实时风控系统的交易数据C.企业历史销售数据的BI分析D.政府统计年鉴的人口数据6.数据质量规则引擎中,"手机号必须符合11位数字且以13/15/17/18/19开头"属于:A.格式校验规则B.值域校验规则C.逻辑关联规则D.唯一性校验规则7.某医院信息系统中,同一患者在门诊、住院、检验系统中的"患者ID"不一致,该问题的根本原因最可能是:A.各系统数据录入时间不同B.缺乏统一的主数据管理机制C.数据传输过程中发生丢包D.业务部门对患者信息的定义不同8.数据质量评估中,"客户姓名为空的记录数占总记录数的比例"衡量的是:A.完整性B.准确性C.一致性D.唯一性9.以下关于数据血缘(DataLineage)的描述,错误的是:A.用于追踪数据从产生到归档的全生命周期路径B.仅适用于结构化数据,对非结构化数据无效C.有助于定位数据质量问题的源头D.是数据治理合规性审计的重要依据10.在金融行业数据质量管控中,"反洗钱交易数据需保留至少5年且不可篡改"主要体现了对数据质量哪个维度的要求?A.可用性(Usability)B.耐久性(Persistence)C.合规性(Compliance)D.可追溯性(Traceability)二、判断题(每题1分,共10分)1.数据质量问题仅由技术系统缺陷导致,与业务流程无关。()2.缺失值必须通过填充处理,否则会导致数据完全不可用。()3.数据一致性仅指同一字段在不同系统中的取值一致,与业务含义无关。()4.主数据管理的核心是建立跨系统的统一数据标准和权威数据源。()5.数据质量评估指标设计需结合业务需求,不同行业的关键指标可能存在差异。()6.数据清洗等同于数据转换,只需通过ETL工具自动处理即可完成。()7.数据及时性要求数据必须实时更新,延迟超过1秒即视为质量不达标。()8.数据唯一性问题的典型表现是同一实体在同一数据集内出现重复记录。()9.数据质量报告只需提供统计结果,无需分析问题根因和改进建议。()10.AI驱动的数据质量工具可以完全替代人工审核,实现100%自动化管控。()三、简答题(每题8分,共40分)1.简述数据质量评估的主要流程,并说明每个阶段的关键输出物。2.列举数据质量问题的常见根源(至少5类),并举例说明。3.说明数据有效性(Validity)与准确性(Accuracy)的区别,分别举例说明。4.某企业计划建立数据质量监控体系,需考虑哪些关键要素?请分点阐述。5.数据血缘分析在数据质量管控中的具体应用场景有哪些?至少列举3个场景并说明。四、案例分析题(20分)背景:某连锁零售企业(以下简称"X公司")近年扩张迅速,业务系统从2套增加至8套(包括ERP、CRM、POS、WMS、会员系统等),但近期频繁出现以下问题:-会员系统显示某客户"累计消费10万元",但ERP系统显示该客户"累计消费8万元";-POS系统中部分门店的"商品条码"字段存在"690123456789"(13位)和"12345678"(8位)两种格式;-会员系统中"客户手机号"字段有15%的记录为"138--1234"(含连字符)或"空值";-2024年Q4的促销活动中,因WMS系统"库存数量"字段延迟更新2小时,导致超卖订单2000余单。问题:1.请结合数据质量六维模型,分析X公司存在的具体数据质量问题及对应的维度。(8分)2.针对"会员系统与ERP系统消费金额不一致"问题,提出至少3项具体改进措施。(6分)3.针对"POS系统商品条码格式不统一"问题,设计一套数据质量规则(需包含规则类型、校验逻辑、处理动作)。(6分)五、论述题(10分)结合实际业务场景,论述数据质量与数据治理的关系,并说明如何通过协同机制提升企业数据资产价值。参考答案一、单项选择题1.C(可解释性属于数据可理解性范畴,非DAMA六维核心维度)2.B(日期格式不符合实际逻辑,属于有效性问题)3.C(异常值需先核实业务背景,避免盲目处理)4.B(主数据的核心是提供权威统一的标识和属性)5.B(实时风控依赖数据及时更新)6.A(格式校验关注字段格式是否符合规则)7.B(缺乏主数据导致ID不统一)8.A(字段为空衡量完整性)9.B(数据血缘适用于各类数据,包括非结构化)10.C(符合监管要求属于合规性)二、判断题1.×(业务流程设计不合理也会导致数据质量问题,如录入规则缺失)2.×(部分场景缺失值可直接过滤,或根据业务需求决定是否填充)3.×(一致性需同时满足业务含义和取值的统一)4.√(主数据管理的核心是统一标准和权威源)5.√(如医疗行业更关注诊断代码的准确性,零售行业更关注库存的及时性)6.×(数据清洗需结合人工审核,自动处理可能遗漏复杂逻辑)7.×(及时性需根据业务需求定义阈值,如实时交易要求毫秒级,日报要求T+1即可)8.√(同一数据集内重复记录是唯一性问题的典型表现)9.×(数据质量报告需包含根因分析和改进建议,否则失去指导意义)10.×(AI工具可提升效率,但复杂场景仍需人工判断,如业务逻辑验证)三、简答题1.数据质量评估流程:-阶段1:需求分析。输出物:《数据质量评估需求说明书》(明确评估对象、业务目标、关键指标)。-阶段2:指标设计。输出物:《数据质量指标体系表》(定义各维度的具体指标,如完整性=非空记录数/总记录数)。-阶段3:数据采集。输出物:《评估数据集清单》(抽取待评估的样本数据,覆盖全量或关键业务场景)。-阶段4:计算分析。输出物:《数据质量计算结果表》(通过工具或脚本计算各指标值)。-阶段5:报告输出。输出物:《数据质量评估报告》(包含问题汇总、根因分析、改进建议)。2.数据质量问题根源:-业务流程缺陷:如门店录入商品信息时无格式校验规则,导致条码混乱(如案例中的POS系统问题)。-系统设计缺陷:各系统独立开发,未统一数据标准,导致会员消费金额在CRM和ERP中不一致。-人为操作失误:员工录入手机号时遗漏数字或错误添加连字符。-数据传输错误:WMS系统与前端销售系统接口不稳定,导致库存数据延迟更新。-缺乏数据治理机制:未建立主数据管理平台,无法统一关键实体(如客户、商品)的标识和属性。3.有效性与准确性的区别:-有效性(Validity):数据是否符合预定义的格式、值域或业务规则,关注"是否符合要求"。例如,手机号是否为11位数字(格式有效)、年龄是否在0-150之间(值域有效)。-准确性(Accuracy):数据是否与真实世界的实体或事件一致,关注"是否正确"。例如,某客户实际年龄为30岁,但系统中记录为25岁(不准确),即使25在0-150的有效范围内。4.数据质量监控体系关键要素:-监控指标体系:基于业务需求定义关键指标(如客户手机号完整性≥98%、商品条码有效性100%)。-监控工具平台:部署数据质量工具(如InformaticaDataQuality、Talend),支持自动化规则校验和预警。-监控频率:根据业务需求设定(如实时交易数据秒级监控、报表数据每日监控)。-预警机制:定义阈值(如完整性<95%触发预警),通过邮件、钉钉等方式通知责任人。-问题处理流程:明确问题分级(一般/严重/紧急)、责任部门、处理时限(如紧急问题2小时内解决)。-效果跟踪:定期复盘监控结果,评估改进措施的有效性,优化监控规则。5.数据血缘分析的应用场景:-问题溯源:当发现某报表数据异常时,通过血缘分析追踪到原始数据源、ETL转换步骤,定位是录入错误还是计算逻辑错误。-影响分析:修改某基础表的字段定义前,通过血缘分析识别依赖该字段的下游报表、模型,评估修改风险。-合规审计:监管要求数据可追溯时,通过血缘展示数据从采集、处理到输出的全路径,证明数据来源合法、处理合规。四、案例分析题1.数据质量问题与维度对应:-会员与ERP消费金额不一致:一致性(同一客户的消费金额在不同系统中不一致)。-商品条码格式不统一:有效性(部分条码不符合13位国际标准格式)。-手机号含连字符或空值:完整性(空值)、有效性(含连字符不符合数字格式)。-库存数量延迟更新:及时性(数据未在业务需要的时间点可用)。2.消费金额不一致的改进措施:-建立客户主数据管理平台,统一客户标识(如客户ID),并定义"累计消费金额"的计算逻辑(如以ERP的交易记录为权威源)。-实施跨系统数据同步校验:在CRM系统调用ERP消费数据时,增加接口校验(如比对最近3笔交易金额),异常时触发人工核查。-制定数据质量责任制度:明确ERP为消费金额的"主责系统",CRM需定期与ERP对账(如每日凌晨1点),差异率超过0.5%时通报业务部门。3.商品条码格式不统一的质量规则设计:-规则类型:格式校验规则(强制性)。-校验逻辑:商品条码长度必须为13位,且前3位为中国国家代码(690-699),其余位符合EAN-13编码规则(通过校验位算法验证)。-处理动作:-校验通过:正常入库;-校验不通过(如8位条码):自动拒绝录入并提示"条码需为13位EAN-13格式";-历史数据中不符合的记录:标记为异常,推送至运营团队手动修正(如补全至13位或关联正确条码)。五、论述题数据质量与数据治理的关系及协同机制:数据质量是数据治理的核心目标之一,数据治理是保障数据质量的系统性方法,二者相辅相成。从目标看,数据质量直接关注数据的"好坏"(如准确性、完整性),而数据治理关注数据全生命周期的"可控"(如标准、流程、责任)。例如,某银行需确保客户风险等级数据准确(数据质量目标),需通过数据治理建立风险等级的定义标准(数据标准管理)、明确录入审核流程(流程管理)、分配责任部门(组织架构),最终实现质量目标。从范围看,数据质量聚焦具体数据字段或数据集的评估与改进,数据治理则覆盖组织、流程、技术、制度等全局层面。例如,零售企业解决会员数据重复问题(数据质量),需通过数据治理建立会员主数据管理平台(技术)、制定会员录入规范(制度)、设置数据质量管理员(组织)。从协同机制看,可通过以下方式提升数据资产价值:1.制度协同:将数据质量指标(如客户信息完整性≥99%)纳入数据治理考核体系,与部门KPI挂钩,推动业务部门主动关注质量。2.技术协同:在数据治理平台中集成数据质量工具(如规则引擎、血缘分析),实现"标准定义-质量监控-问题整改"的闭环。例如,定义商品分类标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论