数据质量控制考核试题及答案_第1页
数据质量控制考核试题及答案_第2页
数据质量控制考核试题及答案_第3页
数据质量控制考核试题及答案_第4页
数据质量控制考核试题及答案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据质量控制考核试题及答案一、单项选择题1.在数据采集阶段,以下哪项措施对于从源头上保证数据质量最为关键?A.对采集到的数据进行复杂的清洗和转换B.使用高性能的服务器确保采集速度C.制定并严格执行清晰、无歧义的数据采集规范和标准D.定期备份采集到的原始数据答案:C解析:数据质量的控制必须从源头抓起。制定并严格执行清晰、无歧义的数据采集规范和标准,能够确保数据在产生和录入环节就符合质量要求,避免后续因源头错误导致的大量清洗和修正工作,是从根本上提升数据质量最经济、最有效的方法。A选项属于事后补救,B和D与数据质量内涵关联度不高。2.关于数据完整性度量,以下描述正确的是:A.完整性只关注核心字段是否为空,辅助字段可忽略B.完整性比率=(缺失值记录数/总记录数)×100%C.数据完整性是指数据集中不应有重复的记录D.完整性通常通过“非空记录数/总记录数”或“非空值数量/应有值总数”来衡量答案:D解析:数据完整性主要指数据记录和字段的完备性,即应存在的数据是否缺失。其常用度量方式是计算非空记录(或值)占总记录(或应有值)的比例。A选项错误,完整性应基于业务重要性对所有需关注的字段进行定义。B选项计算的是缺失率,而非完整性比率。C选项描述的是数据唯一性,而非完整性。3.某销售数据表中,“订单金额”字段理论上应为正数。现发现存在负数和非数值字符。这主要违背了数据质量的哪个维度?A.唯一性B.准确性C.一致性D.有效性答案:D解析:数据有效性是指数据值是否符合其预先定义的业务规则、格式或范围(即域定义)。订单金额应为正数,负数违反了值域规则,非数值字符违反了数据类型和格式规则,这都属于有效性(或合规性)问题。准确性是指数据是否正确反映了真实世界的实体或事件,例如金额是否录入错误但仍在有效范围内。此处问题首先是值不符合定义域。4.在评估两条不同来源但指向同一实体的客户记录是否匹配时,以下哪项技术最常用于处理名称的微小差异(如“张三”vs“张三丰”)?A.精确匹配B.模糊匹配C.正则表达式匹配D.范围匹配答案:B解析:模糊匹配(FuzzyMatching)算法,如编辑距离(LevenshteinDistance)、Jaro-Winkler距离等,能够度量字符串之间的相似度,从而有效处理拼写错误、缩写、漏字、多字等造成的微小差异,是解决名称、地址等文本数据非精确重复问题的关键技术。精确匹配无法处理此类差异。正则表达式和范围匹配主要用于模式识别和数值区间判断。5.数据质量检核规则中,“交叉表校验”主要用于保障哪个维度的质量?A.时效性B.一致性C.完整性D.准确性答案:B解析:交叉表校验是指在不同数据表、不同字段之间,根据业务逻辑建立关联校验规则。例如,财务明细表的总和应与财务总账表的对应科目余额一致;不同系统中关于同一客户的状态信息应同步。这种校验主要保障数据在不同上下文、不同存储位置之间逻辑上的统一和自洽,是数据一致性的核心检查手段。6.一个有效的数据质量闭环管理流程,最后一步通常是:A.问题分发与指派B.质量评估与度量C.根因分析与改进D.持续监控与报告答案:C解析:一个完整的数据质量闭环管理流程通常包括:制定标准与规则->质量评估与发现->问题分发与处理->根因分析与改进。其中,“根因分析与改进”是最后且关键的一步,通过分析数据质量问题的根本原因(人员、流程、技术、系统),推动流程优化、系统改造或规则修订,从源头上预防问题再次发生,实现质量的持续提升。D选项的监控与报告是贯穿始终的活动。7.对于数据质量评估结果,最有效的呈现方式是:A.仅向技术团队提供详细的数据库错误日志B.编制包含关键质量指标、趋势分析和问题清单的管理层报告C.在月度会议上进行口头汇报,无需书面材料D.将问题记录在内部Wiki上,供相关人员自行查阅答案:B解析:数据质量工作需要业务和技术共同参与,尤其是管理层的重视与支持。编制结构化的管理层报告,以可视化方式(如仪表盘)呈现关键质量指标(KQI)的趋势、分布、问题严重等级及影响范围,能够清晰地将数据质量状况转化为管理语言,便于决策者理解问题的业务影响,从而驱动资源投入和流程改进。其他选项在沟通效率和影响力上均不足。8.在制定数据质量指标(DQI)时,应首要遵循的原则是:A.指标数量越多越好,覆盖所有细节B.指标计算应尽量复杂,以体现专业性C.指标必须与业务目标、流程和风险紧密关联D.指标主要服务于IT部门的系统维护答案:C解析:数据质量工作的最终目的是服务于业务决策和运营。因此,数据质量指标必须与具体的业务目标、关键业务流程、以及潜在的业务风险(如财务损失、合规风险、客户满意度下降)紧密挂钩。只有这样的指标才能获得业务方的理解与支持,并真正衡量出数据质量对业务的价值。A和B会导致维护成本高且难以聚焦,D则忽视了业务价值。二、多项选择题9.数据清洗(DataCleansing)的常见操作包括:A.处理缺失值:如填充、插值或标记B.纠正错误值:根据规则或可信源进行修正C.标准化格式:如统一日期格式“YYYY-MM-DD”D.删除重复记录:基于关键字段识别并去重E.提升数据存储的硬件性能答案:A,B,C,D解析:数据清洗是针对已发现的数据质量问题,对数据进行修正、完善的过程。A、B、C、D都是典型的数据清洗操作。E选项属于基础设施优化,与数据内容本身的清洗无关。10.以下哪些是可能导致数据质量问题的根本原因?A.业务需求变更频繁,数据标准未能及时更新B.数据录入界面设计复杂,容易导致用户误操作C.不同业务部门对同一数据概念的定义和理解不一致D.缺乏对数据录入人员的系统化培训和考核E.数据库采用了最新的分布式架构答案:A,B,C,D解析:数据质量问题的根源通常可归为四类:人员、流程、技术、系统。A属于流程管理问题;B属于系统设计(用户体验)问题;C属于人员认知与流程标准问题;D属于人员培训与管理问题。E选项,技术架构的先进性与数据质量问题无直接因果关系,不当的架构设计可能引发问题,但“最新”本身不是原因。11.关于主数据管理(MDM)与数据质量控制(DQC)的关系,正确的描述有:A.MDM的核心目标之一是确保关键业务实体数据的一致性、准确性和完整性B.DQC的工具和方法可以应用于MDM的实施和运维过程C.实施MDM后,可以完全取代针对所有数据的数据质量控制工作D.MDM为DQC提供了高质量、可信的黄金数据源E.DQC发现的问题,可能是启动或优化某个主数据管理流程的触发点答案:A,B,D,E解析:主数据管理(MDM)旨在对企业核心业务实体(如客户、产品、供应商)的数据进行统一、权威的管理,其核心目标包含高质量的数据,因此A正确。在MDM的整合、清洗、维护过程中,需要广泛应用DQC的技术,B正确。MDM产生的“黄金记录”是企业中最可信的数据源,为其他系统的数据质量提供了参照基准,D正确。DQC过程中发现的跨系统核心数据不一致问题,往往会推动MDM项目的立项或流程优化,E正确。C错误,MDM主要关注核心主数据,企业还有大量的交易数据、分析数据等,仍需要全面的DQC体系进行保障。12.数据质量监控平台应具备的关键能力包括:A.支持可配置的检核规则引擎B.能够定时或实时执行检核任务C.提供可视化的质量评分与问题仪表盘D.具备问题工单的流转、跟踪与闭环管理功能E.自动修复所有发现的数据错误,无需人工干预答案:A,B,C,D解析:一个成熟的数据质量监控平台需要具备规则管理(A)、任务调度(B)、结果可视化(C)和问题管理流程(D)等核心能力,以实现从发现问题到跟踪解决的闭环。E选项不正确,数据问题的修复往往需要业务判断或源头系统操作,平台可以辅助、推荐或半自动化修复,但很难实现全自动修复所有错误,尤其涉及业务逻辑判断时。三、判断题13.数据质量越高越好,因此不计成本地追求100%的无错误数据是企业的合理目标。答案:错误解析:数据质量提升需要投入资源(人力、技术、时间),而高质量数据的收益(如决策准确性提升、运营效率提高)是边际递减的。追求100%完美在大多数业务场景下既不经济也不必要。数据质量管理应基于业务影响进行优先级排序,追求与业务风险和价值相匹配的“适当”质量水平,即成本效益最优。14.数据质量评估报告一旦生成,其结论在有效期内就固定不变,无需持续更新。答案:错误解析:数据是动态变化的,数据质量状况也随之波动。新的数据不断产生,老的数据可能被更新,业务规则也可能调整。因此,数据质量评估需要定期或实时进行,报告结论具有时效性。一次性的评估报告只能反映某个时间切片的质量状态,无法用于持续监控和管理。数据质量工作需要建立持续的监控和报告机制。15.数据血缘分析(DataLineage)可以帮助追踪数据质量问题的来源,定位问题产生的环节。答案:正确解析:数据血缘分析描述了数据从源头到最终消费端的完整流动路径,包括经过了哪些系统、处理环节(如转换、计算、汇总)。当在下游发现数据质量问题时,通过血缘分析可以逆向追溯,定位问题是在哪个环节引入的(如源系统、ETL过程、报表计算等),这对于快速定位根因、划分责任范围至关重要。四、填空题16.数据质量的六个核心维度通常包括:准确性、完整性、一致性、时效性、______和______。答案:唯一性、有效性(或合规性)解析:这是国际国内常见的数据质量维度框架(如DAMA-DMBOK)。唯一性指实体或事务不重复;有效性(合规性)指数据符合预定义的业务规则、格式和值域。17.在数据质量检核中,用于检查字段值是否符合预定格式(如身份证号、电话号码)的规则,通常称为______规则。答案:格式合规性(或格式有效性)解析:格式合规性规则是有效性检核的重要组成部分,它通过正则表达式、掩码匹配等方式,验证字符串数据是否符合既定的格式标准。18.数据质量评分卡是一种将多个数据质量指标的评估结果,通过加权计算,汇总成一个综合性的______的工具。答案:质量分数(或质量指数、健康度分数)解析:数据质量评分卡借鉴了平衡计分卡思想,通过为不同重要性的质量维度或指标分配权重,计算出一个综合性的量化分数(如百分制),用于直观、快速地衡量整体或特定领域的数据质量水平,便于趋势跟踪和横向比较。五、简答题19.简述在数据仓库项目中,为什么在ETL(抽取、转换、加载)过程中必须包含数据质量检查环节?至少列举三点原因。答案:(1)源头数据质量不可控:数据来源于多个异构的操作型系统,这些系统的数据录入标准、质量控制水平不一,必然携带各类质量问题,ETL过程是进行集中检查和清洗的关键关口。(2)保障下游分析与决策可靠性:数据仓库直接服务于报表、BI分析和数据挖掘,其数据质量直接影响管理决策的准确性。在ETL环节拦截问题数据,避免“垃圾进,垃圾出”,是保障下游应用价值的基础。(3)实现数据标准化与整合:ETL过程需要将不同源系统的数据按照统一的模型和标准进行转换、整合。在此过程中嵌入质量检查(如一致性校验、代码值转换、去重等),是生成高质量、一致化数据资产的必要步骤。(4)建立质量基线与审计线索:在ETL流程中记录数据质量检查结果(如拒绝的记录数、错误类型),可以形成数据质量的历史基线,并为问题追溯提供审计线索。20.请解释什么是数据质量的“业务规则”(BusinessRule),并举例说明。答案:数据质量的业务规则是指从业务需求、政策法规、逻辑约束中提炼出来的,用于判定数据是否正确、有效、一致的规范性陈述。它连接了业务知识和技术实现,是数据质量检核规则制定的直接依据。举例:(1)合规性规则:“客户年龄必须大于等于18岁才能开通信用账户”(基于金融监管和风险管理政策)。(2)逻辑一致性规则:“订单的发货日期不能早于订单的创建日期”(基于业务流程逻辑)。(3)关系完整性规则:“销售明细表中的每一个‘产品ID’,必须在产品维度表中存在对应的记录”(参照完整性约束)。(4)计算规则:“发票总金额=税前金额+税额。税额=税前金额×税率”(基于财务计算逻辑)。六、计算与分析题21.某电商平台对“客户地址表”进行数据质量评估。该表共有100,000条记录,每条记录应包含“省”、“市”、“区”、“详细地址”四个字段。评估发现:“省”字段有200条记录为空。“省”字段有200条记录为空。“市”字段有500条记录为空,其中“省”也为空的记录有80条。“市”字段有500条记录为空,其中“省”也为空的记录有80条。“区”字段有1500条记录为空。“区”字段有1500条记录为空。“详细地址”字段有8000条记录为空。“详细地址”字段有8000条记录为空。请计算:(1)该表在“地址完整性”这个维度上的总缺失值数量(字段级)。(2)该表“省”、“市”两个字段的联合完整性比率(记录级,即一条记录中这两个字段均不为空的比例)。(3)假设业务规定“详细地址”为空将导致包裹无法投递,属于严重错误。请计算因此导致的问题记录占比。答案:(1)总缺失值数量=各字段缺失值数量之和=200(“省”)+500(“市”)+1500(“区”)+8000(“详细地址”)=10,200个(2)联合完整性比率(省、市均非空):总记录数N=100,000总记录数N=100,000“省”为空的记录数:A=200“省”为空的记录数:A=200“市”为空的记录数:B=500“市”为空的记录数:B=500同时为空(交集)的记录数:A∩B=80同时为空(交集)的记录数:A∩B=80根据容斥原理,“省”或“市”至少一个为空的记录数为:A+BA∩B=200+50080=620根据容斥原理,“省”或“市”至少一个为空的记录数为:A+BA∩B=200+50080=620因此,“省”和“市”均不为空的记录数为:N620=100,000620=99,380因此,“省”和“市”均不为空的记录数为:N620=100,000620=99,380联合完整性比率=99,380/100,000=0.9938或99.38%(3)“详细地址”为空的问题记录占比:问题记录数=8000总记录数=100,000问题记录占比=8000/100,000=0.08或8%解析:本题考察数据完整性维度的具体计算。第(1)问从字段视角统计缺失总量;第(2)问从记录视角,计算多个字段组合的完整性,需注意避免重复计算同时缺失的记录;第(3)问结合业务影响进行简单统计。22.某公司通过两个系统(CRM和订单系统)采集客户手机号,并使用编辑距离(LevenshteinDistance)算法进行模糊匹配以发现潜在重复。编辑距离定义为将一个字符串转换为另一个字符串所需的最少单字符编辑(插入、删除、替换)次数。现有两条客户记录:CRM记录A:手机号订单记录B:手机号(1)计算A与B手机号之间的编辑距离。(2)假设公司设定:手机号编辑距离≤2,且其他辅助信息(如姓名)高度相似,则判定为疑似重复记录。请判断A与B是否应被标记为疑似重复,并说明理由。(3)除了编辑距离,请再列举两种可用于文本型数据(如客户名称)去重或匹配的相似度度量方法。答案:(1)计算编辑距离:字符串A符串B较两个字符串,最后两位“78”和“87”不同。一种转换方案:将A最后的“8”替换为“7”,得到“...77”,再将倒数第二位的“7”替换为“8”,得到“...87”,与B一致。共进行了2次替换操作。另一种方案:在A末尾删除“8”,得到“...7”,再插入“7”,得到“...77”?不对。实际上,最小编辑操作是:将A倒数第二位的“7”与最后一位的“8”交换位置,这可以分解为:先将“7”替换为“8”,再将原“8”的位置替换为“7”,共2次替换。因此,编辑距离为2。(更严谨的动态规划算法计算同样得出结果为2)(2)判断:应标记为疑似重复。理由:根据题干规则,手机号编辑距离=2,满足“≤2”的条件。虽然题目未给出其他辅助信息的匹配情况,但仅就手机号而言,已触发疑似重复判定的一个关键条件。在实际操作中,这通常是一个强提示,需要结合姓名、地址等信息进行人工复核。这两个手机号极有可能是录入时最后两位顺序输错。(3)其他相似度度量方法(列举两种即可):Jaro-Winkler距离:特别适用于短字符串(如人名),它更关注前缀的相似度,对于开头部分相同的字符串给予更高的相似度评分。余弦相似度:常用于较长文本。先将文本分词并向量化(如TF-IDF),然后计算两个向量在空间中的夹角余弦值,值越接近1越相似。最长公共子序列(LCS)长度:找出两个字符串最长的、不连续但顺序一致的公共子序列,其长度可用于衡量相似度。Soundex/Metaphone编码匹配:基于发音的编码算法,将发音相似的单词转换为相同或相似的代码,适用于处理拼写不同但发音相似的名字。七、综合应用题23.假设你是某银行数据治理团队的数据质量分析师,在最近一次对“对公信贷合同表”的例行质量检核中,发现以下突出问题:问题1:部分合同的“合同生效日期”晚于“贷款到期日期”(逻辑矛盾)。问题1:部分合同的“合同生效日期”晚于“贷款到期日期”(逻辑矛盾)。问题2:有大量合同的“所属行业代码”字段为空或填写了过时的、不在最新行业分类标准中的代码。问题2:有大量合同的“所属行业代码”字段为空或填写了过时的、不在最新行业分类标准中的代码。问题3:同一个集团客户在不同分行的合同记录中,“客户风险等级”评定不一致。问题3:同一个集团客户在不同分行的合同记录中,“客户风险等级”评定不一致。请针对上述每一个问题,完成以下分析:(1)指出该问题主要违反了数据质量的哪个核心维度。(2)分析其可能产生的业务风险。(3)提出具体的改进措施建议(至少两条,需包含技术和管理层面)。答案:针对问题1:(1)违反维度:一致性(具体为逻辑一致性)。(2)业务风险:合规与法律风险:合同日期逻辑错误可能导致合同法律效力存疑,引发纠纷。财务与风险管理失效:基于错误日期计算的贷款期限、利息、风险加权资产等全部失真,影响准确的利润核算、流动性管理和资本充足率计算。审计不通过:在外部审计或监管检查中,此类低级逻辑错误会严重质疑银行内部数据管控的有效性。(3)改进措施建议:技术层面:在合同录入系统(前端)和合同数据入库ETL流程(后端)中,强制添加业务规则校验:“合同生效日期”必须早于或等于“贷款到期日期”,违反规则则阻止提交或标记为高优先级错误。管理层面:将此类核心逻辑规则纳入《对公信贷数据录入规范》,并对信审、柜面等相关人员进行强制培训。建立数据质量问题的问责机制,将此规则违反率纳入相关团队的绩效考核。针对问题2:(1)违反维度:完整性(为空)和有效性(代码过时无效)。(2)业务风险:行业分析失真:无法准确进行贷款行业集中度分析,影响宏观经济形势研判和行业信贷政策调整。风险计量偏差:许多内部评级模型和风险权重设定与行业密切相关,错误/缺失的行业代码导致客户风险被错误计量。监管报送错误:向人民银行、银保监会报送的统计报表中,行业分类是关键字段,错误数据会导致监管数据不准,可能面临处罚。(3)改进措施建议:技术层面:在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论