版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年数据仓库测试题库及答案一、单项选择题(每题2分,共40分)1.数据仓库中用于描述业务流程量化结果的表是()A.维度表B.事实表C.元数据表D.接口表答案:B2.ETL过程中,将不同数据源的“性别”字段统一为“男/女”的操作属于()A.数据抽取B.数据清洗C.数据转换D.数据加载答案:C3.以下不属于数据仓库核心特性的是()A.面向主题B.实时更新C.集成性D.时变性答案:B4.某数据仓库需支持“用户近30天订单金额趋势分析”,最适合的事实表类型是()A.事务型事实表B.周期快照事实表C.累积快照事实表D.汇总事实表答案:B5.维度建模中,“时间维度”的层级通常不包括()A.年-季度-月B.月-周-日C.日-小时-分钟D.分钟-秒-毫秒答案:D(数据仓库时间维度通常以业务需求为导向,毫秒级细分多见于OLTP系统)6.数据仓库性能测试中,“TPC-DS”基准测试主要评估()A.数据加载速度B.复杂查询响应能力C.并发用户支持数D.数据存储压缩率答案:B7.以下哪项是数据质量“完整性”的典型检查点?()A.客户年龄字段值是否在0-150之间B.订单表中“用户ID”在用户维度表中存在对应记录C.同一客户在不同源系统中的姓名拼写是否一致D.库存数据是否在每日凌晨5点前更新答案:B(完整性关注关键字段是否缺失或关联关系是否断裂)8.云数据仓库(如Snowflake)的测试中,重点需验证的特性是()A.本地磁盘IO性能B.弹性扩展时的查询中断风险C.单节点计算能力D.离线数据备份效率答案:B(云服务的弹性扩缩容需确保业务连续性)9.元数据管理中,“表存储位置、字段数据类型”属于()A.业务元数据B.技术元数据C.操作元数据D.流程元数据答案:B10.数据仓库容灾测试中,“RPO(恢复点目标)”主要衡量()A.系统从故障中恢复所需时间B.故障发生时丢失的数据量C.容灾系统与生产系统的同步频率D.灾备切换的人工干预程度答案:B11.以下哪项是雪花模型的典型特征?()A.维度表直接与事实表关联B.维度表进一步规范化为多个子表C.事实表包含大量冗余维度属性D.仅支持单事实表查询答案:B12.ETL测试中,“全量加载”与“增量加载”的核心区别在于()A.数据抽取的工具B.数据转换的复杂度C.抽取的数据范围(历史全量/新增变更)D.加载到目标库的方式(覆盖/追加)答案:C13.数据仓库安全性测试需重点验证的是()A.表结构设计的合理性B.敏感字段(如身份证号)的加密存储与访问控制C.ETL日志的完整性D.元数据的版本管理答案:B14.某数据仓库需支持“按地区、产品、月份汇总销售额”,最优的索引策略是()A.对事实表的“销售额”字段创建单列索引B.对维度表的“地区ID”“产品ID”创建联合索引C.对事实表的“地区ID”“产品ID”“月份”创建复合索引D.不创建索引,依赖全表扫描答案:C(复合索引匹配多维度过滤条件)15.数据湖仓一体架构下,测试需额外关注()A.结构化数据与非结构化数据的统一查询能力B.单节点计算性能C.传统ETL流程的简化D.关系型数据库的事务支持答案:A16.以下哪项是数据仓库“时变性”的体现?()A.数据一旦加载后不再修改B.数据保留历史版本,支持时间切片分析C.数据实时反映业务当前状态D.数据仅存储最近3个月的记录答案:B17.维度表“用户维度”中,“注册时间”“最后登录时间”属于()A.定性属性B.定量属性C.退化维度D.慢速变化维度答案:D(随时间可能发生缓慢变化的属性)18.数据仓库性能调优时,“物化视图”主要解决的问题是()A.减少数据存储量B.加速复杂聚合查询C.提升数据加载速度D.降低ETL转换复杂度答案:B(物化视图预计算并存储聚合结果)19.数据质量问题的根本原因分析(RCA)中,最关键的步骤是()A.统计问题数据量B.定位问题发生的ETL环节或源系统C.手动修正错误数据D.提供数据质量报告答案:B20.以下哪项不属于数据仓库测试范围?()A.元数据一致性验证B.源系统业务逻辑修改C.多租户环境下的资源隔离D.长时间运行查询的稳定性答案:B(源系统属于上游系统,非数据仓库测试范畴)二、判断题(每题1分,共10分。正确填“√”,错误填“×”)1.数据仓库的主要目标是支持OLTP(在线事务处理)。()答案:×(数据仓库支持OLAP)2.ETL测试只需验证最终数据结果,无需检查中间转换过程。()答案:×(中间过程异常可能导致结果偏差)3.维度表的设计应尽量包含详细的业务属性,以减少查询时的关联操作。()答案:√4.数据仓库中的事实表一定包含外键与维度表关联。()答案:×(退化维度可直接存储在事实表中)5.数据质量“一致性”仅指同一字段在不同表中的格式一致。()答案:×(还包括业务含义一致,如“订单状态”枚举值统一)6.云数据仓库的“按需付费”模式会影响测试时的资源分配策略。()答案:√(需控制测试成本)7.容灾测试中,只需验证主系统故障时灾备系统能接管,无需测试反向切换。()答案:×(反向切换是完整容灾流程的一部分)8.雪花模型比星型模型更适合复杂查询,因为减少了数据冗余。()答案:×(雪花模型增加了关联复杂度,星型模型更适合OLAP)9.数据仓库的元数据管理仅需记录技术元数据,业务元数据由业务人员口头维护即可。()答案:×(业务元数据需标准化记录以避免理解偏差)10.数据仓库性能测试中,“80%的查询响应时间在10秒内”属于合格指标。()答案:×(需根据业务需求定义,如实时分析可能要求1秒内)三、简答题(每题5分,共30分)1.简述数据仓库与数据库的核心区别。答案:(1)目的不同:数据库支持OLTP(事务处理),强调实时性、原子性;数据仓库支持OLAP(分析处理),强调历史数据整合与复杂查询。(2)数据结构:数据库采用规范化设计(减少冗余);数据仓库采用维度建模(允许适当冗余以加速查询)。(3)更新频率:数据库支持高频增删改;数据仓库通常批量加载,数据一旦加载后极少修改(仅追加或归档)。(4)数据范围:数据库存储当前业务数据;数据仓库存储历史数据(如5-10年),支持时间维度分析。2.ETL测试的关键要点有哪些?答案:(1)数据完整性:验证抽取的记录数与源系统一致,无缺失或重复。(2)转换规则正确性:检查字段映射、计算逻辑(如金额汇总、日期格式转换)是否符合需求。(3)数据一致性:确保关联字段(如用户ID)在维度表中存在对应记录,避免外键断裂。(4)性能:测试全量/增量加载的耗时,评估是否满足SLA(服务级别协议)。(5)异常处理:验证脏数据(如非法日期、缺失值)的处理逻辑(如记录日志、填充默认值)是否合理。3.如何设计数据仓库的维度表?请举例说明。答案:维度表设计需遵循“高内聚、低耦合”原则,包含描述业务实体的详细属性。以“用户维度表”为例:(1)主键:用户ID(唯一标识)。(2)基本属性:姓名、性别、年龄、注册渠道。(3)行为属性:最近登录时间、累计消费金额、会员等级(慢速变化维度,需记录历史版本)。(4)地理属性:注册省份、城市(可关联地理维度子表,形成雪花模型)。设计时需考虑属性的业务相关性,避免无关字段;对慢速变化维度(如会员等级),采用时间戳或版本号记录变更,支持历史分析。4.数据仓库性能调优的常见方法有哪些?答案:(1)索引优化:为高频查询的过滤条件(如时间、地区)创建复合索引。(2)分区表:按时间(月/季度)或地域分区,减少扫描数据量。(3)物化视图:预计算常用聚合结果(如各地区月销售额),加速复杂查询。(4)查询重写:优化SQL语句(如避免SELECT、减少嵌套子查询)。(5)资源调整:增加计算节点(云数据仓库)、提升内存配置,或调整查询并发限制。(6)数据归档:将历史数据迁移至低成本存储(如对象存储),减少主库数据量。5.数据质量评估的主要维度有哪些?各举一例说明。答案:(1)准确性:客户年龄字段值为“200”(超出合理范围)。(2)完整性:订单表中“用户ID”字段为空(关键信息缺失)。(3)一致性:同一用户在“订单表”和“用户表”中的姓名分别为“张三”和“张3”(格式不一致)。(4)及时性:库存数据延迟2小时更新,导致分析结果滞后。(5)唯一性:同一订单被重复加载2次,产生两条相同记录。6.简述数据仓库容灾测试的步骤。答案:(1)制定测试方案:明确容灾类型(同城/异地)、RPO/RTO指标(如RPO≤15分钟,RTO≤1小时)。(2)模拟故障:关闭生产系统数据库服务,或切断主备同步链路。(3)验证灾备系统接管:检查灾备系统能否正常提供查询服务,数据是否完整(与故障前生产数据对比)。(4)反向切换测试:将业务流量切回生产系统,验证数据同步无丢失,业务连续性不受影响。(5)日志与指标分析:检查切换过程中的日志(如同步延迟、错误信息),确认是否满足RPO/RTO要求。四、综合题(每题10分,共20分)1.某电商公司需构建用户行为分析数据仓库,业务需求包括:分析用户每日页面点击量、订单转化率(点击→下单→支付)、不同设备(手机/PC)的用户偏好。请设计数据仓库模型(包括维度表、事实表结构),并说明测试要点。答案:模型设计:(1)维度表:时间维度:时间ID(主键)、日期、星期、月份、季度。用户维度:用户ID(主键)、性别、年龄、注册渠道、会员等级。设备维度:设备ID(主键)、设备类型(手机/PC)、操作系统(iOS/Android/Windows)。页面维度:页面ID(主键)、页面名称(首页/商品详情页)、所属模块(服装/3C)。(2)事实表(用户行为事实表):事实表主键:行为ID。外键:时间ID、用户ID、设备ID、页面ID。度量值:点击次数(计数)、下单金额(求和)、支付金额(求和)、行为步骤(点击=1,下单=2,支付=3,用于计算转化率)。测试要点:(1)维度表完整性:验证用户、设备、页面等维度的属性是否覆盖所有业务场景(如设备类型是否包含最新平板设备)。(2)事实表准确性:核对点击量与埋点数据(源系统)是否一致,下单金额与交易系统记录是否匹配。(3)转化率计算逻辑:验证“点击→下单”转化率=下单次数/点击次数,是否按用户、设备、时间等维度正确汇总。(4)多维度关联查询性能:测试“按设备类型+月份统计各页面转化率”的查询响应时间,确保在可接受范围内。(5)历史数据保留:确认用户行为数据是否保留最近3年记录,支持长期趋势分析。2.某企业数据仓库上线后,业务部门反馈“销售汇总报表查询速度慢”,请从测试角度分析可能原因,并提出验证方法。答案:可能原因及验证方法:(1)数据量过大:事实表存储了10年的明细数据,未做汇总或归档。验证方法:检查事实表记录数(如超10亿条),分析查询是否扫描全表;对比汇总表(如月销售额)与明细查询的性能差异。(2)索引缺失或不合理:查询条件(如“地区+月份”)未创建复合索引,导致全表扫描。验证方法:查看SQL执行计划(EXPLAIN语句),确认是否存在全表扫描(Scan)操作;检查索引字段是否覆盖查询过滤条件。(3)维度表关联复杂:使用雪花模型,维度表层级过多(如地区维度→省→市→区),增加JOIN操作复杂度。验证方法:统计查询涉及的JOIN次数(如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理人文关怀的护理挑战
- 普外科常见手术护理配合
- 水痘患者康复指导材料分享
- 2026年重庆两江新区指标到校考试物理试卷试题(含答案)
- 游戏网红达人合作协议
- 卫生系统招考试题及答案
- 2026年肠粘连松解后康复诊疗试题及答案(消化内科版)
- Q-GDW 13195.3-2018 智能变电站220kV~750kV母线保护采购标准 第3部分:智能变电站220kV~750kV 3/2断路器接线的母线保护专用技术规范
- 2026年小程序开发技术服务协议
- 广东省佛山市实验学校2024-2025学年八年级下学期期中考道德与法治试题(含答案)
- 即兴表演神经机制-洞察及研究
- 处方审核培训课件
- -视觉质量评价
- 绿化部门油品管理制度
- 京东商品流程管理制度
- 2025年江苏省常州市中考二模英语试题
- 部队文职协议班合同
- 客运驾驶员安全培训课件
- 人工智能技术在职业技能提升中的心得体会
- 地理八年级下册《台湾省的地理环境与经济发展》课件
- GB/T 44755-2024低压高强紫外线灯
评论
0/150
提交评论