2026年大数据HCIA模拟考试题(含答案)_第1页
2026年大数据HCIA模拟考试题(含答案)_第2页
2026年大数据HCIA模拟考试题(含答案)_第3页
2026年大数据HCIA模拟考试题(含答案)_第4页
2026年大数据HCIA模拟考试题(含答案)_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年大数据HCIA模拟考试题(含答案)一、单项选择题(共15题,每题2分,共30分)1.华为FusionInsightMRS9.0版本存算分离架构底层默认采用的分布式存储组件是?A.OceanStorPacificB.HDFS3.xC.CephD.MinIO答案:A2.以下哪个特性是湖仓一体架构区别于传统数据仓库、数据湖的核心能力?A.支持结构化数据存储B.支持ACID事务同时兼容非结构化数据批流处理C.支持SQL查询D.支持离线计算答案:B3.以下哪种数据脱敏技术适用于需要保留数据统计分布特征的金融风控模型训练场景?A.替换脱敏B.洗牌脱敏C.差分隐私脱敏D.格式保留加密脱敏答案:C4.Flink1.18及以后版本针对大状态流计算场景,默认采用的状态后端是?A.内存状态后端B.RocksDB状态后端C.HDFS状态后端D.本地磁盘状态后端答案:B5.华为FusionInsight体系中,专门面向大模型训练场景,实现训练数据自动标注、清洗、质量稽核的专属组件是?A.HetuEngineB.DataArtsStudioC.ModelArtsDataProD.SparkMLlib答案:C6.以下哪个指标不属于数据质量评估的完整性维度?A.字段空值率B.表记录数缺失占比C.字段枚举值不符合业务字典占比D.关联表外键缺失率答案:C7.存算分离架构相较于传统存算耦合架构,以下哪项不是其核心成本优势?A.存储资源可独立扩容,无需搭配等比计算资源B.冷热数据可自动分层存储降低存储成本C.计算节点无状态可按需弹性扩缩容D.数据本地化计算降低跨节点带宽成本答案:D8.依据《中华人民共和国数据安全法》要求,针对个人敏感数据的处理活动,以下哪种操作是合规的?A.未经用户授权将个人敏感数据用于广告精准推送B.对已收集的个人敏感数据做匿名化处理后用于公开数据集发布C.将个人敏感数据明文存储于公共云存储桶D.向第三方共享个人敏感数据时仅做去标识化处理未加密答案:B9.以下哪个引擎是当前批流融合场景下,同时支持离线批处理、实时流处理、交互式查询的统一计算引擎?A.MapReduceB.StormC.Spark3.xD.Flink1.19答案:D10.以下哪项不属于技术元数据的范畴?A.表的字段名、数据类型、长度约束B.数据的业务含义、业务归属部门、业务责任人C.数据的ETL加工规则、数据血缘关系D.数据的存储位置、生命周期配置、访问权限配置答案:B11.Hudi湖仓存储格式中,以下哪种表类型适合高频更新的实时数据接入场景?A.CopyOnWrite表B.MergeOnRead表C.外部表D.临时表答案:B12.以下哪种大数据组网方式能够最大程度降低存算分离架构下计算访问存储的网络延迟?A.千兆以太网组网B.万兆以太网组网C.RDMA高速网络组网D.光纤组网答案:C13.实时数仓建设中,Kappa架构的核心设计思路是?A.离线批处理和实时流处理两套链路并行计算,最终合并结果B.以流处理为核心,用统一的流处理链路同时满足实时和离线计算需求C.以批处理为核心,离线计算结果补充实时计算结果的误差D.采用交互式查询引擎直接查询原始数据,无需预计算答案:B14.以下哪种加密方式适用于大数据传输过程中的端到端加密?A.AES对称加密B.TLS传输加密C.SHA256哈希加密D.国密SM4加密答案:B15.数据分类分级工作中,当同一数据同时属于多个级别时,应遵循以下哪个原则确定其级别?A.就低不就高原则B.就高不就低原则C.平均定级原则D.按需定级原则答案:B二、多项选择题(共10题,每题3分,共30分,多选、少选、错选均不得分)1.湖仓一体架构的典型应用场景包含以下哪些?A.实时数仓建设B.大模型训练数据集统一管理与分析C.非结构化数据湖存储与检索D.传统离线数据仓库平滑迁移答案:ABCD2.以下哪些属于大数据勒索病毒防护的有效手段?A.数据多副本跨地域存储B.存储资源权限最小化配置C.定期离线冷备份核心数据D.开启存储层WORM(一次写入多次读取)特性答案:ABCD3.Flink的状态容错机制包含以下哪些核心特性?A.分布式快照(Checkpoint)B.保存点(Savepoint)C.Exactly-Once语义保证D.自动故障重启与状态恢复答案:ABCD4.数据血缘分析可应用于以下哪些业务场景?A.数据质量问题根因定位B.数据合规性审计C.数据变更影响范围评估D.冗余数据识别与下线答案:ABCD5.存算分离架构下,为降低计算访问存储的带宽开销,可采用的优化手段包含以下哪些?A.计算节点本地缓存高频访问热数据B.采用RDMA高速网络组网C.开启数据预取机制D.计算节点与存储节点同机柜部署答案:ABCD6.数据分类分级的核心原则包含以下哪些?A.合法合规原则B.就高不就低原则C.可落地可执行原则D.动态调整原则答案:ABCD7.Spark3.x相较于Spark2.x新增的核心特性包含以下哪些?A.自适应查询执行(AQE)B.动态分区裁剪C.PandasAPI原生支持D.湖仓格式DeltaLake的内置支持答案:ACD8.以下哪些属于《个人信息保护法》中定义的敏感个人信息范畴?A.生物识别信息B.宗教信仰信息C.行踪轨迹信息D.金融账户信息答案:ABCD9.以下哪些组件属于华为FusionInsightMRS的核心组件?A.HDFSB.YARNC.HetuEngineD.ClickHouse答案:ABCD10.大数据项目数据接入阶段需要考虑的核心问题包含以下哪些?A.数据接入的实时性要求B.多源数据格式兼容性C.数据传输过程中的加密D.接入数据的初步清洗与格式转换答案:ABCD三、判断题(共10题,每题2分,共20分)1.湖仓一体架构中,数据只能存储在数仓的结构化存储引擎中,不能存储在数据湖的对象存储中。答案:错2.差分隐私技术通过向数据或查询结果中添加可控噪声,在保证数据统计分析准确性的前提下,防止攻击者识别出单个用户的隐私信息。答案:对3.Flink的Checkpoint是用户手动触发的,用于作业升级、版本回滚时的状态持久化操作。答案:错4.存算分离架构下,计算节点是有状态的,扩容时需要迁移数据到新的计算节点。答案:错5.数据去标识化处理后的数据仍然属于个人信息,不能随意对外共享。答案:对6.HetuEngine是华为推出的分布式SQL查询引擎,支持跨HDFS、HBase、MySQL等多数据源的联邦查询。答案:对7.实时数仓Lambda架构相较于Kappa架构,能够更好地保证离线计算结果和实时计算结果的一致性。答案:错8.数据质量的准确性维度指的是数据的取值是否符合业务规则、是否在合理的取值范围内。答案:对9.RocksDB作为Flink的状态后端,适合存储超大状态的流计算作业,支持状态持久化到磁盘。答案:对10.依据《网络安全法》要求,重要数据的处理者应当按照规定对其数据处理活动定期开展风险评估,并向有关主管部门报送风险评估报告。答案:对四、实操题(共2题,每题10分,共20分)1.实操场景:某企业采用FusionInsightMRS9.0存算分离架构建设湖仓一体平台,现有业务需求:将MySQL业务库的用户交易表(t_transaction,字段包含trans_id、user_id、trans_amount、trans_time、trans_status)准实时接入到湖仓平台,要求数据延迟不超过5分钟,且保证Exactly-Once语义,接入后自动按天分区存储在Hudi中,供后续批流分析使用。(1)请列出实现该需求需要用到的至少3个核心组件,并说明每个组件的作用。(2)请写出配置数据接入任务时,为保证Exactly-Once语义需要开启的2项核心配置。答案:(1)核心组件及作用:①DataArtsDataIntegration(数据集成组件):负责从MySQL抽取全量+增量数据,支持CDC增量同步,保证数据捕获的一致性;②Kafka:作为数据接入的缓冲队列,实现削峰填谷,支持高吞吐的增量数据可靠传输;③Hudi:湖仓存储格式,支持ACID事务、增量查询,自动按天分区存储数据,保证数据写入的Exactly-Once语义;(也可替换为Flink,用于CDC数据的加工、转换和写入Hudi,作用合理即可得分)(2)核心配置:①开启FlinkCDC的Checkpoint机制,设置Checkpoint间隔为1分钟,配置Checkpoint一致性级别为Exactly-Once;②配置Hudi的写入策略为COMMIT_ONLY,开启幂等写入,避免重复数据写入。2.实操场景:现有某电商用户行为日志数据存储在FusionInsightMRS的HDFS中,表名为dwd_user_behavior,字段包含user_id、item_id、behavior_type、behavior_time、dt(分区字段,格式为yyyyMMdd),需求:统计2026年6月1日至2026年6月10日期间,每种行为类型(behavior_type包含pv、cart、fav、buy)的用户访问量UV(同一用户多次访问同一类型只算一次),要求输出结果包含behavior_type、uv两个字段,结果按照uv降序排序,存储到结果表ads_user_behavior_uv中,存储格式为Parquet。请写出实现该需求的SparkSQL代码

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论