2025版《大数据管理与应用概论》全套考试题库(含答案+详细解析)_第1页
2025版《大数据管理与应用概论》全套考试题库(含答案+详细解析)_第2页
2025版《大数据管理与应用概论》全套考试题库(含答案+详细解析)_第3页
2025版《大数据管理与应用概论》全套考试题库(含答案+详细解析)_第4页
2025版《大数据管理与应用概论》全套考试题库(含答案+详细解析)_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025版《大数据管理与应用概论》全套考试题库(含答案+详细解析)适用本科大数据管理、工商管理、计算机、经管类期末/专升本/自考,题型覆盖单选、多选、判断、简答、论述,贴合高教社教材核心考点。一、单项选择题(30道,每题2分)大数据管理与应用核心技术不包含()

A.数据采集B.数据存储C.数据分析D.人工智能

答案:D

解析:大数据四大核心链路:采集-存储-处理-分析;AI是大数据上层应用工具,不属于基础管理核心技术。大数据经典4V特征不含以下哪项()

A.海量VolumeB.高速VelocityC.多样VarietyD.可靠Reliability

答案:D

解析:4V:大量、高速、多类型、低价值密度;5V增加真实性Veracity,可靠性不属于定义特征。以下不属于分布式存储组件的是()

A.HDFSB.SparkC.HBaseD.MongoDB

答案:B

解析:Spark是分布式内存计算框架;HDFS分布式文件系统、HBase列存储、MongoDB文档数据库均为存储层技术。Hadoop生态负责资源调度与集群管理的组件是()

A.HBaseB.YARNC.ZookeeperD.Mahout

答案:B

解析:YARN统一管理CPU、内存资源,分配MapReduce/Spark任务;HBase数据库、Zookeeper协调服务、Mahout挖掘算法库。购物篮分析、啤酒与尿布案例使用的经典算法是()

A.AprioriB.DBSCANC.PageRankD.KNN

答案:A

解析:Apriori挖掘关联规则;DBSCAN密度聚类、PageRank网页排序、KNN分类回归。用于Python数据可视化的工具库()

A.HiveB.PigC.MatplotlibD.Sqoop

答案:C

解析:Hive数据仓库、Pig数据流语言、Sqoop数据库数据迁移工具。智能手环、物联网设备采集数据依靠()

A.爬虫B.传感器C.API接口D.报表

答案:B

解析:传感器实时采集温感、运动、定位等物联时序数据。数据清洗不包含以下哪项操作()

A.缺失值填充B.噪声过滤C.一致性校验D.数据重组生产

答案:D

解析:数据重组是后期数据融合复用,不属于清洗流程。大数据时代核心转变是重视()而非精确抽样

A.少量样本B.混杂全体数据C.因果关系D.人工统计

答案:B

解析:大数据思维:全体数据、接受混杂、关注相关性而非因果。支持实时流式低延迟计算框架是()

A.MapReduceB.FlinkC.HiveD.HBase

答案:B

解析:MapReduce离线批处理;Flink/SparkStreaming流式实时计算。数据仓库主要支撑()

A.OLTP联机事务处理B.OLAP联机分析处理C.实时交易D.设备采集

答案:B

解析:传统数据库OLTP(下单、支付);数仓OLAP多维统计、报表分析。不共享原始数据、仅交换模型参数的分布式建模技术()

A.深度学习B.联邦学习C.数据挖掘D.数据中台

答案:B

解析:联邦学习解决数据孤岛,保护隐私,符合数据安全法规。DCMM指()

A.大数据计算模型B.数据管理能力成熟度模型C.分布式存储架构D.数据安全标准

答案:B

解析:DCMM国家标准,分级评估企业数据治理水平。适合存储原始、半结构化、海量多源数据的是()

A.数据仓库B.数据湖C.关系数据库D.缓存Redis

答案:B

解析:数据湖存储原始全量数据;数据仓库清洗结构化后做主题分析。以下属于非结构化数据的是()

A.订单表格B.用户身份证号C.短视频、聊天文本D.商品价格

答案:C

解析:结构化:表格、数据库;半结构化:JSON、XML;非结构化:音视频、图片、自由文本。数据全生命周期流程正确顺序()

A.采集→存储→预处理→分析→治理→应用

B.采集→预处理→存储→分析→可视化→应用

C.存储→采集→清洗→挖掘→展示

D.采集→分析→清洗→存储→应用

答案:BZookeeper在大数据集群作用是()

A.存储海量数据B.集群协调、配置管理、节点监控C.离线计算D.数据导入导出

答案:B个人信息匿名化处理后()

A.仍属于个人信息,受《个人信息保护法》约束

B.无法识别自然人,不属于个人信息

C.可随意交易、对外共享无限制

D.需要用户二次授权

答案:B聚类算法典型应用场景()

A.商品精准推荐B.客户分群、用户分层C.风险等级分类D.网页排序

答案:B

解析:聚类无标签自动分组;分类有标签预测类别;关联规则做推荐。大数据治理核心目标是()

A.无限存储数据B.提升数据质量、安全、标准、价值

C.开发更多算法D.搭建分布式集群

答案:BSqoop工具功能()

A.实时日志采集B.关系数据库与Hadoop双向数据传输C.数据可视化D.任务调度

答案:BFlume主要用于()

A.日志文件实时采集传输B.离线大数据计算C.分布式数据库存储D.数据加密

答案:A大数据低价值密度含义是()

A.数据总量小B.海量数据中有效信息占比极低C.数据无商业价值D.数据类型单一

答案:B不属于数据预处理步骤的是()

A.数据清洗B.数据集成C.数据加密D.数据规约

答案:C

解析:预处理四步:清洗、集成、变换、规约;加密属于安全治理。描述数据精细化程度、决定分析精度的指标()

A.规模B.颗粒度C.活性D.关联度

答案:B以下属于内存数据库,用于高速缓存的是()

A.HDFSB.RedisC.HiveD.HBase

答案:B大数据思维摒弃传统小数据追求的()

A.相关性B.因果关系C.整体趋势D.概率预测

答案:B

解析:大数据侧重相关关系,不强行寻找因果。数据中台核心作用是()

A.单一业务数据库存储B.统一数据汇聚、治理、共享服务

C.仅做实时计算D.仅存储视频图片

答案:B数据安全中脱敏技术作用()

A.删除全部用户数据B.隐藏身份证、手机号等敏感信息

C.提升计算速度D.扩容存储空间

答案:B数据要素在国家定位属于()

A.传统劳动力要素B.新型生产要素C.消费商品D.无形资产不参与生产

答案:B二、多项选择题(15道,每题3分,多选少选错选不得分)大数据4V特征包含()

A.大量VolumeB.高速VelocityC.多样VarietyD.低价值密度Value

答案:ABCD大数据平台五层架构包含()

A.数据源采集层B.分布式存储层C.计算处理层D.分析挖掘层E.可视化应用层

答案:ABCDEHadoop生态圈核心组件()

A.HDFSB.YARNC.MapReduceD.HiveE.Spark

答案:ABCDE数据预处理四大步骤()

A.数据清洗B.数据集成C.数据变换D.数据规约

答案:ABCD常见NoSQL数据库分类()

A.键值型RedisB.列族HBaseC.文档MongoDBD.图数据库Neo4j

答案:ABCD数据挖掘主流算法类别()

A.关联规则AprioriB.分类(决策树、KNN)C.聚类(Kmeans、DBSCAN)D.异常检测

答案:ABCD实时流式计算框架()

A.SparkStreamingB.FlinkC.StormD.MapReduce

答案:ABC大数据时代管理思维变革体现在()

A.全体数据而非抽样B.接受混杂而非精确C.相关关系而非因果D.静态报表而非实时预测

答案:ABC数据质量管理核心评价维度()

A.准确性B.完整性C.一致性D.时效性E.唯一性

答案:ABCDE大数据典型行业应用场景()

A.电商精准营销B.金融风控反欺诈C.智慧城市交通调度D.医疗疾病预测E.工业智能制造

答案:ABCDE数据安全治理关键措施()

A.数据脱敏、加密B.分级分类管理C.访问权限管控D.安全审计日志E.隐私计算(联邦学习)

答案:ABCDE数据仓库与数据湖区别描述正确的是()

A.数据湖存储原始全量多格式数据

B.数据仓库仅存储清洗结构化主题数据

C.数据湖灵活、成本低;数据仓库分析效率高、治理规范

D.二者完全独立,无法融合

答案:ABC数据采集主要渠道()

A.业务数据库B.物联网传感器C.网络爬虫D.日志采集FlumeE.第三方API接口

答案:ABCDE数据可视化设计原则()

A.准确性B.简洁清晰C.交互友好D.风格统一E.突出核心指标

答案:ABCDE大数据带来的隐私挑战()

A.多源数据融合精准画像B.数据泄露风险C.数据过度采集D.跨机构数据共享合规难

答案:ABCD三、判断题(20道,对√错×,每题1分)大数据单纯指数据存储容量大,和处理分析能力无关。(×)

解析:海量+高速处理、价值挖掘缺一不可。传统关系数据库适合存储海量非结构化音视频数据。(×)Hive底层依赖HDFS存储,自身不管理物理文件。(√)数据仓库主要用于实时交易业务系统。(×)Apriori算法用于客户聚类分群。(×)关联规则联邦学习需要各方交换原始用户数据。(×)仅交换模型参数匿名化数据可以不受个人信息保护法规约束。(√)MapReduce适合毫秒级实时数据计算。(×)离线批处理数据治理是一次性项目,完成后无需持续维护。(×)长期动态流程数据价值密度低代表大数据没有商业利用价值。(×)海量基数下整体价值极高Flume用于采集服务器日志数据流。(√)DCMM是企业数据管理成熟度国家标准。(√)聚类算法训练时需要提前标注数据类别标签。(×)无监督学习数据清洗可以处理缺失、重复、错误噪声数据。(√)区块链可以完全杜绝原始数据造假问题。(×)仅保证链上记录不可篡改数据中台实现企业数据统一汇聚、共享复用。(√)可视化核心目的是美化图表,提升视觉效果。(×)直观挖掘数据规律分布式存储通过多节点扩容突破单机存储上限。(√)大数据分析只能寻找因果关系,相关性无参考意义。(×)数据要素是数字经济核心生产要素。(√)四、简答题(8道,每题5-10分,标准答题模板)1.简述大数据数据预处理四大步骤及各自作用1)数据清洗:去除重复、补全缺失、过滤错误噪声,解决脏数据;

2)数据集成:多业务库、多数据源融合统一,消除数据孤岛;

3)数据变换:标准化、归一化、格式转换,适配算法输入;

4)数据规约:精简维度、压缩样本,降低计算成本,保留核心信息。

作用:提升数据质量,保障后续挖掘、分析结果准确可靠。2.简述大数据4V核心特征1)大量(Volume):PB/ZB级海量数据,远超传统数据库承载上限;

2)高速(Velocity):数据实时持续产生,需低延迟快速处理;

3)多样(Variety):结构化、半结构化、非结构化多类型数据共存;

4)低价值密度(Value):单条数据价值极低,海量聚合后产生巨大商业价值。3.简述Hadoop三大核心组件功能1)HDFS分布式文件系统:多节点分布式存储海量原始数据,高容错、可无限扩容;

2)MapReduce计算模型:分Map分片处理、Reduce汇总结果,大规模离线批处理;

3)YARN资源调度框架:统一管理集群硬件资源,分配调度Spark、MapReduce各类任务。4.数据仓库与数据湖核心区别1)存储数据:数据湖存原始全量多格式数据;数仓仅存储清洗后结构化主题数据;

2)使用场景:数据湖灵活探索、原始数据挖掘;数仓固定报表、多维经营分析;

3)治理成本:数据湖前期治理弱、成本低;数仓标准化程度高、治理完善;

4)时效性:数据湖支持实时原始数据接入;传统数仓多T+1离线更新。5.简述数据挖掘四大经典算法及应用场景1)关联规则Apriori:购物篮分析、商品捆绑推荐;

2)聚类Kmeans/DBSCAN:用户分层、市场客户分群;

3)分类决策树/KNN:信贷风险评级、用户流失预测;

4)异常检测:金融欺诈识别、工业设备故障预警。6.大数据环境下数据安全主要挑战与应对方案挑战:多源海量数据泄露风险、分布式集群漏洞、跨机构共享隐私风险、敏感数据采集过度。

应对:数据分级分类、脱敏加密存储、细粒度权限管控、隐私计算(联邦学习)、全流程安全审计、完善数据合规制度。7.简述大数据平台完整数据流链路数据源(业务库、物联、爬虫、日志)→数据采集(Flume/Sqoop/API)→预处理清洗集成→分布式存储(HDFS/HBase/数据湖)→计算引擎(Spark/Flink批流处理)→挖掘建模分析→数据可视化展示→业务决策应用,全程配套数据治理与安全管控。8.什么是DCMM数据管理能力成熟度模型?五级等级是什么?DCMM是国内数据治理国家标准,评估企业数据管理水平。

五级:1初始级→2受管理级→3稳健级→4量化管理级→5优化级;覆盖数据标准、质量、安全、资产、应用八大能力域。五、论述题(2道,20分/道,考试高分答题框架)论述1:大数据如何变革企业管理与经营决策,结合电商案例说明决策思维变革:从经验拍板→数据驱动;从抽样调研→全量用户行为分析;从寻找因果→挖掘用户行为相关规律。经营环节落地价值

(1)营销:用户画像分层,精准商品推送,提升转化率;

(2)供应链:销量、地域、时序数据预测库存,降低积压或缺货;

(3)风控:实时识别刷单、虚假交易、恶意退款;

(4)运营:流量、转化、复购全链路指标实时监控,快速调整活动策略。电商案例:淘宝/京东大数据平台采集浏览、加购、下单、评价数据,通过聚类算法划分消费人群,千人千面推荐;同时预测节假

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论