版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
新版2025年新公需科目大数据考试题库(含答案)一、单项选择题(每题2分,共40分)1.下列哪项不属于大数据“4V”特征的核心要素?A.Volume(大量)B.Velocity(高速)C.Veracity(真实性)D.Validity(有效性)答案:D2.分布式文件系统HDFS的默认块大小是?A.32MBB.64MBC.128MBD.256MB答案:C3.以下哪种数据库属于NoSQL类型?A.MySQLB.OracleC.HBaseD.SQLServer答案:C4.大数据处理框架Spark的核心组件是?A.MapReduceB.RDD(弹性分布式数据集)C.HiveD.Flink答案:B5.数据清洗过程中,处理“年龄字段出现-5”的问题属于?A.缺失值处理B.异常值处理C.重复值处理D.格式标准化答案:B6.下列哪项技术主要用于大数据实时处理?A.HadoopMapReduceB.SparkStreamingC.HiveD.HBase答案:B7.联邦学习的核心目标是?A.提升模型训练速度B.解决数据孤岛问题同时保护隐私C.降低存储成本D.优化数据可视化效果答案:B8.数据湖(DataLake)与数据仓库(DataWarehouse)的主要区别是?A.数据湖存储结构化数据,数据仓库存储非结构化数据B.数据湖存储原始数据,数据仓库存储经过清洗整合的数据C.数据湖仅用于离线分析,数据仓库支持实时分析D.数据湖成本更高,数据仓库成本更低答案:B9.以下哪项属于大数据应用中的“价值密度低”特征?A.社交媒体每天产生TB级数据B.监控视频中仅几秒有有效信息C.传感器数据实时上传D.电商平台用户行为数据格式多样答案:B10.用于描述数据特征的统计量“中位数”属于?A.集中趋势度量B.离散程度度量C.分布形态度量D.相关关系度量答案:A11.下列哪项不属于大数据采集的常见方式?A.传感器实时采样B.网络爬虫抓取公开数据C.关系型数据库导出D.人工录入Excel表格答案:D12.机器学习中,“过拟合”现象是指?A.模型在训练集表现差,测试集表现好B.模型在训练集表现好,测试集表现差C.模型无法处理高维数据D.模型训练时间过长答案:B13.大数据平台中,Hive的主要功能是?A.分布式存储B.实时计算C.数据仓库工具(将SQL转换为MapReduce任务)D.内存计算框架答案:C14.数据可视化工具Tableau的核心优势是?A.支持复杂算法开发B.无需编程即可快速提供交互式图表C.适用于大规模分布式计算D.专注于文本数据挖掘答案:B15.下列哪项属于大数据伦理风险?A.数据存储硬件故障B.算法歧视导致的不公平决策C.网络传输延迟D.数据压缩导致信息丢失答案:B16.边缘计算在大数据场景中的主要作用是?A.将数据全部传输到云端处理B.在靠近数据源头的地方进行实时预处理C.替代云计算D.仅用于小规模数据处理答案:B17.数据脱敏技术中,“将身份证号的中间几位替换为”属于?A.匿名化B.去标识化C.加密D.泛化答案:D18.以下哪种算法属于无监督学习?A.逻辑回归B.K-means聚类C.决策树D.支持向量机(SVM)答案:B19.大数据时代,“数据主权”主要指?A.个人对自身数据的控制权B.企业对业务数据的所有权C.国家对境内数据的管理权限D.平台对用户数据的支配权答案:C20.用于评估分类模型性能的指标“F1分数”是?A.精确率与召回率的调和平均数B.准确率与错误率的差值C.真阳性率与假阳性率的比值D.模型训练时间与预测时间的比率答案:A二、多项选择题(每题3分,共30分)1.大数据的关键技术体系包括?A.数据采集与整合B.分布式存储与管理C.实时与离线计算D.可视化与应用开发答案:ABCD2.下列属于NoSQL数据库特点的有?A.支持ACID事务B.灵活的模式(Schema-less)C.横向扩展能力强D.适用于结构化数据查询答案:BC3.数据清洗的主要任务包括?A.处理缺失值(如删除、插补)B.纠正错误数据(如年龄为200岁)C.合并重复记录D.转换数据格式(如日期“2025/3/15”转为“2025-03-15”)答案:ABCD4.大数据在智慧城市中的应用场景包括?A.交通拥堵预测与信号灯优化B.垃圾清运路线智能规划C.公共安全事件实时预警D.居民健康档案动态管理答案:ABCD5.隐私计算技术包括?A.联邦学习B.安全多方计算(MPC)C.同态加密D.数据脱敏答案:ABCD6.影响大数据价值挖掘的主要因素有?A.数据质量(完整性、准确性)B.分析工具的选择C.业务场景的匹配度D.数据量的绝对大小答案:ABC7.分布式计算框架Hadoop的组件包括?A.HDFS(分布式文件系统)B.YARN(资源管理系统)C.MapReduce(计算框架)D.Spark(内存计算框架)答案:ABC8.数据可视化的设计原则包括?A.清晰传达核心信息B.避免冗余图表元素C.适配目标用户的认知水平D.优先使用3D效果提升美观度答案:ABC9.大数据伦理需要关注的问题有?A.数据收集的知情同意B.算法偏见的公平性C.数据泄露的安全风险D.数据垄断对市场竞争的影响答案:ABCD10.机器学习中,特征工程的主要步骤包括?A.特征提取(从原始数据中构造新特征)B.特征选择(筛选关键特征)C.特征缩放(如归一化、标准化)D.特征可视化(分析特征分布)答案:ABCD三、判断题(每题2分,共20分)1.大数据的“高速”特征仅指数据提供速度快,与处理速度无关。(×)2.HBase是基于HDFS的列式数据库,适合实时读写场景。(√)3.数据仓库(DataWarehouse)主要用于支持OLTP(在线事务处理)。(×)4.数据可视化的核心是“美观优先”,信息准确性可适当让步。(×)5.机器学习模型训练中,训练集用于调整模型参数,测试集用于评估模型泛化能力。(√)6.边缘计算会增加数据传输到云端的延迟,因此不适合实时场景。(×)7.数据脱敏后,数据无法通过任何方式恢复原始信息,因此绝对安全。(×)8.关联分析(如“啤酒与尿布”)属于监督学习任务。(×)9.大数据时代,“样本=总体”的理念意味着不需要考虑数据抽样。(×)10.算法审计的目的是检查算法是否存在偏见或歧视性结果。(√)四、简答题(每题5分,共20分)1.简述大数据与传统数据处理的主要区别。答案:传统数据处理以结构化数据为主,数据量较小(GB级以下),处理方式多为关系型数据库的OLTP或简单报表分析,实时性要求低;大数据处理涵盖结构化、半结构化、非结构化数据(TB级以上),依赖分布式存储与计算框架(如Hadoop、Spark),强调实时/准实时处理(如秒级响应),核心目标是从海量低价值密度数据中挖掘隐含规律。2.数据清洗的主要步骤有哪些?答案:(1)识别数据问题:通过统计分析、可视化检查缺失值、异常值、重复值、格式错误等;(2)处理缺失值:根据业务场景选择删除记录、均值/中位数插补、模型预测插补等;(3)纠正异常值:通过上下界截断、转换变量(如取对数)或标注异常;(4)去重:合并或删除重复记录;(5)格式标准化:统一日期、数值、文本等格式(如“2025年3月”转为“2025-03”);(6)验证清洗效果:对比清洗前后数据分布,确保业务逻辑合理性。3.什么是“数据孤岛”?如何解决?答案:数据孤岛指不同系统、部门或组织间的数据无法共享,形成孤立的“信息烟囱”。解决措施包括:(1)建立统一的数据标准(如元数据规范、接口协议);(2)构建数据中台或湖仓一体架构,整合多源数据;(3)采用联邦学习等隐私计算技术,在不转移数据的前提下实现联合分析;(4)推动跨部门协作机制,制定数据共享政策。4.简述大数据在精准营销中的应用逻辑。答案:(1)数据采集:通过电商平台、社交媒体、会员系统等收集用户基本信息、行为数据(浏览、购买、收藏)、社交数据等;(2)数据清洗与整合:处理缺失值、去重,将多源数据关联为用户画像;(3)特征工程:提取用户偏好(如高频购买品类)、消费能力(客单价)、活跃度(登录频率)等特征;(4)模型构建:使用聚类算法(如K-means)划分用户群体,或用分类算法(如逻辑回归)预测购买概率;(5)精准触达:针对高价值用户推送个性化优惠券、针对潜在流失用户发送召回短信,提升营销转化率。五、案例分析题(共20分)某城市为优化公共交通服务,建设了交通大数据平台,整合了公交GPS轨迹、地铁闸机进出数据、共享单车骑行记录、道路摄像头车流数据。平台运行中遇到以下问题:(1)数据来源多样,格式不统一(如公交数据为CSV,地铁数据为JSON,摄像头数据为二进制图片);(2)部分数据存在缺失(如雨天GPS信号弱导致轨迹中断);(3)市民担心个人出行数据被滥用(如通过地铁闸机数据推断居住地址)。问题1:针对数据格式不统一问题,应采取哪些技术措施?(8分)问题2:如何处理轨迹数据缺失问题?请给出至少3种方法。(6分)问题3:为保障市民隐私,可采用哪些数据保护策略?(6分)答案要点:问题1:(1)建立元数据管理系统,定义各数据源的字段含义、格式规范(如时间戳统一为“yyyy-MM-ddHH:mm:ss”);(2)使用ETL工具(如ApacheNiFi)进行数据转换,将非结构化/半结构化数据(如图像、JSON)解析为结构化表格;(3)构建数据湖存储原始数据,通过Hive或SparkSQL建立统一的元数据视图,实现跨格式查询;(4)对摄像头图片数据,采用OCR技术提取车牌、车型等结构化信息,与其他数据关联。问题2:(1)插值法:根据前后时间点的GPS坐标,通过线性插值补充缺失轨迹点;(2)模式填充:分析该公交路线的历史轨迹,用同时间段的平均位置填充缺失值;(3)删除法:若缺失轨迹占比小于5%,直接删
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 文化活动组织与管理之公共关系技巧
- 农业站内部管理制度
- 农药经营内部管理制度
- 史志办单位内部控制制度
- 员工内部举荐制度
- 员工内部网球场管理制度
- 响应单位内部管理制度
- 商务局内部考核制度
- 四级内部市场管理制度
- 园区内部便利店管理制度
- 2025年内科主治医师(呼吸内科学)考试题库(含答案)
- 2026江苏南京卧中资环新源城市更新(江苏)有限公司招聘电梯事业部市场开拓岗2人笔试备考试题及答案解析
- 统编版一年级下册道德与法治《第1课 有个新目标(第1课时)》教学课件
- 2026吉林农业大学三江实验室办公室招聘工作人员笔试参考题库及答案解析
- 九师联盟2025-2026学年高三核心模拟卷英语(中) (二)(含答案)
- 2026年春季教科版(2024)三年级下册科学教学计划附教学进度表
- 包装净菜车间卫生制度
- 广东省事业单位2026年集中公开招聘高校毕业生【11066人】笔试备考试题及答案解析
- 仲裁委员会财务制度
- 食品生产首件确认制度
- 太阳能发电安全培训课件
评论
0/150
提交评论