版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025南国大数据(贵州)有限公司招聘笔试历年常考点试题专练附带答案详解(第1套)一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、数据库事务的ACID特性中,要求事务中的所有操作要么全部完成,要么全部不完成的特性是?A.原子性B.一致性C.隔离性D.持久性2、以下哪种方法可有效解决哈希表中的冲突问题?A.线性探测法B.二分查找法C.快速排序法D.动态规划法3、HTTP协议中,状态码302表示的含义是?A.永久重定向B.临时重定向C.服务器内部错误D.请求资源未找到4、Python语言中,以下属于可变数据类型的是?A.字符串B.元组C.列表D.数值类型5、操作系统中,进程从运行态转变为等待态的可能原因是?A.时间片用完B.等待I/O完成C.被调度程序抢占D.进程执行完毕6、若某二叉树的后序遍历序列为“DBEFCA”,则其根节点的值为?A.AB.BC.CD.D7、IPv4地址属于以下哪一类地址?A.A类B.B类C.C类D.D类8、SQL语句中,COUNT(*)与COUNT(列名)的主要区别是?A.COUNT(*)统计所有行,包括NULL值B.COUNT(列名)统计所有行,包括NULL值C.COUNT(*)仅统计非NULL值D.COUNT(列名)忽略重复值9、操作系统分页存储管理中,可能导致哪种类型的内存碎片?A.外部碎片B.内部碎片C.混合碎片D.无碎片10、TCP协议与UDP协议的共同点是?A.都是面向连接的B.都基于IP协议C.都提供可靠传输D.都支持多播11、在关系型数据库中,为提高查询效率,以下哪项操作最有效?A.增加数据冗余B.创建索引C.减少字段数量D.使用外键约束12、Hadoop生态系统中,负责分布式存储的核心组件是?A.MapReduceB.HDFSC.YARND.Hive13、Spark相较于MapReduce的性能优势主要体现在?A.支持实时流处理B.基于内存计算C.支持更多编程语言D.更简单的API14、以下属于监督学习算法的是?A.K均值聚类B.主成分分析C.决策树D.关联规则挖掘15、Python中,下列哪种数据类型是可变类型?A.元组B.字符串C.列表D.冻结集合16、数据仓库的“集成性”特征主要指?A.高并发数据写入B.数据来源于多个异构系统C.支持实时分析D.采用列式存储17、分布式系统CAP定理中的“C”代表?A.持续性B.一致性C.可用性D.持久性18、数据清洗阶段,处理缺失值的常用方法是?A.删除含缺失行B.用平均值填充C.保留缺失值D.随机生成数据19、以下工具最适合用于交互式数据可视化的是?A.MatplotlibB.ExcelC.TableauD.Notepad++20、大数据预处理阶段,“标准化”的主要作用是?A.减少数据维度B.统一特征数值范围C.提高存储效率D.增加数据样本量21、在数据结构中,栈的运算特性是()A.先进先出B.后进后出C.后进先出D.随机存取22、以下IP地址中属于C类地址的是()A.B.C.54D.9923、数据库设计中,第三范式要求()A.消除主属性对候选键的部分依赖B.消除非主属性对候选键的部分依赖C.消除主属性对候选键的传递依赖D.消除非主属性对候选键的传递依赖24、对n个元素进行快速排序时,最坏情况下的时间复杂度是()A.O(nlogn)B.O(n²)C.O(n)D.O(logn)25、以下Python语句中,能正确统计字符串中元音字母数量的是()A.sum(1forcinsifcin'aeiouAEIOU')B.len([cforcinsifcin'aeiou'])C.s.count('a','e','i','o','u','A','E','I','O','U')D.filter(lambdac:cin'aeiouAEIOU',s)26、Hadoop生态系统中,负责分布式存储的组件是()A.MapReduceB.HDFSC.YARND.Hive27、机器学习中,过拟合的主要特征是()A.训练集误差大,测试集误差小B.训练集误差小,测试集误差大C.训练集与测试集误差均小D.训练集与测试集误差均大28、在Linux系统中,若要查看指定端口8080的占用情况,应使用命令()A.netstat-an|grep8080B.ps-ef|grep8080C.top-p8080D.free-m|grep808029、统计学中,一组数据的中位数是()A.最大值与最小值的平均数B.出现频率最高的数值C.排序后位于中间位置的数值D.所有数值的算术平均30、数据可视化中,适合展示连续型数据分布的是()A.散点图B.饼图C.折线图D.直方图二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、在分布式文件系统中,数据存储的特点包括哪些?A.数据分块存储B.高容错性C.支持随机写入D.副本机制保障可靠性32、关于关系型数据库ACID特性,以下正确的是?A.原子性指事务操作不可分割B.一致性确保数据最终状态正确C.隔离性防止并发事务干扰D.持久性依赖日志实现33、以下属于大数据处理框架的有?A.ApacheSparkB.ApacheKafkaC.ApacheHiveD.ApacheStorm34、数据清洗阶段需要处理的问题包括?A.缺失值填充B.异常值检测C.数据标准化D.维度规约35、NoSQL数据库的典型特征包括?A.灵活SchemaB.弱一致性C.横向扩展D.SQL查询支持36、在数据可视化中,折线图适用场景是?A.展示趋势变化B.比较类别差异C.显示比例分布D.呈现时间序列37、关于K-means聚类算法,正确的是?A.需预设聚类数kB.对异常值敏感C.输出全局最优解D.基于距离度量38、数据仓库的ETL过程包含哪些步骤?A.数据抽取B.数据转换C.数据加载D.数据归档39、云计算的服务模式包括?A.IaaSB.PaaSC.SaaSD.BaaS40、数据挖掘中分类与回归的区别在于?A.输出变量类型B.模型复杂度C.数据标注需求D.评估指标41、下列关于分布式存储系统的说法中,哪些是正确的?A.HDFS适合存储海量小文件;B.HBase支持实时读写操作;C.MySQL可作为分布式存储解决方案;D.Redis属于内存型数据库。42、数据挖掘中,以下哪些算法属于分类算法?A.决策树;B.K-means;C.朴素贝叶斯;D.支持向量机。43、关于SQL查询优化,以下哪些做法是合理的?A.避免使用SELECT*;B.在频繁查询的列上建立索引;C.大量使用子查询替代JOIN;D.频繁使用游标处理数据。44、Python中,对列表操作描述正确的有?A.list1+list2合并后生成新列表;B.list.pop()默认删除最后一个元素;C.列表可通过切片赋值修改元素;D.列表推导式仅适用于数字列表。45、机器学习模型评估中,以下哪些指标可用于分类任务?A.均方误差;B.准确率;C.轮廓系数;D.F1值。三、判断题判断下列说法是否正确(共10题)46、贵州大数据综合试验区于2016年获批成立,是我国首个国家级大数据综合试验区。()47、Hadoop的HDFS分布式文件系统适合存储大量小文件。()48、区块链技术的核心特征包括去中心化、分布式账本和智能合约。()49、根据《中华人民共和国数据安全法》,数据处理活动需遵循合法、正当、必要和诚信原则。()50、贵阳大数据交易所是我国首个大数据交易平台,支持数据资产证券化交易。()51、“东数西算”工程通过在西部建立算力枢纽,将东部算力需求传输至西部解决。()52、机器学习中的过拟合现象可通过增加训练数据或降低模型复杂度缓解。()53、贵州省“云上贵州”平台主要功能是集中存储所有政务数据并禁止对外共享。()54、数据仓库的ETL流程包含抽取(Extract)、转换(Transform)和加载(Load)三个阶段。()55、智慧交通系统依赖大数据分析,但无法预测突发性交通事故。()
参考答案及解析1.【参考答案】A【解析】原子性(Atomicity)指事务是不可分割的最小工作单元,事务中的操作要么全成功,要么全失败回滚,确保数据完整性。一致性(Consistency)保证事务执行前后数据库的完整性约束未被破坏,隔离性(Isolation)关注并发事务的相互隔离程度,持久性(Durability)确保事务提交后修改永久保存。2.【参考答案】A【解析】哈希冲突指不同键值映射到同一地址的情况。线性探测法属于开放寻址法,通过向后探测空闲位置解决冲突。二分查找用于有序数组检索,快速排序是排序算法,动态规划用于优化问题,均不涉及哈希冲突解决。3.【参考答案】B【解析】302(Found)表示临时重定向,浏览器会跳转到新地址但保留原请求方法;301(MovedPermanently)为永久重定向。404(NotFound)表示资源不存在,500(InternalServerError)为服务器异常。4.【参考答案】C【解析】可变数据类型指对象内容可修改,列表(List)支持增删操作,属于可变类型。字符串(String)、元组(Tuple)和数值类型(如int、float)均为不可变类型,修改后需生成新对象。5.【参考答案】B【解析】进程状态转换中,运行态→等待态是主动行为,通常因等待外部资源(如I/O、信号量)触发;时间片用完或被抢占会导致运行态→就绪态,执行完毕则进入终止态。6.【参考答案】C【解析】后序遍历顺序为左子树→右子树→根节点,因此最后一个节点“C”即为根节点。其他选项为子树中的节点,无法确定唯一性。7.【参考答案】C【解析】IPv4地址分类以首字节为依据:A类(0-127)、B类(128-191)、C类(192-223)、D类(224-239)。首字节为192,属于C类私有地址,常用于局域网。8.【参考答案】A【解析】COUNT(*)统计表中所有行数(含NULL),COUNT(列名)仅统计该列非NULL值的个数。两者均不自动去重,去重需配合DISTINCT使用。9.【参考答案】B【解析】分页机制将内存划分为固定大小的页框,进程按页分配。若最后一页不足一页大小,会形成内部碎片(页内未使用空间)。分段机制则易导致外部碎片(空闲小块无法利用)。10.【参考答案】B【解析】TCP和UDP均基于IP协议(网络层协议)传输数据。TCP面向连接、可靠传输,UDP无连接、不可靠,且TCP不支持多播(需IGMP配合),UDP支持广播和多播。11.【参考答案】B【解析】索引通过建立数据结构的快速访问路径,大幅减少查询时的扫描行数。但索引会占用存储空间并降低写入速度,因此需权衡查询与更新需求。12.【参考答案】B【解析】HDFS(HadoopDistributedFileSystem)通过将大文件分块存储于多个节点,实现高容错和高吞吐量,是Hadoop的存储层核心。13.【参考答案】B【解析】Spark通过将中间数据缓存至内存减少磁盘I/O,迭代计算场景下效率可提升百倍,而MapReduce全程依赖磁盘读写。14.【参考答案】C【解析】决策树通过已知分类标签的数据训练模型,属于监督学习;K均值、主成分分析和关联规则挖掘均为无监督学习。15.【参考答案】C【解析】列表(list)支持元素增删修改,而元组(tuple)、字符串(str)和冻结集合(frozenset)创建后不可变。16.【参考答案】B【解析】数据仓库需整合企业内部ERP、CRM等多源数据,并进行清洗转换,形成统一的数据视图供分析使用。17.【参考答案】B【解析】CAP定理指出分布式系统无法同时满足一致性(Consistency)、可用性(Availability)和分区容忍(PartitionTolerance),最多三选二。18.【参考答案】B【解析】均值填充可保留数据量且维持分布形态,但可能导致偏差。删除法可能导致样本减少,随机生成法易引入噪声。19.【参考答案】C【解析】Tableau提供拖拽式操作和动态交互图表功能,支持多数据源连接,适合非技术用户快速构建可视化报告。20.【参考答案】B【解析】标准化通过Z-score等方法将不同量纲特征转换到同一数值区间(如0-1),避免量纲差异对模型训练的影响。21.【参考答案】C【解析】栈(Stack)是一种线性数据结构,其运算遵循"后进先出"(LIFO)原则,即最后入栈的元素最先被取出。选项A和D分别是队列和数组的特性,B描述的逻辑自相矛盾。22.【参考答案】A【解析】C类IP地址范围为至55,是私有C类地址的典型代表。B为B类私有地址,C为A类私有地址,D是A类公网地址。23.【参考答案】D【解析】第三范式(3NF)要求所有非主属性既不依赖于其他非主属性(消除传递依赖),也不部分依赖于候选键。选项B是第二范式的定义,选项D是3NF相较于2NF的进阶要求。24.【参考答案】B【解析】快排最坏情况(如已有序)会退化为冒泡排序,时间复杂度为O(n²)。平均情况下为O(nlogn),选项C是线性排序的复杂度。25.【参考答案】A【解析】选项A通过生成器表达式逐个判断字符是否为元音并累加计数,逻辑正确。B未包含大写元音,C的count方法参数错误,D未进行数量统计。26.【参考答案】B【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的核心存储组件,MapReduce负责计算,YARN负责资源调度,Hive是数据仓库工具。27.【参考答案】B【解析】过拟合指模型过度学习训练集特征,导致泛化能力差,表现为训练集表现好但测试集表现差。欠拟合则呈现训练集测试集双高误差。28.【参考答案】A【解析】netstat用于显示网络连接信息,-an参数显示所有端口数字形式,grep过滤8080端口。其他命令分别用于进程查看、进程资源监控和内存查看。29.【参考答案】C【解析】中位数定义为数据排序后处于中间位置的值,不受极端值影响。选项B描述众数,选项D描述平均数,选项A为极差计算的一部分。30.【参考答案】D【解析】直方图通过区间划分展示连续数据的频数分布,散点图表现两变量相关性,饼图显示比例,折线图常用于时间序列趋势。31.【参考答案】ABD【解析】分布式文件系统(如HDFS)将文件分割为块存储(A),通过副本机制实现容错(B、D)。但通常只支持追加写入而非随机写入(C错误),这是其与传统文件系统的显著区别。32.【参考答案】ACD【解析】ACID中一致性指事务执行前后数据库完整性约束成立(B错误)。原子性通过回滚机制实现(A正确),隔离性通过锁或MVCC(C正确),持久性依赖重做日志(D正确)。33.【参考答案】ACD【解析】Spark(计算框架)、Hive(数据仓库)、Storm(实时流处理)均为大数据处理框架。Kafka是分布式消息队列(B错误),主要用于数据缓冲而非直接处理。34.【参考答案】AB【解析】数据清洗聚焦数据质量校正,包括填补缺失(A)、识别异常(B)。标准化(C)属于特征工程,维度规约(D)是特征选择/PCA等方法,属于后续处理阶段。35.【参考答案】ABC【解析】NoSQL数据库(如Cassandra)支持动态Schema(A),采用最终一致性模型(B),通过分片实现横向扩展(C)。通常不支持标准SQL(D错误),使用自定义查询语言。36.【参考答案】AD【解析】折线图通过连续线段展现数据趋势(A)和时间序列关系(D)。比较类别用柱状图(B错误),比例分布用饼图(C错误)。37.【参考答案】ABD【解析】K-means需指定k值(A),使用欧氏距离(D),但易受异常值影响(B),且可能陷入局部最优(C错误)。38.【参考答案】ABC【解析】ETL即抽取(Extract)、转换(Transform)、加载(Load)流程,是数据仓库构建核心。数据归档(D)属于存储管理,非ETL范畴。39.【参考答案】ABC【解析】云计算三层服务:基础设施即服务(A)、平台即服务(B)、软件即服务(C)。BaaS(后端即服务)是SaaS细分领域(D错误),非标准分类。40.【参考答案】AD【解析】分类输出离散类别(如垃圾邮件识别),回归输出连续数值(如房价预测)(A正确)。评估指标分类用准确率(D正确),回归用MSE等。两者均需标注数据(C错误),模型复杂度无必然差异(B错误)。41.【参考答案】B、D【解析】HDFS适合大文件存储,小文件会导致NameNode压力过大(A错误)。HBase基于HDFS,支持随机实时读写(B正确)。MySQL是传统关系型数据库,不具分布式特性(C错误)。Redis以内存为存储介质,具备高速读写能力(D正确)。42.【参考答案】A、C、D【解析】决策树(A)、朴素贝叶斯(C)和支持向量机(D)均用于分类任务。K-means(B)是聚类算法,不涉及标签预测(错误)。43.【参考答案】A、B【解析】SELECT*增加I/O开销(A正确)。索引提升查询速度但需维护成本(B正确)。子查询嵌套可能导致性能低下(C错误)。游标逐行处理效率低,应优先集合操作(D错误)。44.【参考答案】A、B、C【解析】加法操作合并列表并生成新对象(A正确)。pop()默认弹出末尾元素(B正确)。切片赋值可修改指定位置元素(C正确)。列表推导式可处理任意类型元素(D错误)。45.【参考答案】B、D【解析】均方误差(A)用于回归任务。准确率(B)和F1值(D)常用于分类评估。轮廓系数(C)衡量聚类效果(错误)。46.【参考答案】正确【解析】贵州是全国首个大数据综合试验区,2016年国家发改委等多部委联合批复《贵州大数据综合试验区建设实施方案》,明确其“试验田”定位,推动大数据产业集聚发展。47.【参考答案】错误【解析】HDFS设计初衷是存储大文件,对小文件存储效率低,易导致NameNode内存压力过大。小文件存储需优化如HAR或使用其他存储系统。48.【参考答案】正确【解析】区块链通过分布式节点共识机制实现去中心化,数据以链式区块存储,智能合约支持自动化执行,是其区别于传统数据库的核心特性。49.【参考答案】正确【解析】《数据安全法》第十六条规定数据处理应遵守法律、行政法规,遵循上述四项基本原则,体现了对数据权益保护的立法导向。50.【参考答案】错误【解析】贵阳大数据交易所成立于2015年,是全国首个数据交易平台,但数据资产证券化尚未普及,当前主要开展数据产品、API接口等交易。51.【参考答案】正确【解析】2022年国家发改委启动“东数西算”工程,在贵州、内蒙古等8地建枢纽节点,旨在优化东西部算力资源配置,降低能耗与成本。52.【参考答案】正确【解析】过拟合表现为模型对训练数据过度适应,正则化、交叉验证、简化模型结构或扩充数据集均为有效应对策略。53.【参考答案】错误【解析】“云上贵州”是贵州省级政务云平台,核心功能是推动政务数据资源整合与共享,而非禁止共享。已实现全省政务系统“一云统揽”。54.【参考答案】正确【解析】ETL是数据仓库构建核心流程,用于从异构源抽取数据、清洗转换后加载至目标数据库,确保数据一致性和可用性。55.【参考答案】错误【解析】大数据可通过历史事故、天气、车流等多维度建模,结合实时数据进行风险预测,部分系统已实现短时事故概率预警功能。
2025南国大数据(贵州)有限公司招聘笔试历年常考点试题专练附带答案详解(第2套)一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、哈希表设计中,以下哪项不是解决哈希冲突的常用方法?A.开放寻址法B.链地址法C.随机排序法D.再哈希法2、某二叉树的前序遍历为ABDCE,中序遍历为DBACE,则其后序遍历是?A.DCBEAB.DCEBAC.DEBCAD.DECBA3、下列数据库类型中,最适合处理海量非结构化数据的是?A.MySQLB.MongoDBC.PostgreSQLD.Oracle4、Hadoop生态系统中,负责分布式数据存储的核心组件是?A.YARNB.MapReduceC.HDFSD.Hive5、关于数据仓库的描述,错误的是?A.面向主题B.数据不可更新C.集中存储业务数据D.支持实时分析6、HDFS中,默认数据块大小为?A.64MBB.128MBC.256MBD.512MB7、某分类任务中,模型预测结果与实际标签的混淆矩阵如下,准确率是多少?(TP=80,TN=70,FP=20,FN=30)A.50%B.60%C.75%D.85%8、SQL语句中,用于计算某列平均值的聚合函数是?A.AVGB.SUMC.COUNTD.MAX9、以下工具中,最适合进行交互式数据可视化的工具是?A.TableauB.HadoopC.SparkD.Kafka10、贵州省首个国家级大数据综合试验区获批年份是?A.2014年B.2016年C.2018年D.2020年11、在数据库操作中,以下哪项是建立索引的主要目的?A.减少数据冗余;B.提高查询速度;C.节省存储空间;D.防止数据重复12、Hadoop分布式文件系统(HDFS)的核心特点不包括以下哪项?A.高容错性;B.适合实时计算;C.适合处理大规模数据;D.流式数据访问13、数据清洗过程中,以下哪种情况最可能需要采用插值法处理?A.存在异常值;B.字段格式不统一;C.数据缺失;D.重复记录14、MapReduce编程模型中,Shuffle阶段的核心作用是?A.合并键值对;B.分割输入文件;C.执行Reduce逻辑;D.排序并传输Map输出15、NoSQL数据库相较于传统关系型数据库,显著优势在于?A.支持ACID事务;B.灵活的数据结构;C.强一致性;D.标准化查询语言16、使用Python进行数据可视化时,以下哪个库最常用于生成交互式图表?A.Matplotlib;B.Seaborn;C.Plotly;D.Pandas17、机器学习中,过拟合现象的典型表现是?A.训练集准确率低;B.测试集准确率显著低于训练集;C.模型训练时间过长;D.预测结果与实际值偏差大18、ApacheKafka的核心应用场景是?A.分布式事务;B.实时流处理;C.关系型数据存储;D.机器学习训练19、以下哪种分布式计算框架采用内存迭代计算模式?A.MapReduce;B.Spark;C.Hive;D.HBase20、数据仓库与数据库的本质区别在于?A.是否支持事务处理;B.数据更新频率;C.存储结构化数据;D.是否使用SQL查询21、在单链表中,若要在当前节点p之后插入新节点,正确的操作顺序是?A.将p的next赋值给新节点的next,再将新节点赋值给p的nextB.将新节点赋值给p的next,再将p的next赋值给新节点的nextC.直接将新节点赋值为p的前驱节点D.将p的next指向空,再将新节点链接到末尾22、SQL语句中,用于对查询结果进行分组的关键字是?A.WHEREB.GROUPBYC.ORDERBYD.HAVING23、Python中,以下哪个代码片段能生成[2,4,6,8]?A.[x*2forxinrange(4)]B.[xforxinrange(2,10,2)]C.[x//2forxinrange(4,12,2)]D.[x*2forxinrange(1,5)]24、Hadoop生态系统中,负责分布式存储的核心组件是?A.MapReduceB.YARNC.HDFSD.Hive25、下列算法中,属于监督学习的是?A.K均值聚类B.主成分分析C.决策树D.关联规则挖掘26、HTTP协议中,状态码404表示?A.服务器内部错误B.请求成功C.未找到资源D.权限不足27、操作系统中,进程与线程的核心区别是?A.线程是轻量级进程B.独立地址空间C.线程共享进程资源D.并发执行能力28、数据仓库的OLAP操作中,"切片"指的是?A.按单一维度筛选数据子集B.降低数据维度C.两个维度的交叉分析D.多维度聚合计算29、以下时间复杂度最高的是?A.O(n)B.O(n²)C.O(logn)D.O(nlogn)30、ETL流程中,"清洗"步骤的主要目的是?A.提取数据B.转换数据格式C.去除噪声和错误数据D.加载到目标数据库二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、以下关于Hadoop生态系统的描述中,正确的是()A.HDFS是分布式文件系统;B.MapReduce用于实时数据处理;C.YARN负责资源调度;D.HBase属于关系型数据库32、数据仓库的核心特征包括()A.面向主题;B.支持实时更新;C.数据集成;D.反映历史变化33、在数据挖掘过程中,常见的分类算法有()A.决策树;B.K-means;C.朴素贝叶斯;D.支持向量机34、以下属于NoSQL数据库的是()A.MongoDB;B.Redis;C.Cassandra;D.Oracle35、数据可视化工具通常具备的功能包括()A.动态图表生成;B.数据清洗;C.交互式分析;D.实时计算36、分布式存储系统的核心优势有()A.高容错性;B.低成本扩展;C.数据强一致性;D.线性性能提升37、数据清洗阶段可能涉及的操作包括()A.缺失值填充;B.异常值检测;C.特征编码;D.维度规约38、关于机器学习与大数据的关系,正确的表述是()A.大数据提供训练样本;B.机器学习需要数据标注;C.大数据推动深度学习发展;D.数据量越大模型效果越好39、实时数据处理框架的特点有()A.低延迟;B.高吞吐;C.状态持久化;D.结果可预测40、数据安全防护措施应包含()A.敏感数据脱敏;B.访问权限控制;C.数据完整性校验;D.全量数据备份41、大数据处理中,关于数据特征描述正确的是:A.数据量大(Volume)B.数据类型多样(Variety)C.处理速度要求低(Velocity)D.价值密度低(Value)42、Hadoop生态系统的核心组件包含:A.HDFSB.MapReduceC.YARND.ZooKeeper43、SQL语言中,属于数据操作语言(DML)的操作是:A.DELETEB.DROPTABLEC.TRUNCATED.SELECT44、数据清洗过程中,处理缺失值的方法包括:A.删除缺失记录B.用均值/中位数填充C.用随机森林模型预测填充D.保留缺失值作为特殊类别45、下列排序算法时间复杂度为O(n²)的是:A.快速排序B.归并排序C.插入排序D.冒泡排序三、判断题判断下列说法是否正确(共10题)46、Hadoop生态系统中,HDFS(HadoopDistributedFileSystem)主要用于分布式存储,而MapReduce用于分布式计算。判断该说法是否正确。A.正确B.错误47、贵州作为国家大数据综合试验区,是国内首个国家级大数据综合试验区。判断该说法是否正确。A.正确B.错误48、数据标准化中的Z-score方法要求数据必须服从正态分布。判断该说法是否正确。A.正确B.错误49、分类模型评估指标中,AUC-ROC曲线仅适用于二分类问题,无法扩展到多分类场景。判断该说法是否正确。A.正确B.错误50、ApacheSpark基于内存计算,处理速度通常比依赖磁盘的HadoopMapReduce更快。判断该说法是否正确。A.正确B.错误51、聚类分析属于无监督学习,其结果不依赖于标签数据。判断该说法是否正确。A.正确B.错误52、贵阳大数据交易所是国内首个实现数据流通交易的国家级平台。判断该说法是否正确。A.正确B.错误53、Python的全局解释器锁(GIL)会限制多线程程序在多核CPU上的并行计算能力。判断该说法是否正确。A.正确B.错误54、数据可视化仅用于最终分析报告呈现,不适用于数据探索阶段。判断该说法是否正确。A.正确B.错误55、ApacheKafka是一个分布式流处理平台,适用于实时数据管道和流应用。判断该说法是否正确。A.正确B.错误
参考答案及解析1.【参考答案】C【解析】哈希冲突解决方案包括开放寻址法(线性探测等)、链地址法(拉链法)、再哈希法。随机排序法是数据预处理方法,与哈希冲突无关。2.【参考答案】B【解析】由前序ABDCE确定根节点A,结合中序DBACE确定左子树(DB)和右子树(CE)。递归推导左子树根为B,右子树根为C,最终后序为DCEBA。3.【参考答案】B【解析】MongoDB是文档型NoSQL数据库,支持动态模式,适合存储JSON/XML等非结构化数据。其他选项均为关系型数据库,需固定表结构。4.【参考答案】C【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式存储层,提供高吞吐量数据访问。YARN负责资源调度,MapReduce是计算框架,Hive为数据仓库工具。5.【参考答案】D【解析】数据仓库用于离线分析,存储历史数据,而实时分析通常由流处理系统(如Flink)实现。集中存储业务数据是OLTP系统的特点。6.【参考答案】B【解析】Hadoop2.x版本默认块大小为128MB,优化大文件存储效率。早期版本为64MB,新版本可自定义调整。7.【参考答案】C【解析】准确率=(TP+TN)/(TP+TN+FP+FN)=150/200=75%。FP和FN分别影响精确率与召回率。8.【参考答案】A【解析】AVG函数直接计算列平均值,其他函数分别用于求和、计数、取最大值。9.【参考答案】A【解析】Tableau是专业的可视化工具,支持拖拽式操作。其他为大数据处理框架或消息系统。10.【参考答案】B【解析】2016年2月,贵州获批建设首个国家级大数据综合试验区,推动大数据产业发展。11.【参考答案】B【解析】索引通过创建数据表的快速访问路径提升查询效率,但可能增加存储空间消耗并影响写入速度。防止数据重复需依赖唯一性约束而非索引本身。12.【参考答案】B【解析】HDFS设计目标是处理大文件的批处理任务,采用流式读取方式,而实时计算需低延迟框架(如SparkStreaming)。高容错性通过数据分块和副本机制实现。13.【参考答案】C【解析】插值法通过数学方法估算缺失值,适用于数值型数据的缺失处理。异常值需通过标准化或过滤处理,重复记录应直接删除或合并。14.【参考答案】D【解析】Shuffle阶段负责将Map任务输出的键值对按Key排序后分发给对应Reduce任务,是连接Map和Reduce的关键步骤。合并操作属于Combine阶段功能。15.【参考答案】B【解析】NoSQL数据库采用动态Schema设计,支持文档、列族等非结构化数据存储。而ACID特性、强一致性和标准化查询语言(如SQL)是关系型数据库的核心特征。16.【参考答案】C【解析】Plotly基于D3.js构建,支持动态交互图表(如缩放、悬停提示),而Matplotlib/Seaborn主要用于静态图表。Pandas是数据处理工具,不直接生成可视化图表。17.【参考答案】B【解析】过拟合指模型过度学习训练数据噪声,导致模型泛化能力差。可通过观察验证集误差与训练集误差的差距判断。L2正则化、交叉验证是常见解决方法。18.【参考答案】B【解析】Kafka是高吞吐量的分布式消息队列系统,专为实时数据流采集、处理和分析设计。分布式事务需依托其他框架(如Seata),机器学习训练需依赖计算框架(如TensorFlow)。19.【参考答案】B【解析】Spark通过RDD(弹性分布式数据集)实现内存中数据的多次复用,显著提升迭代算法效率。MapReduce基于磁盘I/O,每次计算需读写磁盘;Hive是基于Hadoop的数据仓库工具,HBase是NoSQL数据库。20.【参考答案】B【解析】数据库面向OLTP(实时事务处理),需频繁更新;数据仓库面向OLAP(分析处理),以定期批量加载为主(如每日ETL)。两者均可支持结构化数据和SQL查询。21.【参考答案】A【解析】链表插入需先保留原后继节点地址(新节点.next=p.next),再将p.next指向新节点,避免断链。22.【参考答案】B【解析】GROUPBY用于将数据按指定列分组,通常与聚合函数(如COUNT、SUM)配合使用。23.【参考答案】D【解析】range(1,5)生成1-4,乘2后为2,4,6,8;选项B生成2,4,6,8,10。24.【参考答案】C【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件存储系统,YARN负责资源调度,MapReduce是计算框架。25.【参考答案】C【解析】监督学习需标注数据,决策树用于分类和回归;K均值、主成分分析属于无监督学习。26.【参考答案】C【解析】4xx状态码表示客户端错误,404特指请求的资源不存在。500是服务器错误,200为成功。27.【参考答案】B【解析】进程拥有独立地址空间,线程共享同一进程的内存和资源,切换开销更小。28.【参考答案】A【解析】切片(Slice)是固定某一维度值,观察其他维度数据,如选取2023年的销售数据进行分析。29.【参考答案】B【解析】n²随输入规模增长最快,常见于嵌套循环算法(如冒泡排序)。30.【参考答案】C【解析】ETL(抽取-转换-加载)中,清洗属于转换阶段,用于保证数据质量,如处理缺失值或异常值。31.【参考答案】AC【解析】HDFS采用主从架构存储海量数据,MapReduce适用于批处理而非实时处理,YARN作为资源调度器管理集群资源,HBase是分布式NoSQL数据库,D错误。32.【参考答案】ACD【解析】数据仓库通过ETL整合多源数据形成集成视图,按主题组织数据且保留历史版本,通常采用周期性批量更新而非实时更新,B错误。33.【参考答案】ACD【解析】K-means属于聚类算法,决策树、朴素贝叶斯和支持向量机均用于分类任务,D选项通过核函数处理高维数据分类问题。34.【参考答案】ABC【解析】Oracle是传统关系型数据库,MongoDB为文档型数据库,Redis是键值存储,Cassandra支持列式存储,均符合N
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年城市规划与城市交通管理实践题集
- 2026年宏观经济与市场走势分析讨论试题
- 2026年计算机编程入门级测试题
- 2026年新闻传播学理论与实践试题库
- 法人证书管理使用制度
- 水利工程建立安全风险分级管控制度
- 残疾人自强典型宣传制度
- 旅客实名登记制度
- 2026年机械设计原理零件加工工艺笔试题目
- 2025四川南充德运水务建设投资有限公司专业技术人才招考8人笔试历年典型考点题库附带答案详解2套试卷
- 食堂转包协议书范本
- “住改商”登记利害关系业主同意证明(参考样本)
- DB42-T 2157-2023 乡镇生活污水治理设施运营维护管理技术规程
- 支气管哮喘防治指南(2024年版)解读
- 《UBM检查适应症》课件
- 安徽省合肥市庐阳区2024-2025学年数学三上期末质量检测试题含解析
- 文书模板-《更换业主委员会的申请》
- 夫妻债务约定协议书
- 肺源性心脏病超声
- DL-T5366-2014发电厂汽水管道应力计算技术规程
- 土地管理学课件
评论
0/150
提交评论