版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025南国大数据(贵州)有限公司招聘70人笔试历年典型考点题库附带答案详解一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、在大数据处理框架中,以下哪项属于Hadoop生态系统的核心组件?A.ZookeeperB.HDFSC.KafkaD.Flink2、某数据库支持分布式存储与高并发查询,但无法保证强一致性,该数据库最可能属于以下哪个类型?A.关系型数据库B.文档型数据库C.图数据库D.键值型数据库3、以下哪项技术常用于数据预处理阶段的缺失值处理?A.正则化B.决策树C.插值法D.主成分分析4、数据仓库的ODS层主要用于存储哪种类型的数据?A.轻度聚合数据B.原始操作数据C.高度聚合数据D.维度表数据5、以下哪种工具最适合用于生成交互式数据可视化大屏?A.ExcelB.TableauC.EChartsD.PowerBI6、在数据挖掘中,K-means算法主要用于解决哪类问题?A.分类B.关联规则挖掘C.聚类D.时序预测7、以下哪项技术方案最适用于实时处理TB级流式数据?A.HadoopMapReduceB.ApacheStormC.HiveD.Sqoop8、数据脱敏技术中,通过替换敏感字段以保护隐私的方法称为?A.泛化B.加密C.重采样D.模糊化9、在关系型数据库中,索引的主要作用是?A.节省存储空间B.提高查询速度C.保证数据完整性D.防止SQL注入10、按照CAP定理,分布式系统在发生网络分区时,必须在以下哪两个特性间权衡?A.一致性与可用性B.吞吐量与延迟C.分区容忍与一致性D.安全性与可扩展性11、在数据库系统中,实现数据与程序独立性的关键层次是()。A.物理层B.逻辑层C.应用层D.网络层12、若某组数据的方差为0,则以下结论正确的是()。A.数据均值为0B.数据中存在负数C.所有数据相等D.数据个数为113、Python中,以下代码的输出结果是()。
```python
deffunc(a,lst=[]):
lst.append(a)
returnlst
print(func(1),func(2))
```A.[1][2]B.[1,2][1,2]C.[1][1,2]D.[1,2][2]14、根据《中华人民共和国数据安全法》,重要数据处理者应当()。A.无需备案直接出境B.定期开展风险评估并提交报告C.仅存储于本地服务器D.采用最高加密等级传输15、某项目共有5个子任务,工期分别为3、5、2、4、6天,若采用关键路径法,项目总工期为()。A.6天B.20天C.12天D.无法确定16、Hadoop生态系统中,负责分布式资源管理的核心组件是()。A.HDFSB.MapReduceC.YARND.HBase17、某算法的时间复杂度为O(n²),当输入规模为n时,其基本操作次数()。A.恒为n²B.与n²同阶C.总小于n²D.与n²无关18、在关系数据库中,若关系模式R的每个非主属性都完全函数依赖于候选键,则R最高属于()。A.1NFB.2NFC.3NFD.BCNF19、某批数据的偏态系数为-0.8,说明该数据分布()。A.对称B.右偏C.左偏D.严重右偏20、以下数据指标中,最能反映用户留存情况的是()。A.DAU/MAU比值B.次日留存率C.用户LTVD.转化漏斗21、某企业计划在贵州建设数据中心,根据国家“东数西算”工程规划,该数据中心最适宜选址于哪个区域?A.贵阳市云岩区B.贵安新区C.遵义市红花岗区D.六盘水市钟山区22、某数据分析师在处理用户行为数据时,发现需识别用户分群特征。以下哪种算法最适合此场景?A.线性回归B.决策树C.K-means聚类D.朴素贝叶斯23、贵州某公司需对历史气象数据进行存储,要求高容错性和扩展性。以下哪种技术最合适?A.MySQLB.HadoopHDFSC.RedisD.MongoDB24、某数据可视化项目需展示贵州省近十年GDP变化趋势,最合适的图表类型是?A.饼图B.散点图C.折线图D.热力图25、根据《数据安全法》,以下哪项属于数据处理活动中必须履行的义务?A.定期开展数据安全风险评估B.公开所有数据采集规则C.禁止跨境传输数据D.采用国产加密算法26、在数据清洗过程中,发现某字段存在大量“9999”异常值,最合理的处理方式是?A.直接删除该字段B.保留并纳入统计分析C.替换为平均值D.根据业务逻辑判断修正规则27、贵州某国企计划申请大数据发展专项资金,其项目可行性研究报告应重点包含?A.项目经济效益测算B.技术路线先进性论证C.数据资源合规性说明D.以上全部28、在构建用户画像时,以下哪项数据维度对精准营销帮助较小?A.用户消费记录B.IP地址归属地C.网页浏览时长D.设备品牌型号29、某公司需实时分析交通摄像头视频流,以下技术栈组合最合理的是?A.Flume+HiveB.SparkStreaming+OpenCVC.Kafka+HBaseD.Zookeeper+Sqoop30、根据贵州大数据产业“十四五”规划,以下哪项是重点发展领域?A.区块链+溯源农业B.量子通信C.元宇宙虚拟城市D.芯片制造二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、以下属于大数据典型特征的是:
A.高价值性
B.非结构化数据占比大
C.数据更新频率低
D.数据价值密度高32、以下属于分布式数据存储技术的有:
A.HDFS
B.MongoDB
C.Redis
D.OracleRAC33、贵州省建设国家大数据综合试验区时,重点发展的领域包括:
A.数据中心集聚区建设
B.政务数据共享开放
C.传统制造业转型升级
D.生物医药产业研发34、数据安全防护需重点关注的技术环节包括:
A.数据加密传输
B.访问权限控制
C.日志审计追踪
D.数据冗余备份35、以下关于机器学习的描述正确的有:
A.监督学习需要标注数据
B.K-means属于无监督学习算法
C.深度学习必须使用GPU进行训练
D.决策树属于生成模型36、数据可视化时应遵循的原则包括:
A.优先选择三维立体图表
B.避免使用过多颜色干扰
C.准确反映数据差异
D.优先选用动态交互形式37、数据挖掘常用技术包括:
A.关联规则分析
B.时序预测
C.网络爬虫
D.决策树分类38、以下属于Hadoop生态系统组件的有:
A.YARN
B.Hive
C.Zookeeper
D.Spark39、数据清洗过程中需要处理的数据问题包括:
A.缺失值填充
B.异常值检测
C.特征标准化
D.数据格式转换40、实时数据处理场景适用的技术有:
A.ApacheKafka
B.ApacheStorm
C.ApacheSqoop
D.ApacheFlink41、关于数据库ACID特性,以下说法正确的是:A.A代表原子性,事务不可再分B.C代表一致性,数据必须符合约束条件C.I代表隔离性,事务间互不干扰D.D代表持久性,提交后数据永久保存42、大数据处理框架中,属于批处理范畴的是:A.ApacheSparkB.ApacheFlinkC.ApacheStormD.HadoopMapReduce43、数据挖掘中,分类算法的典型应用场景包括:A.客户信用评级预测B.商品购买关联分析C.文本情感倾向判断D.用户分群聚类分析44、以下关于关系型数据库与NoSQL数据库的对比,正确的是:A.关系型数据库支持强一致性B.NoSQL数据库支持水平扩展C.NoSQL数据库适合复杂查询场景D.关系型数据库采用固定表结构45、Hadoop生态系统中,负责分布式资源管理的组件是:A.YARNB.ZooKeeperC.HDFSD.MapReduce三、判断题判断下列说法是否正确(共10题)46、Hadoop框架主要用于实时数据流的处理,其核心组件包括HDFS和MapReduce。A.正确B.错误47、贵州发展大数据产业的优势之一是气候凉爽,有利于降低数据中心散热能耗。A.正确B.错误48、数据仓库中的事实表存储业务过程的度量值,且可直接进行增删改操作。A.正确B.错误49、GB/T35295-2017标准明确将数据分类为结构化、非结构化和半结构化三类。A.正确B.错误50、在Spark中,RDD的转换操作(如map、filter)是惰性执行的,不会立即触发计算。A.正确B.错误51、数据可视化中,桑基图适用于展示流量或资源从起点到终点的流向分布。A.正确B.错误52、根据《贵州省大数据发展应用促进条例》,政务数据应优先采用商用加密算法进行保护。A.正确B.错误53、机器学习中,K近邻算法(KNN)的K值越大,模型对噪声数据的敏感度越高。A.正确B.错误54、图数据库(如Neo4j)使用节点和边表示数据关系,适用于社交网络分析场景。A.正确B.错误55、数据清洗阶段发现的缺失值,必须通过删除记录的方式进行处理。A.正确B.错误
参考答案及解析1.【参考答案】B【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式存储核心组件,负责数据存储。Zookeeper用于分布式协调,Kafka是流处理平台,Flink是实时计算框架,均不属于Hadoop核心组件。2.【参考答案】B【解析】文档型数据库(如MongoDB)支持分布式架构与灵活数据模型,但通常采用最终一致性模型,无法保证强一致性。关系型数据库强调ACID特性,图数据库和键值型数据库的应用场景不同。3.【参考答案】C【解析】插值法通过已知数据推断缺失值,属于数据清洗常用方法。正则化用于防止过拟合,决策树是建模算法,主成分分析用于降维。4.【参考答案】B【解析】ODS(OperationalDataStore)层存储从业务系统直接抽取的原始数据,保留源系统结构,为后续清洗和加工提供基础。5.【参考答案】C【解析】ECharts是百度开源的JavaScript图表库,专为Web端交互式可视化设计,支持动态渲染,适合大屏展示。Tableau和PowerBI更侧重桌面分析,Excel功能较基础。6.【参考答案】C【解析】K-means是一种无监督聚类算法,通过迭代将数据划分为K个簇。分类(如决策树)需标签数据,关联规则(如Apriori算法)用于发现变量间关系,时序预测使用ARIMA等模型。7.【参考答案】B【解析】Storm是分布式实时计算框架,适合低延迟流式数据处理。MapReduce和Hive用于批处理,Sqoop用于数据迁移。8.【参考答案】D【解析】模糊化通过替换(如将姓名改为符号)或混淆数据实现脱敏。泛化是用更宽泛的值(如年龄区间)替代,加密改变数据形式但可逆,重采样是数据处理技术。9.【参考答案】B【解析】索引通过创建数据结构的副本来加速检索,但会增加存储开销。数据完整性依赖约束(如主键、外键),SQL注入防护需代码层面处理。10.【参考答案】C【解析】CAP定理指出,分布式系统无法同时满足一致性(Consistency)、可用性(Availability)、分区容忍(PartitionTolerance)。网络分区发生时,只能在一致性与可用性间二选一,分区容忍是必选特性。11.【参考答案】B【解析】逻辑层描述数据的逻辑结构和关系,通过三级模式结构(外模式、模式、内模式)实现数据与程序的逻辑独立性。物理层仅负责存储路径的独立性,逻辑层独立性需通过模式映射实现,因此选B。12.【参考答案】C【解析】方差衡量数据与均值的偏离程度。当方差为0时,所有数据与均值的差值平方和为0,即所有数据等于均值,因此选C。均值可能不为0(如数据均为5),排除A;数据个数为1时方差无意义,排除D。13.【参考答案】B【解析】Python函数默认参数在定义时初始化,而非每次调用时重新创建。因此lst参数为同一列表对象,连续调用func(1)和func(2)会向同一列表追加,最终两个返回值均为[1,2]。14.【参考答案】B【解析】《数据安全法》第36条规定,重要数据处理者需定期开展风险评估并向主管部门报告,因此选B。数据出境需经安全评估,A错误;存储方式未作强制要求,C错误。15.【参考答案】D【解析】关键路径法需明确任务间的依赖关系。若子任务并行执行,总工期取决于最长路径;若为串行则累加工期。题干未说明任务关系,无法确定关键路径,故选D。16.【参考答案】C【解析】YARN(YetAnotherResourceNegotiator)是Hadoop2.0引入的资源调度框架,负责集群资源分配与任务调度。HDFS为分布式存储系统,MapReduce为计算框架,HBase为NoSQL数据库。17.【参考答案】B【解析】大O表示法描述算法复杂度的上界,O(n²)表示存在常数c和n0,当n≥n0时,操作次数≤c·n²。因此基本操作次数与n²同阶,但非严格等于,排除A、C。18.【参考答案】B【解析】2NF要求消除非主属性对候选键的部分依赖。若存在传递依赖(如A→B→C),则不满足3NF。题干仅说明完全依赖,未排除传递依赖,故最高为2NF。19.【参考答案】C【解析】偏态系数衡量分布偏斜方向:正值表示右偏(长尾在右),负值表示左偏。绝对值越大偏斜越明显。-0.8为左偏,因此选C。20.【参考答案】B【解析】次日留存率直接衡量用户在首次使用后次日回访的比例,是留存分析的核心指标。DAU/MAU反映活跃度,LTV反映用户全生命周期价值,转化漏斗用于路径分析。21.【参考答案】B【解析】“东数西算”工程要求数据中心向可再生能源丰富、气候适宜的区域集中。贵安新区作为国家级新区,拥有水电、风电等清洁能源优势,且地质条件稳定,是贵州承接数据中心建设的核心区域。其他选项地理条件或能源储备不具备明显优势。22.【参考答案】C【解析】K-means聚类通过计算数据点之间的距离,将相似特征的对象划分为同一类群,适合无监督学习下的用户分群;决策树用于分类或回归,线性回归用于数值预测,朴素贝叶斯用于概率分类,均不直接解决分群问题。23.【参考答案】B【解析】HadoopHDFS专为海量数据存储设计,支持分布式存储与容错,适合非结构化气象数据的长期存储;MySQL为关系型数据库,扩展性差;Redis用于内存缓存;MongoDB虽支持非结构化数据,但分布式能力弱于HDFS。24.【参考答案】C【解析】折线图通过时间序列数据展示连续变化趋势,直观反映GDP随时间的增减;饼图适用于比例展示,散点图表现两个变量相关性,热力图用于二维数据密度分布,均不符合趋势分析需求。25.【参考答案】A【解析】《数据安全法》第27条明确要求数据处理者定期开展风险评估并留存报告;B项仅需明示采集范围而非全部规则,C项未禁止合法跨境传输,D项未强制国产算法,但鼓励使用。26.【参考答案】D【解析】异常值处理需结合业务场景:若“9999”代表缺失(如系统默认值),可替换为均值或删除;若为真实极端值则需保留。直接删除或替换均可能损失信息,故应优先分析成因。27.【参考答案】D【解析】专项资金评审要求综合评估:经济效益体现投入产出比,技术路线确保可实施性,合规性说明符合数据安全法规。三者缺一不可,需同步提交。28.【参考答案】D【解析】设备型号仅反映用户硬件偏好,与消费行为关联较弱;消费记录反映购买力,IP归属地定位区域消费习惯,浏览时长体现兴趣热度,均为关键画像标签。29.【参考答案】B【解析】SparkStreaming支持实时流处理,OpenCV提供视频图像分析能力,二者结合可实现实时交通流量监控;Flume用于日志采集,Hive为批处理工具,其他组合均不满足实时视频分析需求。30.【参考答案】A【解析】规划明确将区块链技术应用于贵州特色农业(如茶叶、中药材)溯源,提升附加值;量子通信、芯片制造属国家战略新兴产业,但非贵州短期重点;元宇宙未被列为核心领域。31.【参考答案】AB【解析】大数据具有"4V"特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。其中非结构化数据占比大(B)体现Variety特征,高价值性(A)体现Value特征。C错误,因大数据更新频率通常较高;D错误,因大数据价值密度普遍较低。32.【参考答案】ABCD【解析】HDFS(A)是Hadoop分布式文件系统;MongoDB(B)是分布式文档数据库;Redis(C)的集群模式支持分布式存储;OracleRAC(D)是共享存储的集群数据库架构。四项均属于分布式存储技术范畴。33.【参考答案】AB【解析】根据《国家大数据(贵州)综合试验区建设实施方案》,重点任务包含数据中心集聚区(A)、数据资源体系(B)等方向。C属于产业数字化领域,D属于医药产业方向,均非大数据试验区核心任务。34.【参考答案】ABCD【解析】数据全生命周期防护包含:传输加密(A)、权限管理(B)、操作审计(C)、容灾备份(D)等环节,四项均为数据安全防护的关键技术措施。35.【参考答案】AB【解析】监督学习(A)通过标注数据训练模型,K-means(B)是典型的聚类算法。C错误,CPU也可训练,但速度较慢;D错误,决策树属于判别模型。36.【参考答案】BC【解析】可视化应遵循"准确性、清晰性、简洁性"原则。B(避免干扰)和C(准确反映)符合要求。A错误,三维图表易扭曲数据;D错误,动态交互需视场景而定。37.【参考答案】ABD【解析】关联规则(A)、时序预测(B)、决策树(D)均为数据挖掘典型技术。网络爬虫(C)属于数据采集环节技术,不属于数据挖掘范畴。38.【参考答案】ABCD【解析】YARN(A)是资源调度器,Hive(B)是数据仓库工具,Zookeeper(C)提供协调服务,Spark(D)虽独立但常与Hadoop集成,均属于广义Hadoop生态。39.【参考答案】ABD【解析】数据清洗包含缺失值处理(A)、异常值处理(B)、格式标准化(D)等环节。特征标准化(C)属于特征工程预处理步骤,不在清洗范畴。40.【参考答案】ABD【解析】Kafka(A)是实时消息队列,Storm(B)和Flink(D)是流式计算框架。Sqoop(C)用于离线数据迁移,不适用于实时处理场景。41.【参考答案】ABCD【解析】ACID四特性中,原子性(Atomicity)要求事务要么全执行要么全失败;一致性(Consistency)确保数据在事务前后状态合法;隔离性(Isolation)保证并发事务不影响彼此;持久性(Durability)确保事务提交后数据永久保存。42.【参考答案】AD【解析】Spark支持批处理(通过RDD/Dataset)和流处理(通过DStream),但核心是批处理;MapReduce专为批处理设计。Flink和Storm为纯流处理框架。43.【参考答案】AC【解析】分类用于预测离散标签(如信用等级、情感倾向);关联分析(B)属于关联规则挖掘,聚类(D)属于无监督学习。44.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程交接管理及流程方案
- 混凝土工程项目风险管理方案
- 2026贵州江山作物科技有限公司社会招聘12人备考题库标准卷附答案详解
- 2026福建福州市光荣院招聘行政人员1人备考题库含答案详解【夺分金卷】
- 2026上海奉贤区储备人才招录31人备考题库(全优)附答案详解
- 施工现场文书处理与管理方案
- 2026北京大学深圳研究生院新材料学院分析测试中心工程师招聘备考题库(广东)附完整答案详解【全优】
- 2026新疆前海酒业有限公司招聘3人备考题库及答案详解【基础+提升】
- 施工现场消防安全培训
- 2026中国科大图书馆劳务派遣岗位招聘2人备考题库(完整版)附答案详解
- 23、资质证书使用与管理制度
- 企业人力资源管理师(三级)人力资源管理师考试题库及答案
- 土建生态环保和绿色施工环境管理培训ppt
- 酒瓶里的风景:勃艮第葡萄酒
- 药学分子生物学:第二章 DNA的复制、损伤和修复
- 2023-2024学年度新人教版必修二Unit4 History and Traditions基础巩固练习
- 施工组织设计(老旧小区改造及配套设施)
- 建设工程第三方质量安全巡查标准
- GB/T 28292-2012钢铁工业含铁尘泥回收及利用技术规范
- 货币金融学第2章信用与信用工具
- Unit 1 Discover useful structures 语法精讲课件 【高效识记+延伸拓展】高中英语人教版(2019)选择性必修第三册
评论
0/150
提交评论