版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020云南大数据公司实习生转正笔试题及答案解析
一、单项选择题,每题2分,共20分1.在HDFS中,负责保存元数据(文件名、副本系数、块列表)的守护进程是A.DataNode B.NodeManager C.NameNode D.ResourceManager2.下列关于SparkRDD的描述,正确的是A.RDD支持细粒度、可变的原地更新 B.RDD的lineage信息在shuffle后会丢失C.RDD的partition数量只能通过repartition减少 D.RDD的转换操作是惰性求值3.在Kafka0.10+版本中,消费者偏移量默认保存在哪个内部topicA.__consumer_offsets B.__offset_manager C.consumer-offsets D.offsets4.若某张Hive表存储格式为ORC,下列参数可控制ORC文件压缩算法的是A.press.output B.press C.press.codec D.pression5.在Flink的时间语义中,EventTime是指A.数据进入Flink系统的系统时间 B.数据在Source算子被读取的时间C.事件在源头业务系统发生的时间 D.数据被窗口算子处理的时间6.使用Scikit-learn的StandardScaler对训练集fit后,对测试集应A.重新fit后再transform B.直接fit_transformC.仅用训练集得到的均值方差做transform D.不做任何处理7.在Pythonpandas中,对DataFramedf按列col升序排序并返回新对象的正确写法是A.df.sort('col') B.df.sort_values('col',inplace=True)C.df.sort_values('col') D.df.order('col')8.下列关于XGBoost正则化的描述,错误的是A.可通过lambda控制叶子权重平方和的惩罚 B.gamma越大,分裂所需最小增益越高C.alpha为L1正则,可产生稀疏分裂 D.subsample参数用于控制叶子节点数目的惩罚9.在Linux中,查看当前目录下各子目录磁盘占用大小的命令是A.du-sh B.df-h. C.ls-lh D.top10.根据《网络安全法》,关键信息基础设施运营者采购网络产品或服务,可能影响国家安全的,应当A.通过工信部备案 B.通过国家网信部门安全审查 C.通过等保三级测评 D.通过ISO27001认证二、填空题,每题2分,共20分11.Hadoop3.x默认的HDFS块大小为________MB。12.在MySQL中,事务的四大特性缩写为________。13.SparkSQL中,将DataFrame注册为临时视图的函数是________。14.Elasticsearch里,一个索引默认被分成________个主分片(5.x版本)。15.在Python中,使用________库可以创建内存映射文件对象,实现大文件随机读写。16.若某决策树采用基尼指数作为划分标准,则其目标是最小化________。17.Linux系统调用中,用于修改已打开文件描述符所指向文件偏移量的函数是________。18.在Kafka中,生产者配置参数________控制消息在批量发送前等待的最大毫秒数。19.根据GDPR,企业处理欧盟居民数据必须具有________基础,否则属于非法处理。20.在Flink的checkpoint机制中,屏障(barrier)属于________算法的一种实现。三、判断题,每题2分,共20分21.HDFS的副本放置策略中,同一机架的不同节点最多存放两份副本。22.Spark的mapPartitions算子比map算子更适合需要初始化昂贵资源(如数据库连接)的场景。23.Hive的UDF必须继承org.apache.hadoop.hive.ql.exec.UDAF类。24.在逻辑回归中,使用L2正则化后,模型权重向量一定比无正则时稀疏。25.Linux的crontab中,字段“/5”表示每5小时执行一次。26.Kafka的partition副本集合中,leader负责所有读写请求,follower仅被动同步。27.XGBoost支持在训练过程中输出特征重要性,类型包括weight、gain、cover。28.在Flink的TableAPI中,rowtime字段必须在DDL里声明为PRIMARYKEY才能用于窗口。29.使用pandas的merge函数时,how='outer'表示保留左右两侧所有键。30.根据等保2.0标准,云计算扩展要求中,责任共担模型规定云服务方与租户共同承担安全责任。四、简答题,每题5分,共20分31.简述HDFS写数据流程中,客户端与NameNode、DataNode的交互顺序及数据管道机制。32.说明Spark中广播变量(broadcastvariable)的实现原理及其在join操作中的优化作用。33.列举三种常见的数据倾斜场景,并给出对应的Storm/Flink实时计算缓解策略。34.解释Elasticsearch中“倒排索引”与“正排索引”的区别,并说明为何倒排索引更适合全文检索。五、讨论题,每题5分,共20分35.公司日增日志2TB,需保存30天,现有10节点Hadoop集群(每节点12×4TSATA盘)。讨论如何设计冷热分层存储方案,兼顾成本与查询性能,并评估NameNode内存压力。36.某推荐模型离线AUC提升2%,但线上CTR下降1%。请从特征时效性、样本偏差、线上特征一致性、业务指标延迟四个角度分析可能原因,并给出排查路线图。37.对比Lambda架构与Kappa架构在实时数仓场景下的优劣;若业务允许5分钟延迟,选择哪种架构更合理?阐述理由并给出技术选型。38.欧盟GDPR与中国PIPL在跨境数据流动方面均提出“充分性认定”机制。请讨论若云南大数据公司需将用户行为日志传至新加坡分析平台,应如何同时满足两部法规要求,列出合规步骤与技术措施。答案与解析一、单项选择题1.C 2.D 3.A 4.B 5.C 6.C 7.C 8.D 9.A 10.B二、填空题11.12812.ACID13.createOrReplaceTempView14.515.mmap16.基尼不纯度(或基尼指数)17.lseek18.linger.ms19.合法(或lawful)20.Chandy-Lamport三、判断题21.T 22.T 23.F 24.F 25.F 26.T 27.T 28.F 29.T 30.T四、简答题31.客户端向NameNode申请创建文件,NN返回可写块列表及DataNode位置;客户端与第一个DN建立socket连接,形成管道,数据按packet顺序流经管道,每个DN本地落盘并转发,全部ACK后客户端继续下一块,最终向NN报告完成。32.Driver将广播变量序列化后切分成块,存储于BlockManager;Executor首次引用时从最近节点拉取并缓存为只读副本。大表join小表时,将小表广播到各节点,避免shuffle,显著减少网络IO与内存占用。33.场景1:Kafka某partition消息量暴增,使用自定义partitioner按业务键二次散列;场景2:Flink窗口聚合key热点,开启两阶段聚合(local-global)与salting;场景3:Storm单boltCPU飙高,采用并行度+自定义分组(shuffle+partialkey)。34.倒排索引以词项为主键,记录包含该词的所有文档列表;正排索引以文档为主键,记录文档内所有词。倒排可直接由词定位文档,支持布尔、短语、权重评分,压缩后空间效率高,因此全文检索更快。五、讨论题35.采用HDFS异构存储策略:最近7天热数据置DISK+SSD缓存层,中间14天温数据用DISK,最早9天冷数据归档至EC6+3策略的Archive盘;每日凌晨DistCp冷数据到OSS。NameNode内存占用=文件数×600B+块数×200B,2TB/128MB≈16k块/天×30≈0.48M块,占内存约100MB,压力可控。36.特征时效性:离线用30天平均,线上实时特征未更新;样本偏差:离线采样过度覆盖高活用户;一致性:线上特征工程版本与离线不一致;指标延迟:线上CTR统计口径含当天回流数据。排查路线:①对比实时特征分布与离线差异;②回溯实验桶用户样本;③检查特征服务版本;④延迟24h再算CTR验证。37.Kappa架构仅用流批一体引擎,代码统一、运维简单,但需重放历史消息,吞吐受限;Lambda批层可预计算,吞吐高但代码两套。5分钟延迟下,Kappa选用Fli
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖南省益阳市2026届初三下学期第三次月考英语试题试卷含解析
- 江西省萍乡市名校2025-2026学年初三下学期第三次四校联考英语试题试卷含解析
- 山西省右玉县重点达标名校2026年初三入学调研考试语文试题含解析
- DB35-T 2310-2026 营商环境数字化监测数据要求
- 2025年湖南省英语高起专考试真题及参考答案
- GB-T 47286-2026《中小微企业融资服务信用信息数据规范》解读报告
- 2026年高职院校产业学院建设路径研究
- 2026年企业之歌征集与推广方案
- 2026年小儿泄泻中医护理方案应用与优化研究
- 2026年节假日物流高峰安全运营方案
- 滴滴车司机试题及答案
- 2025年人教版小学六年级下册奥林匹克数学竞赛测试卷(附参考答案)
- 建筑设计院副总经理岗位职责
- 降本立项报告范文
- 冲压模具成本分析表模板
- 高教版2023年中职教科书《语文》(基础模块)下册教案全册
- 水利工程外观质量评定标准DB41-T 1488-2017
- 【道法】做更好的自己 课件 2024-2025学年统编版道德与法治七年级上册
- 灭火器维修与保养手册
- 涉外知识产权案例分析报告
- 研究性课题研究报告高中生
评论
0/150
提交评论