版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年大数据与人工智能基础考试试题及答案一、单项选择题(每题2分,共20分)1.以下哪项不是Hadoop生态系统的核心组件?A.HDFS(分布式文件系统)B.MapReduce(分布式计算框架)C.YARN(资源管理系统)D.TensorFlow(深度学习框架)答案:D2.在机器学习中,“过拟合”现象主要是由于模型:A.复杂度不足,无法捕捉数据特征B.复杂度太高,过度拟合训练数据中的噪声C.训练数据量过大,导致计算资源不足D.损失函数设计不合理,无法收敛答案:B3.数据清洗中,处理缺失值的常用方法不包括:A.删除包含缺失值的记录B.用特征均值/中位数填充C.用K近邻算法预测缺失值D.直接保留缺失值用于模型训练答案:D4.以下哪种深度学习框架以动态计算图为主要特点?A.TensorFlow1.xB.PyTorchC.CaffeD.MXNet答案:B5.在特征工程中,对“用户注册时间”(如2023-05-1014:30:00)进行特征提取时,通常不会提取的信息是:A.注册月份(5月)B.注册时段(下午)C.注册年份(2023年)D.注册时的IP地址答案:D6.以下哪项是无监督学习的典型任务?A.垃圾邮件分类(标签:是/否)B.客户分群(无预设标签)C.房价预测(连续值输出)D.图像识别(标签:猫/狗/人)答案:B7.分布式计算中,“数据本地化”原则的核心目标是:A.减少数据在网络中的传输量B.提高计算节点的并行度C.确保数据存储的冗余性D.简化任务调度逻辑答案:A8.在决策树算法中,信息增益的计算基于:A.基尼系数B.信息熵C.均方误差D.余弦相似度答案:B9.以下哪项不是RDD(弹性分布式数据集)的特性?A.不可变(Immutable)B.可分区(Partitioned)C.自动持久化(Auto-persist)D.血统(Lineage)记录答案:C10.Transformer模型中,“自注意力机制”的主要作用是:A.捕捉序列中长距离依赖关系B.降低模型参数量C.加速前向传播计算D.增强模型的可解释性答案:A二、填空题(每题2分,共10分)1.机器学习的三要素包括模型、策略和算法。2.梯度下降算法中,每次仅用1个样本计算梯度的方法称为随机梯度下降(SGD)。3.K-means聚类算法的目标是最小化样本到其所属簇中心的欧氏距离平方和。4.大数据的“4V”特征是Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)。5.Transformer模型的核心结构由多头注意力层和前馈神经网络层组成。三、简答题(每题8分,共40分)1.简述监督学习与无监督学习的区别,并各举一例说明。答案:监督学习需要带有标签的训练数据,模型通过学习输入与标签的映射关系完成预测任务(如根据用户浏览记录预测购买行为,标签为“购买/未购买”);无监督学习使用无标签数据,目标是挖掘数据内在结构(如通过用户消费数据将客户分为高价值、中价值、低价值群体)。两者的核心区别在于是否依赖标签信息。2.数据预处理通常包括哪些步骤?请简要说明每个步骤的目的。答案:(1)数据清洗:处理缺失值、异常值,提高数据质量;(2)数据集成:合并多源数据,解决冗余和冲突;(3)数据变换:标准化/归一化(消除量纲影响)、离散化(将连续特征转为类别)、特征编码(如独热编码处理类别特征);(4)数据规约:通过降维(如PCA)或抽样减少数据规模,提升计算效率。3.解释随机森林(RandomForest)的工作原理,并说明其为何能降低过拟合风险。答案:随机森林是多个决策树的集成模型。训练时,通过自助采样(Bootstrap)从原始数据中随机抽取样本子集,同时随机选择特征子集用于构建每棵决策树;预测时,通过多数投票(分类)或均值(回归)综合多棵树的结果。其降低过拟合的原因:(1)样本和特征的随机性降低了单棵树对噪声的敏感性;(2)集成多个独立树的结果,减少了模型的方差。4.深度学习中“梯度消失”现象是如何产生的?常用的解决方法有哪些?答案:梯度消失通常发生在深层神经网络中,由于反向传播时梯度通过激活函数(如Sigmoid)的导数(最大值为0.25)多次相乘,导致梯度逐渐趋近于0,底层网络参数无法有效更新。解决方法包括:(1)使用ReLU等非饱和激活函数(导数为0或1,避免梯度衰减);(2)采用残差网络(ResNet),通过跳跃连接直接传递梯度;(3)批量归一化(BatchNorm),稳定各层输入分布,缓解梯度消失;(4)合理初始化权重,避免初始梯度过小。5.简述SparkRDD的容错机制。答案:RDD通过“血统(Lineage)”机制实现容错。每个RDD记录其依赖的父RDD及转换操作(如map、filter),当某分区数据丢失时,Spark根据血统信息重新计算该分区(而非复制存储所有数据)。这种“计算代替存储”的方式降低了存储开销,同时通过检查点(Checkpoint)机制对关键RDD进行持久化存储,避免过长血统链导致的重算耗时问题。四、计算题(每题10分,共30分)1.某数据集包含3个类别,样本数量分别为:类别A(10个)、类别B(20个)、类别C(30个)。计算该数据集的信息熵(假设仅考虑类别分布)。答案:总样本数N=60,各类别概率p_A=10/60=1/6,p_B=20/60=1/3,p_C=30/60=1/2。信息熵H=-Σ(p_ilog₂p_i)=-(1/6log₂(1/6)+1/3log₂(1/3)+1/2log₂(1/2))≈-(1/6(-2.585)+1/3(-1.585)+1/2(-1))≈1.459bit。2.某二分类模型的预测结果如下(真实正例100个,真实负例200个):TP=80,FP=30,FN=20,TN=170。计算模型的准确率(Accuracy)和F1值(F1-Score)。答案:准确率=(TP+TN)/(TP+TN+FP+FN)=(80+170)/(80+170+30+20)=250/300≈0.833;精确率P=TP/(TP+FP)=80/(80+30)=8/11≈0.727;召回率R=TP/(TP+FN)=80/(80+20)=0.8;F1=2(PR)/(P+R)=2(0.7270.8)/(0.727+0.8)≈20.5816/1.527≈0.761。3.已知二维特征空间中,样本点A(2,3)、B(5,1)、C(4,4),采用欧氏距离计算样本X(3,2)的3近邻(k=3),并说明最近邻的类别(假设A、B为类别1,C为类别2)。答案:计算X与各样本的欧氏距离:d(X,A)=√[(3-2)²+(2-3)²]=√(1+1)=√2≈1.414;d(X,B)=√[(3-5)²+(2-1)²]=√(4+1)=√5≈2.236;d(X,C)=√[(3-4)²+(2-4)²]=√(1+4)=√5≈2.236;按距离排序:A(1.414)、B(2.236)、C(2.236)。k=3时,近邻为A、B、C。其中类别1(A、B)占2个,类别2(C)占1个,因此X的类别为1。五、综合应用题(每题10分,共20分)1.某电商平台需构建用户画像系统,要求基于用户行为数据(如浏览、购买、收藏)和基本属性(如年龄、性别、地域),输出包含“消费能力”“兴趣偏好”“购买频率”的用户标签。请设计具体的技术实现流程,并说明关键步骤的技术选择。答案:技术流程:(1)数据采集:通过埋点收集用户行为日志(如ClickHouse存储实时数据),同步用户属性数据(从MySQL数据库抽取)。(2)数据清洗:使用Spark处理缺失值(如用均值填充年龄缺失)、去重(基于用户ID和行为时间戳)、过滤异常值(如单日购买次数超过100次的异常记录)。(3)特征工程:-消费能力:计算用户近30天总消费金额、客单价(总金额/订单数),标准化后分箱(如高/中/低);-兴趣偏好:对浏览/收藏的商品类目进行TF-IDF编码,提取Top3偏好类目;-购买频率:计算近90天购买次数、平均购买间隔(天数),通过K-means聚类分为高频/中频/低频。(4)标签存储:将标签写入HBase(支持快速查询)或MySQL(支持业务系统调用),定期更新(如每日凌晨)。2.某企业计划用机器学习预测下个月的产品销量,现有数据包括历史销量(2018-2024年月度数据)、月均气温、节假日数量、线上广告投入(万元)。请设计预测模型的构建流程,并说明如何评估模型效果。答案:构建流程:(1)数据预处理:-时间特征:提取月份(1-12)、是否为季度末(1/0);-特征构造:广告投入的滞后1期(上月投入)、气温与销量的相关性分析(保留高相关特征);-划分数据集:按时间顺序划分训练集(2018-2022)、验证集(2023)、测试集(2024)。(2)模型选择与训练:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3D打印脑动脉瘤栓塞弹簧圈的形态优化
- 3D打印尿道支架的尿液相容性测试
- 2025年恒丰银行福州分行社会招聘6人备考题库完整答案详解
- 2025年黄埔海关国际旅行卫生保健中心公开招聘非占编聘用人员的备考题库完整参考答案详解
- 2型糖尿病管理的基因-环境交互策略
- 2025年齐齐哈尔市总工会工会社会工作者招聘备考题库带答案详解
- 2025年烟台交运集团招聘备考题库及答案详解1套
- 2025年恒丰银行福州分行社会招聘6人备考题库及1套参考答案详解
- 2025年中国作家协会所属单位公开招聘工作人员13人备考题库有答案详解
- 义乌市卫生健康系统面向2026届毕业生校园招聘176人备考题库及参考答案详解1套
- 2025中原农业保险股份有限公司招聘67人笔试考试参考试题及答案解析
- 研培中心遴选教研员历年考试试题及答案2024
- 2025年战略投资专员岗位招聘面试参考试题及参考答案
- 2025年小学教师素养大赛试题(含答案)
- 2025年国家开放大学《中国现代文学专题》形考任务试题与答案
- 军事理论课指挥控制技术
- 2024年河北秦皇岛市公安医院招聘考试真题
- 矿石营销方案
- 事业单位会计面试热点问题汇编
- 工程工程培训课件
- 学堂在线 雨课堂 学堂云 经济学原理(微观部分) 章节测试答案
评论
0/150
提交评论