版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025四川九洲光电科技股份有限公司招聘软件工程师(数据模型方向)拟录用人员笔试历年备考题库附带答案详解(第1套)一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、在回归分析中,以下哪项指标用于衡量模型对目标变量的解释能力?A.准确率(Accuracy)B.决定系数R²C.F1值D.AUC值2、关于K-means聚类算法,以下说法正确的是?A.能自动确定聚类数量B.对初始质心选择不敏感C.可生成非球形簇D.属于无监督学习3、以下哪项不能有效缓解模型过拟合问题?A.引入L2正则化B.减少神经网络层数C.增加训练数据D.增加特征维度4、特征工程中,对数值型特征进行Max-Max归一化的公式是?A.(x-min)/(max-min)B.(x-mean)/stdC.x/meanD.log(x+1)5、在分类任务中,若数据集类别极度不平衡,以下评估指标最不适用的是?A.精确率B.召回率C.准确率D.F1值6、关系型数据库中,第三范式(3NF)的定义是?A.无重复行B.消除非主属性对候选键的传递依赖C.主键唯一D.消除多值依赖7、以下哪种方法可用于特征选择?A.PCA降维B.Lasso回归C.交叉验证D.网格搜索8、在深度学习中,激活函数Softmax主要用于哪类任务?A.二分类B.多分类C.回归D.聚类9、A/B测试的核心目的是?A.优化代码性能B.验证模型泛化能力C.比较两个数据集分布D.评估策略变更的实际效果10、时间序列预测中,ARIMA模型的I参数表示?A.自回归阶数B.移动平均阶数C.差分次数D.季节周期长度11、在关系数据库设计中,将ER模型转换为关系模型时,实体集和联系集通常分别转换为:
A.表和视图
B.主键和外键
C.表和表之间的约束
D.表和索引12、下列关于数据库第三范式(3NF)的描述,正确的是:
A.不存在非主属性对候选键的传递依赖
B.所有属性都完全依赖于候选键
C.允许存在多值依赖
D.比BCNF更严格13、在数据模型优化中,以下哪种情况不适合建立索引?
A.常作为查询条件的列
B.包含大量重复值的列
C.主键所在的列
D.需要频繁进行排序的列14、数据仓库的雪花模型与星型模型的主要区别是:
A.雪花模型使用规范化设计
B.星型模型包含事实表和维度表
C.雪花模型支持更快的查询速度
D.星型模型存储数据量更小15、在OLAP分析中,以下哪种操作用于将数据从高维度投影到低维度?
A.钻取(Drill-down)
B.切片(Slicing)
C.旋转(Pivoting)
D.聚合(Aggregation)16、以下数据挖掘技术中,适合用于客户购买行为关联规则分析的是:
A.决策树
B.Apriori算法
C.支持向量机(SVM)
D.K-means聚类17、在机器学习中,处理数据模型过拟合的常见方法不包括:
A.增加训练数据
B.正则化(Regularization)
C.减少模型复杂度
D.增加特征维度18、Python中用于高效数值计算的库是:
A.Pandas
B.Scikit-learn
C.NumPy
D.Matplotlib19、分布式存储系统中,适合存储非结构化数据(如日志、图像)的是:
A.MySQL
B.MongoDB
C.Redis
D.HDFS20、在数据可视化中,以下工具最适合生成交互式报表的是:
A.Tableau
B.Excel
C.Matplotlib
D.PowerBI21、在数据库设计中,若某关系模式满足第三范式(3NF),则其必然满足:
A.第一范式(1NF)
B.第二范式(2NF)
C.Boyce-Codd范式(BCNF)
D.以上所有22、以下关于数据模型的描述,正确的是:
A.层次模型用树形结构表示实体关联
B.网状模型中子节点可有多个父节点
C.关系模型通过二维表实现数据存储
D.以上均正确23、若某关系模式的主键包含单个属性,则该模式至少满足:
A.1NF
B.2NF
C.3NF
D.BCNF24、下列关于范式理论的说法中,错误的是:
A.第二范式要求消除非主属性对候选键的部分依赖
B.第三范式要求消除非主属性对候选键的传递依赖
C.BCNF要求消除主属性对候选键的部分依赖
D.所有范式均需满足属性不可再分25、数据仓库与传统数据库的主要区别在于:
A.数据仓库支持实时事务处理
B.数据仓库以面向主题的方式组织数据
C.数据仓库的更新频率更高
D.数据仓库的并发用户数更多26、ETL过程在数据仓库中的作用是:
A.提高数据库的查询效率
B.将数据从操作型系统加载到仓库
C.实现数据库的横向扩展
D.保证事务的原子性27、在机器学习模型中,若训练数据的特征维度远大于样本数量,最可能引发的问题是:
A.欠拟合
B.过拟合
C.收敛速度变慢
D.模型可解释性降低28、下列工具中,最适合用于数据建模的是:
A.Visio
B.ERStudio
C.JIRA
D.Postman29、若某数据模型的查询效率较低,以下优化方法中最直接有效的是:
A.增加冗余字段
B.分库分表
C.添加索引
D.使用读写分离30、在数据可视化中,使用散点图的主要目的是:
A.展示数据的分布趋势
B.比较不同类别的数据量
C.观察两个变量间的相关性
D.显示数据的占比关系二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、在数据库设计中,关于第三范式的定义,以下说法正确的有:A.消除了非主属性对候选键的部分函数依赖B.消除了非主属性对候选键的传递函数依赖C.要求满足第二范式D.允许存在多值依赖32、关于数据仓库与数据库的区别,以下描述正确的有:A.数据库用于实时事务处理,数据仓库用于历史数据分析B.数据库设计面向业务流程,数据仓库设计面向主题域C.数据库操作以OLAP为主,数据仓库操作以OLTP为主D.数据仓库的存储成本通常低于数据库33、在构建时间序列模型时,以下哪些步骤属于数据预处理阶段?A.缺失值插值B.季节性分解C.白噪声检验D.差分处理34、关于特征工程中的标准化方法,以下说法正确的有:A.Min-Max标准化对异常值不敏感B.Z-Score标准化适用于分布不均的数据C.标准化可加速机器学习模型的收敛过程D.离散特征必须进行标准化处理35、维度建模过程中,以下属于事实表特性的有:A.存储量化业务过程的度量值B.包含外键关联维度表C.采用雪花模型优化存储结构D.粒度定义影响数据粒细程度36、ETL流程中,数据清洗环节可能涉及的操作包括:A.删除重复记录B.处理无效编码字段C.建立缓慢变化维度表D.将数据加载至目标表37、关于主成分分析(PCA)的描述,正确的是:A.通过协方差矩阵提取最大方差方向B.能保留原始数据的非线性关系C.降维后各维度间线性无关D.可用于特征选择38、以下哪些算法常用于分类任务的数据建模?A.决策树B.K-meansC.逻辑回归D.支持向量机39、关于Hadoop生态系统组件的功能,以下匹配正确的有:A.HDFS——分布式文件存储B.MapReduce——分布式计算框架C.Hive——数据可视化工具D.HBase——列式数据库40、在数据模型评估中,以下指标可用于衡量回归模型性能的有:A.准确率B.均方误差(MSE)C.召回率D.决定系数R²41、以下关于数据模型的描述正确的是哪些?A.概念模型用于描述系统中的实体及其关系B.逻辑模型独立于具体的数据库管理系统C.物理模型包含存储结构和索引设计D.关系模型属于物理模型的一种42、在ER图中,以下符号对应正确的选项是哪些?A.矩形表示实体B.椭圆表示属性C.菱形表示关系D.直线连接实体与属性43、数据仓库的特征包括以下哪些?A.面向事务处理B.主要支持OLTP操作C.数据具有时间特性D.支持多维数据分析44、以下哪些属于数据建模工具?A.PowerDesignerB.ERStudioC.MySQLWorkbenchD.Visio45、关于数据库范式理论,以下说法正确的是哪些?A.第二范式消除了非主属性对候选键的部分依赖B.BCNF要求所有函数依赖的决定因素必须包含候选键C.第四范式解决的是多值依赖问题D.第三范式允许传递依赖三、判断题判断下列说法是否正确(共10题)46、关系数据库中,第三范式(3NF)要求消除非主属性对候选键的传递依赖。正确/错误47、在ER模型中,一个多对多联系可直接转换为一张关系表。正确/错误48、数据仓库设计中,星型模型的维度表允许存在冗余数据。正确/错误49、B+树索引适用于高选择性字段,如主键列查询。正确/错误50、在OLTP系统中,通常采用3NF减少数据冗余;而OLAP系统倾向于反规范化设计。正确/错误51、雪花模型是星型模型的扩展,通过层级规范化维度表减少冗余。正确/错误52、哈希分区策略能有效解决数据倾斜问题。正确/错误53、维度建模中,缓慢变化维度(SCD)的Type2处理方式通过版本记录保留历史。正确/错误54、NoSQL数据库中的文档型数据库(如MongoDB)支持ACID事务。正确/错误55、在数据模型设计中,逻辑模型需独立于具体数据库实现。正确/错误
参考答案及解析1.【参考答案】B【解析】决定系数R²表示模型解释的方差占总方差的比例,取值范围在[0,1],越接近1说明解释能力越强。准确率、F1值和AUC值均为分类模型的评估指标,不适用于回归任务。2.【参考答案】D【解析】K-means需要预先指定聚类数且对初始质心敏感,可能陷入局部最优;其划分基于距离,适用于球形簇。聚类属于无监督学习,无需标签数据。3.【参考答案】D【解析】增加特征维度可能导致模型复杂度上升,加剧过拟合。L2正则化、简化模型结构、数据增强均为常用防过拟合方法。4.【参考答案】A【解析】Min-Max归一化将特征缩放到[0,1]区间,公式为(x-min)/(max-min);B为标准化(Z-score),C为均值归一化,D为对数变换。5.【参考答案】C【解析】准确率在类别不平衡时易被多数类主导,无法反映少数类表现。精确率、召回率和F1值更关注少数类(如正类)的预测能力。6.【参考答案】B【解析】3NF要求所有非主属性直接依赖于候选键,消除传递依赖;A为第一范式要求,D为第四范式内容,C为主键约束但非范式定义。7.【参考答案】B【解析】Lasso回归通过L1正则化使部分特征权重趋零,实现特征选择;PCA为特征降维,交叉验证评估模型,网格搜索调参。8.【参考答案】B【解析】Softmax将输出转化为概率分布,适用于多分类任务;Sigmoid用于二分类,回归任务通常无激活函数,聚类不使用激活函数。9.【参考答案】D【解析】A/B测试通过对比实验组与对照组,评估策略(如算法改进、界面调整)的实际业务效果,属于因果推断场景。10.【参考答案】C【解析】ARIMA(p,d,q)中,p为自回归阶数,d为差分次数(使序列平稳),q为移动平均阶数;季节周期为SARIMA扩展参数。11.【参考答案】C【解析】ER模型中的实体集通过表表示,联系集通过表之间的约束(如外键)体现。视图是虚拟表,索引用于优化查询,主键与外键是约束的具体实现方式。12.【参考答案】A【解析】3NF要求消除传递依赖,但允许存在多值依赖(4NF处理多值依赖)。BCNF比3NF更严格,而完全依赖是2NF的要求。13.【参考答案】B【解析】索引对低基数列(如性别、状态)效果差,因查询优化器可能忽略索引。主键、查询条件列和排序列通常适合建索引。14.【参考答案】A【解析】雪花模型对维度表进行规范化,减少冗余;星型模型维度表非规范化,查询效率更高。两者均包含事实表和维度表。15.【参考答案】D【解析】聚合通过计算函数(如SUM、AVG)减少维度。钻取增加维度,切片固定某维度值,旋转改变维度排列方式。16.【参考答案】B【解析】Apriori算法专用于挖掘频繁项集和关联规则(如“啤酒与尿布”案例)。决策树和SVM用于分类,K-means用于聚类。17.【参考答案】D【解析】增加特征维度可能加剧过拟合。正则化、简化模型和扩增数据是典型防过拟合手段。18.【参考答案】C【解析】NumPy提供多维数组和数学函数,是数值计算的基础库。Pandas用于数据清洗,Scikit-learn用于机器学习,Matplotlib用于可视化。19.【参考答案】D【解析】HDFS是Hadoop分布式文件系统,适合存储大容量非结构化数据。MongoDB是文档数据库,Redis是内存键值数据库,MySQL为关系型数据库。20.【参考答案】D【解析】PowerBI和Tableau均支持交互式报表,但PowerBI更侧重企业级报表应用。Matplotlib为静态绘图库,Excel为通用工具。21.【参考答案】A、B【解析】第三范式要求关系模式先满足第二范式(消除非主属性对候选键的部分依赖),而第二范式本身基于第一范式(属性不可再分)。因此3NF必然包含1NF和2NF的前提,但3NF可能不满足BCNF(更强的范式)。22.【参考答案】D【解析】层次模型以树形结构组织数据(如文件系统),网状模型允许多对多关系(如图结构),关系模型则基于二维表(如MySQL)。三者均为经典数据模型类型,描述均正确。23.【参考答案】B【解析】主键为单属性时,非主属性对主键的依赖必为完全依赖(无法部分依赖),因此满足2NF。但可能存在传递依赖(如A→B→C),故不一定满足3NF或BCNF。24.【参考答案】C【解析】BCNF(Boyce-Codd范式)要求:对于所有函数依赖X→Y,X必须是超键,且不局限于主属性部分依赖。主属性的部分依赖属于BCNF的约束条件之一,但选项C描述不完整。25.【参考答案】B【解析】数据仓库的核心特征是面向主题、集成性、非易失性和时变性,用于分析决策(如OLAP)。传统数据库侧重实时事务处理(OLTP),以业务流程为中心组织数据。26.【参考答案】B【解析】ETL(抽取-转换-加载)是数据仓库构建的核心流程:从异构源系统抽取数据,清洗转换后加载至仓库,为后续分析提供统一数据源。27.【参考答案】B【解析】特征维度远大于样本数时,模型易过度学习训练数据中的噪声或随机波动(过拟合)。此时需采用正则化、降维或增加数据量等方法缓解。28.【参考答案】B【解析】ERStudio是专业数据建模工具,支持实体-关系图(ERD)设计与数据库逆向工程。Visio虽可绘图,但非数据模型专用;JIRA为项目管理工具,Postman用于API测试。29.【参考答案】C【解析】索引可大幅加速查询(通过B+树或哈希结构),但会降低写入速度。分库分表和读写分离适用于分布式场景,冗余字段需结合具体业务逻辑,均非直接通用方案。30.【参考答案】C【解析】散点图通过二维坐标点的分布形态,直观反映两连续变量间的相关性(如正相关、负相关或离群值)。柱状图适合比较类别,饼图显示占比,折线图观察趋势。31.【参考答案】ABC【解析】第三范式(3NF)要求:非主属性既不部分依赖也不传递依赖于候选键,且必须先满足2NF。D选项属于第四范式解决的多值依赖问题。32.【参考答案】AB【解析】数据库面向OLTP(联机事务处理),数据仓库面向OLAP(联机分析处理)。数据仓库的存储成本因数据量庞大且冗余设计,通常更高。33.【参考答案】ABD【解析】白噪声检验用于判断序列是否随机,属于模型选择阶段。差分处理、缺失值插值和季节性分解均为预处理环节,用于消除非平稳性。34.【参考答案】BC【解析】Min-Max标准化受异常值影响大;Z-Score标准化基于均值和方差,适合非偏态分布;标准化能消除量纲差异,提升模型效率;离散特征通常无需标准化。35.【参考答案】ABD【解析】事实表以星型模型与维度表关联,雪花模型是维度表的规范化设计;粒度决定事实表描述的详细程度,是建模关键。36.【参考答案】AB【解析】清洗主要解决数据质量问题,如去重、修正无效值;C属于维度建模技术,D为加载阶段操作,属于ETL最终步骤。37.【参考答案】AC【解析】PCA仅提取线性关系,无法保留非线性结构;其通过投影降维而非直接选择特征;主成分间正交,确保线性无关。38.【参考答案】ACD【解析】K-means为无监督聚类算法,不用于分类任务;决策树、逻辑回归、支持向量机均为经典分类算法,适用于监督学习场景。39.【参考答案】ABD【解析】Hive为数据仓库工具,提供SQL查询功能;HBase是分布式列存储数据库;HDFS与MapReduce分别解决存储与计算问题。40.【参考答案】BD【解析】准确率和召回率为分类模型指标;MSE反映预测值与真实值的平均平方差异;R²表示模型解释的方差比例,适用于回归任务。41.【参考答案】ABC【解析】概念模型(如ER模型)用于抽象描述实体和关系;逻辑模型(如关系模型)与DBMS无关;物理模型涉及存储细节。关系模型属于逻辑模型,因此D错误。42.【参考答案】ABCD【解析】ER图基本符号规则:矩形为实体,椭圆为属性,菱形为关系,直线连接实体与属性或实体与关系。43.【参考答案】CD【解析】数据仓库面向主题且支持OLAP(联机分析处理),存储历史数据(时间特性),支持多维分析(如星型模型)。OLTP属于数据库特征。44.【参考答案】ABCD【解析】PowerDesigner、ERStudio、MySQLWorkbench(含建模功能)和Visio均支持数据模型设计,Visio通过模板可绘制ER图。45.【参考答案】ABC【解析】第二范式消除部分依赖,第三范式消除传递依赖(D错误);BCNF强化了候选键约束,第四范式处理多值依赖。46.【参考答案】正确【解析】第三范式(3NF)的定义是:在满足第二范式的基础上,非主属性之间不存在传递依赖。若存在传递依赖(如A→B→C),则需通过拆分表来消除。例如,学生表(学号→系名→系主任)违反3NF,需拆分系信息为独立表。47.【参考答案】正确【解析】ER模型中,多对多联系无法直接用外键表示,需新建关系表存储两实体的主键组合。例如,学生(学号)与课程(课程号)的选课联系,转化为选课表(学号+课程号)作为联合主键。48.【参考答案】正确【解析】星型模型以事实表为核心连接多个维度表,维度表为反规范化设计,允许冗余以提升查询效率。例如,日期维度表可能冗余存储年、季度、月等字段。49.【参考答案】正确【解析】B+树通过有序结构实现快速查找,高选择性字段(如主键)唯一值比例高,索引能显著减少扫描行数。但低选择性字段(如性别)使用位图索引更合适。50.【参考答案】正确【解析】OLTP系统以事务处理为主,需保证数据一致性,3NF能避免更新异常;OLAP系统侧重批量分析,反规范化可减少多表连接开销,提升查询性能。51.【参考答案】正确【解析】雪花模型对维度表进一步规范化,例如将“地区维度”拆分为省、市、县三级表。相较星型模型,存储更节省但查询需多层连接,适合需严格层次管理的场景。52.【参考答案】错误【解析】哈希分区通过取模运算分布数据,可能导致不均匀(如热点键集中)。范围分区更适合处理时间序列等有序数据,而动态分区或一致性哈希技术更能缓解倾斜。53.【参考答案】正确【解析】Type2通过新增记录并标注生效/失效时间戳维护历史变化。例如,用户地址变更时,原记录标记失效,新记录插入并生效,确保历史分析准确性。54.【参考答案】错误【解析】传统NoSQL数据库为高扩展性牺牲强一致性,MongoDB在4.0版本后支持单文档ACID事务,但跨文档事务仍受限。而关系型数据库支持全面的多表事务。55.【参考答案】正确【解析】逻辑模型关注业务实体与关系(如ER图),不涉及索引、分区等物理细节。物理模型则根据数据库特性进行优化,如选择存储引擎或分区策略。
2025四川九洲光电科技股份有限公司招聘软件工程师(数据模型方向)拟录用人员笔试历年备考题库附带答案详解(第2套)一、单项选择题下列各题只有一个正确答案,请选出最恰当的选项(共30题)1、在关系数据库中,若某表的主键由两个属性构成,则这两个属性的组合必须满足:
A.值可以部分重复
B.至少一个属性值唯一
C.组合值整体唯一且非空
D.允许同时为空值2、以下属于非关系型数据库的是:
A.PostgreSQL
B.Redis
C.MySQL
D.Oracle3、在K-means聚类算法中,若初始质心选择不当可能导致:
A.聚类数K自动调整
B.收敛速度加快
C.结果陷入局部最优
D.距离计算维度激增4、OLAP与OLTP的核心区别在于:
A.数据存储量级
B.查询复杂度
C.处理事务类型
D.用户并发数5、在关系型数据库设计中,若某关系模式已达到第三范式(3NF),则以下哪项描述是正确的?A.不存在部分函数依赖和传递函数依赖B.所有属性都是主属性C.每个非主属性完全依赖于主键D.允许存在多值依赖6、在数据仓库的星型模型设计中,以下哪项最适合作为“事实表”的属性?A.产品类别名称B.地区人口数量C.销售交易金额D.客户注册日期7、若要对某数据集进行离群值检测,以下哪种统计方法最直接有效?A.计算均值与标准差B.使用箱线图(Boxplot)分析C.构建回归模型D.计算皮尔逊相关系数8、以下哪种索引类型最适合加速高基数列(如“身份证号”)的等值查询?A.聚集索引B.哈希索引C.位图索引D.全文索引9、在数据挖掘中,K-means算法的迭代终止条件通常是?A.达到预设的聚类中心数量B.所有样本分类完全一致C.聚类中心不再显著变化D.误差平方和达到全局最小值10、以下哪种方法最适合处理时间序列预测中的季节性趋势?A.简单移动平均法B.ARIMA模型C.Holt-Winters三参数指数平滑D.线性回归模型11、在分布式数据处理框架(如Spark)中,以下哪种操作属于“惰性执行”(LazyEvaluation)?A.map()转换B.reduce()聚合C.count()统计D.collect()收集12、若某分类模型的召回率为80%,准确率为75%,则以下哪项结论必然成立?A.正类样本占比低于25%B.假正率(FPR)为20%C.真正率(TPR)为80%D.精确率为25%13、在ETL数据清洗阶段,处理缺失值的“插补法”中,哪种方法可能引入强偏态?A.用均值填充数值型字段B.用众数填充类别型字段C.使用回归模型预测缺失值D.直接删除缺失记录14、以下哪种数据库类型最适用于需要强ACID特性的金融交易系统?A.MongoDB文档数据库B.Redis键值数据库C.MySQL关系型数据库D.Neo4j图数据库15、在数据库设计中,用于描述实体及其关系的抽象模型称为?A.物理模型B.逻辑模型C.概念模型D.外部模型16、关系模型中,能唯一标识元组的最小属性集称为?A.超键B.候选键C.外键D.主属性17、若关系模式满足第三范式(3NF),则其必定满足?A.仅1NFB.仅2NFC.1NF和2NFD.BCNF18、关于数据库索引,以下说法正确的是?A.索引提高查询速度且不影响更新性能B.唯一性索引可确保列值不重复C.聚集索引与非聚集索引均支持一张表多个D.索引越多查询效率越高19、数据仓库的核心特征不包括?A.面向主题B.集成性C.实时更新D.反映历史变化20、数据库事务的ACID特性中,"隔离性"指?A.事务执行前数据保持一致性B.事务提交后修改不可逆C.并发执行时等同于串行调度D.事务内操作不因系统故障丢失21、下列NoSQL数据库类型与典型代表匹配正确的是?A.文档型-RedisB.列存储-HBaseC.键值型-MongoDBD.图数据库-Neo4j22、在数据建模工具中,用于生成物理数据模型(PDM)的核心功能是?A.实体关系图(ERD)绘制B.数据字典管理C.数据流图(DFD)分析D.数据库逆向工程23、OLAP与OLTP的主要区别体现在?A.数据量规模B.查询复杂度C.事务原子性D.数据更新频率24、数据治理的核心目标是?A.提升数据库查询效率B.确保数据质量与合规性C.降低数据存储成本D.实现数据共享最大化25、关系型数据库中,若某表满足第三范式(3NF),则一定满足:A.每个属性值不可再分B.不存在非主属性对候选键的传递依赖C.所有非主属性完全依赖于候选键D.表中无重复行26、数据仓库设计中,星型模式的核心特征是:A.多个事实表共享维度表B.事实表仅与维度表直接连接C.维度表之间存在层级关系D.采用规范化设计减少冗余27、ETL过程中,数据清洗的主要目的是:A.提高数据存储效率B.保证数据完整性和一致性C.加速数据查询响应D.减少数据维度28、某数据模型中,若实体A与实体B的关系为1:N,且实体B的每个实例必须属于一个实体A,该约束称为:A.参照完整性B.实体完整性C.域完整性D.用户自定义完整性29、以下技术中,最适合实时分析海量结构化数据的是:A.HadoopMapReduceB.ApacheSparkC.MySQLD.ApacheKafka30、维度建模中,事实表与维度表的连接方式是:A.使用代理键B.使用自然键C.通过视图D.外键约束二、多项选择题下列各题有多个正确答案,请选出所有正确选项(共15题)31、在数据库设计中,以下关于E-R模型的描述正确的是?A.实体通过属性描述特征;B.联系仅存在于两个实体之间;C.属性可包含复合属性;D.关系模式由E-R图直接转换生成32、大数据平台中,HDFS的核心特性包括?A.高吞吐量访问;B.分布式存储;C.低延迟读写;D.适合存储海量小文件33、以下关于关系型数据库范式理论的说法中,正确的有哪些?A.第二范式要求消除非主属性对候选键的部分函数依赖B.第三范式要求消除主属性对候选键的传递依赖C.BC范式要求所有函数依赖的决定因素必须包含候选键D.满足BC范式的关系模式必然满足第四范式34、数据建模过程中,关于ER模型与维度模型的对比,正确的说法包括:A.ER模型采用规范化设计,维度模型采用反规范化设计B.ER模型更适合OLAP场景,维度模型更适合OLTP场景C.维度模型中事实表与维度表通过外键关联D.ER模型中实体关系通过主外键约束实现35、关于数据仓库分层架构的设计原则,以下描述正确的是:A.ODS层存储原始业务数据,不做清洗处理B.DWD层需完成数据清洗、去重和字段标准化C.DWS层按主题构建宽表,支持复杂查询D.ADS层直接对接用户,提供固定报表展示36、在构建分类模型时,以下关于特征工程的描述正确的是:A.Min-Max归一化可解决数据分布偏态问题B.对类别型特征可采用独热编码或目标编码C.特征交叉需避免产生高维稀疏特征D.方差膨胀因子(VIF)用于检测多重共线性37、以下关于数据模型评估指标的描述,正确的包括:A.AUC值反映模型对正负样本的整体排序能力B.对于类别不平衡问题,准确率比F1-score更可靠C.RMSE能反映回归模型误差的方差情况D.轮廓系数越大说明聚类效果越好38、在Hadoop生态系统中,以下组件与数据建模相关的有:A.HDFS用于存储原始数据与中间计算结果B.MapReduce适用于迭代式图计算任务C.Hive可构建数据仓库并支持类SQL查询D.HBase适合存储半结构化/非结构化数据39、关于时序数据建模的特点,以下说法正确的有:A.需考虑时间衰减因子对特征有效性的影响B.ARIMA模型适用于非平稳序列的建模C.滑动窗口法可提取时序特征用于监督学习D.事件时间戳需统一时区并处理夏令时问题40、在构建推荐系统时,以下关于协同过滤的描述正确的是:A.基于物品的协同过滤对用户冷启动更友好B.基于用户的协同过滤依赖物品特征矩阵C.矩阵分解技术可缓解数据稀疏性问题D.余弦相似度可用于衡量用户/物品相似性41、关于大数据平台性能优化的措施,以下可行的有:A.对高频查询字段建立组合索引并监控索引使用率B.将大表拆分为分区表,按时间或地域进行水平拆分C.对低基数字段(如性别)建立位图索引以提升查询效率D.定期执行ANALYZETABLE更新统计信息辅助查询优化42、在机器学习项目中,以下关于过拟合的处理方式正确的有:A.增加正则化项(如L1/L2)约束模型复杂度B.使用早停法(EarlyStopping)终止训练过程C.对类别不平衡数据采用过采样或欠采样技术D.通过交叉验证选择最优超参数组合43、数据模型设计中,以下关于范式理论的描述正确的是:A.第二范式要求消除非主属性对候选键的传递依赖;B.第三范式要求消除非主属性对候选键的部分依赖;C.BC范式要求每个决定因素都是候选键;D.第一范式要求属性不可再分44、以下属于数据建模常用工具的是:A.PowerDesigner;B.ERStudio;C.Visio;D.Git45、关于数据仓库与数据库的区别,以下说法正确的是:A.数据库支持OLTP,数据仓库支持OLAP;B.数据库存储当前数据,数据仓库存储历史数据;C.数据库设计面向应用,数据仓库设计面向主题;D.数据库主键唯一,数据仓库无需主键三、判断题判断下列说法是否正确(共10题)46、在数据库设计中,第三范式(3NF)要求消除非主属性对候选键的传递依赖。A.正确B.错误47、在数据模型评估中,混淆矩阵的准确率(Accuracy)能准确反映类别不平衡数据的模型效果。A.正确B.错误48、在关系数据库中,若一个表满足第三范式(3NF),则它一定满足第二范式(2NF)。正确/错误49、数据仓库的OLAP(联机分析处理)主要用于支持高并发的实时事务处理。正确/错误50、在维度建模中,事实表的粒度决定了数据的详细程度,粒度越细,数据量越大。正确/错误51、ER模型(实体-联系模型)中,多对多关系可以通过引入关联表转换为两个一对多关系。正确/错误52、数据规范化(Normalization)的主要目的是减少冗余,但可能降低查询效率。正确/错误53、在数据模型设计中,维度表通常使用代理键(SurrogateKey)而非自然键。正确/错误54、雪花模型通过层级维度冗余减少存储空间,而星型模型更注重查询性能优化。正确/错误55、在Hadoop生态系统中,HDFS(分布式文件系统)适合存储结构化数据,而非关系型数据。正确/错误
参考答案及解析1.【参考答案】C【解析】主键要求整体唯一性和非空性,组合主键也需满足此规则,任何分量均不可为空。
2.【题干】数据库第三范式(3NF)的核心特征是:
A.消除非主属性对候选键的传递依赖
B.允许存在多值依赖
C.消除主属性对候选键的部分依赖
D.消除所有函数依赖
【参考答案】A
【解析】3NF要求非主属性不传递依赖于候选键,BCNF进一步消除主属性的传递依赖。
3.【题干】建立数据库索引的主要目的是:
A.节省存储空间
B.提高数据查询速度
C.防止数据重复插入
D.强制数据完整性
【参考答案】B
【解析】索引通过B+树等结构加速数据检索,但会增加存储开销并可能降低写入速度。2.【参考答案】B【解析】Redis是键值型NoSQL数据库,其他选项均为关系型数据库。
5.【题干】在数据仓库建模中,"缓慢变化维度"常用处理方法包括:
A.全表扫描更新
B.代理键技术
C.删除重建表
D.聚集索引重组
【参考答案】B
【解析】代理键通过生成新唯一标识支持历史数据追溯,是处理维度变化的标准方案。
6.【题干】评估分类模型时,精确率(Precision)的计算公式为:
A.TP/(TP+FP)
B.TP/(TP+FN)
C.(TP+TN)/(TP+TN+FP+FN)
D.FP/(TP+FP)
【参考答案】A
【解析】精确率衡量预测为正样本中实际为正的比例,TP为真阳性,FP为假阳性。3.【参考答案】C【解析】初始质心对局部最优影响显著,常用K-means++优化质心选择。
8.【题干】数据预处理中,归一化(Normalization)的典型范围是:
A.[0,1]
B.[-1,1]
C.[-∞,+∞]
D.[1,100]
【参考答案】A
【解析】归一化通过x'=(x-min)/(max-min)将数据缩放到[0,1]区间,适用于分布不均数据。4.【参考答案】C【解析】OLAP用于分析型查询(如多维聚合),OLTP处理高并发短事务(如增删改)。
10.【题干】在机器学习中,"过拟合"现象可通过以下哪种方式缓解?
A.增加训练数据
B.提升模型复杂度
C.减少迭代次数
D.移除正则化项
【参考答案】A
【解析】增加数据量可提高泛化能力,其他选项如正则化、简化模型复杂度也是常见方法。5.【参考答案】A【解析】第三范式(3NF)要求消除非主属性对主键的传递依赖,同时满足第二范式(完全依赖)。选项C仅描述2NF,而3NF进一步要求非主属性之间无传递依赖。B选项为BCNF的特性,D选项与第四范式相关。6.【参考答案】C【解析】事实表存储可度量的数值型指标(如交易金额),与维度表的描述性信息(如产品类别、地区)形成对比。选项C为典型的度量值,其他选项属于维度表字段。7.【参考答案】B【解析】箱线图通过四分位距(IQR)直观显示离群值范围(Q1-1.5IQR至Q3+1.5IQR以外)。均值与标准差对分布形态敏感,回归和相关分析不直接用于离群检测。8.【参考答案】B【解析】哈希索引通过哈希函数实现等值查询的O(1)时间复杂度,适合唯一值较多的高基数列。位图索引适用于低基数列(如性别),聚集索引影响物理存储顺序,全文索引用于文本检索。9.【参考答案】C【解析】K-means通过迭代优化使聚类中心收敛,当中心变化量小于阈值或达到最大迭代次数则终止。预设的K值需提前确定,算法无法自动调整聚类数量;全局最优难以保证。10.【参考答案】C【解析】Holt-Winters方法通过引入水平、趋势和季节性三个参数进行平滑预测,专门针对具有季节周期的数据。ARIMA需差分处理稳定性,移动平均对季节性不敏感,线性回归无法自动捕捉周期模式。11.【参考答案】A【解析】Spark中转换操作(如map、filter)采用惰性执行,仅记录执行计划,而行动操作(如count、collect、reduce)触发实际计算。选项A属于转换,D为行动操作。12.【参考答案】C【解析】召回率=TP/(TP+FN)=真正率(TPR),准确率=(TP+TN)/(总样本)。选项C由定义直接得出。A选项需结合数据分布,B、D无法由题干直接推导。13.【参考答案】A【解析】均值填充会降低数据离散度,可能掩盖真实分布特征(如偏态),且回归插补利用变量间关系更精准。D选项不改变分布但损失数据量,众数填充对类别分布影响较小。14.【参考答案】C【解析】关系型数据库(如MySQL)严格遵循ACID特性(原子性、一致性、隔离性、持久性),适合高可靠性场景。NoSQL数据库通常采用BASE特性(柔性事务),Redis侧重内存快速访问,MongoDB支持文档级原子操作但弱化一致性。15.【参考答案】C【解析】概念模型是数据库设计的最高层次抽象,用于描述实体、属性及实体间关系,不涉及具体实现细节。物理模型关注存储结构,逻辑模型定义数据结构,外部模型是用户视图。16.【参考答案】B【解析】候选键是超键的极小形式,要求唯一性且不含冗余属性。超键可能包含多余属性,外键用于关联其他表,主属性是候选键中的属性。17.【参考答案】C【解析】3NF要求非主属性不传递依赖于候选键,而2NF已消除部分依赖,1NF要求原子性。BCNF是更严格的范式,不必然满足。18.【参考答案】B【解析】唯一性索引强制列值唯一性;索引会降低更新速度,聚集索引一张表仅一个,过多索引反而增加维护开销。19.【参考答案】C【解析】数据仓库用于分析历史数据,支持非实时查询,数据定期批量加载;实时更新是OLTP系统特点。20.【参考答案】C【解析】隔离性确保事务并发执行时互不干扰,达到与串行执行相同的结果;其他选项分别对应一致性、持久性、原子性。21.【参考答案】D【解析】Neo4j是图数据库代表;Redis为键值型,HBase是列存储,MongoDB是文档型。22.【参考答案】A【解析】ERD用于构建PDM,体现表结构及约束;数据字典管理元数据,DFD描述流程,逆向工程从数据库还原模型。23.【参考答案】D【解析】OLTP处理高频率短事务,需实时更新;OLAP分析历史数据,更新频率低。两者数据量可能均大,均需原子性,但查询复杂度非核心差异。24.【参考答案】B【解析】数据治理关注数据全生命周期管理,确保准确性、安全性及符合法规要求;性能优化和成本控制属于技术管理范畴。25.【参考答案】B【解析】第三范式要求消除传递依赖,即非主属性必须直接依赖于候选键,而非通过其他属性间接依赖。选项B正确。选项C是第二范式的条件,选项A是第一范式的条件。26.【参考答案】B【解析】星型模式由单个事实表和多个维度表组成,维度表直接连接至事实表,且维度表之间无直接关联,故B正确。选项A描述雪花型模式,选项D是OLTP数据库的特点。27.【参考答案】B【解析】数据清洗用于处理缺失值、重复数据、格式错误等问题,确保数据质量,为后续分析提供可靠基础。选项B正确。28.【参考答案】A【解析】参照完整性要求外键值必须是被参照表中主键的有效值或空值。实体B的外键关联到实体A的主键,且不能为空,符合参照完整性约束。29.【参考答案】B【解析】Spark支持内存计算,适用于大规模数据的实时处理与分析。HadoopMapReduce适合离线批处理,Kafka是流处理平台,MySQL为传统关系型数据库。30.【参考答案】A【解析】维度建模中为避免依赖源系统自然键(可能变化或冲突),采用代理键作为无业务含义的自增主键,确保稳定性。31.【参考答案】AC【解析】E-R模型中,实体通过属性描述特征(A正确),属性可包含复合属性(C正确)。联系可为多实体间(B错误),关系模式需逻辑设计转换生成(D错误)。
2.【题干】数据仓库的特征包括?
【选项】A.主题导向;B.事务性操作频繁;C.数据稳定性;D.时间序列分析支持
【参考答案】ACD
【解析】数据仓库以主题导向(A)、集成性(隐含)、稳定性(C)和时变性(D)为核心特征,事务性操作是OLTP数据库特点(B错误)。
3.【题干】数据建模工具的核心功能包括?
【选项】A.实体关系图绘制;B.SQL脚本生成;C.数据质量校验;D.元数据管理
【参考答案】ABD
【解析】建模工具支持ER图(A)、脚本生成(B)及元数据管理(D),数据质量校验多由专门的数据治理工具完成(C错误)。
4.【题干】以下关于维度建模的描述正确的是?
【选项】A.包含事实表和维度表;B.雪花模型比星型模型冗余度低;C.缓慢变化维处理仅用拉链表;D.代理键用于替代自然主键
【参考答案】ABD
【解析】维度建模采用星型/雪花模型(A正确),雪花模型通过规范化降低冗余(B正确),缓慢变化维处理包括多种策略(C错误),代理键解决主键冲突问题(D正确)。
5.【题干】数据治理的核心目标包括?
【选项】A.数据质量提升;B.数据标准统一;C.数据模型优化;D.元数据管理
【参考答案】ABD
【解析】数据治理聚焦数据质量(A)、标准(B)和元数据管理(D),数据模型优化属于技术实施环节(C错误)。32.【参考答案】AB【解析】HDFS支持高吞吐(A)和分布式存储(B),但不适合低延迟(C)及小文件存储(D),因NameNode内存限制。
7.【题干】机器学习中,监督学习算法包括?
【选项】A.决策树;B.K-means;C.线性回归;D.朴素贝叶斯
【参考答案】ACD
【解析】监督学习包含决策树(A)、线性回归(C)及朴素贝叶斯(D),K-means属于无监督学习(B错误)。
8.【题干】数据可视化工具的核心功能包括?
【选项】A.交互式图表生成;B.数据聚合分析;C.实时数据监控;D.ETL数据清洗
【参考答案】ABC
【解析】可视化工具支持图表生成(A)、聚合分析(B)和实时监控(C),ETL清洗需依赖专门工具(D错误)。
9.【题干】数据安全防护措施包括?
【选项】A.字段级加密;B.访问权限控制;C.数据脱敏;D.数据分片存储
【参考答案】ABC
【解析】安全措施包含加密(A)、权限(B)、脱敏(C),数据分片属于存储优化(D错误)。
10.【题干】实时数据处理框架的核心需求包括?
【选项】A.低延迟响应;B.高吞吐量;C.状态一致性保障;D.批处理优先
【参考答案】ABC
【解析】实时框架需低延迟(A)、高吞吐(B)和状态一致性(C),批处理优先是离线处理特点(D错误)。33.【参考答案】AC【解析】第二范式要求非主属性完全依赖候选键(A正确);第三范式消除的是非主属性对候选键的传递依赖(B错误);BC范式确实要求决定因素必须含候选键(C正确);第四范式涉及多值依赖,与BC范式无必然包含关系(D错误)。34.【参考答案】ACD【解析】ER模型通过规范化减少冗余(A正确),维度模型通过反规范化提升查询效率(A正确);维度模型适用于OLAP(C正确),ER模型适用于OLTP(B错误);D描述ER模型特性正确。35.【参考答案】BCD【解析】ODS层会进行初步清洗(A错误);DWD层负责数据质量处理(B正确);DWS层构建主题宽表(C正确);ADS层面向应用(D正确)。36.【参考答案】BCD【解析】Min-Max不改变分布形态(A错误);B为常见编码方法;C是特征工程注意事项;D为共线性检测指标。37.【参考答案】ACD【解析】AUC衡量排序能力(A正确);类别不平衡时F1-score优于准确率(B错误);RMSE反映误差绝对大小(C正确);轮廓系数范围[-1,1](D正确)。38.【参考答案】ACD【解析】HDFS为底层存储(A正确);MapReduce不适合迭代计算(B错误);Hive和HBase特性符合描述(C/D正确)。39.【参考答案】ACD【解析】时序特征需处理时间衰减(A正确);ARIMA需序列平稳(B错误);滑动窗口法有效(C正确);时间戳标准化为必要步骤(D正确)。40.【参考答案】CD【解析】基于物品的CF对物品冷启动不友好(A错误);基于用户的CF无需物品特征(B错误);矩阵分解和相似度计算为正确应用(C/D正确)。41.【参考答案】ABCD【解析】组合索引、分区表、位图索引、统计信息更新均为常见优化手段,各选项均正确。42.【参考答案】ABD【解析】正则化、早停、交叉验证均为过拟合处理方法(A/B
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 述职报告零售培训
- 中世纪修道院抄写员的知识再生产角色-基于本笃会《会规》第48章
- 输煤人员安规培训
- 软土路基处理培训
- 路基工程施工安全培训
- 软件公司员工培训
- 身边的军火库课件
- 毕业生面试培训
- 中国成人社区获得性肺炎诊断和治疗指南
- 安全生产管理制度与操作指南
- 2026江苏省数据集团数字科技有限公司招聘考试备考题库及答案解析
- 2026年集团企业全员春节节前安全教育专项培训课件
- 规范广告宣传误差真实性核查流程
- 油管焊接施工方案(3篇)
- 2025年全球骨科创新年度白皮书-
- 2026年寒假德育实践作业竹马行新岁飒沓少年游【课件】
- 职业技术学校教师能力标准及评价
- 2025至2030电力固态变压器行业调研及市场前景预测评估报告
- 拆除房屋施工监测技术方案
- 微生物检验实验室质量管理措施
- 2025年荆州学院辅导员考试真题
评论
0/150
提交评论