(2025年)数据仓库与数据挖掘考试试题附答案_第1页
(2025年)数据仓库与数据挖掘考试试题附答案_第2页
(2025年)数据仓库与数据挖掘考试试题附答案_第3页
(2025年)数据仓库与数据挖掘考试试题附答案_第4页
(2025年)数据仓库与数据挖掘考试试题附答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(2025年)数据仓库与数据挖掘考试试题附答案一、单项选择题(每题2分,共20分)1.以下哪项不属于数据仓库的核心特性?A.面向主题B.实时更新C.集成性D.时变性答案:B2.在ETL流程中,“将不同来源的日期格式统一为‘YYYY-MM-DD’”属于哪一步骤?A.抽取(Extract)B.转换(Transform)C.加载(Load)D.清洗(Clean)答案:B3.星型模型中,事实表与维度表的关系通常是?A.一对一B.一对多C.多对多D.无关联答案:B4.OLAP操作中,“将‘省份’维度下钻到‘城市’维度”属于?A.上卷(Roll-up)B.下钻(Drill-down)C.切片(Slice)D.切块(Dice)答案:B5.以下哪种数据挖掘任务属于无监督学习?A.预测用户是否会流失(分类)B.识别客户群体的细分(聚类)C.预测产品销量(回归)D.发现啤酒与尿布的关联规则(关联分析)答案:B6.决策树算法中,信息增益的计算基于?A.基尼系数(GiniIndex)B.熵(Entropy)C.均方误差(MSE)D.支持向量(SupportVector)答案:B7.K-means聚类算法的主要缺点是?A.无法处理高维数据B.对初始质心选择敏感C.只能发现凸形状的簇D.计算复杂度为O(n²)答案:B8.关联规则中,“支持度(Support)”反映的是?A.规则的可靠性B.规则的普遍性C.规则的提升效果D.规则的意外性答案:B9.数据仓库中,用于存储历史数据且不允许实时修改的层是?A.操作型数据存储(ODS)B.数据集市(DataMart)C.核心数据仓库(CDW)D.数据湖(DataLake)答案:C10.评估分类模型时,若模型对正类的预测准确率很高,但漏检了大量正类样本,可能是以下哪个指标较低?A.准确率(Accuracy)B.精确率(Precision)C.召回率(Recall)D.F1值答案:C二、填空题(每空1分,共15分)1.数据仓库的三层架构通常包括数据源层、__________和数据应用层。答案:数据存储层2.ETL过程中,数据清洗主要处理缺失值、__________和重复值问题。答案:异常值3.维度建模的两种主要模型是星型模型和__________。答案:雪花模型4.OLAP的三种实现方式为MOLAP(多维联机分析处理)、ROLAP(关系联机分析处理)和__________。答案:HOLAP(混合联机分析处理)5.数据挖掘的十大经典算法包括C4.5决策树、k-NN(k近邻)、SVM(支持向量机)和__________(任写一种)。答案:Apriori(或K-means、朴素贝叶斯等)6.聚类算法中,DBSCAN属于__________聚类(填“划分式”“层次式”或“密度式”)。答案:密度式7.分类模型评估中,混淆矩阵的对角线元素表示__________的样本数。答案:正确分类8.关联规则挖掘中,提供频繁项集的常用算法是__________。答案:Apriori9.数据仓库中,用于支持复杂查询和分析的索引技术是__________(如按时间范围快速检索)。答案:位图索引(或分区索引)10.数据挖掘中的降维技术主要包括特征选择和__________(如主成分分析)。答案:特征提取11.时间序列数据挖掘的常见任务包括趋势分析、__________和异常检测。答案:周期性分析12.数据仓库的元数据可分为技术元数据和__________(描述业务含义的元数据)。答案:业务元数据13.在K-means算法中,终止迭代的条件通常是质心不再变化或__________。答案:达到最大迭代次数14.评估回归模型的常用指标有均方误差(MSE)、均方根误差(RMSE)和__________(衡量拟合优度)。答案:决定系数(R²)15.数据仓库的“时变性”指数据会随时间推移被__________,以支持历史分析。答案:归档或更新三、简答题(每题8分,共40分)1.简述数据仓库与传统数据库的主要区别。答案:(1)应用场景:数据库支持OLTP(联机事务处理),注重实时交易;数据仓库支持OLAP(联机分析处理),注重复杂查询与决策分析。(2)数据结构:数据库设计遵循高范式,减少冗余;数据仓库采用维度建模(如星型模型),允许适当冗余以提升查询效率。(3)数据更新:数据库支持频繁的增删改操作;数据仓库通常仅通过ETL定期加载数据,不支持实时修改。(4)数据时间范围:数据库存储当前数据;数据仓库存储历史数据(如5-10年),支持时间序列分析。2.说明ETL(抽取-转换-加载)过程中“转换”步骤的主要任务。答案:转换步骤的核心是将抽取的原始数据处理为符合数据仓库要求的格式,具体任务包括:(1)数据清洗:处理缺失值(如填充均值、中位数)、异常值(如基于Z-score或分位数删除)、重复值(如去重)。(2)数据集成:解决源系统的异构性(如不同数据库的字段命名冲突),统一数据格式(如日期、单位)。(3)数据变换:包括计算推导(如由“单价”和“数量”计算“总金额”)、字段拆分/合并(如将“地址”拆分为“省”“市”)、标准化(如将数值缩放到0-1区间)。(4)业务规则应用:根据业务需求添加约束(如过滤无效订单)或计算指标(如客户生命周期价值CLV)。3.对比分类(Classification)与聚类(Clustering)的异同。答案:相同点:均属于数据挖掘任务,目标是从数据中发现模式。不同点:(1)监督性:分类是有监督学习,需要训练数据包含明确的标签(如“流失/未流失”);聚类是无监督学习,数据无标签,需自主发现数据的内在分组。(2)目标:分类的目标是构建模型对新样本进行标签预测;聚类的目标是将数据划分为若干簇,使簇内样本相似性高、簇间相似性低。(3)评估方式:分类通过准确率、精确率等指标评估模型性能;聚类通过轮廓系数、Calinski-Harabasz指数等评估簇的质量。(4)应用场景:分类用于客户流失预测、疾病诊断等;聚类用于客户分群、市场细分等。4.简述K-means聚类算法的基本步骤,并说明其主要局限性。答案:基本步骤:(1)初始化:随机选择k个样本作为初始质心。(2)分配样本:计算每个样本到各质心的距离(如欧氏距离),将其分配到最近的质心对应的簇。(3)更新质心:重新计算每个簇的均值,作为新的质心。(4)迭代终止:重复步骤(2)-(3),直到质心不再变化或达到最大迭代次数。局限性:(1)需预先指定簇数k,实际应用中难以确定最优k值。(2)对初始质心敏感,不同初始值可能导致不同的聚类结果。(3)对噪声和离群点敏感,可能干扰质心计算。(4)仅适用于数值型数据,对非数值型数据需额外处理(如距离度量调整)。(5)倾向于发现球形簇,对非凸形状或大小差异大的簇效果较差。5.解释关联规则中“支持度”“置信度”和“提升度”的含义,并说明三者的关系。答案:(1)支持度(Support):规则X→Y的支持度是同时包含X和Y的事务占总事务的比例,反映规则的普遍性(即“X和Y同时出现的频率”)。公式:Support(X→Y)=P(X∪Y)。(2)置信度(Confidence):规则X→Y的置信度是包含X的事务中也包含Y的条件概率,反映规则的可靠性(即“买了X的人中有多少买了Y”)。公式:Confidence(X→Y)=P(Y|X)。(3)提升度(Lift):规则X→Y的提升度是置信度与Y的先验概率的比值,反映规则的“增益”效果。公式:Lift(X→Y)=Confidence(X→Y)/P(Y)。关系:支持度和置信度是筛选规则的基本阈值(需同时满足最小支持度和最小置信度);提升度用于衡量规则的有效性——提升度>1表示X的出现对Y的出现有正向促进作用(规则有效);提升度=1表示X和Y独立(规则无意义);提升度<1表示X的出现抑制Y的出现(规则负相关)。四、综合应用题(共25分)问题1(10分):某电商企业计划构建数据仓库,目标是分析“用户订单行为”(如不同地区、时间、商品类别的销售额、订单量)。请设计该数据仓库的维度模型,要求:(1)列出核心维度(至少4个);(2)设计事实表的主要度量指标(至少4个);(3)说明维度表与事实表的连接方式。答案:(1)核心维度:时间维度(日期、星期、月份、季度、年份);地区维度(国家、省份、城市、区域);用户维度(用户ID、年龄、性别、注册时间、会员等级);商品维度(商品ID、类别、品牌、价格带、毛利率);渠道维度(PC端、移动端、小程序、线下门店)(可选,根据企业业务补充)。(2)事实表度量指标(数值型,可累加):订单数量(计数型事实);销售额(金额=单价×数量,可累加);优惠金额(如满减、折扣,反映促销效果);利润(销售额-成本,反映盈利情况);客单价(销售额/订单数量,衍生指标,可存储或实时计算)。(3)连接方式:事实表通过外键与各维度表的主键(如时间ID、地区ID、用户ID、商品ID)进行一对一连接(星型模型)。例如,事实表中的“时间ID”对应时间维度表的“时间ID”,通过该外键关联后,可按时间维度汇总订单量或销售额。若维度表存在层级(如地区维度的“国家→省份→城市”),可通过维度表内部的层级字段(如“父级地区ID”)支持下钻分析。问题2(15分):某银行希望通过数据挖掘识别高风险贷款用户(正类为“违约”)。现有一个分类模型,测试集的混淆矩阵如下(单位:样本数):预测违约预测不违约实际违约8020实际不违约15285要求:(1)计算准确率、精确率、召回率、F1值(保留2位小数);(2)分析该模型在“识别违约用户”任务中的表现;(3)提出至少2条优化模型性能的建议。答案:(1)计算指标:准确率(Accuracy)=(TP+TN)/(TP+TN+FP+FN)=(80+285)/(80+20+15+285)=365/400=0.9125≈91.25%精确率(Precision)=TP/(TP+FP)=80/(80+15)=80/95≈84.21%召回率(Recall)=TP/(TP+FN)=80/(80+20)=80/100=80.00%F1值=2×(Precision×Recall)/(Precision+Recall)=2×(0.8421×0.8)/(0.8421+0.8)≈2×0.6737/1.6421≈0.820≈82.00%(2)模型表现分析:准确率较高(91.25%),但需注意数据是否不平衡(如实际违约样本占比25%(100/400),不违约占75%)。若测试集中违约样本较少,高准确率可能掩盖模型对正类的识别能力不足。召回率为80%,表示模型能识别出80%的实际违约用户,但漏检了20%(20个样本),可能导致银行错过高风险用户,产生坏账。精确率为84.21%,表示模型预测的违约用户中,84.21%确实会违约,误判率约15.79%(15个样本),可能增加银行的审核成本。F1值为82%,综合了精确率和召回率,说明模型在平衡两者时表现中等,但仍有提升空间。(3)优化建议:处理数据不平衡:若训练集中违约样本占比低,可采用过采样(如SMOTE算法提供违约样本)或欠采样(减少不违约样本),

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论