数据仓库与数据挖掘技术考试试题及答案_第1页
数据仓库与数据挖掘技术考试试题及答案_第2页
数据仓库与数据挖掘技术考试试题及答案_第3页
数据仓库与数据挖掘技术考试试题及答案_第4页
数据仓库与数据挖掘技术考试试题及答案_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘技术考试试题及答案一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项字母填入括号内)1.在数据仓库的多维模型中,用于描述“销售额”这一度量最适合的类别是()。A.维度属性 B.事实表度量 C.层次属性 D.退化维度答案:B2.下列关于星型模式与雪花模式差异的描述,正确的是()。A.星型模式一定比雪花模式占用更多存储空间 B.雪花模式通过规范化减少冗余,查询性能更高 C.星型模式维度表完全非规范化,查询响应更快 D.雪花模式不允许存在共享维度答案:C3.在Apriori算法中,若频繁2项集{L2}包含{牛奶,面包},则下列哪一项一定成立()。A.{牛奶}∈L1 B.{面包}∉L1 C.支持度(牛奶∪面包)≥最小置信度 D.提升度(牛奶→面包)>1答案:A4.数据仓库ETL过程中,对缓慢变化维度Type2的处理策略是()。A.直接覆盖旧值 B.增加新列保存当前值 C.新增一行并标记时间戳 D.忽略变化答案:C5.在决策树C4.5算法中,用于选择划分属性的指标是()。A.Gini系数 B.信息增益率 C.卡方统计量 D.均方误差答案:B6.若某事务数据库共1000条事务,项集{啤酒,尿布}出现200次,则其支持度为()。A.0.02 B.0.1 C.0.2 D.20答案:C7.在Kmeans聚类中,若初始簇中心选择不当,最可能导致的后果是()。A.收敛速度加快 B.聚类簇数自动减少 C.陷入局部最优 D.目标函数单调递减到全局最优答案:C8.数据仓库中“切片”操作是指()。A.删除某维度列 B.固定某维度的一个取值,降低多维立方体维度 C.增加新度量 D.将事实表水平分片答案:B9.在关联规则评价中,若规则X→Y的置信度等于P(Y),则说明()。A.规则具有强提升度 B.X与Y正相关 C.X与Y相互独立 D.规则支持度为0答案:C10.下列关于Bagging与Boosting的描述,错误的是()。A.Bagging可降低方差 B.Boosting可降低偏差 C.Bagging各基学习器可并行训练 D.AdaBoost对误分类样本降低权重答案:D二、多项选择题(每题3分,共15分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)11.以下属于数据仓库基本特征的有()。A.面向主题 B.集成性 C.实时性 D.非易失性 E.时变性答案:A,B,D,E12.在数据挖掘预处理阶段,处理缺失值可采用的方法包括()。A.均值填充 B.回归插补 C.热卡插补 D.直接删除样本 E.增加缺失指示变量答案:A,B,C,D,E13.以下算法中,属于监督学习的包括()。A.NaïveBayes B.DBSCAN C.随机森林 D.Apriori E.SVM答案:A,C,E14.关于OLAP与OLTP的差异,正确的有()。A.OLAP事务通常短而频繁 B.OLTP主要面向操作职员 C.OLAP查询复杂度高于OLTP D.OLTP数据更新频率高于OLAP E.OLAP通常采用星型或雪花模式答案:B,C,D,E15.在评估分类模型时,以下指标同时考虑精确率与召回率的有()。A.Accuracy B.F1score C.Gmean D.AUC E.Matthews相关系数答案:B,C,E三、填空题(每空2分,共20分)16.在数据仓库分层架构中,用于保存经过清洗、转换后细节数据的一层称为________层。答案:集成(或ODS,答“明细”亦可)17.若某频繁3项集{牛奶,面包,黄油}的支持度计数为50,事务总数为500,则其支持度为________。答案:0.118.在ID3算法中,节点划分停止的条件之一是________小于某一阈值。答案:信息增益19.数据立方体的物化策略中,仅对常用立方体进行存储的策略称为________物化。答案:部分20.在Kmeans中,常用的簇内误差平方和公式记为________,其中x_i表示样本,μ_k表示簇中心。答案:SSE=∑_{k=1}^K∑_{x_i∈C_k}||x_iμ_k||²21.若某决策树叶节点包含10个样本,其中正类7个,负类3个,则该节点的Gini系数为________。答案:1(0.7²+0.3²)=0.4222.在Apriori算法中,连接步产生的候选项集需通过________步删除非频繁项集。答案:剪枝23.当数据仓库事实表中的度量具有可加性、半可加性和________三种类型时,rollup操作可能受限。答案:非可加性24.在朴素贝叶斯分类中,假设各特征________给定类别条件下相互独立。答案:条件独立25.若提升度(X→Y)=0.8,则说明X的出现对Y的出现具有________作用。答案:抑制(或负相关)四、简答题(共25分)26.(封闭型,6分)简述数据仓库ETL过程中“数据清洗”阶段常见的四项任务,并给出每项任务的一个具体示例。答案:1)缺失值处理:如订单表中客户邮编字段空值,用众数“100000”填充。2)噪声数据去除:如年龄字段出现“5岁”,视为异常并剔除该记录。3)不一致数据纠正:如性别字段含“M”“Male”“1”,统一映射为“M”。4)重复记录合并:如客户表中对同一身份证号出现两行,合并为一条并累加消费总额。27.(开放型,6分)请解释“维度建模”相比“实体关系建模”在数据仓库环境中的三点优势,并结合零售场景举例说明。答案:1)查询性能高:星型模式非规范化减少表连接,零售场景下查询“2023年各门店月度销售额”仅需一次事实表与日期维度表连接,响应时间从ER模型的3秒降至0.3秒。2)业务用户可理解:维度表包含业务术语(如“商品类别”“促销类型”),门店经理可直接拖拽生成报表,无需理解第三范式。3)扩展灵活:新增“会员等级”维度时,仅需增加维度表并在事实表添加外键,不影响历史数据;ER模型需调整多表结构,风险高。28.(封闭型,6分)写出支持度、置信度、提升度的数学定义,并说明三者取值范围及判断规则。答案:支持度:sup(X→Y)=P(X∪Y)∈[0,1],大于最小支持度阈值则规则有效。置信度:conf(X→Y)=P(Y|X)=sup(X∪Y)/sup(X)∈[0,1],大于最小置信度阈值则规则可靠。提升度:lift(X→Y)=conf(X→Y)/P(Y)∈[0,+∞),>1正相关,=1独立,<1负相关。29.(开放型,7分)某电商公司发现推荐系统离线评估AUC=0.95,但上线后CTR下降。请给出四种可能原因并提出对应改进措施。答案:1)数据泄露:训练集包含未来信息,导致过拟合。措施:按时间切分训练/测试集,采用滚动窗口。2)样本偏差:离线样本仅含活跃用户,上线后面对全量用户分布漂移。措施:线上实时收集无偏样本,采用重要性加权。3)特征失效:线上特征延迟或缺失,如实时点击率未更新。措施:增加特征监控,设置降级默认值。4)展示位置变化:上线后推荐位从首屏降至第二屏。措施:AB实验保持展示位一致,引入位置特征建模。五、应用题(共40分)30.(计算类,10分)给定事务数据库:T1:{A,B,C} T2:{A,C,D} T3:{B,C,D} T4:{A,B,D} T5:{A,B,C,D}最小支持度计数为2。(1)采用Apriori算法列出所有频繁1项集、2项集、3项集;(2)由频繁3项集生成强关联规则(最小置信度60%),写出置信度。答案:(1)L1:{A}:4,{B}:4,{C}:4,{D}:4L2:{A,B}:3,{A,C}:3,{A,D}:3,{B,C}:3,{B,D}:3,{C,D}:3L3:{A,B,C}:2,{A,B,D}:2,{A,C,D}:2,{B,C,D}:2(2){A,B}→{C}:conf=2/3≈66.7%{A,C}→{B}:conf=2/3≈66.7%{B,C}→{A}:conf=2/3≈66.7%{A,B}→{D}:conf=2/3≈66.7%其余规则置信度=2/2=100%或2/3≈66.7%,均≥60%,共16条,示例略。31.(分析类,10分)某超市星型模式事实表Sales(DateKey,StoreKey,ProductKey,PromotionKey,Quantity,SalesAmount)记录日级销售。现需回答:“2023年3月,华东地区门店在‘买二赠一’促销下,各商品类别的总销售额与总数量。”请写出满足该需求的SQL语句,并说明若采用MOLAP预聚合,应如何设计聚合表(给出表结构并指出分区字段)。答案:SQL:SELECTp.Category,SUM(s.SalesAmount)ASTotalSales,SUM(s.Quantity)ASTotalQtyFROMSalessJOINDatedONs.DateKey=d.DateKeyJOINStorestONs.StoreKey=st.StoreKeyJOINProductpONs.ProductKey=p.ProductKeyJOINPromotionprONs.PromotionKey=pr.PromotionKeyWHEREd.YearMonth=202303ANDst.Region='华东'ANDpr.PromoDesc='买二赠一'GROUPBYp.Category;聚合表设计:CREATETABLEAggSales_RegionMonthPromo( RegionVARCHAR(20), YearMonthINT, PromoDescVARCHAR(50), CategoryVARCHAR(50), TotalSalesDECIMAL(18,2), TotalQtyINT, PRIMARYKEY(Region,YearMonth,PromoDesc,Category))PARTITIONBYRANGE(YearMonth)( PARTITIONp202303VALUESLESSTHAN(202304), ...);32.(综合类,20分)某银行拥有客户基本信息表Cust、交易流水表Trans、违约标签表Default。需建立预测客户12个月内违约概率的模型。(1)给出特征构造的详细方案,至少包含五类特征并写出SQL或伪代码;(2)说明采样策略,解决正负样本比例1:99的问题;(3)选择两种算法并给出超参数设置理由;(4)给出模型评估方案,包括离线指标、线上监控、风险约束。答案:(1)特征构造:a)近期交易活跃度:SELECTCustID,COUNT()AStrans_cnt_90dFROMTransWHERETransDateBETWEENDATE_SUB(CURDATE(),INTERVAL90DAY)ANDCURDATE()GROUPBYCustID;b)夜间交易比例:SELECTCustID,SUM(CASEWHENHOUR(TransTime)BETWEEN0AND5THEN1ELSE0END)/COUNT()ASnight_ratioFROMTransGROUPBYCustID;c)信用卡额度使用率:SELECTc.CustID,MAX(Balance)/MAX(CreditLimit)ASutil_rateFROMCustcJOINTranstONc.CustID=t.CustIDWHEREt.TransType='信用卡'GROUPBYc.CustID;d)历史违约次数:SELECTCustID,COUNT()ASdefault_histFROMDefaultGROUPBYCustID;e)稳定性指数:计算近6个月每月消费金额的变异系数CV。(2)采样:采用SMOTE+ENN混合采样,先SMOTE生成少数类至1:10,再ENN清洗噪声,保持验证集原始分布。(3)算法:a)XGBoost:max_depth=5,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论