数据仓库与数据挖掘考试习题及答案_第1页
数据仓库与数据挖掘考试习题及答案_第2页
数据仓库与数据挖掘考试习题及答案_第3页
数据仓库与数据挖掘考试习题及答案_第4页
数据仓库与数据挖掘考试习题及答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘考试习题及答案一、单项选择题(每题1分,共20分)1.在数据仓库的多维模型中,描述“销售额”应被归类为A.维度属性 B.度量 C.层次 D.事实表主键答案:B2.下列关于星型模式与雪花模式差异的叙述,正确的是A.星型模式一定比雪花模式节省存储空间B.雪花模式通过规范化减少冗余,查询需更多表连接C.星型模式不允许存在层次关系D.雪花模式不支持汇总表答案:B3.在Apriori算法中,若频繁3项集L3={ABC,ABD,ACD,BCD},则候选4项集C4为A.{ABCD} B.{ABC,ABD} C.{AB,AC,AD,BC,BD,CD} D.空集答案:A4.数据仓库ETL过程里,“S”通常指A.Schema B.Source C.Surrogate D.Semantic答案:C5.若某维度表采用Type2缓慢变化维度策略,当客户“张三”的地址变更时,原记录将A.被物理删除 B.被直接覆盖 C.新增一行并标记时间戳 D.移到历史表答案:C6.在Kmeans聚类中,若初始中心点选择不当导致空簇,应优先采用A.增加K值 B.重新运行多次并选择SSE最小的一次 C.降低迭代次数 D.改用DBSCAN答案:B7.下列指标中,可直接用于评价关联规则“有趣性”的是A.支持度 B.置信度 C.提升度 D.事务数答案:C8.在OLAP操作中,将“2022年Q1”下钻到“2022年1月”属于A.切片 B.切块 C.下钻 D.上卷答案:C9.若某事务数据库共1000条事务,规则{X}→{Y}的支持度计数为50,置信度为70%,则事务中包含X的最小数量为A.50 B.70 C.71 D.72答案:C(50/0.7≈71.4,向上取整)10.数据仓库中采用“位图索引”最主要的原因是A.降低更新代价 B.提高低基数维度过滤性能 C.节省内存 D.支持文本检索答案:B11.在决策树C4.5中,分裂属性选择使用A.Gini系数 B.信息增益率 C.卡方检验 D.最小描述长度答案:B12.若某超市购物篮数据中,牛奶与面包的lift=1.2,则二者A.负相关 B.独立 C.正相关 D.无法判断答案:C13.在Hive中,分区字段“dtstring”的作用是A.控制Reducer数量 B.减少全表扫描I/O C.提高JOIN速度 D.实现事务隔离答案:B14.下列关于PageRank与关联规则的说法,正确的是A.两者均需要事务ID B.PageRank属于链接挖掘 C.Apriori可处理图数据 D.两者都使用迭代矩阵答案:B15.若某维度表主键为surrogatekey,下列对其描述错误的是A.无业务含义 B.通常整型自增 C.可跨系统保持一致 D.允许更新答案:C16.在FPGrowth中,头表(HeaderTable)的作用是A.存储事务 B.快速定位相同项的节点链表 C.计数支持度 D.压缩条件模式基答案:B17.当使用朴素贝叶斯进行文本分类时,若出现零概率问题,常用A.拉普拉斯平滑 B.卡方平滑 C.JelinekMercer D.KneserNey答案:A18.在数据仓库分层架构中,最接近原始业务系统的是A.ODS B.DWD C.DWS D.ADS答案:A19.若某聚类算法对噪声敏感且需预先指定簇数,则该算法最可能是A.DBSCAN B.Kmeans C.层次聚类 D.Meanshift答案:B20.在SparkMLlib中,使用ALS构建推荐系统时,显式反馈与隐式反馈的主要差异在于A.特征维度 B.损失函数中是否引入置信度权重 C.正则化方式 D.是否使用梯度下降答案:B二、多项选择题(每题2分,共10分,多选少选均不得分)21.以下属于数据仓库非易失性特征的是A.数据一旦进入仓库只追加不更新 B.记录级更新被禁止 C.支持事务回滚 D.历史数据长期保存答案:A、B、D22.关于ID3与C4.5算法,正确的有A.ID3只能处理离散属性 B.C4.5可处理连续属性 C.ID3使用信息增益 D.C4.5采用后剪枝答案:A、B、C、D23.在数据挖掘中,以下可用于处理高维稀疏文本数据的技术有A.TFIDF加权 B.哈希技巧 C.LSA D.主成分分析答案:A、B、C、D24.下列属于OLAP缓存优化策略的有A.预计算物化视图 B.维度层次缓存 C.查询结果复用 D.位图索引压缩答案:A、B、C25.在HiveSQL执行计划中,可能触发MapJoin的条件有A.小表内存小于25MB B.使用/+mapjoin(a)/提示 C.自动转换参数hive.auto.convert.join=true D.大表与大表等值连接答案:A、B、C三、填空题(每空1分,共15分)26.在数据仓库中,事实表分为三类:事务事实表、________事实表和累积快照事实表。答案:周期快照27.若某事务数据库包含项集{牛奶,面包,尿布,啤酒},则项集{牛奶,面包}的支持度计数为________(给出公式即可)。答案:包含{牛奶,面包}的事务数28.在Kmeans中,SSE(SumofSquaredErrors)等于所有点到其所属簇________的欧氏距离平方和。答案:质心29.数据仓库总线矩阵的行表示________,列表示________。答案:业务过程、公共维度30.在关联规则中,置信度的计算公式为________。答案:support(X∪Y)/support(X)31.在Hive中,设置hive.exec.dynamic.partition=true的作用是允许________分区。答案:动态32.在朴素贝叶斯文本分类中,假设各特征之间________。答案:条件独立33.在决策树后剪枝中,REP(ReducedErrorPruning)使用________数据集进行剪枝。答案:验证34.在数据挖掘流程CRISPDM中,继“数据理解”之后的阶段是________。答案:数据准备35.若某维度表采用“微型维度”技术,则将原维度中________属性拆分出去,以减少Type2膨胀。答案:快速变化四、判断题(每题1分,共10分,正确打“√”,错误打“×”)36.数据仓库与操作型数据库一样,需要满足第三范式以减少冗余。答案:×37.Apriori性质表明:频繁项集的所有非空子集一定是频繁的。答案:√38.在Hive中,桶表的主要作用是提高JOIN效率而非采样。答案:√39.使用提升度(lift)大于1的规则一定具有高收益。答案:×40.在OLAP中,切片操作会降低结果集的维度数。答案:√41.FPGrowth需要多次扫描事务数据库。答案:×42.在数据仓库中,surrogatekey可解决业务键重复问题。答案:√43.DBSCAN对输入参数ε不敏感。答案:×44.在Spark中,DataFrame比RDD执行效率更高,因为Catalyst优化器可进行谓词下推。答案:√45.数据挖掘的最终步骤是模型部署,而非模型评估。答案:×五、简答题(共25分)46.(封闭型,6分)简述星型模式与雪花模式在查询性能、存储冗余、维护复杂度三方面的差异。答案:1)查询性能:星型模式表连接少,查询快;雪花模式因规范化需更多连接,性能低。2)存储冗余:星型模式存在维度冗余,存储大;雪花模式规范化后冗余小。3)维护复杂度:星型模式结构简单,ETL开发维护容易;雪花模式表多、键关系复杂,维护成本高。47.(开放型,6分)某电商公司发现推荐系统离线评估AUC=0.92,但上线后CTR下降,请给出至少四条可能原因并给出对应改进思路。答案:1)数据分布漂移:离线训练集与线上分布不一致,采用在线学习或每日增量训练。2)特征实时性不足:离线可获取用户24小时行为,线上仅5分钟,缩短特征延迟流式计算。3)冷启动问题:新商品无特征,引入内容特征与协同过滤混合。4)位置偏差:离线忽略展示位置,线上前排商品天然高CTR,引入位置特征并debias。5)探索不足:模型过度利用,加入εgreedy或UCB策略。48.(封闭型,6分)说明OLTP系统与OLAP系统在并发类型、索引策略、备份窗口三方面的区别。答案:1)并发类型:OLTP为高并发短事务,OLAP为低并发长查询。2)索引策略:OLTP使用B+树索引加速单行查找,OLAP使用位图/列存索引加速批量扫描。3)备份窗口:OLTP需7×24小时热备,OLAP可在ETL完成后夜间冷备。49.(封闭型,7分)给出数据仓库分层架构(ODS→DWD→DWS→ADS)中各层的主要职责与数据粒度,并说明层间数据流向。答案:ODS:操作数据存储,贴源层,粒度与源系统相同,保留原始字段,不做清洗。DWD:明细数据层,对ODS做清洗、转换、脱敏,保持事务级粒度,统一编码。DWS:服务数据层,按主题汇总,粒度为日/周/月,生成宽表,减少重复计算。ADS:应用数据层,面向报表、接口,高度汇总,粒度视需求如“渠道月度”。流向:业务系统→ODS(每日增量)→DWD(ETL清洗)→DWS(主题汇总)→ADS(接口输出)。六、应用题(共20分)50.(计算类,10分)某超市一个月共10000笔交易,其中购买牛奶3000笔,购买面包2000笔,同时购买牛奶和面包800笔。(1)计算项集{牛奶}、{面包}、{牛奶,面包}的支持度(%)。(2)列出关联规则“牛奶→面包”的支持度、置信度、提升度,并解释其业务含义。答案:(1)support({牛奶})=3000/10000=30%support({面包})=2000/10000=20%support({牛奶,面包})=800/10000=8%(2)support(牛奶→面包)=8%confidence=800/3000≈26.67%lift=0.08/(0.3×0.2)=1.333业务含义:购买牛奶的顾客再购买面包的概率是26.67%,比随机购买面包提升33.3%,二者呈正相关,可摆放促销。51.(综合类,10分)给定如下学生成绩事实表fact_score:student_key,course_key,date_key,score维度表:dim_student(student_key,student_id,student_name,class)dim_course(course_key,course_id,course_name,credit)dim_date(date_key,date,month,year)需求:构建一张名为mv_class_month_avg的物化视图,保存“每个班级每月每门课程的平均成绩”,并写出Hive创建语句,要求:1)按(class,month,course_name)分组;2)平均成绩保留两位小数;3)使用ORC格式并按class分区;4)支持增量刷新机制(给出思路即可)。答案:CREATEMATERIALIZEDVIEWmv_class_month_avgPARTITIONEDBY(classstring)STOREDASORCASSELECTs.class,d.month,c.course_name,ROUND(AVG(f.score),2)ASavg_scoreFROMfact_scorefJOINdim_studentsONf.student_key=s.student_keyJOINdim_coursecONf.course_key=c.course_keyJOINdim_datedONf.date_key=d.date_keyGROUPBYs.class,d.month,c.course_name;增量刷新思路:1)在dim_date建立增量分区表,每日新增date_key;2)创建临时表tmp_inc获取昨日新增score;3)将tmp_inc与维度表关联计算增量(class,month,course)汇总;4)将增量汇总与mv_class_month_avg原分区做MERGE,更新avg_score=(old_sum+inc_sum)/(old_cnt+inc_cnt),并四舍五入保留两位。七、设计题(共20分)52.(分析类,20分)某物流公司每日产生运单事件,包含:运单号、客户ID、下单时间、揽收时间、签收时间、运费、始发省、目的省、重量kg、是否投诉。要求:1)设计星型模式,给出事实表与相关维度表名称、主键、主要属性(每表至少5个属性)。2)说明选择的事务事实表类型及理由。3)若客户ID为缓慢变化维度,业务键为客户手机号,采用Type2策略,请给出dim_customer表结构,并说明如何记录客户地址变更。4)给出一种分区策略,使查询“某省上月签收运单量”最高效。答案:1)fact_waybill_event(waybill_key,customer_key,order_time_key,pickup_time_key,sign_time

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论