数据仓库与数据挖掘期末考试题库及答案_第1页
数据仓库与数据挖掘期末考试题库及答案_第2页
数据仓库与数据挖掘期末考试题库及答案_第3页
数据仓库与数据挖掘期末考试题库及答案_第4页
数据仓库与数据挖掘期末考试题库及答案_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘期末考试题库及答案一、单项选择题(每题1分,共20分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在数据仓库的多维模型中,用于描述“销售额”这一度量值的维度是()。A.时间B.产品C.客户D.销售额本身答案:D2.下列关于ETL过程的描述,错误的是()。A.ETL包括数据抽取、转换和加载B.数据清洗属于转换阶段C.数据加载阶段必须采用全量加载D.ETL过程可触发数据质量检查答案:C3.在Apriori算法中,若频繁k项集为空,则()。A.算法继续搜索k+1项集B.算法终止C.重新扫描事务数据库D.降低最小支持度阈值答案:B4.雪花模型与星型模型的主要区别是()。A.雪花模型没有事实表B.雪花模型对维度表做了进一步规范化C.星型模型采用规范化结构D.雪花模型不支持聚集操作答案:B5.在ID3算法中,选择划分属性所使用的指标是()。A.基尼指数B.信息增益C.增益率D.卡方统计量答案:B6.数据仓库中通常采用“渐变维度”技术处理()。A.维度表的主键冲突B.维度属性随时间变化C.事实表冗余D.维度层次不一致答案:B7.下列关于OLAP操作的描述,正确的是()。A.切片是减少维度的一个取值B.切块是增加一个维度C.上卷是降低粒度D.下钻是降低粒度答案:D8.在Kmeans聚类中,若初始簇中心选择不当,可能导致()。A.簇内平方和增大B.算法无法收敛C.空簇D.以上均可能答案:D9.数据挖掘任务中,关联规则挖掘的评价指标不包括()。A.支持度B.置信度C.提升度D.准确率答案:D10.在数据仓库分层架构中,最接近源系统的是()。A.数据服务层B.数据汇总层C.数据准备区D.数据应用层答案:C11.下列关于朴素贝叶斯分类器的假设,正确的是()。A.属性间完全相关B.各类别先验概率相等C.属性在给定类别下条件独立D.属性服从均匀分布答案:C12.在数据挖掘流程CRISPDM中,首先进行的阶段是()。A.数据理解B.业务理解C.数据准备D.建模答案:B13.若某事务数据库共1000条事务,其中同时购买{A,B}的有100条,购买{A}的有200条,则规则A→B的置信度为()。A.10%B.20%C.50%D.无法计算答案:C14.在数据仓库中,事实表的粒度是指()。A.事实表记录数B.事实表占用的字节数C.每条事实记录所表示的业务细节程度D.事实表主键的个数答案:C15.下列关于Bagging的描述,正确的是()。A.各基学习器强相关B.可降低方差C.必须采用同质基学习器D.对噪声敏感答案:B16.在数据挖掘中,过拟合是指()。A.训练误差低且测试误差低B.训练误差低但测试误差高C.训练误差高且测试误差高D.训练误差高但测试误差低答案:B17.若某维度表采用Type2SCD方式,当某客户地址变更时,原记录()。A.被物理删除B.被更新覆盖C.保留并新增一条记录D.移到历史表答案:C18.在Hive中,分区表的主要作用是()。A.增加数据冗余B.减少存储空间C.提高查询效率D.自动ETL答案:C19.下列关于FPGrowth的描述,错误的是()。A.只需扫描数据库两次B.采用压缩的树结构C.必须生成候选集D.可发现频繁项集答案:C20.在数据仓库项目中,元数据的主要作用不包括()。A.血缘追踪B.影响分析C.降低存储成本D.支持数据质量管理答案:C二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,请将所有正确选项的字母填在括号内,漏选、错选均不得分)21.以下属于数据仓库基本特征的有()。A.面向主题B.集成性C.实时性D.非易失性答案:ABD22.下列措施可用于缓解决策树过拟合的有()。A.预剪枝B.后剪枝C.增加树深度D.限制叶节点最小样本数答案:ABD23.以下属于聚类算法的有()。A.DBSCANB.C4.5C.KmedoidsD.CLARANS答案:ACD24.在Apriori算法中,提高最小支持度阈值会导致()。A.频繁项集数量减少B.关联规则数量减少C.算法运行时间一定减少D.可能丢失有趣规则答案:ABD25.以下关于Hive与关系数据库的描述,正确的有()。A.Hive支持事务但默认关闭B.Hive采用SchemaonReadC.关系数据库采用SchemaonWriteD.Hive适合OLTP场景答案:ABC26.以下属于数据挖掘中“异常检测”应用的有()。A.信用卡欺诈识别B.网络入侵检测C.客户细分D.设备故障预警答案:ABD27.在数据仓库中,事实表通常包含()。A.外键B.度量值C.维度描述属性D.时间戳答案:ABD28.以下关于主成分分析(PCA)的描述,正确的有()。A.是一种无监督降维方法B.新坐标轴彼此正交C.保留最大方差方向D.必须标准化原始变量答案:ABCD29.以下属于数据质量维度指标的有()。A.准确性B.完整性C.一致性D.及时性答案:ABCD30.在构建数据仓库时,采用增量ETL策略的优点包括()。A.减少源系统压力B.缩短加载时间C.降低存储需求D.简化故障恢复答案:ABC三、填空题(每空1分,共20分。请将答案直接填在横线上)31.在数据仓库中,将不同源系统中相同含义的字段统一格式和编码的过程称为________。答案:数据标准化32.若某事务数据库中项集{a,b}的支持度计数为50,总事务数为1000,则其支持度为________%。答案:533.在Kmeans算法中,常用的簇内相似度度量是________距离。答案:欧氏34.决策树CART算法采用________指标进行属性选择。答案:基尼指数35.在OLAP中,将三维立方体通过固定一个维度值得到二维子立方体的操作称为________。答案:切片36.若某维度表采用Type1SCD,当属性变化时,旧值将被________。答案:覆盖37.在HiveQL中,创建分区表的语法关键字是________。答案:PARTITIONEDBY38.关联规则挖掘中,提升度大于1表示规则前件与后件呈________相关。答案:正39.在数据挖掘中,将连续属性离散化的过程称为________。答案:分箱40.在FPGrowth算法中,第一次扫描数据库后生成________表。答案:频繁1项集(或L1)41.数据仓库分层架构中,用于保存经过清洗、转换但尚未汇总的数据层通常称为________层。答案:明细(或集成明细)42.在朴素贝叶斯中,若某属性值在训练集中未出现,会导致概率为0,此时需采用________估计。答案:拉普拉斯平滑43.在聚类评估指标中,衡量簇内紧密度与簇间分离度的综合指标是________。答案:轮廓系数44.在数据仓库中,记录每个ETL任务开始时间、结束时间、状态等信息的数据称为________元数据。答案:过程45.若某事实表粒度为“每客户每日每产品”,则其最细粒度维度组合为________。答案:客户键+日期键+产品键46.在Hive中,将本地文件加载到分区表的命令关键字为________。答案:LOADDATALOCALINPATH47.在决策树后剪枝中,常用的评估方法是________剪枝。答案:代价复杂度(或悲观误差)48.在数据挖掘中,将高维数据映射到低维空间并尽可能保留邻近关系的方法称为________。答案:tSNE49.在Apriori性质中,频繁项集的________子集必为频繁。答案:所有50.在数据仓库项目中,用于描述“数据从哪来、经过哪些转换、到哪去”的图形化工具称为________图。答案:数据血缘(或数据lineage)四、简答题(共5题,每题8分,共40分)51.简述星型模型与雪花模型的优缺点,并给出适用场景。答案:星型模型:优点:结构简单、查询效率高、易于用户理解;维度表去规范化,减少表连接。缺点:存在数据冗余,更新异常风险;维度表较大时存储浪费。适用:查询性能要求高、维度属性变化不频繁、分析型应用。雪花模型:优点:维度表规范化,节省存储;数据一致性更好。缺点:表连接增多,查询性能下降;模型复杂,用户理解难度高。适用:维度层次深、属性重复度高、存储敏感、更新频繁场景。52.说明Kmeans算法步骤,并指出其两个主要缺陷及改进思路。答案:步骤:1)随机选取k个初始簇中心;2)将每个样本分配到最近中心形成簇;3)重新计算各簇中心;4)重复23直至中心不再变化或达到最大迭代。缺陷:1)对初始中心敏感,可能陷入局部最优;改进:多次随机初始化或使用kmeans++。2)对噪声和离群点敏感;改进:采用kmedoids或密度聚类。53.解释“渐变维度”三种类型,并举例说明Type2在零售会员系统中的实现方式。答案:Type1:覆盖旧值,不保留历史;Type2:新增记录保留历史,通过代理键区分版本;Type3:增加列保存前一值,仅保留最近历史。Type2示例:会员等级变更时,原记录增加过期日期并标记为“历史”,插入新记录含新等级、生效日期,事实表通过代理键关联当前版本。54.描述Apriori算法利用“先验性质”减少搜索空间的具体过程。答案:先验性质:频繁项集的所有子集必频繁。过程:1)由Lk1与自身连接生成候选k项集Ck;2)对Ck中每个候选,检查其所有(k1)子集是否都在Lk1中,若存在非频繁子集则剪枝;3)扫描数据库计算剩余候选支持度,得到Lk。通过剪枝,大幅缩减候选规模,降低I/O与计算量。55.给出数据仓库ETL过程中“数据质量检查”五项关键指标,并说明如何量化。答案:1)准确性:抽样与权威源比对,错误记录占比;2)完整性:必填字段空值率;3)一致性:外键引用失败率、编码映射错误率;4)唯一性:主键重复数/总记录数;5)及时性:数据到达延迟超过SLA的次数占比。五、应用题(共4题,共70分)56.(计算题,15分)某超市事务数据库如下,最小支持度阈值30%,最小置信度阈值70%。T1:{牛奶,面包,啤酒}T2:{面包,尿布,啤酒,可乐}T3:{牛奶,面包,尿布,啤酒}T4:{面包,尿布,可乐}T5:{牛奶,面包,尿布,啤酒,可乐}(1)采用Apriori算法列出所有频繁1项集、2项集、3项集;(2)写出关联规则“啤酒→尿布”的支持度、置信度,并判断是否强规则;(3)计算该规则的提升度,并解释其业务含义。答案:(1)频繁1项集:{牛奶}:3,{面包}:5,{尿布}:4,{啤酒}:4,{可乐}:3频繁2项集:{面包,牛奶}:3,{面包,尿布}:4,{面包,啤酒}:4,{面包,可乐}:3,{尿布,啤酒}:3,{尿布,可乐}:3,{啤酒,可乐}:2(剔除)频繁3项集:{面包,尿布,啤酒}:3(2)支持度(啤酒→尿布)=P(啤酒∩尿布)=3/5=60%置信度=P(尿布|啤酒)=3/4=75%≥70%,为强规则。(3)提升度=0.6/(0.8×0.6)=1.25>1,表示购买啤酒positively促进尿布销售,可摆放促销。57.(分析题,20分)某电商公司构建客户流失预警模型,原始数据含100万客户,属性50个,含数值与类别变量,正负样本比例1:9。(1)给出处理类别不平衡的三种技术并比较;(2)说明如何采用PCA降维,并指出如何确定主成分个数;(3)若采用随机森林,给出调参步骤及评估指标选择;(4)解释模型部署后如何监控性能漂移。答案:(1)欠采样:减少多数类,简单但信息丢失;过采样/SMOTE:合成少数类,易过拟合;代价敏感学习:调整类别权重,无需改变分布,推荐。(2)标准化→计算协方差→特征分解→按累计解释方差≥95%或拐点法选k;保留解释度≥95%的最小k。(3)GridSearchCV对n_estimators、max_depth、min_samples_split、max_features调参;采用分层5折交叉验证;评估指标选AUCROC,兼顾不平衡。(4)每日批量预测,计算PSI、CSI监测特征与预测分布;若PSI>0.2触发重训练;监控AUC下降>5%即告警。58.(综合设计题,20分)某连锁便利店计划构建“单店日销售”数据仓库,源系统包括POS交易、会员系统、天气API、节假日表。(1)给出事实表粒度、主要维度、度量值;(2)设计星型模型图示(文字描述),指出主键、外键;(3)说明ETL中如何处理“商品”维的渐变属性(价格变化);(4)给出三种OLAP分析示例并写出伪SQL。答案:(1)粒度:单店日期商品促销;维度:日期、店铺、商品、会员、促销、天气;度量:销售额、销量、折扣额、客单价。(2)事实表sales_fact(store_key,date_key,product_key,member_key,promo_key,weather_key,sales_amt,qty,discount_amt)维度表:store_dim(store_key,store_city,region…)product_dim(product_key,sku_no,product_name,category,price,start_date,end_date,version…)主键:各维度surrogatekey;外键:事实表对应维度key。(3)商品价变采用Type2:新增版本记录,更新原记录end_date,插入新价格记录,事实表用最新product_key。(4)a.切片:查询2023年春节期间华东地区销售额SELECTSUM(sales_amt)FROMsales_factsJOINdate_dimdONs.date_key=d.date_keyJOINstore_dimstONs.store_key=st.store_keyWHEREd.holiday_name='春节'ANDst.region='华东';b.上卷:按季度汇总销量SELECTd.quarter,SUM(qty)FROMsales_factsJOINdate_dimdONs.date_key=d.date_keyGROUPBYd.quarter;c.下钻:某店单日销售额按小时SELECTd.hour,SUM(sales_amt)FROMsales_factsJOINdate_dimdONs.date_key=d.date_keyWHEREd.date='20231201'ANDs.store_key=101GROUPBYd.hour;59.(编程题,15分)使用Python+scikitlearn完成客户分群。数据:cust.csv含字段Age,Income,SpendScore,VisitFreq。要求:(1)读数据、标准化;(2)用肘部法确定Kmeans最佳k∈[2,10];(3)输出聚类中心、轮廓系数;(4)可视化聚类结果(二维PCA投影);(5)解释每簇业务含义并提出营销策略。答案:```pythonimportpandasaspd,matplotlib.pyplotasplt,seabornassnsfromsklearn.preprocessingimportStandardScalerfromsklearn.clusterimportKMeansfromsklearn.decompositionimportPCAfromsklearn.metricsimportsilhouette_scoredf=pd.read_csv('cust.csv')X=df[['Age','Income','SpendScore','VisitFreq']]sc=StandardScaler()X_scaled=sc.fit_transform(X)sse,sil=[],[]K_range=range(2,11)forkinK_range:km=KMeans(n_clusters=k,random_state=42)km.fit(X_scaled)sse.append(km.inertia_)sil.append(silhouette_score(X_scaled,km.labels_))opt_k=K_range[sil.index(max(sil))]print('最佳k=',opt_k,'轮廓系数=',max(sil))best_km=KMeans(n_clusters=opt_k,random_state=42)labels=best_km.fit_predict(X_scaled)centers=sc.inverse_transform(best_km.cluster_centers_)print('聚类中心:\n',pd.DataFrame(centers,columns=X.columns))pca=PCA(n_components=2)X_pca=pca.fit_transform(X_scaled)plt.figure(figsize=(6,5))sns.scatterplot(x=X_pca[:,0],y=X_pca[:,1],hue=labels,palette='Set2')plt.title('PCA投影聚类')plt.show()业务解释示例(k=4):簇0:高收高花高频,VIP,推高端新品;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论