




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年《数据仓库与数据挖掘》复习题及答案一、数据仓库基础1.简述数据仓库的定义及其与数据库的核心区别。数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合,用于支持管理决策。其核心目标是为企业提供全局统一的数据分析基础。与数据库的区别体现在:(1)目标不同:数据库支持OLTP(联机事务处理),侧重日常业务操作;数据仓库支持OLAP(联机分析处理),侧重决策分析。(2)数据结构:数据库采用规范化设计(如3NF),减少冗余;数据仓库采用星型/雪花模型,允许适当冗余以优化查询。(3)数据更新:数据库支持实时增删改;数据仓库通过ETL定期批量加载,数据一旦写入通常不修改。(4)时间范围:数据库存储当前数据(近期);数据仓库存储历史数据(通常5-10年)。2.说明数据仓库体系结构中数据源、数据存储与管理、OLAP服务器、前端工具的具体作用。(1)数据源:包括企业内部的业务数据库(如ERP、CRM)、外部数据(如第三方统计数据)及日志文件,是数据仓库的原始输入。(2)数据存储与管理:核心是数据仓库数据库,存储经过清洗、转换、集成的主题数据;同时包含元数据库(记录数据来源、转换规则等元信息)和索引/分区结构(优化查询效率)。(3)OLAP服务器:提供多维分析能力,支持切片、切块、钻取、旋转等操作,将数据以多维立方体(Cube)形式呈现,满足复杂查询需求。(4)前端工具:包括报表工具(如Tableau)、数据挖掘工具(如SPSSModeler)和可视化工具,帮助用户从数据中提取价值并输出分析结果。二、ETL与数据建模3.详细描述ETL过程的主要步骤及各步骤的关键任务。ETL(抽取-转换-加载)是数据从源系统到数据仓库的关键流程,分为三步:(1)抽取(Extract):从多个异构数据源(如关系数据库、文本文件、API接口)提取数据。关键任务包括:①确定抽取频率(实时/批量);②处理数据源格式差异(如CSV、JSON、XML);③增量抽取(仅抽取变化数据)以减少资源消耗。(2)转换(Transform):将原始数据清洗、整合为符合数据仓库要求的格式。关键任务包括:①数据清洗(处理缺失值:用均值填充或删除;处理异常值:用上下限截断);②标准化(如统一日期格式“YYYY-MM-DD”);③关联整合(将分散在不同表的客户信息通过ID关联);④计算推导(如根据订单金额和数量计算客单价)。(3)加载(Load):将转换后的数据写入数据仓库。关键任务包括:①批量加载(使用SQL的INSERTINTO或工具如Sqoop);②一致性检查(确保加载前后数据总量一致);③索引与分区(按时间或主题分区,加速查询)。4.对比星型模型与雪花模型的结构特点,举例说明各自适用的业务场景。星型模型由事实表和维度表构成,维度表直接与事实表关联,无层级划分。例如,电商订单事实表(订单ID、用户ID、商品ID、金额)关联用户维度表(用户ID、姓名、注册时间)和商品维度表(商品ID、名称、类别),维度表无进一步细分。雪花模型是星型模型的扩展,维度表按层级进一步规范化。如商品维度表可拆分为商品类别表(类别ID、类别名称)和商品表(商品ID、名称、类别ID),通过类别ID关联。适用场景:星型模型查询效率高(减少JOIN操作),适合需要快速响应的分析场景(如实时销售报表);雪花模型节省存储空间(减少冗余),适合维度层级复杂、数据量极大的场景(如电信用户行为分析,用户维度需细分到省-市-区多级)。三、数据挖掘核心技术5.定义数据挖掘中的关联规则,解释支持度、置信度、提升度的含义,并说明三者在规则筛选中的作用。关联规则是发现数据中频繁出现的模式,形式为“X→Y”,表示X发生时Y可能发生。(1)支持度(Support):规则覆盖的事务比例,即P(X∪Y)。例如,支持度30%表示30%的事务同时包含X和Y,用于筛选“普遍存在”的规则。(2)置信度(Confidence):X发生时Y发生的条件概率,即P(Y|X)。例如,置信度60%表示包含X的事务中60%也包含Y,用于筛选“强关联”的规则。(3)提升度(Lift):置信度与Y独立发生概率的比值,即P(Y|X)/P(Y)。提升度>1表示X的出现提升了Y发生的概率(非偶然关联),提升度=1表示无关,提升度<1表示负相关。三者配合使用:先通过支持度过滤低频规则,再用置信度筛选强关联规则,最后用提升度排除偶然关联(如Y本身高频导致置信度虚高)。6.以客户分群为例,说明K-means聚类算法的执行步骤,并分析其优缺点。执行步骤(以电商客户分群,特征为“年消费金额”和“购物频率”):(1)设定K值(如K=3,分为高价值、中价值、低价值客户)。(2)随机选择3个初始质心(如(10000,12)、(5000,6)、(2000,3))。(3)计算每个客户到各质心的欧氏距离,将客户分配到最近的簇。(4)重新计算各簇的质心(簇内客户特征的均值)。(5)重复步骤(3)-(4),直到质心不再变化或达到最大迭代次数。优点:计算效率高(时间复杂度O(nKt),n为样本数,K为簇数,t为迭代次数);结果可解释性强(簇中心直观反映客户特征)。缺点:依赖初始质心选择(可能陷入局部最优);需预先指定K值(实际中需通过轮廓系数或肘部法则确定);对异常值敏感(如高消费频次但金额极低的客户会拉高某簇的质心);仅适用于数值型数据(需对类别型特征做独热编码)。四、综合计算与分析7.给定事务数据集(如表1),使用Apriori算法计算所有支持度≥30%的频繁项集,并推导置信度≥60%的强关联规则(要求写出候选集生成、剪枝、支持度计算的完整过程)。表1:事务数据集TID|项目集T1|{A,B,C}T2|{A,B,D}T3|{A,C,E}T4|{B,C,D}T5|{A,B,C,D}步骤1:计算1-项集支持度候选1-项集C1:{A},{B},{C},{D},{E}支持计数:A出现4次(T1,T2,T3,T5);B出现4次(T1,T2,T4,T5);C出现4次(T1,T3,T4,T5);D出现3次(T2,T4,T5);E出现1次(T3)。支持度阈值=30%×5=1.5,取整为2。筛选后频繁1-项集L1:{A}(4),{B}(4),{C}(4),{D}(3)(E支持度1<2,剔除)。步骤2:生成2-项集候选C2通过L1自连接生成:{A,B},{A,C},{A,D},{B,C},{B,D},{C,D}剪枝:无子集不在L1中,保留所有候选。计算支持计数:{A,B}:T1,T2,T5→3次;{A,C}:T1,T3,T5→3次;{A,D}:T2,T5→2次;{B,C}:T1,T4,T5→3次;{B,D}:T2,T4,T5→3次;{C,D}:T4,T5→2次。支持度均≥2,筛选后L2:{A,B}(3),{A,C}(3),{A,D}(2),{B,C}(3),{B,D}(3),{C,D}(2)。步骤3:生成3-项集候选C3L2中项集前k-2项相同可连接,生成:{A,B,C}(由{A,B}和{A,C}连接)、{A,B,D}(由{A,B}和{A,D}连接)、{A,C,D}(由{A,C}和{A,D}连接)、{B,C,D}(由{B,C}和{B,D}、{B,C}和{C,D}、{B,D}和{C,D}连接)。剪枝:检查所有2-项子集是否在L2中:{A,B,C}的子集{A,B},{A,C},{B,C}均在L2中,保留;{A,B,D}的子集{A,B},{A,D},{B,D}均在L2中,保留;{A,C,D}的子集{A,C},{A,D},{C,D}均在L2中,保留;{B,C,D}的子集{B,C},{B,D},{C,D}均在L2中,保留。计算支持计数:{A,B,C}:T1,T5→2次;{A,B,D}:T2,T5→2次;{A,C,D}:仅T5(T5包含A,C,D吗?T5项目集是{A,B,C,D},包含A,C,D,所以T5算1次;T3是{A,C,E}无D,T2是{A,B,D}无C,T4是{B,C,D}无A,故支持计数=1次(仅T5)?需重新核对:T5的项目集是{A,B,C,D},所以{A,C,D}在T5中存在;T3是{A,C,E}无D,T2是{A,B,D}无C,T4是{B,C,D}无A,T1是{A,B,C}无D,故支持计数=1次(<2,剔除);{B,C,D}:T4,T5→2次(T4={B,C,D},T5={A,B,C,D}包含B,C,D)。筛选后L3:{A,B,C}(2),{A,B,D}(2),{B,C,D}(2)({A,C,D}支持计数1<2,剔除)。步骤4:生成4-项集候选C4L3中项集前k-2项相同可连接,如{A,B,C}和{A,B,D}连接得到{A,B,C,D},检查子集是否全在L3中:所有3-项子集{A,B,C},{A,B,D},{A,C,D},{B,C,D},其中{A,C,D}不在L3中(已被剔除),故C4为空,算法终止。最终频繁项集:L1到L3中支持度≥30%的项集,即所有L1、L2、L3中的项集(具体见各步骤筛选结果)。推导强关联规则(置信度≥60%)以频繁项集{A,B,C}(支持计数2)为例,可能的规则:-A,B→C:置信度=支持计数(A,B,C)/支持计数(A,B)=2/3≈66.7%≥60%;-A,C→B:置信度=2/3≈66.7%≥60%;-B,C→A:置信度=2/3≈66.7%≥60%;-A→B,C:置信度=2/4(A的支持计数是4)=50%<60%(剔除);同理,分析其他频繁项集,最终强关联规则包括但不限于{A,B→C},{A,C→B},{B,C→A},{B,D→C}(需计算验证)等。五、应用场景分析8.某电商企业计划构建用户行为数据仓库,需整合订单、浏览、购物车、评价等多源数据。请分析在ETL过程中可能遇到的挑战,并提出对应的解决方案。挑战与解决方案:(1)数据格式异构:订单数据来自MySQL(结构化),浏览日志来自ApacheKafka(半结构化JSON),评价数据来自文本文件(非结构化)。解决方案:使用ETL工具(如ApacheNiFi)进行格式转换,将半/非结构化数据解析为结构化表(如提取日志中的“用户ID”“页面ID”“停留时间”字段)。(2)时间戳不一致:不同系统的时间字段格式不同(如“YYYY/MM/DD”“MM-DD-YYYY”),且存在时区差异(如前端记录UTC时间,后端记录本地时间)。解决方案:统一转换为“YYYY-MM-DDHH:MM:SS”格式,通过时区转换函数(如Python的pytz库)校准为企业所在时区。(3)数据质量问题:浏览日志中存在缺失的“用户ID”(如未登录用户),订单表中存在重复订单(同一用户同一时间下单两次)。解决方案:①缺失值处理:未登录用户标记为“匿名用户”,单独建表存储;②重复数据:通过“用户ID+商品ID+下单时间”唯一键去重,保留最新记录。(4)多源数据关联:用户ID在订单表中为“user_id”,在浏览日志中为“uid”,需关联同一用户的不同行为。解决方案:建立用户统一标识(如通过手机号或设备ID关联),在ETL阶段创建“用户映射表”,将不同系统的用户ID映射为数据仓库的“统一用户ID”。9.某医院希望通过数据挖掘识别高风险重症患者,现有数据包含患者基本信息、生理指标(如血压、心率)、过往病史、用药记录。请设计一个数据挖掘流程,包括数据预处理、模型选择、评估方法,并说明选择该模型的理由。数据挖掘流程:(1)数据预处理:①数据清洗:处理生理指标的缺失值(如用同科室同年龄段患者的均值填充);剔除异常值(如心率>200次/分,可能为设备故障,标记为缺失后填充)。②特征工程:-衍生指标:计算“血压波动值”(收缩压-舒张压)、“用药依从性”(实际用药天数/处方天数);-离散化:将年龄分为“0-18”“19-60”“61+”三段,将心率分为“正常(60-100)”“心动过缓(<60)”“心动过速(>100)”;-独热编码:将过往病史(如“糖尿病”“高血压”)转换为二进制特征(有=1,无=0)。(2)模型选择:选择XGBoost(极端梯度提升树)。理由:①处理混合类型数据(数值型生理指标+类别型病史)能力强;②内置正则化防止过拟合,适合医疗数据小样本、高维度特点;③可输出特征重要性(如“心率”“血压”对重症风险的贡献度),满足医生对可解释性的需求。(3)评估方法:采用分层5折交叉验证(因重症患者占比低,保持每折中正负样本比例与原数据一致),评估指标选择F1-score(平衡精确率和召回率)和AUC-ROC(衡量模型区分正负样本的能力)。同时,输出混淆矩阵,重点关注召回率(漏诊高风险患者
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四川甘孜州大学生乡村医生专项计划招聘考试真题2024
- 长郡知识竞赛培训课件
- 安防系统售后服务方案及措施
- 2024年省燃气经营企业从业人员考试(压缩天然气场站工)经典试题及答案四
- 专题11 强调句的用法 (学生版)-2025年新高一英语暑假衔接讲练 (人教版)
- 2025年煤矿企业主要负责人安管能力考试模拟题及答案
- 难点详解人教版八年级物理上册第6章质量与密度-密度综合练习试题(含答案及解析)
- 2025年山西省煤矿安全生产管理人员安全生产知识和管理能力考试全真模拟试题及答案
- 2025年道路运输企业主要负责人和安全生产管理人员考试(主要负责人)考前模拟试题及答案
- 2025年煤矿企业主要负责人安全生产知识和管理能力考试练习题及答案
- 2024年太原武宿机场航空产业集团招聘笔试冲刺题(带答案解析)
- 现代礼仪与沟通(大学生礼仪沟通课程)全套教学课件
- 严重精神障碍患者家属护理教育
- 坚持立足中国又面向世界讲解
- 《昆虫的美食》课件
- 制程工序能力分析报告
- TRIZ试题库资料整理
- 双室平衡容器原理
- 焊接热源及其热作用
- 等腰三角形的性质市公开课金奖市赛课一等奖课件
- 生产车间行为规范
评论
0/150
提交评论