数据仓库与数据挖掘期末试题_第1页
数据仓库与数据挖掘期末试题_第2页
数据仓库与数据挖掘期末试题_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、数据仓库数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented )、集成的(Integrate )、相对稳定的(Non-Volatile )、反映历史 变化(Time Variant )的数 据集合,用于支持管理决策。2、数据挖掘:数据挖掘(Data Mining),又称为数据库中的 知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获 取有效的、新颖的、潜在有 用的、最终可理解的模式的 非平凡过程,简单的说,数 据挖掘就是从大量数据中提 取或“挖掘”知识。3、雪花模型:雪花模式中某 些维表是规范化的

2、,因而把 数据进一步分解到附加的表 中,模式图形成了类似雪花 的形状。通过最大限度地减 少数据存储量以及联合较小 的维表来改善查询性能。雪 花模型增加了用户必须处理 的表数量,增加了某些查询 的复杂性,但同时提高了处 理的灵活性,可以回答更多 的商业问题,特别适合系统的逐步建设要求。4、OLAP OLAP是联机分析处理,是使 分析人员、管理人员或执行 人员能够从多角度对信息进 行快速、一致、交互地存取, 从而获得对数据的更深入了 解的一类软件技术。它支持 复杂的分析操作,侧重决策 支持,并且提供直观易懂的 查询结果。5、决策树:决策树是将训练 集函数表示成树结构,通过 它来近似离散值的目标函

3、数。这种树结构是一种有向 树,它以训练集的一个属性 作节点,这个属性所对应的 一个值作边。决策树一般都 是自上而下的来生成的。1、企业面对海量数据,应 如何具体实施数据挖掘,使 之转换成可行的结果/模 型?首先进行数据的预处理,主 要进行数据的清洗,数据清 洗,处理空缺值,数据的集 成,数据的变换和数据规约。2、请列举您使用过的各种 数据仓库工具软件(包括建 模工具,ETL工具,前端展 现工具,OLAP Server 数 据库、数据挖掘工具)和熟 悉程度。ETL 工具: Ascential DataStage , IBM warehouse MANAGE Rnformatica 公司 的 Po

4、werCenter、Cognos 公 司的 DecisionStream 市场上的主流数据仓库存储 层软件有:SQL SERVER SYBASE ORACLE DB2、 TERADATA但是使用过的只有SQL SERVER和数据挖掘工具 Analysis Services ,而且不 大熟悉。3、请谈一下你对元数据管 理在数据仓库中的运用的 理解。元数据能支持系统对数据的 管理和维护,如关于数据项 存储方法的元数据能支持系 统以最有效的方式访问数 据。具体来说,在数据仓库系 统中,元数据机制主要支持 以下五类系统管理功能:(1 )描述哪些数据在数据 仓库中;(2)定义要进入数 据仓库中的数据和从

5、数据仓 库中产生的数据;(3 )记录 根据业务事件发生而随之进 行的数据抽取工作时间安 排;(4 )记录并检测系统数 据一致性的要求和执行情 况;(5 )衡量数据质量。4、数据挖掘对聚类的数据要求是什么?(1)可伸缩性(2)处理不同类型属性的能 力(3)发现任意形状的聚类(4)使输入参数的领域知识 最小化(5)处理噪声数据的 能力(6)对于输入顺序不敏 感(7)高维性(8)基于约 束的聚类(9)看解释性和可 利用性5、简述Apriori 算法的思 想,谈谈该算法的应用领域 并举例。思想:其发现关联 规则分两步,第一是通过迭 代,检索出数据源中所有烦 琐项集,即支持度不低于用 户设定的阀值的项即

6、集,第 二是利用第一步中检索出的 烦琐项集构造出满足用户最 小信任度的规则,其中,第 一步即挖掘出所有频繁项集 是该算法的核心,也占整个算法工作量的大部分。在商务、金融、保险等领域 皆有应用。在建筑陶瓷行业中的交叉销 售应用,主要采用了 Apriori 算法一、翻译分析题(30分)1、附件有一名为“Data Mining in Electronic Commerce 的电子文档,请 同学们翻译其中的一段。每 位同学翻译的段号以大家学号的最后两位为准,如10 号同学只需翻译正文的第 10段,以此类推。分类则是一个标准的问题, 在数据挖掘和在电子商贸的 应用-原则下,适当的方法 随机森林,支持向量

7、机(支 持向量机),后勤拉索等 有赖于敏锐地在该网站上, 该类型的广告都是可以收集 到的资料。在亚马逊商务网 站中,该推荐系统已进入先 前购买和书籍进行视察。这是一个更丰富的信息来 源,通过 可以接入(他们只知道这个词,有人期待在这 次会议上,除非他们有库克- 网页)。一些企业获得更多 的信息,从数据仓库中,如 作为choicepoint 公司,这 使得他们的专家来建立高度 个性化的分类规则。2、通过阅读该文挡,请同 学们分析一下数据挖掘在 电子商务领域的应用情况(请深入分析并给出实例, 切忌泛泛而谈)。随着网络技术和数据库技术 的成熟,全球传统商务正经 历一次重大变革,向电子商 务全速挺进。

8、这种商业电子 化的趋势不仅为客户提供了 便利的交易方式和广泛的选 择,同时也为商家提供了更 加深入地了解客户需求信息 和购物行为特征的可能性。 数据挖掘技术作为电子商务 的重要应用技术之一,将为 正确的商业决策提供强有力 的支持和可靠的保证,是电 子商务不可缺少的重要工 具。电子商务的发展促使公司内 部收集了大量的数据,并且 迫切需要将这些数据转换成 有用的信息和知识,为公司 创造更多潜在的利润,数据 挖掘概念就是从这样的商业 角度开发出来的。由于数据挖掘能带来显著的 效益,它在电子商务中(特 别是业、零售业和电信业) 应用也越来越广泛。在金融领域,管理者可以通 过对客户偿还能力以及信用 的分

9、析,进行分类,评出等 级。从而可减少放贷的麻木 性,提高资金的使用效率。 同时还可发现在偿还中起决 定作用的主导因素,从而制 定相应的金融政策。更值得 一提的是通过对数据的分析 还可发现洗黑钱以及其它的 犯罪活动。在零售业,数据挖掘可有助 于识别顾客购买行为,发现 顾客购买模式和趋势,改进 服务质量,取得更好的顾客 保持力和满意程度,提高货 品销量比率,设计更好的货 品运输与分销策略,减少商 业成本。电信业已经迅速地从单纯的 提供市话和长话服务演变为 综合电信服务,如语音、传 真、寻呼、移动电话、图像、 电子邮件、机和WEEa据传 输以及其它的数据通信服 务。电信、计算机网络、因 特网和各种其

10、它方式的通信 和计算的融合是的大势所 趋。而且随着许多国家对电 信业的开放和新型计算与通 信技术的发展,电信市场正 在迅速扩张并越发竞争激 烈。因此,利用数据挖掘技 术来帮助理解商业行为、确 定电信模式、捕捉盗用行为、 更好的利用资源和提高服务 质量是非常有必要的。分析 人员可以对呼叫源、呼叫目 标、呼叫量和每天使用模式 等信息进行分析,还可以通 过挖掘进行盗用模式分析和 异常模式识别,从而可尽早 发现盗用,为公司减少损失。1. 数据仓库和数据库有何 不同它们有哪些相似之处 答:区别:数据仓库是面向主 题的,集成的,不易更改且随 时间变化的数据集合,用来 支持管理人员的决策, 数据库由一组内部

11、相关的数 据和一组管理和存取数据的 软件程序组成,是面向操作 型的数据库,是组成数据仓 库的源数据.它用表组织数 据,采用ER数据模型.它们 都为数据挖掘提供了源数据, 都是数据的组合.2.什么是 数据挖掘请举例.数据挖掘: 是从大量数据中提取或 "挖 掘”知识,也就是从存放在数 据库,数据仓库或其他信息 库中的数据挖掘有趣知识的 过程.数据挖掘是可以从数 据库中提取有趣的知识规律 或高层信息发现的知识,可 以用于决策,过程控制,信息 管理,查询处理.它不是一种 从数据库,统计学和机器学 习发展的技术的简单转化 , 它涉及多学科技术的集成 , 包括数据库技术,统计学,机 器学习,高性

12、能计算模式识 别,神经网络,数据可视化, 信息检索,图象与信号处理 和空间数据分析.随着数据 库技术发展,数据的丰富带 来了对强有力的数据分析工 具的需求,大量的数据被推f 述为”数据丰富,但信息贫乏 ",所以数据挖掘出来了 .当 把数据挖掘看作知识发现 过程时,它涉及的步骤为:1) 数据清理2)数据集成3)数 据选择4)数据变换5)数据 挖掘6)模式评估7)知识表 示1、数据仓库就是一个面 向主题的、集成的、相对稳 定的、反映历史变化的数据 集合。2、元数据是描述数据仓库内 数据的结构和建立方法的数 据,它为访问数据仓库提供 了一个信息目录,根据数据 用途的不同可将数据仓库的 元数

13、据分为技术元数据和业 务元数据两类。3、数据处理 通常分成两大类:联机事务 处理和联机分析处理。4、多 维分析是指以“维”形式组 织起来的数据(多维数据集) 米取切片、切块、钻取和旋 转等各种分析动作,以求剖 析数据,使拥护能从不同角 度、不同侧面观察数据仓库 中的数据,从而深入理解多 维数据集中的信息。6、数据仓库按照其开发过 程,其关键环节包括数据抽 取、数据存储于管理和数据 表现等。7、数据仓库系统的 体系结构根据应用需求的不 同,可以分为以下4种类型: 两层架构、独立型数据集合、 以来型数据结合和操作型数 据存储和逻辑型数据集中和 实时数据仓库。8、操作型数 据存储实际上是一个集成 的

14、、面向主题的、可更新的、 当前值的(但是可“挥发” 的)、企业级的、详细的数据 库,也叫运营数据存储。9、 “实时数据仓库”以为着源 数据系统、决策支持服务和 仓库仓库之间以一个接近实 时的速度交换数据和业务规 则。10、从应用的角度看, 数据仓库的发展演变可以归 纳为5个阶段:以报表为主、 以分析为主、以预测模型为 主、以运营导向为主和以实 时数据仓库和自动决策为 主。1、调和数据是存储在企 业级数据仓库和操作型数据 存储中的数据。2、抽取、转 换、加载过程的目的是为决 策支持应用提供一个单一 的、权威数据源。因此,我 们要求ETL过程产生的数 据(即调和数据层)是详细 的、历史的、规范的、

15、可理 解的、即时的和质量可控制 的。3、数据抽取的两个常见 类型是静态抽取和增量抽 取。静态抽取用于最初填充 数据仓库,增量抽取用于进 行数据仓库的维护。4、粒度 是对数据仓库中数据的综合 程度高低的一个衡量。粒度 越小,细节程度越高,综合 程度越低,回答查询的种类 越多。5、使用星型模式可以 从一定程度上提高查询效 率。因为星型模式中数据的 组织已经经过预处理,主要 数据都在庞大的事实表中。6、维度表一般又主键、分类 层次和描述属性组成。对于 主键可以选择两种方式:一 种是采用自然键,另一种是 采用代理键。8、数据仓库中 存在不同综合级别的数据。一般把数据分成4个级别: 早期细节级、当前细节

16、级、 轻度综合级和高度综合级。1、SQL Server SSAS 提供了 所有业务数据的同意整合试 图,可以作为传统报表、在 线分析处理、关键性能指示 器记分卡和数据挖掘的基 础。2、数据仓库的概念模型 通常采用信息包图法来进行 设计,要求将其5个组成部 分(包括名称、维度、类别、 层次和度量)全面地描述出 来。3、数据仓库的逻辑模型 通常采用星型图法来进行设 计,要求将星型的各类逻辑 实体完整地描述出来。5、确 定了数据仓库的粒度模型以 后,为提高数据仓库的使用 性能,还需要根据拥护需求 设计聚合模型。| 6、在项目实 施时,根据事实表的特点和 拥护的查询需求,可以选用 时间、业务类型、区域

17、和下 属组织等多种数据分割类 型。7、当维表中的主键在事 实表中没有与外键关联时, 这样的维称为退化维。它于 事实表并无关系,但有时在 查询限制条件(如订单号码、 出货单编号等)中需要用到。8、维度可以根据其变化快慢 分为元变化维度、缓慢变化 维度和剧烈变化维度三类。9、数据仓库的数据量通常较 大,且数据一般很少更新, 可以通过设计和优化索引结 构来提高数据存取性能。10、数据仓库数据库常见的 存储优化方法包括表的归并 与簇文件、反向规范化引入 冗余、表的物理分割(分区)。 1、分类的过程包括获取数 据、预处理、分类器设计和 分类决策。2、分类器设计阶 段包含三个过程:划分数据 集、分类器构造

18、和分类器测 试。1、聚类分析包括连续型、二 值离散型、多值离散型和混 合类型4种类型描述属性的 相似度计算方法。2、连续型属性的数据样本之 间的距离有欧氏距离、曼哈 顿距离和明考斯基距离。3、划分聚类方法对数据集进 行聚类时包含三个要点:选 种某种距离作为数据样本减 的相似性度量、选择评价聚 类性能的准则函数和选择某 个初始分类,之后用迭代的 方法得到聚类结果,使得评 价聚类的准则函数取得最优值。4、层次聚类方法包括凝聚型 和分解型两中层次聚类方 法。一、单项选择题(本大题共20小题,每小题1分,共20分)在每小题列出的 四个备选项中只有一 个是符合题目要求的, 请将其代码填写在题 后的括号内

19、。错选、多 选或未选均无分。1. 以下哪一项不星.软件危机的表现()A. 开发的软件可维护性差B. 软件极易被盗版C. 经费预算经常被突破D. 开发的软件不能满足 用户需求2. 以下哪个软件生存周期模型是一种风险驱动的模 型()A. 瀑布模型B.增量模型 C.螺旋模型D.喷泉模型3. 各种需求分析方法都有共同适用的()A .分析方法B.说明方法 C.表示方法D.基本原则4. 结构化分析建立功能模型的工具是()A . DFDB .判定树/判定表 C. DDD .结构化语言5. 模块中所有成分结合起来完成一项任务,该模块的 内聚性是()A .功能内聚B.顺序内聚 C.通信内聚D.逻辑内聚6. 系统

20、定义明确之后,应对 系统的可行性进行研究, 可行性研究应包括()A.技术可行性、经济可行性、社会可 行性C.经济可行性、社会可行 性、系统可行性 D.经济可 行性、实用性、社会可行性7. 以下哪一项对模块耦合性没有影响()A. 模块间接口的复杂程度B. 调用模块的方式C. 通过接口的信息D. 模块内部各个元素彼此 之间的紧密结合程度8. 检查软件产品是否符合需求定义的过程称为( )A. 确认测试B.集成测试C .系统测试D .单元测试9. 下面关于详细设计的叙述中,错误的是()A. 程序流程图可以描述结 构化程序C. NS图描述的程序一定是 结构化的10. 在整个软件维护阶段所 花费的全部工作

21、中,所 占比例最大的是()A.校正性维护B .适应性维护C. 完善性维护 D.预 防性维护11. 以下不.属.于.序言性注释的有()A.模块设计者B.修改日期 C .程序的整体说明D. 语句功能12. 集成测试是为了发现()A.接口错误B.编码错误C.性 能、质量不合要求D .功 能错误13. 一个只有顺序结构的程 序,其环形复杂度是( )A. 0B . 1C. 3D. 514. 结构化程序设计,主要强调的是()A. 程序的执行效率B. 模块的内聚 C.程序的可理解性D.模块 的耦合15. 下面关于文档的叙述,错误的是()A. 文档是仅用于说明使用软件的操作命令,不包 括软件设计和实现细节B.

22、 文档是软件产品的一部分,没有文档的软件就 不成为软件C .高质量文档对于转让、 变更、修改、扩充和使 用有重要的意义D. 软件文档的编制在软件开发工作中占有突出的 地位和相当大的工作量16 .在McCall软件质量度量模型中,面向软件产品 操作的质量因素是( )A.正确性B.可维护性C. 适应性D.互操作性17 .对度量法,叙述错误.的是()A. 度量法是一种基于程序控制流的复杂性度量法B. 度量法以图论为工具,用图的环路数作为程序复杂性的度量值C.度量法不能区分简单bif程序疥Jackson构和厩向语句和循环语句的复杂的开发方D.性D.度量法对模块间的接口和简单IF语句区分对待PAD图片述

23、的程序一定是结构化的26 .结构化语言是介于和形式语言之间的一种半形式语18.在快速原型模型的开发 过程中,仅用于代替设 计阶段的原型是言。27.软件产品在交付使用之前一般要经过A.( )探索型模型B.演化型模型、集成测 试、确认测试和系统测 试。C. 实验型模型 D.提交型 模型19. 对于构造原型的建议, 下面说法错误的是( )A. 暂不考虑错误恢复和处 理,但应考虑速度、空 间等性能效率方面的要 求B. 可降低可靠性和软件质量标准C. 原型界面部分的设计,最好能与最终系统的界 面相容D. 根据不同的软件类型和应用领域,可使用不同 风格的高级语言来构造 原型20. 面向对象开发方法中,将在面向对象技术领域 内占主导地位的标准建 模语言是()A . Booch 方法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论