




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、挖掘机简答题1 .什么是数据仓库?数据仓库的特点主要有哪些?为什么要建立数据仓库?数据仓库的组成?数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。数据仓库的特点包含以下几个方面:(1)面向主题。而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。(2)集成的。存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。(3)相对稳定的。针对数据仓库,通常有大量的查询操作及少量
2、定期的加载(或刷新)操作。(4)反映历史变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。为什么要建立数据仓库?建立数据仓库的目的有3个:一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式
3、进行表现,这是事务数据库不能提供的。数据仓库的组成:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统2 .何谓数据挖掘?它有哪些方面的功能?从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。3 .数据挖掘对聚类的数据要求是什么?(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(
4、5)处理噪声数据的能力(6)对于输入顺序不敏感(7)高维性(8)基于约束的聚类(9)看解释性和可利用性4何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些?粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有:简单堆积结构轮转综合结构简单直接结构连续结构5 .简述数据仓库4种体系结构的异同点以其适用性。(1)两层架构(2)独立型数据集市(3)依赖型数据集市和操作型数据存储(4)逻辑型数据集市和实时数据仓库6 .简述你对数据仓库未来发展趋势的看法。在数据抽取方面,未来的技
5、术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。7 .请列出3种数据仓库产品,并说明其优缺点。(1) IBM提供了基于可视化数据仓库的商业智能(BI)解决方案,包括:VisualWarehouse(VW),Essbase/DB2OLAPServer5.0IBMDB2UDB,其中,VW是一个功能很强的集成环境,既可用于数据仓库
6、建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2OLAPServer支持维”的定义和数据装载。(2) Oracle数据仓库解决方案主要包括OracleExpress和OracleDiscoverer两个部分。OracleExpress由四个工具组成:OracleExpressServer是一个MOLAP侈维OLAP服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库(3) Microsoft将OLAP功能集成到SQLServer数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分BI平台是BI解决方案的基础,
7、包括ETL平台SQLServer2005IntegrationService(SSIS)数据仓库引擎SQLServer2005RDBMS以及多维分析和数据挖掘引擎SQLServer2005AnalysisService、报表管理弓I擎SQLServer2005ReportingService8 .什么是数据仓库的3层数据结构?数据是从企业内外部的各业务处理系统(操彳型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据
8、层,如形成满足各类分析需求的数据集市。9 .什么是数据仓库的数据ETLM程?数据的ETL过程就是负责将操作型数据转换成调和数据的过程。数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持EDW的当前有效性和扩展性。整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。10 .什么是星型模式?它的特征是什么?在星模式中,事实表居中,多个维表呈辐射状分布
9、于其四周,并与事实表连接。位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。11 .为什么时间总是数据仓库或数据集市的维?因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。12 .什么是用户信息需求表(信息包图法)?它为什么适用于数据仓库的概念模型的设计?信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;
10、而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库。总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。13 .简述数据仓库系统设计过程?收集、分析和确认业务分析需求
11、,分析和理解主题和元数据、事实及其量度、粒度和维度的选择与设计、数据仓库的物理存储方式的设计等。14 .一个数据仓库系统的建立通畅需要经过哪些步骤?(1)收集和分析业务需求;(2)建立数据模型和数据仓库的物理设计;(3)定义数据源;(4)选择数据仓库技术和平台;(5)从操作型数据库中抽取、清洗及转换数据到数据仓库;(6)选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件;(7)更新数据仓库。15 .什么是关联规则?关联规则的应用有哪些?关联规则挖掘是用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则(AssociationRule)关联规则
12、的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。16 .关联规则的分类有哪些?关联规则挖掘的步骤包括什么?关联规则的分类:(1)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。关联规则挖掘的步骤:(1)找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集;(2)利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度进行取舍,产生强关联规则。17 .什么是分类?分类的应用领域有哪些?分类是指把数据样本映射到一个事先定义的类中的
13、学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;18 .什么是聚类分析?聚类分析的应用领域有哪些?聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,不同类别的数据样本之间具有较低的相似度。聚类分析在科
14、学数据分析、商业、生物学、医疗诊断、文本挖掘、Web数据挖掘等域都有广泛应用。在商业领域,聚类可以帮助市场分析人员对客户的基本数据进行分析,发现购买模式不同的客户群,从而协助市场调整销售计划;在文本才掘和Web数据挖掘领域中,聚类可以将网站数据按照读者的兴趣度进行划分,有助于网站内容的改进。19 .贝叶斯网络的三个主要议题是什么?贝叶斯网络的3个主要议题分别是:预测、诊断和历史数据训练。20 .怎样从历史数据中训练出结点之间的条件概率或联合条件概率?要训练条件概率P(B|A),可以在历史数据中统计A发生的次数T(A),然后统计在A发生的数据中B发生的次数T(A,B),条件概率P(B|A)=T(
15、B)/T(A)。要训练联合条件概率P(C|A,B),可以在历史数据中统计A、B共同发生的次数T(A,B),然后在A、B共同发生的数据中统计C发生的次数T(A,B,C),联合条件概率P(C|A,B)=T(A,B,C)/T(A,B以上白符号A、B、C可以表示某个事件,也可以表示该事件的相反事件。21 .如果叶贝斯网络的各个结点都没有任何证据,从历史数据中如何用两种不同的方法得到各个结点的发生概率?可以用两种方式从历史数据中得到各个节点的发生概率:(1)用各节点的发生次数除以总的数据条数,就是各个节点的发生概率。(2)首先,用第一种方法计算原因节点的发生概率,然后计算原因节点到中间节点或结果节点的条
16、件概率,最后根据原因节点的概率和这些条件概率计算结果节点的概率。22 .简述数据仓库与数据挖掘的关系?数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。23 .比较统计学与数据挖掘的异同?统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。24 .比较OLAP的
17、数据模型MOLAP与ROLAPMOLAP是事先生成多维立方体,供以后查询分析用,而ROLAP是通过动态的生成Sql,去做查询关系型数据库,如果没有做性能优化,数据量很大的时候,性能问题就会显得比较突出了OROLAPMOLAP沿用现有的关系数据库的技术专为OLAP所设计响应速度比MOLAPg;现有关系型数据库已经对OLAP了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAPT展(cube,rollup)等,性能有所提高性能好、响应速度快数据装载速度快数据装载速度慢存储空间耗费小,维数没有限制需要进行预计算,可能导致数据爆炸,维数有限;无法支持维的动态变
18、化借用RDBM游储数据,没有文件大小限制受操作系统平台中文件大小的限制,难以达到TB级(只能1020G)可以通过SQL实现详细数据与概要数据的存储缺乏数据模型和数据访问的标准-不支持有美预计算的读写操作-SQL无法完成部分计算?无法完成多行的计算?无法完成维之间的计算-支持高性能的决策支持计算?复杂的跨维计算?多用户的读写操作?行级的计算维护困难管理简便25 .比较数据挖掘与OLAP的差异?OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。26 .什么是关于数据仓库映射
19、的元数据?数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:(1)关于数据源的元数据(2)关于抽取和转换的元数据(3)关于最终用户的元数据27 .简述联机分析处理的四个特征?(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。28 .简述数据仓库设计的三级模型的基本内容。(1)概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。(2)逻辑模型设计的
20、主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。(3)物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。29 .举例说明聚类分析的典型应用。商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。生物学:推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。WEBC档分类其他:如地球观测数据库中相似地区的确定;各类保险投保人的分组;一个城市中不同类型、价值、地理位置房子的分组等。聚类分析还可作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其
21、他的数据挖掘。聚类分析是一种数据简化技术,它把基于相似数据特征的变量或个案组合在一起。30 .简述处理空缺值的方法。忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;31 .列举操作型数据与分析型数据的主要区别。操作型数据分析型数据当前的、细节的历史的、综合的向向应用、事务驱动向向分析、分析驱动频繁增、删、改几乎不更新,定期追加操作需求事先知道分析需求事先不知道生命周期符合SDLC完全不同的生命周期对性能要求局对性能要求宽松一次操作数据量小一次操作数据量大支持日常事务操作支持管理决策需求32 .何谓OLT济口OLAR它们的主要异同有哪些?OLTP即联机事务处
22、理,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。OLAP即联机分析处理,是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。OLT可口OLAP的主要区别如下表:OITPOLAP数据库数据数据库或数据仓库数据细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求局响应时间合理用户数量大用户数据相对较少向向操作人员,支持日常操作面向决策人员,支持管理需要向向应用,事务驱动向向分析,分析驱动33 .在数据挖掘之前为什么要对原始数据进行预
23、处理?原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。34 .简述数据预处理方法和内容。 数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。 数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。 数据变换:将原始数据转换成为
24、适合数据挖掘的形式。包括对数据的汇总、聚集概化、规范化,还可能需要进行属性的重构。 数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。35 .简述数据清理的基本内容。 尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码; 去除无用的惟一属性或键值(如自动增长的id); 去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的)去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果) 合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于
25、数据挖掘即可,如价格、数据、金额) 去掉数据中的噪音、填充空值、丢失值和处理不一致数据。36 .常见的分箱方法有哪些?数据平滑处理的方法有哪些?分箱的方法主要有:统一权重法(又称等深分箱法)统一区间法(又称等宽分箱法)最小嫡法自定义区间法数据平滑的方法主要有:平均值法、边界值法和中值法。37 .何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0.01.0),称为规范化。规范化的常用方法有:(1) 最大最小规范化:(2) 零均值规范化:max-min,x=(x0-min0)min(max0-min0)小数定标规范化:x=X0/1
26、0"X0-XX二-X38 .数据归约的方法有哪些?为什么要进行维归约?数据立方体聚集维归约数据压缩数值压缩离散化和概念分层维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。39 .何谓聚类?它与分类有什么异同?聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。40 .举例
27、说明聚类分析的典型应用。商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。生物学:推导植物或动物的分类,对基于进行分类,获得对种群中固有结构的认识。WEB文档分类41 .聚类分析中常见的数据类型有哪些?何谓相异度矩阵?它有什么特点?常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、序数型以及混合类型等。相异度矩阵是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。其特点是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0。如下所示:0d(2,1)0d(3,1)d(3,2)0aia+d(n,1)d(n,2)0一42
28、 .分类知识的发现方法主要有哪些?分类过程通常包括哪两个步骤?分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。43 .什么是决策树?如何用决策树进行分类?决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树用于对新
29、样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。44 .简述ID3算法的基本思想及其主算法的及其建树算法的基本步骤。首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树,可以用它来对新的样例进行分类。主算法包括如下几步:从训练集中随机选择一个既含正例又含反例的子集(称为窗口);用“建树算法”对当前窗口形成一棵决策树;对训练集(窗口除外)中例子用所
30、得决策树进行类别判定,找出错判的例子;若存在错判的例子,把它们插入窗口,重复步骤,否则结束。建树算法的具体步骤如下:对当前例子集合,计算各特征的互信息;选择互信息最大的特征Ak;把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集;对既含正例又含反例的子集,递归调用建树算法;若子集仅含正例或反例,对应分枝标上P或N,返回调用处。ID3算法主要存在的缺点?P116(l)ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息摺益作为评价标淮。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息7(2)ID3算法只能对描述属性为离散型属性的数据集构
31、造决策树。45 .设某事务项集构成如下表,填空完成其中支持度和置信度的计算。事务ID项集L2支持度规则置信度T11A,Dra,b33.3AfB50T2D,EA,C33.3gA60T3A,C,EA,D44.4AfD66.7T41A,B,D,Erb,d33.3BfDI75T5A,B,CC,D33.3C-D60T6一A,B,Drd,e33.3DfE43T7A,C,DT8C,D,ET9B,C,D46 .从信息处理角度看,神经元具有哪些基本特征?写出描述神经元状态的M-P方程并说明其含义。基本特征:多输入、单输出;突触兼有兴奋和抑制两种性能;可时间加权和空间加权;可产生脉冲;脉冲可进行传递;非线性,有阈
32、值。M-P方程:Si=f(£WijSj-9j),Wij是神经元之间的连接强度,3是阈值,f(x)是阶梯函数。47 .遗传算法与传统寻优算法相比有什么特点?遗传算法为群体搜索,有利于寻找到全局最优解;?遗传算法采用高效有方向的随机搜索,搜索效率高;?遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;?遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好;?遗传算法具有隐含并行性,具有更高的运行效率。48 .何谓文本挖掘?它与信息检索有什么关系(异同)。文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它与信息检索之间有以下
33、几方面的区别:方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。评价方法不同:信息检索用查准率和查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的
34、场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。49 .雪花模型雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。50 .企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数
35、据规约。51 .请谈一下你对元数据管理在数据仓库中的运用的理解。元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。52 .简述Apriori算法的思想,谈谈该算法的应用领域并举例。思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于
36、用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。在商务、金融、保险等领域皆有应用53 .什么是ETI?ETL用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。3.简述轮转综含班据仔储的过程丫筒单逐日推积数据的一种变种.教据用与前面相
37、图的处理方法从操作型开常输入到数据徐军环学巾.结构形式中.4.简述数据库数据与数据仓库数据的异同?原始效据/操作型数据 面向住用 详细的 在存取瞬间后准确的 为日常工作服务 可更新 处理需求/先可知 生命周期符合SDLC 对性能要求高 一个时刻存取一个单元 事务处理驱动 更新控制主要涉及所有权 高可用性 整体管理 非冗余检 静态结构;可变的内容 一次处理数据量小 支持日常操作 访问的高可能性.H提在轮蒋综合文件中的数据才掂粉入翎不同笆导出数据e的数据面向主题 综合的威提炼的 代派过去的数据 为管理者服务 不更新 启发蛇行 处理需求率先不知道 完全不同的生命周期 对性能要求宽松 一个日情存取5集
38、 分析处理疤动 无更新控制同题 松弛的可用性 以子集管理 时带有冗余 结构灵活 一次处理数据量大 支持管理求 访问的低可冒犯盛固度可能性3、数据仓库在存储和管理方面的特点与关键技术?P7数据仓库面对的是大量数据的存储与管理并行处理针对决策支持查询的优化支持多维分析的查询模式4、常见的聚类算法可以分为几类?P132基于划分的聚类算法,基于层次的聚类算法,基于密度的聚交算法,基于网格的聚类算法,基于模型的聚类算法等。5、一个典型的数据仓库系统的组成?P12数据源、数据存储与管理、OLAP服务器、前端工具与应用6、数据仓库常见的存储优化方法?P71表的归并与簇文件;反向规范化,引入冗余;表的物理分割。7、数据仓库发展演变的5个阶段?P20以报表为主以分析为主以预测模型为主以运行向导为主以实时数据仓库、自动决策应用为主15、什么是技术元数据,主要包含的内容?P29技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护DW,包含: DH结构的描述,如D9的模式、视图、维、层次结构和导出数据的定义,数据集市的位置和内容等 业务系统、D用和数据集市的体系结构和模式 汇总算法。包括度量和维定义算法,数据粒度、主题领域、聚合、汇息前预定义的查询和报告。 由操作型业务环境到数据仓库业务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030儿童认知增强药物的伦理边界与商业化限制因素分析
- 2025-2030儿童脑脊液生物标志物在智力障碍分型诊断中的应用前景
- 2025-2030儿童注意力缺陷多动障碍的非药物干预方法综述
- 2025-2030儿童时间知觉发展的神经生物学基础探讨
- 2025-2030儿童早期学习能力培养市场供需矛盾与解决方案
- 2025-2030儿童户外活动时长与注意力发展的医学对照研究报告
- 2025-2030儿童心理咨询服务在认知发展领域的专业化建设与需求预测
- 2025-2030儿童创造力培养的神经生物学基础与教育实践
- 2025-2030健身镜等虚拟训练设备商业模式创新研究
- 2025-2030健身培训课程配套器材开发与内容营销策略报告
- 2025-2026学年河南省天一大联考高一年级秋季检测数学试卷(含答案)
- 关于下发安全生产管理制度的通知
- 心源性休克病人的护理
- 多肉教学课件
- 英语考级-a级词汇完整版
- 投资最重要的事
- 离婚协议书下载电子版完整离婚协议书下载
- GB/T 37864-2019生物样本库质量和能力通用要求
- GB 19761-2020通风机能效限定值及能效等级
- 蚁群算法最全集课件
- 初中数学北师大九年级上册图形的相似-相似三角形的性质 市一等奖PPT
评论
0/150
提交评论