版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、选择题(本题共5道小题,每小题2分,共10分)
1.数据仓库是随着时间变更的,下面的描述不正确的是(C)。
A.数据仓库随时间的变更不断增加新的数据内容
B.捕获到的新数据会覆盖原来的快照
C.数据仓库随事务变更不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变更不断
地进行重新综合
2.有关数据仓库的开发特点,不正确的描述是(B)o
A.数据仓库运用的需求在开发初期就要明确
B.数据仓库开发要从数据动身
C.数据仓库的开发是一个不断循环的过程,是启发式的开发
D.在数据仓库环境中,并不存在操作型环境中所固定的和较准确的处理
流,数据仓库中数据分析和处理更敏捷,且没有固定的模式
3.在有关数据仓库测试,下列说法不正确的是(D)o
A.在完成数据仓库的实施过程中,须要对数据仓库进行各种测试。测试
工作中要包括单元测试和系统测试。
B.当数据仓库的每个单独组件完成后,就须要对他们进行单元测试。
C.系统的集成测试须要对数据仓库的全部组件进行大量的功能测试和回
来测试。
D.在测试之前没必要制定具体的测试安排。
4.关于基本数据的元数据是指(D)o
A.基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的
信息
B.基本元数据包括与企业相关的管理方面的数据和信息
C.基本元数据包括口志文件和简历执行处理的时序调度信息
D.基本元数据包括关于装载和更新处理,分析处理以与管理方面的信息
6.下面关于数据粒度的描述不正确的是(C)o
A.粒度是指数据仓库小数据单元的具体程度和级别
B.数据越具体,粒度就越小,级别也就越高
C.数据综合度越高,粒度也就越大,级别也就越高
D.粒度的具体划分将干脆影响数据仓库中的数据量以与查询质量
6.关于OLAP的特性,下面正确的是:(D)
⑴快速性(2)可分析性(3)多维性(4)信息性⑸共享性
A.(1)(2)(3)
B.(2)(3)(4)
C.(1)(2)(3)(4)
D.(1)(2)(3)(4)(5)
7.关于OLAP和OLTP的区分描述,不正确的是:(C)
A.OLAP主要是关于如何理解聚集的大量不同的数据,它与OTAP应用
程序不同。
B.与OLAP应用程序不同,OLTP应用程序包含大量相对简洁的事务.
C.OLAP的特点在于事务量大,但事务内容比较简洁且重复率高.
D.OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来
自底层的数据库系统,两者面对的用户是相同的。
8.关于OLAP和OLTP的说法,下列不正确的是:(A)
A.OLAP事务量大,但事务内容比较简洁且重复率高
B.OLAP的最终数据来源与OLTP不一样
C.OLTP面对的是决策人员和高层管理人员
D.OLTP以应用为核心,是应用驱动的
9.OLAP技术的核心是(D)o
A.在线性
B.对用户的快速响应
C.互操作性
D.多维分析
10.某超市探讨销售纪录数据后发觉,买啤酒的人很也许率也会购买尿布,
这种属于数据挖掘的哪类问题?(A)
A.关联规则B.聚类
C.分类D.自然语言处理
11.分析型CRM的(C)功能可以让CRM对所进行的销售活动相
关信息进行存储和管理,将客户所发生的交易与互动事务转化为有意义、
高获利的销售商机。
A.促销管理B.特性化和标准化C.客户分析和建模
D.客户沟通
12.运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤
(A)o
A.确定关键胜利领域、确定关键绩效要素、确定关键绩效指标
B.安排目标、实施目标、评价结果、反馈
C.确定目标、比较目标、收集分析数据、系统学习与改进、评价和提高
D.确定长期整体目标、确定短期目标
13.什么是KDD?(A)
A.学问发觉B.领域学问发觉
C.文档学问发觉D.动态学问发觉
14.呼叫中心是一种基于(D)的一种新的综合信息服务系统。
AIT技术BCTI技术CWEB技术DCRM技术
15.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤
的任务?(C)
A.频繁模式挖掘B.分类和预料C.数据预处理D.数据
流挖掘
16.当不知道数据所带标签时,可以运用哪种技术促使带同类标签的数据
与带其他标签的数据相分别?(B)
A.分类B.聚类C.关联分析D.隐马尔可夫链
17.运用交互式的和可视化的技术,对数据进行探究属于数据挖掘的哪一
类任务?(A)
A.探究性数据分析B.建模描述
C,预料建模D.找寻模式和规则
18.为数据的总体分布建模,把多维空间划分成组等问题属于数据挖掘的
哪一类任务?(B)
A.探究性数据分析B.建模描述
C.预料建模D.找寻模式和规则
19.建立一个模型,通过这个模型依据已知的变量值来预料其他某个变量
值属于数据挖掘的哪一类任务?(C)
A.依据内容检索B.建模描述
C.预料建模D.找寻模式和规则
20.用户有一种感爱好的模式并且希望在数据集中找到相像的模式,属于
数据挖掘哪一类任务?(A)
A.依据内容检索B.建模描述
C.预料建模D.找寻模式和规则
21.下面哪种不属于数据预处理的方法?(D)
A.变量代换B.离散化C.聚集D.估计遗漏值
22.下面哪个不属于数据的属性类型(D)<,
A.标称B.序数C.区间D.相异
23.在上题中,属于定量的属性类型是(C)o
A.标称B.序数C.区间D.相异
24.只有非零值才重要的二元属性被称作(C)。
A.计数属性B,离散属性C.非对称的二元属性D.对称属
性
25.以下哪种方法不属于特征选择的标准方法(D)。
A.嵌入B.过滤C.包装D.抽样
26.下面不属于创建新属性的相关方法的是(C)o
A.特征提取B.特征修改C.映射数据到新的空间D.特征
构造
27.下面哪个属于映射数据到新的空间的方法?(A)
A.傅立叶变换B.特征加权C.渐进抽样D.维归约
28.企业所建立的预料模型的好坏取决于模型在(A)上的表现效果。
A.得分集B.训练集C.测试集D.评价集
29.客户在经济活动中具有多重身份,下面哪一种不是其身份之一
(C)。
A.行为身份B.全部权身份C.学习身份D.决策身份
30.下列四条描述中,正确的一条是(B)0
A.企业实施数据挖掘,必须要有数据仓库。
B.企业要实施数据挖掘最好的方式是请编外专家。
C.企业购买现成数据挖掘模型的一个先决条件是:该企业的产品、客户、
市场定位和所买来的现成模型设计之初的假设相吻合。
D.在建模的时侯,增益最高的模型就是最好的模型。
31.数据挖掘算法以(D)形式来组织数据,
A.行B.列C.记录D.表格
32.企业要建立预料模型,需准备建模数据集,以下四条描述建模数据集
正确的是(B)0
A.数据越多越好。
B.尽可能多的适合的数据。
C.得分集数据是建模集数据的一部分。
D.以上三条都正确。
33.K—均值类别侦测要求输入的数据类型必需是(B)。
A.整型B,数值型C.字符型D.逻辑型
34.在决策树和累计增益图的关系转化过程图中,决策树上某一页节点的
增益与累计增益图上的(D)相对应。
A.线段长度B,线段斜率C.相对应的线段长度D.相对
应的线段斜率
35.企业为提升每个客户的价值,应实现(C)最优化。
A.促销活动B.预算最优化C.客户最优化D.三者都
不是
36.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C)数据
挖掘方法。
A.分类B.预料C.组合或关联法则D.聚类
37.企业胜利实施数据挖掘,须要以下(B)学问或技术。
A.预先的规划B.对商业文体的理解C.综合商业学问和技能
D.都须要
38.下列哪个不是特地用于可视化时间空间数据的技术(B)o
A.等高线图B.饼图C.曲面图D.矢量场图
39.在抽样方法中,当合适的样本容量很难确定时,可以运用的抽样方法
是(D)。
A.有放回的简洁随机抽样B.无放回的简洁随机抽样C.分层抽
样D.渐进抽样
40.设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。
A.4B.5C.6D.7
41.概念分层图是(B)图。
A.无向无环B.有向无环C.有向有环D.无向有环
42.以下哪些算法是分类算法(B)o
A.DBSCANB.C4.5C.K-MeanD.EM
43.以下哪些分类方法可以较好地避开样本的不平衡问题(A)o
A.KNNB.SVMC.BayesD.神经网络
44.以下关于人工神经网络(ANN)的描述错误的有(A)o
A.神经网络对训练数据中的噪声特别鲁棒
B.可以处理冗余特征
C.训练ANN是一个很耗时的过程
D.至少含有一个隐藏层的多层神经网络
45.通过聚集多个分类器的预料来提高分类精确率的技术称为(A)。
A.组合(ensemble)B.聚集(aggregate)C.合并(combination)
D.投票(voting)
46.简洁地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一
个子集中,这种聚类类型称作(B)。
A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚
类
47.在基本K均值算法里,当邻近度函数采纳(A)的时候,合适的
质心是簇中各点的中位数。
A.曼哈顿距离B.平方欧几里德距离C.余弦距离
D.Bregman散度
48.(C)是一个观测值,它与其他观测值的差别如此之大,以至于怀
疑它是由不同的机制产生的。
A.边界点B.质心C.离群点D.核心点
48.检测一元正态分布中的离群点,属于异样检测中的基于(A)的
离群点检测。
A.统计方法B.邻近度C.密度D.聚类技术
49.DBSCAN在最坏状况下的时间困难度是(B)。
A.O(m)B.O(m2)C.O(logm)D.O(m*logm)
50.关于K均值和DBSCAN的比较,以下说法不正确的是(A)。
A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类全部对象。
B.K均值运用簇的基于原型的概念,而DBSCAN运用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同
大小和不同形态的簇。
D.K均值可以发觉不是明显分别的簇,即便簇有重叠也可以发觉,但是
DBSCAN会合并有重叠的簇。
51.运用交互式的和可视化的技术,对数据进行探究属于数据挖掘的哪一
类任务?(A)
A.探究性数据分析B.建模描述
C.预料建模D.找寻模式和规则
52.下面哪种不属于数据预处理的方法?(D)
A变量代换B离散化C聚集D估计遗漏值
二、推断题(本题共1。道小题,每小题1分,共1。分)
(T)1.商务智能指收集、转换、分析和发布数据的过程,目的是为了
更好的决策。
(F)2.数据分析是整合企业原始数据的第一步,包括数据抽取、转换
和装载三个过程。
(T)3.维是人们视察数据的特定角度,是考虑问题时的一类属性。
(F)4.独立的数据集市架构的优点是企业内数据一样,不会产生信息
孤岛。
(T)5.星型模型的核心是事实表,事实表把各种不同的维表连接起来。
(F)6.企业风险分析是通过对企业的经营成本进行综合评价,拟定一
个企业成本的临界值。
(T)7.衡量客户忠诚的唯一尺度就是客户是否重复或长久地购买企业
的产品或者服务。
(T)8.在BI中,DW是前提和基础,负责统一数据规则的处理和存
储。
(F)9.客户服务管理是对客户看法或投诉以与售前、售中、售后服务
进行管理。
(F)10.平衡计分卡共包括三个层面,分别是财务层面、客户层面、
内部业务流程层面。
(T)11.数据挖掘的主要任务是从数据中发觉潜在的规则,从而能更
好的完成描述数据、预料数据等任务。
(F)12.在聚类分析当中,簇内的相像性越大,簇间的差别越大,聚
类的效果就越差。
(F)13.OLAP是用来帮助企业对响应事务或事务的日常商务活动进
行处理。
(T)14.数据仓库是面对主题的、集成的、稳定的、随时间变更的数
据集合,用以支持管理决策的过程。
(T)15.数据预处理是整合企业原始数据的第一步,包括数据抽取、
转换和装载三个过程。
(F)16.C4.5决策树算法是国际上最早、最有影响力的决策树算法,
(T)17.平衡计分卡是从财务、客户、内部运营、学习与成长四个角
度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理
体系。
(F)18.客户服务管理是对客户看法或投诉以与售前、售中、售后服
务进行管理。
(F)19.企业绩效管理的目的在于进一步加强成本的事前限制,同时
有助于通过盈亏分析,协助产品科学的报价。
20.数据仓库的数据量越大,其应用价值也越大。F
21.啤酒与尿布的故事是聚类分析的典型实例。F
22.等深分箱法使每个箱子的记录个数相同。T
23.数据仓库“粒度”越细,记录数越少。F
24.数据立方体由3维构成,Z轴表示事实数据。F
25.决策树方法通常用于关联规则挖掘。F
26.ID3算法是决策树方法的早期代表。T
27.C4.5是一种典型的关联规则挖掘算法。F
28.回来分析通常用于挖掘关联规则。F
29.人工神经网络特殊适合解决多参数大困难度问题。T
30.概念关系分析是文本挖掘所独有的。F
31.可信度是对关联规则的精确度的衡量。F
32.孤立点在数据挖掘时总是被视为异样、无用数据而丢弃。T
33.SQLServer2005不供应关联规则挖掘算法。F
34.决策树方法特殊适合于处理数值型数据。F
35.数据仓库的数据为历史数据,从来不须要更新。T
36.数据立方体是广义学问发觉的方法和技术之一。F
37.数据立方体的其中一维用于记录事实数据。T
38.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进
行模式的发掘。(T)
39.图挖掘技术在社会网络分析中扮演了重要的角色。(T)
40.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描
述;模型则对变量变更空间的一个有限区域做出描述。(F)
41.找寻模式和规则主要是对数据进行干扰,使其符合某种规则以与模
式。(F)
42.离群点可以是合法的数据对象或者值。(T)
43.离散属性总是具有有限个值。(F)
44.噪声和伪像是数据错误这一相同表述的两种叫法。
(F)
45.用于分类的离散化方法之间的根本区分在于是否运用类信息。
(T)
46.特征提取技术并不依靠于特定的领域。(F)
47.可信度是对关联规则的精确度的衡量。F
48.定量属性可以是整数值或者是连续值。(T)
49.可视化技术时于分析的数据类型通常不是专用性的。
(T)
50.DSS主要是基于数据仓库、联机数据分析和数据挖掘技术的应用。
(F)
51.OLAP技术侧重于把数据库中的数据进行分析、转换成协助决策信息,
是继数据库技术发展之后迅猛发展起来的一种新技术。(T)
52.商业智能系统与一般交易系统之间在系统设计上的主要区分在于:后
者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易变
更;而前者则是一个学习型系统,能自动适应商务不断变更的要求。
(T)
53.数据仓库中间层OLAP服务器只能采纳关系型OLAP。
(F)
54.数据仓库系统的组成部分包括数据仓库、仓库管理、数据抽取、分析
工具等四个部分。(F)
55.Web数据挖掘是通过数据库仲的一些属性来预料另一个属性,它在验
证用户提出的假设过程中提取信息。(F)
56.关联规则挖掘过程是发觉满意最小支持度的全部项集代表的规则。
F)
57.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念
的模型(或函数),以便能够运用模型预料类标记未知的对象类。(F)
58.分类和回来都可用于预料,分类的输出是离散的类别值,而回来的输
出是连续数值。(T)
59.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移
去或者削减这些样本对分类结果没有影响。(T)
60.Bayes法是一种在已知后验概率与类条件概率的状况下的模式分类方
法,待分样本的分类结果取决于各类域中样本的全体。(F)
三、名词说明(本题共4道小题,每小题5分,共20分)
1.商务智能
商务智能是融合了先进信息技术与创新管理理念的结合体,集成企业内外
数据,进行加工并从中提取能够创建商业价值的学问,面对企业战略并服
务于管理层、业务层,指导企业经营决策,提升企业竞争力。
2.数据仓库
数据仓库是面对主题的、集成的、稳定的、随时间变更的数据集合,用以
支持管理决策的过程。
3.数据集成
数据集成是在逻辑上或物理上把不相同来源、格式、特点的数据有机地整
合,从而为企业供应全面的数据共享。
4.OLAP(联机分析处理)
OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据
中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息
进行快速、一样、交互地存取,从而获得对数据的更深化了解的一类软件
技术。
5.数据挖掘
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取
正确的、有用的、未知的、综合的以与人们感爱好的学问并用于决策支持
的过程。
6.孤立点:指数据库中包含的一些与数据的一般行为或模型不一样的异样
数据。
7.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定
的区域(如。―1)以提高数据挖掘效率的方法。规范化的常用方法有:
最大一最小规范化、零一均值规范化、小数定标规范化。
8.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过
程,使得在同一个簇中的对象之间具有较高的相像度,而不同簇中的对象
差别较大。
9.ROLAP:是基于关系数据库存储方式的,在这种结构中,多维数据被
映像成二维关系表,通常采纳星型或雪花型架构,由一个事实表和多个维
度表构成。
10.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的须要,
并且能够得到和原始数据相同的分析结果。
11.预料型学问:是依据时间序列型数据,由历史的和当前的数据去推想
将来的数据,也可以认为是以时间为关键属性的关联学问。
12.决策树:是用样本的属性作为结点,用属性的取值作为分支的树结构。
它是分类规则挖掘的典型方法,可用于对新样本进行分类。
13.遗传算法:是一种优化搜寻算法,它首先产生一个初始可行解群体,
然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到
下一代群体,并最终达到全局最优。
14.学问管理:学问管理就是对一个企业集体的学问与技能的捕获,是为
增加组织的绩效而创建、获得和运用学问的过程(学问的创建、储存、共
享、应用和更新)。
15.Web挖掘:Web挖掘是从大量Web文档的集合C中发觉隐含的、有
用的模式P的过程:CfPO
四、简答题(本题共5道小题,每小题6分,共30分)
1.实现商务智能的四个阶段是什么?
答:实现商务智能的四个阶段是数据预处理、建立数据仓库、数据分析与
数据呈现。(2分)
数据预处理是整合企业原始数据的笫一步,包括数据抽取、转换和装载三
个过程;(1分)
数据仓库则是处理海量数据的基础;(1分)
数据分析是体现系统智能的关键,一般采纳OLAP和DM两大技术,(1
分)
数据呈现则主要保障系统分析结果的可视化。(1分)
2.数据库系统的局限性
①数据库适于存储高度结构化的日常事务细微环节数据。决策分析型数据
是多维性,分析内容困难。
②在决策分析环境中,假如事务处理的细微环节数据量太大一方面会严峻
影响分析效率,另一方面这些细微环节数据会分散决策者的留意力。
③当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处
理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能须要
连续运行几个小时,从而消耗大量的系统资源。
④决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企
业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时
假如干脆对这些数据操作会造成分析的混乱。对于外部数据中的一些非结
构化数据,数据库系统常常是无能为力。
3.数据仓库与数据集市的区分是什么?
数据仓库收集了关于整个组织的主题信息,因此是企业范围的。对于数据
仓库,通常运用星座模式,因为它能对多个相关的主题建模;(3分)
数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范
围的。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题
建模。(3分)
4.OLAP的特点
①快速性Fast:用户对OLAP的快速反应实力有很高的要求。
②可分析性Analysis:OLAP系统应能处理与应用有关的任何逻辑分析和
统计分析。
③多维性Multidimensional:多维性是OLAP的关键属性。系统必需供
应对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
④信息性Information:OLAP系统应能与时获得信息,并且管理大容量
信息。
5.简述OLAP的基本操作有哪些?
答:OLAP的基本操作有:
1.切片和切块(SliceandDice):在多维数据结构中,按二维进行切片,按
三维进行切块,可得到所须要的数据。(2分)
2.钻取(Drill):钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/
上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。(2分)
3.旋转(Rotate)/旋转(Pivot):通过旋转可以得到不同视角的数据。(2分)
6.简述OLAP与数据挖掘的区分和联系。
答:OLAP侧重于与用户的交互、快速的响应速度与供应数据的多维视图,
而数据挖掘则留意自动发觉隐藏在数据中的模式和有用信息,尽管允许用
户指导这一过程。(3分)
OLAP的分析结果可以给数据挖掘供应分析信息作为挖掘的依据,数据挖
掘可以拓展OLAP分析的深度,可以发觉OLAP所不能发觉的更为困难、
细致的信息。(3分)
7•何谓数据挖掘?它有哪些方面的功能?
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其
中的、人们事先不知道的、但又是潜在有用的信息和学问的过程称为数据
挖掘。相关的名称有学问发觉、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预料、聚类分析、趋
势分析、孤立点分析以与偏差分析等。(3分)
8.在数据挖掘之前为什么要对原始数据进行预处理?
原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同
的,这将导致原始数据特别的杂乱、不行用,即使在同一个数据库中,也
可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘
的要求,提高效率和得到清楚的结果,必需进行数据的预处理。
为数据挖掘算法供应完整、干净、精确、有针对性的数据,削减算法的计
算量,提高挖掘效率和精确程度。
9.简述数据预处理方法和内容。
数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
数据集成:将多个数据源中的数据结合起来存放在一个一样的数据存储
中。须要留意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。
数据变换:将原始数据转换成为适合数据挖掘的形式°包括对数据的汇总、
聚集、概化、规范化,还可能须要进行属性的重构。
数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的须要,并
且能够得到和原始数据相同的分析结果。
10.数据挖掘的六种常用算法和技术分别是什么?
①聚类分析;②分类分析;③关联分析;④序列模式挖掘;⑤回来分析;
⑥时间序列分析。
11.数据挖掘中的数据须要采纳哪些格式?
数据挖掘中的数据须要采纳以下格式:
①全部数据应当在一个表格/数据库视图中
②每一行对应于与业务问题相关的一个案例
③忽视具有单一值/几乎单一值的列
④忽视全部行的值都不同的列
⑤删除全部同义列
⑥对于预料模型,目标列必需是可识别的
12.简述K-近邻分类法的基本思想。
答:基本思想:K一近邻分类是基于类比学习的,每个样本代表d维空间
的一个点。(3分)
当给定一个未知样本时,K-近邻分类法将搜寻样本空间,找出最接近未知
样本的K个训练样本,这K个训练样本是未知样本的K个“近邻”。(3
分)
13.关联规则挖掘能发觉什么学问?简述其挖掘的基本步骤。
答:关联规则挖掘有助于发觉交易数据库中不同商品之间的联系,找出顾
客购买行为模式。(2分)
关联规则挖掘可以分解为两个步骤:首先找出交易项目中满意最小支持度
(minSupp)的项集(称其为频繁项集);(2分)
然后由频繁项集生成关联规则,对于频繁项集A,若BA,且置信度
confidence(BA-B)不小于最小置信度minConf,则BA-B构成关联
规则。(2分)
14.遗传算法与传统寻优算法相比有什么特点?
遗传算法为群体搜寻,有利于找寻到全局最优解;
遗传算法采纳高效有方向的随机搜寻,搜寻效率高;
遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;
遗传算法运用适应值信息评估个体,不须要导数或其他协助信息,运算速
度快,适应性好;
遗传算法具有隐含并行性,具有更高的运行效率。
15.什么是决策树?如何用决策树进行分类?
决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是
利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根
结点是全部样本中信息量最大的属性。树的中间结点是以该结点为根的子
树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别
值。
决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树
的根结点起先,依据样本属性的取值,渐渐沿着决策树向下,直到树的叶
结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中
特别有效的分类方法。
16.简述K.平均算法的输入、输出与聚类过程(流程)。
输入:簇的数目k和包含n个对象的数据集c
输出:k个簇,使平方误差准则最小。
步骤:
随意选择k个对象作为初始的簇中心;
计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的
簇;
计算各簇中对象的平均值,然后重新选择簇中心(离平均值“最近”的对象
值);
重复第2第3步直到簇中心不再变更为止。
17.简述构造智能CRM系统的完整步骤。
答:构建一个完整的智能CRM系统的几个步骤:
1.整合客户信息资源:对于那些以前没有应用过任何CRM系统的企业
来说,首先须要把孤立的业务系统整合到一个统一的平台之下,解决“信
息孤岛”。而对于己有CRM系统的企业,则须要建立一个企业信息门户,
使客户和企业能在一个统一的界面下进行数据和信息交换,从而保证客户
数据的一样性。(2分)
2.建立客户数据仓库:规划数据仓库,以企业的业务模型为基础,确定须
要建立能够描述主要业务主题的数据模型;设计数据仓库,依据逻辑模型和
性能要求进行物理模型的设计,制定数据存储策略以与各种商业规则等;
(2分)
3.构造数据分析模型:依据企业须要分析的对象和目标,构造有针对性
的分析模型。(1分)
4.建立客户学问管理系统:建立一个动态的客户学问库以与制定客户学
问的分发规则和保存机制。(1分)
18.何谓数据仓库?为什么要建立数据仓库?
数据仓库是一种新的数据处理体系结构,是面对主题的、集成的、不行更
新的(稳定性)、随时间不断变更(不同时间)的数据集合,为企业决策支持系
统供应所需的集成信息。(3分)
建立数据仓库的目的有3个:
一是为了解决企业决策分析中的系统响应问题,数据仓库能供应比传统事
务数据库更快的大规模决策分析的响应速度。
二是解决决策分析对数据的特殊需求问题。决策分析须要全面的、正确的
集成数据,这是传统事务数据库不能干脆供应的。
三是解决决策分析对数据的特殊操作要求。决策分析是面对专业用户而非
一般业务员,须要运用专业的分析工具,对分析结果还要以商业智能的方
式进行表现,这是事务数据库不能供应的。(3分)
20.简述数据仓库设计的三级模型与其基本内容。
概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统
边界和确定主要的主题域。(2分)
逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数
据分割策略、定义关系模式、定义记录系统。(2分)
物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位
置、确定存储安排以与确定索引策略等。在物理数据模型设计时主要考虑
的因素有:I/O存取时间、空间利用率和维护代价等。
提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引
入冗余、生成导出数据、建立广义索引等。(2分)
21.何谓聚类?它与分类有什么异同?
聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使
得在同一个簇中的对象之间具有较高的相像度,而不同簇中的对象差别较
大。(3分)
聚类与分类不同,聚类耍划分的类是未知的,分类则可按已知规则进行;
聚类是一种无指导学习,它不依靠预先定义的类和带类标号的训练实例,
属于视察式学习,分类则属于有指导的学习,是示例式学习。(3分)
22.何谓文本挖掘?它与信息检索有什么关系(异同)。
文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操
作的学问的过程。它与信息检索之间有以下几方面的区分:(1分)
1方法论不同:信息检索是目标驱动的,用户须要明确提出查询要求;而
文本挖掘结果独立于用户的信息需求,是用户无法预知的。
2着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理
解文本的内容和结构。
3目的不同:信息检索的目的在于帮助用户发觉资源,即从大量的文本中
找到满意其查询恳求的文本子集;而文本挖掘是为了揭示文本中隐含的学
问。
4评价方法不同:信息检索用查准率和查全率来评价其性能。而文本挖掘
采纳收益、置信度、简洁性等来衡量所发觉学问的有效性、可用性和可理
解性。
5运用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检
索技术不能解决的很多场合。一方面,这两种技术各有所长,有各自适用
的场合;另一方面,可以利用文本挖掘的探讨成果来提高信息检索的精度
和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平c(5
分)
23.遗传算法与传统寻优算法相比有什么特点?
遗传算法为群体搜寻,有利于找寻到全局最优解;
遗传算法采纳高效有方向的随机搜寻,搜寻效率高;
遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;
遗传算法运用适应值信息评估个体,不须要导数或其他协助信息,运算速
度快,适应性好;
遗传算法具有隐含并行性,具有更高的运行效率。(6分)
24.商务智能应用趋势
①更成熟的数据分析和呈现技术;②从战略型的BI到操作型或者实时型
的BI;③关注绩效、关注价值、关注数据质量。
25.商务智能发展的特点
①实时;②标准化;③嵌入式商务智能;④移动商务智能;⑤大众化趋势;
⑥供应商的动向;⑦易用性。
26.商务智能与学问管理的区分:
①内涵不同;②学问的管理过程和技术不同;③关注的只是类型不同;④
面对的用户不同。
27.Web日志挖掘的应用
①获得用户访问模式信息,理解用户的意图和行为
②分析用户的存取模式,为用户供应特性化的服务
③确定网站的潜在客户群,合理制订网络广告策略等
④改进Web站点的结构,使网站点随时间、用户需求的变更而不断调
整
⑤对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、
访问量的时间分布等
⑥利用关联规则确定相关Web查询(查询修正)
六、论述题(共10分)
1、试举例一个商务智能的应用案例,并论述商务智能能为企业做什么?
2、下列每项活动是否是数据挖掘任务?简洁陈述你的理由。
依据性别划分公司的顾客。
依据可赢利性划分公司的顾客。
预料投一对骰子的结果。
运用历史记录预料某公司将来的股票价格。
⑶依据性别划分公司的顾客。
不是。数据挖掘是在大型数据存储库中,自动地发觉有用信息的过程。数
据挖掘技术服务用来探查大型数据库,发觉从前未知的有用模式。还可以
预料将来观测结果,例如,预料一位新的顾客是否会在一家百货公司消费
1。。美元以上。但并非全部的信息发觉任务都被视为数据挖掘,数据挖掘
与信息检索不同,运用数据库管理系统查找个别的记录,或通过因特网的
搜寻引擎查找特定的Web页面,则是信息检索领域的任务,它们主要依
靠传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地
组织和检索信息。数据挖掘的任务可分为两大类:预料任务和描述任务。
主要任务有四种:聚类分析,关联分析,异样检测,和预料建模。其目的
是依据其它属性的值,预料特定属性的值,或导出概括数据中潜在联系的
模式,主要是预料某些信息。而依据性别划分公司的顾客,只是一种简洁
的数据库查询操作,并没有涉与预料分析。
依据可赢利性划分公司的顾客。
不是。依据可赢利性划分公司的顾客是运用阈值进行的一种统计计算。它
仅仅是依据消费结果统计将原有顾客进行划分,只是一种统计的结果,而
没有依据这些结果的特点预料一个新的顾客的赢利性,这种预料才是数据
挖掘。
预料投一对骰子的结果。
不是。因为骰子的六个数值出现的可能性是相同的,这是一种概率计算,
假如结果出现的可能性是不确定的,不相同的,则更像是数据挖掘的任务,
但在很早以前利用数学已经能够很好的解决这个问题了。所以预料投一对
骰子的结果不属于数据挖掘的任务,不带有发觉新信息的预料特点。
运用历史记录预料某公司将来的股票价格。
这是数据挖掘的任务。可以通过对历史记录特点的分析来创建一种模型预
料将来的公司的股票价格,这是数据挖掘任务中预料建模的一个例子,预
料建模涉与以说明变量函数的方式为目标变量建立模型,有两类预料建模
任务:分类,用于预料离散的目标变量;回来,用于预料连续的目标变量
dmj预料某公司将来的股票价格则是回来任务,因为价格具有连续值属
性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年机械制造安全标准化培训
- 2026年兽医英语术语与文献阅读培训
- 胃肠疾病患者出院指导与随访
- 2026年民办院校学生心理健康教育体系
- 2026年校外培训机构突发事件应急预案编制指南
- 2026年自然灾害风险评估与应对协议
- 2026年装修公司新员工量房与谈单技巧培训
- 物流配送信息共享协议2026
- 2026年农村生活垃圾收运体系建设的难点与对策
- 专注力训练课程教材购买协议
- 2026年少先队考核模拟试题及答案详解(全优)
- 中国金谷国际信托有限责任公司招聘笔试备考试题及答案解析
- 湖南 2026 政府采购评审专家续聘考试(3) 真题
- 2026天津富凯建设集团有限公司招聘工作人员招聘4人考试参考题库及答案解析
- 2025年芯片测试岗笔试题目及答案
- 预应力混凝土空心方桩08SG360
- 安宁疗护病区工作制度
- 2026年上海市杨浦区中考数学二模试卷(含解析)
- 雨课堂学堂云在线《人工智能原理》单元测试考核答案
- ktv食品安全管理制度
- 无线电调试工中级考试试卷试题库
评论
0/150
提交评论