数据挖掘考试_第1页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、名词解释:OLAP:OLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。2、OLTP: OLTP:联机事务处理系统,也称为面向交易的处理系统,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。其基本特征是顾客的原始数据可以立即传送到计算机中心进行处理,并在很短的时间内给出结果。3、决策树:决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。这种树结构是一种有向树,它以训练集的一个属

2、性做节点,这个属性所对应的一个值做边。决策树一般都是自上而下的来生成的。4、聚类分析:又称“同质分组”和“无监督分类”,是将一组数7据按簇进行分类,每簇间的数据相似,不同簇间的数据则距离较远。(另) 聚类分析是数据挖掘的一个功能,能够作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析也可以作为其他算法的预处理步骤。5、雪花模型:雪花模型是当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。6、星型模型:星形模式是一种多维的数据关系,它由一个事实

3、表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做2080分析。这样就可以从不同的角度数字来分析业务主题的情况。(另)是最常见的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表

4、。 事实表:包含大批数据和不含冗余的中心表 维表:附属表,每维一个表7、数据挖掘:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。8、数据仓库:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。9、遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。简答题:数据挖掘与传统分析方法的区别数据挖掘与传统的 HYPERLINK /wiki/%E6%9

5、5%B0%E6%8D%AE%E5%88%86%E6%9E%90 o 数据分析 数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.数据挖掘与OLAP的比较 相同之处 OLAP与DM都是数据库(数据仓库)上的分析工具; 不同之处 (1)在实

6、际应用中各有侧重。前者是验证型的,后者是挖掘型的; (2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。 (3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长

7、。数据仓库和数据挖掘的区分大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或 HYPERLINK /wiki/%E6%95%B0%E6%8D%AE%E9%9B%86%E5%B8%82 o 数据集市 数据集市中(见图1)。从数据仓库中直接得到进行数据挖掘的数据有许多好处。就如我们后面会讲到的,数据仓库的 HYPERLINK /wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E7%90%86 o 数据清理 数据清理和数据挖掘的 HYPERLINK /wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E7%90%86 o 数据清理 数据清理差不多,如果数

8、据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要在清理一次了,而且所有的数据不一致的问题都已经被你解决了。数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果你的数据仓库的计算资源已经很紧张,那你最好还是建立一个单独的数据挖掘库。当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作 H

9、YPERLINK /wiki/%E6%95%B0%E6%8D%AE%E9%9B%86%E5%B8%82 o 数据集市 数据集市,然后在他上面进行数据挖掘。OLTP与OLAP的区分(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高; 而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型

10、的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。信息熵的原理在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定性越大,熵也越大。根据熵的特性,我们可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响越大。(1)构造决策树,熵定义为无序性度量。(2)选择一个属性划分数据,使得子女节点上数据的类值(例中“yes”或“no”)大部分都相同(低无序性)。(3)如果一个节点上的数据类值在可能的类值上均匀分布,则称节点的

11、熵(无序性)最大。(4)如果一个节点上的数据的类值对于所有数据都相同,则熵最小。(5)通过分裂,得到尽可能纯的节点。这相当于降低系统的熵。(6)系统越无序、越混乱,熵就越大。元数据元数据的作用:(1)确定数据来源 (2)保证数据仓库内容的质量 (3)属性到属性的映射 (4)属性转换 元数据(metadata):关于数据的数据。 操作型环境向数据仓库环境转换而建立的元数据; 数据仓库中用来与终端用户的多维商业模型/前端工 具之间建立映射,也为DSS元数据。地位:关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置

12、,刻画了数据的抽取和转换规则,存储了与数据仓库主题相关的各种商业信息,而且整个数据仓库的运行都是基于元数据的作用。元数据分类数据源的元数据数据模型的元数据数据仓库映射的元数据数据仓库使用的元数据过度拟合 预剪枝 后剪枝的原理过度拟合:给定一个假设空间H,一个假设hH,如果存在其它的假设h1 H ,使得在训练样例上h的错误率比h1小,但在整个实例发布上h1的错误率比h小,则称假设h过度拟合训练数据另:当数据集比较复杂时,会生成一棵很大的树,此时的决策树更多的是记住训练的事例而不是产生规则,因此比较适用于训练数据集的分类,对新的数据对象的预测不适用。这种情况称为模型的过度拟合(over-fitti

13、ng)。(个人认为这个比较对)解决过度拟合的手段: 1 及早停止树增长;预剪枝(先剪枝) 2 后修剪法。在构造决策树时,不再对不纯的训练子集进一步划分的剪枝方法叫做预剪枝;在树完全生成后进行剪枝的策略叫做后剪枝。预剪枝的原理:在预剪树枝方法中,事先指定决策树生长的最大深度,使决策树不能充分生长,而对树剪枝,例如在决定的节点,熵不再分裂或划分训练样本的子集。一旦停止,节点成为树叶。集样本中最频繁的类或这些样本的概率分布,如果树深度过浅,则会过于限制决策树的生长,使决策树的代表性过于一般,也无法实现对新数据的准确分类或预测。在构造树时,统计意义下的度量值可以用于评估分裂的优劣。如果在一个节点划分样

14、本将导致低于预定义阈值的分裂,则给定子集的进一步划分将停止,否则可以继续分枝。然而,选取一个适当的阈值是困难的。较高的阈值可能导致过分简化的树,而较低的阈值可能使得树的简化太少。后剪枝的原理:后剪枝技术允许决策树充分生长后,再根据一定的规则剪去决策树中的那些不具有代表性的叶节点或分枝。最下面的未被剪枝的节点成为树叶,并用它先前分枝中最频繁的类标记。对于树中每个非树叶节点,通过计算该节点上的子树枝被剪枝可能出现的期望错误率和不对该节点剪枝的期望错误率,如果剪去该节点导致较高的期望错误率,则保留该子数;否则剪去该子树逐渐产生一组被剪枝的树之后,使用一个独立的测试集评估每棵树的准确率,就能得到具有最

15、小期望错误率的决策树。 先剪枝 (Early Stopping Rule)树增长算法在产生完全拟合整个训练数据集的之前就停止决策树的生长为了做到这一点,需要采用更具限制性的结束条件: 当结点的记录数少于一定阈值,则停止生长当不纯性度量的增益低于某个确定的阈值时,则停止生长 (e.g., information gain).缺点:很难为提前终止选取正确的阈值: 阈值太高,导致拟合不足阈值太低,导致不能充分解决过分拟合的问题。后剪枝在该方法中,初始决策树按照最大规模生长,然后进行剪枝的步骤,按照自底向上的方式修剪完全增长的决策树。修剪有两种做法: 用新的叶结点替换子树,该叶结点的类标号由子树下记录

16、中的多数类确定用子树中最常用的分支代替子树关联算法 Apriori算法 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,通过侯选项集找频繁项集。基本思路: Apriori使用一种称作逐层搜索的迭代方法,K-项集用于探索(K+1)-项集。首先,找出频繁1-项集的集合,记为L1; L1用于找频繁2-项集的集合L2 ,而L2用于找L3,如此下去,直到找到频繁K-项集。找每个LK需要一次数据库扫描。其过程包括:连接和剪枝两个方面。思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用

17、户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。 在商务、金融、保险等领域皆有应用。 在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法 9、决策树算法 ID-3算法基本思想:在ID3算法中,决策节点属性的选择运用了信息论中的熵概念作为启发式函数,即选择具有最大信息增益(informationgain)的属性作为当前划分节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量,使得到的决策树冗余最小。ID3算法的基本思想是,以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性,亦即能使熵值变为最小的属性,以构

18、造一颗熵值下降最快的决策树,到叶子节点处的熵值为0。此时,每个叶子节点对应的实例集中的实例属于同一类。ID3 决策树建立算法1 决定分类属性;2 对目前的数据表,建立一个节点N3 如果数据库中的数据都属于同一个类,N就是树叶,在树叶上 标出所属的类4 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少 数服从多数的原则在树叶上标出所属类别5 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作 为节点N的测试属性6 节点属性选定后,对于该属性中的每个值: 从N生成一个分支,并将数据表中与该分支有关的数据收集形 成分支节点的数据表,在表中删除节点属性那一栏 如果分支数据表非空,则运用以上

19、算法从该节点建立子树。10、K-均值的优缺点:优点复杂度: O(nkt), 其中n 是对象的数目, k 是簇的数目, t 是迭代的次数. 通常k, t n.相对可伸缩和高效。通常以局部最优结束。缺点只有在簇的平均值被定义的情况下才能使用,当涉及有分类属性的数据时无法处理需要事先给出k,簇的数目对噪声和离群点数据敏感不适合发现非凸形状的簇,或者大小差别很大的簇K-均值和K-中心点算法的比较当存在噪声或离群点数据时,k-Medoids方法比k-Means方法更健壮,因为中心点不象平均值那么容易被极端数据影响K-Medoids方法执行代价比k-Means高K-Medoids方法不具有良好的可伸缩性二

20、者均要求指定结果簇的数目(另)与K-means算法只有在步骤三计算各个集群中心点的方式略有不同。将步骤三改为随意由目前不是当作集群中心的资料中,选取一欲取代某一集群中心的对象,如果因为集群中心改变,导致对象重新分配后的结果较好 (目标函数值较为理想),则该随意所选取的对象即取代原先的集群中心,成为新的集群中心数据库和数据仓库的比较数据仓库与数据库的区别:数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

21、 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。应用分析题:论述数据挖掘技术在电子商务相关领域的应用由于数据挖掘能带来显著的经济效益,它在电子商务中应用也越来越广,在金融电子商务领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级,从而可减少放贷的麻木性,提高资金的使用效率,同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策,在B2C电子商务中,数据挖掘还有助于识别客户购买行为,发现顾客购买模式和趋势,改进服务质

22、量,取得更好的顾客保持力和满意程度,提高货品销售比率,设置更好的货品运输与分销策略,最大限度的降低商业成本。数据挖掘技术在医疗领域的应用数据挖掘技术虽然近些年来发展迅速,但是它在医疗领域内的应用还不是很成熟,目前数据挖掘在医疗领域的应用主要集中在4个方面:(1)在疾病辅助诊断中的应用,医疗诊断专家系统是将专家的诊断经验转化为规则,只要向系统中输入患者的症状,就可以迅速做出判断,采用数据挖掘可以通过对患者资料数据库中大量数据的处理,挖掘出有价值的诊断规则(2)在药物开发中的应用,采用数据挖掘技术建立药物开发系统,可以寻找同药效相关的有效的化学物质基础,指导新药的研究与开发(3)在医院信息系统中的应用,医院信息系统可以处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论