


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
OLAP融合于数据挖掘之模型构建论文OLAP融合于数据挖掘之模型构建论文数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的经过。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经历法则)和形式识别等众多方法来实现上述目的。下面是学习啦我今天为大家精心准备的:OLAP融合于数据挖掘之模型构建相关论文。内容仅供浏览与参考!OLAP融合于数据挖掘之模型构建全文如下:1OLAM模型本文提出的OLAM模型对OLAP中数据立方体和星型形式的概念分别进行了拓展,涵盖问题的整个搜索空间,能够比拟全面地反映多维数据挖掘的本质.下面描绘相应的理论方法、基本权标和数据构造.1.1从数据立方体到影响域本文在OLAM模型中引进基本权标:影响域(influencedomain).影响域与多维空间的数据立方体在逻辑上是等价的.但立方体上计算的是聚合(aggregation),而影响域上计算的是蕴涵(implication),即数据中隐藏的形式.影响域同立方体一样具有属性和值,不同点在于它具有置信度(confidence).立方体将维映射至度量,而影响域将维和度量映射至置信而影响域将度.一个影响域可视为一个函数,其映射关系从维和度量映射至一置信度级别.影响域可视为是广义概念上的数据立方体空间,由于影响域的大小通常比数据立方体要大得多,OLAM分析经常在更细的粒度上分析更多的维,或对多个特性之间的关系进行探索.由于每次重新计算的代价太昂贵,所以需要在比星型形式存储有更多的聚合的形式上进行,即采用下一节所提出的旋转形式.为了遍历整个影响域,需要将OLAP运算与影响性分析穿插.能够看出,影响域的操作可在多维和多层次的抽象空间中进行,有利于灵敏地挖掘知识.而文献〔3,4,5〕的操作是基于数据立方体的多维数据挖掘,包含在基于影响域的操作之内,是其中的特例.影响域概念可用面向对象的思想描绘,这样有助于生成一个较好的构造化的框架.影响域包含六个主要特性:(1)基本维(类);(2)属性;(3)对象或实例;(4)层次;(5)度量;(6)蕴涵.其中,基本维是一种高层次的类型划分,如产品、客户等.每个类/维具有一属性集合,如产品维具有属性价格、颜色等.每个类/维有对象或要素作为实例,对象的每个属性具有一个值.在类和属性内存在层次,例如,对类来讲,商标类是产品的父类;对属性来讲,属性集合地区,城市,省}是一个层次.度量是在维构成的空间上的计算.蕴涵是在维和度量构成的立方体空间上的计算.1.2从星型形式到旋转形式从面向对象的角度来看,数据立方体与影响域的特性不尽一样,包含基本维(类)、属性、对象或实例、层次以及度量这五个特性,OLAP的星型形式通常直接映射在该对象构造中.星型形式每个维表都可看成一个对象,对象的属性代表在维表中的列,度量在各个维构成的空间上进行计算.图1给出一个星型形式的例子,包含四个基本维:商店维、客户维、产品维和定货维,中央的事实表中存有度量和各个基本维的码值.星型形式是用来处理聚合运算的,该形式能很好地用于OLAP,但它本身不带数据挖掘功能,不能用于OLAM,因而需要将星型形式作相应扩展.在对影响域进行分析的经过中,通常将分析焦点聚焦在星型形式中的维表上(如产品或商店,如图1所示).由于在分析中要用附加的聚合或选择的数据项以丰富维表内容,因而对于每个库表来讲,需要比星型形式存储更多的数据.分析的焦点在各个维表之间不断转换,例如从客户维转换至商店维再到产品维等等,能够看作是焦点在绕着星型形式旋转,因而,本文引入旋转形式的概念,将OLAM的分析构造命名为旋转形式.图2显示出与图1中星型形式所对应的旋转形式的例子.旋转形式的中心存储的是影响域的蕴涵,外围是各个维表的码值以及聚焦度量和其它度量,四周呈辐射状的是各个维表.在执行影响域分析时,焦点沿着不同的基本维(或类)旋转,在维和度量构成的广义数据立方体空间上执行蕴涵运算对应于图1的旋转形式的例子如图3所示,旋转形式中的库表具有五个主要部分:(1)中的库表具有五个主要部分聚焦维;(2)聚焦度量;(3)内部属性;(4)外部属性;(5)非聚焦度量.聚焦维代表当前分析焦点所在的基本维,如图2所示的客户维;聚焦度量代表用户关心的度量,如利润;内部属性是聚焦维中的属性,如客户年龄等;外部属性是非聚焦维中的属性,如某客户最喜欢的产品颜色等;非聚焦度量是用于辅助决策的度量,如某客户平均一次购买的商品的数目.由此能够看出影响域中的存储形式与OLAP是不同的.2实现OLAM机制的讨论OLAM机制具有交互的特性,而且求蕴涵函数的计算代价比拟昂贵,因而在大型数据库或数据仓库中实现OLAM机制的关键是解决快速响应和有效实现的问题.必须考虑如下因素:2.1快速响应和高性能挖掘OLAM若想获得快速响应和高的性能,会比OLAP困难,由于数据挖掘的计算代价通常比OLAP昂贵.快速响应对于交互式挖掘是致关重要的,有时为了得到快速响应甚至能够牺牲精度,由于交互式挖掘能一步步引导挖掘者聚焦在搜索空间并查找越来越多重要的形式.一旦用户能限定小的搜索空间,就可调用更高级的而速度较慢的挖掘算法进行细致分析.可考虑采用逐步精化数据挖掘质量的OLAM方法:首先在大数据集上用快速挖掘算法标识出感兴趣的形式/区域,然后用代价较高但较准确的算法进行具体分析.2.2基于数据立方体的挖掘方法基于数据立方体的挖掘方法应该是OLAM机制的核心.基于立方体的数据挖掘已经有很多研究,包括概念描绘、分类、关联、预测、聚类等.基于立方体的挖掘继承了关系型或事务型数据挖掘方法的思想,并具有很多特性.在基于立方体的有效挖掘算法领域需要更多的研究.高性能数据立方体技术对OLAM很重要.由于一个挖掘系统需要计算大量维之间的关系或具体细节,这样的数据不可能都预先实体化,有必要联机动态计算数据立方体的一部分.另外,多特性数据立方体的有效计算,以及支持具有复杂维和度量的非传统的数据立方体,对有效地数据挖掘都很重要.因而,需进一步开发数据立方体技术.2.3选择或添加数据挖掘算法关系型查询处理能用不同的处理途径对同一查询生成一样的答案,但是采用不同的数据挖掘算法可能会生成显著不同的挖掘结果.因而,提供多种可选的数据挖掘算法很重要.另外,用户也许想本人开发一个算法,假如提供标准开放的API,而且OLAM系统经过很好地模块化,用户就有可能增加或修改数据挖掘算法.用户定义的数据挖掘算法能够较好地利用一些开发良好的系统构件以及知识可视化工具,并与已有的数据挖掘功能合成.因存在有多个数据挖掘功能,怎样在某一详细应用中选定适宜的数据挖掘功能是一个问题,必须熟悉应用问题、数据特征以及数据挖掘功能的作用,有时需要执行交互探索式分析来选择适宜的功能.因而,建造探索式分析工具以及构建面向应用的语义层是两个重要的解决方案.OLAM提供探索式分析工具,进一步的研究应该放在为详细应用自动选择数据挖掘功能上.2.4在多个数据挖掘功能之间交互OLAM的优势不仅仅在于选择一系列的数据挖掘功能,也在于在多个数据挖掘和OLAP功能之间交互.例如首先切割立方体的一部分,基于一指定的类属性将该部分分类并查找关联规则,然后下挖在更细2.5可视化工具为了有效地显示OLAP挖掘结果并与挖掘处理交互,开发多种知识和数据可视化工具很重要.图表、曲线、决策树、规则图、立方体视图、boxplot图等是描绘数据挖掘结果的有效工具,帮助用户监测数据挖掘的经过并与挖掘经过交互.2.6可扩展性OLAM系统与用户及知识可视化软件包在顶端通讯,与数据立方体在底端通讯.它应该高度模块化,并具有可扩展性,由于它可能会与多个子系统合成并以多种方式扩展.应该扩展OLAP挖掘技术至高级的和/或特殊用处的数据库系统,包括扩展的关系型、面向对象的、文本、空间、时间、多媒体和异种数据库以及Internet信息系统.对复杂类型的数据,包括构造化、半构造化和非构造化数据的OLAP挖掘也是一重要的研究方向.2.7做书签和回溯技术OLAM借助于数据立方体导航,提供应用户充分的自由,运用任一数据挖掘算法序列来探索和发现知识.当从一个数据挖掘状态转换至另一状态时经常可有很多项选择择.可做个书签,假如发现一个途径无意义,就回到原先的状态并探索其它的方法.这种做标记和回溯机制防止用户迷失在OLAM空间中.3结论利用OLAM模型沿着多个维进行挖掘,观察沿着这些维的形式,进行合并,并以智能的方式与用户进行交互,能够在多维数据库的不同的部位和不同的抽象级别交互地执行挖掘.它有如下优点:(1)便于交互式探索性的数据分析.有效的数据挖掘需要探索性的数据分析功能〔6〕.用户常希望灵敏地遍历数据库,选择任一部分的相关数据,在不同的抽象级别上分析,并以不同的形式表示知识/结果.OLAM便于对不同的数据子集在不同抽象级别上进行数据挖掘,这连同数据/知识可视化工具将大大加强探索性数据挖掘的能力和灵敏性.(2)联机选择数据挖掘功能.事先预测挖掘何种类型的知识是困难的,对于用户来讲,经常不知道想挖掘什么样的知识.通过OLAM模型将OLAP与多个数据挖掘功能结合,用户能够灵敏选择所需的数据挖掘功能,并动态交换数据挖掘任务.本文所提出的OLAM模型的理论方法、基本权标和数据构造将数据挖掘和OLAP技术结合在一个统一的框架之中,大大加强了决策分析的功能和灵敏性.该模型有助于在大型数据库和数据仓库中交互式地挖掘多层次的知识,是一个很有前景的方向.参考文献:1E.F.Codd,S.B.Codd,C.T.Salley.Beyonddecisionsupport.〔J〕Computerworld,27(30),July19932UsamaMFayyad,51lunwen/database/GregoryPiatetsky-Shapiroetal.Advancesinknowledgediscoveryanddatamining.〔M〕California:AAAI/MITPress,19963J.W.Han.Towardson-lineanalyticalmininginlargedatabases.〔R〕ACMSIGMODRecord,1998.27:97~1074J.W.Han,S.Chee,andJ.Y.Chiang.Issuesforon-lineanalyticalminingofdatawarehouses.〔C〕Proc.of1998SIGMOD96WorkshoponResearchIssuesonDataMiningandKnowledgeDiscovery(DMKD98),Seattle,Washington,June19985J.W.Han.OLAPMining:AnIntegrationofOLAP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 祭英雄敬忠魂课件
- 水利水电工程积累经验试题及答案
- 素描茄子美术课件
- 工程效益测算方法试题及答案
- 行政管理公共关系学考试优化试题及答案
- 汽车底盘设计关键技术解析
- 2024年水利水电工程考生回顾试题及答案
- 行政管理中工作的公共关系学试题及答案
- 电子商务平台入驻合同协议规范
- 投资合作协议修订
- 防晒知识科普课件
- 煤矿安全生产协同管理系统
- 铁路段扩能改造站房及生产生活房屋工程方案投标文件(技术方案)
- 2025四年级美术国测知识竞赛题库(104题附答案)
- 2025年《养老护理员》考试模拟练习题及答案
- 教师培训系列讲座:人工智能赋能教育教学
- 2025至2030中国注射用重组人脑利钠肽行业运行态势及未来趋势研究报告
- 2024年柳州城市职业学院春专任教师辅导员招聘考试真题
- 运输公司汛期管理制度
- 2025年瑜伽教练资格证考试题库:瑜伽教练基础瑜伽动作详解试题
- 情绪管理小学生课件
评论
0/150
提交评论