数据挖掘之动态数据_第1页
数据挖掘之动态数据_第2页
数据挖掘之动态数据_第3页
数据挖掘之动态数据_第4页
数据挖掘之动态数据_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘要动态数据挖掘 术。随着信息 统的静态数据 对实际应用数是针对动态数据库和实时数据库 技术的进一步发展,对知识新颖 挖掘技术来分析不断产生的信息 据源在其运行的同时进行动态数 进行知识提取的数据挖掘技 性的需求越来越强,采用传 无法满足现实应用的要求, 据挖掘得到相关知识显得日益重要。动态数据挖掘(DDM由于信息时效性越来越短,为了能充分把握新颖 性的信息,对实际应用数据源(数据库、序列数据或流式数据等)在其运行的同时 进行数据动态提取并加以分析来得到相关知识。 数据挖掘目前已广泛应用于现代社会的各行各业,但是大多都是针对历史数据进行分析与处理,人们追求的不再只 是发现历史数据中隐藏的规律来

2、解决实际问题,而是想在竞争激烈的社会中即时 获取有用的信息,这对于传统的针对静态的历史数据进行挖掘的静态数据挖掘是 不能很好实现这种需求的;设计一种针对当前数据动态分析处理的一种信息处理 技术具有很大的现实意义。结合动态数据挖掘来研究多维数据的动态预测问题在 现实应用中具有广阔的实践意义。动态数据挖掘不仅仅限于数据预测方面,对其应用领域探讨也具有很大的现实意义。深入分析了以往数据处理技术的发展现状之后给出了一种在动态数据源运行过程中结合历史数据、当前数据以及即将到 来的数据进行数据分析与处理的动态数据挖掘技术:运用滑动窗口技术动态的获 取数据,通过动态数据窗口动态处理数据,运用未来数据测试动态

3、数据挖掘的性 能。相关工作有持续数据挖掘、流式数据挖掘、移动数据流挖掘和 Wei在线数据挖掘关键词:动态数据挖掘;体系结构;动态数据采集;动态 数据处理;滑动窗口 ;问题分析DD的问题关键是如何选取当前数据集,如何保持与历史数据平滑过渡,以及如何平滑地获 取后续数据集。(现在current,过去old,将来neWDDM vs DM传统的数据挖掘主要是基于历史数据集进行挖掘 ,提取出隐藏在其中的知识,而 动态数据挖掘是集过去现在与未来于一体的知识提取的过程, 动态处理各实时数 据。动态数据挖掘的体系机构保证新旧数据的平滑以及数据的及时或实时获取 ,运用 动态数据窗口进行数据的实时动态处理; 支持

4、自动更新处理; 数据挖掘与挖掘 评价是紧密结合的两个过程,采用后续数据集中数据对挖掘结果进行评价,评价 结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变。核心技术:滑动窗口技术;动态数据窗口;评价动态数据挖掘过程1. 动态数据采集时间关联性强-滑动窗口,某时刻的历史快照*时间关联性不太强或者离散数据-数据库SQL语句WHERE time between T - 2 and T ( T 为当前时间)2. 动态数据处理包括消除噪声、缺失数据处理、类型转换、特征提取以及数据降维处理等。 考虑到边界数据可能被忽略,结合重叠窗口技术,采用动态数据窗口,让重叠部 分的数据(边界数据)重复计算。3

5、. 数据挖掘时间性要求不强:只是为了获取新颖的知识,可用传统的挖掘算法*时间性要求较强:效率要高合理的挖掘布局算法,即什么时候启动挖掘。挖掘过程处理数据与未处理数据以及目标数据集之间的数据平滑问题:K标号法(初始标号为0,每参与一次挖掘过程则将TDi的标号值加1,直到标号变为K( K N ),在每次启动挖掘时只使用标号值小于 K的数据。)4. 挖掘测试 问题解答随着科学研究与工程应用领域的不断扩大,多维度动态数据处理与分析已成为目 前信息处理、动态数据建模及可视化建模中重要的研究课题。由于实际中往往会因各种因素造成信息数据缺失、信息对象机理知识不完整或多维空间中部分特征 量损失等带来信息不完整

6、,因此,进行多维度动态数据处理技术以及利用不完整信 息建模的研究具有重要的理论和实际应用价值。采用数据挖掘和非线性系统建模技术,针对多维度动态数据的特性,研究非线性动态系统中具有空间和过程特征的 数据挖掘模型和挖掘算法,以及基于软测量技术的不完整信息数据的完整性、一 致性处理方法,实现多维度动态数据的有效挖掘、不完整信息建模和非线性动态 系统演化规律的模拟。论文提出了一种较为完整的多维度动态数据挖掘系统理论 架构,构造了多维度动态信息表示模型,建立了基于支持向量回归机的时间序列挖 掘模型、连续输入/出的过程神经网络挖掘模型、多聚合过程神经网络挖掘模型 及径向基过程神经网络挖掘模型等四种智能动态

7、数据挖掘模型,构建了基于多元 统计方法、克里格插值方法、数据过滤技术的不完整信息数据的补齐算法、网格化及数据过滤算法,采用相空间重构技术构建智能挖掘模型的训练样本集 ,并提出 了量子粒子群算法结合梯度下降的神经网络训练算法 ,有效实现了对神经网络初 始权值、阈值和隐含层节点数的优化。由挖掘模型实现不完整信息建模,最终达到满意的应用结果提出了一种新的数据挖掘形式一一动态数据挖掘(DDM),寻求 在不断更替产生的动态数据信息中找出能被应用的知识。给出动态数据挖掘的体系结构,并分析了动态数据挖掘实现过程,运用滑动窗口与动态数据窗口动态采集 与处理动态新增数据,同时运用后续数据进行挖掘结果评价,用K标

8、号法平滑地使 用动态目标数据集进行数据挖掘,得出了一个动态数据挖掘测试算法。动态数据窗口随着信息技术的进一步发展,对知识的新颖性要求越来越强。我们 处在每天都有大量新鲜信息产生的社会中,如果采用原来的针对静态数据源(如 数据仓库)进行知识提取的数据挖掘技术来分析这些不断产生的信息可能无法满 足现实应用要求,因为传统的数据挖掘可能挖掘到的是过时或失效的知识。社会 在不断进步,时代在不断改变,信息的时效性变得越来越短。为了能充分把握新 颖性的信息,对实际应用数据源(数据库、序列数据或流式数据等)在其运行的 同时进行数据动态提取并加以分析来得到相关知识是十分必要的。这方面的工作有持续数据挖掘、流式数

9、据挖掘和 web在线数据挖掘。当然实际生活中还有许多 与时间关系不大且不涉及W eb在线的各种应用,针对这些应用数据源进行动态 实时挖掘也是十分必要的。 为此, 本文提出了一种动态数据挖掘方法 , 给出了动 态数据挖掘的体系机构 , 并分析了动态数据挖掘过程。1动态数据挖掘问题 在实际应用数据源运行过程中动态提取数据用于知识发现时 , 关键的是如何选 取当前数据集 , 如何保持与历史数据平滑过渡 , 以及如何平滑地获取后续数据 集。所以动态数据挖掘是集过去、 现在与未来于一体的动态的过程 , 下面给出一 些相关定义 : 给定实际运行数据源 , 将其称为动态数据源 ( Dynam icDa ta

10、 Source, DDS), DDS中的数据记为di ( i 为数据标志号,i=1 , 2, 3)。定义1设当前时间点为T,存在数( R+), DDS中在T时刻以前生成的所有 di 组成的数据集合称为历史数据集 , 记为 Do ld 。定义2设当前时间点为T,存在数,DDS中在T时刻到T时刻生成的所有di组成 的数据集合称为当前数据集,记为Dc urrent。定义3设当前时间点为T,存在数为正有理数,DDS中在T时刻以后生成的所有 di 组成的数据集合称为称为后续数据集 , 记为 Dnew。定义4在DD中运用当前数据集Dcurrent与历史数据集Do Id结合后续数据集Dnew 进行分析 ,

11、提取出其中有意义的、新颖的、关键的知识与规则的过程称为 动态数据挖掘 ( Dynam icDa taM in ing, DDM )。从以上定义可以看出 , 动态数据挖掘与传统从以上定义可以看出 , 动态数据挖 掘与传统的基于数据仓库的数据挖掘有很大的不同 , 传统的数据挖掘主要是基 于历史数据集进行挖掘 , 提取出隐藏在其中的知识 , 而动态数据挖掘是集过去 现在与未来于一体的知识提取的过程。为了便于进一步研究动态数据挖掘问题 , 下面就动态数据挖掘的体系结构进行分析。 动态数据挖掘主要体现在它能动态地 从DD中提取数据进行分析,找出其中的知识与规则,从而更加及时新颖地为企 事业单位或各管理部

12、门提供决策方案 , 其实现过程大致可分为动态数据采集、 数 据处理、数据挖掘、挖掘评价几个过程。动态数据挖掘关键是要解决后续数据集 D new的动态采集以及动态处理问题,本 文提出一种基于滑动窗口的动态数据采集方法 , 来保证新旧数据的平滑以及数 据的及时或实时获取 , 运用动态数据窗口进行数据的实时动态处理 ; 由于动态 数据挖掘在运行过程中,DDS也在运行,即后续数据集D new在不断增加,鉴于 此, 在数据处理以及后续的数据挖掘过程中必须要有较高的处理效率并且能支 持自动更新处理 ; 数据挖掘与挖掘评价是紧密结合的两个过程 , 采用后续数据 集中数据对挖掘结果进行评价 , 评价结果不符合

13、要求则修正挖掘过程或重新挖 掘以适应应用环境的改变 , 尤其在对事务进行统计分析或趋势预测分析时显得 尤为重要。图1动态数据挖掘体系结构DynamicDataAcqULibon3动态数据采集Evaluation _DataTarget Data SetsProcessingData ProcessingDMDMKnowledge or Rule是指在动态运行数据源 对于从历史数据集或动态数据采集(Dynam ic Data A cqu isition, DDA )中动态地获取其中的历史的当前的或者即将生成的数据集 当前数据集中获取数据可以一次提取完成,但对于还未生成或正在生成的数据 获取就只能

14、分步来不停地获取,为了保证获取数据的平滑性,采用滑动窗口作 为动态数据获取窗口。3. 1滑动窗口滑动窗口( SlidingW indow, SW)在计算机网络通信、时间序列数据挖掘、移动 数据流数据挖掘等方面都有应用。本文借鉴这一技术来实现数据的动态获取。世间万物都是处于时空中的,事物的产生、发展以及灭亡都与时间有关联;为此,对于动态数据源的数据动态获取中 滑动窗口度量均可采用时间来确定。下面给出滑动窗口的相关定义。6a* * 0 r 2r 3r 4r nr T定义5 在DDS中,按照数据di ( i 为数据标识号,i为正整数Z+ )的生成时 间分成窗口大小为(t为时间段,且t三n)的数据段D

15、k(k为自然数N ),每个 数据段为一个数据窗口 , n为数据门限值。定义6对于正数n ( n为Z+ ,且n三1),某时刻T,有数据段集D = D1, D2,? , Dn 落入到窗口大小为t的窗口 SV中,该窗口每隔t时间向前移动s ( s为Z+ ,1 s n )个数据窗口大小的位置,称窗口SW为滑动窗口。为了说明滑动窗口动态采集数据的功能,方便起见,图3以滑动窗口大小为两个 数据窗口每次移动一个窗口为例进行A2 q i0T2r 31r八nirT(a)q2 A W Ml0 1 2r3r4r-nrT(b)Afl ) * 0 r 2r 3r 4r nr T(c)3. 2动态数据采集分析数据窗口是基

16、于时间段来划分的,为了能快速及时地从DD中获取数据,如果数 据是时间性关联不是很强的数据或者是离散性数据 ,往往是通过数据库来保存 的,这就需要存储DDS勺数据库存储数据的产生时间,这样就能采用数据库查询 语言快速检索到满足要求的数据。动态数据处理动态数据处理(Dy nam ic DataProcessi ng, DDP是相对于传统的数据挖掘的数据处理过程而言的。传统的数据挖掘只是针对特定的数据固定的数据集进行;而动态数据挖掘中,为了找出新 颖的、最近的、感兴趣的知识,在数据处理过程中也要求能动态处理各实时数据。 动态数据处理包括消除噪声、 缺失数据处理、类型转换、特征提取以及数据降维 处理等

17、。处理可采用传统的数据预处理数据变换、规约等方法,主要在于如何动 态处理动态数据采集过程传来的动态实时数据。由于动态数据采集传来的数据都是基于时间段的实时数据,考虑到在数据处理过程中,边界数据可能被忽略, 结合重叠窗口技术,选择一种动态数据窗口来处理动态实时数据。4. 1 动态数据窗口针对固定的有限数据集合进行聚类分析时第一次提出了动态数据窗口( DynamicDataW indow, DDW )概念,并第一次运用窗口重叠移动进行聚类分析。将一个有限数据集合Z = z1, z2,? , zn RC划分成(2k - 1)个数据窗口,第i个与第i+ 1个窗口的部分重叠,让重叠部分的数据(边界数据)

18、重复计算, 一个一个窗口处理下去直到处理完毕。这样数据窗口的部分重叠克服了 k m eans方法难以发现各种不同大小的聚类的缺点,使得每个数据窗口分界处的样 本点在接下来选取密度点时贡献一样大,而且选出的密度点不因k值的变动而 变化很大。动态数据挖掘处理的是从动态数据采集窗口传来的动态实时数据,数据量在不停的增加。动态数据处理窗口每隔t时间间隔就传过来s个数据窗口的实时数据, 为了使各数据di都被分析处理到,定义动态数据窗口大小s ,对DDW进行如下 划分:0s为第1个窗口 ; vs+ v 为第2个窗口( 0 v s); s 2s 为第3 个窗口 ; s + v2s+ v 为第4个窗口第i个与

19、第i + 1个窗口的部分重叠,随着数 据窗口的向前移动,我们可以不断地实时处理动态数据,如图4所示。图4 动态数据窗口的重叠划分示意图* * * *t * * * * 44* 申* * *Lj+v2j+v hj Jir+tT(t)4. 2动态数据处理分析图4中的*代表样本点,重叠窗口划分中的v值根据具体情况而定,如果时间段 划分较长,则选取v为接近s的某个值为宜,因为时间段长,在很短的时间内可 能就有很多样本数据存在;选取较小v值会使重复处理的数据量增大从而造成 大量的时间耗费。当v = s时表示在不进行特征提取、数据降维等数据变换与规 约处理时以提高数据处理的效率,比如只需要类型转换、部分缺

20、失数据处理或消 除噪声等数据预处理方面。下面以动态数据流特征提取为例说明动态数据处理过程:对于从动态数据采集中滑动窗口传来的m维流式数据x 1, x 2,? , xi ,?序列,到达数据处理窗口的时间为t1, t2,? ,ti, ?序列,由定义5与定义6可知:s = ( ti - ti- 1 ) /,记x i =D( i- 1) &s+ k | 0 k s, i N, kN 。方便起见取动态数据窗口窗口大小为 2 s, v取为 s;则对于该流式数据 的处理过程为,从m维流式数据集x i中提取出特征项,后从流式数据集x i ?x i+ 1中提取出特征项,再从流式数据集xi+ 1中提取出特征项,?

21、 ?,这样 依次一个窗口一个窗口处理下去,处理结果送交目标数据集(删除重复的特征 项)。5数据挖掘与挖掘测试在动态数据挖掘中通过将数据挖掘与挖掘测试两个过程充分结合起来 , 就能动 态地实现对动态数据处理生成的动态目标数据集进行挖掘。5. 1 数据挖掘对于动态数据挖掘 , 对于时间性要求不是很强的领域 , 及只是为了获取新颖知 识, 可以运用传统的挖掘算法实现 , 通过设定一个时间门限值 ? ( ? R+ ), 每经过一个门限值时间 ? 就启动一次挖掘 , 只要在下一次启动之前完成即可 ; 对于时间性要求较强的领域 , 则为了体现挖掘的价值 , 即要求在实际结果产生 之前要能得到需要的挖掘结果

22、 ; 故对于动态数据挖掘来说 , 必须要有较高的挖 掘处理效率。另外对于动态的目标数据集进行数据挖掘 , 还需要处理好挖动态数据处理分析 图4中的 * 代表样本点 , 重叠窗口划分中的 v 值根据具体情况而定 , 如果时间段 划分较长,则选取V为接近s的某个值为宜,因为时间段长,在很短的时间内可 能就有很多样本数据存在 ; 选取较小 v 值会使重复处理的数据量增大从而造成 大量的时间耗费。当 V = s 时表示在不进行特征提取、数据降维等数据变换与规 约处理时以提高数据处理的效率 , 比如只需要类型转换、 部分缺失数据处理或消 除噪声等数据预处理方面。5 数据挖掘与挖掘测试 在动态数据挖掘中通

23、过将数据挖掘与挖掘测试两个过程充分结合起来 , 就能动 态地实现对动态数据处理生成的动态目标数据集进行挖掘。5. 1 数据挖掘对于动态数据挖掘 , 对于时间性要求不是很强的领域 , 及只是为了获取新颖知 识, 可以运用传统的挖掘算法实现 , 通过设定一个时间门限值 ?( ? R+ ),每经过一个门限值时间 ? 就启动一次挖掘 , 只要在下一次启动之前完成即可 ; 对于时间性要求较强的领域 , 则为了体现挖掘的价值 , 即要求在实际结果产生 之前要能得到需要的挖掘结果 ; 故对于动态数据挖掘来说 , 必须要有较高的挖 掘处理效率。另外对于动态的目标数据集进行数据挖掘 , 还需要处理好挖掘过程处理

24、数据与 未处理数据以及目标数据集之间的数据平滑问题。 为了能实现挖掘目标数据集的 数据平滑,可以采用一种对已用数据进行标号的 K标号法来实现对目标数据的动 态控制 , 其思想是 : 对于目标数据集 TDS = TD1, TD2, ? ,TDj ( j N ) ,初始标号为 0, 每参与一次挖掘过程则将 TDi 的标号值加 1, 直到标号变为 K (K N ), 在每次启动挖掘时只使用标号值小于 K 的数据。5. 2 挖掘测试 动态数据挖掘中的挖掘测试可以充分利用具有动态实时的后续数据的优点 , 采 用后续数据对挖掘结果进行动态检测。如果检测结果符合要求则可进行决策 , 否则就调整挖掘过程中的某些步骤以及 时转换挖掘寻找新的决策指导。 实际上对于挖掘结果进行智能评估是一个相当困 难的问题 , 对于不同的挖掘类型有不同的挖掘结果标识 , 很难用一个具体的实 现算法来对所有的挖掘结果进行评价,对于RC空间的结果集相对好实现,在5.3节就是结合挖掘评估来自动智能地实现动态的挖掘。5. 3 数据挖掘的动态实现 为了能智能动态地实现在动态目标数据集挖掘找出所需要的知识 , 就需要一个 合理的挖掘布局算法 , 即什么时候启动挖掘。鉴于挖掘结果集不属于 RC 空间时 其评估方式根据结果类型不同而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论