时空聚类分析在Web数据挖掘中的研究与应用_第1页
时空聚类分析在Web数据挖掘中的研究与应用_第2页
时空聚类分析在Web数据挖掘中的研究与应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、时空聚类分析在Web数据挖掘中的研究与应用 时空聚类分析在Web数据挖掘中的研究与应用 摘 要:时空聚类分析是时空数据挖掘领域近年来研究的热点问题,对于揭示时空要素的开展变化趋势、规律以及本质特征具有重要意义。目前,时空聚类分析的研究仍在初步,缺乏具有普适性的时空聚类分析方法。为此,本文针对国内水性漆行业的行业数据提出了一种时空一体化的时空聚类方法。该方法很好地顾及了时空数据的时空耦合、时空相关与时空异质特征,防止了过多人为主观因素的干扰,时空聚类结果具有较好的可靠性。 关键字:数据挖掘;Web数据挖掘;聚类分析;聚类算法 一、引言 随着计算机技术、数据库技术、网络技术的飞速开展,各种信息知识

2、可以在网络上获得。网络在给人们带来便利的同时也带来了不少弊端,造成了知识的"污染",面临信息的海洋,呼唤一种从数据海洋中去粗取精、去伪存真的技术来准确、快速地获取有用的、隐含的信息,在这种形势下,Web数据挖掘技术应运而生。 近年来,时空数据挖掘已受到国际学术界和工业界的广泛关注,时空信息的认知和数据模型的研究进展是时空数据挖掘研究的根底,时空数据挖掘的理论研究主要受到空间数据挖掘和时态数据挖掘研究的影响,并以经典的数据挖掘理论为根底,挖掘时空知识或规那么。 时空聚类分析作为时空数据挖掘的一个主要研究内容,是计算机科学与地球信息科学领域交叉研究中的一个最前沿、最具挑战的研究

3、课题。时空聚类分析旨在从时空数据库中发现具有相似特征的时空实体结合,亦是传统的聚类分析从空间域到时空域的进一步扩展。时空聚类在全球气候变化、公共卫生平安、地震检测分析以及犯罪热点分析等领域具有重要应用价值,有助于更好地发现和分析地理现象开展变化的趋势、规律与本质特征。 本文把时空聚类分析应用在Web数据挖掘中,具有很强的现实意义与理论价值。一方面,通过聚类挖掘可以找空间实体即水性漆生产商的地理分布规律,帮助决策者更快地找到所需的信息;另一方面,对行业数据重新组织,让相邻、相近的数据尽量编排在一块,可以提高访问速度,对于预测整个水性漆行业的开展动态有积极的意义。 二、国内外研究现状及分析 国内外

4、学者已经针对时空聚类分析开展了初步的研究,现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。最近, Kisilevich【1】 等对时空聚类分析方法进行了较为系统的阐述。时空聚类分析研究虽然已经取得一定成果,但依然面临两方面难点: 时空数据具有时空耦合的特点。 时空数据是空间维与时间维的有机组合, 空间数据与时序数据的一些性质并不能直接推广到时空域。 例如, 空间数据不存在过去、现在、将来的区别, 而时空数据却具有这种特性; 时空数据具有时空相关性与时空异质性两个重要性质。 时空数据的分布在时间和空间上具有关联性, 也会随着时间和空间的变化而产生差异。 此外,

5、当前的时空聚类分析研究仍没有形成一套具有普适性的理论方法框架。 现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。 最近, Kisilevich 等对时空聚类分析方法进行了较为系统的阐述,其主要思想是采用一个预设的时空扫描窗口, 即由空间距离定义半径、时间间隔定义高度的圆柱体, 以每个时空实体为中心进行扫描, 借助统计检验的方法确定疾病爆发的聚集区域。 该方法一方面需要预先假定数据的概率分布模型, 且结果受扫描窗口的影响较大, 另一方面不能详细描述时空簇的位置和形状信息。最近, Pei 等开展了一种基于窗口邻近的时空聚类方法, 其主要思想是定义一个圆柱形的时空邻

6、近域, 在每个时空邻域内区分聚集局部和噪声局部, 并采用 DBSCAN 密度相连的策略将聚集局部连接成时空簇。 该方法只能针对仅存在两种 Poisson 分布 的时空数据进行时空聚类操作, 且无法顾及时空实体的非空间属性。 基于时空距离的方法可以区分为两类, 一类是从时间、空间两个角度分别定义时空邻近实体; 另一类是综合定义时空耦合距离, 这类方法主要用于地震序列的时空聚集性发现, 在实际中时空属性的融合比拟困难。 综上分析, 可以发现目前尚缺乏一种能够同时顾及时空实体的非空间属性和时空实体时空耦合特性的时空聚类方法。 为此, 下面将开展一种时空聚类分析的新策略。 三、时空聚类分析在Web数据

7、挖掘中的研究与应用 1.研究目标:本课题通过在研究空间数据挖掘、XML 数据挖掘、时空数据挖掘根底上,对时空聚类的关键技术进行分析,设计出适合Web数据挖掘的时空聚类挖掘的算法并构建原型系统,实现对行业网站数据时空聚类挖掘。 2.研究内容: 数据的聚集趋势估计,即判断数据能否进行聚类分析; 聚类方法设计; 聚类结果有效性评价。在地理空间中,时间和空间上的相关性是时空实体的根本特征,也是进行时空聚类分析的前提。假设实体间没有相关性,那么不会产生明显的聚集现象。时空聚类旨在将时空相关性较强的时空实体聚在同一簇,时空聚类过程中必须充分考虑实体间的相关性。因此,时空聚类分析可以归纳为 3 个步骤。 首

8、先,需要对时空数据进行探索性分析,掌握时空数据的特性。其主要包括: 时空相关性分析,判断时空数据是否可以进行时空聚类分析; 时空平稳性分析,分析时空数据的时空异质特征。 其次,根据时空数据的具体特点开展专门性的时空聚类方法。 最后,需要对时空聚类分析的结果进行分析和评价。 拟解决的关键问题:从时空数据的根本特征出发,建立一套时空聚类分析的理论方法框架,并提出一种时空一体化的时空聚类方法,应用于中国水性漆网的Web数据库,确认其有效性。 3.工程研究方案: 第一步:时空聚类分析:包括时空数据探索性分析、时空邻近域构建和时空聚类方法。 第二步:中国水性漆网站数据时空聚类分析,包括数据描述与预处理:

9、选取中国水性漆网站数据库进行实例分析;时空数据探索性分析:首先对数据的空间相关性进行检验,这里借助变差函数来分析空间相关性。进而,采用普通 Kriging方法进行插值;一种基于 LINQ 查询与 K-Means 结合的时空聚类算法:在分析、比拟经典聚类算法的根底上,结合水性漆网站时空数据的特点,提出了一种将扩展的 XML 文档查询语言LINQ与经典的K-Means聚类算法相结合的算法,通过实验验证该算法的有效性及优越性。 时空聚类原型体系结构及设计实现:为验证算法的实用性,基于 ArcEngine采用 C#语言开发了水性漆网站数据时空聚类原型系统。 四、结束语 本文提出了时空聚类分析的理论方法

10、框架, 该框架易于推广用于其他类型的时空数据, 具有很强的普适性;很好地顾及了时空数据的时空耦合、时空相关与时空异质特征, 防止了过多人为主观因素的干扰, 时空聚类结果具有较好的可靠性。 参考文献: 【1】 陆玉昌。数据挖掘与知识发现M。成都:西南交通大学出版社,2005 【2】 金艳云。Web数据挖掘综述J。现代计算机,2021 【3】 庄怡雯。基于聚类算法的Web日志挖掘应用研究D。东华大学,2021 【4】 刘小利,刘小辉。数据聚类算法在Web数据挖掘中的应用J。科技创新导报,2021 【5】 Kisilevich S, Mansmann F, Nanni M, et al。 Spatio-Temp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论