




已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)web数据挖掘机的服务端设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着国家信息基础结构建设目标的实施,企业在各种活动中普遍采用 现代信息技术来提高竞争力。传统的基于数据的管理信息系统已不能满足 决策者对数据质量的需求,面向决策的数据挖掘系统正在蓬勃兴起。 数据挖掘是近年来发展起来的新技术,通过数据挖掘,人们可以发现 数据背后隐藏的有价值的、新颖的规律,为科学决策提供强有力的支持。 当今,数据挖掘己发展成一门跨越多领域的学科。它涉及到数据库、模式 识别、神经网络、统计学、计算智能等相关技术。 w e b 数据挖掘机( w e b m i n e r ) 是电子科技大学计算智能实验室( c i l a b ) 数据挖掘小组研究开发的基于w e b 的数据挖掘系统。其目的是为了探索网 络环境下的数据挖掘技术,特别是尝试在因特网上建立数据挖掘服务器与 数据库服务器配合,实现基于w e b 挖掘。w e b m i n e r 采用j 2 e e 架构和s t r u t s 框架完成设计和实现,具有良好的开放性、可扩展性和健壮性。该系统为 开发人员提供了一个标准的m v c 开发模式,将业务与视图分离,便于有 效地理清系统结构,降低系统复杂度与开发维护难度,也为数据挖掘研究 人员提供了一个基于b s 的数据挖掘研究平台,提高了易用性。只要遵循 w e b m i n e r 的数据模型和算法模型接口,新的数据挖掘算法可以很容易地集 成到系统中来。同时,该系统还是一个具有实际应用价值、可以与数据挖 掘应用紧密结合的、便于升级、移植和维护的数据挖掘系统。 全文共分为六章。第一章主要介绍数据挖掘的应用背景以及课题的任 务。第二章首先介绍了数据挖掘的概念和产生,然后介绍了数据挖掘研究 的任务、数据挖掘过程、常用方法和应用,最后介绍了数据挖掘未来的研 究方向。第三章主要阐述了计算智能实验室( c i l a b ) 数据挖掘小组的基于 j 2 e e 架构的w e b m i n e r 。第四章是论文的重点部分,详细介绍了我在系统 设计和实现方面的工作,对系统的设计理念、功能、体系结构、具体设计, 服务端实现等方面进行了充分的分析和讨论。第五章将简单讨论将一个文 本流主题提取算法集成到w e b m i n e r 的步骤,并总结出通用的规律。第六 章对课题的主要研究工作进行了总结。 关键词:数据挖掘,j 2 e e ,s t r u t s a b s t r a c t w i t ht h ei m p l e m e n t i n go fn a t i o n a li n f o r m a t i o nf u n d a m e n t a ls t r u c t u r e ,t h e e n t e r p r i s e s n e e dm o d e r ni n f o r m a t i o n t e c h n o l o g i e s t oi n c r e a s et h e i r c o m p e t i t i v ep o s i t i o n t h em a n a g e m e n ti n f o r m a t i o ns y s t e mb a s eo nd a t a c a n n o ts a t i s f i e dt h ed e m a n do fd e c i s i o n d e c i s i o n o r i e n t e dd a t a m i n i n gs y s t e mi s g r o w i n gu p d a t am i n i n gi san e w t e c h n i q u e ,w h i c hh a sb e c o m ei n c r e a s i n g l yp o p u l a r i nr e c e n ty e a r s p e o p l ec a nd i s c o v e rv a l u a b l er u l e sb e h i n dt h ed a t at h a tc a n s u p p o r tt h es c i e n c ed e c i s i o n n o wd a t am i n i n gh a sb e c o m eas u b j e c t ,w h i c h i n v o l v e sl o t so fs c i e n c ed o m a i na n dt e c h n o l o g ys u c ha s d a t a b a s e ,p a t t e r n r e c o g n i t i o n ,n e u r a ln e t w o r k a n dc o m p u t a t i o n a li n t e l l i g e n c e t h ew e b d a t a m i n i n gm a c h i n e ( w e b m i n e r ) i s t h er e s e a r c ha e h i v e m e n to f d a t a m i n i n gg r o u p i n c o m p u t a t i o n a li n t e l l i g e n c el a b o r a t o r y ( c l l a b ) t h e p u r p o s e o fr e s e a r c h i n gw e b m i n e ri s :e x p l o r i n gd a t am i n i n gt e c h n i q u e si n n e t w o r k e n v i r o n m e n t ,e s p e c i a l l ye s t a b l i s h i n g d a t a m i n i n g a n dk n o w l e d g e d i s c o v e rs e r v e ro v e rt h ei n t e r n e tw h i c hi s c o o p e r a t e dw i t hd a t a b a s es e r v e r , r e a l i z i n g d a t a m i n i n g b a s e do nw e b t h e s y s t e mp r o v i d e s as t a n d a r d m o d e l - v i e w - c o n t r o l l e r ( m v c ) p a t t e r nf o rd e v e l o p e r ,h e l p st h e mg e ts y s t e m s t r u c t u r e e a s i l y a n d s e p a r a t e b u s i n e s s l o g i c f r o mv i e we f f i c i e n t l y s ot h e c o m p l e x i t ya n dd i f f i c u l t yo fd e v e l o p m e n ta n dm a i n t e n a n c ei sr e d u c e d i ta l s o p r o v i d e sap l a t f o r mb a s e do nb r o w s e r s e r v e rt e c h n o l o g yf o rp e o p l ew h o u s e t h i sp l a t f o r mf o rr e s e a r c h b e c a u s et h e r ei sn on e e df o rt h e mt ok n o wm u c h a b o u tt h es y s t e m ,t h e yo n l yn e e dt oc o m p l y i n gw i t ho u rd a t ao b j e c ti n t e r f a c e a n d m i n i n g m o d e li n t e r f a c e ,n e wd a t a m i n i n ga l g o r i t h m s c a nb e e a s i l y i n t e g r a t e dt oo u rs y s t e m i na d d i t i o n ,o u rs y s t e mi s av a l u a b l es y s t e ms k e l e t o n f o rd a t am i n i n ga p p l i c a t i o n j 2 e es p e c i f i c a t i o n ,s t r u t sf r a m e w o r km a k e st h e s y s t e ma no p e na n de a s y - t o - u p g r a d es o l u t i o n t h i sa r t i c l ei s c o m p o s e d o fs i x c h a p t e r s i nc h a p t e r1 ,t h e a u t h o r i n t r o d u c e st h eb a c k g r o u n do fd a t am i n i n ga n dt h er e s e a r c hi s s u e t h eb a s i c i i c o n c e p t s ,t a s k s ,f u n c t i o n s ,p r o c e s s e s ,a p p l i c a t i o n sa n dp r o s p e c to f d a t am i n i n g a r ei n t r o d u c e di nc h a p t e r2 c h a p t e r3d e s c r i b e st h ew e b m i n e r b a s e do nj 2 e e a n ds t r u t s f r a m e w o r k s u b s e q u e n t l y ,c h a p t e r 4 p u t s d u ee m p h a s i so nt h e d e s i g n a n d i m p l e m e n t a t i o n o fw e b m i n e r , w h i c hi st h em a i nw o r ko ft h i s a r t i c l e i ni t ,t h ea u t h o ra n a l y z e st h ea r c h i t e c t u r ed e s i g n ,f u n c t i o nd e s i g na n d s e r v i c e si m p l e m e n t a t i o n t e c h n o l o g i e so f t h es y s t e mi nd e t a i l a sa l li l l u s t r a t i o n , a na p p l i c a t i o no fw e bd a t a m i n i n gm a c h i n ei s g i v e ni nc h a r p t e r5 ,a n dt h e p r o c e s so fd e p l o y i n ga na l g o r i t h mi sd i s c u s s e d a tl a s t ,e h a r p t e r6m a k e sa s u m m a r y k e y w o r d s :d a t am i n i n g ,j 2 e e ,s t r u t s i l l 。 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:壹霉绎一日期:沁时年厂月,日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 、 签名:互晔导师签名毋 日期:伽f 年f 月t 粕 w e b 数据挖掘机的服务端设计与实现 1 1 课题背景 第一章引言 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数 据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更 高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数 据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据 现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了 “数据爆炸但知识贫乏”的现象。因此,数据挖掘可以说是数据库技术与信息技 术发展到当前高度后的一个必然趋势。当人们不再为数掘如何存储、查询与管理 而大伤脑筋时,如何分析、理解与利用这些数据,就成为了数据使用者的必然要 求。 数据挖掘是八十年代,投资人工智能研究项目失败后,人工智能转入实际应 用时提出的。它是一个新兴的,面向商业应用的人工智能研究。选择数据挖掘这 一术语,表明了与统计、精算、长期从事预言模型的经济学家之间没有技术的重 叠。数据挖掘技术包括三个主要部分:算法和技术:数据;建模能力。 与数据挖掘密切相关的技术包括: 1 机器学习 机器学习是计算机科学和人工智能发展的产物,机器学习分为两种学习方 式:自组织学习( 如神经网络) 和从例子中归纳出规则( 如决策树) 。 2 统计 统计本包括预言算法( 回归) 、抽样、基于经验的设计等,现在也开始支持 数据挖掘。 3 决策支持系统 4 数据仓库 5 o l a p ( 联机分析处理) 、d a t a m a r t ( 数据集市) 、多维数据库等 将数据仓库、o l a p 、数据挖掘等技术融合在一起,即构成企业决策分析环 境。 简单来说数据挖掘就是从数据中发现知识和寻找规律,并用它们指导生产或 管理,提高效益。由于现实世界中产生的数据都是复杂数据,其复杂性表现为: 非线性、多因子、高噪声、非高斯分布、非均匀分布、以及自变量相关。因此, 如何处理复杂数据,研究数据挖掘的理论,寻求运用这些理论解决各种实际问题 w e b 数据挖掘机的服务端设计与实现 的方法,是形成核心技术的基础。开发实用的数据挖掘软件产品,组成一支通晓 数据挖掘技术、专业领域知识和有计算机应用经验的高素质技术队伍进行工程服 务,是推广应用这项技术的关键。 数据挖掘系统的开发,大致经过了四个阶段: 第一代数据挖掘软件一般是针对某个特定应用,编写一个或几个算法进行挖 掘,就构成一个挖掘系统。数据的表示、提取、整理、过滤以及挖掘结果的表示 统统集成在一起。数据一般采用向量模型来表示。该类系统通常缺乏数据管理手 段,挖掘的数据一次调入内存。其主要的缺点是当数据量比较大时,特别是变化 比较频繁时,就需要数据库或者数据仓库技术进行管理,第一代挖掘系统显然不 能满足要求。第一代数据挖掘软件的代表产品是新加坡国立大学开发的c b a 系 统。它实现的是基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关 联规则,使用关联规则进行分类和预测。 第二代数据挖掘软件的特点是与数据库管理系统的集成,能够支持数据库和 数据仓库,和它们之间具有高性能的接口,可扩展性大大提高。由于使用了数据 库系统管理数据,所以该类系统能够挖掘大型数据集以及更加复杂的数据集。第 二代系统的另一个显著的进步是用户与系统之间可以通过数据挖掘语言进行交 互,定义数据挖掘任务和返回数据挖掘结果。其主要缺点在于,由于没有统一的 模型描述标准,不同厂商的产品无法兼容。这一代的数据挖掘产品比较多,象 s f u 的d b m i n e r 和s a s 的s a se n t e r p r i s em i n e r 等。 第三代数据挖掘软件的特点是预言模型标记语言的广泛支持,数据挖掘系统 能够与预言模型系统无缝集成,使得数据挖掘软件产生的模型变化能够及时地反 映到预言模型系统中。由数据挖掘软件产生地预言模型能够自动地被操作型系统 接收,从而与操作型系统中的预言模型相联合提供决策支持的功能。这个时期的 另一个特点是网络数据挖掘和异质数据挖掘。 s p s s 公司的s p s sc l e m e n t i n e 属于第三代数据挖掘系统,它能够以p m m l 格式提供与预言模型系统的接口。 信息技术的发展使得移动计算愈发重要。将数据挖掘与移动计算成为当前的 一个重要的研究领域。第四代数据挖掘软件是指能够挖掘各种嵌入系统、移动系 统和普遍存在( u b i q u i t o u s ) 计算设备产生的各种类型的数据。 第四代数据挖掘原型或者商业系统尚未见报。p k d d 2 0 0 1 上k a r g u p t a 发表 了一篇移动环境下挖掘决策树的论文,k a r g u p t a 是u n i v e r s i t yo fm a r y l a n d b a l t i m o r e c o u n t r y 正在研制的c a r e e r 数据挖掘项目的负责人。该项目研究期限 是2 0 0 1 年4 月到2 0 0 6 年4 月,目的是开发挖掘分布式和异质数据的( u b i q u i t o u s 设备) 的第四代数据挖掘系统。 w e b 数据挖掘机的服务端设计与实现 1 2 课题任务 9 0 年代以来,基于组件和中间件的三层结构逐渐取代两层结构成为i n t e r n e t 环境卜电子商务系统开发的主流技术。s i r e 提出的j 2 e e 框架就是三层结构的代 表技术之一。 电子科技大学计算智能实验室数据挖掘小组开发的w e b 数据挖掘机 ( w e b m i n e r ) 是基于j 2 e e 架构的w e b 数据挖掘系统。由于经验方面的原因, 我们是在新西兰w a i k a t o 大学开发的w e k a 系统的基础进行开发的。w e k a 系统是 单机版的系统,我们在它的基础上设计并实现了w e b m i n e r 。我们重点研究网络 环境下的数据挖掘技术,特别是尝试在因特网上建立数据挖掘服务器,与数据库 服务器配合,实现基于w e b 挖掘。当前的工作已经基本完成了系统的框架以及 服务端的设计和实现。下一步的工作是完善整个系统的框架、实现整个系统界面 的个性化、丰富系统功能。 在整个系统开发中,我的工作主要是系统设计和e j b 服务器端的各功能的 具体实现。如数据库的连接,数据对象的生成,算法动态调用等。 1 3 内容组织 本文共分六章,具体内容如下: 第一章:引言。本章主要介绍了论文所讲述的数据挖掘的应用背景以及课题 的任务,并对论文的整体结构做一个概括。 第二章:数据挖掘概述。本章首先介绍了数据挖掘的概念和产生,然后介绍 了数据挖掘研究的任务、数据挖掘过程、常用方法和应用,最后介绍了数据挖掘 未来的研究方向。 第三章:w e b 数据挖掘机。本章主要介绍了电子科技大学计算智能实验室 ( c 1 1 a b ) 数据挖掘小组的基于j 2 e e 架构的w e b 数据挖掘机( w e b m i n e r ) ,对它 的功能、意义、背景技术以及系统软硬件环境进行阐述。 第四章:w e b m i n e r 的服务端设计与实现。本章是论文的重点部分,详细介 绍了w e b m i n e r 服务端的具体设计过程及实现方法。对系统的设计理念、功能、 体系结构、具体设计,服务端实现等方面进行了充分的分析和讨论。其中系统设 计,e j b 服务端的设计和具体实现是我的工作。 第五章:w e b m i n e r 中部署算法。本章将简单讨论将一个文本流主题提取算 法集成到w e b m i n e r 的步骤,并总结出部署算法的一般规律。 第六章:结束语。本章首先对整篇论:史做一个总结,然后对w e b m i n e r 今后 的工作进行规划。 w e b 数据挖掘机的服务端设计与实现 第二章数据挖掘概述 2 1 数据挖掘概念与产生 随着数据库技术的飞速发展以及数据库管理系统的广泛应用,各个企业和部 门通过自己的数据库管理系统,经过长年努力,已经积累了越来越多的数据。于 是,人们开始渴望通过对这些庞大的数据分析得到更多的有助于决策的信息。虽 然,目前的数据库系统可以高效率地实现数据的录入、查询、统计等功能,但由 于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐 藏的相互联系,更无法根据当前的数据去预测未来的发展趋势。因此,出现了所 谓“数据多,知识少”的现象,造成了严重的资源浪费。 建立在数据库系统之上的计算机决策支持系统出现,为进行高层次的数据决 策分析提供了好的思路和方法。但由于决策支持系统在数据的采集、分析方法上 的灵活性等方面存在局限性,使得人们不得不寻求更有效的途径去开拓数据决策 分析的思路。计算机人工智能为此作出了巨大贡献。人工智能经历了博弈、自然 语言理解、知识工程等阶段,已经进入了机器学习的热点阶段。机器学习能够模 拟人类的学习方式,通过对数据对象之间关系的分析,提取出隐含在数据中的模 式,即知识。 正是由于实际工作的需要和相关技术的发展,利用数据库技术来存储管理数 据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识, 这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知 识发现( k d d :k n o w l e d g ed i s c o v e r y i nd a t a b a s e s ) 。其中,数据挖掘技术便是k d d 中的一个最为关键的环节。 1 9 9 5 年,在加拿大蒙特利尔召开了第一届知识发现和数据挖掘国际学术会 议,数据挖掘一词被很快流传开来。人们将存储在数据库中的数据看作是形成知 识的源泉,形象将它们比喻成矿石。数据挖掘( d m :d a t am i n i n g ) 就是从大量 的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事 先不知道的、但又是潜在有用的信息和知识的过程【l 】。 总体来讲,数据挖掘是按照一定的规则对数据库和数据仓库中已有的数据进 行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,并利用它们 为决策者提供决策依据。由于数据挖掘的价值在于扫描数据仓库或建立非常复杂 的查询,数据和文本挖掘工具必须提供很高的吞吐量,并拥有并行处理功能,而 w e b 数据挖掘机的服务端设计与实现 且可以支持多种采集技术。数据挖掘工具应该拥有良好的扩展功能,并且能够支 持将来可能遇到的各种数据( 或文档) 和计算环境。 数据挖掘的产生与数据库技术密切相关。数据库技术在经过了8 0 年代的辉 煌之后,人们逐渐认识到,查询是数据库的奴隶,发现才是数据库的主人。专家 系统曾经是人工智能研究工作者的骄傲,但由于其在知识获取、知识表示、缺乏 常识等方面的瓶颈,使得专家系统目前还停留在构造诸如发动机故障论断一类的 水平上。这自然促使人工智能学者开始正视现实生活中大量的、不完全的、有噪 声的、模糊的、随机的大数据样本,走上了数据挖掘的道路。数理统计是应用数 学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今己有几百 年的发展历史,然而,数理统计和数据库技术结合得并不算快。在人们有了从数 据查询到知识发现、从数据演绎到数据归纳的要求之后,概率论和数理统计才获 得了新的生命力。 从进化的角度来看,数据挖掘技术的产生过程实际上反映了数据库技术的演 化过程,表2 - 1 【2 j 清楚地说明了这一点。 表2 - 1 数据挖掘技术的产生过程 进化阶段商业问题支持技术产品厂家产品特点 数据搜集 “过去五年提供历史性的、 中我的总收入 计算机、磁带和 ( 6 0 年代1 磁盘 i b m c d c静态的数据信 是多少? ”息 “在新英格关系数据库 数据访问兰的分部去年( r d b m s ) ,结 o r a c l e 、s y b a s e 、 在记录级提供 ( 8 0 年代)三月的销售额构化查询语言 i n f o r m i x 、i b m 、历史性的、动态 是多少? ”( s q l ) ,o d b c m i c r o s o f t数据信息 “在新英格 数据仓库; 兰的分部去年联机分析处理 p i l o t 、 在各种层次上 决策支持 三月的销售额( 0 l a p ) 、多维c o m s h a r e 、 提供回溯的、动 是多少? 波士数据库、数据仓 a r b o r 、c o g n o s 、 ( 9 0 年代) 态的数据信息 顿据此可得出库 m i c r o s t r a t e g y 什么结论? ” “下个月波 高级算法、多处 p i l o t 、 数据挖掘士顿的销售会 理器计算机、海 l o c k h e e d 、提供预测性的 ( 正在流行)怎么样? 为什 量数据库 i b m 、s g i 、其信息 么? ”他初刨公司 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,同时,也是 信息技术自然演化的结果。从机器学习到知识工程,从知识工程到专家系统,8 0 年代人们又在新的神经网络理论的指导下重新回到机器学习,随后又进入到数据 w e b 数据挖掘机的服务端设计与实现 库中的知识发现,接着又相辅相成地产生数据挖掘,在此期间,数据仓库技术的 出现和逐步成熟为数据挖掘技术的繁荣注入了强劲的动力,最近人们又认识到把 统计分析方法和数据挖掘有机地结合将是壤好的策略。因此数据挖掘是- - 1 7 交叉 学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领 域,其发展是一个螺旋上升的过程,近年来受到各界的广泛关注。 2 2 数据挖掘任务 数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖 掘的目标是从大量数据中,发现隐藏于其卮的规律或数据间的关系,从而服务于 决策。数据挖掘一般有以下几类主要任务: 2 2 1 数据总结 数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总 结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总 体层次上,从而实现对原始基本数据的总体把握。 传统的也是最简单的数据总结方法利用统计学中的方法计算出数据库的各 个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利 用统计图形工具,对数据制作直方图、饼状图等。 利用o l a p 技术实现数据的多维查询也是一种广泛使用的数据总结的方法。 2 2 2 分类 分类的主要功能是学会一个分类函数或分类模型( 也常常称作分类器) ,该 模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性, 并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型 来分析已有数据,并预测新数据将属于哪一个组。 分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种 类型,并以此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属 性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对 每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。 2 2 3 关联分析 数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值 之间存在某种规律性。这种关联关系有简单关联和时序关联两种。简单关联,倒 w e b 数据挖掘机的服务端设计与实现 如:购买面包的顾客中有9 0 的人同时购买牛奶。时序关联,例如:若a t & t 股票连续上涨两天且d e c 股票不下跌,则第三天i b m 股票上涨的可能性为7 5 。 它在简单关联中增加了时间属性。 关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度 或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,即使知 道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联 规则的强度。 关联模型的一个典型例子是市场菜篮分析( m a r k e t i n gb a s k e ta n a l y s i s ) ,通过 挖掘数据派生关联规则,可以了解客户的行为。 采用关联模型的成功典型案例是总部位于美国阿肯色州的w a l * m a r t 零售商 的“尿布与啤酒”的故事。w a l * m a r t 拥:舀世界上最大的数据仓库系统,它利用 数据挖掘工具对数据仓库中的原始交易数据进行分析,得到了一个意外发现:跟 尿布一起购买最多的商品竟然是啤酒。如果不是借助于数据仓库和数据挖掘,商 家决不可能发现这个隐藏在背后的事实:在美国,一些年轻的父亲下班后经常要 到超市去买婴儿尿布,而他们中有3 0 4 0 的人同时也为自己买一些啤酒。有 了这个发现后,超市调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销 售额。 2 2 4 聚类 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采 用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有 意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较 大。 统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的 聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进 行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述, 前者插述某类对象的共同特征,后者描述不同类对象之间的区别。 2 2 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别。 w e b 数据挖掘机的服务端设计与实现 2 3 数据挖掘常用方法 目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究和 开发。这些数据挖掘工具采用的主要方法包括决策树、神经网络、遗传算法,以 及可视化、o l a p 联机分析处理等。另外也采用了传统的统计方法。 1 、决策树( d e c i s i o nt r e e ) 利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树 的一个结点,再根据字段的不同取值建立树的分支:在每个分支子集中重复建树 的下层结点和分支的过程,即可建立决策树。国际上最有影响和最早的决策树的 q u i u l a n 研制的i d 3 方法,数据库越大这种方法运行的效果越好。在i d 3 方法的 基础上,又产生了许多决策树方法。 2 、神经网络( n e u r a ln e t w o r k ) 它模拟人脑神经元结构,以m p 模型和h e b b 规则为基础,建立了三大类多 种神经网络模型: 1 ) 前馈式网络它以感知机、反向传播模型、函数网络为代表,可用于预测、 模式识别等方面。 2 1 反馈式网络它以h o p f i e l d 的离散模型和连续模型为代表,分别用于联想 和优化计算。 3 ) 自组织网络它以a r t 模型、k o h o l o n 模型为代表,用于聚类。 神经网络的知识体现在网络连接的权值上,是个分布式矩阵结构;神经网 络的学习体现在神经网络权值的逐步计算上( 包括反复迭代或累加计算) 。运用神 经网络的方法产生许多分类器。 3 、粗糙集( r o u g hs e t s ) 在数据库中,将每个元组看成一个对象,列元素看成属性( 分为条件属性和 决策属性) 等价关系r 定义为不同对象在某个( 或几个) 属性上取值相同,这些满 足等价关系的对象组成的集合称为该等价关系r 的等价类。条件属性上的等价 类e 与决策厨眭上的等价类y 之间有三种情况:l 下近似:y 包含e ;2 上近 似:y 和e 的交非空;3 无关:y 和e 的交:勾空。对下近似建立确定性规则,对 以上近似建立不确定性规则( 含可信度) ,对无关的情况则不存在规则。 4 、概念树 对数据库记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概 念树。如:“城市”概念树的最下层是具体市名或县名( 如:南京、合肥等) ,它 的直接上层是省名( 如:江苏、安徽等) ,省名的直接上层是国家行政区( 如:华东、 w e b 数据挖掘机的服务端设计与实现 华北等) ,再上层是国名( 如:中国、美国等) 。利用概念树提升的方法可以大大地 浓缩数据库中的记录。对多个属性字段的概念树进行提升,将得到高度概括的知 识基表,然后再将知识基表转换为规则。 5 、遗传算法 这是模拟生物进化过程的算法,有三个算子组成: 1 1 繁殖( 选择) 是从一个旧种群( :迂代) 选出生命力强的个体,产生新种 群( 后代) 的过程。 2 ) 交叉( 重组) 选择两个不同个体( 染色体) 的部分( 基因) 进行交换, 形成新个体。 3 ) 变异( 突变) 对某些个体的某些基因进行变异( 1 变0 ,0 变1 ) 。 这种遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若 干代的遗传,将得到满足要求的后代( 问题的解) 。遗传算法己在优化计算和分 类机器学习方法方面发挥了显著的作用。 6 、统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性 关系) ;相关关系( 不能用函数公式表示,但仍是相关确定关系) 。对它们的分析采 用如下方法:回归分析、相关分析、主成分分析,从中可以发现有用的关联规则。 7 、模糊论方法 利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模 糊聚类分析。模糊性是客观存在的。系统的复杂性越高,精确化能力就越低,即 模糊性越强。这是z a d e h 总结出的互克性原理。 8 、联机分析处理( o l a p ) 联机分析处理( o n l i n ea n m y a c a lp r o c e s s i n g ,o l a p ) 主要通过多维的方式来 对数据进行分析、查询和报表。它不同于传统的联机事物处理( o n l i n e t r a n s a c t i o n p r o c e s s i n g ,o l t p ) 应用。o l t p 应用主要是用来完成用户的事务处理,如民航订票 系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比 较高。而o l a p 应用主要是对用户当前及历史数据进行分析,辅助领导决策。其 典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主 要是进行大量的查询操作,对时间的要求不太严格。 9 、数据可视化a h lv i s u a l i z a t i o n ) 对大批量数据的展现也是数据挖掘的重要方面。就数据可视化系统本身而 w e b 数据挖掘机的服务端设计与实现 言,由于数据量很大,很容易使分析人员面对数据不知所措,数据挖掘的可视化 工具可以通过富有成效的探索起点并按恰当的隐喻来表示数据,为数据分析人员 提供很好的帮助。 数据可视化工具大大扩展了传统商业图形的能力,支持多维数据的可视化, 从而提供了多方向同时进行数据分析的图形方法。有些工具甚至提供动画能力, 使用户可以“飞越”数据,观看到数据不同层次的细节。 2 4 数据挖掘过程 数据挖掘一般有以下几个主要步骤【3 】: 1 、数据收集 大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。 因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也 可以从数据仓库中得到。 2 、数据整理 数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的 “污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因 此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理, 从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘 的顺利进行。 3 、数据挖掘 利用各种数据挖掘方法对数据进行分析。 4 、数据挖掘结果的评估 数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实 际情况相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直 接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。 5 、分析决策 数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实 际情况,调整竞争策略等。 总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。图 2 1 显示了数据挖掘的一个典型过程。 w e b 数据挖掘机的服务端设计与实现 敏 描h i l 一一一一一一一一一一一一一一一一一一一一一蔓一一一j 图2 1 数据挖掘过程模型 数据清洗( d a t ac l e a r n i n g ) ,其作用是清除数据噪声和与挖掘主题明显无关 的数据: 数据集成( d a t ai n t e g r a t i o n ) ,其作用是将来自多数据源中的相关数据组合到 一起; 数据转换( d a t at r a n s f o r m a t i o n ) ,其作用是将数据转换为易于进行数据挖掘 的数据存储形式; 数据挖掘( d a t a m i n i n g ) ,它是知识挖掘的一个基本步骤,其作用是利用智能 方法挖掘数据模式或规律知识; 模式评估( p a t t e me v a l u a t i o n ) ,其作用是根据一定评估标准( i n t e r e s t i n g m e a s u r e s ) 从挖掘结果筛选出有意义的模式知识; 知识表示( k n o w l e d g ep r e s e n t a t i o n ) ,其作用就是利用可视化和知识表达技术, 向用户展示所挖掘出的相关知识。 2 5 数据挖掘应用 目前,数据挖掘的研究和应用非常热门,应用主要集中在以下几个领域 4 1 : 1 、金融 数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、帐户分类、银 行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工 或小软件进行分析预测。而数据挖掘可以通过对已有数据的处理,找到数据对象 的特征和对象之间的关系,观察到金融市场的变化趋势。然后利用学习到的模式 进行合理的分析预测,进而发现某个客户、消费群体或组织的金融和商业兴趣等。 2 、市场业 w e b 数据挖掘机的服务端设计与实现 市场业应用是利用数据挖掘技术进行市场定位和消费者分析,辅助制定市场 策略。 由于管理信息信息系统和p o s 系统在市场业的广泛普及,人们很容易得到 顾客购买情况的数据。利用数据挖掘技术,如:相关规则、模糊推理及统计方法 等,通过对顾客历史数据的分析,可以得到关于顾客购买取向和兴趣的信息,无 疑为商业决策提供了可靠的依据。 3 、工程与科学研究 数据挖掘技术可应用于各种工程与科学数据分析。 随着先进的科学数据收集工具的使用,如观测卫星、遥感器、d n a 分子技 术等,面对庞大的数据,传统的数据分析工具无能为力。数据挖掘技术以其强大 的智能性和自动性,在工程和科学研究中得到广泛应用。 数据挖掘在天文学和生物学中都有极为成功的案例。例如:在天文学应用中, j e tp r o p u l s i o n 实验室利用决策树方法对上百万天体进行分类,效果比人工更快、 更准确。这个系统还帮助发现了l o 个新的类星体。 4 、产品制造业 制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 例如:h p 公司的工程师使用a n g o s ss o f t w a r e 的k n o w l e d g es e e k e r 来进行 h p i l c 彩色扫描仪的生产过程分析。他们基于大约2 0 0 个参数建立了一个自动数 据收集系统,产生了难以手工处理的大量数据。 5 、司法 数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析等, 可以给司法工作带来巨大收益。 例如:美国财政部使用n e t m a p 开发了一个叫f a i s 的系统。这个系统对各 类金融事务进行监测,识别洗钱、诈骗等。该系统从1 9 9 3 年3 月开始运行,每 周处理约2 0 万个事务,针对超过l 亿美元并可能是洗钱的事务产生了4 0 0 多个 调查报告。 2 6 数据挖掘未来研究方向 尽管数据挖掘的研究取得了一些成果,然而其研究还很不成熟,其应用还有 较大的局限性,正是这些局限促使数据挖掘研究进一步发展。目前,数据挖掘研 究和应用面临的主要挑战有以下几点p 1 : 1 、处理不同种类的数据:由于在不同的应用中有很多不同种类的数据及数 据库,因此,期望知识发现系统能够对不同种类的数据有效地执行挖掘任务。因 为大部分可用的数据库是关系型的,故在关系型数据库上数据挖掘系统进行高效 w e b 数据挖掘机的服务端设计与实现 及有效的知识发现是非常迫切的任务。许多可用的数据库含有复杂的数据类型。 如结构化的数据、复杂的数据对象、混合文本、多媒体数据、时空数据、事务数 据及历史数据等。一个功能强大的系统应能在这些复杂数据类型的数据上进行有 效的数据挖掘任务。 2 、数据挖掘算法的效率及扩展性:为了从数据库大量的数据中有效地抽取 信息,知识发现算法运行大数据库必须是高效且可扩展的,即数据挖掘算法的运 行时间必须是可预见的并且是可接受的。指数级甚至是中等级的多项式的复杂性 在实际应用中将是不可接受的。 3 、数据挖掘结果的可用性、确定性及可表达性:所发现的知识需精确地描 绘数据库的内容并对己明确的应用是有用的。不完美的结果借助于不确定性来表 达,以相近的规则或多个规则来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校车安全知识培训心得课件
- 校园网络安全知识培训课件
- 校园用电安全知识培训课件
- 北仑小学语文知识培训课件
- 全微分考试题及答案
- 港口工程师面试题及答案
- 西和县会考试题及答案
- 医学综合试题及答案
- 消防员时政考试试题及答案
- 石油螺纹考试题及答案
- 2025年秋季开学第一次全体中层班子会议上校长精彩讲话:把小事做细、把细事做实、把实事做好
- 2025-2030中国物流园区自动化技术应用与智慧化改造趋势报告
- 2025年人武专干军事考试题库及答案
- 【G1工业锅炉司炉】理论考试题及答案
- 记账实操-酿酒企业的账务处理
- 2025版个体户灵活用工劳动合同范本
- 2025年小学体育教师招聘教材教法考试试题及答案
- 招标代理机构从业人员考试模拟试题及答案
- 湘教版分式的乘法和除法教案
- 跌水水力计算(水工结构版)
- 七年级英语下册阅读理解练习题30篇
评论
0/150
提交评论