已阅读5页,还剩119页未读, 继续免费阅读
(计算机软件与理论专业论文)面向商业智能的并行数据挖掘技术及应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 随着企业信息化进程的不断推进,很多企业已经积累了大量的业务数据,但 这些业务数据的商业价值并没有得到充分的挖掘和利用。随着市场竞争的不断加 剧,企业需要商业智能指导业务行为并进行辅助决策,以便在激烈的市场竞争中 赢得主动和更多的商机。作为企业实现商业智能核心技术的数据挖掘技术虽然为 企业实现商业智能提供了可能和技术保证,但是面对企业复杂的数据分析问题, 现有数据挖掘技术显然不能很好适应并较好地解决所有这些问题。除了需要研究 更好的数据挖掘技术和理论以外,如何提高数据挖掘的效率已经成为学术界研究 的焦点。 本论文以商业智能应用为背景,以提高数据挖掘的效率作为研究目标,将并 行处理技术与数据挖掘技术紧密结合在一起,从并行数据挖掘体系结构、数据挖 掘结果模式的表达和存储、并行神经网络b p 算法以及其商业应用等四个方面, 为实现商业企业的商业智能提供了一整套解决方案。因此本论文的研究工作具有 较高的学术意义和实用价值。 论文的主要创新性工作可以归纳为以下几点: 在深入分析、归纳p r a m 、b s p 和阶段模型特点的基础上给出了三种并 行计算模型计算时间耗费的一般性公式,从而为并行体系结构或者并行 算法的性能评价提供了有价值的参考公式。 提出了一个面向商业智能的、具有较高数据挖掘效率的并行数据挖掘体 系结构。论文选择具有较高性价比的c o w 和p v m 作为并行计算平台; 通过在并行数据挖掘体系结构中增加模式库管理系统,对数据挖掘的结 果模式进行存储和管理,从而有效利用了历史模式,提高了整个数据挖 掘系统的效率。 提出了一种将关联、分类和时序三种数据挖掘结果模式进行统一存储及 统一操作的方法。论文利用关系数据库来存储关联、分类和时序三种数 据挖掘结果模式,并给出了存储方法的关系代数描述;为了方便对结果 模式的操作,又定义了结构化查询语言s p q l ( s t r u c t u r e dp a t t e r nq u e r y l a n g u a g e ) ,给出了s p q l 语句的具体实现方法。所提出的三种数据挖掘 结果模式存储方法是对多种结果模式存储方法进行的一次有益的、创新 性的探索。 设计出了一个可以较好解决局部极值、具有较快收敛速度的二次并行神 经网络t p b p 算法。并行t p b p 算法以具有较优性能的r p r o p 算法为 重庆大学博士学位论文 基础,通过不等量划分权值搜索空间的方法,在正式训练之前先并行地 寻找最小极值区域,然后再用第二次并行操作对b p 网络进行训练,从而 很大程度上避免了局部极小、加快了收敛进程、降低了e p o c h 数。实验 结果表明二次并行t p b p 算法具有较好的加速比性能和适用性。 结合重庆市应用基础项目的研究,建立并初步实现了一个医药销售趋势 预测模型。该医药销售预测模型采用了并行t p b p 算法,并在基于c o w 的并行计算环境下实现。实际应用效果表明,药品销售趋势预测模型所 给出的销售趋势预测值与实际销售情况基本吻合,对于企业的经营决策 具有较高的参考价值,同时也进步验证了论文所提出的并行数据挖掘 体系结构和并行t p b p 算法的可行性和实用价值。 关键词:商业智能,数据挖掘,并行体系结构,模式存储,并行算法,b p 算法 i i 英文摘要 a b s t r a c t m a n ye n t e r p r i s e s h a v ea c c u m u l a t e dm u c ho p e r a t i o n a ld a t aa l o n gw i t hu s i n g m a n a g e m e n ti n f o r m a t i o ns y s t e m t h e s ed a t ah a v en o tb e e nd u go u ts u f f i c i e n t l ya n d u t i l i z e df o rr e a lc o m m e r c i a l f o r w i n i n gi n i t i a t i v ea n d m o r ec o m m e r c i a lo p p o m m i t yi n f u r i o u sm a r k e t , b u s i n e s si n t e l l i g e n c ei sn e e d e dt og u i d a n c eb u s i n e s sb e h a v i o ra n dt o a s s i s t d e c i s i o n m a k i n g d a t am i n i n g ,ak e r n e lt e c h n i q u e i nb u s i n e s s i n t e l l i g e n c e , p r o v i d e sp o s s i b l e a n dt e c h n i c a la s s d r a n c ef o r r e a l i z i n g b u s i n e s s i n t e l l i g e n c e c o n f r o n t e dc o m p l i c a t e dd a t a a n a l y s i si s s u e ,e x i s t e d d a t a m i n i n g i s i n c a p a b l e o f a d a p t i n ga n ds o l v i n ga l l t h e s ep r o b l e m s b e s i d e ss t u d y i n gb e t t e rt e c h n o l o g i e sa n d t h e o r i e s ,h o wt oi m p r o v et h ee f f i c i e n c yo fd a t am i n i n gi sb e c o m i n gt h e f o c u so f a c a d e m i cr e s e a r c h t h i sd i s s e r t a t i o n e m p h a s i z e s t oe n h a n c et h e e f f i c i e n c y o fd a t a m i n i n ga n d b a c k g r o u n d s b u s i n e s si n t e l l i g e n c ea p p l i c a t i o n p a r a l l e lp r o c e s s i n gt e c h n o l o g ya n dd a t a m i n i n gt e c h n o l o g ya r ec o m b i n e dt i g h f l yi nt h et h e s i s ac o m p l e t es e to f s o l u t i o nf o r r e a l i z i n g b u s i n e s s i n t e l l i g e n c e i s p r o v i d e d t h e y a r ef r o m p a r a l l e l d a t a m i n i n g a r c h i t e c t u r et o e x p r e s s i o na n ds t o r a g e f o rm i n i n gr e s u l tp a t t e m ,t op a r a l l e ln e u r a l n e t w o r kb a c k w a r dp r o p a g a t i o na l g o r i t h ma n db u s i n e s sa p p l i c a t i o n t h er e s e a r c hw o r k o f t h et h e s i sh a sh i g h e ra c a d e m i cm e a n i n ga n d p r a c t i c a lv a l u e t h em a i ni n n o v a t i o nw o r k sc a nb ei n c l u d e dt ot h ef o l l o w i n g 1 a f t e ra n a l y z i n ga n di n d u c i n gc h a r a c t e r i s t i co fp r a m ,b s pa n dp h a s e sm o d e l s ,a g e n e r a lf o r m u l ao f t i m ec o m p u t i n gf o rt h r e ep a r a l l e lc o m p u t i n gm o d e l si sg i v e n t h i s e x p r e s s i o np r o v i d e s v a l u a b l er e f e r e n c ef o r p a r a l l e l a r c h i t e c t u r eo r p e r f o r m a n c e e s t i m a t i o no f p a r a l l e la l g o r i t h m 2 a p a r a l l e ld a t am i n i n ga r c h i t e c t u r ei sp u tf o r w a r d ,f a c i n gt ob u s i n e s si n t e l l i g e n c e a n dh a v i n gh i g h e rd a t am i n i n ge f f i c i e n c y t w op a r a l l e lc o m p u t i n gp l a t f o r m sa r e c h o s e n , c o wa n dp v m ,e a c hh a sh i g h e rr a t i oo fp e r f o r m a n c ea n dc o s t p a t t e r n b a s em a n a g e m e n t s y s t e m i sa d d e d ,w h i c hm a n a g e sr e s u l tp a t t e m w i t ht h i sh i s t o r y p a t t e r n sc a nb e u s e da v a i l a b l ea n dt h ee f f i c i e n c yo fw h o l ed a t a m i n i n gs y s t e mc a n b e i m p r o v e d 3 au n i f i e ds t o r a g ea n dm a n i p u l a t i o nf o rt h r e em i n i n gp a t t e r n si sr e a l i z e d ,w h i c h i n c l u d i n ga s s o c i a t i o nr u l e ,c l a s s i f ya n ds e q u e n t i a lp a r e m r e l a t i o n a ld a t a b a s ei s i 重庆大学博士学位论文 4 5 u s e dt os t o r et h r e em i n i n gr e s u l tp a t t e r n sa n dr e l a t i o n a la l g e b r ai su s e dt od e s c r i b e s t o r em e t h o d f o rm a n i p u l a l i n gr e s u l t p a t t e mc o n v e n i e n c e ,s p q l ( s t m c t u r e d p a t t e r nq u e r yl a n g u a g e ) i sd e f i n e da n dt h ed e t a i li m p l e m e n t a t i o nm e t h o di sa l s o p r e s e n t e d t h eu n i f i e ds t o r a g em e t h o di s ab e n e f i ca n di n n o v a t i o ne x p l o r ef o r s t o r i n gm u l t i p l e r e s u l tp a t t e r n a p a r a l l e l n e u r a ln e t w o r kt p b pa l g o r i t h mi s d e s i g n e d ,w h i c hh a v i n gh i g h e r c o n v e r g e n c es p e e d a n d s e t t l i n g l o c a le x t r o m u r np r e f e r a b l y b a s e do nh i g h e r p e r f o r m a n c e r p r o p a l g o r i t h m ,p a r a l l e lt p b pa l g o r i t h ms e a r c h e st h es p a c eu s i n g u n e q u a lp a r t i t i o nw e i g h t + t h el e a s te x 仃e r n u r na r e ai sp a r a l l e ls e a r c h e db e f o r e f o r m a lt r a i n i n ga n dt h es e c o n dp a r a l l e l o p e r a t i o ni s u s e dt ot r a i nb pn e t w o r k , l o c a le x t r e m u mc a nb ea v o i d e d ,c o n v e r g e n c ep r o c e s sb es p e e d e da n d e p o c h n u m b e rb er e d u c e d t h ee v i d e n c eo f e x p e r i m e n ti st h a tt w i c ep a r a l l e l st p b ph a s b e t t e ra c c e l e r a t ep e r f o r m a n c ea n d a p p l i c a b i l i t y c o m b i n i n g t h e p r o j e c ts u p p o r t e db yc h o n g q i n ga p p l i c a t i o nf o u n d a t i o n ,a m e d i c i n es a l et r e n dp r e d i c t i o nm o d e li se s t a b l i s h e da n dr e a l i z e d ,i nt h em o d e p a r a l l e l t p b p a l g o r i t h m i s a d o p t e d a n dc a r r i e do u ti nt h ec o w p a r a l l e l c o m p u t i n g e n v i r o n m e n t t h ee f f e c to fp r a c t i c a l a p p l i c a t i o n r e v e a l st h a tt h e f o r e c a s tv a l u eg a i n e df r o mm o d e li sa c c o r d a n c ew i t hr e a ls a l ea p p r o x i m a t e l y t h i s f a c tv e r i f i e dt h ef e a s i b i l i t ya n d p r a c t i c a l i t yo f p a r a l l e ld a t am i n i n g a r c h i t e c t u r ea n d p a r a l l e lt p b pa l g o r i t h mp r e s e n t e di nd i s s e r t a t i o n i th a sh i g h e rr e f e r e n c ev a l u e f o r e n t e r p r i s em a n a g e m e n ta n dd e c i s i o n m a k i n g k e y w o r d s :b u s i n e s si n t e l l i g e n c e ,d a t am i n i n g ,p a r a l l e la r c h i t e c t u r e , p a r a l l e la l g o r i t h m ,b p a l g o r i t h m i v 1 绪论 1 1 论文研究背景及选题意义 随着企业信息化进程的不断推进,多数企业已经积累了大量的业务数据。但 其中大多数应用仍处于联机事务处理( o l t p ) 阶段,这些业务数据的商业价值没 有得到充分的挖掘和利用。同时随着市场经济建设的不断深入,市场竞争加剧,企 业需要商业智能指导业务行为并进行辅助决策,从而为企业在激烈的市场竞争中 赢得主动和更多的商机。为了实现这些目标,使企业在激烈的市场竞争中处于有利 地位,必须充分利用先进的数据仓库和数据挖掘技术。近年来,作为企业实现商业 智能核心技术的数据挖掘技术得到了学术晃的广泛关注,它为企业实现商业智能 提供了可能和技术保证。 面对企业已经积累的大量业务数据,人们希望能够对其迸行更高层次的分 析,以便更好地利用这些数据。目前的数据库系统虽然可以高效地实现数据的录 入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的 数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的信息或者知识的手段。数据 挖掘就是从大量的数据中提取人们感兴趣的知识 1 。这些知识是隐含的、事先未 知的潜在有用信息,提取的知识表示为概念( c o n c e p t s ) 、规则( r u l e s ) 、规律 ( r e g u l a r i t i e s ) 等形式 1 】。更广义一点的讲擞据挖掘意味着在一些事实或观察数 据的集合中寻找模式的决策支持过程。 数据挖掘是一门交叉学科,它融合、汇聚了不同领域的最新技术成果,尤其 是数据库技术、人工智能技术、数理统计、可视化技术、并行处理技术等,并在 金融、保险、商业、证券及其它领域得到了广泛应用,取得了明显的效果。 尽管如此,数据挖掘的研究与应用仍然处于初级阶段,面对企业复杂的数据 分析问题,现有数据挖掘技术显然不能很好适应并较好地解决所有这些问题。除 了需要研究更好的数据挖掘技术和理论以外,如何提高数据挖掘的效率已经成为 学术界研究的焦点。 本论文以商业智能应用为背景,以提高数据挖掘的效率作为研究目标,结合 重庆市应用基础研究项目( 合同编号:7 9 6 8 ) 的研究,将并行处理技术与数据挖 掘技术紧密结合在一起,从并行数据挖掘体系结构、数据挖掘结果模式的表达和 存储、并行神经网络b p 算法以及其商业应用等四个方面,为实现商业企业的商 业智能应用探索一条有效的途径。因此本论文的研究工作具有较高的学术意义和 实用价值。 重庆大学博士学位论文 1 2 国内外研究现状 据国外专家预测,在今后的5 1 0 年内,随着数据量的日益积累以及计算机 的广泛应用,数据挖掘将逐步形成产业化规模。2 0 0 0 年7 月i d c 发布了关于信息 存取工具市场的报告,其中估计1 9 9 9 年数据挖掘的市场大概是7 5 亿美元,估计 在5 年内市场的年增长率( c o m p o u n d a n n u a lg r o w t hr a t e ) 为3 2 4 ,其中亚太 地区为2 6 6 【】 。数据挖掘( d a t a m i n i n g ) 技术的提出为我们有效识别出有效的、 新颖的、具有潜在效用的乃至最终可理解的模式提供了可靠的科学方法,并成为 当今国际人工智能和数据库等领域新兴且热门的研究课题,具有广阔的应用前景。 数据挖掘研究中一个很重要的问题就是如何提高数据挖掘的效率。提高数据 挖掘效率的主要途径有以下几个方面5 】1 6 】【1 1 】: 研究出效率更高的数据挖掘算法 提高系统应用的硬件性能和采用并行处理技术 对数据挖掘得出的结果进行存储利用 1 2 1 数据挖掘体系结构研究现状 典型的数据挖掘应用系统大都是以数据仓库或大型关系数据库为基础,加上 具有查询、分析、表示等功能的一系列工具,由多种技术组合而成,从而为用户 提供企业决策支持信息。整个数据挖掘应用系统结构一般分为三层:数据层、核 心挖掘模块和结果表示工具1 0 】 1 4 】。数据层是整个系统的基础,它为上层的挖掘 模块提供数据,离开了数据,对数据的分析也就无从说起。一个好的数据挖掘工具 应该能够提供存取多种数据的能力。挖掘模块是整个系统的关键所在,其中包含 了各种挖掘算法的实现。通过这些模块,用户可以挖掘到不同种类的知识。挖掘 模块提供对多少种模式的支持是衡量一个挖掘工具功能的重要指标。通过结果表 示工具,用户能够方便地对挖掘出来的结果进行评价和理解。结果表示工具提供 直观、简洁的方法表示大量的信息,有助于定位重要的数据和评估模式的质量。 现有的一些数据挖掘系统主要有: q u e s t 垆1 :由i b m a l m a d e n 研究所的r a g r a w a l 等人研究开发。面向大型数据 库,包括挖掘关联规则、分类规则、序列模式和相似序列等; d b m i n d ,j :由加拿大s i m o nf r a s e r 大学的j h a n 等人研究开发。这是一个交 互式的、多层次挖掘系统,主要挖掘特征规则、分类规则、关联规则和预测等; k d w + :由g t e 的p i a t e t s k y - s h a p i r o 等人研究开发。采用多策略、统计方法 等: e x p l o r a :由g m d 的k l o s g e n 研究开发,这是一个多模式、多策略发现的辅 助发现系统; s k i c a t :由日本的k a y y a d 等人研究开发,用于大规模天空测量数据分析; 1 绪论 1 m a c s :由a t & t 的b r a c h m a n 等人研究开发,用于知识库的建构: 其中,比较有代表性的两个系统是i b m 公司的q u e s t 系统( 该系统在p c 机上的版本为i n t e l l i g e n tm i n e r ) 和加拿大s i m o nf r a s e r 大学开发的 d b m i n e r 。 当前,建立在数据库或者数据仓库之上的数据挖掘系统已经可以在一定程度 上满足用户的需要,但是在应用实施过程中也存在着一些问题,比较突出的有以 下几点: 数据空间膨胀加剧:随着时间的推移,数据仓库的空间不断膨胀,其存储 规模已经从千兆( g ) 字节向兆兆( t ) 字节发展,并且数量级还有不断增大的趋 势。因此,必须找到一种可行的方案,以便在不增加企业计算能力的前提下提高 数据仓库的利用率。 数据挖掘的效率不高:数据仓库中存储的往往是海量数据,有专家测算仅 有7 左右的数据对挖掘结果产生影响,所以一般挖掘工作的速度通常都比较慢, 用户需要等待一段时间才能看到挖掘的结果。随着数据仓库体积的不断扩大,这 种矛盾也日益突出。 历史模式不能得到有效利用:当前的数据挖掘工具对于挖掘的结果大多只 做一次性的分析,对于分析得到的结果只进行简单存储,并未进行有效利用。通 常的做法是把挖掘结果存入一个预先定义的格式文件中。用户要对挖掘结果进行 查询操作很不方便,要统一管理这些结果就更困难。国际上,这方面的研究工作 同前还刚刚开始。 不同系统之间的互操作性差:现有的数据挖掘产品一般都有其特定的结果 存储格式,不同挖掘工具之间要共享挖掘的结果非常困难,不能象关系数据库之 间那样用统一的s q l 语句来操作数据,或者通过通用数据库接口o d b c 、j d b c 等来共享数据。因此,如果一个企业想利用不同的挖掘工具来进行数据挖掘,就 很难同时利用各种工具的优点。 针对商业智能需要,采用并行处理技术的体系结构研究较少【1 4 】【1 6 【8 4 】:现 有的数据挖掘系统大多针对一般的数据挖掘应用需求,专门针对商业智能需要的 系统较少,采用并行处理技术的数据挖掘体系结构的研究也不多见。 1 2 2 神经网络挖掘技术现状 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,其组织能 够模拟生物神经系统对真实世界所作出的交互反应55 1 。人工神经网络试图通过将 大量的简单计算神经单元进行连接以模拟人的大脑,因为人们相信大脑的计算和 思维能力来自于大量神经单元的并行或者分布式计算。这种设计理念已经在文字 语音转换、蛋白质结构分析、手写体识别、图象与信号处理、计算机视觉等应用 重庆大学博士学位论文 领域得到了有效验证。 人工神经网络是对生物神经系统的模拟,其信息处理功能是由网络单元( 神 经元) 的输入输出特性( 激活特性) 、网络的拓扑结构( 神经元的连接方式) 、连 接权的大小( 突触联系强度) 和神经元的阈值所决定的。 到目前为止,已经出现许多神经网络模型及相应的学习算法,对学习算法的 分类主要有 5 5 】: 联想式与非联想式学习:联想即为映射,它将有限个输入矢量变换成事先 给定的矢量,若要求记忆具有容错能力,那么输入矢量邻域内的切矢量也都应 该变换到相应输出矢量的某个邻域内。 监督与无监督学习:监督学习或称有导师学习,利用给定的样本标准进行 分类或模仿,另一种是无监督学习或称无导师学习,只规定学习方式或某些规则, 而具体的学习内容随系统所处环境而异,系统可以自动发现环境特征和规律性, 具有更接近人脑的功能。 阶层式与相互连接式学习:相互连接式学习,即每个神经元都和所有其它 神经元相连接,也就是全互连网络。而在阶层式学习中,神经元是分层排列的。 几种具有普通意义的学习规则为1 5 “: 随机型学习f s t o c h a s t i cl e a r n i n g ) :结合随机过程、概率和能量概念来调整 网络的变量,从而使网络的目标函数最小或最大。 赫布型学习( h e b b i a nl e a r n i n g ) :赫布型学习是一种相关学习,基本思想是 如果两个神经元同时兴奋,则它们之间的突触得以增强,a w i l = a i a ,为i 、 j 之间连接权变化量,口i ,a ,为第i 、j 单元的激活值( 输出) 。 竞争型学( c o m p e t i t i v el e a r n i n g ) :在网络的某单元群体中,所有单元相 互竞争对外界刺激模式的响应能力,竞争取胜的单元抑制了竞争失败单元对刺激 模式的响应。 误差修正型学习( e r r o r - c o r r r c f i o n l e a r n i n g ) :误差修正型学习是一个监督学 习过程,其基本思想是利用单元期望输出与实际输出之间的偏差作为连接权调整 的参考,最终减小这种偏差。 主要的神经网络模型有酬: 单层神经网络s l p ( s i n g l el a y e rp e r c e p t r o n s ) 多层神经网络m l p s ( m u l f i l a y e r p e r c e p t r o n s ) 发散基函数网络r b f s ( r a d i a l b a s i sf u n c t i o nn e t w o r k s ) h o p f i e l d 网络 长期以来,许多学者一直致力于人工神经网络( a n n ) 的计算机模拟实现。 最受欢迎的串行神经网络模拟器是由d e r u m e l h a r t 及其并行分布式处理( p d p ) 4 i 绪论 研究小组于1 9 8 6 年提出的,它被移植到多种串行处理系统,供人们学习人工神经 网络,并用来解决实际问题。其最新版本被称为p d p + + ,具有图形用户接口g u i , 采用c 十+ 编写,同时提供c s s ( cs u p e rs c r i p t ) 角本语言用于调试神经网络,访 问当前神经网络的变量值,具有方便灵活等特点,且免费提供源代码,但没有开 发并行版本的p d p + + 。另外一个具有代表性的串行模拟器是由s t u t t g a r t 大学在 1 9 9 0 年前后开发出来的,被称为s n n s ( s t u t t g a r t n e u r a l n e t w o r ks i m u l a t o r ) 。s n n s 具有图形用户接口,单一内核,提供多个模块进行切换,其并行版本可以用来训 练同一神经网络的多个副本,或者在多个网络工作站上同时训练不同的神经网络。 其它的串行神经网络模拟器还有u c l a s f n i x 、n e x u s 、s w i m 、n s l 等。 为了提高较大规模神经网络训练和学习的效率,借助神经网络自身固有的并 行性,采用并行处理技术来实现神经网络是主要途径之一。在这一领域所做的主 要工作有 8 】: g h o s h 等人1 9 8 9 年对通用神经网络在多处理机上的实现进行了研究,主要内 容包括从神经网络模型到多处理机体系结构的映射。不久,c h u 和w a h 等对基于 消息传递的多计算机上的多层前馈神经网络的学习过程进行了优化,同时在s u n 工程工作站网络及超立方体结构上的采用b p 回推算法的神经网络并行模拟器也 相继出现。 有时,人们把神经网络的计算需求表示为矩阵向量计算。在这种情况下,一 些特殊的算法被设计出来用于将这些计算需求映射到s i m d 机器上。也有一些学 者运用s y s t o l i c 体系结构来实现人工神经网络。 一部分学者将研究的重点放在专用或者特定体系结构人工神经网络算法的设 计上。例如,z h a n g 等人在c o n n e c t i o n m a c h i n e 2 机器上实现了多层前馈神经网络 的b p 算法;1 9 9 4 年,v k u m a r 等成功实现了b p 算法到超立方体及相关体系结 构的映射,并给出了理论和实验结果,证明了这种映射的有效性。主要涉及的并 行体系结构有:超立方体、共享存储器的多处理机、分布式存储器多处理机、多 总线系统等。 专用体系结构具有速度和效率的优势,但投入的成本较高,同时可提供的灵 活性有限。而通用体系结构的实现具有不可比拟的优势,那就是很多不同规模、 运行不同算法的人工神经网络模型可以在同一体系结构上模拟,提供了速度和灵 活性的平衡。因此相当一部分学者将注意力集中在通用体系结构神经网络的实现 上。 通用体系结构上的神经网络实现应重点考虑以下几个方面【9 : 神经网络固有并行性的理论分析:在实际创建一个神经网络并行实现环境 以前,神经网络本身并行粒度和通信开销的分析非常重要,它决定了整个并行实 重庆大学博士学位论文 现的成败。 可移植性:一般情况下,并行处理系统其生命周期有限,为了避免为不同 的并行机器重写程序代码,可以采用模块化和模块转换技术,使编写出的软件具 有较好的可移植性。 易于用户使用:应为用户提供图形用户界面g u i ,方便用户选择神经网络 结构、设置适当的参数等。 神经网络模型不同层次的访问能力:可为初学者提供图形用户界面,为专 业人员提供神经网络模型内部层次和并行结点的访问能力。 1 _ 3 论文研究的主要内容 本博士论文研究的主要目的是通过对现有数据挖掘体系结构及并行体系结构 的分析,探讨一种适合商业企业面向商业智能应用的并行数据挖掘体系结构;针 对实现商业智能数据分析及预测的需要,研究设计高效、实用的并行神经网络算 法:依据以上研究成果,建立一个实用、可行的并行数据挖掘环境,运用设计出 的并行数据挖掘算法解决商业智能中的数据分类及数据预测等关键问题;对提出 的并行数据挖掘体系结构及所设计的并行数据挖掘算法进行正确性验证和性能分 析。 论文研究的主要内容及创新包括以下四个方面: 并行数据挖掘体系结构:并行数据挖掘体系结构是并行数据挖掘技术研 究的重要内容,是实现并行数据挖掘的基础,选择适当的、高效的、具 有较高性价比的商用并行体系结构是整个研究工作的基础。本文拟对 s m p 、m p p 、d s m 、c o w 等并行体系结构的性能进行对比分析,探讨并 行程序设计环境p v m m p i 的适用性,结合数据挖掘结果存储结构的研 究,提出一种面向商业智能应用的、具有较高挖掘效率的并行数据挖掘 体系结构。 数据挖掘结果模式存储方法:数据挖掘结果模式的存储和利用是提高数 据挖掘效率的手段之一。本文在分析关联、分类和时序三种数据挖掘结 果存储的基础上,提出一种将多种数据挖掘结果模式进行统一存储、统 一操作的方法,从而为并行数据挖掘体系结构中的模式存储和操作提供 有力的支持。其中,数据挖掘结果模式的关系代数描述以及结果模式的 结构化查询语言s p q l ( s h n a c t u r e dp a t t e r nq u e r yl a n g u a g e ) 的定义和实 现将是本文研究的重点之一。 并行数据挖掘算法:并行数据挖掘算法是实现并行数据挖掘的关键。采 用并行处理技术是提高数据挖掘效率的有效途径。本文拟以经典的神经 1 绪论 网络b p 算法为基础,参考已有的些并行算法,针对商业智能的客户分 类、市场预测等需要,以提高算法的挖掘效率和适应性为目的对算法进 行改进,并在此基础上设计出相应的并行算法,从算法的数据划分、并 行策略、数据分布等方面进行突破,并对算法的正确性和性能进行分析 和验证。 并行数据挖掘算法应用研究:将高效、适用的并行数据挖掘体系结构和 并行挖掘算法应用于商业流通等领域是我们进行并行数据挖掘技术研究 的目的。本文将并行数据挖掘体系结构和并行挖掘算法的研究成果应用 于大型医药商业流通企业,解决企业的客户分类以及销售预测等关键问 题,通过实际应用对所设计的并行数据挖掘体系结构和并行数据挖掘算 法进行验证。 1 4 论文组织结构 论文共分7 章,其中: 第1 章:阐述了论文工作的研究背景以及论文选题对于商业智能理论和实际应 用的重要理论价值和实际意义,对国内外的研究进展和现状进行了较全 面的分析介绍,说明了论文研究的主要内容。 第2 章:本章对商业智能的概念、体系结构、关键技术、商业智能应用过程以 及商业智能和数据挖掘的关系作了比较全面的归纳和介绍,同时对其核 心技术,即数据挖掘技术的关联规则、决策树、神经网络、聚类等技术 进行了介绍。 第3 章:本章对并行数据挖掘技术涉及到的并行计算抽象模型、并行计算复杂 性理论、并行算法性能指标、并行程序设计环境和编程模型以及数据挖 掘并行策略等关键问题进行了介绍和讨论。 第4 章:本章针对数据挖掘效率和挖掘结果历史模式的利用这两个问题,重点 分析了c o w 对于商业智能应用的可用性和特点,结合数据挖掘结果存 储结构的研究,提出了一种适用于面向商业智能的、具有较高挖掘效率 的并行数据挖掘体系框架结构。 第5 章:本章探讨了将多种结果模式统一存储、统一操作的方法,采用关系代 数对关联、分类和时序三种结果模式的存储方法进行了描述,同时提出 了结果模式在传统关系数据库中的操作方法,给出了各种操作语句的形 式化定义和实现方法。 第6 章:本章以在商业智能应用中具有代表性的神经网络b p 算法为重点,对并 行数据挖掘算法的并行化方法进行深入探讨,提出了个经过改进的并 重庆大学博士学位论文 行t p b p 算法。同时结合重庆市应用基础项目的研究和提出的并行算 法t p b p 算法,建立和实现了一个用于医药销售的预测模型。 第7 章:论文工作总结和今后的研究方向。 2 商业智能与数据挖掘 2 商业智能与数据挖掘 本博士论文研究的主要目的是探讨如何建立面向商业智能应用的并行数据挖 掘系统,商业智能和数据挖掘是论文工作的基础。本章将重点介绍商业智能概念、 主要应用领域、核心技术以及商业智能系统的体系结构、商业智能应用的数据挖 掘过程,以及商业智能中采用的主要数据挖掘技术等。 2 1 商业智能 2 1 1 概念与定义 商业智能b i ( b u s i n e s si n t e l l i g e n c e ) 的概念最早是g a r t n e rg r o u p 9 】于1 9 9 6 年 提出来的。当时将商业智能定义为一类由数据仓库( 或数据集市) 、查询报表、数 据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的的技 术及其应用。商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的 各级决策者获得知识或洞察力,促使他们做出对企业更有利的决策。 从系统的观点来看,商业智能的过程是从不同的数据源收集的数据中提取有 用的数据,对数据进行清理以保证数据的正确性,将数据经转换、重构后存入数 据仓库( 这时数据变为信息) ,然后寻找合适的查询和分析工具,数据挖掘工具, o l a p 工具对信息进行处理( 这时信息变为辅助决策的知识) ,最后将知识呈现于 用户面前,转变为决策。可以看出,企业信息化是商业智能应用的基础,商业智能 最大限度地利用了企业信息化中的数据,将企业数据整理为信息,再升华为知识, 从而对用户提供最大程度的支持。 商业智能系统的最大好处是可以锝到最精确、最及时的信息,帮助企业赢褥 竞争优势。企业的决策者们可以据此分析顾客的消费趋势,培养忠实顾客,加强 与供应商的联系,减少财政支出,挖掘新的商业机会,分析未来发展趋势,展开 商业策略,调整产品结构、分销渠道、工作流程和服务方式等。 2 1 2 核心技术 商业智能实质上是数据转化为信息的过程,这过程也可称为信息供应链, 其目的是把初始的操作型数据变成决策所使用的商务信息。在这一过程中,数据 集成工具执行源数据的清洗、格式转化和合并计算等功能;数据存储过程建立数 据存储模型,存储企业统一的数据视图,为商业智能系统的应用提供基础数据: 数据分析工具一般包括o l a p ( 联机分析处理) 、数据挖掘工具、统计分析工具、 其它人工智能工具等,这些工具结合商业处理规则为决策者提供决策辅助信息。 从商业智能系统建立的技术角度来看,构建一个完整的商业智能系统涉及到 9 重庆大学博士学位论文 以下几种核心技术【9 j : 数据仓库技术 数据仓库是一个面向主题的、集成的、稳定的、包含历史数据的数据集合, 它用于支持管理中的决策制定过程【1 【8 2 】。商业智能及其核心技术数据仓库系统是对 数据处理技术的集成,而商业智能系统的核心是解决商业问题,它把数据处理技 术与商务规则相结合以提高商业利润、减少市场运营风险,是数据仓库技术、决 策处理技术和商业运营规则的结合。 数据仓库与传统数据库的最大区别在于数据库用于企业日常事务处理,而数 据仓库用于商务分析处理。建立数据仓库的目的在于在不影响日常操作处理的前 提下,对业务信息进行分析以辅助企业决策,为决策支持系统提供应用基础。因 此数据仓库与数据库是应用于企业营运不同目的的两种数据管理系统。 数据存储技术是数据仓库技术的核心,在数据仓库中被集成的数据通常以星 型模式来组织数据,即事实表一维表结构。事实表也称为主表,包括商务活动的 定量的或实际的数据,这种数据是可以用数字度量的,由多行和多列组成:而维 表又称为辅助表,一般比较小,是反映商业某个维的描述性数据。事实表和维表 通过关系进行连接。在扩展的星型模式中,维表本身还可以包括维表,从而构成 数据仓库中商务事实的物理存储模式。 数据仓库具有以下几个特点 1 j 1 2 】:数据仓库中的数据是面向主题的、集成的、 不可更新的( 稳定的) 、随时间不断变化的,建立数据仓库的目的是为了更好地支 持决策的制定。 联机分析处理o l a p 根据o l a p 委员会的定义,联机分析处3 望( o n l i n e a n a l y t i c a lp r o c e s s i n g ,简称 0 l a p ) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化 出来的、能够真正为用户所理解的、并真实反映企业维度特性的信息进行快速、 一致、交互地存取,从而获得对数据的更深入了解的一类软件技术【1 5 j i 9 2 1 。它的技 术核心是“维”这个概念,因此0 l a p 也可以说是多维数据分析工具的集合。有些历 史的企业将会积累下大量的来自外部或内部的数据,在进行o l a p 分析时,要先将 这些数据批量装入数据仓库。此外,业务系统也会不断产生新的数据,并需要增 量装入数据仓库。 数据仓库建立之后,就可以利用o l a p 复杂的查询能力、数据对比、数据抽取 和报表来进行探测式数据分析了。之所以称其为探测式数据分析,是因为用户在 选择相关数据后,通过切片、切块、上钻、下钻、旋转等操作,可以在不同的粒 度上对数据进行分析尝试,得到不同形式的知识和结果。 在多维数据结构中,按二维选择数据,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年生物信息学研究员岗位招聘面试参考试题及参考答案
- 2025年身体健康顾问岗位招聘面试参考题库及参考答案
- 供电企业人力资源管理存在的问题及对策分析 志鹏
- 人员绩效考核与激励机制优化总结
- 人力资源培训工作总结范文6
- 检验检测机构专业技术人员档案的管理
- 环保项目合同的法律解析
- 企业怎么完善绩效考核管理制度5
- 中文毕业论文题目
- 大学生毕业论文题目大全集
- 小学全国交通安全日主题班会 课件
- 中国林业招聘面试题及答案
- 2025秋南水北调生态环保工程有限公司招聘(15人)考试笔试备考题库及答案解析
- 储能集装箱电池充电桩配套方案
- 2025年基层卫生考试试题及答案
- 2024年湖南岳麓山实验室招聘笔试备考题库参考答案详解
- 2025文旅行业新媒体营销趋势报告
- (一模)2025学年第一学期杭州市2026届高三年级教学质量检测 英语试卷(含标准答案)
- 2024年下半年全国事业单位联考C类《职业能力倾向测验》真题
- 220KV输电线路运维策划方案
- 信访维稳业务知识培训课件
评论
0/150
提交评论