WebService构架下的分布式数据挖掘_第1页
WebService构架下的分布式数据挖掘_第2页
WebService构架下的分布式数据挖掘_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Web Service W架下的分布衣数据挖Sii要:提出一种基于动态数据集划分改进的并行关联規则挖掘 算法,它是先实时评估处理器的工作性能后动态地分作量, 从而平衡负载。该算法能様大地实现分布式环境下的数据挖掘。关键词:web service数据挖掘特点1引言価着廿算机在社会的各行各业中得到了广泛而深入的应用和信息技术的不断的发展,各行各业特别是在商业、金融以汝数据分析 比较密集的领域中时刻那再产生出大量的廿算机数据,再JU± web 及internet技术的迅速发展网络中得各式各样的信息和数据也越来 越丰富。特别是当前的数据Q分布于不同地区,在面对这种大量的 gb级、tb级甚至更

2、多的数据的情况下,如何处理数量日益增长的 数据以及如何在这纷繁的信息数据中找到我们需要和精准的有用 信息就显得十分的重要。这样廿算机数据挖掘这一个年轻的学科在 当今的廿算机数据的处理和数据的挖掘中得到了越来越广泛的关 注和应用。所谓的数据挖掘,简单来说就是应用it算机的一系列算 法从海量的廿算机数据中提取或"挖掘”有用的信息。随着廿算机 应用和技术的不断发展,人们在数据挖掘技术的研究也获得了不錯 的成绩,数据挖掘在这种背景下得到了很大的发展。web服务是基于分布式架构并冃独立的运行于操作系貌的一种的 廿算机服务技术,通过这个可互操作的应用程序的平台和标准的 web怵议就可以it程序诉

3、问的应用程序逻辑。它貝有更M广阔的应 用空同是由于web服务的分布式的技术特点使得它具有聘平台和聘 internet的优点,这样就能成助的使用网络的强大的可伸缩性的特 自,完成很多用于重夏使用和互操作的目的的工作°web技术和数 据挖掘技术的良好切合就能避免传统数据挖掘中大量转储和效率 低下的缺点,提髙数据挖掘的效率和灵活性,为企业提髙效率和效 益提供了保障。2 web service 体系web service技术是面向服务的能昵给于服务的抽象定义和服务 的发布、貝体实现并给以服务査找、服务实例选择并实现可交互操 作的一种体系结构。web service体系结构基干服务提供者(se

4、rvice provider )、服务注册中 J& (service registry)和服务请求者(service requestor)之同的交互并依赖于依赖soap ( simple object access protocol). wsdl(web services description language)和 uddi(universal description discovery and integration)三者的技术。其中的交互包含了 发布(publish )、査找(find )和绑定(bind )操作。wsdl所提供的 服务描述是通11 web服务提供方送jj web

5、服务注册中心后,注册 中心基于wsdl所提供的服务描述,按照uddi的加议的要求更新 internet上的服务目录并发布在internet上。用户要与服务的提供商 取得通信就必须得到web服务提供者的服务接口和地址等信息,速 首先必须向注册中心发出通信请求,然后通11 soap怵议与其进行 连接和绷定服务后才能进行通信。服务提供者是实现web service的 应用平台,也同时是web service提供的最终供应商。它既负有服务 的发布、更新和回收的责任,同时它是web service的拥有者,描述 web service的内容并将这种描述发送到服务注册中心或服务i青求 者;服务注册中心集合

6、了大量在线的web service,在这个中心中对 web service进行注册。按照一段舸程序来讲,服务提供者在在线服 务器上安装T web service之后后,会在服务注册中心发布web service 服务。3 web service下的数据挖掘建立在分布式web service it算体系的这种数据挖掘系统结构的各 个局部子数据挖掘模块是独立存在并作为独立的web服务进行注 册以及发布的。它能晞在各个不同的的系貌和平台中移植,在实际 的操作中有相当好的的可移植性,并冃很好的协调不同平台的差异 以及不同数据结构中的差异,并且在系貌的用户透明性方面做得相 当好,灵活的跨越防火晴和服务器

7、进行通信和服务。这种体系结构 主要包括如图1所示的几个结构模挟:用户guio它是作为与用户之间起到交互作用的人性化界面, 这种界面根据不同的需求定別针对不同需求的用户服务,并作为结 果展现的界面。(2) 全局汇总模块。它是分析处理模块,该模块将挖掘舸局部数摒 处理的结果数据进行处理和分析,最终得到全局期望的知识表示。(3) 注册中心模块。它的主要功能是进行服务的注册和査询,从注 册中心用户可以获取所需的相关服务和对自己的挖掘服务进行发 布。(4) 对外服务模t夬。它是用来封装上述服务的模块,并向注册中心 发起注册命令,绑定服务的莆求。(5) 本地挖掘模块。它的功能是对本地数据源进行数据的挖掘,

8、对 请求者提供服务。(6) 预处理模块。它的功能基于一定规呱和定文对本地数据温进行 转换和抽取。4关取规朋|数据挖掘的两种算法4.1关联规则冋題的相关理论关联规则被描述为:设ni (1,2,3., n)是指除了能通过计算 机网络传递信息之外的其他介质独立的廿算机。dbi是ni上得分事 件数摒库,逆样总的事件数摒库的数目是db ( dbi 2和),总的事件 数就是。并行挖掘关朕规呱就是通agn个计算机同时完成数稠的 挖掘工作。各个计算机通过网络来通信,每个计算机这完成自己秋 有数据库中的数据di,在这个数据库中按照一定的规则进行挖掘,规 呱就是x->y,并基于以下的两个条件:sup(xuy

9、)minsupport和 sup(xuy)/sup(x) Mminconfidence。(其中 xny= , xy,xi)4.2关假规则数据挖掘的并行挖掘算法(1)基干分布式的cd算法。cd算法是基于apriori的一个简单并行 化算法,它的最大优点是能在空闲的廿算机上通过并行冗余廿算的 方式来达到誠小通信量的目的,同时在速度方面表现得也相当的 好,其速度能达到线性加速比的程度。cd算法是一种典型的基于分 布式关联规呱挖掘算法,能够在任意水平分区利用数据库分剧的方 式来完成并行化和并行廿算。它的作用过程是毎个分区单独扫描数 据库并廿算出支持度,各支持度经过加总若t T minsupport呱认

10、为 其是全局的。这种算法的每一次扫描结東后就建立一个同步自才能 扫描下一次分区。(2)基于动态数据集划分的并行挖掘算法。并行算法的重点就是在 于平衡处理器性能、处理器任务分配量以及网速等负我因素。cd算 法使得每个处理器获得同等数目的数据集,但由于每f数据集的稠 密度不同,这就使得每个处理器实际得到的任务的多少是不同的, 并冃未顾及处理器性能和网速的因素。基于动态数据集划分的并行 挖掘算法就是先实时评估处理器的工作性能后动态地分配给工作 量,从而平衡负载。5系统设廿基于web service的数稠并行挖掘平台中数稠集的支持度廿数是由 web service完成的。如图2中数据挖据客户端主要是承

11、担挖掘结果 的显示、挖肾任务的分配和汇总以及数据的预处理等功能,还包括 用户接口和web service本地代理。web service并行廿算网络包含了 很多数量的处理数据挖掘子任务的web service端。毎个分布的web service端上那有一个数据挖据子任务处理功能模块,他们负责对数 据子任务的挖掘工作,供web service调用者调用。中间连接两端的 是internet网络。在数据挖掘的客户端中的挖掘任务的分配和汇总模块的主要任 务是负责对各个数据挖掘web service端的廿算进行加调工作并基 于web service端的挖掘廿算情况把数据动态的分8!给各web servi

12、ce端。同时发送根稠多线程技术异步调用过的多个数摒挖掘 web service端发送数据,其代码是:pc = new dcd. localhost. dcdws ();pel = new dcd. localhostl. dcdws ();ac1 = new asynccallback (callback);ac2 = new asynccallback (callbackl);pc. begingetdb (db1 ,ac1 ,null);pel. begingetdb (db2 ,ac2 ,null);private void callback (iasyncresult assignha

13、ndle)start index+ = number;array. copy(db , start index, db1 , 0, number);pc. begingetdb (db1 ,ac1 ,null);private void callbackl (iasyncresult assignhandle)start index+ = number;array. copy(db , start index, db2,0 , number);pc. begingetdb (db2 ,ac2 ,null);这种算法就是根web service端的数据挖掘能力实现了数据集 的动态分配,避免了数据的过负保证了负载平衡,提髙了数据的挖 掘效果。6结语网络化、分布武并行舸数掘挖掘是数据库技术的一个重要的发展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论