




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于知识网格的分布式数据挖掘论文 摘要:本文在讨论知识网格体系结构的基础上,还讨论了知识网格是如何用于支持分布式数据挖掘。 关键词:分布式数据挖掘;网格计算;网格服务;Web服务资源框架 一、前言 随着科学、工业、商业等领域的发展,出现了大量的TB级甚至PB级的大规模数据集,在这些数据集中包含了大量的对生活、生产、科学研究等具有决策性作用的有用信息,那么如何从这些海量数据中提取信息是人们面临的一个重大的问题。显然,原先的集中式数据挖掘模式已无法满足人们的需求,这就需要探索出面向分布式数据挖掘的体系结构和工具。 二、知识网格 知识网格代表了数据网格的发展,为网格中分布式数据挖掘和抽取提供了高级工具和技术。知识网格是设计和实现分布式高性能知识发现应用环境的体系架构,用于执行网格中的数据挖掘,进行科学发现,发现有用的商业信息。 三、知识网格体系结构 知识网格体系结构是在Globustoolkits网格工具集和服务的基础上定义的。在Globus中,知识网格集成局部服务以提供全局服务。知识网格体系结构保证了数据挖掘工具和底层的网格机制和数据网格服务兼容。 知识网格服务由两层构成:核心知识网格层和高级知识网格层。 1.核心知识网格层 1.1知识目录服务(KDS)。该服务扩展了基本的Globus元数据目录服务(MDS),负责维护知识网格中数据和工具的描述。 要维护从一个特定数据仓库中挖掘出来的数据是不切实际的,但是维护一个已发现知识的数据库是非常有用的。这些信息被存放在知识仓库(KBR)中,但是描述它们的元数据仍由KDS管理。KDS不仅可用于搜索和访问原始数据,也可以发现原先已发现的知识,以便在数据改变时比较给定挖掘计算的输出,或者以递增的方式应用数据挖掘工具。 1.2资源分配和执行管理服务(RAEMS)。该服务用于在执行方案和可用资源间查找最佳映射,以满足应用需求(如计算能力、存储能力、主存、数据库、网络带宽和延迟)和网格约束。在执行方案激活之前,该层管理和协调应用的执行。该层并不是使用KDS和GlobusMDS服务,而是直接基于GlobusGRAM服务的。 2.高级知识网格层 2.1数据访问服务(DAS)。数据访问服务负责搜索、选择、抽取、转换和交付被挖掘的数据。搜索和选择服务是基于核心知识目录服务的。在用户需求和约束的基础上,数据访问服务自动进行查询和查找由数据挖掘工具分析的数据源。 2.2工具和算法访问服务(TAAS)。该服务负责数据挖掘工具和算法的搜索、选择和下载。描述其可用性、位置和配置的元数据存放在KMR中,并由KDS管理,而算法和工具则存放在每个知识网格结点的本地存储系统中。需要向其他用户导出数据挖掘工具的结点,首先必须使用KDS服务来发布该工具。还有其他的相关元数据,如参数、数据输入输出格式、实现的数据挖掘算法、资源请求和约束等。 3.3执行方案管理服务(EPMS)。执行方案是描述数据源、抽取工具、数据挖掘工具、可视化工具和KBR中的知识结果之间的数据流和交互的图形化表示。最简单的情况是,用户可使用可视化构造工具直接描述一个执行方案。然而,由于DAS和TAAS产生结果的多样性、数据和工具的位置、中间结果表示方法等的差异能产生多种不同的执行方案。因此,EPMS是由用户自行选择数据和程序的半自动化的工具,产生一系列满足用户、数据和算法需求及约束的多种可执行方案。 2.4知识表示服务(RPS)。知识可视化是数据挖掘过程中的重要步骤,它可以帮助用户解释发现的模式。该服务指出了如何产生、表示和可视化抽取的知识模型(关联规则、聚类模型、分类等)。结果元数据存放在由KDS管理的KMR中。KDS不仅用于搜索和访问原始数据,还可查找已经发现的知识。 四、执行管理 1.概念模型表示在知识网格内,UML活动图标形式化方法用于表示应用的概念模型,同时BPEL用于表示执行方案。活动图标表示构成应用逻辑的服务调用的高层次流通,而BPEL表示各种各样的服务实质上是如何调节和调用的。 2.执行计划表示 BPEL通常即可以表示抽象执行计划,也可以表示实例执行计划。在这个两个计划中,服务通过BPEL提供的partnerLinkType元件进行访问。这种元件能够将BPEL工作流与它包括的每项服务的ESDL描述联系起来。这两个执行计划的主要区别是:在抽象执行计划的BPEL文档中,服务的WSDL并不包括服务地点,而它们都包含在实例执行计划。 五、Weka4ws Weka4ws是一个框架,它扩展了广泛应用的开发式资源Weka工具包,用于支持在WSRF-enabled网格上的分布式数据挖掘。为运行远程的数据挖掘算法和管理分布式计算,Weka4WS采纳了WSRF技术。Weka4ws用户界面支持当地和远程的数据挖掘任务的执行。在每一个计算节点上,一个与WSRF兼容的WS被用来曝光由Weka程序库提供的所有数据挖掘算法。 网格架构发展迅速,所支持的程序的种类日益多样化,可使用的工具也日趋完善和复杂。网格服务的发展方向已从原先的基本的面向计算的服务转到高级信息管理和知识发现服务上来。知识网格系统为分布式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲乙丙合作协议合同范本
- 村级修桥安全协议书范本
- 顺义活塞机采购合同范本
- 股权转让合同的解除协议
- 私人财产投资协议书范本
- 汽修店工人雇佣合同范本
- 股东退休强制退股协议书
- 浙江小型仓库租赁协议书
- 自建房模具出售合同范本
- 水稻种植托管服务协议书
- GB/T 43983-2024足球课程学生运动能力测评规范
- 行政程序法管辖权论文
- 脑蛋白水解物注射液抗精神分裂症作用研究
- 体检中心医护培训课件
- 车间管理干部培训
- (浙江)现场流行病学调查职业技能竞赛备考试题库(含答案)
- 设立工业设计公司商业计划书
- 0到三岁日常保健知识讲座
- 2024年贵州水投水务集团有限公司招聘笔试参考题库含答案解析
- 辣椒种植和养护知识讲座
- 空中交通管理基础-电子课件 第一章概论
评论
0/150
提交评论