已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)校园网格环境下“数字化党校”信息分布式数据挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项士学位论文 m a s t e r st h e s l s 中文摘要 随着计算机技术的快速发展,迫切需要实现计算资源,数据资源,信息资源, 设备资源等各种网络资源的有效共享,方便用户使用,同时还要不必考虑计算机的 硬件类型,计算机的放置地点,以及计算机所安装的操作系统类型,以及实现多个 异步计算机共同工作,提高整个网络的吞吐量。在这种情况下,网格技术应运而 生。数字化党校”网格平台正是以网格技术为切入点,以达到消除信息孤岛,充 分实现数据资源的共享。 但是随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的 应用,使海量数据不断产生。如何对”数字化党校 网格的数据进行有效地整理和 组织,从中提取我们感兴趣的知识这就需要w e b 数据挖掘技术。本文正是采用 网格和w e b 挖掘这两个工具,以达到对数据的有效整合。为此,本论文重点研究了 两个方面的内容:一是实现对 数字化党校”系统进行网格化,得到适合w e b 挖掘 的网格平台;二是设计一种适合于 数字化党校 网格平台下的w e b 数据挖掘的算 法。 所以,本论文首先分别介绍了网格的背景,w e b 数据挖掘的现状,网格模型的 基本思想,以及常用的w e b 数据挖掘方法。 资源的调度是网格能否高效利用资源的关键组件。本文借助资源的调度的网格 模型,实现对w e b 挖掘模型建立。本文根据数字化党校”网格资源的特点,采用 基于w e b 服务的分布式数据挖掘方法,同时借鉴i d 3 算法,c 4 5 算法,c h a i d 算法 和c a r t 算法等四个经典的决策树算法,并在此基础上,提出了一个适合于 数字 化党校 网格平台环境的决策树算法合并和修剪决策树算法,运用它对原始决 策树的合并和修剪,既可以扩大决策树的知识涵盖面,提升其预测未知知识的准确 度外,还在与原始决策树相比,具有更少节点数,降低了决策树的复杂度。 最后,本论文给出了全文总结和结论,并概述了今后进一步研究的方向。 关键字:“数字化党校 网格平台;网格模型;w e b 挖掘;i d 3 算法;c 4 5 算法; c h a i d 算法;c a r t 算法;合并和修剪决策树算法 u s ei tt op r u n i n ga n dm e r g ei t so r i g i l l a ld e c i s i o n 砸,w ec a nn o to n l ye x p a n d 伧 c o v e r a g eo ft h cd e c i s i o n 廿l = eo fk n o 、l e d g e ,e n l 瑚1 c et h ef o r e c a s tp r e c i s i o no fm e i r u n b o 吼酬e d g e ,b u ta l s 0h a v e 受w e r n o d e sc o m l 嫩e d 谢也n l e 耐g i l l a ld e c i s i o n 骶, 舭洫g t h ec o m p l e x i 锣o f 也ed e c i s i o n 缸l e e f 试a l l y ,t h i sp a p e rp r e s e n t e dt 1 1 e 跚m m a 巧a n dc o n c l u s i o n s ,锄do u t l i n e d 也ef i l t u r e d i r e c t i o nf o r 如m l e rs t u d y k 叼唧o r d :d i g i t a lp a 啊s c h o o i ”西dp l 砌) m l ;鲥dm o d e l ;w e b 洫迦; i d 3a l g o r i t l l m ;c 4 5a l g o r i 也l n ;c h a a l g o r i t l l m ; c j r ta l g 嘶吐n ;m e r g e r p m l 血1 9a n dd e c i s i o n t r e ea 1 9 0 r i 也m 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者鲐吴仕谦 日期:加8 年岁月刁日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 作者签名: 星仁壕 日期:佣5 年岁月碣日 - 。- - - - - - - - - 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。园童途塞堡窒厦进卮! 旦圭生i 旦二生i 旦三生筮查: 作者签名:睾仁谁作者签名:孚眵瞬 日期:枷雷年箩月谤日 导师签 日期: 1 1 引言 第一章绪论 网格被誉为继传统i n t e r n e t 、w e b 技术之后的第三次互联网革命,它是i n t e n l e t 发展的高级形式,其目标是将跨地域的多台高性能计算机、大型数据库、通信设备 和各种传感器重整合成一台巨大的超级计算机系统,从而可以不必考虑地点、硬件 类型和操作系统之间的差异,使总体性能真正超越各部分性能之和,来实现计算资 源、存储资源、数据资源、信息资源、知识资源、专家资源、设备资源全面共享和 协同工作【l j 。 数字化党校网格平台所要要实现的功能包括: 1 、建立一个拥有良好交互性、操作简单易用、系统维护方便的华中师范大学 数字化党校 【1 5 1 的网站,并在今后能顺利的移植到c c n u g r i d 【1 5 】; 2 、通过网上直播系统使党校优秀教师与党校学员能双向互动,学员能在同一 时问不同地点和老师交流学习体会,得到老师的帮助; 3 、开发网上报名系统,实现远程报名,方便党校对历届学员的自动化管理; 4 、公开发布党校各门课程的教学课件、电子教程,使优秀教师的授课内容能 够重复利用,方便学员自由、自主安排学习时间; 5 、做好党校教师信息化管理,使学员能及时准确的知道党校教师的安排,储 备优秀的专职和兼职教师,为党校的课程安排做好准备; 6 、开发网上自测和正式考试系统,方便学员复习、自测和联系学习,同时逐 步实现党校考试无纸化; 7 、开发党校工作相关信息资料库,通过建立素材库来为学员提供大量有关的 党建工作的文字、图片图像、音视频素材,使党校的教学资源能够在校园网络环境 下共享; 8 、采用开放网格服务结构( 0 g s a :o p e ng r i ds e r v i c e sa r c h i t e c t u r e ) 【z j , 实现“数字化党校”项目在功能和接口方面与原有学校组织部网站和相关系统的平 滑过渡。 随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应 用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从 表面上看出他们所蕴涵的有用信息,更不用说有效地指导进一步的工作。如何从大 硕士学位论文 m a s t e r st h e s i s 量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着 这种需求从研究走向应用。 近年来,随着i n t e r n e t w e b 技术的快速普及和迅猛发展,使各种信息可以以 非常低的成本在网络上获得,由于i n t e r n e t w w w 在全球互连互通,可以从中取得 的数据量难以计算,而且i n t e r n e t w w w 的发展趋势继续看好,特别是电子商务的 蓬勃发展为网络应用提供了强大支持,如何在w w w 这个全球最大的数据集合中发现 有用信息无疑将成为数据挖掘研究的热点1 3 j 。 w e b 挖掘指从w e b 内容数据文档中发现有用信息,w e b 上的信息五花八门, 传统的i n t e r n e t 由各种类型的服务和数据源组成,包括w w w 、f t p 、t e l n e t 等,现 在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子商务数据, 以及其他各种通过w e b 可以访问的数据库。w e b 内容挖掘的对象包括文本、图象、 音频、视频、多媒体和其它各种类型的数据。其中针对无结构化文本进行的w e b 挖 掘被归类到基于文本的知识发现( k d t ) 【1 8 】领域,也称文本数据挖掘或文本挖掘, 是w e b 挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在w e b 多媒 体数据挖掘方面的研究成为另一个热点。 w e b 内容挖掘一般从两个不同的观点来进行研究。从资源查找( i r ) 【5 j 的观点 来看,w e b 内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过 滤信息。而从数据库( d b ) 的角度讲w e b 内容挖掘的任务主要是试图对w e b 上的数 据进行集成、建模,以支持对w e b 数据的复杂查询。 1 2 研究背景与意义 网络教学【6 j 作为一种新的教学手段,充分利用了最新的计算机技术、网络技术、 多媒体技术等,使教学过程能够跨越时间、空间的限制,有极大的灵活性和交互性, 网络教学使教学材料的展示越来越灵活、形象、生动等都是大家公认的。 网络技术的应用,推动了世界范围的教学改革,我国也不例外,网络教学为高 校的教学改革创造了如下的条件:为面向2 l 世纪教学改革提供必要的技术支持手 段,它有助于加快知识更新的速度;有助于使学生成为学习的主体;有助于加强课 堂与现实世界的联系。为校内外培养创造性人才提供良好的自主学习环境,它可以 提供丰富的网上学习资料:提供广阔的学习时间、空间;提供通畅、方便的交流途 径【6 】【7 1 。 从几年的高校网络教学情况来看,“网络教学是课堂教学的延伸、网络教学和 课堂教学互相渗透”【7 】已经逐步成为共识,网络教学作为高校教学改革的重要手段 2 第二章“数字化党校网格的体系结构 2 1 “数字化党校 网格的特点 网格是一种分布式系统,但网格不同于传统的分布式系统。i b mg l o b a ls e r v i c e 与e d s 【1 4 】是在这个分布式领域最著名的公司。构建分布式系统【1 4 】有三种方法:即传 统方法( 称之为e d s 方法) 、分布自律系统( a u t o n o m o u sd e c e n t r a l i z e ds y s t e m s , a d s ) 方法、网格( g r i d ) 方法。a d s 通常用于工业控制系统中。网格方法与传统方 法的区别见下表2 1 : 特征传统分布式系统网格 开放性确定性、封闭性开放技术、开放系统 通用性专门领域、专有技术通用技术 集中性统一规划、集中控制自然进化、非集中控制 使用模式终端模式或c ,s 模式服务模式为主 标准化领域标准或行业标准通用标准( 行业标准) 平台性应用解决方案平台或基础设施 表2 1 网格方法与传统方法的区别 通过以上对比,网格具有以下四点优势: ( 1 )资源共享,消除资源孤岛:网格能够提供资源共享,它能消除信息孤岛、 实现应程序的互连互通。网格与计算机网络不同,、计算机网络实现的是一种硬件的 连通,而网格能实现应用层面的连通。 ( 2 )协同工作:网格第二个特点是协同工作,很多网格结点可以共同处理一 个项目。 ( 3 )通用开放标准,非集中控制,非平凡服务质量:这是i a nf o s t e r 【z 】最近 提出的网格检验标准。网格是基于国际的开放技术标准,这跟以前很多行业、部门 或者公司推出的软件产品不一样。 ( 4 )动态功能,高度可扩展性:网格可以提供动态的服务,能够适应变化。 同时网格并非限制性的,它实现了高度的可扩展性。 网格技术中最为核心的是为各种网络上的资源提供一种安全、高效的共享机 硕士学住论文 m a s t e r st h e s i s 制,使得各种异构和孤立的资源能以一个整体为用户提供各种计算和信息服务。根 据需求把系统设计成以下几个模块:“数字党校”网站的建设( 如下图2 2 所示) ; 网上视频图片库子系统( 如下图2 3 所示) :网上直播子系统;网上报名登记子系统; 网上考试子系统;党校教师信息子系统;党校电子教案子系统;以及系统管理与更 新子系统。 图2 2 ”数字党校”网站 系统的功能模块如下图2 4 所示: 图2 3 资源系统 图2 4 ,数字化党校”功能模块图 网格技术源于大型科学计算。“数字化党校”网格初始主要目标:通过实现对 “数字化党校 网格上各种资源的充分共享而为特定的服务器调用。数字化党校网 格平台的首要问题是解决资源的调度问题,而数字化党校网格平台资源包括视频资 源、课件资源、音频资源、考试资源、文本资源、论文资源、图像资源、新闻资源、 公告资源、自动化管理资源、报名资源等。下面就是我校数字化党校网格平台的分 布图【1 5 j ,如图2 5 所示: 6 硕士学位论文 m a s t e r st h e s i s 图2 5 数字化党校网格平台的分布图 从中我们可以看出我校网格平台有多台服务器组成,为了集中研究网格计算中 的资源管理和任务调度问题,本文根据网格环境的特点,提出了一种网格计算任务 调度策略的模型。主要思想是通过不断调整服务器间处理请求的分配比例,来避免 有些服务器超载时依然收到大量请求,从而提高整个系统的吞吐率。下图2 6 显示 出了该设计的框架。 图2 6 网格平台框架图 2 2 “数字化党校”网格的层次模型 2 2 1 开放网格服务体系结构( o g s a ) 目前网格技术的主要规范为0 g s a ( o p e ng r i ds e r v i c ea r c h i t e c t u r e ) 【2 】和o g s i ( 0 p e ng r i ds e r v i c ei n f r a s t r u c t u r e ) 【1 6 】,实现普遍采用g t 3 ( g 1 0 b u st 0 0 l k i t v e r s i o n3 ) 【1 7 】。0 g s a 将网格系统中的各种服务分为四类:核心、数据、程序执行 和资源管理。其中核心服务包括服务交互、服务管理、服务通信和安全等。数据服 务主要处理分布环境中数据的缓存、访问、复制等操作,网格中的数据可以分为平 面文件数据( f l a tf i1 ed a t a ) 、流媒体数据和关系数据。 随着网格计算研究的深入,人们越来越发现网格体系结构的重要。网格体系结 7 构是关于如何建造网格的技术,包括对网格基本组成部分和各部分功能的定义和描 述,网格各部分相互关系与集成方法的规定,网格有效运行机制的刻画。显然,网 格体系结构是网格的骨架和灵魂,是网格最核心的技术,只有建立合理的网格体系 结构,才能够设计和建造好网格,才能够使网格有效地发挥作用。 o g s a 最突出的思想就是以“服务”为中心。在o g s a 框架中,将一切都抽象为服 务,包括计算机、程序、数据、仪器设备等。这种观念,有利于通过统一的标准接 口来管理和使用网格。w e bs e r v i c e 提供了一种基于服务的框架结构,但是,w e b s e r v i c e 面对的一般都是永久服务,而在网格应用环境中,大量的是临时性的短暂 服务,比如一个计算任务的执行等。考虑到网格环境的具体特点,o g s a 在原来w e b s e r v i c e 服务概念的基础上,提出了“网格服务( g r i ds e r v i c e ) “的概念,用于 解决服务发现、动态服务创建、服务生命周期管理等与临时服务有关的问题。 基于网格服务【4 】的概念,o g s a 将整个网格看作是“网格服务”的集合,但是这个 集合不是一成不变的,是可以扩展的,这反映了网格的动态特性。网格服务通过定 义接口来完成不同的功能,服务数据是关于网格服务实例的信息,因此网格服务可 以简单地表示为”网格服务= 接口行为+ 服务数据【例。 o g s a 中规定的程序执行服务使应用程序以一种标准的方式访问分布在一个 v o ( v i r t u a lo r g a n i z a t i o n s ) 环境中的各种底层资源,程序执行服务是网格技术中 的关键部分,它既需要访问使用底层的各种资源,又需要为更高层的程序提供一 个通用的执行接口。 各种网格服务可以分为几个部分,分别是负载管理、负载优化、资源管理和资 源优化。这里负载( w o r k l o a d ) 表示一组不同层次的执行实体,这些实体可以继续 细分为工作( j o b ) 、任务( t a s k ) 和子任务( t a s k l e t s ) 等。执行服务是在需求和 资源提供者之间建立一种映射,通过这种映射负载可以在已经建立了映射关系的网 格资源上执行。其中的负载管理中的服务主要有环境管理、用户工作代理、策略 管理、工作工厂等,资源管理中的服务主要包括资源预留、资源工厂、资源分配( 或 绑定) 等。负载优化框架中的服务主要针对需求方的负载映射管理,主要提供的服 务有:对需求进行排队来处理优先级和资源饱和的问题,通过将负载移到合适的资 源来进行负载平衡,根据预先定好的s l a ( s e r v i c el e v e la g r e e m e n t s ) 分别对过 度使用或使用不足资源的负载进行必要的惩罚或奖励等。资源优化框架中的服务主 要针对提供的资源进行映射,主要提供的服务有:接入控制,资源使用检测和计价, 资源定位,q o s ( q u a l i t yo fs e r v i c e ) 保障等。优化框架提供的服务主要针对负 载优化框架和资源优化框架中可能导致的资源使用冲突,包括:调度,负载一资源 8 项士学位论文 m a s t e r st h e s i s 映射优化,资源选择等【2 0 l 。 从上面对0 g s a 中的程序执行和资源管理架构的分析可以看出,在网格环境中 为了为用户提供统一的计算环境,o g s a 分别对用户的工作需求和整个网络环境中的 资源都进行了统一的描述和规范,在这个统一的规范基础上通过对工作需求和资源 情况的统筹匹配来实现网格环境中所有资源的共享。 2 2 2 层次协议结构 i a nf o s t e r 【2 】于2 0 0 1 年提出了网格计算协议体系结构,认为网格建设的核心是 标准化的协议与服务,并与i n t e r n e t 网络协议【2 1 】进行类比。该结构主要包括以下 五个层次: 构造层( f a b r i c ) :控制局部的资源。由物理或逻辑实体组成,目的是为上层提 供共享的资源。常用的物理资源包括计算资源、存储系统、目录、网络资源等;逻 辑资源包括分布式文件系统、分布计算池、计算机群等。构造层组件的功能受高层 需求影响,基本功能包括资源查询和资源管理的q o s 保证。 连接层( c o n n e c t i v i t y ) :支持便利安全的通信。该层定义了网格中安全通信与 认证授权控制的核心协议。资源间的数据交换和授权认证、安全控制都在这一层控 制实现。该层组件提供单点登录、代理委托、同本地安全策略的整合和基于用户的 信任策略等功能。 资源层( r e s o u r c e ) :共享单一资源。该层建立在连接层的通信和认证协议之上,满 足安全会话、资源初始化、资源运行状况监测、资源使用状况统计等需求,通过调 用构造层函数来访问和控制局部资源。 汇集层( c o l l e c t i v e ) :协调各种资源。该层将资源层提交的受控资源汇集在一 起,供虚拟组织的应用程序共享和调用。该层组件可以实现各种共享行为,包括目 录服务、资源协同、资源监测诊断、数据复制、负荷控制、账户管理等功能。 应用层( a p p l i c a t i o n ) :为网格上用户的应用程序层。应用层是在虚拟组织环 境中存在的。应用程序通过各层的应用程序编程接口( a p i ) 调用相应的服务,再 通过服务调动网格上的资源来完成任务。为便于网格应用程序的开发,需要构建支 持网格计算的大型函数库。 2 2 3 安全性 如果是一名用户,要在远程系统上运行一项任务,会关心远程系统是否安全, 是否能保证其他人不能访问到的数据。如果是提供资源的一方,用户可以在系统中 9 执行任务,那么必须确信所有的任务都不会遭到破坏和干扰,也不能访问系统中的 其他私有数据。除了这两方面的内容之外,网格环境也面临着一般分布式计算环境 中存在的其他所有安全问题。 网格安全基础设施( g r i ds e c u r i t yi n 主主a t r u c t u r e ,g s i ) l | | l 是g 1 0 b u st 办费l k i t 的基础,它提供了很多工具,可以帮助我们对网格环境中的安全问题进行管理。在 开发面向网格环境的应用程序时,必须时刻考虑到安全问题,并用g s i 提供的工 具来解决这些问题。网格架构中与安全性有关的功能主要负责完成认证、授权以及 实现网格资源之间的安全通信。 在应用程序中启用网格时的考虑:安全性。当我们设计一个能够使用网格的应 用程序时,安全性问题必须考虑在内。下面的列表总结了需要考虑的一些问题: 单点登录。跨系统的i d 映射。如上所述,g s i 提供了认证、授权以及安全的 通信。然而,需要对安全性管理及其含义有深刻完整的理解。 多种平台。尽管g s i 基于开放的标准化软件,可以在多种平台上运行,然而 各种不同的平台其底层的安全机制并不总是一致。比如说,在传统的封封i x 或基于 l i n u x 的系统上,读、写、执行等操作的安全机制就与微软的w i n d 粪毽s 环境不同。 应该考虑应用程序可能运行的平台。 使用g s i 。对于任何应用程序特有的、且可能需要进行认证或特殊授权的功能 而言,应用程序的设计应该使用g s i ,这样能够简化开发,并通过维护单一的登录 机制,使用户的体验也得到简化。 数据加密。尽管g s i 与后文将要讨论到的数据管理工具一起,提供了跨网络 的安全通信与数据加密,但是也应该考虑到,当数据到达目的地的时候会发生什么 事情。比如说,如果一些敏感的数据传递到某项资源上供任务使用;随后又以非加 密的格式保存到本地磁盘上,那么其他的用户或应用程序也就能访问这些数据了。 2 i 耋4 资源管理 网格资源管理器 爹5 】致力于在任务提交时进行资源指派。它的角色就像是异质网 格资源的抽象接口。资源管理组件提供的工具可以将任务分配给特定的资源,可以 提供一种手段,在任务运行过程中获取任务状态信息,并获取任务完成的信息,还 可以提供终止任务或对其进行管理的能力。在g l o b u s 中,远程任务提交是由 g l o b u sr e s o u r c ea 霎 o c a t i o nm a n a g e r ( g r 羹墓) ; | i 负责处理的。 在应用程序中启用网格时的考虑:资源管理。在与资源管理相关的应用程序架 构、设计和部署方面,有一些问题需要考虑。g i 洲最简单的形式是用于发出 l o g l o b u s r u n 命令,在特定系统上发起一项任务。然而,应用程序必须与岫s 一起 ( 通常是通过一个代理函数) 保证使用了适当的目标资源。下面列出一些需要考虑 的内容: 选择适当的资源。通过与代理联合工作,来保证选择适当的目标资源。这就要 求应用程序能够正确地指定所需的环境( 操作系统、处理器、速度、内存等) 。为 排除特定的依赖关系付出的努力越多,找到可用资源完成任务的机率也就越高。 多子任务。如果应用程序中包含多个任务,必须理解并降低它们之间的相互依 赖关系。否则,就不得不构建一段逻辑来处理下面这些问题: ( 1 ) 进程间通信 ( 2 ) 数据共享 ( 3 ) 并行任务提交 ( 4 ) 访问任务的执行结果 如果一项任务返回的是一个简单的状态值,或是输出数据量很少,那么应用程 序可以仅仅通过s t d o u t 和s t d e r r 【2 6 】来获取这些数据。要是必须获取相当复杂的 结果,这时就可能需要将结果写入一个文件,并通过适当的工具,供目标机获取 传输这个文件。 2 2 5 信息服务 由于网格资源管理器在指派资源之前要经过综合全面的考虑,因此它需要知道 哪些网格资源是可用的,以及这些资源的容量与当前使用的情况。这些有关网格资 源的知识是通过网格信息服务( g r i di n f o r m a t i o ns e r v i c e ,g i s ) 阱】维护和提供 的,又称为监视与发现服务( m o n i t o r i n ga n dd i s c o v e r ys e r v i c e ,m d s ) 瞄j 。 信息服务是网格基础设施中至关重要的组件。它们维护了关于资源可用性、处 理能力、当前使用情况的知识。不论在哪个网格中,c p u 和数据资源的情况都是不 断变动的,这种变动与其处理任务与共享数据的能力有关。随着网格中的资源不断 被释放,资源的状态可以在网格信息服务中得到更新。客户机、代理、网格资源管 理器等综合这部分信息来进行资源的指派。信息服务提供方是指那些为目录提供资 源状态信息的程序。 网格信息服务,又称为监视与发现服务,在g 1 0 b u s f 2 6 】中负责提供信息服务。 如s 使用轻量级目录访问协议( l i g h t w e i g h td i r e c t o r ,a c c e s sp r o t o c o l ,l d a p ) 作为访问资源信息的接口。 2 2 6 数据管理 网格中最重要的资产就是数据。在设计当中,必须确定对数据的需求,以及如 何在整个基础设施中移动数据,要么就是如何用一种安全有效的方式访问所需的数 据。可以通过一组标准化的网格协议与设计的任何数据资源进行通信。也可以选择 构建一个联邦数据库,创建一个虚拟的数据存储。还有其他一些选择,如存储区域 网( s r o r a g ea r e an e t w o r k ) 、网络文件系统,以及专用的存储服务器等。 g 1 0 b u s 【2 6 】为网格环境提供了g r i d f t p 和g 1 0 b a la c c e s st os e c o n d a r y s t o r a g e ( g a s s ) 两种数据传输机制。此外,它还提供了一种复制管理机制,可以 帮助管理和访问数据集的副本。在应用程序中启用网格时的考虑:数据管理。数据 管理问题源自如何最大化地使用有限的存储空间、网络带宽、计算资源等。下面列 出一些在应用程序设计和实现中需要考虑的数据管理问题: 数据集的大小。对于大的数据集来说,要想将它移动到实际运行任务的系统上 是不现实,甚至是不可能的。可能的解决方案是使用数据复制、或将完整数据集的 一个子集拷贝到目标系统中。地理上分散的用户、数据、计算以及存储资源。如果 目标网格在地理上是分散的,网络连接的速度也有限,那么在设计的时候就必须考 虑到如何进行慢速和受限的数据访问。 在广域网上进行数据传输。当要在i n t e r n e t 或者其他的w a n 上移动数据时, 必须考虑安全性、可靠性以及性能等问题。必须构建一些必要的逻辑来处理数据访 问速度慢,甚至被阻断的情况。数据传输的调度。下面两种情况至少要考虑一种: 第一个是数据传输的调度,这样当需要某项数据的时候数据就在它适当的位置上 了。第二个是了解进出任何一项资源的任何并发文件传输的数量与规模。 选择数据副本。如果使用g l o b u sd a t ar e p l i c a t i o n 服务,也许想向应用程 序中增加一段选择适当副本的逻辑,也就是说,想要选择一个包含所需数据的副本, 同时还要满足对性能的要求。 2 2 7 调度器 g l o b u st 0 0 u 【i 俨6 】没有提供任务调度器,也没有提供元任务调度器 ( m e 协s c h e d u l e r ) 。不过,有一些任务调度器已经和g l o b u s 集成起来了,还有一 些也可以集成进来。 在网格中,任务调度与负载平衡是十分重要的功能。大多数网格系统中都包括 某种任务调度软件。这种软件可以查找到某台机器的位置,并在上面执行用户提交 的网格任务。有些调度器实现了按照任务优先级进行调度的系统。优先级的实现方 1 2 式有时是使用多个任务队列,其中每一个队列都代表不同的优先级。当网格计算机 可以执行任务的时候,就从优先级最高的队列中取出第一个任务。通过调度器还可 以实现各种不同类型的策略。策略中可以包含多种对任务、用户、以及资源的约束。 比如说,可能有一种策略限制在一天的某些特定时间执行网格任务。 调度器通常会对实时网格负载做出反应。它们在提交任务之前,会用反映当前 机器使用情况的量测信息来确定哪些机器不忙。调度器可以组织成层次结构。比如 说,元调度器将任务提交给群集调度器,或其他低层调度器,而不直接提交给独立 的计算机。更高级些的调度器可以对所调度的任务的执行过程进行监视,从而对整 体工作流实施管理。如果由于系统或网络的原因而导致一些任务丢失,好的调度器 会自动在别的地方重新提交任务。然而,如果某个任务进入死循环,运行的时间超 过了某个最大时间,那么这样的任务就不应该再重新调度了。典型情况下,各种任 务具有不同类型的结束代码,其中一些结束代码适合于用于重新提交任务,而另一 些则不适合。 在拉模式【2 7 】中,网格资源从任务队列中获取任务。在这样的模式下,任务队列 的同步化与串行化就成为协调多个网格资源的任务获取的必要手段。本地及全局任 务队列的策略也是可行的。在本地拉模式策略中,每一组网格资源都指派为从一个 本地任务队列获取任务。在全局拉模式策略中,所有的网格资源都被指派使用同一 个任务队列。本地拉模式的优势在于能够对网格资源进行分片。 推模式【2 7 】和拉模式的组合模式可以解决前面提到的一些问题。每一个网格资源 可以决定何时能接收更多的工作,并向网格任务服务器发送工作请求。然后,任务 服务器就向其发送新的工作。 g 1 0 b u s 工具箱并没有提供代理的功能。不过它通过监视与发现服务( m d s ) 提 供了网格信息服务。可以对旧s 进行查询,从而发现主机、计算机和网络的属性, 如当前可用处理器个数、所提供的带宽以及可用的存储类型等。 2 3 分布式数据挖掘的研究现状 分布式数据挖掘( d d m ) 是使用分布式计算从分布式数据库中抽取知识的过程, 这是一个发展非常迅速,而且具有广阔应用前景的研究领域【2 8 】。随着数据量的迅速 增长,许多企业和组织已经重视并通过数据挖掘技术来利用他们所面对的大量数 据。数据挖掘就是在大量的数据集中识别有用模式或知识的过程。目前在数据挖掘 理论研究和数据挖掘应用方面都取得了很大进展。近年来,分布式数据挖掘已经引 起各应用领域的足够重视【2 9 】。分布式数据挖掘就是对分布式的数据集进行挖掘。所 硕士学位论文 m a s t e r st h e s i s 谓分布式数据集就是指若干个局部数据库,它们可以通过本地计算机和网络连接起 来。数据挖掘可以在局部数据库和全局数据库两个层次进行,全局数据库是通过对 局部数据库进行挖掘,将所得模式或知识进行分析集成的结果集合。分布式数据挖 掘常常和并行数据挖掘相提并论。二者都是为了改善常规数据挖掘系统的性能,但 它们一般在不同的系统中采用不同的结构和不同的方法。在分布式数据挖掘中,计 算机是分布的,且每个计算机独享自身的资源,机器之间通过消息传递进行通讯; 在并行数据挖掘中,并行计算机所拥有的处理器共享存储空间( 如内存和外存) 。 这种在结构上的不同使得分布式数据挖掘和并行数据挖掘在算法设计、执行代价和 性能评估等方面都不相同。 一 实际上:信息交互对于有效地处理数据以及知识发现都是及其重要地。同样地, 如果在两个连续使用之间存在长时间的延误将扰乱人们的理解,因此反应时间也是 至关紧要的。然而,从这些巨大的数据库中提取知识并保证快速的反应时间将是一 个计算量和数据量都十分强的过程。为了解决这一问题,学者们提出了两种解决办 法【3 0 】。第一种是通过数据简化方法,例如,小波变换、样本提取等,来达到降低计 算量和数据量的目的;同时学者们还提出运用有效的并行数据挖掘算法来实现对问 题的解决【3 1 1 。由于网络带宽的限制使得通过网络传输数据的代价十分昂贵,而在分 布式数据挖掘中有时必须通过网络进行数据交换,因此如何通过减少数据的传输数 量来达到降低传输的代价问题,就成为制约分布式数据挖掘的主要瓶颈。本文针对 这一问题,提出了分布式数据挖掘体系结构、任务分配模型及其算法,从而解决了 这一问题。 2 。4 分布式数据挖掘模型 在这一节中,通过“数字化党校”网格层次模型,设计出一个适合“数字化党 校 网格平台的分布式数据挖掘系统所应具有的体系结构。在这个体系结构的设计 中同时考虑了超大数据库以及数据交互在数据挖掘中的应用。体系结构主要包括一 下三个逻辑部分: 用户:包括图形用户界面,用于指挥挖掘过程的任务管理器以及用于优先计算 的高速缓冲存储器。 计算服务器:包括任务管理器,作为核心数据挖掘引擎的计算模块以及高速缓 冲存储器。 数据服务器:包括数据蒸馏器和资源数据库。数据蒸馏器负责从数据库中读取 数据并且在将数据传输到其他计算服务器之前对数据进行适当的压缩。下图2 7 给 1 4 出了分布式数据挖掘系统的体系结构图: 2 5 本章小结 图2 7 分布式数据挖掘系统的体系结构图 在本章中,根据 数字化党校网格的特点,并结合”数字化党校 网格数据 便于树形化这一需要,提出了 数字化党校”网格的层次模型,并在这一模型的基 础上,设计出分布式数据挖掘系统的体系结构。 1 5 项士学位论文 m a s t e r st h e s i s 第三章w e b 服务的分布式数据挖掘与网格平台的结合 3 1w e b 服务 在能够理解w e b 服务如何为网格解决方案提供支柱之前,需要理解w r e b 服 务的工作方式。最简单的方法是将其想像成一种远程过程调用( 1 冲c ) ,通过这种方 式可以从一台计算机( 客户机) 上调用某个功能,而代码和实际的功能是在另外一 台计算机( 服务器) 上执行的。 最近w 曲的爆炸式发展意味着,每当访问某个w r e b 站点的时候,很自然就 是在进行远程过程调用。客户机就是浏览器,它向一台服务器( 如a p a c h e ,i i s ) 请求一个文件,然后,处理并显示得到的信息。这是一个简单的数据交换过程。有 了公共网关接口( c o m m o ng 融e 慨i yi n t e 嘲c e ,c g i ) 【2 9 】和j s p 、a s p 这样的动态技 术,才真正是在调用远程过程。交换过程是以h t t p 请求和h n l 响应的形式进 行的,但是达到的效果一样:调用远程机器上的过程,然后获得一个响应。 通过以某种方式标准化信息的交换过程,我们就得到了w 曲服务。请求和响 应都以l 编码。从基本相同的技术派生出两个变种:舭r p c 的设计目标与 它的缩写名所暗示的完全一样一发送和接收用舭格式化的远程过程调用;简 单对象访问协议( s i m p l eo b j e c ta c c e s sp r o t o c o l ,s o a p ) 【3 0 】更加高级。s o a p 的核 心依然是一种i 冲c 技术,但是这种技术经过增强,可以实现对一个对象的远程操 纵。这样s o a p 就不是一种简单的i 冲c 调用,而是可以创建对象、操纵对象、 并用这个对象在服务器和客户机之间进行更加确切和格式化的信息交换啪j 。 w 曲服务可以由任何一种w 曲服务器提供,可以在几乎所有的支持平台上用 几乎所有的语言书写,其中包括p c r l 、p y t l l o n 、c c + + 、j a v a 语言以及s u a lb a s i c 。 w r e b 服务的核心基本上是w 曲服务器上的一个动态组件,它能够正确地处理 w e b 服务请求和响应。这意味着,在很多情况下,可以很容易在已有系统中创建一 个w r e b 服务的接口。而需要做的只是在通常进行的常规系统调用外围编写一个包 装器。 3 2 网格与w - e b 服务的结合 到目前为止,已经探讨了通过交换信息而实现的网格技术,这种交换既可以在 1 6 服务器和客户机之间进行,也可以直接在客户机之间进行,从而实现对信息的处理 和分发。但是这种交换系统需要借用某种方式进行真正的信息交换。近年来,人们 使用了很多种系统,包括f 1 p 协议和定制的协议系统。 目前,在w r e b 服务阵营之中,已经拥有了一种通用的工具,可以用来在两台 机器之间交换信息,比如说请求执行某项特定的功能( 如g e t l l e w w o r k u n i t o 函数) , 或是简单地在这两者之间交换信息。因为w 曲服务是建立在v 几等其他标准之 上的,因此很容易开发并扩展到各种不同环境中,并且也容易部署。这就摆脱了不 同系统间数据交换的所有问题,并且不需要担心处理器字节中的位次序 ( e n d i a n - n e s s ) ,也不需要将我们传递的信息转换成中性格式,因为w 曲服务的标 准已经替我们做了这些事情1 3 0 j 。 因为需要用某种类型的侦听程序分发服务来处理请求、分发工作以及收集结 果,所以w 曲服务就是最理想的选择。w | e b 服务系统带来的主要益处在于,因为 它依赖于h r r p 协议,因此很容易将w | e b 服务集成到已有的h 盯p 平台、路由 器、防火墙以及其他系统中。大多数组织已经运行了h t r p 服务,因此可以用已 有的技术和安全系统来支持网格系统,而不需要对网络进行改造,也不会对网格系 统中的设备造成限制。 这样,用w e b 服务开发网格系统就具有了一些无可比拟的优势,其中包括; 增强的兼容性。 增强的灵活性。 通过消除数据交换的复杂性,使跨平台开发成为可能。 很容易部署在已有的w | e b 服务器上。 很容易通过已有的m ,安全机制与防火墙的支持来提供安全性。 通过i n 仃孤e t 或1 1 1 t e n l e t 访问网格组件的难度降低,这样就使得通信变得容 易,可访问性增强。 出于所有上面这些理由,以及更多的原因,w 曲服务已经逐渐成为新的网格服 务标准开放网格服务架构( o p e ng r i ds e r v i c e sa r c h i t e 曲鹏,o g s a ) 吲以及与 之相伴的开放网格服务基础设施( o p e n 嘶ds e i c e si i l 五粥t n l 曲l r e ,o g s i ) 的 一个组成部分。g l o b u st 0 0 i k i t3 o 是第一个完全支持o g s o g s i 标准的网格平 台,它支持将w 曲服务作为数据交换的平台。i b m 作为o g s a 标准和g l o b u s 系 统的关键参与者,给w 曲服务提供了强有力的支持,现在正推荐人们在业务开发 平台中广泛使用w 曲服务。g l o b u s 支持s o a pw e b 服务协议【引。 w - e b 服务方法还带来其他一些好处。w r e b 服务可以通过多种不同的w 曲服 1 7 硕士学位论文 m a s t e r st h e s i s 务目录和系统发布,其中包括像统一描述、发现与集成( u n i v e r s a ld e s c r i p t i o n 、 d i s c o v e 珂髓d g r a 矗o n ,u d d i ) 和w 曲服务描述语言( w e bs e r v i c e sd e s c r i p t i o n l a l l g u a g e w s d l ) 这样的系统。为了让网格计算能更容易部署,需要通过这样的目 录和系统来发布服务。不管是否选择g l o b u st 0 0 n 血,都需要考虑如何在网格系统 中应用w 曲服务。有两种w | e b 服务可供使用,它们分别适应两种典型的网格服 务结构:请求架构,在这种架构之下客户机与一个或者多个中央服务器进行联系; 分发架构,服务器直接与客户机联系。对于每一种架构,在网格应用程序中使用w 曲 服务之前都必须考虑一些问题。在3 7 2 节和3 二8 1 节详细讨论请求架构与分发架构。 3 3w e b 挖掘 w 如挖掘是数据挖掘在w 曲上的应用,它利用数据挖掘技术从与w w w 相关 的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及w r e b 技术、数据挖掘、 计算机语言学、信息学等多个领域,是一项综合技术。 w e b 内容挖掘。w r e b 内容挖掘是指对w | e b 页面内容及后台交易数据库进行挖 掘,从w r e b 文档内容及其描述中的内容信息中获取有用知识的过程。同时还可以 对w e b 的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由 于文档之间的互连,w w w 能够提供除文档内容之外的有用信息。利用这些信息, 可以对页面进行排序,发现重要的页面。 w - e b 使用记录挖掘。w 曲使用记录挖掘是通过挖掘相应站点的日志文件和相关 数据来发现该站点上的浏览者的行为模式,获取有价值的信息的过程。 3 4w e b 挖掘的流程 与传统数据和数据仓库相比,w |
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 备战2026年高考英语考试易错题(新高考)易错点04 名词性从句(解析版)
- 2025年江苏村官考试真题及答案
- 玩家互动行为分析-洞察与解读
- 2025年药品销售专员岗位招聘面试参考试题及参考答案
- 2025年氢能工程师岗位招聘面试参考试题及参考答案
- 2025年场馆运营专员岗位招聘面试参考题库及参考答案
- 2025年网络管理专员岗位招聘面试参考试题及参考答案
- 2025年长途运输经理岗位招聘面试参考题库及参考答案
- 2025年信贷风险控制专员岗位招聘面试参考试题及参考答案
- 2025年物流专员人员岗位招聘面试参考试题及参考答案
- ISO9001-2026质量管理体系标准要求讲解、运用、推行培训教材
- 2025年文化体育活动中心建设项目可行性研究报告
- 湖南省医保知识培训课件
- 2025四川攀枝花市仁和区事业单位秋季引才19人考试参考题库及答案解析
- 血液透析专科护士进修汇报
- 静脉用药医嘱审核课件
- 光伏工程竣工验收报告标准格式
- 2025年辽宁省交通高等专科学校单招职业技能考试题库及答案
- 2024年中国人民大学建设中心招聘考试真题
- 中医规培接诊能力考核病历范文
- 民航安检防爆培训课件
评论
0/150
提交评论