




已阅读5页,还剩68页未读, 继续免费阅读
(计算机科学与技术专业论文)基于rdf的并行推理研究与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
j : 独创性声明 洲| | 1 l i n m 1 1 i i l 帅m y 17 8 8 3 6 0 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 l 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:缸日期:冽2 :么:。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 虢懈聊签彩虹臁竺丛,汐 摘要 摘要 r d f 数据是语义网上的一种重要数据。它们之间的关系需要推理机进行推理 才可以获得,但是由于语义网上的r d f 数据量规模性较大,语义网上传统的推理 机不能很好处理这种大规模数据。搜索和推理技术相结合是处理该问题的重要方 法之一,首先从数据集中搜索出有用的数据,通过提高并行推理的数据输入速度 而加快推理速度。即在搜索的机制下使用并行推理技术会大大的提高处理的效 率。本文所做的具体工作如下。 1 提出了并行搜索策略,该策略使用搜索插件从数据集中并行查找。然后 提出两种并行搜索模型,第一种模型的特点是使用相同的搜索插件,从而提高搜 索数据的速度。第二种模型用不同的搜索插件和一个负责起整合作用的搜索插 件,负责起整合作用的插件接收不同插件搜索的数据后找出最重要的数据。根据 元搜索理论,被所有的搜索插件都搜索到的数据是最重要的数据。此策略不但可 以提高推理速度,还可以提高推理的精度。另外负载平衡问题和通信问题也会影 响并行推理的效率,本文设计了两种并行推理模型,分别使用了同种类型的推理 机和不同种类型的推理机。采用算法分别解决了负载平衡问题和通信问题,提高 了推理的速度。 2 对并行推理中单个推理机的推理速度进行优化,则可以提高并行推理的 整体速度。所以本文对i f 推理规则进行了分类和顺序调整。然后采用传递性 规则和自反性规则分别对i f 和o w l 数据进行推理。因为o w l 数据之间的关 系相当复杂,现在可以推理出父类和子类之间的关系,相比较于o w l 数据,r d f 数据之间的关系则没有这么复杂,所以在使用j e n a 推理机对r d f 数据集进行时 推理出了父类,父类的子类和子类的子类之间的所有关系。 。本文的研究意义在于把并行推理技术引进语义网中,通过对并行推理的研 究,可以对群决策支持系统,智能决策支持系统等提供新的理论方法和技术。本 文提出的两个实验可以作为语义网研究中并行推理的一个研究范例,并最终为并 行推理向实用化发展提供可行途径。 关键词r d f ;o w l ;j e n a ;并行;推理 北京工业大学t 学硕士学位论文 a b s t r a c t a b s t r a c t r d fd a t ai sa ni m p o r t a m 鼢ao nt h es e m a i l t i cw e b 1 1 l er e l a t i o n s l l i pa m o n g t h e s ed a :t ac a n tg e to i l l yh i f e r e n c ee n g i n er e a s o nt 1 1 e s ed a t 乱b u t 吐l em n n b e ro fi f d a t ai n c r e a s e sv e r yq 试c l ( 1 y ,m e 仃a d i t i o n a li n f e r e n c ee n g i i l e e rc 肌tc 0 p e 谢t l lw e b s c a l ed a 饥o n eo fi 加【p o r t a n tt e c h n o l o g i e sw h i c hc a l ld e 2 l l 、) l ,i mm ep r o b l e mi sn l a t c o n l b m es e 鲫c hw i 也r e a s o i l i n g f i r s ts e a r c ha v a i l a b l e 蚍丘o m e t sa l l di m p r o v e 吐l ei n p u ts p e e dt oi n c r e a s er e a s o n i n gs p e e d u s ep a r a l l e lr e a s o m n gw o u l dg r e a t l y e n h a i l c et l l ee 伍c i e n c yl l d d e rn l em e c h a 血s mo fs e a r c h t h ew o r ko fp a p e ri s f o l l o 诚n g 1 w ep u tf 0 锄旧p a r a l l e ls e a r c hs 仃a t e g y ,w l l i c hm a k e su s eo fs e a r c hp l u g i i lf o r s e a r c h i n gd a t af 如md a :t a s e t t h e np r o p o s et w op a r a l l e ls e a r c hm o d e s ,吐1 ef i r s tm o d e a d o p t si d e n t i c a ls e 鲫c hp l u g i n s t h es e c 0 n dm o d el l s e sd i 虢r e n tp u l g i l l sa 1 1 d 觚 i n t e 伊a t i o ns e 础p l u g i i l s f 0 r 仳s 咖eo fp 删l e ls e a r c hp l u g i n ,a l lt l l er d fd a t a s e t s g o 廿l r o u 曲d i 施r e n t 咖e so f 龇:s e 黜hp l u g i l l s ,锄da n 硫e 伊a t i o ns e a r c hp l u g i i l si s u s e dt 0 曲 e g r a t ea l l l es e a r c hr e s u l t sf o md i 脏r e n t 卯eo fs e a r c hp l u g i n s 锄ds e l e c t o u t 日1 ei m p o r t a n ts u b s e to fi m fd a t af o rr e a s o i l i n g t h es e l e c t i o nc r i t e r i o ni st l l a ti fa s u b s e to f 恤o r i g i 砌d a t a s e ta p p e a r si l la l lm es e 砌r e s i l l t s 舶md i 疵r e n ts e a r c h p l u g i i l s ,t 1 1 e ni ti sc o i l s i d e r e d 嬲t h em o s ti m p o r t 锄t 纰t h es n a t e g yc a ni l n p r 0 v e s p e e d 锄d p r e c i s i o n b e s i d e s , t l l e p r o b l e m o f o v e r l o a d i l l gb a l 锄c 近g a 1 1 d c o 衄u 1 1 i c a t i o nc a n 心c te f f i c i e n c yo f 恤p a r a l l e lr e a s o n i n g w ed e s i 印咖d 姊e so f p a r a l l e lr e a l s o i l i n gm o d e l s w k c ha d o p ti d e 玎t i c a la n dd i 妇f e r e n ti r l = f e r e n c ee n g 洫e s t h e p r o b l 锄o fl 0 a db a l 趾c i n ga n dc 0 n u i l u l l i c a t i o na r es o l v e db yu s i n ga l g o r i t h i n w 1 l i c h i 1 1 c r e 嬲es p e e do fi 1 1 f i e r e n c e 2 t 0o p t i 面z en l es p e e do fs i n g l ei i 疵r e n c ee n g i n ec a i li m p r 0 v ee 伍c i e n c yo f p a r a l l e lr e a s o m n g w ec l a s s i 母a i l da d j u s t t 1 1 eo r d e ro f 也er d fm l e s t h e nu s e t m s i t i v i t ) ,m l ea i l ds y m m e t r i c a lr u l e st 0r e a u s o ni fa n do w l d a _ c a a s 廿1 er e l a t i o n o ft l l ed a t ai sv e d ,c o m p l i c a t e ,n o ww ec a ni n f e rt l l er e l a t i o no fs u p e rc l a s s 锄d s u b c l a s s ,c o m p a r i n g 晰t 1 1o w ld a t a ,列d fd a t ai sn o ts oc o m p l i c a t e ,s ow h e nd e a l 晰t 1 1t h ed a t ao f r d fw ec a i li m r 位r e l a t i o no fs u p e r c l a s s ,s u b c l a s s 趾ds u b c l a s so f t h es u b c l a s s t h es i 鲥f i c a i l c eo ft 1 1 i sr e s e a r c hi st 0i i l 仃0 d u c ep a r a l l e lr e 船o n i n gt 0t l l e s e m a n t i cw e b n u 曲s t l l d y i l l gp a 同1 e lr e a s o 血gi tc a np r o v i d en e wt e c h i l i q u e s a 1 1 dn e wn l e o r e t i c a lm e t l l o d st oi n t e l l i g e md e c i s i o ns u p p o r ts y s t e ma i l d u p d e c i s i o ns u p p o r ts y s t e m n e 撕oe x p e r i m e n t so ft l l ep 印e rc a i lb eu s e da sam o d e l o n 舭s e m 枷i cw e ba i l du l t i m a t e l yf o rt l l ep 删l e ld e v e l o p m e n to fp r a c t i c a l r e a s o i l i n gt op r a c t i c mw a y k e yw o r d sr d f ;o w l ;j e n a ;p a i m l e l ;r e a s o n i i l g - i i i - 北京t 业大学- t 学硕十学位论文 目录 目录 摘要i a b s t r a c t 1ii 第l 章绪论1 1 1 研究背景1 1 1 1l a r k c 的相关介绍3 1 1 2 并行结构4 1 2 研究意义9 1 2 1 理论意义9 1 2 2 实际意义1 0 1 3 国内外文献综述10 1 3 1 国外研究综述。1 0 1 3 2 国内研究综述1 5 1 4 存在问题15 1 5 研究内容15 - 1 6 本文结构1 6 第2 章相关理论和技术1 7 2 1 语义网数据的语义1 7 2 2 语义网和人工智能1 7 2 3 语义网体系结构1 8 2 3 1u l l i c o d e 和u 砌层1 9 2 3 2x m l + n s + ) m ls c h e m a 层1 9 2 3 3r d f + i m fs c h e m a 层19 2 3 4o n t 0 1 0 9 y 层2 1 2 3 5l 0 9 i cp r o o f 和t m s t 层2 3 2 4 语义网推理规则2 4 2 4 1r d f 推理规则2 4 2 4 2o w l 推理规则2 5 2 5 语义网经典推理机2 6 2 5 1 对推理机的评估方法2 7 2 6 本章小结2 7 第3 章并行推理遇到的问题及解决方法2 9 3 1 并行推理中推理速度问题2 9 3 1 1 对提高速度的要求2 9 3 1 2 提高处理速度。2 9 3 2 并行推理中问题解决方案3 0 3 2 1 并行推理中数据输入问题的解决;3 0 3 2 2 并行推理中通信问题算法解决3 1 3 3 推理规则3 l 3 3 1 产生式规则31 3 3 2 产生式系统3 2 v 北京工业大学工学硕士学位论文 3 4j e n a 推理机3 2 3 4 1j e n a a p i 接口和推理子系统3 2 3 5 本章小结3 4 第4 章并行推理模型设计与实现3 5 4 1 系统介绍3 5 4 1 1 系统结构3 5 4 1 2 数据输入层3 7 4 1 3 数据规则层。3 7 4 1 4 并行推理层。3 7 4 2 系统开发环境4 0 4 3 推理过程和结果4 4 4 3 1 对o w l 数据进行推理4 4 4 3 2 对砌) f 数据进行处理的策略4 9 4 4 本章小结5 4 结论5 5 参考文献5 7 攻读硕士学位期间发表的学术论文6 l 致j 射6 3 1 1 研究背景 自1 9 9 9 年mb e n e r s l e e 提出将语义网作为万维网扩展的思想之后【1 1 ,语义 网技术就成为当前互联网技术研究的热点之一。目前大多数网站中页面中使用的 文字信息都只适合人阅读理解,但是都不太方便由机器来自动处理,于是这些信 息就都只局限于一方,就好像海洋中的孤岛,并不能充分发挥作用。另外随着网 络技术的发展而产生了海量的数据,所以现在海量的数据资源需要有机器可以理 解的表示方式来表示信息资源。海量的信息资源需要一种有效的存储策略来存储 这些信息资源,最后海量的信息资源需要一种行之有效的查询方法能够从这些数 据中得到合适的信息。所以使用语义网把分散在不同地理位置上的多个资源全面 连通和统一分配、管理及协调起来。其优势在于能够节约计算成本,实现共享资 源和消除资源孤岛目的。 语义w r e b 作为目前w r e b 的一个延伸,目标是使w e b 上的数据具有机器可识别 的语义,能让机器来自动处理其数据并分析其语义,便于人机之间的交互与合作 川,从而来提高处理这些信息的效率。在语义网上,推理是通过一系列的推理规 则来对数据进行推理,其中推理机是实现从语义网数据中获取其语义的关键技术 之一,在语义网上对语义数据例如r d f 数据和o w l 数据进行推理的基本内容就 是从给定的知识里来获取其中隐含的知识,但是现在对推理技术的研究,大多还 是采用串行方法,在单个c p u 上处理这些任务。采取的策略是正向推理和反向推 理,这种单一的处理模式在处理一些特定领域,知识库比较小的,复杂度比较低 的问题发挥了一定的作用,但是随着问题复杂度的增加,常规的串行模式已经不 能满足这种需求,并且c p u 受到物理特性的限制而无法更好的提高性能【2 】,另外 由于语义网中的数据关系通常比较复杂,数据集通常比较庞大,用传统的推理方 法对其进行推理时在速度方面已经不能适应新的需求,与此同时,人们发现在推 理过程中的各个子任务直接在客观上存在着潜在的并行性,不同的子任务的推理 过程中总是存在着可以并行的相同阶段,所以要想提高速度就需要在同一时间段 做更多的推理工作,就是要让推理程序更好的做到要并发执行,更加充分的利用 系统资源,只有这样才能提高推理的速度和效率【3 】。而日本i c t 0 的主任渊一博在 f g c s 8 8 的主题报告中指出,第五代机计划技术特征的关键词是并行推到4 1 。 要想获得语义网数据之间内在的语义关系,就需要使用推理机对这些数据进 行推理,在语义网上对o w l 和r d f 进行推理的过程中,通常涉及到的问题有以 北京工业大学工学硕士学位论文 下几种情况【5 】: ( 1 ) 类实例关系推理,给定知识库k ,c 是k 中的一个类,i 是k 中的一个个 体。可以对以下的类和实例的关系进行推理。判断一个个体是否是c 的一个实例, 判断在k 中;判断在k 中个体i 是哪些类的实例;判断两个实例之间的关系或判断 与某个实例有特定关系的实例。 ( 2 ) 类( 概念) 的关系推理。给定类c 和d ,判断它们之间的关系( 子类、成员、 部分) 。 ( 3 ) 在类的体系结构中进行推理。给定类c ,返回在k 中c 的所有或相关超类; 或者返回在k 中c 的所有或相关子类。 ( 4 ) 类的满足性推理。给定一个类c ,判断c 在k 中是否是可满足的( 一致的) 。 ( 5 ) 基于属性的推理。属性与类( 实例) 有相似的推理,包括:属性实例关系, 属性包含,属性体系结构和属性可满足性等。 现在在理论上已经提出几种不同的推理结构,有星型结构,立方体结构,层 联分级式结构和轮型辐射式结构。针对不同的推理任务,采用不同的推理结构, 其推理效率有很大的差别。因为现在的并行推理主要是在并行分布式环境下进 行,分布式环境是节点在逻辑上统一而在物理上分散的一种环境。分布式环境中 的每个节点具有以下特点。第一是每个节点包括领域有限知识、群体任务规划调 度的有限知识、预测其它节点的有限知识。第二是能把复杂问题分解为若干子问 题;3 ) 能与其它节点进行通信与协作。通过分布式系统中各组成部分相互协作、并 行工作等手段,来提高整个系统的工作速度和工作效率【6 】。 并行推理的流程如下所述,当需要进行并行推理的主任务调入主机后,首先 主机根据相应的算法将其主任务分解成若干个子任务,然后再将这些子任务动态 分配给各个推理机,由各个推理机对相应的子任务同时进行推理。另外各个推理 机处理的结果由主机进行负责处理主要是进行冲突消解处理及结论处理。最后主 机负责传递子任务所需的全部数据来控制各子任务从而完成并行推理任务【7 1 。 一般中主从式的结构都是首先由主机对知识库和规则库进行分解,分解后的 各个子知识库和规则库与分解后的若干子任务相配套。同时根据算法对推理任务 进行划分,将其分解成若干个子任务。然后各个推理机从主机那里获得和其将要 进行推理子问题的子规则库和子知识库。由各个推理机共同工作来完成推理任 务。在推理的过程中一些推理机需要互相配合才能完成推理工作,例如有时某个 推理机需要获取其他推理机推理的数据才能继续进行,此时,在推理机和主机互 相通信的过程中,查看主机是否得到所需要的数据。如果获知主机中得到所需要 的数据,则根据这些数据再继续进行推理,如果没有,则发出等待消息,直到主机 返回所需数据才继续推理。当推理任务完成后由主机把这些结果合并到一起并输 出。已经完成推理任务的机器等待主机分配新的任务【s j 。 第1 章绪论 1 1 1l a r k c 的相关介绍 本课题是在欧盟合作项目大规模知识加速器( t i l ek n o w l e d g ec 0 1 l i d e r ) 下的 一个子课题,欧盟合作项目l 抓c 是欧盟委员会第七框架中的一个项目,构建 l a r k c 的初衷是准备开发一个大的知识加速器,一个为实施推理和搜索服务的基 础组织。从数据库,机器学习,认知科学和语义网络等多个领域获取方法和受到 启发。主要分为推理( 从逻辑的角度来看) 和搜索( 从信息检索的角度来看) 两 个方面,它不是一个简单的推理机,而是一个普通的平台和开发的体系结构。它 是一个基于开放架构的普通平台,而不是一个简单的推理引擎【9 1 。 l 根c 的目标是开发一个支持海量的,分布式的,不完备推理的平台。从而 来更好的除去现有推理系统遇到的障碍一规模性问题。可以完成实时的搜索和 不完备的推理,通过融合推理( 基于逻辑) 和搜索( 基于信息检索) ,实现w e b 尺度上的问题解决。另外l a r k c 还考虑了如何在推理和搜索这两个方面进行转 化,在完整性和公正性方面要做到平衡【9 1 。 l a r k c 的需求分为好几部分,首先就是异构性,具体来说就是在l a r k c 平台 上的数据可以有不同的表现方式,不同的推理需求和不同形式的规则。表现方式 的异构性。例如地图上的数据经常用地理学的方式表达,事件的细节在地图上则 以c s s 方式显示,交通的数据存储在数据库中,语义异构性要做推论的数据要求 尽可能的精确和一致。数据要求进行近似推理和缺失评估。缺省值异构性分为在 开放世界和封闭世界中的设想。另外l 狄c 还提出了以下一些方面的要求,首先 是动态性输入的数据和知识不是一成不变的,它们随着时间变化而发生改变。 同时这里有四种不同类型的数据和知识。如不变的知识,常量,周期性改变的数 据,随着数据变化而变化的事件。可扩展性支持不同层次的大规模的数据上可 以根据不同情况进行扩展性的推理。另外能够处理处理有噪音,不确定性和不一 致性的数据。即能对这些数据方便的存取并能进行推理【9 】。 开发l a r k c 的方法有以下几种。使现在基于逻辑推理的语义网推理方法一 从机器学习,信息检索和数据库获得的方法变得更加丰富,建立一个分布式的推 理平台并在高性能的计算集合和在内部应用。粒计算在人类解决问题时是一个必 不可少的有力工具,那么其可能在w e b 的推理和问题解决方面也会有重大影响。 粒计算为推理方案提供了多个解决方法,一定的约束条件下它会找出解决问题的 最佳方法。 开发l a r k c 的策略有以下几种。l a r k c 包括了大量的插件,其中有检索,抽象, 选择,推理和决定五个方法。在l a r k c 中,大规模和不完整的推理在网络规模的 数据资源上执行,大量的参考资料是通过异构计算资源和l a r k c 平台协作共同获 取,一些可计算的资源在和返回的计算结果交流之前会在分散的硬件上执行。根 北京工业大学工学硕士学位论文 据算法的计划,l a r k c 有策略的分配资源,首先检索一些可能对解决问题有帮助 的原始数据和声明,把这些信息抽象成异构推理方法需要的形式。选择最有可能 解决问题的方法,用多种演绎推理和统计推理在已经给出的数据和方法向解决办 法逐步靠近。判断那些非常精确的办法是否找到,如果没有找到合适的结果,那 么系统判断是否值得再试一次。图卜l 【9 】为l a r k c 平台推理的结构和策略。 壤 r e i e v a n ts o u r c e s r e l e v a n tc o n t e n t r e l e v an tc o n t e t e t r a c tln :o r m a t i o n c al c u i a t es t a t i s t i c s t r a n s f o r mt ol o g i c r e l e v an tp r o b l e m s r e i e v an tm e t h o d s r e l e v a n td a t a p r o b a i l i s t i cl n f e r e n c c l a s s i f i c a t l o n c o n t e tr e a s o n i n g e n o u g han s w e r s 7 e n o u g hc e r t ai n t y 7 e n o u g he f f b r t c o s t ? 图1 1l a r k c 推理的结构和策略 f i g u 陀l 1l 砌( c1 1 1 f e 咖c es 仃a t e g y 柚da r c l l i t e c t u r e 实现l a r k c 的手段有以下几种。通过有机的融合信息检索、概率推理等相关 技术和手段,来丰富当前语义网上逻辑推理的方法【9 】。 1 1 2 并行结构 现在的并行结构有三种,第一种是使用多个处理机的系统,这种系统通过总 线来共享内存。第二种是s i s d ( s i i l g l eh l s t m c t i o i l s i n g l e d a ,在这种结构中系 统之间的通信是通过总线来完成的。第三种结构是m i s d ( m u l t i p l ei i l s 眦t i o 玑 s i l l g l ed a :t a ) 和m i m d ( m u l t i p l e1 1 1 s t n l “o n ,m u l t i p l ed a 坳,这两种并行推理系统由 相当数量的处理器和内存组成,但是在实际应用中很少用到m i s d 【1 0 1 。在l a r k c 项 目中,从硬件的角度分析了并行推理的结构,提出了三种结构,分别是s m p 结构 ( sy i f u i l e t r i c a lm u l t i - p r o c e s s i i l g ) ,d m p ( d i s t r i b u t e dm e m o 巧p a r a l l e l i z a t i o n ) 和 鬻黪 第1 章绪论 h m s ( h i e r a r c h i c 址m e m o 巧s y s t e m s ) 。s m p 结构见图卜2 【l l 】,该结构分类的标准时 访问内存方式的不同。 图1 2s m p ( s 弘姗e t r i c a lm u l t i - p r o c e s s i n g ) 结构 f i g u 1 - 2s y m m 曲 c a lm u l t i - p r o c e s s i i l ga r c h i t e 曲皿e s 是指在一个计算机上汇集了一组处理器( 多c p ,各c p u 之间共享内存 子系统以及总线结构。它是相对非对称多处理技术而言的、应用十分广泛的并行 技术。在这种架构中,一台电脑不再由单个c p u 组成,而同时由多个处理器运行 操作系统的单一复本,并共享内存和一台计算机的其他资源。虽然同时使用多个 c p u ,但是从管理的角度来看,它们的表现就像一台单机一样。系统将任务队列 对称地分布于多个c p u 之上,从而极大地提高了整个系统的数据处理能力。所有 的处理器都可以平等地访问内存、i o 和外部中断。在对称多处理系统中,系统 资源被系统中所有c p u 共享,工作负载能够均匀地分配到所有可用处理器之上。 在这个结构中,所有的c p u 访问内存的速度是一样的【1 1 】。 d m p 下面我们来介绍一下d m p 的结构,如下图卜3 【1 1 】所示,该结构是每一个 c p u 直接连接到一个内存。 图1 - 3d m p ( d i 矧b u t e dm e m o 口p a r a l l e l i z a t i o n ) 结构图 f i g u r el 一3d i s 倒b u t e dm e m o d ,p a r a i l e l i z a t i o na r c h i t e c t u r e 北京工业大学工学硕士学位论文 在这个分布式内存结构中,每一个处理器都只和自己的内存直接相连接,并 且通过总线结构和此结构中所有的处理器相连接,由于这种结构和s m p 这种结构 的区别,所以每一个处理器在访问自己的内存的时候速度较快,但是在访问别的 内存的时候速度较慢。所以这个结构的花费和性能就取决于相邻的两个处理器之 间的连线的数量【1 1 】。 综合s 和d m p 两种结构各自的优点,在这种结构的基础上,提出来h m s 结构,如下图1 q 【1 1 j 所示。 删s 结构是将s 和d 结合起来,实际上,在现有的高性能计算系统中, 大部分都采用了s m p 节点的集群。现在常用的多处理器系统就是采用的s 结 构。在这个结构中s 是在每一个节点的内部应用,而d m p 是在节点总线之间 工作。 图1 4h m s ( h i e r a r c l l i c a jm e m o d rs y s t e m s ) 结构图 f i g u r cl - 4h i e r a r c t l i c a lm e m o d ,p a r a l l e l i z a t i o na r c h i 坂巾l r e s 凇p i n 柏 因为本课题是在l 根c 平台中尝试进行并行推理,所以在介绍完并行的结构 后,下面把这些流程简单的介绍一下。首先是通过连接欧盟的服务器来启动 l 斌c 平台的界面,如下图卜5 所示,界面上会出现一些系统的初始化信息。 图l - 5l a r k c 平台启动图 f i g u r e1 5l a r k cp l a 仃。咖l a u n c hi n t e r f ;l c e 第1 章绪论 l 狄c 平台启动以后,会对平台的一些参数进行初始化,然后进入s p a r q l 语句查询的界面,如下图1 6 所示,界面上出现的是s p a r q l 查询语句。 图1 - 6s p a r q l 查询语句的界面 f i 舭l - 6s p a r q lq u 唧s t a e m e n ti n t e 响c e 在s p a r q l 查询界面后,l 抓c 平台就进入p i p l i n e 的解释过程,如下图1 7 所示,可以看到k k c 平台上胁1 j s f o 衄e r 、i 血e t i f i e r 及s e l e c t e r 等p i p e l i l l e 开始 启动。 图l - 7p i p l i n e 启动的界面 f i g u r el 7p i p l i n ei n t e r l j l c e 当l 列 平台上面的几个工作都完成以后,l 涨c 平台就开始从欧盟的数据 库中对r d f 数据开始进行s p a q l 查询。j e n a 推理机通过对数据库中的r d f 数据进 行处理,通过对i m f 数据之间互相的关系来查找和t i mb e m e r s l e e 有联系的数 北京t 业大学 = 学硕士学位论文 据。图卜8 显示的是查询过程的一部分,从界面上看到查询到的i m f 数据都是用 r u i 互相链接。 图l 一8s p a r q l 查询过程界面 f i g u r el - 8s p a i lq u e d ,p d 0 c e s si “t e 晌c e 下图卜9 显示的是l 涨c 平台的查询结果,在前面是认识t i mb e m e r s l e e 的人 的名字,后面是找到这个结果的u 对。 图l 一9 查询结果界面 f i g u r el - 9q u e r yr e s u l ti n t e r f 如 北京工业大学w i c 研究院参加了其中的三个工作组,分别为w p l 、聊2 和 聊4 ,后来也参与了岍7 a 的工作。其中胛l 主要负责概念框架与评价( c o n c e p 删 f r 锄e w o r ka 1 1 de v a l u a t i o n ) 、w p 2 主要研究检索和选择( r e 俯e v a la i l ds e l e c t i o n ) 、 w p 4 主要研究推理和判定( r e a l s o n i n ga n dd e c i d i n g ) 、w p 7 a 主要研究医学临床应 用的语义集成( s e m a i l t i ci n t e 寥a t i o nf o re a r i yc l i n j c a jd e v e l o p m e n t ) 。我的研究课 题也与、卯2 、聊4 两个工作组相关。 第1 章绪论 1 。2 研究意义 1 2 1 理论意义 将并行推理技术和语义网技术结合起来首先会促进对语义网的研究。语义网 是由弛b e m e r s l e e 提出,由万维网联盟( w 3 c ) 发起,它将在现有万维网的基 础上逐渐成长。其目的是通过结构化和形式化的方法来表示w e b 上的资源,使得 计算机程序能够对网络上的资源进行分析和推理【l l 。在语义网上主要解决的问题 是现在网络上的内容要更适合机器来阅读。而推理是语义网中的一个重要组成部 分,由于语义网上的数据和传统网络上数据的差别,这样就产生了两个问题,第 一,是语义网数据之间的互联性。第二是语义网数据的海量性。对i m f 数据来说 通过每一个t r i p l e 都可以找到另外的r d f 数据,利用传统的推理方法在对这些数据 进行推理时遇到了许多困难,我们尝试着从语义网的角度来探索如何联合多个推 理机进行推理的系统,为语义网和联合推理系统发展探索了一条新路,具有一定 的理论意义。 另外将会促进w i 和人工智能等智能系统的发展。人工智能经过几十年的发 展,已经取得一定成果,但传统的基于逻辑推理的人工智能,在面临网络时代复 杂的、海量的、分布的多种数据源,及大规模实世界复杂问题求解时,还远不能 满足人们的需要。网络智能是研究基于w e b 的智能信息系统的新学科,与目前不 断出现的基于网络的具体信息系统不同,网络智能深入的,系统的研究基于网络 的人工智能和高级信息系统的原理和技术。网络智能有机的整合相关的研究理 论,又为研究者提供了新的平台和研究的契机。随着i n t e m e t 的普及和面向应用服 务的转变,网络智能的一些具体研究工作在国际上已经有几年的历史,但是作为 一个特定的研究领域,是在钟宁教授,刘际明教授和姚一豫教授于2 0 0 0 年正式提 出来的1 1 2 l3 1 4 】。在学术界产生了巨大的影响,通过开展一系列的学术研究活动, 目前已经得到国际学术界的广泛承认。智能w 曲作为下一代w e b 的发展方向,引 起许多学者的极大兴趣。w i 不仅仅研究单一w 曲的智能性,更关注多个w 曲如何 表现出集体智能性1 1 5 1 。研究在语义网推理上如何采用并行推理技术就是采用多个 推理机来进行推理,对于w i 的发展具有一定的推动意义。 由于现在网络上信息量急剧增加,在面对海量异构的数据面前如何进行快速 有效的推理是人们面临解决的一个重大难题,近期国际上曾有一个电信工程需要 在0 1 秒内对10 0 亿个i m ft r i p l e 进行推理,此需求仅靠单一推理机很难满足,故需 要联合多个推理机对问题进行推理【l6 | 。此方法应是一条解决此难题更为有效的途 径。因此研究联合推理对于信息处理及智能化具有重要意义。 北京工业大学工学硕士学位论文 在语义网上用多个推理机对r d f 和本体进行推理的问题,现在还处于研究的 初步阶段,该问题的提出虽然主要是针对语义网的环境,但是对w i 的发展会起 到促进的作用。 1 2 2 实际意义 另外本课题就目前而言是一个前沿的课题,本课题涉及到了人工智能,机器 学习,生物医药,搜索引擎等多学科,需要跨学科交叉创新和多领域专家联合攻 关,科研与开发并重,具有长久的影响和持久的效益。 1 3 国内外文献综述 1 3 1 国外研究综述 推理机是支持并行推理的主要技术之一,鉴于此,国内外许多研究机构研发 了一大批本体推理机。h p 、i b m 、微软、富士通等大公司,斯坦福大学、马里 兰大学、德国卡尔斯鲁厄大学、英国曼彻斯特维多利亚大学等教育机构都对语义 网技术展开了广泛深入的研究,开发出了j e n a 、k a o n 、r a c e r 、p e l l e t 、p r o t e g e 等一系列语义网技术开发应用平台、基于语义网技术的信息集成以及查询、推理 和本体编辑系统。 眦1 7 j 在论文中对分布式系统进行了定义并且给出了1 5 种不同的编程语 言来处理并行性,同时也指出了串行和并行编程的区别。 如何分解语义网上的数据现在在这一领域还是一个难点,因为语义网上的数 据都是i f 或o w l 类型的数据,数据之间的关系非常复杂。s o m a 【1 8 】在论文中 对于这一问题提出了两种解决方法。第一是只对输入的数据进行分解,第二是只 对那些规则进行分解。在第一种方案中,把输入的数据分成若干个相等的部分, 然后在网络上的每一个推理机上都分配了一部分数据,在这里各个推理机上都分 配了所有的规则。第二种方法是对输入的数据不进行分解,只对推理规则进行分 解,然后把这些分解后的规则分配给网络上的推理机,在这种方法里是每一个推 理机都要经过所有的数据,然后用这个推理机上的规则对输入的数据进行推理。 但是在实际应用中语义网上的数据都非常大,所以对数据进行分解就非常困难, 相比较而言还是分解规则操作起来更容易一些。 f r a u 1 k i l 州在论文中根据自组织的p 2 p 网络提出了一种技术,就是利用不同的 p e e r s 对这些输入的数据进行分解和交换。但是这个实验是在很小的数据集上进 行的。 第1 罩绪论 c h l i c h t 【2 0 】在论文中提出了一种新的方法,即在网络上的所有节点都只执行一 些特定的规则和处理所有的数据。这种方法的缺点是可能在某个时刻网络上的某 个节点由于不能完成任务而成为整个系统的瓶颈。这个实验也只是适用于小规模 的数据集。 0 l s t o n 【2 1 】在论文中一种框架叫做p i g ,它是建立在h a d o o p 的基础之上的。p i g 提供了一种可能性,就是让用户运行类似s q l 的查询语句,然后将数据转换成 m a p r e d u c e 可以处理的工作。其中g 1 l a r i n o 【2 2 】在文献中讨论了怎样使用p i g 来执 行s p a r q l 查询。 在此基础上人们已经开发出一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年生物科技研究员中级职称考试题库及答案解析
- 2024年全国公共场所卫生规范管理制度基本知识考试题(附含答案)
- (2024)第九届“学宪法讲宪法”应知应会知识竞赛题库及答案
- 安徽工商职业学院《艺术设计》2024-2025学年第一学期期末试卷
- 陕西工业职业技术学院《广告策划与方案》2024-2025学年第一学期期末试卷
- 2025年财务会计实操技能考核试题集及答案解析
- 2025年英语面试模拟题及答案大全
- 家具外观专利知识培训课件
- 班主任课件教学课件
- 唐山师范学院《交通流理论》2024-2025学年第一学期期末试卷
- 2025至2030中国密封圈行业项目调研及市场前景预测评估报告
- 非全日制用工劳动合同书
- 实习安全知识培训课件
- 2025年国家基本公共卫生监督协管测试题及答案
- 2025年食品安全抽样考试试题题库(含答案)
- 血液速递通道2025年冷链物流信息化建设报告
- 2025年秋季开学教师会暨师德师风会议上校长讲话:守住一颗心点亮一盏灯走好一段路
- 医美行业监管趋势下2025年美容整形手术的市场需求与消费者行为分析报告
- 数字化种植牙技术
- 2025年全国教育系统师德师风知识测试题及答案
- 2025年中煤财务岗笔试题及答案
评论
0/150
提交评论