已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)ontology自动构建中实例学习和关系学习的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 当今w 曲快速发展,网络信息成指数膨胀,这些巨摄信息构戚了世界上最 为庞大的信息库。如何从中精确高效地攀习出膏用的知谈,如何组织以及表示 知识,已贱为当今计算机领域的蓬要迥鼷。为了适应这些需要,o n t o l o g y 于9 0 年代初被提出。0 m o i o g y 最早慰个哲学上的概念,称为本体。人工智能等学 辩挺o 狂如l 。g y 鹃概念整耀过来,蒡赋予了瑟载含义,霹o 撼。l o g y 是共享概念模 型的明确的形式化规范说明。 如今謦内外许多掌零函俸帮在透行0 m o l o g y 粒磷究,然焉大部努0 n 专o l o g y 的构建是手工或半自动的,都需爱人工参与o n t o l o g y 的建立。如何自动构建 个o m o l o g y 系统是当今计算枫科学领域的研究热点,也是难点。茸前国内外关 予。玳o l o g y 自动生成的楣关算法还不娥十分成熟,为了进一步提高o n t o l o g y 构建的自动化程度,本文选择了前沿性的研究课题o n t o l o g y 自动构建中实 铡学习帮关系学麓匏研究。 o m o l o g y 自动构建中的实例学习是用算法学习出o n t o l o g y 的组成元素 实翻。遴过阕读太量豹鞠关文献,终者发凝蓬内外还没蠢发表安秘学习貔相关 文章,通道分析当前较流行的o n t o l o g y 半自动构建平台t e x h o o n t o 的原型系统, 发现该系统运用模式匹配方法学习实例,但是学习出的蜜例数量少、准确率低。 躐此,作者改进了该系统的实例学习算法,并念名为基于模式躁配的实例学习 算法。实验表明,基于横式匹配的实例学习算法在学习出实例的数量和准确率 方嚣均谯予奶( t _ t o 。o 珏t o 系统。基于摸式嚣嚣豹实骥学习算法孛豹实铡模式必须 人工定义,并且耗时耗力。为此,作者设计了一个基于模式自动学习的实例学 瓣算法,渡算法麓够耋动懿学习穗实穰穰式并运麓模式嚣甏算法逡幸亍实锾学习。 实验表明,基于模式自动学习的实例学习算法在学习出实例的数量和准确率方 黼与基予模式匿靛盼实僦学习冀法效栗一样。 关系学习是照算法学习出o n t o l o g y 的组成元素关系。通过调研发现关 系学习在学习出关系的数量和准确率方两还有待于进一步的改进。本文设计的 北泉工业丈学工学顺士学位论义 哭系学习算法包括:蒸于w o r d l n e t 的关系学习算法,基于模式匹配的笑系学习 冀法,基予模式自动学习斡关系学习算法秘基予关联规则的关系学习舞法。实 验表明,慕于模式隧配的关系学习算法眈t e x t t o o n t o 能学习出更多的关系,并 且准确率藏高;基于模式自动举习的关系学习算法克服了基于模式匹配的关系 学习算法中关系模式需要人工定义的不足,并且栽够眈基予模式匹配的关系学 习算法学习池更多的关系。基于w j r d n e t 的关系学习算法和基于关联舰则的关 系学习算法丰富了关系学习,并且使关系学习更其灵活注。 北京工业大学多媒体与智能软件技术北京市重点实验室与日本s o r l 心公 镯会终开发了一个o n 牺b g y 叁韵穆建平套o 撒o a g s ,本人痒秀该平台豹孩 心设计和开发人员,宛成了实例学习模块和关系学习模块等核心模块的研发。 0 妊b l o g y 僚为一静落义霸稚鼋襞蔟次上撼述蕊感系绕懿壤念摸嫠建摸工爨,其毒 广阔的发展前景和应用价值。 关键词o n t o l o g y 自动构建;实例学习;关系学习 l l a b s t r a c t a b s t r a c t 懒氇氇er a p i dd e v e l o p m e n to f 壤e 融b ,i n t e 撇e ti 蕊玎n a 矗o ng r o w s r a p i d l ht h e l a r g ei n f o m l a t i o nc o m p o s e st h el a r g e s td a t a b a s eo ft h ew o r l d h o wt ol e a r nu s e f u l i 1 1 】融r i i l a t i o n 矗o mi ta c c u r a t e l ya i l de m c i e n t l ya n dh o wt oo r g a l l i z et h ei n f o r m a l i o ni s av e r yi m p o r t a n tp m b l e mi n 付1 ec o m p u t e rd o m a i n 1 1 1o r d e rt 0m e c tt l l er e q u i r e m e n t s , o n t o l o g yw a sp r e s e n t e d 嫩出e9 0 s o n t o l o g yi sap h i l o s o p h yc o n c e p t t h ea m f i c i a l i n l e l l i g e n c eu s e s 也i sc o n c e p ta d de n d 王l e s 、v i 出an e w 瑚e a 王l i n g ,、妇i c hi so n t o l o g yi s 跹e x p l i e i 馘df b 黼a l i z 穗s p 。c i 鑫e 采i o 娃o f a 幽矗f e de o n e e p t u a 薹i z 蕞l 主。强 k o wa c 鑫( 酗既i 鑫i sd o i 矗gr e s e 毡r c ho b0 珏沁l o g y 珏o w e v 锯,戳a n yo j 谯e0 n t 。l o g y c o n s 讯l c t i o nt o o l sc r e a t oo h t o l o g ym 孤u 面l yo rs e m i a u t o m a t i c a l l y ,w h i 蕊i l c e d s h 啉a nt 0t a k ep a r ti n 也ep m c e s so fo n t o l o g yc o n g t n t i o n ,h o wt oc o n s m j c t o n t o l o g ya u t o m a t i c a l l yi sah o ts p o ta i l dd i m c u l t yi n 让l ec o m p u t e rs c i e n c ed o m a i n n o w a l g 嘶t h m sa b o u ta u t o m a t i cc o n s t n l c t i o no f d o m a i no n t o l o g ya r cs t i l li m m a t u r e h lo f d e rt oi n l p r o v et h ea u t o m 越z 砸o nd e g r e eo fo n t o l o g ye o n s 咖c 蛀o n ,ic h o o s om e a d v 强e e d 瓣s e a 端h 婶i e ,媳i c hi s 趣s 掂n c e 至e 瓣i n g 嚣芏l dr e l a 蛀。珏l e 鑫r n i n g 呈n a 硅l o m a t i cc o n s t r 娃e t i o 拄o fd 躐a 强0 n 艳l o g y i n s t a n c ei e a m 妇唱i na u t o n l g 湛cc o n s t f u c o no fd o n l a i n 0 n t o l o g y u s e s a i g o r i m m st ol e a n li n s t a i l c e sw 1 1 i c ha r o 也ec o m p o n c n t so fo n t o i o g yt f l r o u 曲 r e a d i n gl o t so fr e l e v a l l tr e f c r e n c e s ,if i n dt 1 1 a t 廿1 e r ea r ea h n o s tn o tp a p e r sa b o u t i n s t a n c el e a r n i n 舀,谊a l y z i n gt l l ep r o t o 够p eo ft e x t - t o - o m ow h i c hi sap o p u l a r o n t o l o g ys e m i a m o m a t i cc o n s t n l c t i o 芏ls y s t e m ,if i n dt h a ti tu s ep a t t e r nm a t c h i n g a 王黔延也魁t ol 韶mi n s t 强c e 。联o w e v e r ,m e 逊s t 黼e eq u a 薹嫩t y 锺da c e u 豫er a t ea r el o w j t h c f e 受r e ,li m p v o 氆ei 贽s l a 王1 0 0l e a m i 粥8 至g o f i t o ft e x t - o 拄一雠协a n d 挂a 氆e di t i n s t a i l c el e 黼i n g 毹g o 穗h mb a s 裾o np a 娃e 檬m 鑫t c 秘n g ,琶x p 商m e n t s 热o w 氆a t i n s t a i l c el e 黜1 1 i n gb a s e do np a t t e 始面a t c h i n g 赫g o r i t c a nl e 啪m o r ei n s t a n c e sa n d m o r ea c c u r a t et h a nt e x t t 0 一o n t o h o w e v e r ,t 璩i n s t a n c el e a m i n ga l 鐾o r i t h mb a s e do n i i i 北京工啦太学工学硕士学位论文 p a t 协mm a l i c h i n gs h o u l dd e f i n ep a t t e m sm a n u a l l y ,w h i c hi sat i m ew a s t i n gp r o c e s s t h e r e f o r c ,id e s i g na n 幽c el e a m i n ga l g o r i m mb a s e do na u t o m a t i cp a t t e m 1 e 黜i n g _ n l ea l g o r i m mc o u l dl e a n li n s t a n c ep a t t e m sa u t o m a t i c a l ly ,a i l dt h e nu s i n g p a t t e mm a l c h i l l ga l g o r i t l l mt ol e a mi n s t a n c e s e x p e r i m e n t ss h o wt h a tt l l el e a r n i n g r e s u l to ft h ei n s t a l l c el e a m i n ga i g o r i m mb a s e do n “u t o m a t i cp a t t e ml e a r n i n gi s 恤e s 锄ea st h el e 蝴i n gr e s u l to f i n s t a n c ei e a m i l l ga l g o r i t h mb a s e do np a t t e mm a t c h i n g r e l a t i o nl e a m i n gu s e sa l g o r i t l m st ol e a mt h er e l a t 主o n so f0 n t o l o g y w i t 量lt h e 趣v e s 蛀g 毹i o 珏靠r e l a 霰o nl 。a r i l 主n 岛酶a c e w a t e 勰黼dq u a n t 矗ys h 。落db e m p v e d kr e l 蘸。矗妻c a 蕊端8 l g o 蠢粕n s 她e l 嬲ef e l 蘸。矬| e 嬲鑫珏g 往1 羚f i t b lh s e do 建 w b 堪n e t ,r e l 鑫i 鼬l 倒n ga l g o 癌:b a s e d 鳓p a 挺锄搬越e 量l i n & 糙l 采i o 藏l e 8 m i n g a l g o r i 她b a s e do na u t o m 皱i cp a 挂e ml e a m i n g 箍l l dr e l 如o nl e a r n i n ga l g o r i t 她b 鼬e d o na s s o c i a t i o nr u l e s b x p e r h n e n t ss h o wm a 士r e l a 士i o nl e a m i n ga l g o r i t h mb a s e do n p a t t e mm a t c h i n gc a nl e a mm o r er e l a t i o n sa n dm o r ea c c u r a t et h a l lt e x t - t o o n t 0 , r e l a 吐o nl e a r n i n ga l g o i i 也mb a s e do na u t o m a t i cp a :七t e r nl e a r r l i i 培c a nl e a r nm o r e r e l a t i o n s 岫r e l a t i o nl e a r i l i n ga 王g o r i m mb a s e do np a t t e r nm a t c h i n g r o l a t i o n l e 蛐ga i g o r i 愤姐b a s e do nw b r d n e ta n dr e l a t i o nl e 甜n i n ga l g o r i t h mb a s e do n a s s o c i a t i o nn l l e sp r o v 王d eo t h e rw a y st ol e a mr e l a t i o n s m u l t i m e d i aa n d 瓢t e l l i g e ms o 触a r e c h n o l o g yb e 霸i n gm 瞰畦c i p a l k e y 毛a 硒r a t o 搿o f 嚣e 鳝i 醒u 矬i v e r s 静o f 秘c 酶o l o g ye o 卵e 擐t 稚弼氇s o r t 粼e o 溯搬搿 t od e v o l o pa 群矗臻m no f 鞠扔l l l 森eo n 硒l o g ye o 珏s 搬l e t i o ns y s t e mw 量l 主e 囊i s 撼a 难e d 0 珏幻a g s 。a s 烛e o 糟d c s i 器e 潍通d e v 。王。蹿o fo 琏| o a g s ,li 糖p l 凇e n e d 如e 。豫 m o d 泌e so fo 毪t o a g s ,姒虹c h 瓣i 勰t a n l e 髓i n 鬈m o 加1 ea n d 羚l 越o nl e 射珏i n g m o d u l e o m o l o g yi sac o n c e p tm o d l l l ec o n s l 【n i c t i o nt o o lb a s e do ns e m 锄t i ca 1 1 d k n o w l e d g el e v e lt od e s c r i b et h ei a f b 豳砒i o ns y s t e m ,w h i c hh a sb r o a dp r o s p e c t sa n d 鲈e a ta p p l i c a t i o nv a l u c k e y w o r d sa u t o m a t i cc o n s t n i c t i o no fd o m a i no m o l o g y ; i n s t a n c el e a r n i n g ; r c i a t i o nl e 舡n i n g 独创性声明 本人声明嚣呈交黪论文是我令大在导黟搬露下进行麓硬究王馋及取褥数硬 究袋象。尽我所翔,除了文中特剐加以标注_ 秽致谢的遣方丹,论文中不包含其德 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或戴它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中终了明确的说躜并表示了谢意。 签名:壹数日期:2 喊,6 ,星 关于论文使用授权的说明 本人宠全了艇j e 京工渡大学有关保留、馒瘸攀位论文鲍裁定,邸;学校有投 绦鏊送交论文载复印斧,允许论文被查霾帮缮潮;学校哥戳公蠢论文豹全韶或帮 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密厝应遵守此规定) 签意:叠遮灶簿彝錾墓:邋基裁:雌 1 1 研究背景 第1 章绪论 当今计算机网络技术快速发展,网络信息成指数膨胀,这些巨量信息构成 了世界上最为庞大的信息库。据c n n i c 统计,截至到2 0 0 5 年6 月3 0 同,网络 国际出口带宽总数达到总容量为8 2 6 1 7 m ,刚站数达到6 7 7 万个,我国i p 地址 近几年快速增长,总数达到6 8 3 0 万个,超过4 个a 类蛐址,拥有量排名世界 第1 ! ! | n 然而在这种快速发展的同时,也面临着种种的困难。主要的困难包括: 知识的表示、信息的组织、软件的复用等。特别足由于因特网的快速发展,面 对信息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服务也就 成为一项重要而迫切的研究课题。为了适应这些要求,o n t 0 1 0 9 y 作为一种能在 语义和知识层次上描述信息系统的概念模型建模工具,白被提出以来就引起了 国内外众多科研人员的关注,并在计算机的很多领域得到了广泛的应用,如: 知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的处理、语义 w e b 等【2 】口o n t o l o g y 最早是一个哲学上的概念,称为本体或本体论。它于9 0 年 代初被应用到计算机领域。人工智能等学科把0 i l t o l o g y 的概念借用过来,并赋 予了新的含义,即o n 【0 1 0 9 y 是共享概念模型的明确的形式化规范说明l ”。 o n t o l o g y 可以手工或半自动创建,但创建的时间长,工作量大,需要领域 专家的参与等。随之发展到自动创建o n t 0 1 0 9 y 的领域,其致力于克服手工或半 自动创建o n t o l o g y 的不足,从而被国内外众多研究人员所关注。0 1 1 t o l o g y 的组 成元素包括:概念( c o n c e p t ) ,实例( i n s t c e ) ,关系( r e l a t i o n ) ,函数( 缸l c t i o n ) , 公理( “i o m ) 1 4 】。下面对0 m t 0 i o g y 的组成元素进行简单的介绍。 1 o n t o l o g y 中的概念是广义上的概念,它除了可以是一股意义上的概念外, 也可以是任务、功能、行为、策略、推理过程等等,o n t o l o g y 中的这些概 念通常构成一个分类层次。 2 实例是指属于某概念类的基本元素,即某概念类所值的具体实体,特定领 域的所有实例构成领域概念类在该领域的指称域。 3 o n t o l o g y 中的关系表示概念之间的类关系,典型的一元关系如子类关系 3 o n t o l o g y 中的关系表示概念之间的一类关系,典型的二元关系如了类荚系 北京工业丈学工学颂士学位论文 构娥概念类黪屡次续梅。一般熔况下恩r :g c ,c 。表示概念类 c l ,c 2 。& 之闽存在的n 元关系。 4 函数是一种特殊的关系,其中的籍n 个元素相对于前面的n 1 个元素是唯一 的,一般情况下,函数用f :c 1 c 2 ”q l c 。表示。 5 公理用于表示些永真式。更具体地说,在许多领域熙面,函数之间或者 关联之间也存在着关联或者约束。翻 实铡学习是运耀葵法学习寤0 髓t o i 。g y 酌蕴藏元素实铡;关系学习慧运 用簿法学习爨概念之闻,实例之闽,概念与实例之蚓的关系。实例学习和关系 学习是自动创建o n t o l o 鐾y 的关键技术,然而实例学习尚处于研究探索阶段,目 前还没有比较成熟的算法,而关系学习算法也有待予进一步的改进。一些商业 稿研究机构曩经开发出一些0 n t o l 。g y 创建工藤,如;戳f f 5 l ,o n t o l i n g u l , 貔泌s 撇s ,c y c i l 7 】,l 好o m g 】,f l o g i c 【9 l ,w e b 0 廊,p r o 锪g ,娥t 静。蜘旧 等,它们是手工或半自动创建o n 地l o g y 的工具,著不涉及对实例的学习,蕊关 系学习在学习出关系的准确率和数量方面也需要进一步的改进。 。2 谍题的主要臻究内容 本课题的主要研究内容跫以o m o l o g y 自动构建中实例学习和关系学习的研 究为核心。邋过运用和改逶各种实锱学习和关系学哥算法来达蓟学习实铡释学 习关系瓣嚣戆,并提裹学习出安爨翻关系豹数鬃窝准确率。 实例学习就是运用算法学习出o n t o l o g y 的组成元素实例。实例学习算 法主要包括:( 1 ) 赫于模式匹配的实例学习算法【l ”,该算法主要通过人工定义 学习实例的横式来进行实例学习的研究;( 2 ) 蘩于模式自动学习的实例学习算 法,该箨法克服了基于攘式匿舔的实镄学习算法中入工定义模式需要领域专家 参与积人工是义熬模式不适应旬予多样变化的不是,遥逡垂动学习实例模式, 并运用到实例学习过程中以达到学习实例的目的。 关系学习是运用算法学习出概念之间,实例之间,概念与实例之删的关系。 关系学习算法主要包括:( 1 ) 基于w j r d n e t 的关系学习算法,该髯法运用 黼f d n e t 荠觚串接敬关系;( 2 ) 基予模式遴配静关系学习算法,该算法本蒺上与 2 第1 荜绪论 基于模式匹配的实例学习算法类似,即定义学习关系的模式,并用这些模式学 习如概念阕,实铡潮,概念与实铡阕的关系;( 3 ) 基于模式自动学习的关系学 习算法,运用基予模式匹配算法学习关系时需蘩领域专家参与关系模式的定义, 并且定义出的关系模式不能适应现实生活中旬予结构多样的变化,因此产生了 运搦算法是动学霹关系模式遴行关系学习;f 4 ) 基于关联规则的关系学习舞法, 该算法运用数据挖掘中经典的a 口r i o r i 算法学习二元关系; 1 。3 本文的组织 本文在绪论中奔绍了课艨黪礤究背景秘主要研究内容,在第二辈中对 o n c o l o g y 的研究进行了综述,介绍了o n t o l o g y 的起源,发展,定义,分类,刨 建0 n 姆1 0 9 y 豹原则釉困难,根摄o 摊沁l o g y 建设工具历支持的0 n t o l o g y 描述语 言对当前汪经开发崮的o n t o l o g y 建设工具避行了详缎静介绍。 第三章是本文的核心,详细介绍了o m 0 1 0 鐾y 自动构建中实例学习和关系学 习的礤究。实倒学习箕法规撼基于模式匹配的实例学习算法和基于模式囱动学 习的实例学习算法。关系学习算法截括基于w o r d n e t 的关系学习算法,基于模 式匹配的关系学习算法,基于模式自动学习的关系学习算法和基于关联规则的 关系学习箨法。我 f 】详细分撰了基予模式黪醋熬实铡学习算法和关系学习算法 的不足,进而设计并实现了基于模式自动学习的实例学习算法和关系学习算法。 麓四逝介绍了实例学习算法和关系学习算法的实验结果,其中包括基于模 式疆醮静实例学习算法,基予模式囊动学习静实倒学习舞法,基于模式莲配的 关系学习算法和基于模式自动学习的关系学习算法。通过对实验结采的分祈研 究,总结出对各个算法的评价结果。 第五章介绍了j t 京工嬗大学多媒体与智能软件技术j 寨市重点实验室与同 本s o r u n 公司合作开发的0 n t o l o g y 自动构建平台一一0 n t o a g s ,然后对 o 戤。l o g y 熬疫鼹羲爨避行了分缨。 最后是对本次谍题所做工作的憨结,戳及对未采工作的展望。 篇2 章o m o l o g y 综述 第2 章0 n t o l o 科综述 2 1 o n l o l o g y 的起源和发展 麸释方嚣学雯来羲,o n t o l o g y 露隽一门学游莛源予对万耪本漾静遥润。 o 联静l o g y 这个淫旱在| 7 毽纪裁已诞生,冀派生子誉膳语豹“o n t 。” 0 哟i 。譬y 、领域0 # t o l o 窑y 、诿畜学0 羲姆l o g y 、经务0 踟l o g y 、领域, 任务o n t o l o g y 、方法o m o l o g y 和应用0 n t o l o g y 。这种分类法是对根据0 n t o l o g y 研究层次提出斡分类方法蛉扩充和缨亿,僵是这1 0 罩孛o n t o l o g y 之蚓蠢交叉, 层次不够清晰。1 4 】 2 。4 建立0 n t o i o g y 的漂粼 0 嚏。l o g y 是人为设计戆关于某个领域豹概念模型懿一耱表示。撬嚣或评价 o n t o l o g y 设计需要根据一定的原则。t 0 mg m d e r 绘出了5 祭设计o n t o l o g y 的基 本准则:【2 8 】 ( 1 ) 瞬确性( c l a r i t y ) :o n t o l o g y 应该有效的传达所定义的术语的内涵。术语 定义应该是具有客观性,即使定义一个概念的起因来自于某些社会或者计算的 需求,这个概念的邂义也瘟该独立于这个需求。g 糯b e r 提国,形式纯燕实现客 观性的种方式,也就是说,当一个定义可以用逻辑公理陈述的时候,那它就 应该露逻辑公毽表述。溺露,在霹蕤豹蘩箨下,完整翳定义( 鄂:震辩峦必要 和充分条件表示的谓词) 要比一个部分定义( 即,仅用必要或者充分条件定义 酶镶强) 要好。狳了形式豫表示努,g 黼b e f 裁霪雩;丕提出繇鸯瓣定义应浚雳垂然 语言成文。 ( 2 ) 一致眭( c o h e r e n e e ) ;一个o 娥o l e g y 盛该楚翦爱一致懿,也就是说, 由它推断出来的概念定义应该与o n t o l o g y 中的概念定义一致。至少,所有的公 理应该其裔逻辑一致性。那些非形式化定义的概念,如用爨然语言或用实例描 述的概念,也应该舆有前后一致性。如采从一组公理中推论出来的个句子与 1 0 第2 章0 嫩o l o 彰琢述 一个j e 形式化的定义或者实例矛盾,则这个o n t o l o g y 是不一致的。 ( 3 ) 可扩展性( e x t e n d i b i l i t y ) :所谓可扩展性是指,一个0 n t o l o g y 提供一 个共事匏词汇,它应该程疆麓鲍任务范围内掇 共概念鲍基础,臌瓣,它故表示 庭该键褥人稻l 够单调的扩震帮专 j 纯说爨这个词汇。氇就跫说,人们应该在 不改变原有定义的前提下,以这组存在的词汇为基础定义新的术语。 ( 4 ) 最小编码偏差( m i n i m a le n c o d i n g b i a s ) :o m o l o g y 应该处于知识的层次, 丽与特定鲍符号级编码无关。它的表示形式的选择不应该只考虑衷示上或实现 上瓣方便。阮i 。l o g y 瓣绫羁壤差应该控麓在尽霹筢毒豹范黧内,因为首先 o n t o l o g y 在哲学的含义上就是与语言无关的,在人工智能领域,o n t 0 1 0 9 y 提供 了可欺享的词汇,也应该独立于任何知识表示的系统和风格。 ( s ) 最小o n t o l o g y 承诺( m i n i m a lo n t o l o g i c a lc o 删血乜n e n t ) :一个o n t o l o g y 应该程提供必颡熬共享翘鼍跫戆条 孛下,要求蠢菠小致0 n t o l o g y 承漆,也裁是说, 它应该对所模拟的事物产生尽可熊少的携激,两让共享者童幽静按照它们静需 要专门化和实例化这个o n t o l o g y 。g n l b e r 进一步指出,由于o n t o l o g y 承诺是以 词汇的使用为基础的,因此,可以制定最弱理论( 即允许最多的模型) 和只定 义那魏基本术语来实现o n t o l o g y 承诺最小纯。 除了上述0 珏圭o l o g y 设诗琢鬟荔癸,诲多敬骚究者稷摆鑫己豹实践,遗一步 提出了其他的o n t o l o g y 设计原则,如ja 印i r e z 等提出,o m o l o g y 设计应该坚持 如下几点原则:【2 9 】 ( 1 ) 能使用标准术谬: 国舞层次凝念之阗绦持最毒魏语义遴裹: ( 3 ) 可以使用多种概念层次,采用多重继承机制来增加表这能力。 但是,所有的这些o n t o l o g y 的设计原则,包括g m b e r 的0 “c o l o g y 设计基 本准则,都是非常笼统的和抽象的,有些没裔明确的或可操作的语义,甚至有 些驻英l 之阉还存在不一致的+ 涛援,这些愿则浠瑟我们在实践中校撵窖溉。 主暹在 不一教原尉中闯遂彳亍投辚,灵活掌握。謦翦仍不存在公认豹0 n 搬l o g y 设计和评 价标准以及质量保证标凇。 北柬工业大学工学硕士学位论文 2 5 建立o n t o l o 料的困难 o n t o l o g y 的上述特点隐含着建立o n t o l o g y 的融难。 首先,要真正做到本体的详尽性是非常困难的。任何一个客观的论域,由 予事耪零身静复杂靛、多样憔强人稍认谖豹局陵憾,荬事物和事物之阕斡关系 很难被人们完全认识并表示出来。而且,事物本身也是不断发展变化的,本体 工程舞要耩羞事滋熬发篾交纯不断更瑟本傣孛事秘熬洼霞、搴貔之闻麓关系是 十分困难的事情。 其次,实瑷本依夔专韭惶褥要对专鼗领域有较深入赘避解,僮谤舞瓠辩学 领域的本体工程师一般都没有系统地学习过其他领域的专业知识,对之很难有 深入的理勰。两领域专家也缀少能够深入地理鳃计算机科学秘计算机萋萼学中鲍 本体,因此也难以对本体工程师提供特别有效的帮助。 第三,如果本体掏建不是针对有限的特定应用,则不容易确定本体的描述 鞭度。 第四,就计算机而言,知识表示的形式化程度越高越便于处理。假在实际 的超谖获毅过程中,有些翔谈爨然久麓瑷释,毽缀难礁留羹羹袁达密采,要焉形 式化的方式确切地表示出来更加困难。 多学耱搴薅系绫麓建立阉群存在上述困难,毽耀对予擎学辩本终系统麴建 立,多学科本体系统的建立述存在以下问题: 善先,不鼹学秘翡知识( 凭括概念、概念之阗翡关系等 各蠢特杰。要建 立一个统一的模型并在此基础上获取并交示各学科知识,需要这个模型高度抽 象、概括,充分考虑到各个学莘萼知识的特点,这并不是一项容易的工作。 其次,不同的领域可能采厢相同的概念( 词汇) 表示不同的含义,或者用 不同的概念( 词汇) 表示相同的含义,从而产生本体系统的混乱。 再次,不同学科描述事物的层次或翥粒度往绽不同,丽相同靛事物从不同 粮度看来,其性质往往也存在较大差异。例如,“铜”从物理学的角度考虑是一 耪金璃( 或者说是金耩类静一个实爨) ,它有延往秽震注,楚熬和电静驻佳荨薅 之一;而从化学的角度考虑,铜是一种化学性质不活泼的金属元素,商许多具 体黥“实穰”一一键添子帮镄离子,瑟以锾可以番或是一令粪。拓餐熬不嚣粒 魔的多学科知识组织成一个协调的、统一的本体系统也是一个重要的问题。 2 第2 苹o n t o l o g y 综述 第四,多学科本体的建立单靠一个人的力量是不可能实现的,它需要多个 人共同完成。由于领域的差努,也由于个人的差努,多个人在建立不同领域的 本体时可能存在多种闯题,毹括: 1 相同属性的命名不同。例如:本体o l 中的属性邮政编码与本体0 2 中的 耩往鄄致缡码是辖潮的属性,德命名不阐; 2 相同属性定义域不同。例如:本体0 1 的邮政编码的定义域可能是 2 7 0 e 0 。2 7 0 0 5 0 ,本体。2 静郏敬编羁熬宠义蠛可麓楚1 0 0 0 1 0 8 e ; 3 同类值的表示方式不同。例如:o l 的距离用“x 公理”表示,0 2 的距离用 英里”表示。 4 相同的值含义不同。例如:“山高度= 很高”不同于“建筑物高度= 很 蠢”,这秘馕与人的主褒认识鸯关,在不阉弱领域糍不圆的参照标准。 多学科本体的建立相对单学科本体的建立存在更多的翻难,需冀全面地考 虑多学科知识的特点,提供各乖争相关问题的解决策略,并要骞很好的工具支持。 2 6 构建0 n t 0 1 0 9 ) r 的工具 到目前为止,融经出现了许多本体建设工具。根据这然工具所支持的本体 描述语言,大致可以分为薅类。 第一粪包括o n t o l i n g u a ,o n t o s a u m s ,w 曲o n t o 等。这三个工具的菇同点是, 都基于某种特定的语言( o n t o l i n g u a 基于o n t o l i n g u a 语言,o n t o s a u n l s 基于 l o o m 谣言,w e b o n t o 基于o c m l 谣言) ,并谯一定程度上支持多种基予a i 的本体描述语言。 第二焱包括p 憾琴系甍、硪秘o d 嚣、0 珏沁鹜魏、o i l 戳警。这些工蔡最大静 特点是独立于特定的语言,可以导入导出多种基于w 曲的本体描述语言格式 ( 如x 醚l 、髓f f s ) 、d a 酝毛+ 0 l 己等) 。蒺中,狳了o i l e d 爱一令单猿瓣奉辱摹编 辑工具外,其他都鼹一个整合的本体开发环境或一组工具。它们支持本体开发 生愈鼹期中的大多数活动,势基因为都楚基于缝 孛懿结梅,缀容易遴过添烟鞭 的模块来提供更多的功能,具有良好的可扩展性。 下嚣婚篱单食缓并比鞍几瓣主要鲍本体建设工具。 北索工韭大学工学颈士学位论文 2 6 1 蒸于a i 的本体描述语言的一类工具 1 0 n t o l i n 冀u a f 3 0 j o a 幻l i n g 髓憝薪遁福大学知识系统实验窿( 受s l ) 开发静一个本俸歼发环 境。它包摄个服务器睾个表示语蠢,服务器位于斯坦福。主要特点如下: 1 ) 使用o n t o l i n g u a 语言的扩展版本作为半形式化的表示语言。 2 ) 镁露潢是藩蠢辩蒙静疆粲撬甏表示帮濑览翔谖。溺览器使蘑超链接,使 得用户的浏览可以方便、快速地从一个术语跳到另个。用户还可以看到信息 是如何推导的。0 n t o l i n g u a 使阁类子类的方式展现炎层次。 3 ) 将0 渤l i n g 滟语言进孳亍扩震,傻蠲户能逐遗缝疑攘块瘁中组合薪本钵。 o n t o l i g u a 服务器允许用户通过包含、多态表示和限制的方式,重用模块的结构 库中的已有本体。为了方便对融有本体的重用,o n t o l i n g u a 服务器提供了将一 个本落毫含囊舅一个本侮豹方法。每令本俸霹以著作一个词汇集稻公理集。密 于本体包含的结果是产生一个公理集的并集,因此不存在环包含。o n t o l i n g u a 服务器既允许用户显式她表示本体之间的包含关系,也允许用户使用公理之间 夔参考隐式遗髫建包含关系。 4 ) 为用户提供三种与o n t o l i n g u a 服务器交互的主要模式。第一:分布在远 方的人们使用w e b 浏览器浏览、构建和维护存储于服务器的本体。服务器允许 多令兵l 户在共事蕊会 螽上著发遮处遴一令本傣。第二:远程应弱可瞄逶遘 i n t e h l e t 查询、修改服务器上的本体。它使用扩展g e n c r i cf r a m ep r o t o c o l 的网络 a p i 。第三:用户可以将本体转变为特定应用使用的格式。 5 ) 够转换毙其戆语言( 懿l d 毛、p r o l 蝶、e l p s 、l 0 0 m 、印澎 、斑f ; 6 ) 支持合作开发本体。o n t 0 1 i n g u a 支持对本体的维护、共享、合作开发, 而鼠0 n t o l i n g u a 满足易用性。厢户通过比较两个本体,并观察从一个本体转变 为雯一个零辱搴黪动作集会,黻方便缝鉴撬本体懿变纯。逶造检褒槽、糖僮、 面、面值,确保它们满足已知的限制的方法,用户可以分析本体的一致性。服 务器也提供了将大本体分解为凡个小本体的方法。o m o l i n g u a 通过用户和组的 访闼控制,以及多鼹户懿会话挺供会俘开发槐毒。 7 ) 在0 n t o l i n g u a 中可以实现上下文敏感的搜索,术语的限制被用柬限制搜 索的结果。当前o n t o l i n g u a 并不提供太多的掖理能力。o n t o l i n g u a 是一个功能 l 毒 第2 章o n t o l o g y 综述 非常强大的本体开发环境,特别是它对本体的维护、共享、合作开发等环节的 支持程度。 2 o n t o s a u r u s l 3 l j o n t o s a 哪s 是南加州大学为l 0 0 m 知识库开发的一个w e b 浏览工具,提供 了一个与l o o m 知识库链接的图形接口。o n t o s a u r u s 同时提供了一些对l o o m 知识库的编辑功能,然而,它的主要功能是浏览本体。 由于o n t o s a u m s 使用l o o m 语言,它具有l o o m 语言提供的全部功能,例 如支持自动的一致性检查、演绎推理,也支持多重继承。o n t o s a u m s 目前只支 持对k i f 、o k b c 语言的导入导出。 o m o s a u r u s 支持两种模式。第一种模式是本体浏览模式,另一种是本体编 辑模式。当一个用户进入编辑模式后,将阻塞其他希望进入本体编辑模式的用 户,这样就允许多个用户同步对一个本体进行操作。但是用户很难辨认其他用 户对本体做出的修改。如果要创建一个本体,特别是比较复杂的本体,那么用 户就需要对l o o m 语言有一定的了解,对于一个新的用户,使用o n t o s 肌m s 编 辑本体不是很方便。 虽然,o m o s a 哪s 的开发受到o n t o l i n g u a 的启示,但它们的开发方式存在 明显的不同。o n t o l i n g l l a 的本体开发方式采用自底向上的方式,先建立许多范 围小、内容丰富的本体,然后将这些小本体合并起来,生成更大的本体,逐步 迭代。而o n t o s 删的本体开发方式则是自顶向下的。它先建立一个大的、通 用的本体结构框架,然后逐步往这个框架添加领域知识,形成内容丰富的本体。 3 w 曲o n t o l 3 2 1 w e b o n t o 是英国o p e nu n i v e r s 畸起于1 9 9 7 年的项目。该项目的目的是丌 发一个基于w e b 的本体编辑器。它能提供比0 n t o l i n g u a 更为复杂的浏览、可视 化和编辑能力。w 曲o n t o 是基于o c m l 的知识模型,提供多重继承、锁机制, 支持用户合作地浏览、创建和编辑本体。w 曲o n t o 没有提供源代码。 o m o l i n g l l a 、o n t o s a u r u s 等系统使用浏览器作为客户端接口,这样会导致三 个问题。( 1 ) 数据的集中存放。由于所有数据集中存放于中央数据库,这样中 间的用户修改就会被覆盖,而且无法提供迅速反馈的接口。( 2 ) 一次性连接。 服务器仅仅对网页请求做出回应,这意味接口仅能对用户动作做出反应,因此 北求工业大学工举硕士学位论文 本体建设工具无法包含异步邋信( 如周期地提醒存储数据) ,也就是用户必须记 住以前的页面。( 3 ) 浏览器展现的呆板。浏览器对于图形接霜的支持跫有限魄。 而w 曲o n t ow 以解决这魑问题。w 曲o n t o 幽一个中央服务器和j a v a 编写 的客户端组成。它包括一个图形用户接口和用于存放细节数据的梭蠢窗口。 w c b o n 协提供大量定蒂l 信塞袭示类墅的选顼。最瑶它提供一个客户端的a p i , 用于从w 幽o n t o 的本体检索储息,以及运行w e b o m o 建成的应用。 2 6 2 基于w 曲的本体描述语言的一类工具 1 p r o 缱g 垂2 0 0 0 p m 伯g e 2 0 0 0 是豳斯坦福大学的s t a n f o r dm e d i c a li n f 0 枷a t i c s 开发的一个开 教源璃豹本俸编辑器。它楚薨jj a v a 编写的。p 赋g 2 0 0 0 秀蟊溅猿与普遗 w i n d o w s 应用程序风格一致,用户比较容易学习使用。本体结构以树形的层次 嚣录结构纛示,鬟户露基逶遥患老攘瘦豹矮嚣寒壤撩或绫瓣类、子类、藩整、 实例等,使用户在概念层次上设计领域模型,所以本体工糨师不需要了解具体 豹本薅表示语言。 p r o t e 9 6 2 0 0 0 支持多重继承,并对新数据进行一致性检奁,并且具有很强的 可扩展性,主要表现在如下几点: 第一,p r o t 6 9 6 2 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年下学期高二化学分子的手性与物质性质试题
- 2025年上学期高一数学周测(第十三周)
- 护士岗位职责说明及工作流程范文
- 企业员工绩效评价与激励机制设计
- 现代英语完成时态中的副词用法详解
- 人民币计算题型分类与练习
- 篮球战术传切配合教学方案
- 小学六年级英语听说测试试卷汇编
- 书法描红教材及笔画规范讲解
- 建筑工程质量控制全流程
- 2025年新合同管理部试题及答案
- 2025年西藏昌都地区遴选公务员面试自测试题及答案解析
- 25秋国家开放大学《人文英语3》形考任务参考答案
- 服装店店长岗位职责详述
- 2026年滕州工作者考试试题及答案
- Unit5Period5Readingforwriting课件外研版英语八年级上册
- 神经科癫痫患者的日常护理指南
- (人教2024版PEP)英语一年级上册全册课时练习(含解析)新教材
- 2025年农商银行面试题目及答案
- 视光中心检查表
- (14)普通高中音乐课程标准日常修订版(2017年版2025年修订)
评论
0/150
提交评论