(计算机应用技术专业论文)本体及其在多文化交流平台中的应用.pdf_第1页
(计算机应用技术专业论文)本体及其在多文化交流平台中的应用.pdf_第2页
(计算机应用技术专业论文)本体及其在多文化交流平台中的应用.pdf_第3页
(计算机应用技术专业论文)本体及其在多文化交流平台中的应用.pdf_第4页
(计算机应用技术专业论文)本体及其在多文化交流平台中的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)本体及其在多文化交流平台中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

塑里奎兰堡圭兰堡堡兰 童竺墨茎壅耋兰些苎垫兰篁耋墼堡里 本体及其在多文化交流平台中的应用 计算机应用技术专业硕士研究生岳静 指导教师张自力教授 摘要 因特网的普及大大地促进了国际合作和交流。然而,语言障碍却限制了亚洲各国之间 的合作。为加强皿洲国家间的交流与合作,日本京都大学t o r ui s h i d a 教授发起了多文化 交流平台( i n t e r c u l t u r a lc o l l a b o r a t i o ne n v i r o n m e n t 简称i c e ) 国际合作项目。其目 的是构建一个交流平台,使得亚洲不同国家的用户能够通过因特网用自己的母语进行无障 碍的交流;通过这个交流平台促进整个亚洲乃至全世界的科技、文化的交流与发展,增进 彼此间的理解和信任,从而能从一定程度上减少因民族和文化差异而引起的争端。然而 i c e 目前已有的翻译工具如t r a n s b b s 、a n n o c h a t 等,虽然已经基本实现日语、汉语、英 语、韩语、马来西亚语之间的互译但翻译质量还不够理想,使得交流双方难以理解。 为了提高交流双方的互相理解程度,我们提出了一个基于本体的i c e 系统框架,作 为a n n o c h a t 的有益补充,以改进a n n o c h a t 翻译结果的可理解程度。该系统框架集成了本 体、智能a g e n t 、数据挖掘三大模块,本文的工作主要集中在本体这一模块。 本体是知识共享和知识重用的桥梁,它通过定义精确的共享术语以提供某一特定 领域可重用的知识,对于消除语义模糊有积极的作用。因此,我们构建了一个本体领域本 体作为整个系统的底层支撑,为传统的翻译工具提供语义支持。同时,为了适应外部环境 以及用户需求的变化,我们为领域本体引入了进化机制,提出了一个面向用户的四阶段的 本体进化模型,在完成本体进化基本任务的同时能够晟大程度地满足用户的需求。 实验证明,相对于a n n o c h a t ,基于本体的i c e 系统能够对谈话中的多义词加以正确 的解释,从而提高交流双方的可理解程度。同时,根据本文提出的本体进化模型而实现的 塑皇查兰堡圭耋堡篁兰奎竺垒苎至耋三些圣堡兰鱼! 墼堡望 原型系统d o e s 能够有效地完成领域本体的进化任务。 关键词:本体本体进化多文化交流平台 o w l i i 塑至奎兰丝尘兰堡丝兰 奎些垒塞垒耋塞些圣堡兰童塞塑堡里 o n t o l o g y a n di t sa p p l i c a t i o ni nt h e i n t e r c u l t u r a lc o l l a b o r a t i o ne n v i r o n m e n t m a s t e rc a n d i d a t eo fc o m p u t e r a p p l i c a t i o nt e c h n o l o g y y u ej i n g s u p e r v i s o r :p r o f z h a n gz i l i a b s t r a c t t h ep r e v a l e n c eo fi n t e r n e tp r o m o t e st h ec o l l a b o r a t i o na n dc o m m u n i c a t i o na m o u n u s e r sa l lo v e rt h ew o r l dh o w e v e r , t h ec o l l a b o r a t i o nb e t w e e nt h eu s e r so fa s i a n c o u n t r i e si sl i m i t e db e c a u s eo fh i g h l a n g u a g eb a r r i e e i t sa ni m m i n e n tt a s kt o s t r e n g t h e nt h ec o m m u n i c a t i o ni na s i a i n t e r c u l t u r a lc o l l a b o r a t i o ne n v i m r m a e n t ( i c e ) w h i c hi ss p o n s o r e db yp r o f t o r ui s h i d aa tk y o t ou n i v e r s i t yi saj o i n tr e s e a r c hp r o j e c t o fu n i v e r s i t i e s ,r e s e a r c hi n s t i t u t e s ,a n dr e s e a r c hs o c i e t i e si na s i a t h eo b j e c t i v eo fi c e i st os u p p o r ti n t e r c u l t u r a la n dm u l t i l i n g u a lc o l l a b o r a t i o n su s i n gm a c h i n et r a n s l a t i o n t e c h n o l o g i e s ( m t ) a h h o u g ht h et r a n s l a t i o nt o o l ss u c ha st r a n s b b s 、a n n o c h a ta r ea b l et ot r a n s l a t e m e s s a g e sa m o n gc h i n e s e ,e n g l i s h ,j a p a n e s e ,a n dk o r e a n ,t h eq u a l i t yi sal i t t l ew e a k a n dt h eu s e r sc a n tu n d e r s t a n de a c ho t h e rv e r yw e t oi m p r o v et h em u t u a lu n d e r s t a n d i n go fu s e r su s i n gt h e i rn a t i v el a n g u a g e si n a s i a ,a no n t o l o g y b a s e di c ef r a m e w o r kw a sp r o p o s e di nw h i c ho n t o l o g y , a g e n ta n d d a t am i n i n gt e c h n i q u e sw e r ei n t e g r a t e d w i t ht h es u p p o r to ft h i sf r a m e w o r k ,t h e t r a n s l a t i o nr e s u l t so fa n n o c h a ta r ee a s i e rt ob eu n d e r s t o o d t h ew o r ko ft h i st h e i si s f o c u s e do nt h eo n t o l o g ym o d u l e o n t o l o g yi saf o r m a ls p e c i f i c a t i o no fa s h a r e dc o n c e p t u a l i z a t i o n i tp r o v i d e s m e a n sf o rd e s c r i b i n ge x p l i c i t l yt h ec o n c e p t u a l i z a t i o nb e h i n dt h ek n o w l e d g e r e p r e s e n t - 西南大学硕士学位论文本体及其在多文化交流平台中的应用 e di nak n o w l e d g eb a s ea n di t sh e l p f u lt od i s a m b i g u a t ep o l y s e m e a sar e s u l t w e e s t a b l i s h e da no n t o l o g yn a m e dd o m a i no n t o l o g yt op r o v i d es e m a n t i cs u p p o r tf o rt h e o n t o l o g y - b a s e di c es y s t e m i na d d i t i o n ,i no r d e rt oa d a p tt od y n a m i c sa n dc h a n g e s i nt h eo p e r a t i n ge n v i r o n m e n t w ei n t r o d u c eah s e r - o r i e n t e df o u r - p h a s ee v o l u t i o n m o d e lf o rd o m a i no n t o l o g y , w h i c hc a no b t a i nt h eo n t o l o g yv e r s i o na c c o r d i n gt ot h e u s e r sp r e f e r e n c e t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h eo n t o l o g y b a s e di c es y s t e md i s a m b i g u - a t e sp o l y s e m em o r ee f f e c t i v e l yc o m p a r e dw i t ha n n o c h a t w h i l e ,t h ep r o t o t y p e s y s t e md o e si m p l e m e n t e da c c o r d i n gt ot h ep r o p o s e df o u r - p h a s eo n t o l o g ye v o l u t i o n m o d e le v o l v e sd o m a i no n t o l o g ye f f e c t i v e l y k e y w o r d so n t o l o g y , o n t o l o g ye v o l u t i o n ,i c e ,o w l i v 独创性声骧 学位论文题目:查链瑟基凌垒塞丝塞溅垩佥史鲍廛用 本人声鹾所曼交的学俄论文是本人在导簿指导下进行的磺究工 作及取得的研究成果。据我所知,除了文中特别加以标浪和致谢的地 方外,论文巾不包含篡他人已经发表域撰写过的研究成慕,也不包含 为获褥嚣南大学或其他教育机构的学位或证书两使用过黪孝才料。与我 一溺工作豹蘑恚对本耢究翁鼗豹 王傍贡献筠已在论文中佟了凌确戆 说臻并表示谢意。 学位论文版权使用授权书 本学位论文 乍者完全了瓣疆南大学肖关保留、使用学佼论文的规 定,有救保窘l 并扁国家有关郝门或机构送交论文的复印件和磁盘,允 许论文被查阕襄措潞。本人授毂嚣南大学矮究皇藐可浚瓣学位论文薛 全部或部分内容编入程关数据瘁避毒亍检索,可竣采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 学位论文作者签名:糯导师签名 签字日期:赫6 年f 月,曰签字日期 学位论文作者毕螺后蜜向: 工俘单位:垂盘查波太鲎盐篡垫筮燮鲎瞳 通讯避蛙:盛鍪壹戆燕垂錾壑盍耋曼 励 月弓日 电话:l! 邮缡:l 西南大学硕士学位论文 本体发其在多文化交流平台中的戊用 1 1 多文化交流平台简介 第1 章引言 因特网的普及大大地促进了国际合作和交流。然而,与北美和欧洲的频繁 合作相比,亚洲国家在这方面明显落后。加强亚洲国家间的交流与合作是一个 迫切的任务,然而,语言障碍却限制了亚洲各国之间的合作。 砸洲人通常部不会彼此田家的语言,写作时又都习惯刚自己的母沿来表 达,彼此交流时,只能通过第三方语言( 比如英语等) 来转达。然而,第三方 语言毕竟不是母晤,交流中不如使用自己的母语那么得心应手,甚至会产生不 必要的误解,因而,浯言障碍严重地束缚了亚洲各国之间的交流,如何克服这 一障碍是推动亚洲各国广泛合作的关键所在。 在互联网广泛普及的今天,人们的交流往往以网络为媒介,进行在线交 流。因此,克服语言障碍可以从在线语言互译入手。当前,进行在线语吉。互译 的一个有效途径是以机器翻译技术作为中问桥梁,用户仍然使用各自的母语进 行交流,而翻译工作则交由机器来完成,这样,交流双方无需改变自己语言习 惯,能够很大程度地解决语言障碍问题。 由日本京都大学t o r ul s h i d a 教授发起的多文化交流平台( i n t e r c u l t u r a lc o l l a b o r a t i o ne n v i r o n m e n t ,简称i c e ) 工f 足在这一背景下产生的。概括来讲,i c e 是 山亚洲各国的多所大学、科研机构和组织共同参与的研究项目,其目的是提供 一个交流平台,使得亚洲不同国家的用户能够通过因特网用自己的母语进行交 流而无需使用第三方语言,通过这个交流平台促进整个亚洲科技、文化的交流 与发展( h t t p :h i c e k u i s k y o t o u a c j p i c e ) 。当然,i c e 的最终目标不仅仅在于 此,而是希望通过这种无障碍的交流,使得各国不仅能够克服语言障碍,在科 学技术方面取长补短,并且促进各国之1 1 日j 文化的交流与融和,增进彼此叫的理 解和信任从而能从一定程度上减少因民族和文化差异而引起的争端,促进整 个世界的融和,这对于科技的进步、全球一体化的发展乃至整个人类社会的进 步都具有积极的影响。 到目前为止,i c e 已经初具规模,来自中国、韩国、同本、马来西亚的多 所大学已经加入到这项合作项目中来,同时,该项目还受到日本的几家著名公 司及研究组织的大力支持,已经开发出t r a n s b b s 、t r a n s w e b 、a r m o c h a t 等交 流平台,能够基本实现日语、汉语、英晤、韩语、马米西亚语之间的互译。 2 0 0 2 年,i c e 进行了第一阶段名为i c e 2 0 0 2 的实验。来自中国、门本、韩 国、马来西亚等国家多所大学共4 0 余人参与了这项实验。其中,上海交通大学 是唯一所加入i c e 2 0 0 2 的中国高校。在这次实验中,参与者使用t r a n s b b s 和t r a n s w e b 作为交流工具,可以实现简单的在线多语翻译,如图1 1 所示。 2 0 0 5 年6 月,又进行了第二阶段的实验i c e 2 0 0 5 。西南大学( 原西南师范 大学) 也加入了该阶段实验。在这次实验中,参加者主要通过a n n o c h a t 进行交 流。 西南大学硕士学位论文本体及其在多文化交流平台中的应用 呖e c tw e w a n tt ok n o ww h e l i e ry o ug o tm ym e s s 唱e a a p 觚a - 1 4 8 ) 稿日崎:2 唧z r o s , e l z 3 b 木龌日1 3 畴招分观秒 辘 b 弘。投 l ( j 警掣研、1 4 8 活 解髓拄燃芒j 在l & 把芎c j 知 、。 友洗拼 舭蹴 友旋。言髓 w e w 斑t o k n o w w h e l h c ry o u 。c o u l d u n a o 玮b 咀d l h i 嘶 c 础b 血o n1 雄l 锄一 1 4 8o r n o tw e 。 p l e a s ec o 蕊b i l e u s i n gy o u rl a 】唱u a g e 中国船缸i 卫蛆1 垃 体能理糯 鞠黼 ( i 印砸垮m 嘣 们想* 道。你 理解的部分使 用你的语蓄请 殳j f 商。同时。 强国蟊堑丝通堑虫 g 创埘嗡纠雩纽 d 0 io i 剞巷罕星 詈& a 剐。:go :i 詈 i i ju 日1 刊x 入l m a l a y k 备醯 哥h e 诖 撕 j 印锄 s 哿_ a c o 五一 a n d a 倒i - i t r a n b b s 的翻译结果 从两个阶段的实验效果来看,这些工具的翻译质量不太理想,使得交流的 双方难以理解。究其原因,由于这些工具都是使用传统的机器翻译技术,而目 前的传统翻译技术又存在许多缺陷( 比如对于多义词的词义选择不够精确) ,因 而其翻译质量很难尽如人意。 因此,我们提出了一个基于本体的i c e 系统框架,该系统集合了本体、智 能a g e n t 、数据挖掘三种技术,作为a n n o c h a t 的补充,以提高交流的可理解程 度。其中,本文主要对本体这一模块进行研究。 1 2 研究现状 自从2 0 世纪9 0 年代,“本体”作为一个哲学概念引入到计算机领域以 来,人们已经越来越清楚地认识到本体在计算机科学中的重要意义。目前, 本体已经广泛应用于软件工程、自然语言理解、多问题求解、多a g e n t 系统 等许多领域,它已经成为知识表示、知识管理、知识共享、知识复用的主流 技术之一,正成为自然语言处理、w e b 信息检索、数据库和知识库的管理、 异构数据集成、数字图书馆、g i s 、s e m a n t i cw e b 等研究领域共同关心的一 个核心【3 2 1 。 近年来,许多研究者也将本体应用于自然语言处理,取得了不错的效 果。g u m 、m i k r o k o s m o s 、w o r d n e t 、s e n s u s 等就是比较典型的语言学本 体,但他们都忽略了一个重要的问题一一本体进化。由于外部环境的变化, 本体也应随之而改变以正确反映客观世界的知识体系,我们称这一过程为本 体的进化【4 】,它在实际应用中起着非常重要的作用。 尽管本体己成为一个热门的研究课题,但是大多数研究都集中在本体工 程、本体构建以及本体的应用等方面,对于本体进化的研究相对较少。有少 数研究人员率先涉足本体进化领域,取得了初步的研究成果。不过这些研究 还比较片面,有的仅从理论上对本体进化的概念、要求、意义等作了探讨, 有的仅涉及本体进化的某一个方面( 比如,在动态环境中发现知识的改变、 本体版本的管理等) ,目前还没有较为全面、较为成熟的方法和工具来支持本 体进化。 西南大学硕:卜学位论文率体及其托多文化交流s 卜台中的成用 1 3 基于本体的i c e 由于i c e 已有的工具翻译质量较差,而在传统的机器翻译技术上进行修改 难度较大,因此,我们期望采用机器翻泽之外的技术对其进行改进。 从i c e 2 0 0 2 的实验结果可以看出,t r a n s b b s 、a n n o c h a t 等工具的翻译质量 之所以不够理想,主要是由于对于多义词的处理还存在问题。人类语言中的大 多数词语为多义词,在不同的语言环境下有不同的语义,如何正确地选择多义 词的语义,目前还没有一个完善的解决方案。 如果计算机能像人一样具有共同的知识背景,那么它们就能根据上下文语 境选择正确的语义项,从而达到消除词语歧义的目的。要赋予计算机相同的知 识背景,目前可行的办法就是采用本体( o n t o l o g y ) ,它是w e b 信息在语义层次 上共享和交换的基础,对于理解自然语言的深层含义至关重要。因此,我们试 图采用本体为传统翻译工具提供底层的语义支持,从而帮助提高翻译结果的可 理解性,为实现i c e 的目标起到积极的作用。 在此基础上,我们提出了一个基于本体的i c e 系统框架,该系统集成了本 体、数据挖掘、智能a g e n t 三大模块作为i c e 已有的翻译工具a n n o c h a t 的有 益补充,以提高翻译质量以及交流双方互相理解的正确性。整个系统结构如图 1 2 所示。 图1 2 基于本体的i c e 系统结构 针对某一特定领域的小规模的本体:本体是对世界或某一领域知i : 描述,能 够为a n n o c h a t 提供语义支持,其规模往往很大,构建一个本体的工作量较大, 而我们的研究只是为了验证本体的作用,因此,只需要在某一个较小领域内构 建本体。另一方面,针对不同晤种构建不同版本的本体,不过每一个版本表达 的意思是完全相同的,只是表示的语言不同而已。 智能a g e n t :为每一个用户分配一个a g e n t ,针对用户使用的语言访问不 同的本体库,同时a g e n t 能够根据本体中的背景知识进行上下文推理,为词语 西南大学硕士学位论文本体及其在多文化交流平台中的应用 选择正确的意项。 数据挖掘模块:首先保证所有的交互事务都存储在事务数据库中,数据 挖掘模块对这些历史事务进行分析,根据分析结果不断改进、精化本体。 整个系统运行大致流程如下: 用户a 与用户b 在线交流,分别为用户a 和b 分配一个a g e n t a g e n t a 、a g e n t b ;a g e n t a 访问相应的本体库,并根据其中知识进行推理,然后 将处理后的数据输入a n n o c h a t ( a n n o c h a t 为已有的翻译工具) ,a g e n t b 接收经 过a n n o c h a t 处理后的数据,然后访问相应的本体库,并根据其中知识进行推 理,调整最后结果,得到目标语言,传送给用户b 。同时,所有的交互记录全 部存储到t r a n s a c t i o n 库中,通过数据挖掘对交互历史进行分析,可以对加入本 体前后的效果进行对比,另外也可以给本体做出反馈,以不断修正和改进本体 库。 1 4 本文研究内容及贡献 之所以采用本体作为底层支持,是由于传统的机器翻译技术对于恰当选择 多义词的意项效果不够理想,而本体对于消除语义模糊具有积极的作用。 目前,自然语言处理领域的研究者普遍认为,本体对于文本含义的表示和 处理很有必要,它在自然语言处理和机器翻译方面的主要作用有川: 1 ) 为概念之间的关系提供可选择的偏好。这一点对于解决词语歧义有非 常大的价值; 2 ) 能够利用包含在概念中的知识对输入的文本进行推理。这点能帮助解 决歧义,也能填补词语意义之间的空白: 3 ) 能够通过网络的拓扑结构进行推理,寻找两个概念之间的最短路径。 这种基于查询的推理能够处理转喻和暗喻。 因而,我们计划在传统机器翻译技术基础之上加入本体,通过a g e n t 进行 上下文推理选择正确的语义,从而提高交流双方互相理解的正确度,为最终实 现i c e 的目标起到积极的作用。由此看来,在整个系统中,本体作为底层支 持,具有非常重要的作用。 然而,本体构建不是一劳永逸的事,由于现实世界是不断变化的,其所包 含知识的内容、结构、存在形式也是不断变化的,某些术语的含义也是变化 的;同时用户的需求也是不断变化的,而这些变化在建立本体时显然是无法预 见的。这样,固定的本体与变化的知识源之间的数据一致性就可能遭到破坏, 从而使本体不能正确地反映知识源的新状态1 2 】。如何让本体适应动态变化的外 部世界,并根据外部知识源的变化作出及时的调整,即实现本体的动态进化, 是一个迫切需要解决的问题。 因此,本文的研究内容主要分为两方面:创建一个特定领域内的本体,应 用于i c e 中,为已有的翻译工具提供语义支持:另外,在本体中引入进化机 制,使本体能不断适应环境变化。 本文的主要贡献为:将本体应用到机器翻译领域中,为传统的机器翻译工 具提供语义支持,提高翻译结果的可理解程度,为最终实现i c e 的目标起到积 极的作用;同时,提出了一个面向用户的四阶段本体进化模型,并应用于基于 本体的i c e 系统中,使得作为系统底层支持的本体库能够随着外界变化以及用 户需求的变化而改变,以正确反应应用领域的知识,不断提高交流双方的相互 西南大学硕士学位论文 本体及其在多文化交流平台中的应用 理解程度。 1 5 论文结构 本论文分为六章,分别如下: 第一章为引言,介绍本研究的背景和研究内容,概述本论文所做的工作以 及贡献。 第二章为文献综述,主要介绍本文所涉及的两部分内容本体及本体进 化的基本概念、应用及研究现状。 第三章,领域本体的构建,首先介绍领域本体的特点,然后介绍本体构建 的一般原则,最后逐步地介绍领域本体构建的具体步骤。 第四章,面向用户的本体进化模型,详细介绍面向用户的本体进化模型的 四个阶段,以及该模型在基于本体的i c e 系统框架的中的具体实现。 第五章,系统设计与实现,介绍两个原型系统o b i c e s 和d o e s 的设 计和实现。 第六章,实验分析与评估,通过实验数据验证两个原型系统0 b i c e s 和d o e s 的有效性和可行性。 第七章,总结与展望,总结本论文的研究工作并提出需要进一步研究的问 题。 西南犬学颤士学位论文本体及其在多文化交流平台中的j 每用 第2 章文献综述 2 1 本体 本文主要对本体进行研究,因此,下面我们将列本体的基本概念、主要应 用及研究现状等作大致的介绍。 2 1 1 本体的定义 本体最早是一个哲学的范畴,后来随着人工智能的发展,被人: 智能界给 予了新的定义。然而,最初人们对本体的理解并不完善,这些定义也处存不断 的发展变化中,比较有代表性的定义列表如下【3 范畴提出时l h j l 提出人 定义 客观存在的一个系统的解释 哲学 和说明,客观现实的一个抽象本 质 1 9 9 1 n e c h e s 等 给出构成相关领域词汇的基 本术语和关系,以及利用这些术 语和关系构成的规定这些词汇外 延的规则的定义 l9 9 3 g t u b e r 概念模型的明确的规范说明 计算机 l9 9 5 g u a r i n o & g i a r e t t a 能够清楚地描述概念模型的 逻辑理论 l9 9 7 1 3 0 r s t 共享概念模型的形式化舰范 。说明 l9 9 8 s t u d e r共享概念模型的明确的形式 化规范说明 本体的定义有多种多样,从形式化的角度来定义可以让我们更好的理解本 体的本质。b o z s a k 等人给出关于本体的洋细的形式化描述1 2 ”。 定义1 - 1 一个本体结构是一个五元组,其体系结构可表示成: o = ( c ,c ,r ,盯,r ) 其构成包括: 概念集c ,它的元素被称作概念标识符( c o n c e p ti d e n t i f i e r s ) : 关系集r :c lx c 2 x x c n ,其的元素被称作关系标识符( r e l a t i o n i d e n t i f i e r s ) : 概念集c 的偏序集c ,表示概念的层级( c o n c e p th i e r a r c h y 或 t a x o n o m y ) : 函数仃:c 1x c 2 x x c n 1 一c n ,一类特殊的关系。 关系集r 的偏序集r ,表示关系的层次,并且当r l r 2 ,其隐含了 o - ( r 1 ) l = 11 5 ( r 2 ) 1 并且对任意的1 j la ( r 1 ) i ,有l q i ( a ( r 1 ) ) c g l i ( , , ( r 2 ) ) ,其中丌。表示关系r 的定义域或值域。 西南大学硕士学位论文本体及其在多文化交流平台中的应用 此后又有不同的人从不同的角度给出本体的定义。通常,我们认为本体就 是一个文档或文件,它定义了术语之问的关系。具体到一个系统中,本体最典 型的是分类和分类之上的一组推理规则。 本体的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定 该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇之间相互关系的明确定义。通过概念之间的关系来描述概念的语 义。本体旨在以一种通用方式获取静态领域知识并提供该领域的公认理解,它 可跨应用和团体重用和共享口j 。因此,本体可定义为概念化的一种共享说明。 2 1 2 本体表示语言 本体表示语言是描述本体的语言,通过它人们可以方便的定义出自己需 要的本体来。通常本体的表示离不开如下的几个方面:概念( 通常以分类方式来 组织) 、关系、函数、公理和示例。而流行的本体语言在不同程度上提供了对其 中一些方面的支持,下面我们简单看一下主要的本体表示语言。 目前在具体应用中本体的表示语言主要有4 类: 非形式化语言; 半非形式化语言; 半形式化语言; 形式化语言。 可以用自然语言来描述本体,也可以用框架、语义网络或逻辑语言来描 述。 目前普遍使用的语言列表如下1 3 名称描述特点 一 种基于 k i f为构造和维护o n t o l o g y 提 ( k n o w l e d g ei n t e r c h a n g e 供了统一的、计算机可读的 f o r m a t ) 的提供统一的规方式; 范格式来构建o n t o l o g y由其构造的o n t o l o g y 可以 的语言。方便地转换到各种知识表示 和推理系统( p r o l o g 、 o n t o l i n g u a c o r b a 的i d l 、c l i p s 、 l o o m 、e p i k i t 、a l g e r n o n 和k i f ) ,从而将o n t o l o g y 的维护与使用它的目标系统 隔开: 主要用于本体服务器。 c y c 系统的描述语言,一 在一阶谓词演算的基础上扩 种体系庞大而非常灵活的充了等价推理、缺省推理等 知识描述语言。功能: c v c l具备一些二阶谓词演算的能 力; 其语言环境中配有功能很强 的可进行推理的推理机。 西南大学硕士学位论文本体及其在多文化交流平台中的应用 o n t o s a u r u s 的描述语言, 提供表达能力强、声明性的 一种基于一阶谓词逻辑的规范说明语言: 高级编程语言,属于描述提供强大的演绎推理能力; l o o m 逻辑体系。后来发展为提供多种编程风格和知识库 p o w r l o o m 语言( 采用前服务。 后链规则作为推理机 制) 。 r d f 建立在一个称为为创建本体提供了标准语 “三元组”的数学模型 法: 上,它可以把一些非常简以一种标准的、可共用的方 单的元数据说明组合在一式来描述基于x m l 数据的 r d f ,r d f s起,来描述网络上的各种语义; 资源。每一个“三元组” v ,可以作为在不同数据库系 由主语、谓语和宾语这三 统、本体开发工具和应用程 个元素构成。序之间转换本体的中间语 言。 专门为s e m a n t i cw e b 而 逐渐成为一种标准化的本体 开发的一种本体语言,由语言。 w 3 c 发起,是一种在万 o w l 维网上发布和共享本体的 语言 o 其中,o w l ( w e bo n t o l o g yl a n g u a g e ) 语言是一种最新的本体表示语言, 与其他语言相比,它有以下一些优势p 4 j : o w l 的表达力比其他语言更强,允许用户构建更为丰富的知识系统。 例如,可以给类添加基数限制,当定义一个人的位置信息时,基数限制 可以将其在某一个特定时间内的物理地址限制为l ; o w l 预定义了很多有用类和属性。例如,将一个本体嵌入到其他本体 中,可能会与其他本体中的类、属性或一些限制条件相重复,o w l 中 提供了一些属性,能够接受或屏蔽掉这些等价的类或实体,使得一个本 体中的信息与另外一个紧密联系起来。o w l 的这些特性对于本体重 用、关联和互用是非常重要的。 o w l 被设定为一种标准,由一些著名的国际标准化组织( 例如w 3 c ) 推荐,因此,有许多开发工具能够将o w l 语言集成到软件系统中。 因此,本文也采用o w l 语言来构建本体。 2 1 3 本体的分类 g u a r i n o 提出以详细程度和领域依赖度两个维度对本体进行划分1 3 j 。具体说 明如下 维度说明分类级别 描述或刻画建模对象高的称作参考( r e f e r e n c e ) 本体 【详细程度 的程度低的称作共享( s h a r e ) 本体 西南大学硕士学位论文 本体及其在多文化交流平台中的应用 顶级( t o p l e v e l ) 本体描述的是晟普遍的 概念及概念之间的关系,如空间、时 间、事件、行为等,与具体的应用无 关,其他本体均为其特例。 领域依赖 领域( d o m a i n ) 本体描述的是特定领域 中的概念和概念之间的关系。 程度 任务( t a s k ) 本体描述的是特定任务或行 为中的概念及概念之间的关系。 应用( a p p l i c a t i o n ) 本体描述的是依赖于 特定领域和任务的概念和概念之间的关 系。 p e r e z 和b e n j a m i n s 归纳出了1 0 种本体【3 j : 知识表示本体 通用本体 顶级本体 元( 核心) 本体 领域本体 语言本体 任务本体 领域一任务本体 方法本体 应用本体 其中,与本文密切相关的是语言学本体。语言学本体是关于语言、词汇等 的本体,主要用于自然语言处理、机器翻译等领域。它的目的主要是为了描述 自然语言的语义结构而不是构建某一个领域中的知识体系。它的一个主要特点 是,与语法单位( 词语、固定词组等) 紧密相关。大多数语言学本体将词语作 为基本的语法单位。 目前广泛使用的语言学本体列表如下: 名称描述 由p r i n c e t o n 大学开发的一个庞大的语言知识库系统,是 一个基于心理语言规则的英文词典,其核心是词汇源文 件,以s y n s e t s ( 在特定的上下文环境中可互换的同义词的 集合) 为单位组织信息,每个“s y n s e t s ”单元由一组同义 w j r d n e t 词、一组关系指针以及其他信息组成,其中关系指针所表 示的关系包含反义和继承等。 w o r d n e t 是一个非常庞大的语料库,包含了1 2 1 ,9 6 2 个 词汇和9 9 ,6 4 2 个概念,分为7 0 ,0 0 0 个s y n s e t s 。 英文词典,采用称为f r a m es e m a n t i c s 的描述框架,提供 f r a m e n e t 很强的语义分析能力,目前发展为f r a m e n e t l i 。 面向自然语言处理,支持多语种处理,包括基本概念及独 g u m立于各种具体语言的概念组织方式。采用固定词组或短语 作为语法单位。 西南大学硕士学位论文 本体及其在多文化交流平台中的应用 面向自然语言处理,为机器翻译提供概念结构,包括7 万 s e n s u s 多概念。 面向自然语言处理,支持多语种处理,采用一种语言中间 m i k r o k m o s 的中间语言t m r 表示知识。 是v a n d e r v e n d e 和r i c h a r d s o n 在博士生研究工作期间开展 的自动从在线词典中获取语言知识的一项重要工作。它设 m i n d n e t 计了一种自然语言的广域分析器,并利用此分析器从朗文 当代英语词典和美国传统词典中的词汇解释或例句中自动 获取语言概念知识。 2 1 4 本体的研究和应用 本体的研究和应用主要包括理论上的研究、在信息系统中的应用以及作为 一种能在知识层提供知识共享和重用的工具在语义w e b 中的应用等3 个方面。 2 1 4 1 本体的理论研究 本体的理论研究包括概念和概念分类、本体上的代数。最有代表性的是 g u a r i n o 等人对概念的分类所做的深入和细致的研究,他们从一般的意义上分析 了什么是概念、概念的特性、概念之间的关系以及概念的分类,提出了一套用 于指导概念分类的可行理论。基于这个理论,他又提出了本体驱动的建模方 法,在理论上为建模提供了一个通用的模式。 g u a f i n o 认为概念之间的差别不仅体现在概念的定义上,同时也体现在概念 的某些特性上。从这些特性出发,归纳出概念的元特性( 最基本的特性) ,从而 用公式给出元特性的严格的形式定义。在此基础上,他们又讨论了元特性之间 的关系和约束,最终把研究结果作为概念分类的基本理论工具并提出一套完成 的概念分类体系结构。 g u a r i n o 的理论可以归纳如下【3 i : 概念分类理论的基础是概念的元特性。以概念的元特性为出发点,按照一 定的规则,把具有相同元特性组合的概念归为一类,进而给出一般意义上的概 念分类体系。概念的基本元特性包括:持久特性、非持久特性、反持久特性、 半持久特性、载体标识特性、支持标识特性、外部依赖特性等。 以下是对各种特性的说明: 名称描述举例 持久特性严格定义为:p e r s o n 具有持久性,而 v x o ( x ) - - - o 中( z ) 。 s t u d e n t 不具有持久性。 代表某个概念,o ( x ) 代表x 是m 的一个实例,o 表示其后 的断言永远为真。 非持久特性对某个概念而言,存在某些实s t u d e n t 具有非持久性。 例不会永远属于该概念。 反持久特性对概念的任何一个实例,这个y o u t h 具有反持久性。 实例不会永远属于该概念。 半持久特性 非持久性和反持久性的差集。 载体标识特性如s t u d e n t 具有载体标识 特性,因为学生之间的 西南大学硕士学位论文本体及其在多文化交流平台中的应用 区别不是靠学生,而是 作为人来区分的。 支持标识特性 每个实例相互之间是可以区分 p e r s o n 具有支持标识特 的。性,人和人之间可由标 识( 人的指纹) 来区 分。 外部依赖特性一个概念对另外一个概念的某p a r e n t 外在依赖于 种依赖关系。概念a 对概念bc h i l d ,某人的父母蕴涵 的外在依赖关系表现为概念a他( 她) 有小孩,而他 中的任何一个实例a 必蕴涵属的小孩当然不是他身体 于概念b 的实例b ,而b 不是的一部分。 a 的一部分。 2 1 4 2 本体在信息系统中的应用 目前信息检索技术的分类和对他们的描述列举如下【3 】: 分类特点缺点 全文检索( t e x t把用户的查询请求和全文中的虽然可以保证查全率,但是 r e t r i e v a l ) 每一个词进行比较,不考虑查奁准率大大降低。 询请求和文件语义上的匹配。 数据检索( d a t a查询要求和信息系统中的数据性能取决于所使用的字段标 r e t r i e v a l ) 都遵循一定的格式,具有一定 识方法和用户对方法的理 的结构,允许对特定字段检 解,具有很大的局限性,支 索。需要有标识字段的方法。持语义匹配的能力较差。 知识检索基于知识的、语义上的匹配, ( k n o w l e d g e 在查准率和查全率上有更好的 r e t r i e v a l ) 保证。是信息检索的重点,特 别是面向w e b 信息的知识检 索的重点。 本体具有良好的概念层次结构和对逻辑推理的支持,在知识检索中有广泛 应用。基于本体的信息检索的基本思想有: 在领域专家的帮助下,建立相关领域的本体: 收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格 式存储在元数据库( r d b ,k d b 等) 中: 对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转 换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数 据集合; 检索的结果经过定制处理返回给用户。 关于本体的表达,主要分为两种情况进行处理: 检索系统如不需要太强的推理能力,本体可用概念图的形式表示并存 储,数据可以保存在一般的关系数据库中,采用图匹配技术完成检 索: 西南大学硕士学位论文 本体及其在多文化交流平台中的应用 如要求较强的推理能力,般需要一种描述语言( l o o m 等) 表示本 体,数据保存在知识库中,采用描述语言的逻辑推理能力完成检索。 目前本体用于信息检索的项目列举如下 3 l : 项目名称说明 ( o n t o ) 2 a g e n t 为了帮助用户检索所需要的w w w 上已有的本体,主 要采用参照本体,即以w w w 上已有的本体为对象建立 起来的本体,保存各类本体的元数据。 o n t o b r o k e r 面向w w w 上的网页资源目的是帮助用户检索所需 的网顶技磐网丽含有用户关h 的内容 s k c 解决信息系统语义异构的问题,实现异构的自治系统问 的互操作。希望通过在本体上的一个代数系统来实现本 体之间的互操作,从而实现异构系统之间的互操作。 2 1 4 3 本体和语义w e b 提高w e b 信息检索的质量包括两方面的内容p 1 : 如何在现有的资源上面设计更好的检索技术; 如何为w e b 上的资源附加上计算机可以理解的内容,便于计算机处 理,即给出一种计算机能够理解的表示资源的手段。 基于后一种考虑,b e m e r s l e e 在2 0 0 0 年1 2 月1 8 日的x m l 2 0 0 0 的会议上 提出了语义w e b 。语义w e b 的目标是使得w e b 上的信息具有计算机可以理解的 语义,满足智能软件代理( a g e n t ) 对w w w 上异构和分布信息的有效访问和 检索。下面是b e m e r s l e e 为未来w e b 发展提出的基于语义的体系结构语 义w e b 体系结构 低 层数 名称 描述 。 第一层u n i c o d e 和u r i整个语义网络的基础,u n i c o d e 处理资源 l 的编码,u r i 负责标识资源。 第二层x m l + n s +用于表示数据的内容和结构。 x m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论