(应用数学专业论文)基于形式概念分析的本体构建、合并与展现.pdf_第1页
(应用数学专业论文)基于形式概念分析的本体构建、合并与展现.pdf_第2页
(应用数学专业论文)基于形式概念分析的本体构建、合并与展现.pdf_第3页
(应用数学专业论文)基于形式概念分析的本体构建、合并与展现.pdf_第4页
(应用数学专业论文)基于形式概念分析的本体构建、合并与展现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(应用数学专业论文)基于形式概念分析的本体构建、合并与展现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学研究生硕士学位论文第1 页 摘要 作为语义网基础的本体是共享概念模型的明确的形式化规范说明,它的作用 是获取、描述和表达相关领域的知识,提供对该领域知识的共同理解,确定该领 域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互 关系的明确定义。那么,构建本体成为本体应用的关键问题,但目前该领域研究 还处于探索阶段,没有形成成熟、统一的方法作为指导。 目前本体的构建方法主要分为两大类:一类是采用手工方式来构建,该类方 法的问题是:( 1 ) 、遇到复杂的领域就费时费力;( 2 ) 、在建立各自的本体时均采 用不同的标准、建模方法,所以构建的本体不通用;( 3 ) 、具有很大的主观性,针 对某个领域,不同的领域专家会采用不同的观点以至构建的本体不统一最重要 的是在寻找领域概念和概念之间的关系时,所采取的方法和手段有较大差异,而 且也只能找到一些已知的概念( 从辞海或叙词表中) 为了降低手工构建本体时的开销,研究如何利用知识获取技术自动或半自动 地获取本体是很有意义的这就是第二类方法一本体学习技术( o n t o l o g y l e a r n i n g ) ,采用本体学习技术,虽然可以简化手工构建本体的工作量。但这些技 术不能寻找到领域内所有隐含的概念和概念闻关系,而且不能明确地以形式化方 式表达所形成的概念及概念模型。 形式概念分析作为应用数学的一个分支,来源于哲学领域对概念的理解。从 外延和内涵两方面对概念进行符号形式化描述,实现计算机可以理解的语义信息。 根据用二元关系来表达领域中的形式背景,从中提取所有隐含的概念和概念之间 的相互关系,形成概念层次结构,即概念格,从数据集中生成概念格的过程实际 上是一种概念聚类的过程。而且概念格的三维可视化形式使概念格的展现更加直 观生动,为了简化概念格的显示,可以识别并折叠其中存在的子概念格。 从本体的目标来看,构建本体的关键问题是在确定了领域后,从领域中找到 概念以及概念间的关系,然而对于现实生活中的某一领域,与该领域相关的概念 以及概念之间的关系是隐含在人们头脑中,或者是存在领域文档中。 那么本文研究的主要内容是:利用形式概念分析技术在不受开发者的主观影 响下,帮助从给定的数据里自动获取所有隐含的概念以及概念之间的层次关系, 并且用符号表示所有概念,达到了形式化概念模型的效果,为构建本体提供一种 方法指导。同时,为了知识的共享与重用,可以基于概念格的合并理论来进行本 体的合并并且在展现本体时,结合几率模式来表达非层次关系概念之间的相似 第1i 页 河南大学研究生硕士学位论文 性和概念与对象的相关度。 本文的主要贡献如下: ( 1 ) 提出了形式概念分析在基于非结构化数据的本体学习中的应用方法。 ( 2 ) 提出两种展现本体的方法,一、结合几率模式来表达本体中非层次关系 概念之间的相似性以及属性概念与对象之间的相关度;二、基于概念格的三维可 视化形式来展现,为了简化显示,提出子概念格的判定方法及其折叠与打开算法。 ( 3 ) 提出了基于形式概念分析的本体合并方法。 依据以上理论,设计并实现了基于f c a 的本体原型系统。并且,结合实例构 建一个领域本体,通过本体所具有的良好概念层次结构、语义信息来进行概念查 询和检索,从而有效地提高了本体信息查找的效率。 关键词:本体;形式概念分析;概念格;本体合并;概念格的可视化 河南大学研究生硕士学位论文第l il 页 a b s t r a c t a st h ef o u n d a t i o no f t h es e m a n t i cw e b ,o n t o l o g yi sa f o r m a l ,e x p l i c i ts p e c i f i c a t i o n o f as h a r e dc o n c e p t u a lm o d e l 强ea i mo fo n t o l o g yi st oo b t a i n , d e s c r i b ea n de x p r e s st h e k n o w l e d g eo f r e l a t e dd o m a i n o n t o l o g yp r o v i d e sc o n l m o l lu n d e r s t a n d i n go f t h ed o m a i n k n o w l e d g ea n dc o n f i r m sc o m m o na p p r o b a t o r yv o c a b u l a r yi nt h ed o m a i n , a sw e l la s g i v e ss p e c i f i cd e f i n i t i o no ft h er e l a t i o nb e t w e e nt h e s ev o e a b u l a r i e sf r o mf o r m a lm o d e l o f d i f f e r e n tl e v e l s t h e r e f o r e ,i tb e c o m e sa p i v o t a li s s u e0 1 1o n t o l o g ya p p l i c a t i o n t ob u i l d o n t o l o g y b u tt h i sf i e l d i ss t i l l b e i n gd i s c u s s e dt o d a y t h e r ei sn oa n ym a t u r e m e t h o d o l o g yt og i l i d eo n t o l o g yc o n s t r u c t i n g t h ec o n s t r u c t i o nm e t h o do fo n t o l o g yi sm a i n l yd i v i d e di n t ot w ok i n d sa tp r e s e n t : o n ei sm a n u a lo n t o l o g yb u i l d i n 岛i nw h i c ht h ep r o b l e mi s :( 1 ) i na c o m p l i c a t e df i e l di t i st i m e - c o n s u m i n ga n d 矾 e n u o u s ;( 2 ) w ea d o p td i f f e r e n ts t a n d a r d sa n dm o d e l i n g m e t h o d sw h i l eb u i l d i n go n t o l o g y , s ot h a to n t o l o g yi sn o tc u r r e n c y ;o ) i t so fg r e a t s u b j e c t i v i t y i tw i l ll e a dt ot h ed i s u n i t yo fo n t o l o g yc o n s t r u c t i o nb e c a u s ed i f f e r e n t d o m a i ne x p e r t sa d o p td i f f e r e n tv i e w s i ti st h em o s ti m p o r t a n tt h a tt h em e t h o d sw h i c h w ea d o p ta l ed i s t i n c tw h e ns e a r c h i n gc o n c e p t sa n dr e l a t i o n s h i pb e t w e e nc o n c h si n d o m a i n f u r t h e r m o r e , w ec a l lo n l yf i n ds o m ek n o w nc o n c e p t s ( f r o mc i h a io r t h e s a u r u s ) i no r d e rt or e d u c ec o s to fm a n u a lo n t o l o g yc o n s t r u c t i n g , i ti sv e r y m e a n i n g f u lt h a t h o wt ou t i l i z et e c h n o l o g yo f k n o w l e d g e a c q u i s i t i o nt oo b t a i nt h eo n t o l o g ya u t o m a t i c a l l y o rs e m i - a u t o m a t i c a l l y t h i si st h es e c o n dm e t h o d o n t o l o g yl e a r n i n g b yt h i sw a yw e c a ns i m p l i f yt h em a n u a lw o r k l o a do fo n t o l o g yb u i l d i n g b u tt h et e c h n o l o g yc a n ts e a r c h c o n c e p t sa n dt h er e l a t i o na m o n ga l lc o n n o t a t i v ec o n c e p t si nt h ef i e l d , m o r e o v e r , i tc a n t p r e s e n tt h ec o n c e p t se n dc o n c e p t u a lm o d e lw i t hd c 丘n i 钯f o r m a l i z e dw a y a sab r e n e ho fa p p l i e dm a t h e m a t i c s ,f c a ( f o r m a lc o n c e p ta n a l y s i s ) c o m e so ft h e u n d e r s t a n d i n go fc o l l c e p ti np h i l o s o p h i c a ld o m a i mi ti st od e s c r i b et h ec o n c e p ti n f o r m a l i z a t i o no fs y m b o lf r o me x t e n ta n di n t e n t , a n dt h e nr e a l i z et h es e m a n t i c i n f o r m a t i o nw h i c hc a l lb eu n d e r s t o o db yc o m p u t e r i ti st oe x t r a c ta l lc o n n o t a t i v e c o n c e p t sa n dc o n n e c t i o n sb g t w e e nt h e mf r o mf o r m a lc o n t e x ta c c o r d i n gt ot h eb i n a r y r e l a t i o n s h i ps oa st of o r mah i e r a r c h i c a ls t r u c t u r eo fc o n c e p t i nf a c ti ti sak i n do f c o n c e p tc l u s t e rp r o c e d u r et oc r e a t ec o n c e p tl a t t i c ef t o md a t am u s t e r f u r t h e r m o r e , 第1 v 页河南大学研究生硕士学位论文 c o n c e p tl a t t i c ed i s p l a y sm o r ei n t u i t i v e l yi nt h ef o r mo fc o n c e p tl a t t i c e sv i s u a l i z i n gi n t h r e e - d i m e n s i o n a ls p a c e w ec a ni d e n t i f ya n du n f o l ds u b - c o n c e p tl a t t i c ei no r d e rt o r e d u c i n gd i s p l a y a c c o r d i n gt ot h eg o a lo fo n t o l o g y , t h ep i v o t a lp r o b l e mo fo n t o l o g yc o n s t r u c t i n gi s t of m dt h ec o n c e p t sa n dr e l a t i o n s h i pa m o n gc o n c e p t sa f t e rc o n f l r m i n gt h ef i e l d , b u t t h e s e 缸ec o n n o t a t i v ei nt h eb r a i no rs t o r et h ef i l eo f t h i sf i e l di na c t u a ll i f e t h ep r i m a r yc o n t e n to ft h i sd i s s e r t a t i o ni st o a p p l yf o r m a lc o n c e p ta n a l y s i s t e c h n o l o g yt oo b t a i na l lc o n n o t a t i v ec o n c e p t sa n dh i e r a r c h yo ft h e ma u t o m a t i c a l l yf r o m t h ed e s i g n a t e dd a t a , w h i c hi sn o tu n d e rt h ei n f l u e n c eo f d e v e l o p e r d e n o t i n gc o n c e p ti n s y m b o la c h i e v e sf o r m a l i z e dc o n c e p t u a lm o d e l t h ep a p e ro f f e r sam e t h o d o l o g yf o r b u i l d i n go n t o l o g ya n dc a r r i e so no n t o l o g ym e 唱i n gf o rk n o w l e d g es h a r i n ga n dr e n s i n g b a s e do nc o n c e p tl a t t i c eu n i o n m o r e o v e r , o n t o l o g yi sp r e s e n t e db ye x p r e s s i n gs i m i l a r r e l a t i o no fc o n c e p t si nn o n - h i e r a r c h ya n dt h er e l e v a n c yo fc o n c e p t sa n do b j e c t si n c o m b i n a t i o n w i t hp r o b a b i l i s t i cm o d e l t h em a i nc o n t r i b u t i o n sa r ea sf o l l o w s : ( 1 ) p u t t 堍f o r w a r df o r m a lc o n c e p ta n a l y s i sm e t h o da p p l i e di no n t o l o g yl e a r n i n g b a s e do nn o n s t r u c t u r e do f s o u r c ed a t a ( 2 ) p r o p o s i n gt w om e a n so fo n t o l o g yp r e s e n t i n g :1 e x p r e s s i n gs i m i l a rr e l a t i o no f c o n c e p t si nn o n - h i e r a r c h ya n dt h er e l e v a n c yo fc o n c e p t sa n do b j e c t si nc o m b i n a t i o n w i t hp r o b a b i l i s t i cm o d e li no n t o l o g y ;2 p r e s e n t i n go n t o l o g yb a s e do nt h ef o r mo f c o n c e p t l a t t i c e sv i s u a l i z i n gi nt h r e e - d i m e n s i o n a ls p a c e ,f o rt h es a k eo f r e d u c i n gd i s p l a y , p r o p o s i n gt h ed e t e r m i n a t i o no fs u b c o n c e p tl a t t i c ea n dt h ea l g o r i t h r af o rf o l d i n ga n d u n f o l d i n gi t ( 3 ) p r e s e n t i n g t h e m e t h o d o f o n t o l o g y m e r g i n g b a s e d o n f o r m a l c o n c e p t a n a l y s i s a c c o r d i n gt oa b o v e - m e n t i o n e dt h e o r y , o n t o l o g yp r o t o t y p es y s t e mb a s e do nf c a i s d e s i g n e da n dd e v e l o p e d m o r e o v d o m a i no n t o l o g yi sc o n s t r u c t e db yac a s e ,w h i c h h a sp e r f e c th i e r a r c h i c a ls t r u c t u r eo fc o n c e p ta n ds e m a n t i ci n f o r m a t i o nt or e t r i e v a l s o t h a ts e a r c he f f i c i e n c yi si m p r o v e d k e yw o r d s :o n t o l o g y ;f o r m a lc o n c e p ta n a l y s i s ;c o n c e p tl a t t i c e ;c o n c e p tl a t t i c eu n i o n ;l a t t i c e v i s u a l i z a t i o n 关于学位论文独立完成和内容创新的声明 了解籍茎震筹萎粼了解并同意河燃学有关保黼 圈书馆、科研信,龟濑 、数据收 本和电子文本) 既供璎纨捻索、 学术发展和进_ 仟学术交流髻骶 段保存、汇编学位论文( 纸质文本和电子文本) 。 ( 涉及保密内容的学位论文在解密后迂用本授权书) 学住获得者( 学位论文作者) 签名 2 0 学位论文指导教师签名 熔熟盘 逝 z 。c ,7 牟6 月旧a 河南大学研究生硕士学位论文第1 页 第1 章绪论 目前,因特网在信息表达和检索方面存在着缺陷比如:查全率、套准率、 检索速度及客户响应时间尚不能很好地满足用户的需要,主要原因在于其设计目 的是面向用户直接阅读与处理,而没有提供计算机可读的语义信息,因此限制了 计算机在信息检索中的自动分析处理以及进一步智能化的信息处理能力。解决这 些问题的方法就是语义网的构想,目的是为因特网上的信息提供具有计算机可以 理解的语义【l 】。主要思想是通过在语义w e b 中引入本体来表达信息,实现语义信息 的共享。本体是共享概念模型的明确的形式化规范说明,它的本质是概念模型, 通过概念模型,对信息作完全的形式化描述,使计算机可以理解网上的信息【2 】 1 1 本体与形式概念分析 作为语义网基础的本体,是目前计算机领域研究的热点。下面对本体与形式 概念分析所描述的基本内容进行简单介绍。 1 1 1 本体 本体的概念来源于哲学领域,在计算机界,本体的定义不断变化。1 9 9 3 年, g r u b e r 给出了本体的一个最为流行的定义,即“本体是概念模型的明确规范说明 p p ,后来,b o r s t 对此稍作修改,提出:“本体是共享概念模型的明确的形式化规 范说明”这个定义主要包含4 层含义:概念化、明确、形式化和共享其中“概 念化”指本体是客观世界现象的抽象模型;“明确”指所使用的概念及使用这些概 念的约束都有明确的定义;“形式化”指本体是计算机可读的( 即能被计算机处理) ; “共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 即本体针对的是社会范畴而非个体之间的共识 4 1 本体的目的是:用于获取、描述和表达相关领域的知识,提供对该领域知识 的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出 这些词汇和词汇间相互关系的明确定义。通俗地讲,本体就是用来描述某个领域 甚至更广范围内的概念以及概念之间的联系,使得这些概念和联系在共享的范围 内有着明确唯一的定义,达成一种共识,便于人、机器进行交流。 根据本体的研究层次,可分为: ( 1 ) 、顶层本体:主要研究非常通用的概念,如空间,时河、事物、对象、 第2 页河南大学研究生硕士学位论文 事件、行为等,他们完全独立于特定的问题或领域。因此可以说顶层本体可以在 一个很大的范围内共享。 ( 2 ) 、领域本体:研究与一个特定领域相关的术语或词汇,如医学、企业模 拟等。 ( 3 ) 、任务本体:定义通用任务或推理活动,如诊断等。它们都可以应用顶 层本体中定义的词汇来描述自己的词汇。任务本体和领域本体处于同一个研究和 开发层次。 ( 4 ) 、应用本体:描述特定的应用。它既可以应用特定的领域本体中的概念, 又可以引用出现在任务本体中的概念。 本体的应用领域包括:知识工程、语义w e b 、信息检索、w 曲服务等。 1 1 2 形式概念分析 形式概念分析f c a ( f o r m a lc o n c e p t a n a l y s i s ) 是应用数学的一个分支9 】,它来 源于哲学领域对概念的理解。根据用二元关系来表达领域中的形式背景。从中提 取概念层次结构,即概念格,从数据集中生成概念格的过程实际上是一种概念聚 类的过程,它的每个节点被称为一个形式概念,形式概念由外延和内涵两部分组 成。概念的外延指属于这个概念所有对象的集合,内涵则是指所有这些对象所共 有的特征( 或属性) 集。概念格作为形式概念分析中核心的数据结构,从外延和 内涵两方面对概念进行符号形式化描述,实现计算机可以理解的语义信息。本质 上描述了对象和特征之间的联系,表明了概念之间的泛化与例化关系。由于概念 格为数据分析提供了一种有效的工具,目前该理论己被应用于软件工程杈埔圳,知 识发现f l o n 】,信息检索【1 2 , 1 3 , 1 4 等方面。 对于概念格的显示,概念格h a s s e 图虽然能清缬和麓洁地表达概念与概念之间 的层次结构,但终究不太直观生动。文献 4 9 1 提出了概念格的三维自动布局策略, 主要解决二维布局中的横向过度扩张和线段交叉的问题,实现了概念格在三维空 间的自动布局、动态显示及与用户的互操作。 概念格的合并【1 习主要源于概念格的分布式存储与并行处理的需求,其基本思 想是;通过形式背景的拆分,形成分布存储的多个子背景,然后构造相应的子概 念格,再由子概念格的合并得到所需的概念格,也就是说可以通过多个概念格的 合并来构造所需的概念格。而多个概念格的合并有横向合并和纵向合并两种a ;- i 南大学研究生硕士学位论文第3 页 1 2 本体构建方法与存在问题 w e b 环境下实现语义检索的首要条件是有丰富的领域本体。因此,构建本体的 方法是当前研究中的热点问题。本体的构建多是面向特定领域,如果没有好的方 法路线指导,就难以在不同领域本体的构建中保持一致,也不利于本体的规模化 和规范建设。因此关于本体构建方法的研究对于本体的应用具有至关重要的作用。 但目前该领域研究还处于探索阶段,没有形成成熟、统一的方法作为指导。 1 2 1 目前本体的构建方法 早期的本体构建方法主要诞生在具体的开发项目,为具体的项目实践服务, 国外的研究有:骨架法【i q 、企业建模法【1 7 1 、m e t h o n t o l o g y 1 8 1 、k a c t u s 1 9 , 2 0 、 循环获取法【2 、i d e f - 5 方法 2 2 1 、七步法圆。这七种方法体系的成熟度依次为:七 步法、m e t h o n t o l o g y 法 i d e f - 5 方法 企业建模法 骨架法 循环获取法、 k a c t u s 法【明国内的有:( 1 ) 、王洪伟、吴家春、蒋馥提出了基于描述逻辑的本 体模型【2 4 j 。( 2 ) 、刘风华、朱欣娟等人提出了基于需求分析的本体模型构建方法, 该方法在建构面向应用的领域本体中,首先研究用户的需求圈;( 3 ) 、李景、苏晓 鹭等人提出了构建领域本体的知识工程方法闭,该方法首先确定了本体领域范围, 并列出领域中所有的重要术语,然后利用叙词表和学科分类知识等已有资源,来 定义类和类的层次结构,进而形成一定的语义关联,再定义类的属性插件和插件 分面,最后创建类的实例。 另外,为了降低手工构建本体时的开销,研究如何利用知识获取技术自动或 半自动地获取本体是一个很有意义的研究方向。国外在该方向的研究很活跃,把 相关的技术称为本体学习技术( o n t o l o g yl e a r n i n g ) ,其目标是利用机器学习和统 计等技术自动或半自动的从已有的数据资源中获取所需的本体叨。 根据本体学习的知识源不同,对采用自学习技术来自动、半自动地构建本体 做了如下分类:基于结构化 2 8 2 9 1 、非结构化【3 0 ) 1 , 3 2 3 3 m 3 5 ,3 7 】、半结构化数据的本体 学习口3 j 9 , 4 0 , 4 1 ,4 2 】。 1 2 2 存在问题 经分析上述构建方法的缺点是:( i ) 、采用手工方式,一旦遇到复杂的领域就 费时费力;( 2 ) 、在建立各自的本体时均采用不同的标准、建模方法,所以构建的 第4 页河南大学研究生硕士学位论文 本体不通用;( 3 ) 、具有很大的主观性,针对某个领域,不同的领域专家会采用不 同的观点以至构建的本体不统一。最重要的是在寻找领域概念和概念之间的关系 时,所采取的方法和手段有较大差异,而且也只能找到一些已知的概念( 从辞海 或叙词表中) 采用本体学习技术,虽然可以简化手工构建本体的工作量。但这些技术不能 寻找到领域内所有隐含的概念和概念间关系,而且不能明确的以形式化方式表达 所形成的概念及概念模型。 1 3 本体合并分析 本体合并是将两个或者多个源本体合并成为一个目标本体的过程。对于本体 的合并,使用传统的编辑工具进行手工合并费时费力,而且容易出错。因此目前 有学者提出了一些系统和框架来帮助知识工程师进行本体合并,它们是依赖本体 工程师在合并本体时所采取的语法和语义相匹配的启发式方法。例如:( 1 ) 、h o v y 第一次提出的本体合并方法【4 3 】;( 2 ) 、c h a l u p s k y 提出了o n t o m o r p h 系统提出用两 种机制进行本体的转换和合并 4 4 1 ;( 3 ) 、m e g u i n n e s s 等人提出了c h i m a e r a 系统嗍; ( 4 ) 、n o y 和m u s e n 提出了在p r o t 6 9 6 - 2 0 0 0 中进行本体合并的算法m 。该算法是 以识别出相匹配的类名为起点,在这个基础上为能够自动更新、发现并解决合并 时的冲突提供了反复叠代的执行方案。 以上这些工具中,o n t o m o r p h 、c h i m a e r a 系统使用一种基于描述逻辑的方法, 对合并本体进行局部性地描述,例如:只叙述了检验术语间的包含关系。这些方 法都没有为合并本体提供一种全局结构化地描述方案。 1 4 本文的主要研究内容 从本体的目标和定义来看:本体是明确的形式化说明。构建本体的关键问题 是在确定了研究领域的前提下,从领域中找到所有的概念以及概念间的分类关系。 但是对于现实世界中的某一领域,其相关的概念以及概念之间的关系是隐含在领 域文档中或者是人们的大脑中的。所以构建本体除了要找到所有己知概念外,更 重要的是寻找到所有隐含概念及概念间的关系。形式概念分析就是从给定数据中 提取出所有的隐含概念以及概念之间的关系,形成概念模型( 概念格) ,并用符号 形式化的方式来表现,而且本体和形式概念分析都来自哲学领域,都是对概念与 概念间关系的描述。因此采用形式概念分析的方法可以帮助构建本体,为本体的 构建提供一种方法指导。 ;- 7 南大学研究生硕士学位论文第5 页 1 4 1f c a 用于本体的构建与展现 目前网络上大量存在的是类似纯文本的非结构化数据和类似x m l 、h t m l 格 式网页的半结构化数据,所以这些非结构、半结构化数据应该作为本体构建的主 要数据来源 本文主要针对从非结构化数据中进行本体的构建。纯文本是w e b 中大量存在 的一类非结构化数据,它依据一定的造句法表达语义信息,读者可以基于一些背 景知识来理解其中的含义。由于缺乏一定的结构,要使机器能够自动的理解纯文 本并从中抽取出需要的知识,必须利用自然语言处理( n 】p ) 技术对其预处理。本 文主要采用形式概念分析技术从纯文本中构建本体,其构建过程如下: ( 1 ) 、首先利用自然语言理解技术( n 】四) 对收集来的纯文本进行预处理,取 得文本中的字词集合。 ( 2 ) 、利用概率统计的方法,一般采用t f - i d f 方法【4 7 】获得能代表文本的关键 概念词汇,结合相应的文本集合形成词汇、文件的二维关系表 ( 3 ) 、由于该二元关系表里有多值存在,为了便于造格,必须转换成单值的 二元关系表。再由单值形式背景按照造格方法来构造概念格,这时所构造的概念 格还不是最终所要的本体。 ( 4 ) 、最后,还要探讨如何将概念格和本体进行结合,即从概念格转换成相 应的本体【4 叼。本文所用的方法是:采用简化的方法用属性来代表所形成的形式概 念,并且在标注时只让属性在概念格中出现一次,由于这里的属性都是词汇,而 本体所描述的重点元素也都是词汇概念,因此可以用概念格中的属性来表示本体 概念。这就最终形成了本体。 对于本体的展现,有两种表现形式。 一种是基于概念格的三维可视化形式e 4 9 1 来展现本体,将本体在概念格中表示 出来,用格的三维形式来表示概念模型相比树更直观。那么对于复杂的格结构, 为了简化概念格的三维显示,本文针对子概念格的可视化互操作,提出关于子概 念格的判定定理以及折叠与打开算法。 因为以概念格结构为基础的本体主要体现的是概念之间的层次关系,而不具 有层次关系的概念只能借助其他模式来表达相似关系。那么就引出了第二种方法: 结合概念间的相关性几率模式来展现本体 5 05 1 1 ,主要是针对本体中具有非层次关 系概念之间的相似性以及属性概念与对象之间的相关度。 第6 页河南大学研究生硕士学位论文 1 4 2f c a 用于本体的合并 本体合并( o n t o l o g ym e r g i n g ) 指将领域内已经存在的几个本体并在一起,消除 重叠的和不协调的部分。不同的本体合并为一个具有更合理概念体系和更强的知 识表达能力的本体。概念格的合并是寻找两个概念格之甸的异同点,消除重复的, 形成具有更强描述能力的概念格,这与本体合并具有相似的功能。本文首先对采 用f c a 技术来构建本体的过程进行了详细的论证和描述。在此基础上,对于本体 的合并可以基于概念格的合并原理进行处理。这里要合并的本体是由概念格按照 某种结合方式产生的,所以在合并时,主要是针对概念格的合并。 本文采用的方法是:( 1 ) 、首先确定待合并的本体是同领域的还是交叉领域, 对于两个没有交叉关系的领域,合并的意义不大;( 2 ) 、分析两个本体所对应的形 式背景,对于同领域的本体合并关键是将其对应的形式背景进行并置,而对于交 叉领域的本体合并则同时对形式背景进行并置和叠置处理;( 3 ) 、将合并后的形式 背景,进行造格,然后按照本体和概念格的结合方式,把概念格转换成本体,即 合并后的本体。这样采用f c a 技术从整体上对本体合并的全过程进行描述。 1 4 3 小结 本文采用形式概念分析来构建、合并与展现本体,主要解决的闯题:( 1 ) 、在 领域中寻找所有隐含概念以及概念之间关系困难;( 2 ) 、构建本体不统一,易受开 发者的主观影响,从而影响知识本体的共享与重用;( 3 ) 、本体合并的局部描述问 题。但还存在的限制是在构建本体前需要借助n l p 技术或手工对纯文本进行预处 理。 总之,本文为本体的构建、合并提供了一种统一的应用技术,给出了全局过 程的详细描述,并采用两种表现形式来展现本体。对于如何将概念格转换成对应 的本体,这里仅提供了一种方法,即概念格的属性对应于本体的概念。 1 5 课题来源及内容组织 本文的课题来源于国家自然科学基金项目“面向本体的形式概念分析扩展模 型与算法( 6 0 5 7 5 0 3 5 ) ”,并得到河南省自然科学基金项目“分布式概念格模型和知识 发现”( 0 3 1 1 0 1 1 7 0 0 ) 的支持。 国家自然科学基金项目( 6 0 5 7 5 0 3 5 ) 主要研究了形式概念分析用于本体的构 河南大学研究生硕士学位论文第7 页 建模型算法,深入地研究了本体与形式概念分析结合的方式,探讨将形式概念分 析更加合理、有效地用于本体的构建、合并以及展现。提出了相应的模型与实现 方法。 河南省自然科学基金项目( 0 3 1 1 0 1 1 7 0 0 ) 的目的是建立并实现分布式的知识模 型和计算模型,开发一个原型系统,支持用户从各种常见的数据源中获取知识视 图,并进行浏览和数据分析本文的工作是为了简化概念格的显示,提出子概念 格的判定方法,并给出了基于三维布局子概念格的折叠与打开算法,支持嵌套子 概念格的操作。 本文内容组织如下: 第二章介绍了形式概念分析的理论基础,概念格的构造方法以及多概念格的 合并方法等内容。 第三章详细阐述了本体构建的各种方法,并分析比较其中存在的问题,探讨 如何采用形式概念分析方法进行本体的构建,并结合概念的相关性几率模式与概 念格的三维可视化形式来展现本体,最后通过一个实例来演示本体的构建与表达。 第四章介绍了本体合并的意义,阐述了本体合并的方法并提出存在的问题, 最后对基于形式概念分析的本体合并方法,给出了全局过程描述,并通过了实例 来说明合并的过程。 第五章介绍了基于f c a 的本体原型系统的设计、实现及该系统在本体查询方 面的应用。 第六章是全文的总结,对本文的主要研究工作进行简要的阐述,并探讨和展 望了在未来将要完善的问题。 第8 页河南大学研究生硕士学位论文 第2 章形式概念分析理论简介 本章主要介绍相关的基础知识,内容涉及概念格模型的数学基础以及概念格 的构建算法与合并理论。 2 。1 概念格模型的数学基础 概念格模型是序论和格论与实际应用结合的产物,这里给出序论和格论中的 一些基本定义【5 2 】。 2 1 1 序论中的基本定义 定义2 1 设4 是一个集合,如果彳上的一个二元关系r ,对于v x , y , z a ,满 足如下条件: x r x ( 自反性) x r y ,y r xj x = 夕( 反对称性) x r y ,y r zj x r z ( 传递性) 则称r 是a 上的一个偏序关系,把它记为“”。序偶0 。 ) 称为偏序集。 定义2 2 设乜, ) 为偏序集,对于b c a ,如有西6 彳,且对任意x e b ,都 满足工a ,则称a 为子集b 的上界。同理,若对任意工b ,都满足b z ,则称 b 为子集占的下界。 定义2 3 设口, ) 为偏序集,b c _ a ,口为b 的任一上界,若对b 的所有上界 y 均有口弘则称a 为占的最小上界( 上确界s u p r e m u m ) ,记为s u p 佃) 同样, 若b 为b 的任一下界,若对口的所有下界z 均有z b ,则称b 为b 的最大下界( 下 确界i n f m a u m ) ,记为i n f ) 。 定义2 4 若o e , ) 是一个偏序集,a 96 c ,d 是m 中的元素且b c 。则集合【6 , c 】:= x e m l b _ 工c ) 称为间隔( i n t e r v a l ) ,集合( 口】:= j m ix 口) 称为主理 想( p r i n c i p a li d e a l ) ,集合旧:= x m l x 蠢 称为主滤子( p r i n c i p a lf i l t e r ) 。并 且,口 b :,口k 6 且【口,6 】= 以6 ) 。 河南大学研究生硕士学位论文第9 页 2 1 2 格论中的基本定义 定义2 5 设臼, ) 是一个偏序集,如果彳中任意两个元素都有最小上界和最 大下界,则称臼, ) 为格 定义2 6 设0 ,蓟是一个格,如果在彳上定义两个二元运算v 和 ,使得对于 任意的口,6 彳,6 等于a 和b 的最小上界,a z , b 等于口和b 的最大下界,那么, 就称,w , ) 为由格0 , ) 所诱导的代数系统。二元运算v 和a 分别称为并运算 和交运算。 通常我们用a v b 来代替s u p ( a , 6 ) ) ,a a b 来代替i n f 【 马6 ) ) 。类似地分别用v 曰 和a b 来代替s u p ( b ) 和i n f ( b ) 。 定义2 7 设“,句是一个偏序集如果对于任意非空的集合s _ c a ,都存在有v 则“,9 被称为是一个完全并半格,类似地,如果对于任意非空的集合s _ c _ 4 都存在 有 s ,则“, e x t e n t ( c ) := e x t e n t ( c ) u x 把c 加到b 7 1 l c l l 中去 邛i n t e n t ( c ) = x 4 ) ) ) t h e ne x i ta l g o r i t h m e l s e i n t := i n t e n t ( c ) r 3 坟 x ) ) 不存在c l b 1 l i n t l l 】使得i n t e n t ( c 1 ) = i n tt h e n f 说明格节点c 是产生子格节点 b e g i n 新增格节点c n := ( e x t e n t ( c ) u x ) ,i n t ) 同时把c n 加到b 7 1 l i m l l :l : 去 更新边 e n d e n d i f e n d f o r e n d f o r e n d 河南大学研究生硕士学位论文第13 页 2 4 概念格的运算和合并 概念格构造的时间复杂性和空间复杂性问题一直是困扰其进一步应用的一大 难题。研究新的方法和手段来构造概念格,对于概念格技术在大型复杂数据系统 的应用,是非常必要的。 随着分布并行计算机技术的日益成熟,不少研究者提出了网络技术特别是互 联网的飞速发展,数据分布式存储与并行处理的需求越来越迫切。概念格的分布 处理思想是:通过形式背景的拆分,形成分布存储的多个子背景,然后构造相应 的子概念格,再由子概念格的合并锝到所需的概念格,也就是说可以通过多个概 念格的合并来构造所需的概念格【i s , s m 。 2 4 1 形式背景间的关系、运算 由于概念格是其形式背景中的概念间关系的表现形式,它和对应的形式背景 是一一对应的。因此,对概念格的分布处理必然涉及到形式背景的拆分、合并等 运算,它是概念格进行分布构造的前提。 根据w i l l er 在文献【5 】提出的有关思想,有如下定义: 给定形式背景置= ( g ,m d ,如果形式背景墨= ( g l 朋,1 1 ) 和( 2 = ( g 2 ,尬, 丘) 满足g i c - _ g ,g z c - _ g ,蝎mm z g m , 则称硒和娲是同域形式背景,它们都为足 的子形式背景,同时称形式背景蜀的概念格u 鼠) 和形式背景局的概念格l ( k 2 ) 是同域概念格。 定义2 1 2 对于相同对象域的形式背景厨= ( g , m r , ) 和( 2 = ( g ,, ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论