(计算机科学与技术专业论文)中文常识本体的半自动构建与应用.pdf_第1页
(计算机科学与技术专业论文)中文常识本体的半自动构建与应用.pdf_第2页
(计算机科学与技术专业论文)中文常识本体的半自动构建与应用.pdf_第3页
(计算机科学与技术专业论文)中文常识本体的半自动构建与应用.pdf_第4页
(计算机科学与技术专业论文)中文常识本体的半自动构建与应用.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机科学与技术专业论文)中文常识本体的半自动构建与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l j t h es e m i a u t o m a t i cc o n s t r u c t i o na n d a p p l i c a t i o no f t h ec h i n e s e c o m m o n s e n s eo n t o l o g y b y x u s i y u a n b e ( h u n a nc i t yu n i v e r s i t y ) 2 0 0 8 at h e s i ss u b m i t t e di np a r t i i ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g l n c o m p u t e rs c i e n c ea n dt e c h n o l o g y i nt h e g r a d u a t es c h o o l o f h u n a nu n i v e r s i t y s u p e r v i s o r p r o f e s s o rg a o c h u n m i n g m a y , 2 0 1 1 、 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 名:呵勘叫 嗍驯年川日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇 编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密团。 ( 请在以上相应方框内打“”) 日期:2 卅年占月j 日 日期:洲年b 月日 nj1 土多1 “ n,、y锄够碧 ,玉 名名签签 者师 作导 中文常识本体的半自动构建与应用 摘要 随着互联网技术的快速发展,网络上的信息数量呈指数级增长。人们迫切需 要将这些信息集成为一个本体,在本体的基础上进行语义检索,以提高信息检索 的查全率和查准率。然而,信息的表现形式各异,包含的内容涉及到人类生活的 各个领域,且不同领域的数据在结构和语义上都存在一定程度的差异,这些特征 在多媒体信息中表现得尤为突出。一个具有统一标准结构的常识本体不仅能够在 描述信息的底层特征的同时,表达其内容的高层语义,而且可以解决数据集成的 异构问题,同时对本体间的集成和映射具有重要的作用。 面对海量的常识性知识,本文将基于字典和基于自由文本的两种本体半自动 构建技术相结合,提出了一种中文常识本体半自动构建方法。该方法首先将字典 给出的分类知识自动地转换为常识本体的核心,然后半自动地将字典中的其它信 息添加到核心本体中,接着运用基于自由文本的动态扩展机制,从互联网上的在 线新华字典中抓取本体中概念的解释,通过分词技术和句法分析技术抽取其对象 属性。实验结果表明,该方法能够在解决自动化构建和动态扩展两个问题的基础 上,半自动地创建一个中文常识本体,并从结构化、描述粒度和成熟度这三个指 标对中文常识本体进行评估分析。 为了体现中文常识本体的应用价值,本文设计了一个中文常识本体应用系统。 该系统实现了中文常识本体的查询功能、领域本体的“基本体提取功能以及多 媒体信息语义检索功能。“基本体”的提取使得各领域本体都建立在中文常识本 体之上,较好地解决了本体之间的集成与映射问题。多媒体信息语义检索系统能 够在计算机理解语义信息的基础上,快速准确地检索到用户所需要的多媒体信息。 同时,本文在该应用系统的基础上,提出了一个医疗保健产品语义发布系统的设 计构思。 论文最后对中文常识本体半自动构建与应用的研究工作进行了总结,并阐释 了工作中存在的问题以及对未来工作的展望。 关键词:中文常识本体;半自动构建;本体扩展;语义 u 硕士学位论文 a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n t o fi n t e r n e t ,t h ei n f o r m a t i o ni nt h ew e bi s e x p o n e n t i a l l yi n c r e a s i n g i n o r d e rt oi m p r o v et h er e t r i e v a lr e c a l lr a t i oa n dt h e r e t r i e v a lp r e c i s i o no ft h ei n f o r m a t i o n ,i ti sn e c e s s a r yt oi n t e g r a t et h i si n f o r m a t i o ni n t o o n t o l o g ya n dr e a l i z et h es e m a n t i cr e t r i e v a lb a s e do nt h eo n t o l o g y h o w e v e r ,t h ef o r m o ft h ei n f o r m a t i o ni sv a r i o u s ,a n dt h ec o n t e n t sr e f e rt oe v e r yd o m a i n so ft h eh u m a n l i f e t os o m ee x t e n t ,t h es t r u c t u r ea n ds e m a n t i c so ft h ed a t ae x i s t sd i f f e r e n c ei n d i f k r e n td o m a i n s t h e s ec h a r a c t e r i s t i c sa b o v ea r eo b v i o u si nt h em u l t i m e d i a i n f o r m a t i o n t h ec o m m o n s e n s eo n t o l o g yw h i c hh a su n i f i e ds t a n d a r ds t r u c t u r en o t o n l yc a nd e s c r i b et h el o w l e v e lf e a t u r e sa n dh i g h l e v e ls e m a n t i c so ft h ei n f o r m a t i o n , b u ta l s oc a ns o l v et h ei n t e g r a t i o np r o b l e mo ft h em u l t i m e d i ai n f o r m a t i o n a tt h es a m e t i m e ,i tp l a y sa ne x t r e m e l yi m p o r t a n tr o l e i nt h eo n t o l o g ym a p p i n ga n do n t o l o g y i n t e g r a t i o n i nt h ef a c eo ft h ei m m e n s ea m o u n t so ft h ec o m m o n s e n s ek n o w l e d g e ,am e t h o d w h i c hc o m b i n e st h et e c h n o l o g yb a s e do nt h ed i c t i o n a r yw i t ht h et e c h n o l o g yb a s e do n t h ef r e et e x tt os e m i a u t o m a t i c a l l yc o n s t r u c tc h i n e s ec o m m o n - s e n s eo n t o l o g yi s p r o p o s e db ya u t h o r t h i sm e t h o da u t o m a t i c a l l yc o n v e r t st h ec l a s s i f i c a t i o nk n o w l e d g e f r o mt h ed i c t i o n a r yt ot h ec o r eo ft h ec h i n e s ec o m m o n s e n s eo n t o l o g y ,a n dt h e nt h e o t h e ri n f o r m a t i o ni nt h ed i c t i o n a r yi ss e m i a u t o m a t i c a l l ya d d e di n t ot h ec o r eo n t o l o g y l a s t l yo b je c tp r o p e r t i e sa r ee x t r a c t e db y t h ed y n a m i ce x p a n s i o nm e c h a n i s mb a s e do n t h ef r e et e x t t h ep r o c e s so fe x t r a c t i n gi st h a tw eg r a bt h ei n t e r p r e t a t i o no ft h e c o n c e p ti nt h eo n t o l o g yf r o mt h eo n l i n ed i c t i o n a r yo fx i n h u a ,a n dt h e ne x t r a c tt h e o b je c tp r o p e r t i e st h r o u g ht h et e c h n o l o g yo fw o r ds e g m e n t a t i o na n dt h et e c h n o l o g yo f t h e s y n t a c t i ca n a l y s i s t h er e s u l t so ft h ee x p e r i m e n ts h o wt h a t t h i sm e t h o dc a n s e m i - a u t o m a t i c a l l yc o n s t r u c tt h ec h i n e s ec o m m o n - s e n s eo n t o l o g y a n dt h eo n t o l o g y i se s t i m a t e df r o mt h et h r e ei n d e x e so fs t r u c t u r e ,t h es i z eo ft h ed e s c r i p t i o na n d m a t u r i t y i no r d e rt or e f l e c tt h ev a l u eo ft h ec h i n e s ec o m m o n s e n s eo n t o l o g y ,t h ea u t h o r d e s i g n sa na p p l i c a t i o ns y s t e m t h i ss y s t e mr e a l i z e st h eo n t o l o g yq u e r i n g ,t h et h e b a s i co n t o l o g ye x t r a c t i o no ft h ed o m a i no n t o l o g ya n dt h es e m a n t i cr e t r i e v i n go ft h e m u l t i m e d i ai n f o r m a t i o n t h eb a s i co n t o l o g ye x t r a c t i o nm a k e sd o m a i no n t o l o g i e sa r e c o n s t r u c t e do nt h ec h i n e s ec o m m o n s e n s eo n t o l o g y ,w h i c he f f e c t i v e l ys o l v e st h e i i i 巾文常识本体的半自动构建i 应用 p r o b l e mo ft h eo n t o l o g ym a p p i n ga n do n t o l o g yi n t e g r a t i o n a n dt h es e m a n t i c r e t r i e v i n go ft h em u l t i m e d i ai n f o r m a t i o nc a nq u i c k l ya n d a c c u r a t e l yg e tt h e i n f o r m a t i o nw h i c hi sn e e db yu s e r so nt h eb a s i co ft h ec o m p u t e ru n d e r s t a n d st h e s e m a n t i ci n f o r m a t i o n m e a n w h i l e ,ac o n c e p t i o no fas e m a n t i cp u b l i c a t i o ns y s t e mo f t h eh e a l t h c a r ep r o d u c ti sp r o p o s e db ya u t h o r i nc o n c l u s i o n ,t h ep a p e rs u m su pt h er e s e a r c hw o r ko ft h ec o n s t r u c t i o na n d a p p l i c a t i o no ft h ec h i n e s ec o m m o n s e n s eo n t o l o g y ,a n de x p l a i n st h ep r o b l e m sa n dt h e f u t u r ep r o s p e c t si nt h er e s e a r c hw o r k k e yw o r d s :c h i n e s ec o m m o n s e n s eo n t o l o g y ;s e m i a u t o m a t i c a l l yc o n s t r u c t i o n ; o n t o l o g ye x t e n s i o n ;s e m a n t i c s i v 硕士学位论文 目录 学位论文原创性声明和学位论文版权使用授权书i 摘要i i a b s t r a c t i i i 插图索引v i i 附表索引v i i i 第l 章绪论1 1 1 课题研究背景及意义1 1 2 本体论研究概述2 1 2 1 本体的定义2 1 2 2 本体的分类2 1 2 3 本体模型的描述语言3 1 2 4 本体构建方法准则4 1 3 相关研究现状4 1 3 1 本体的半自动构建方法研究现状4 1 3 2 常识本体的研究现状5 1 4 研究目标与内容6 1 5 论文的组织结构一7 第2 章中文常识本体的半自动构建8 2 1 常识本体模型构建的总体流程j 一8 2 2 基于字典的半自动常识本体构建9 2 2 1 字典的选取一9 2 2 2 本体语言1 0 2 2 3 常识本体核心的自动构建1 2 2 2 4 核心本体的静态扩展1 4 2 3 基于自由文本的常识本体动态扩展机制1 6 2 3 1 动态扩展机制总体框架1 6 2 3 2w e b 网页的文本信息抽取1 7 2 3 3 对象属性关系的抽取1 8 2 4 小结2 4 第3 章中文常识本体构建方法的实现2 5 3 1 中文常识本体构建方法的总体流程2 5 v 中文常识本体的半自动构建与应用 3 2 中文常识本体构建方法的算法实现2 6 3 2 1 中文常识本体核心的自动生成算法设计2 6 3 2 2 中文常识本体的扩展算法设计2 7 3 3 实验结果与分析2 9 3 3 1 构建方法的比较与分析2 9 3 3 2 动态扩展机制实验结果分析3 0 3 3 3 中文常识本体的评估分析_ 3 2 3 4 j 、结3 4 第4 章中文常识本体的应用3 5 4 1 中文常识本体应用系统总体框架3 5 4 2 中文常识本体服务器:3 7 4 2 1 本体查询3 7 4 2 2 “基本体”提取3 8 4 3 多媒体信息语义检索系统3 9 4 3 1 语句转换4 0 4 3 2 检索机制4 0 4 3 3 实验结果与分析4 3 4 4 医疗保健产品语义发布系统设计构思4 5 4 4 1 系统框架设计构思4 6 4 4 2 语义内容创建设计构思4 7 4 4 3 预期效果4 9 4 5 j 、结4 9 结论5 0 参考文献5 2 致谢5 6 附录a 攻读硕士学位期间发表论文和参加的项目5 7 硕十学位论文 插图索引 图2 1 常识本体模型构建流程8 图2 2 本体动态扩展机制框架图1 6 图2 3 抓取词语的定义流程图:1 7 图2 4 句法分析树19 图2 5 句法依存关系1 9 图2 6 对象属性提取流程图2 4 图3 1 本体构建的总体流程一2 5 图3 2 核心编码树2 6 图3 3 核心概念层次模型2 6 图3 4 本体扩展流程图2 8 图3 5 动态扩展前后结果比较31 图3 6 中文常识本体结构体系3 2 图3 7 “人 的描述粒度3 3 图3 8 中文常识本体的片段图3 3 图4 1 应用系统总体框架图:3 5 图4 2 中文常识本体服务器响应机制3 7 图4 3 本体查询结果示意图3 7 图4 4 “基本体”提取界面3 8 图4 5 生成的r d f 文档3 8 图4 6p r o t 6 9 6 工具显示的片段图3 9 图4 7 多媒体信息语义检索系统总体框架图4 0 图4 8 语句转换过程示例一4 l 图4 9 识别器插件创建代码4 2 图4 1 0 组图一4 3 图4 1 1 组图二4 3 图4 1 2 组图三4 4 图4 13 组图四4 4 图4 1 4 关键字匹配检索结果4 5 图4 1 5 多媒体信息语义检索结果4 5 图4 1 6 系统框架设计构思图4 6 图4 1 7 标注系统设计模型图4 8 v l i 中文常识本体的半自动构建与府用 附表索引 表2 1 编码规则表一1 0 表2 2 同义词词林扩展版各级编码规则1 0 表2 3 区域举例说明一1 1 表2 4 区域划分的片段l2 表2 5r d f s r d f 属性列表1 4 表2 6 对象属性15 表2 7 中文语法关系和举例一2 0 表2 8 依赖关系统计表2 2 表3 1 本体语义扩展算法描述2 8 表3 2 中文常识本体的常量与关系统计表3 0 表3 3 构建方法的比较分析3 0 表3 4 实验结果比较表31 表4 1 区域分类表3 6 表4 2 中文常识本体中的常量表3 6 表4 3 中文常识本体r d f 三元组表3 6 表4 4 多媒体信息实例表r d f 三元组3 6 表4 5r d f 转换为s p a r q l 示例4 2 表4 6 领域本体介绍表4 7 硕一 :学位论文 1 1 课题研究背景及意义 第1 章绪论 随着互联网的快速发展,网络上的信息数量呈指数级增长,人们对信息检索 手段的有效性要求也越来越高。面对海量的且内容和表现形式各异的信息,人们 迫切需要将这些信息集成为一个本体,在本体的基础上进行语义检索,以提高信 息检索的查全率和查准率。 1 9 9 9 年,t i mb e r n e r s l e e 提出了语义网的构想【1 1 。2 0 0 1 年,语义网1 2 删的正 式提出后,“本体论”的思想被研究人工智能的信息领域专家提出作为语义网应用 的理论基础。目前本体还没有统一的定义,最著名且被广泛应用的定义是由g r u b e r 提出的“本体是概念模型的明确的规范说明【4 儿5 】,。本体作为知识描述的共享概念 模型,已日渐成为知识工程、信息检索和知识推理等研究的重要组成部分。然而, 网络上的信息其表现形式丰富,例如文本、音频、视频、图像等形式,包含的内 容涉及到人类生活的各个领域,且不同领域的数据在结构和语义上都存在一定程 度的差异,这些特征在多媒体信息中表现得尤为突出。要构建一个怎样的本体, 才能够在描述信息的底层特征的同时,表达其内容的高层语义,并且解决信息数 据的集成问题。 常识本体的引入,为解决上述问题提供了一条新的思路。常识本体,有的文 献称作通用本体、顶层本体或基本本体,它们表达的意义是相同的。常识本体通 常表达常识性的知识,包含个人类生活的各个领域。其作为高层的独立于领域的 本体,使得完全相异的数据可以使用一个共同的知识库,解决了各领域间的数据 在结构和语义上的不一致性问题,并且对本体间的集成和映射,以及数据的共享 与交换具有重要的作用。目前只有很少手工构建的常识本体如c y c ,它们都是靠 手工输入大量的知识,然后基于这些知识进行扩展和推理来获取新的知识。虽然 目前本体构建工具已经较为成熟,但是本体构建仍然是一项非常复杂且繁琐辛苦 的任务。 通过上述分析可见,半自动或自动地构建一个具有统一标准结构的中文常识 本体具有重要的研究价值和良好的应用前景。作者把基于字典和基于自由文本的 两种本体半自动构建技术相结合,提出了一种中文常识本体半自动构建方法,并 从结构化、描述粒度和成熟度这三个指标对中文常识本体进行评估分析。同时, 为了体现中文常识本体的应用价值,作者设计了一个中文常识本体应用系统。项 目的研究意义不仅在于探索本体的理论知识,更重要的是将半自动化构建的中文 常识本体应用到实际中,支持常识本体价值的体现。 中文常识本体的半自动构建了应用 1 2 本体论研究概述 1 2 1 本体的定义 本体,英文单词是“o n t o l o g y ”,最初起源于哲学领域,表示客观上存在的系 统的定义或说明,着重倾向于表现客观实在的抽象本质7 1 。在人工智能界,最 早给出本体定义的是n e c h e s 等人,文献【8 】中将o n t o l o g y 解释为“给出构成相关 领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延 的规则的定义”。g r u b e r 在1 9 9 3 年将o n t o l o g y 定义为“o n t o l o g y 是一个明确的规 范说明的概念模型【4 】,。后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外一种定 义:“o n t o l o g y 是一个形式化规范说明的共享概念模型一j ,。s t u d e r 等对上两个定 义进行了深入的研究,认为“o n t o l o g y 是一个明确的形式化规范说明的共享概念 模型【1 0 】”。该解释包含了4 层含义1 0 】: 1 )概念模型( c o n c e p t u a l i z a t i o n ) :指把客观世界中的一些现象通过抽象出 来形成一些相关概念而组成的模型,其表现的意义独立于特定的环境状态。 2 ) 明确( e x p l i c i t ) :指使用的概念以及使用这些概念的相关约束都具有明 确的含义。 3 ) 形式化( f o r m a l ) :指本体一定是计算机可读的,即能够使计算机对其进 行处理。 4 ) 共享( s h a r i n g ) :指本体中表现的是人类一致认可的知识,反映相关领 域中共同认可的概念集,即本体针对的是集合而并非个体的共识。 o n t o l o g y 的目的是抓取相关领域的知识,给出对该领域知识的一致理解,确 定该领域内一致认可的词语,并给出这些词语和词语间相互关系在各个层次的形 式化模式上的明确定义。尽管对o n t o l o g y 的定义有很多不同的方式,但是从内涵 上来看,不同研究者对于本体的认识是统一的,都把本体认为是领域内各个不同 主体间进行交互的一种语义基础【1 1 】f 12 1 ,由本体达成一种明确定义的共识,这种共 同认可更重要的是为机器服务,因为机器本身并不能够和人一样明确理解自然语 言中所要表达的语义信息。 1 2 2 本体的分类 本体的类型【1 3 】有很多,分类一直没有一个统一的标准,可以从多个角度考虑, 根据本体的主题大致可以分为如下几种类型: 1 ) 领域本体:包含特定领域的相关知识,提供特定领域概念定义和概念之间 的关系,提供该领域中发生的活动及主要理论和基本原理等,如企业本体、医学 概念本体等; 2 ) 通用本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事 件、行为等等,它与具体的应用无关,其他种类的本体都是该类本体的特例; 2 硕十学位论文 3 ) 表示本体:提供了用于描述事物的实体; 4 ) 任务本体:绝大部分涉及到动态的知识,以上介绍的本体主要是描述静态 的知识,任务本体它表达了某特定领域建模的所有知识,主要研究问题求解方法, 这些方法都可以共享。其主要思想是从问题求解和推理的这两个方面来描述领域 知识,有利于解决领域知识不能够使用其他方式的形式表达问题,这个问题的解 决对组件化的开发和知识的重用十分重要。 为了使本体能够进行有效的分类,g u a f i n o 1 4 】提出将领域依赖度和详细程度这 两个角度作为本体分类的重要基础。根据领域的依赖程度,我们把本体分为通用 本体( 即顶层本体) 、领域本体、应用本体和任务本体等4 大类。而详细程度是一 个相对且较模糊的概念,一般情况下指的是表示或刻画某建模对象的程度。根据 详细程度划分为参考本体和共享本体,参考本体的详细程度高,共享本体的详细 程度低。 l p e r e z 和b e n j a m i n s 在1 9 9 9 年研究分析了各种各样的o n t o l o g i e s 分类法,在 这个基础上,他们归纳了l0 种本体,分别是普通本体、知识表示本体、元( 核心) 本体、语言本体、项级本体、领域本体、任务本体、领域任务本体、应用本体和 方法本体。这种分类法扩充和细化了g u a r i n o 的分类方法,但是划分出来的1 0 种 本体相互交叉,层次比较模糊。 1 2 3 本体模型的描述语言 目前,本体有多种多样的描述方式。其中最主要的一种对本体描述语言分类 的方式是按照形式化的程度对其进行分类,该方式把本体描述语言分为四大类, 分别是形式化、半形式化、非形式化、半非形式化语言【l5 1 。一般情况下,我们可 以用自然语言来表示本体,也可以用语义网络、框架或者逻辑语言等来表示本体。 其中开发且最流行的两种本体语言分别是基于一阶逻辑( f i r s t o r d e r l o g i e ) 【1 6 】【1 7 】 的描述语言和描述逻辑( d e s c r i p t i o nl o g i c ) 语言【1 8 】【19 1 。 基于一阶逻辑( f i r s t o r d e rl o g i c ) 的描述语言是一种形式化得语言系统,主 要研究的是结论和假设间的蕴涵关系,即通过逻辑方式对推理规律进行研究。一 阶逻辑是一种简化形式的自然语言,由于它具有精确且无二义性的性质,易被计 算机识别和处理。其次,一阶逻辑与自然语言相似度比较高,因此它具有非常强 达的描述能力f 1 6 j 。描述逻辑( d e s c r i p t i o nl o g i e ) 则是一种对象知识表示的形式 化语言,又称作概念描述语言或概念术语。描述逻辑建立在概念和概念间的关系 之上,其中把概念看成是对象的集合,关系则认为是对象之间的一种二元关系。 描述逻辑和一阶逻辑有着密不可分的关系,前者是后者的一个可判定的子集。 描述语言具有与定义相互合适的语义,且具有非常强大的描述能力。一般情况下, 描述逻辑可以根据本体构建者提供的算子,在比较简单的概念和概念问的关系上 构造相对而言比较复杂的概念和关系【2 0 1 。相对于一阶逻辑来说,描述逻辑体系能 中文常识本体的半自动构建与庸用 够提供可判定的推理机制,它能够保证推理算法返回正确的结果。即其推理复杂 度可知,比较适用于本体的检验。一阶逻辑的表达能力尽管高于描述逻辑,但是 其推理过程比较复杂,对本体的检验非常不利。 1 2 4 本体构建方法准则 本体构建是一个需要科学标准和规则则指导的工程问题。研究人员总结和吸 取以往构建本体的经验,提出了许多对构造本体很有帮助的准则。19 9 5 年 t r g r u b e r 在文献【7 】【2 1 】中提出目前最具有影响力的5 条准则: 1 ) 清晰:本体必须清楚有效地表示所要描述的定义术语的意思。定义必须是 客观的且与背景完全独立的;如果定义能够用逻辑公式来描述时,该定义则必须 是形式化的;定义应该在最大程度上完整的描述,并且要用自然语言对其进行阐 述。 2 ) 一致:本体必须是一致的,它应该适合与其定义相一致的推理规则。本体 不仅要在定义的公理上要具有一致性,而且用自然语言对本体进行的说明文档也 要具有一致性。 3 )可扩展性:本体能够为预知的任务提供一个概念基础。它能够在不要修 改现有的概念定义的基础上建立新的术语,以此来满足用户的特殊需求。 4 ) 编码偏好程度最小:概念的表示不应该依赖某一种特定的符号层的描述 方法,因为在实际应用中,系统有可能采用不同的知识描述方法。 5 ) 本体约定最小:本体的约定只要可以满足特定知识的共享需求就可以了, 通过定义约束最弱公理和只构建通讯所需要的词汇来保证本体的最小约定性质。 1 3 相关研究现状 , 本文研究的核心是自动化地构建一个标准化的中文常识本体,并将其应用到 实际中。涉及的内容包括本体的自动化构建、常识本体和本体扩展技术。本节综 述了这三个方面的研究现状。 1 3 1 本体的半自动构建方法研究现状 目前,本体的构建方法主要有三类,人工构建、半自动构建和全自动构建。 人工构建本体需要大量的领域专家参与,尽管这种方法产生的结果比较准确,但 是过于繁琐辛苦,并且容易受构建者主观意识的限制。全自动地构建本体就是不 给机器任何条件,让它盲目地去寻找概念及关系,这样生成的本体的准确性很差, 且实现起来比较困难。因此,半自动本体构建技术成为比较实用有效的方法,该 方法就是利用发展比较成熟的一些技术和具有公认性的资源,通过本体学习 2 2 - 2 4 】 半自动地生成满足要求的本体。下面介绍了几种目前比较常用的半自动本体构建 技术: 4 硕士学位论文 1 ) 基于自由文本的本体半自动构建技术 该方法通过概念聚类、关联规则、模式匹配等自然语言处理技术,从文本中 提取满足条件的本体。d f a u r e 采用基于分层的概念聚类法【2 5 1 ,把词语概念化, 然后通过聚类器对词语进行聚类,其聚类器包含了一些由动词加介词形式构成的 固定搭配。a m a e d c h e 等人开发了基于关联规则的t e x t t o o n t o 2 6 1 本体生成工 具。该工具是一个能从初始的核心本体生成领域本体的集成环境,其生成的领域 本体包含一些与该领域无关的概念,需要本体专家去除这些与领域无关的概念, 保证领域本体内的词汇能符合领域应用的需求。m a h e a r s t 提出了一种基于同 义词模式的方法【27 1 。该方法抽取与现有本体相关的概念,并判断是否存在同义词 模式上的关联,这种关联即概念间的关系。此方法错误率过高,生成的结果需要 专家进行验证。k m g u p t a 2 s 】等人也利用模式从特定领域的文本中生成一个小 型w o r d n e t 本体。 2 ) 基于字典的本体半自动构建技术 该方法从机器可读的字典中抽取人们感兴趣的概念和关系,半自动地构建所 需要的本体。j j a n n i n k ”】等人将词典数据转换为图结构,采用遍历图结构的方 法,生成领域本体。词典中的词称为中心词,词的解释称为定义文本,在生成领 域本体时,只考虑中心词和相互间有着多对多关系的定义文本。该方法的优点是 中心词能够很容易地与定义文本区别开,比较容易抽取本体的概念。 ; 3 ) 基于知识库的本体半自动构建技术 该方法从已经构建好的知识库中抽取满足需求的本体。h s u r y a n t 0 1 3 0 】等人 通过分析传统知识库的构建规则,提出一种提取分类本体的方法。该方法把能够 推导出相同结论的一组路径集合看成是一个分类,这些路径由一系列的规则构成; 得到分类结果后,再进一步通过定量计算来确定分类之间的关系。该方法只考虑 包含、排斥和相似这三种关系。最后把得到的类和关系加入到本体中。 4 ) 基于关系模式的本体半自动构建技术 该方法从关系型数据库中提取所需要的概念和概念间的关系构建本体【3 l 】。一 般有以下几个步骤:首先获得关系数据模式中的属性、属性类型、关系、主键、 外键和包含依赖等信息;然后通过映射规则分析获取的信息,形成本体的概念和 关系;接着进行模式转换即将概念组织为层次结构,抽取附加关系,并去除 冗余的信息;进而对本体进行评估、验证和精炼;最后将数据迁移,其目的在于 创建本体实例。 1 3 2 常识本体的研究现状 i e e e 标准顶层本体工作组项目和w o n d e rw e b 的顶层本体项目是目前两个比 较重要的常识本体标准化研究项目。i e e e 标准顶层本体组项目隶属于i e e e 标注 协会并且由电器与电子工程协会发起,其目标是规定一个标准的常识本体框架, 中文常识本体的半自动构建0 戍用 使得计算机可以用它来进行数据交互、信息搜索、自动推理和自然语言加工,当 前该组织考虑建议将s u m o 、c y c 这两个常识本体作为候选顶层本体。w o n d e rw e b 是欧盟信息社会委员会的研究项目,项目联盟成员包括大学和工业界,该项目同 时与美国高级研究计划局( d a r p a ) 和万维网( w 3 c ) 组织合作。项目的主要 目标包括:本体语言的研究和制定、本体构建模式的研究、基础本体库的建设以 及应用工具的建设等。目前该本体已有3 个模块:语言及认知工程的描述本体 d o l c e 、对象中心高层参考本体o c h r e 和基础形式本体b f o 。 s u m o 起初由皮斯( p e a s ea d a m ) 和奈尔斯( n i l e si a n ) 一起研究开发,目 前由技术知识公司( t e k n o w l e d g ec o r p o r a t i o n ) 对该项目进行维护1 32 。s u m o 是 有多个顶层本体合并形成的,主要涉及了人类认知和现实世界的两个大范畴。它 采用s u o k i f 格式作为本体描述语言,并联结了一些领域本体以及中层本体如 m i l o 。s u m o 本体大约有1 7 7 0 个概念、1 2 4 0 条规则和7 2 7 8 个断言,由1 1 个分 离的模块组成。s u m o 的最顶层概念是实体,在本体中又分为“物理实体 和“抽 象实体。前者包括对象和过程两个部分,后者则分为集合、属性、关系、命题、 数量、图表和构图元素。 c y c 是由微电子及计算机科技公司( m i c r o e l e c t r o n i c sa n dc o m p u t e r t e c h n o l o g yc o r p o r a t i o n ,m c c ) 研究开发的项目,公司位于位于美国德克萨斯奥 斯汀。该项目启动于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论