(计算机应用技术专业论文)领域本体构建及其在专利信息服务中的研究与应用.pdf_第1页
(计算机应用技术专业论文)领域本体构建及其在专利信息服务中的研究与应用.pdf_第2页
(计算机应用技术专业论文)领域本体构建及其在专利信息服务中的研究与应用.pdf_第3页
(计算机应用技术专业论文)领域本体构建及其在专利信息服务中的研究与应用.pdf_第4页
(计算机应用技术专业论文)领域本体构建及其在专利信息服务中的研究与应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

领域本体构建及其在专利信息服务中的研究与应用摘要 领域本体构建及其在专利信息服务中的研究与应用 摘要 专利是技术创新的重要资源,有效地检索并利用专利信息是提高企业自主创新能 力和核心竞争力的重要途径。本文基于专利信息服务平台,针对电梯领域构建领域本 体,在此基础之上,为提高专利信息检索的查全率和查准率,增强平台对用户检索的 导向,应用该领域本体实现专利信息的语义检索。本文主要工作内容如下: 1 按照检索方式、检索入口以及支持的逻辑运算符等方面对国内外著名专利检 索系统进行研究,接着对本体在信息系统中的应用现状和本体构建方法的研究现状进 行分析和研究,结合本体的语义优势,确立了在专利信息服务平台中构建并应用领域 本体的目标。 2 提出了一种领域本体构建方法,包括领域的确定、概念及其关系的学习和本 体的编辑与存储。领域概念的学习采用基于最大熵模型的方法进行,通过对领域文本 进行挖掘而得到名词性短语,然后使用改进的 i f i d f 公式从名词性短语集中抽取具 有领域性的短语,经人工修正后得到本体概念;概念间关系的学习则是采用基于依存 句法模式的关系获取方法,从自然语句中提取依存句法模式,通过句法模式去匹配新 的语句而得到新概念及概念间的关系;最后使用p r o t 6 9 6 软件编辑得到领域本体。 3 以电梯领域为例,在专利信息服务平台中构建并应用一个小规模的领域本体, 实现泛化、细化的语义扩展和联想的深入检索,达到专利信息的语义检索目的。通过 与基于关键字匹配的检索方式进行检索效果对比,实验证明本文构建的领域本体在一 定程度上完善了平台的检索功能。 关键字:专利,语义检索,领域本体,本体构建 作者:韦小丽 指导教师:孙涌 a b s t r a c tr e s e a r c ha n da p p l i c a t i o no fd o m a i no n t o l o g yc o n s t r u c t i o ni np a t e n ti n f o r m a t i o ns e r v i c e a b s t r a c t p a t e n ti sa ni m p o r t a n ti n f o r m a t i o ns o u r c eo ft e c h n o l o g i c a li n n o v a t i o n i ti sa n i m p o r t a n tw a y t o i m p r o v e t h e c a p a b i l i t y o fi n d e p e n d e n ti n n o v a t i o na n dc o r e c o m p e t i t i v e n e s so ft h ee n t e r p r i s e sb ym a k i n gt h em o s to fp a t e n ti n f o r m a t i o n t oi m p r o v e t h er e c a l lr a t ea n dp r e c i s i o na n de n h a n c es y s t e mo r i e n t a t i o n , t h i sp a p e rb a s e so np a t e n t i n f o r m a t i o ns e r v i c ep l a t f o r m ,c o n s t r u c t st h ed o m a i no n t o l o g yi nt h ef i e l do fe l e v a t o ra n d a p p l i e st h ed o m a i no n t o l o g yt or e a l i z es e m a n t i c sr e t r i e v a lo fp a t e n ti n f o r m a t i o n i nt h i s p a p e r , t h ew o r kr e a d s a sf o l l o w s : f i r s t l y , t h i sp a p e rr e s e a r c h so nt h ew e l l k n o w np a t e n tr e t r i e v a ls e r v i c ep l a t f o r mi n t e r m so ft h ew a y , t h ei n t e r f a c e ,a n dt h el o g i co p e r a t o ro ft h er e t r i e v a la n ds oo n t h e n ,w e a n a l y s et h es t a t e o f - t h e - a r to n t o l o g ya p p l i c a t i o ni ni n f o r m a t i o ns y s t e m sa n d t h em e t h o do f t h eo n t o l o g yc o n s t r u c t i o n ,a n de s t a b l i s h et h er e s e a r c ht a r g e to fo n t o l o g yc o n s t r u c t i o na n d a p p l i c a t i o n si nt h ep a t e n ti n f o r m a t i o ns e r v i c ep l a t f o r mb yt a k i n ga d v a n t a g eo fo n t o l o g y s e m a n t i c s e c o n d l y , t h i sp a p e rp r o p o s e sam e t h o do fc o n s t r u c t i n gd o m a i no n t o l o g yw h i c h c o m p r i s e sd e t e r m i n a t i o no ft h eo n t o l o g yf i e l d ,e x t r a c t i o no fd o m a i n s p e c i f i cc o n c e p t sa n d t h er e l a t i o n sa m o n gt h ec o n c e p t sa sw e l la ss t o r a g ea n de d i t i o no ft h eo n t o l o g i e s t h e e x t r a c t i o no fd o m a i n - s p e c i f i cc o n c e p t si sb a s e do nm a x i m u m e n t r o p ym o d e l a f t e rm i n i n g n o u np h r a s e sf r o md o m a i nt e x t s ,w ea p p l ya l li m p r o v e dt f i d ff o r m u l at ot h en o u n p h r a s e st oe x t r a c td o m a i n - s p e c i f i co n e s ,a n dt h e nm o d i f yt h ed o m a i n - s p e c i f i cp h r a s e st o d e r i v eo n t o l o g yc o n c e p t s r e l a t i o n sb e t w e e nt h ec o n c e p t sa r ee x t r a c t e db yt h ea p p r o a c h b a s e do nt h ed e p e n d e n c ys y n t a c t i cp a t t e r n w em a t c ht h ed e p e n d e n c ys y n t a c t i cp a t t e r n , w h i c hi se x t r a c t e df r o mn a t u r a lt e x t s ,a g a i n s tn e wt e x t st od e r i v en e wc o n c e p t sa n dt h e r e l a t i o n sa m o n gt h e m f i n a l l y , w ec o n s t r u c tt h eo n t o l o g yb yt h et o o lo fp r o t 6 9 6 t h i r d l y , w ec o n s t r u c tas m a l ld o m a i no n t o l o g yi nt h ef i e l do fe l e v a t o rb a s e do nt h e p a t e n ti n f o r m a t i o np l a t f o r ma n dr e a l i z et h r e es e m a n t i ce x p a n s i o ni n c l u d i n gg e n e r a l i z a t i o n , s p e c i a l i z a t i o na n da s s o c i a t i o n b yc o m p a r i n gw i t l lr e t r i v a lm e t h o db a s e do nk e y w o r d m a t c h i n g ,t h ee x p e r i m e n tr e s u l t sp r o v et h a tt h em e t h o do fd o m a i no n t o l o g yc o n s t r u c t i o n p r o p o s e di nt h i sp a p e ri sf e a s i b l e ,a n dt h ea p p l i c a t i o no fd o m a i no n t o l o g yi nt h er e t r i e v a l s y s t e mp e r f e c t st h es y s t e mt os o m ee x t e n t k e y w o r d s :o n t o l o g yc o n s t r u c t i o n ,d o m a i no n t o l o g y , s e m a n t i cr e t r i e v a l ,p a t e n t i i w r i t t e nb y :w e ix i a o l i s u p e r v i s e db y :s u ny o n g 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文 不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏 州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作 出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本 声明的法律责任。 研究生签名:圭尘塑 日期:丝! 塾垒璺多目 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论 文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论 文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的 保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:垒堕! 叠日期:墟j 聋6 旦墨亟 导师签名:0 啦日期:坦啤亟蛐 领域本体构建及其在专利信息服务中的研究与应用 第一章绪论 第一章绪论 本章首先介绍专利和专利检索系统,然后按照检索方式、检索入口以及逻辑运算 符等方面对国内外著名专利检索系统进行研究,接着对本体在信息系统中的应用现状 和本体构建方法的研究现状进行分析研究,最后提出本文的主要研究内容并给出论文 的组织结构。 1 1 课题研究背景 1 1 1 专利与专利检索系统 专利信息作为集技术信息、经济信息和法律信息于一体的实用知识,是技术情报 的重要来源,它具有内容广泛详尽、实用性强、格式统一规范和传递信息快等特点。 据统计,世界上已发布的专利文献已近4 0 0 0 万件,每年出版的专利文献有1 0 0 多万 件,约占世界科技出版物总数的l 4 ,另据世界知识产权组织( w i p o ) 统计,世界上 9 0 , - 9 5 的发明成果以专利文献的形式问世,其中约有7 0 的发明成果从未在其他 非专利文献上发表【l 】。由此可见,专利信息具有其它类型文献信息无法替代的优点, 有着非常高的利用价值。 国家“十一五 规划要求“必须提高自主创新能力 ,要求全国上下一致推进知 识产权工作,推进专利相关工作。目前,企业对专利信息的利用越来越重视,文献【2 】 中指出专利信息在企业发展战略决策、新产品的研究开发和方案制定、技术改造和革 新、与同行对手的竞争等方面的作用日益突出,促进了企业技术创新,提高了企业核 心竞争力。 目前,利用专利检索系统进行专利信息的检索,已成为获取专利信息的主要手段。 国内外有许多著名的专利检索系统,如欧洲专利局专利检索系统【3 1 、美国专利商标局 专利检索系统吲、德国专利商标局专利信息系统【5 1 、英国d e r w e n t 专利数据库嘲、 d e i p h i o n 知识产权网【7 】、世界知识产权组织专利数据库w i p o 引、中华人民共和国国 家知识产权局专利检索系统s i p 0 1 9 1 、中国知识产权网专利检索系统c n i p r t l o 】等。表 1 1 从各专利检索系统提供的数据库、检索方式、检索入口以及支持的逻辑运算符等 方面进行比较。作者发现目前的专利检索系统存在两个方面的不足: 第一章绪论领域本体构建及其在专利信息服务中的研究与应用 首先,目前专利检索系统主要采用基于关键字匹配的检索方式,这种方式曾在一 定程度上方便和帮助用户进行专利信息的检索,但是随着用户对专利信息需求发生根 本性的改变,即转化为知识需求,由于传统信息检索方式无法忠实地表达用户的真实 检索意图,仅仅是字面意义或某层意义,因此检索的查全率和查准率得不到保证,无 法很好的满足用户的需求。 其次,目前专利检索系统的检索结果通常直接展示给用户,用户需要从数量庞大 的结果集中寻找实际需要的专利信息,专利检索系统对用户检索的导向很弱。 表1 1 国内外著名专利检索系统的比较 专利检索系统专利数据库检索方式检索入口逻辑运算符 欧洲专利局4 种( q u i c k 、 专利检索系统 w b r l d w i d e 、e p 、 a d v a n c e 、n u m b e r 、1 1 个 a n d 、o r 、 e s p c e n e t w l p o ( 可选)n o t ( 必须大写) i p c ) 美国专利商标局专利 i s s u e dp a t e n t s 、 3 种( q u i c k 、 a n d 、o r 、 检索系统p u b l i s h e da p p l i c a t i o na d v a n c e 、p a t e n t3 1 个 a n d n o t ( , 彪, 须 u s p t o ( 可选) n u m b e r ) 大写) 德国专利商标局专利5 种( 初级、专家、 信息系统世界范围内的专利i k o f a x 、援助、同2 5 个a n d 、o r 、n o t d e p a t i s n e t 族专利) 英国d e r w e n t w p i 、德温特专利创新3 种( s e a r c h 、g e n e r a l 索引、国际联机检索系s e a r c h 、c i t e d1 6 个 a n d 、o r 、n o t 、 专利数据库s e n t 、s a m 匪 统中的德温特数据库 r e f e r e n c es e a r c h ) 4 种( q u i c k a n d 、o r 、 d e i p h i o n 美国、欧洲、日本、w i p on u m b e r 、b o o l e a n 、2 0 个 知识产权网 a n d n o t a d v a n c e ) 世界知识产权 a n d 、o r 、 组织专利数据库p c t 国际专利 1 种( 表格) 2 7 个a n d n o t 、 w i p ox o r 、n e a r 中国专利( 三种专利类 中华人民共和国国家型,可选) 、国外及港澳 2 种( 快速、高级( a pa n d ( + ) 、o r ( + ) 、 知识产权局专利检索台专利( 美国、日本、欧1 6 个 系统s i p o专局、w i p o 、英国、德 表格) )n o t ( - ) 国、瑞士,可选) 中国专利( 三种专利类 a n d 、o r 、n o t 、 中国知识产权网专利 型,可选) 、外国专利( 美 x o r 、a d j 、 国、日本、英国、德国、2 种( 表格、逻辑)1 8 个 检索系统c n i p r e q u i o 、 法国、欧专局、w i p o 、 x o r 门0 、p r e 1 0 瑞士,可选) 1 1 2 本体在信息系统中的研究现状 本体作为种能在语义和知识层次上描述信息的工具,它具有良好的概念层次结 构和对逻辑推理的支持,因而本体运用于许多领域,如数字图书馆、数据库框架集成、 2 领域本体构建及其在专利信息服务中的研究与应用 第一章绪论 自然语言处理和企业模拟等,在信息系统中更得到了广泛的应用。目前,国外开发的 系统有s c o r e 、0 e d s e w 、t i m e 2 s e a r c h 、r d fg a t e w a y 、o b s e r v e r 、p i c s e l 、 o n t o b r o k e r 、k a o n p o r t a l 、s y d o m 、o n t o s e e k 等: s c o r e ( s e m a n t i cc o m e mo r g a n i z a t i o na n dr e t r i e v a le n g i n e ) 【1 1 】由g e o r g i a 大学 a m i ts h e t h 等人开发,该系统支持构成语义技术的四个方面,分别为元数据的语义组 织和利用、语义信息规范化、语义检索和语义关联,该系统可以分为本体构建、内容 处理、语义信息检索三个模块。 o e d s e w ( s e m a n t i cw e bp o r t a lb a s e do nw e b o d ep l a t f o r m ) 1 1 2 】由g 6 m e z p 6 r e z 等人 在u p m 和m e c 的科研经费支持下设计完成,是e s p e r o n t o 项目( i s t - 2 0 0 1 3 4 3 7 3 ) 的 一个子课题。该系统是建立在本体平台w e b o d e 之上,其中基于w e b o d e 生成的本 体可以被检索和导航,概念和关系实例也可以被浏览、检索和更新,更重要的是 o d e s e w 系统的本体更新将自动导致内容的更新。 t i m e 2 s e a r c h 则是帮助投资者进行潜在投资调查,并能分析和产生报表,以供特 定环境下的投资者参考。 r d f g a t e w a y 1 3 1 ;是由i n t e l l i d i m e n s i o n 开发的语义网关,该系统由服务器端的脚本 语言r d f q l 、r d f q l 处理器和_ 个演绎数据库来处理复杂的用户查询,通过r d f s e r v e rp a g e 技术来处理h t m l x m l r d f 和演绎数据库之间的数据转换。 o b s e r v e r f l 4 】贝u 由m e n a 等人开发,该系统针对不同的信息源用不同的本体来表 示,并且在这些本体之间建立了映射,当用户利用该系统进行查询时,只返回一个本 体,用户可以选择其他的本体来扩展检索,由于一个本体的概念与另一个本体之间的 概念之间的映射并不完全准确,系统给出了信息丢失的评估。 p i c e s l ( p r o d u c t i o nd i n t e r f a c e sb a s e d ec o n n a i s s a n c e sp o u rd e ss e r v i c e se n l i g n e ) t 1 5 】是由法国的l r i 公司开发的一个基于语义的分布式异构资源处理系统,该系 统由一个相同应用领域的几个独立存在的信息资源以统一的方式提供给用户,它允许 用户提出领域层次的查询,在异构信息资源中进行搜索并将结果提供给用户。 o n t o b r o k e r t l 6 】是由德国的o n t o p r i s e 公司开发的语义信息处理系统,它对信息的 集成主要通过连接器、输入和输出模块构成,能够把现有数据库的数据模式映射到本 体上,这种映射最终被转换为f 逻辑( 一种基于框架的逻辑语言) 格式的s t a t e m e n t 存储。 k a o np o r t a l t l 。7 】则提供多语言本体的可视化导航,异构资源下的本体集成,本 第一章绪论领域本体构建及其在专利信息服务中的研究与应用 体查询,本体映射等。 s y d o m o s l 是一个基于语义手工索引的多语言信息检索系统,该系统将语义信息分 为两类进行存储,一类是领域知识( 包括概念和关系) ,另外一类是专有名词( 依照不同 语言分开) 。 o n t o s e e k 1 9 1 是一个用于黄页和产品目录检索的语义信息系统,该系统利用s e l l s u s 来匹配用户查询和实际数据,查询过程中用户可以动态调整自己的检索策略。 而国内的研究相对来说起步比较晚,但是研究成果也相继出现。2 0 0 1 年,武成 2 0 1 等人提出了基于本体和多智能主体的信息检索服务器,该系统利用本体协助智能 主体对网络上的文档进行领域分类,同时对用户的查询信息进行规范,由于仅提供给 用户所关注领域的资源索引,因而检准率较高。2 0 0 3 年,万捷【2 1 】等人提出基于内容 的信息检索,利用本体将用户的检索要求扩充成语义集,并将检索到的文档通过文档 分析器进一步过滤,使用户最终得到与检索要求内容匹配度较高的文档。董慧【2 2 - 2 3 等认为传统的信息检索机制在数字图书馆中存在“忠实表达”、“表达差异 和“词汇 孤岛 三个深层次的问题,他认为基于知识( 或概念) 层面的检索系统能解决此类问题, 在文中提出数字图书馆本体论模型,并设计了一个基于本体论的检索算法,并于2 0 0 6 年,他研究基于本体的数字图书馆检索模型,并开发实现了历史领域的基于本体的数 字图书馆检索系统。 通过对本体在信息系统中应用现状的分析,作者认为,在专利信息检索中借助领 域本体,一则可以对用户给出的检索词进行语义扩展,把未意识到的、未清晰表达的 用户检索意图进行显现,充实用户检索词,从而使检索的结果更全面、更精确;二则 可以将基于本体的扩展检索词显示给用户,用于引导用户进一步定位检索,启发其深 入检索以获得更好的检索效果。 1 1 3 本体构建方法的研究现状 在本体研究的初期,本体构建采用纯手工方式进行,因此在实际应用中,本体构 建是一项工作量巨大且异常繁杂的任务。随着本体编辑工具的出现和日趋完善,专家 通过本体编辑工具进行本体的构建,可以把精力集中在本体内容的组织上,避免本体 描述语言的细节和语法错误,但是该方法仍然存在工程复杂、专家依赖性强、本体构 建速度慢等缺陷,极大地限制了本体的发展。随着本体应用的增多,如何半自动化或 4 领域本体构建及其在专利信息服务中的研究与应用第一章绪论 自动化地构建本体已成为近年来本体构建的研究热点和难点。 目前,本体的半自动化或自动化构建方法的研究还不成熟,国外很多科研机构以 及团体正在进行着探索。其中,德国卡尔斯鲁厄大学的m a e d c h e 和s t a a b 2 4 j 提出了一 个本体获取的框架,包括本体导入、本体抽取、本体裁剪、本体精练和本体评估,并 对如何从文本、字典( g e r m a n e t 、w o r d n e t ) 和原有本体中获取新的本体进行了研究。 他们提出的本体自动构建方法主要是通过自然语言处理技术( 包括句法分析、词性标 注和组块分析等) 和机器学习算法( 关系规则挖掘) 。 s o p h i el em o i g n o t 2 5 1 等针对特定的领域医疗领域中的医疗诊断书,根据医疗 诊断书中的动名词关系、句法上下文关系,再辅以词频统计,进行概念和关系诊断, 以此来构建本体。 d a h a b l 2 6 】等人开发实现t e x t o n t o e x ,该系统利用语义模式库自动地进行本体概念 及其关系的获取,进而构建本体。该系统的语义模式是开发者通过编辑器手工编辑的, 所以如何高效自动地学习更多新的语义模式便是将来必须解决的问题。 此外,s t o j a n o v i c t 2 7 】等人提出从数据库构建本体的方法,该方法给出了一组关系 模型到本体的映射规则,基于这些规则直接得到候选本体并进行精炼,生成最终本体。 国内李守丽【2 8 】等人利用奇异值概念聚类进行汉语本体获取进行了初步讨论;何海 芸【2 9 1 等提出通过手工归纳语义关系模板的方法来获得语义关系,但是手工归纳的语义 关系模板数量非常有限;马到3 0 】依据本体是更抽象概念的论断,提出了先建立关系数 据表到线性概念图的映射关系,然后再从线性概念图中自动抽取本体概念的算法。 综上所述,本体半自动或自动化构建的研究工作还处于初级阶段,存在着很多的 细节问题需要解决。本文致力于本体半自动构建过程中的概念获取和概念间关系获取 方法的探索研究并构建领域本体应用于专利信息服务平台中。 1 2 课题研究内容 本文的研究工作基于苏州大学智能信息处理及应用研究所开发的基于v l d b 集 群计算的智能专利信息服务系统项目,为了进一步完善专利信息服务平台的检索模 块,根据用户对专利信息的实际需求,本文针对电梯领域构建领域本体并将其应用于 该平台中,实现基于本体的语义专利信息检索。本文的主要研究内容如下: 1 按照检索方式、检索入口以及支持的逻辑运算符等方面对国内外著名专利检 第一章绪论领域本体构建及其在专利信息服务中的研究与应用 索系统进行研究,接着对本体在信息系统中的应用现状和本体构建方法的研究现状进 行分析与研究,结合本体的语义优势,确立了在专利信息服务平台中构建并应用领域 本体的目标。 2 提出了一种领域本体构建方法,包括领域的确定、概念及其关系的学习和本 体的编辑与存储。领域概念的学习采用基于最大熵模型的方法进行,通过对领域文本 进行挖掘而得到名词性短语,然后使用改进的t f i d f 公式从名词性短语集中抽取具 有领域性的短语,经人工修正后得到本体概念;概念间关系的学习则是采用基于依存 句法模式的关系获取方法,从自然语句中提取依存句法模式,通过句法模式去匹配新 的语句而得到新概念及概念间的关系;最后使用p r o t a 9 6 软件编辑得到领域本体。 3 以电梯领域为例,在专利信息服务平台中构建并应用一个小规模的领域本体, 实现泛化、细化的语义扩展和联想的深入检索,达到专利信息的语义检索目的。通过 与基于关键字匹配的检索方式进行检索效果对比,实验证明本文构建的领域本体在一 定程度上完善了平台的检索功能。 1 3 论文的组织结构 本文共分为五章,每一章的具体内容如下: 第一章绪论。本章首先介绍了专利及专利信息检索,然后按照检索方式、检索入 口以及支持的逻辑运算符等方面对国内外著名的专利检索系统进行研究,接着对本体 在信息系统中的应用现状和本体构建方法的研究现状进行分析与研究,最后提出了本 文的主要研究内容并给出了本文的组织结构。 第二章本体的相关理论。本章首先介绍了本体的定义、分类、建模元语、描述语 言、编辑工具和构建原则,接着介绍了本文中领域本体构建所涉及的最大熵模型和依 存句法理论,为领域本体的构建提供了必备的理论基础和技术支持。 第三章基于专利信息服务平台,提出了一种领域本体构建的方案,对领域本体的 构建进行了总体设计,并实现了领域本体的构建。 第四章将第三章构建的领域本体应用于专利信息服务平台,实现了泛化、细化的 语义扩展和联想的深入检索,随后给出检索实例及其效果演示,最后将基于关键字匹 配方式的检索与基于本体的语义检索进行对比实验,实验证明本文构建的领域本体在 一定程度上完善了平台的检索功能。 6 领域本体构建及其在专利信息服务中的研究与应用第一章绪论 第五章总结和展望。本章对本文所做的工作与贡献进行了总结,并且指出需要进 一步解决的若干问题以及今后的发展方向。 7 第二章本体的相关理论领域本体构建及其在专利信息服务中的研究与应用 第二章本体的相关理论 本章介绍本体的相关理论,包括本体的定义、分类、建模语言、描述语言、编辑 工具以及构建原则,接着介绍本文中领域本体构建所涉及的最大熵模型和依存句法理 论。上述相关理论的研究,为专利信息服务平台中领域本体的构建工作提供必备的理 论基础和技术支持。 2 1 本体的概述 2 1 1 本体的定义 本体( o n t o l o g y ) 这个术语最早诞生于1 7 世纪,是一个哲学术语,是一种对“存在 的系统化解释,用于描述事务的本质。2 0 世纪9 0 年代,本体被引入人工智能领域之 后,它广泛地应用于知识工程、自然语言处理和信息检索等领域,并取得了显著的成 果。 目前,国际上关于本体的概念还未达成共识。在人工智能领域,n e c h e s 等人最 早提出本体这个概念【3 l 】,他将本体定义为“给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成的规定这些词汇外延的定义。 1 9 9 3 年,美国斯坦福大 学知识系统实验室( k s l ) 的g r u b e r 提出在人工智能领域被广泛接受的本体定义,即本 体是概念模型的明确的规范说明。随后b o r s t 在此基础上给出了本体的另外二种定义, 即本体是共享概念模型的形式化规范的说明。s t u d e r 等对上述两个定义进行了深入研 究,认为“a no n t o l o g yi saf o r m a l ,e x p l i c i ts p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o n , 译成中文为“本体是共享概念模型的明确的形式化的规范说明”。这个定义包含四层 含义: ( 1 ) 明确( e x p l i c i t ) :是指概念及其上位概念,使用此概念的约束条件应该有明确 的定义。 ( 2 ) 形式化( f o r m a l ) :本体能通过本体语言编码,使得计算机可读,并可以被计 算机处理; ( 3 ) 共享( s h a r e d ) :是指本体中体现的是多数人的共同认可知识,反映的是相关领 域中公认的概念集,即本体针对的是社会范畴而非个体之间的共识。 ( 4 ) 概念模型( c o n c e p t u a l i z a t i o n ) 是指客观世界中对象的抽象模型,该模型是通 领域本体构建及其在专利信息服务中的研究与应用第二章本体的相关理论 过定义这些对象的相关概念形成的,模型所表现的含义独立于具体的环境状态。 除上述定义外,本体的定义有很多,但是它们所表达的内涵是一致的。本文作者 将领域本体理解为用详细明确的结构化的词汇表描述某一领域内的概念、属性及其之 间的关系,并在此基础上构建领域本体。 2 1 2 本体的分类 针对目前出现的各种各样的本体,也出现了不同的分类方法,以下几种分类使用 最为广泛【3 2 1 。 1 根据本体的应用主题,本体划分为五种类型: ( 1 ) 领域本体:在一个特定的领域中可重用,它们提供该领域特定的概念定义和 概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理等。对 特定领域的本体研究和开发目前已涉及许多领域,包括企业本体、医学概念本体、酶 催化生物学本体、陶瓷材料机械属性本体等。 ( 2 ) 通用或常识本体:关注于常识知识的使用。通用知识本体论的研究包括著名 的c y c 工程,其他工作还包括j s o w a 的通用本体研究等。 ( 3 ) 知识表示本体:研究重点是语言对知识的表达能力。典型的有斯坦福大学知 识系统实验室提出的一种称为知识交换格式k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的知 识描述语言,以及可以在线将各种知识转化为k i f 的本体服务器o n t o l i n g u a 。 ( 4 ) 语言学本体:是指关于语言、词汇等的本体。典型的实例有 g u m ( g e n e r a l i z e d u p p e rm o d e l ) 和普林斯顿大学研制的w o r d n e t 。 ( 5 ) 任务本体:也称为方法本体,主要研究可共享的问题求解方法,这里的推理 方法与领域无关,任务本体主要涉及动态知识,而不是静态知识。任务本体的研究以 c h a n d m s e k a r a n 等人的关于任务和问题求解方法本体的研究为代表。具体的研究主题 包括:通用任务、与任务相关的体系结构、任务方法结构、推理结构和任务结构等。 2 根据本体表示的形式化程度,将本体分为四种类型: ( 1 ) 完全非形式化:完全采用自然语言进行表示的本体。如爱丁堡大学企业项目 中的e n t e r p r i s eo n t o l o g y 自然语言版。 ( 2 ) 结构非形式化:采用受限的或结构化的自然语言进行表示,能有效提高本体 论的清晰度,减少二义性。 9 第二章本体的相关理论领域本体构建及其在专利信息服务中的研究与应用 ( 3 ) 半形式化:采用一种人工定义的形式化语言进行表示,许多采用o n t o l i n g u a 描述的本体都属于这一类。 ( 4 ) 形式化:所有术语都具有形式化的语义,并能在某种程度上证明包括一致性 和完整性等方面的属性。 3 g u a r i n o 提出以详细程度和领域依赖度两个纬度作为对本体划分的基础。详细 程度是相对的、较模糊的一个概念,指描述或刻画建模对象的程度。详细程度高的称 作参考本体,详细程度低的称为共享本体。依照领域依赖程度,本体可以细分四种类 型: ( 1 ) 顶级本体:主要研究非常通用的概念,如空间、时间、事件、行为等,与具 体的应用无关,其他种类的本体都是该类本体的特例。因此可以说顶级本体可以在一 个很大的范围内共享。 ( 2 ) 领域本体:研究与一个特定领域相关的术语或词汇,如医学、企业模拟等。 ( 3 ) 任务本体:定义通用任务或推理活动。它们都可以应用顶级本体中定义的词 汇来描述自己的词汇。任务本体和领域本体处于用一个研究和开发层次。 ( 4 ) 应用本体:描述特定的应用,它既可以应用特定的领域本体中的概念,又可 以引用出现在任务本体中的概念。 2 1 3 本体的建模语言 图2 3 本体分类图( 其中箭头表示特例关系) 文献【3 3 】中定义了一个比较完备的本体,归纳出5 个基本的建模元语为:( c , r ,f ,a ,i ) 。其中: c ( c l a s s c o n c e p t s ) :概念集合,指任何事物,如工作描述、功能、行为、策略和 推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架结构,包括概 念的名称,与其他概念之间的关系的集合,以及用自然语言对概念的描述。 1 0 领域本体构建及其在专利信息服务中的研究与应用第二章本体的相关理论 r ( r e l a t i o n s ) :定义在概念集合上的关系集合。在领域中概念之间的交互作用,形 式上定义为n 维笛卡尔积的子集:r :qxq q 。如子类关系( s u b c l a s s o o 。在 语义关系对应于对象元组的集合。 f ( f u n c t i o n s ) :一类特殊的关系。该关系的前n 1 个元素可以唯一决定第n 个元素。 形式化的定义为f :q x q q 。一g 。如m o t h e r - o f 是一个函数,那么 m o n l e r - o 坟x ,y ) 贝i j 表示y 是x 的母亲。 a ( a x i o m s ) :谓词逻辑集合代表永真断言。 i ( i n s t a n e e s ) :概念的实例,代表元素。从语义上讲实例表示的就是对象。 真正完整的本体必须具备上述的建模元语,但是,对于基本的本体,可以只包括 概念以及概念间的关系。在本文中,专利信息服务平台中构建的领域本体是基本的本 体,因此,领域本体构建的任务包括领域概念的获取和概念间关系的获取。 2 1 4 本体的描述语言 本体描述语言用于描述本体,为了给用户提供领域概念模型的清晰且形式化的概 念描述,它应该满足以下要求【蚓: ( 1 ) 良好定义的语法( aw e l l - d e f i n e ds y n t a x ) ( 2 ) 良好定义的语义( aw e l l d e f m e ds e m a n t i c s ) ( 3 ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) ( 4 ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) ( 5 ) 表达的方便性( c o n v e n i e n c eo f e x p r e s s i o n ) 2 0 世纪9 0 年代以来,诞生了许多种本体描述语言,可以简单地归为两类: ( 1 ) 基于a i 的本体实现语言有:k i f 、o n t o l i n g u a 、c y c l 、l o o m 、o c m l 、f l o g i c 等。k i f 是美国国家标准,但是它没有被广泛应用于互联网,作为一种交换格式更多 地应用于企业级。 ( 2 ) 基于w e b 的本体语言( 也称为本体标记语言) 有:s h o e 、x o l 、r d f 、r d f s 、 o i l 、d a m l 、d a m l + o i l 、o w l 等。其中s h o e 是基于h t m l ,在h t m l 上的一 个扩展。而其他语言之间有着密切的联系,是w 3 c 的本体语言栈中的不同层次,都 是基于x m l 的。 由于本文中领域本体的构建基于网络的专利信息服务平台,因此这里详细研究基 第二章本体的相关理论 领域本体构建及其在专利信息服务中的研究与应用 于w e b 的本体语言。图1 是基于w e b 的本体语言的发展历程和相互关系,图2 是 w 3 c 的本体语言栈。 d o b l i n e 图2 1 基于w e b 的本体描述语言的发展 图2 - 2 w 3 c 的本体语言栈 1 s h o e t 3 5 】 s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n s ) 马里兰大学计算机系提出。它是简单 h t m l 的本体扩展,是一种与x m l 一致的互联网知识表达语言,使得网页编辑者可 以对他们的互联网文档进行标注。s h o e 是h t m l 的一个超集,它扩展了一些标记, 使得在h t m l 中可以增加任意的语义数据。它扩展的标记有两类,一类用于创建本 体,一类用于注解文档。s h o e 使得a g e s 能够收集有意义的w 曲页面和文档信息, 改善搜索机制的知识收集,该过程主要包括3 个阶段:一是定义本体,二是用本体信 息注释h t m l 页面以描述自身和其它页面,三是通过搜索所有现存页面和保持信息 更新,用a g e n t 在语义层面检索信息。 领域本体构建及其在专利信息服务中的研究与应用 第二章本体的相关理论 2 x o l | 3 6 1 x o l ( x m l - b a s e do n t o l o g y e x c h a n g el a n g u a g e ) 是斯坦福研究所触研究中心的 b i o i n f o r m a t i c sr e s e a r c hg r o u p 提出的一种基于x m l 的本体交换语言。x o l 设计之初 是为生物信息学领域本体的交换,但是它可以应用于各种领域。它是一种简单通用的 定义本体的方法,基于x m l 和r d fs c h e m a 有两种变体,其目的是在不同的数据库、 本体开发工具、或者其他应用程序之间进行本体交互。 3 r d f 、r d f s t 3 7 】 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,即资源描述框架,是w 3 c 在x m l 的基 础上制定出的一种标准,用于描述网络上各种资源。r d f 提出了一个简单的模型用 来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。 节点用来表示w e b 上的资源,弧用来表示这些资源的属性。因此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论