(计算机应用技术专业论文)专利信息检索系统中本体半自动构建的研究与应用.pdf_第1页
(计算机应用技术专业论文)专利信息检索系统中本体半自动构建的研究与应用.pdf_第2页
(计算机应用技术专业论文)专利信息检索系统中本体半自动构建的研究与应用.pdf_第3页
(计算机应用技术专业论文)专利信息检索系统中本体半自动构建的研究与应用.pdf_第4页
(计算机应用技术专业论文)专利信息检索系统中本体半自动构建的研究与应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)专利信息检索系统中本体半自动构建的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专利信息检索系统中本体半自动构建的研究与应用摘要 摘要 本体具有良好的概念层次结构、支持逻辑推理,因而在信息检索领域得到了越来 越广泛的应用,大大提高了信息检索的查全率和查准率。在此研究背景下,本文针对 本体的半自动构建进行了深入研究,目的在于构建一个可应用于专利检索系统中的领 域本体,通过本体在系统中的应用来提高系统检索效率、增强与用户的交互性以及实 现专利情报的发现。本文主要工作内容如下: 首先,通过对国内外著名专利检索系统的调研,总结得出专利检索系统尚可进一 步完善的三个方面:检索效果、与用户的交互性、专利情报发现,确立了在专利系统 中构建并应用本体的目标。 然后,提出了一种构建专利领域本体的方案,对本体构建的难点问题概念的 获取、概念间关系的获取提出了解决方案,设计了专利检索系统中本体的半自动构建, 按照本体构建的顺序将系统分为三大功能模块:构建本体雏型模块、概念发现模块、 关系发现模块,对这三个模块进行了设计并实现。在本体半自动构建的概念抽取过程 中,提出了单个词语在多个文档中权重计算的解决方法,用以计算获得领域内专利信 息的主要特点特征。 在已有专利检索系统的基础上设计并实现了基于本体的专利检索,最后通过对基 于本体的语义检索方式与基于关键字匹配的检索方式进行检索效果对比,前者检索结 果的查全率、查准率比后者有所提高,在结果显示、专利情报发现方面也有所改进, 实验证明本文所提出的本体半自动构建方案可行,本体在检索系统中的应用在一定程 度上完善了系统。 关键字:本体半自动构建,概念发现,关系发现,语义相似度,专利本体,语义检索 作者:伊雯雯 指导教师:孙涌 a b s t r a c tr e s e a r c ha n da p p l i c a t i o n o f o n t o l o g ys e m i a u t o m a t i cc o n s t r u c t i o ni np a t e n ti n f o r m a t i o nr e t r i e v a ls y s t e m a b s t r a c t a so n t o l o g yh a sag o o dc o n c e p th i e r a r c h i c a ls t r u c t u r ea n ds u p p e r st h el o g i cr e a s o n i n g ,i t o b t a i n e dm o r ea n dm o r ew i d e s p r e a da p p l i c a t i o ni nt h ei n f o r m a t i o nr e t r i e v a ld o m a i n ,a n di tr a i s e d t h er e c a l la n dp r e c i s i o no ft h ei n f o r m a t i o nr e t r i e v a lg r e a t l y u n d e rs u c hr e s e a r c hb a c k g r o u n d ,t h i s p a p e rc o n d u c t e dad e e pr e s e a r c ho ns e m i a u t o m a t i cc o n s t r u c t i o no fo n t o l o g y , i no r d e rt oc o n s t r u c ta d o m a i no n t o l o g yw h i c hc a nb ea p p l i e di nt h ep a t e n tr e t r i e v a ls y s t e m ,a n dt or a i s et h es y s t e m r e t r i e v a le f f i c i e n c y , e n h a n c et h ei n t e r a c t i v ew i t hu s e r sa n dr e a l i z et h e d i s c o v e r yo fp a t e n t i n f o r m a t i o nb yt h ea p p l i c a t i o no f o n t o l o g yi ns y s t e m t h em a i n w o r ko f t h i sp a p e ri sa sf o l l o w s : f i r s t l y , t h r o u g ht h ei n v e s t i g a t i o na n ds t u d yo fd o m e s t i ca n df o r e i g nf a m o u sp a t e n tr e t r i e v a l s y s t e m s ,w ec o n c l u d e dt h r e ea s p e c t sw h i c ht h ep a t e n tr e t r i e v a ls y s t e mc a ns t i l lb ef u r t h e r c o n s u m m a t e d :t h ee f f i c i e n c yo fr e t r i e v a l ,t h ei n t e r c o m m u n i o nw i t ht h eu s e r , a n dt h ed i s c o v e r yo f p a t e n ti n f o r m a t i o n b a s e do nt h et h r e ea s p e c t s ,t h et a r g e to fc o n s t r u c t i n ga n da p p l y i n go n t o l o g yi n t h ep a t e n ti n f o r m a t i o nr e t r i e v a ls y s t e mw i t se s t a b l i s h e d s e c o n d l y , t h i sp a p e rp r o p o s e d am e t h o do fc o n s t r u c t i n gt h e p a t e n td o m a i no n t o l o g y s e m i a u t o m a t i c l y , w h i c hs o l v e sd i f f i c u l tp r o b l e m si nt h ep r o c e s so fo n t o l o g ) c o t i n t r a c f i o n :a c q a i li n g c o n c e p t sa n da c q u i r i n gr e l a t i o n s h i p sb e t w e e nc o n c e p t s a no n t o l o g ys e m i a u t o m a t i cc o n s t r u c t i o n s y s t e mi np a t e n tr e t r i e v a ls y s t e mw a sd e s i g n e d t h es y s t e mc a nb ed i v i d e di n t ot h r e em a j o r f u n c t i o n a lm o d u l e sa c c o r d i n gt ot h eo r d e ro fo n t o l o g yc o n s t r u c t i o n ,w a sa c h i e v e d t h et h r e em a j o r f u n c t i o n a lm o d u l e sa r e - c o n s t r u c t i n go n t o l o g yp r o t o t y p em o d u l e ,a c q u i r i n gc o n c e p t sm o d u l e ,a n d a c q u i r i n gr e l a t i o n s h i p sm o d u l e a n di nt h ep r o c e s so fa c q u i r i n gc o n c e p t s ,t h i sa r t i c l ep r o p o s e da m e t h o dt oc a l c u l a t et h ew e i g h to fo n ew o r di nal o to fd o c u m e n t s a tl a s t , t h i sa r t i c l ed e s i g n e da n dr e a l i z e dt h ep a t e n ti n f o r m a t i o nr e t r i e v a lb a s e d - o no n t o l o g y t h i sp a p e rp r o p o s e dt h ed e s i g nm e t h o do ft h er e t r i e v a lm o d u l e ,a n dr e a l i z e dt h es e m a n t i cr e t r i e v a l b a s e do no n t o l o g yw i t hj e n a , w h i c hi sad e v e l p m e n tt o o lo fo n t o l o g ya p p l i c a t i o n c o m p a r i n gt h e o n t o l o g y b a s e ds e m a n t i cr e t r i e v a lm e t h o dw i t hk e y w o r dm a t c h i n gs e a r c h i n gm e t h o d ,w ef i n dt h a t f o r m e r sr e t r i e v a lr e s u t ti sb e t t e rt h a nt h el a t t e ri nt h er e c a l la n dt h ep r e c i s i o no fr e t r i e v a l t h e r e s u l t ss h o wt h a tt h ef a c e to fp a t e n ti n f o r m a t i o nf i n d i n gh a sa l s ob e e ni m p r o v e d t h ee x p e r i m e n t s p r o v et h a tt h em e t h o do fo n t o l o g ys e m i - a u t o m a t i cp r o p o s e db yt h i sp a p e ri sf e a s i b l e ,a n d a p p l i c a t i o no fo n t o l o g yi nt h er e t r i e v a ls y s t e mp e r f e c tt h es y s t e mt os o m ee x t e n t k e y w o r d s :s e m i a u t o m a t i cc o n s t r u c t i o no fo n t o l o g y , a c q u i r i n gc o n c e p t s ,a c q u i r i n gr e l a t i o n s h i p , p a t e n to n t o l o g y , s e m a n t i cr e t r i e v a l w r i t t e nb y :y iw e n w e n s u p e r v i s e db y :s u ny o n g 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所 取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体己经发 表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使 用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式 标明。本人承担本声明的法律责任。 研究生签名:碑重复 同期:坦坚宣查旦i 届 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国 社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可 以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的 内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包 括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办 办理。 研究生签名:么辜鲤 r期:丞砌f 也 导师签名:1 晰闩 期:逮哑琶妇豳 专利信息检索系统中本体半自动构建的研究与应用第一章绪论 1 1 课题研究背景 第一章绪论 1 1 1专利信息检索的重要性 专利文献集技术、法律和经济信息于一体,是一种数量巨大、内容广博的战略性 信息资源,它传播着最新的技术信息,它是带动经济发展和产生经济效益的根本要素。 根据世界知识产权组织的统计,专利文献含有世界每年发明创造成果的9 0 - - 一9 5 , 世界每年的申请量以1 0 0 多万件的速度递增,目前累计总量已近4 0 0 0 万件。充分利 用这些专利文献进行技术创新能够节约6 0 的时间,节省4 0 的科研资金投入【l 】。 通过专利检索,企业既可以从大量的专利文献或专利数据库中挑选出符合某一特 定要求的专利文献或信息,并加以分析处理和利用,又可以了解引进和受让的无形资 产的专利信息,做到对自身和别人的无形资产价值心中有数,在合资合作中避免可能 的估价损失。对专利信息的有效检索、科学分析以及研究已经成为企业提高自主创新 能力和核心竞争力的必备条件。企业在开发新产品、。技术难题攻关、进行技术贸易、 引进专利技术前,进行必要的专利检索具有非常重要的意义,尤其是在我国加入w t o 后,w t o 的有关知识产权的t r i p s 协议业已生效,国内企业只有充分认识到知识产 权的重要性,并在实际的生产和经营活动中加以有效利用,方能在激烈的市场竞争中 立于不败之地。随着计算机与网络技术的飞速发展,可通过i n t e m e t 检索的专利数据 库以及与专利有关的各种信息越来越丰富,利用i n t e m e t 进行专利信息检索,已成为 获取专利信息的主要手段和一种新的趋势。 1 1 2 国内外著名专利的检索系统 国内外已经有许多著名的专利检索系统,如下: ( 1 ) 欧洲专利局专利检索系统e s p c e n e t 2 e s p c e n e t 是综合性的检索网站,也是目前最常使用的免费专利检索数据库。该 检索系统提供了包括欧洲专利局、欧洲专利组织各成员国出版的欧洲专利数据库、世 界知识产权组织出版的p c t 专利数据库、世界专利数据库以及日本专利英文文摘。 欧洲专利数据库提供了最近两年欧洲专利机构公开的专利;p c t 专利数据库提供了最 近两年世界知识产权组织公开的专利,目前该数据库收录的专利文献量已超过4 2 0 4 万条,可检索世界上7 1 个国家、地区及专利组织的专利信息。 第一章绪论专利信息检索系统中本体半自动构建的研究与应用 ( 2 ) 美国专利商标局专利检索系统u s p t o 3 1 u s p t o 是美国专利商标局的网上免费专利数据库,提供了自1 7 9 0 年以来的所有 美国专利信息。其中,1 9 7 6 年1 月至今的专利数据可以进行全文检索;1 7 9 0 年 一1 9 7 5 年1 2 片的专利数据,只提供专利号和美国专利分类号的检索。 ( 3 ) d e l p h i o n 知识产权网1 4 1 通过该网站可检索以下专利信息:美国授权专利和申请专利由美国专利局提 供1 9 7 1 年至今的原文目录、全文和全文图像;欧洲授权专利和申请专利由欧洲 专利局提供的1 9 7 9 年至今的欧洲申请专利和1 9 8 0 年至今的欧洲授权专利的原文题 录、全文图像;日本专利文摘由日本专利信息组织提供的1 9 7 6 年至今的日本专 利原文题录和典型图像;w i p op c t 出版物由世界知识产权组织提供的1 9 9 0 年 至今的1 0 0 多个成员国的专利文摘和全文图像;德温特世界专利索引由德温特公 司提供的1 0 0 0 万条发明专利和2 0 0 0 万条基本专利与相同专利。 ( 4 ) 世界知识产权组织专利数据库w i p o 5 j w i p o 网上专利检索数据库收录了自1 9 9 7 年以来的p c t 国际专利,包括专利说 明书扉页的所有内容。1 9 9 7 年1 月之前的说明书只能进入欧洲专利局网上专利检索 系统的w o r l d w i d e 进行检索。用户在使用前,需先注册,然后才能进行专利检索。该 数据库检索功能较强,支持布尔逻辑组配及短语,在s t r u c t u r e d s e a r c h 页面中,检索 字段下拉式菜单提供多种检索字段供用户选择。一次检索结果可选择显示1 0 条、2 5 条或5 0 条记录,点击所选记录会显示该专利扉页中的所有内容,包括文摘及附图。 ( 5 ) 英国d e r w e n t 专利数据库 6 1 这是英国d e r w e n t 公司出版的世界专利索引( w p r ) 数据库,共有7 0 0 多万条 数据,主要收集工业化国家的专利,覆盖了3 7 个国家和2 个国际专利组织。采用国 际专利分类法编制专利分类体系,内容为英文的著录项目、数据和摘要,并有向用户 提供国际专利拷贝服务和世界上各主要机构发布的专利说明书国际专利拷贝服务,可 向用户提供世界上各主要机构发布的专利说明书。 ( 6 ) 日本专利局数据库j p o f f l j p o 的专利信息数据库提供英文、日文两种文字的检索界面,可供公众免费检索 日本专利局数据库中的专利信息。该数据库由专利文献( 说明书) 图像、书目数据以及 专利文献的文本组成,其中,书目数据和文本数据可以进行检索,说明书图像不能被 检索,但通过对书目数据和文本数据检索时所命中的专利列表,可调出相应的专利说 明书的图形文件查看和下载。 2 专利信息检索系统中本体半自动构建的研究与应用 第一章绪论 ( 7 ) 德国专利商标局d e p a t i s n e t 数据库【8 】 d e p a t i s n e t 是德国专利商标局在i n t e m e t 上的专利信息系统,可以在线免费检索 覆盖世界范围的专利,提供德、英两种语言检索。该专利检索系统提供五种检索方式, 支持a n d 、o r 、n o t 三种布尔运算符,支持“? 、拌、! ”3 种通配符。 ( 8 ) 中华人民共和国国家知识产权局专利检索系统s i p o t 9 】 该系统由中国国家知识产权局( s i p o ) 主办,收录了我国自1 9 8 5 年实施专利制度 起到前一周止的发明专利、实用新型专利和外观设计专利的所有专利公报、专利申请 说明书全文、权利要求书及附图等,免费提供检索服务。系统提供全部专利、发明专 利、实用新型专利和外观设计专利检索等4 种检索入口,既可对全部专利进行检索, 也可分别对发明专利、实用新型专利和外观设计专利进行检索。 ( 9 ) 中国知识产权网专利检索系统【l o 】 该网站由国家知识产权局知识产权出版社主办,网上有中国专利、中国商标和中 国版权的详细介绍,同时可进行国内外专利信息的检索。其中的中国专利检索系统收 录了1 9 8 5 年以来我国所有的专利文献,包括发明专利、实用新型专利、外观设计专 利。该系统提供了申请专利号、专利名称、申请日、分类号等多个检索入口,检索 方式有字段检索、二次检索、表达式检索。 表1 1 比较了国内外著名专利信息系统提供的数据库、检索方式、检索入口以及 支持的逻辑运算符。通过对国内外著名专利检索系统的调查研究,总结了系统也以进 二步完善的三个方面: ( 1 ) 检索效果:目前广泛使用的专利信息检索系统,主要采用基于关键字匹配的 检索方式。这种方式好处是易于实现,但却容易造成信息冗余和信息丢失等问题; ( 2 ) 结果显示:结果的显示方式简单,专利信息的特点是数据量大、类别多,特 别是当检索范围大、返回结果多时,用户只能按页逐条查找,与用户的交互性不高; ( 3 ) 专利情报发现:用户查询专利信息的最终目标是通过分析查询结果获得有效 专利情报、竞争对手等信息,专利情报发现功能需要进一步完善。 1 1 3专利信息检索的发展趋势 专利信息检索要想完全发挥其重要作用,在于建立一种更有利于交流与对话的机 制,排除一切平台和语言的分歧,以自由、平等、开放的原则,以人们对现实世界的 一致理解为基础,为人们提供一种全新的高质量的信息服务。因此,有必要以一种更 加形式化的方式表示专利数据,使数据携带语义信息,并提供相应的处理方法。 本体论刻画了事物之间的内在联系,借助本体论,可以使信息的检索更能满足用 第一章绪论专利信息检索系统中本体半自动构建的研究与应用 户的需求。本体论具有较好的逻辑推理功能,对于用户给出的检索词,利用本体论的 逻辑推理功能,判断其所属的可能领域,然后分别将该领域及其属下的相关概念与定 义以本体化的形式提供给用户。这样一方面可以帮助用户明确其信息需求,把未意识 到的、未清晰表达的客观信息需求进一步显性化;另一方面让系统确定检索词在本体 论中的确切位置,从而帮助机器理解用户的检索意图,为用户提供更精确、更相关的 知识与信息。 本体在信息检索领域己经得到了广泛的应用,将本体应用于专利检索也将成为一 种趋势,构建一个能够反映专利特点的专利本体是引导这个趋势发展的先决条件。 表卜1 国内外著名专利检索系统的比较 专利检索系统专利数据库检索方式检索入口 逻辑运算符 w b r l d w i d e 、e p 、w i p o 4 种( q u i c k 、 a n d 、o r 、 e s p c e n e t a d v a n c e 、1 1 个 ( 可选)n o t ( 必须大写) n u m b e r 、i p c ) i s s u e dp a t e n t s 、p u b l i s h e d 3 种( q u i c k 、 a n d 、o r 、 u s p t oa d v a n c e 、p a t e n t3 1 个a n d n o t ( 必须大 a p p l i c a t i o n ( 可选) n u m b e r ) 写) 5 种( 初级、专家、 d e b 盯i s n e t 世界范围内的专利i k o f a x 、援助、2 5 个 a n d 、o r 、n o t 同族专利) 3 种( s e a r c h 、 w p i 、德温特专利创新索 g e n e r a l d e r w e n t 弓、国际联机检索系统中的 s e a r c h 、c i t e d 1 6 个 a n d 、0 r 、n o t 、 s e n t 、s a 皿 德温特数据库r e f e r e n c e s e a r c h ) 4 种( q u i c k n u m b e r 、a n d 、o r 、 d e i p h i o n 美国、欧洲、日本、w i p o 2 0 个 b o o l e a n 、a n d n o t a d v a n c e ) a n d 、0 r 、 w i p op c t 国际专利 1 种( 表格) 2 7 个 a n d n o t 、x o r 、 n e a r 中国专利( 三种专利类型, a n d 、o r 、n o t 、 可选) 、外国专利( 美国、日 x o r 、a d j 、 c n i p r 2 种( 表格、逻辑) 1 8 个 本、英国、德国、法国、欧 e q u 1 0 、x o r 1 0 、 专局、w i p o 、瑞士,可选) p r e 1 0 4 专利信息检索系统中本体半自动构建的研究与应用第一章绪论 1 2 课题研究现状 1 2 1 国内外研究现状 ( 1 ) 本体的构建 当前本体构建,大都是由领域专家根据相关经验、知识利用本体编辑工具手工编 辑而成。目前已有的o n t o l o g y 编辑工具主要有两类,一类为基于a i 的本体描述语言 的工具,包括o n t o l i g u a 1 1 1 、o n t o s a u r u s 12 1 、w e b o n t o 1 3 】;另一类为基于w e b 的本体 描述语言的工具,包括p r o t 6 9 6 1 4 1 、w e b o d e l l5 1 、o m o e d i t 1 6 1 、o i l e d t l 7 1 。领域专家通 过使用本体编辑工具进行本体构建,其存在工程复杂、专家依赖性强、本体构建速度 慢等不足,限制了本体的应用与发展。 当前国内外许多研究团体已经致力于本体的自动、半自动构建方法的研究。 s c a s t a n o 1 8 】提出了通过解析x m ls c h e m a 文件,如d t d ,d s d ,x m ls c h e m a 等, 进而抽取x m l 文件中的概念,以此构建本体;p a t r i c kc l e r k i n 等【1 9 】提出通过层次聚 类,发现其中概念,进而构建本体;s o p h i el em o i g n o 等【2 0 】针对特定的领域医疗 领域中的医疗诊断书,根据医疗诊断书中的动名词关系、句法上下文关系,再辅以词 频统计,进行概念和关系诊断,以此来构建本体;a d a mf a r q u h a r 等【2 1 】提出了通过合 并已有本体来自动产生新的本体的设计模型。 综合现有的本体构建方法,大致有三种思路:自顶向下法、自底向上法、中间扩 展法。三种方法有共同点,同时也各具特色。这三种方法提供了本体自动构建的大致 思路,在实际工作中还存在着很多具体的细节问题:概念发现、关系发现、术语的描 述性问题等,真正从零开始完全自动的构建本体难度很大。考虑到概念发现和关系发 现都需要知识库的辅助作用,因此在本文中提出了基于词典的本体半自动构建方案, 将在第三章详细阐述。 ( 2 ) 本体在信息领域的应用 本体作为一种能在语义和知识层次上描述信息系统的概念模型的建模工具,得到 了国内外的广泛关注,尤其是在国外,许多研究组织和机构都研究建立了各种各具特 色的本体。关于本体的应用还处在雏型阶段,没有统一的定义和固定的应用领域。本 体的研究遍布人工智能、信息管理、信息检索、知识管理、数字图书馆、软件复用等 相关的各个领域。本体在信息检索领域的研究十分广泛,各国计算机相关领域研究者 开始把本体技术应用到信息系统开发当中来,所开发的系统包括s c o r e ,o e d s e w , t i m e 2 s e a r c h ,r d fg a t e w a y ,o b s e r v e r ,p i c s e l ,o n t o b r o k e r ,k a o np o r t a l , 第一章绪论专利信息检索系统中本体半自动构建的研究与应用 s y d o m ,o n t o s e e k 等。 国内的研究相对来说比较分散,在通用性问题的解决和研究深度两个方面与国外 有一定差距,实际应用也较少。尽管如此,在农业领域方面还是迈出了实质的步伐, 中国农业科学技术文献中心曾2 0 0 2 年和2 0 0 3 年两次派员参与联合国粮农组织发起的 “农业本体论服务”研究项目,其中建立的“多语农业术语汇编”系统提供了具有一 定语义特征的农业词汇查询。中国农业大学的赵庆龄在2 0 0 3 年针对农业领域知识, 建立了土壤领域知识体系,并在基础上开发了基于网络的农业科技信息智能检索系 统。除此之外,在其他领域国内许多研究学者也展开了相关的研究,如顾慧翔等人设 计了一个基于本体和一阶谓词推理的铁路信息查询系统 2 2 1 ,梁邦勇等人开发的 w o d o s ( w 曲o r i e n t e dd i s t r i b u t e do n t o l o g ys y s t e m ) 系统【2 3 l 一基于本体的语义w 曲 知识处理平台,潘明阳等人提出了一个航海信息本体构建的简单方法框架【2 4 】,等等。 1 2 2已取得的研究成果 本课题的研究是以苏州大学智能信息研究所开发的基于v l d b 集群计算的智 能专利信息服务系统项目为背景。该系统将中国、美国、英国、法国、瑞士、德国、 日本、俄罗斯、国际专利合作条约组织和欧洲专利局等七国两组织的所有专利信息数 据结构进行剖析,统一存储到o r a c l e 数据库中,在此基础上为用户提供有效的检索、 归类、分析与统计等服务。系统共分为五大子系统包括:专利信息查询、专利信息统 计分析、会员信息管理、数据管理、其他个性化服务等,支持专利信息的在线浏览以 及下载,提供了申请专利号、专利名称、申请日、分类号等2 0 个检索入口。苏州大 学智能信息研究所将本体应用于专利信息检索系统的研究从2 0 0 6 年已经开始,并且 已经初具成效【2 5 j 。 在以上工作的基础上,针对专利信息的特点,作者提出了一种在专利信息领域中 基于词典的本体半自动构建方案,利用数据挖掘相关技术从某一领域中专利的摘要、 发明名称信息中挖掘得到该领域专利产品的特征词作为构建本体的概念词语,建立概 念间的关联关系最终构成专利信息上的领域本体。所构建的本体不仅可以较好的反应 该领域专利产品的主要特征、概念之间关联关系,而且能够反映出当前该领域内的热 门专利产品,因此可以为用户提供一定的专利情报信息。在此研究的基础上完成了论 文t h ea p p l i c a t i o na n dr e s e a r c ho fo n t o l o g yc o n s t r u c t i o nt e c h n o l o g y ) ) 于2 0 0 8 年1 月在a d e l a i d e ,a u s t r a l i a 召开的2 0 0 8 w o r k s h o po nk n o w l e d g ed i s c o v e r ya n dd a t a m i n i n gp r o c e e d i n g s 发表。 6 专利信息检索系统中本体半自动构建的研究与应用 第一章绪论 1 3本文主要研究内容 本文以专利信息检索系统为例对本体的半自动构建展开深入研究,并将构建的本 体应用于专利信息检索系统中。实验证明,本体的应用对专利检索系统中检索效果、 结果显示、情报发现都在一定程度上有所完善。 本文的主要研究内容如下: 首先,通过对国内外著名专利检索系统的调研,总结得出专利检索系统尚可进一 步完善的三个方面:检索效果、结果显示、专利情报发现,确立了在专利系统中构建 并应用本体的目标。 然后,为了能够改善人工构建本体过程中对专家依赖性大、效率低、不易更新等 问题,提出了一种构建专利领域本体的方案,对本体构建的难点问题概念的获取、 概念间关系的获取提出了解决方案。按照解决方案,在专利检索系统中对本体半自动 构建系统进行了体设计,按照本体构建的顺序将系统分为三大功能模块来实现:构建 本体雏型模块、概念发现模块、关系发现模块,对这三个模块进行了设计并实现。在 本体半自动构建的过程中,提出了词语在多文档中权重计算的解决方法。 最后,本体半自动构建成够后,将本体应用于专利检索系统中,设计并实现了基 于本体的专利检索,给出了检索模块的设计思路。通过对基于本体的语义检索方式与 基于关键字匹配的检索方式进行检索效果对比,前者检索结果的查全率、查准率比后 者有所提高,在结果显示、专利情报发现方面也有所改进,实验证实本文所提出的本 体半自动构建方案可行,将本体应用与检索系统在一定程度上更加完善了系统。 1 4 课题研究的目标和意义 1 4 1 本课题研究的目标: 在专利检索系统中以半自动的方式构建专利的领域本体,减少以往手工编辑本体 时对领域专家的依赖,可以减少人工的工作量,并且易于后期的维护与更新。所构建 的本体能够体现该领域内专利产品的特征、产品之间的联系、支持概念间的语义关联。 本体建成后,将其应用于专利检索系统中,实现基于本体的语义检索,提高专利检索 的查全率、查准率,结果按照专利信息特点以分类导航形式返回,为用户提供可以交 互的界面,方便用户查阅。实现专利情报发现,为用户提供竞争对手的相关信息及其 产品信息。 7 第一章绪论专利信息检索系统中本体半自动构建的研究与应用 1 4 2 本课题研究的主要意义: 本课题主要研究本体的半自动构建及其在专利检索系统中的应用,提出了一套本 体半自动构建的方案,减少本体建模过程中对领域专家的过分依赖,减少专家的工作 量,加快本体构建速度,并且方便本体的不断完善以及更新。本文构建的本体基于确 定领域内的专利信息,是该领域专利产品特征的直接反映,当领域内专利信息变化时, 可以通过执行半自动构建的过程使本体随之更新。基于本体的专利检索系统不仅支持 语义检索,还提供给用户相关专利分析、竞争对手信息,一定程度上弥补了人工专利 耗时长、效率低等不足,将检索结果以导航形式输出给用户,方便用户的查询与分析, 进一步提高了专利信息的利用价值。 1 。5 论文的组织结构 本文共分为六章,每一章的具体内容如下: 。第一章为绪论部分。本章简单介绍了专利及专利信息检索的重要性,分析了国内 外著名的专利检索系统以及专利信息检索的发展趋势和本体在专利检索领域的研究 现状,在此基础上提出了本课题的意义及主要研究内容,然后给出了本文的组织结构。 第二章为本体相关技术及其应用。本章首先介绍本体的定义及主要应用,然后详 细介绍了本体的分类、本体的构建发明和构建工具、本体的主要描述语言以及本体的 半自动构建技术,详细介绍了基于h o w n e t 的本体半自动的构建过程,为下文的研究、 设计提供了充分的理论基础和技术支持。 第三章分析了专利信息的特点,提出了一种专利系统中本体半自动构建的方案, 对本体半自动构建系统进行了总体以及各个功能模块的设计,并实现了本体的半自动 构建这个过程。 第四章将第三章构建的本体应用于专利信息检索系统,实现基于本体的语义扩展 检索。设计了一个检索的完整流程并给出了其效果演示,通过与基于关键字匹配方式 检索系统进行的一系列对比,得出结论,基于本体的语义检索提高了查全率、查准率, 检索结果人性化显示,可以实现一定程度的专利情报发现。 第五章为总结和展望。本章对本文所做的工作与贡献进行了总结,并且指出了进 一步完善该系统需要解决的若干问题以及今后的发展方向。 专利信息检索系统中本体半自动构建的研究与应用第二章本体半自动构建的理论与技术 第二章本体半自动构建的理论与技术 随着对本体理论及应用的深入研究,本体的构建方式越来越受到国内外相关学者 的关注。手工构建本体存在专家依赖性强、工作量大、不容易及时更新等问题,在构 建大规模本体时这些弊端尤为突出。目前还无法实现完全自动化构建本体,主要是因 为人4 t l 还尚未完全解决构建本体的三大技术关键也是难点问题n 司:概念的获取、概念 问关系的获取、本体术语的描述。由于本体自身的复杂性和严格的建模要求,使得构 建过程离不开专家的参与n7 1 ,这种情况下,需要利用一些现有的技术尝试半自动的构 建本体,以达到尽可能的降低构建过程中对人工的依赖性、减少繁重工作量的目的。 2 1本体论 2 1 1本体的定义 本体论( o n t o l o g y ) 【2 8 】【2 9 】p o 是源于哲学的一个概念,也称为“本根论 。本体是深 究天地万物的产生、存在、发展、变化的根本原因和根本依据的学说,它是描述概念 及概念之间关系的概念模型,通过概念之间的关系来描述概念的语义。早在1 9 9 1 年, n e c h e s 等人就给出了本体的定义,本体是构成相关领域词汇的基本术语和关系,以 及利用这些术语和关系构成的规定这些词汇外延的规则。1 9 9 3 年,g r u b e :给出一个 最为流行的定义,即o n t o l o g y 是概念模型的明确的规范说明。b o r s t 在1 9 9 7 年给出 o n t o l o g y 的另外一种定义:o n t o l o g y 是共享概念模型的形式化规范说明。 而后s t u d e r 等对上述两个定义进行了深入地研究,认为o n t o l o g y 是共享概念模 型的明确的形式化规范说明。这包含4 层含义:概念模型、明确、形式化和共享。 “概念模型 是指通过抽象出客观世界中一些现象的相关概念而得到的模型。 概念模型所表现的含义独立于具体的环境状态。“明确”指所使用的概念及使用这些 概念的约束都有明确的定义。“形式化 指o n t o l o g y 是计算机可读的( 即能被计算机处 理) 。“共享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概 念集,即o n t o l o g y 针对的是团体而非个体的共识。 本体是描述某一领域内的领域共享概念模型的明确的形式化规范说明。这里的领 域共享概念模型是对某一领域内的“领域知识”的概念化,即对某一领域“领域知识 的抽象和简化。 9 第二章本体半自动构建的理论与技术专利信息检索系统中本体半自动构建的研究与应用 2 1 2本体的分类 本体的类型【3 l j 有很多,根据本体的主题大致可以分为如下几种类型: ( 1 ) 领域本体,包含特定领域的相关知识,提供特定领域概念定义和概念之间的 关系,提供该领域中发生的活动及主要理论和基本原理等,如企业本体、医学概念本 体等; ( 2 ) 通用本体,覆盖多个领域,如c y c ,中科院“常识知识的实用研究 中结合 的a g e n t 和本体的知识库等; ( 3 ) 表示本体,提供了用于描述事物的实体; ( 4 ) 任务本体,主要涉及动态知识,上述本体主要涉及静态知识,任务本体包含 了特定领域建模的全部知识,主要研究可共享的问题求解方法,其实质是从推理和问 题求解的角度刻画领域知识,有助于解决领域知识不能以与其使用方式无关的形式表 示问题,对知识库系统的重用和组件化的开发十分重要。 除了上面所提到的本体以外,还有语言学本体,语言学本体是关于语言、词汇等 的本体。为了对本体进行有效的分类,g u a f i n o 2 8 1 提出以详细程度和领域依赖度两个 维度作为对本体划分的基础。详细程度是相对的、较模糊的一个概念,指描述或刻画 建模对象的程度。详细程度高的称作参考本体,详细程度低的称为共享本体。依照领 域的依赖程度,可以细分为项级本体、领域本体、任务本体和应用本体等4 类。在这 四类本体中,顶级本体描述的是最普通的概念及概念之间的关系,如空间、时间、事 件、行为等等,与具体的应用无关,其他种类本体都是该类本体的特例。领域本体描 述的是特定领域( 医药、汽车等) 中的概念及概念之间的关系。任务本体描述的是特定 任务或行为中的概念及概念之间的关系。应用本体描述的是依赖于特定领域和任务的 概念及概念之间的关系。1 9 9 9 年,p e r e z 和b e n j a m i n s 在分析和研究了各种o n t o l o g i e s 分类法的基础上,归纳出1 0 种本体:知识表示本体、普通本体、项级本体、元( 核心) 本体、领域本体、语言本体、任务本体、领域任务本体、方法本体和应用本体。这种 分类法是对g u a r i n o 提出的分类方法的扩充和细化,但是这1 0 种本体之间有交叉, 层次不够清晰。 2 1 3 本体描述语言 本体主要是面向计算机的,因此,在描述手段上更加强调明确而无歧义。近年来, 为了适应w e b 的开放性,本体描述语言的发展历经了r d f 、r d f s 、o i l 、d a m l o n t 、 o i l + d 舭、o w l 。与传统的基于人工智能的本体描述语言相比,这些语言的共同 l o 专利信息检索系统中本体半自动构建的研究与应用第二章本体半自动构建的理论与技术 点都是基于x m l 的。虽然在实际中这些语言都体现了本体的基本结构,但是它们在 表达能力上仍然有许多差别。下面对其中应用较广的几种做简单介绍: r d f 3 2 1 3 3 1 ,r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架,是w 3 c 在x m l 的 基础上推荐的一种标准,其提出了一个简单的模型用来表示任意类型的数据。这个数 据模型由节点和节点之间带有标记的连接弧所组成。节点用来表示w e b 上的资源, 弧用来表示这些资源的属性。这个数据模型可以方便的描述对象( 或者资源) 以及它们 之间的关系。r d f 的数据模型实质上是一种二元关系的表达,由于任何复杂的关系 都可以分解为多个简单的二元关系,因此r d f 的数据模型可以作为其他任何复杂关 系模型的基础模型。w 3 c 推荐以r d f 标准来解决x m l 的语义局限。 d a m l 【3 4 】,d a m l ( d a r p a a g e n tm a r k u pl a n g u a g e ) ,该项目正式开始于2 0 0 0 年8 月,由美国国防高级研究计划局支持,其提出的原因是由于一批支持语义互联网的研 究者发现x m l 、r d f 作为模式语言其表达能力很有限,希望开发一种有更强的表达 能力的模式语言,为语义互联网提供支持。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论