(计算机应用技术专业论文)基于本体论及lucene的电子公文检索系统.pdf_第1页
(计算机应用技术专业论文)基于本体论及lucene的电子公文检索系统.pdf_第2页
(计算机应用技术专业论文)基于本体论及lucene的电子公文检索系统.pdf_第3页
(计算机应用技术专业论文)基于本体论及lucene的电子公文检索系统.pdf_第4页
(计算机应用技术专业论文)基于本体论及lucene的电子公文检索系统.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 电子政务是政府在国民经济和社会信息化的背景下,以提高政府办公效率, 增加透明度,改善决策和投资环境,强化经济和社会的有效管理,提高法制治理 水平为目标,将政府的信息发布、管理、服务、沟通功能向国际互联网上迁移的 系统解决方案。 随着电子政务的推广,各个部门产生的电子公文越来越多,如何对这些电子 公文进行有效的管理并能够提供有效的检索机制,以保证用户能够随时快速全面 地从这些公文中找到所关心的内容,日趋显得重要。在电子政务领域,为了对产 生的大量公文进行管理,各部门大都采用了文件管理系统,通过关键词匹配来进 行文件检索,这种检索方式的最大缺点在于无法了解用户所输入的查询关键词的 语义,所以如果能够理解用户所输入的查询关键词的语义将有效地提高检索的查 全率和查准率,从而更好地满足用户的查询要求。 为了解决上述问题,本研究在传统的公文检索方式的基础之上,提供一种导 航式检索,这种检索方式可以根据用户输入的查询关键词进行推理,然后给出与 此查询相关的一些查询建议供用户选择,由此来提高检索的查全率和查准率,提 高其平均性能。 本研究采用s t a n f o r d 大学的本体开发工具p r o t 6 9 6 3 2 b e t a 对电子政务领域的电 子公文进行表示,采用o w l - d l 作为本体的描述语言,推理引擎采用j e s s ( j a v a e x p e r ts y s t e ms h e l l :j a v a 专家系统内核) ,并利用j e s s t a b 来完成p r o t 6 9 6 与j e s s 之间的连接,对于全文检索则采用l u c e n e 作为搜索引擎内核。由于本研究是以江 西财经大学校内多个部门所发布的公文作为研究背景,所以本系统提供的全文检 索是针对w o r d 文档进行操作的,并且是对中文信息进行检索的,所以在对信息进 行全文检索之前一定要先对w o r d 文档中的内容进行抽取,本研究采用p o i 工具对 w o r d 文档里面的内容进行抽取,另外,因为是针对中文w o r d 文档进行检索,所 以在对w o r d 文档中的内容抽取之后要对抽取出的中文内容进行分词操作,为后面 索引的建立做好准备。本研究采用基于字符串匹配的分词方法,即按照一定的策 略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,完成分词 操作,最后对分词后的w o r d 文档中的内容建立索引。 通过对实验数据进行分析可知,本文所实现的导航查询的查全率和查准率虽 然都介于普通查询和全文检索之间,但是所实现的导航查询的平均性能比普通查 询和全文检索都要高。, 关键词:本体论,j e s s ,l u c e n e , 导航查询,全文检索 a b s t r a c t e o f f i c ei sas y s t e ms o l u t i o na d o p t e db yt h eg o v e r n m e n tt os h i f tg o v e r n m e n t f u n c t i o n ss u c ha si n f o r m a t i o np u b l i c a t i o n ,m a n a g e m e n t ,s e r v i c ea n dc o m m u n i c a t i o nt o t h ei n t e r a c t ,a i m i n ga ti n c r e a s i n gg o v e r n m e n tw o r k i n ge f f i c i e n c y , r a i s i n gt r a n s p a r e n c y , i m p r o v ed e c i s i o n m a k i n g a n di n v e s t m e n t e n v i r o n m e n t ,r e i n f o r c i n ge f f e c t i v e m a n a g e m e n to ft h ee c o n o m y a n ds o c i e t ya n d l i f t i n gl e g a l i z a t i o nl e v e l a st h ep r o m o t i o no fe o f f i c e ,m o r ea n dm o r ee l e c t r o n i cd o c u m e n t sa r ep r o d u c e d b yv a r i o u sd e p a r t m e n t s i t s i s i n c r e a s i n g l yi m p o r t a n t t o e f f e c t i v e l ym a n a g et h e s e e l e c t r o n i cd o c u m e n t sa n dp r o v i d ee f f i c i e n ti n d e xm e c h a n i s mi no r d e rt om a k es u r et h a t t h eu s e rc a nf i n dw h a t e v e rm a t e r i a l st h e ya r ei n t e r e s t e dw h e n e v e rt h e yw a n t i nt h e e o f f i c e ,m o s td e p a r t m e n t sa d o p tf i l em a n a g e m e n ts y s t e mt h a ti n d e x e st h ef i l e sb y m a t c h i n gt h ek e yw o r d s n e d e f e c to ft h i si n d e x i n gm e t h o di st h a ti tf a i l st ou n d e r s t a n d t h es e m a n t i c so ft h ek e yw o r d si n p u tb yt h eu s e r s s ou n d e r s t a n d i n gt h es e m a n t i c so ft h e k e yw o r d si n p u tb yt h eu s e i sw i l lh e l pi n c r e a s et h ec o m p l e t er a t ea n dc o r r e c tr a t eo ft h e i n q u i r y , s oa st os a t i s f yt h e u s e r si n q u i r yn e e d sm o r ee f f i c i e n t l y i n d e a l i n gw i t ht h ea b o v e m e n t i o n e dp r o b l e m s ap i l o t i n d e xb a s e do nt h e t r a d i t i o n a ld o c u m e n ti n d e xm e t h o d si sa d d r e s s e di nt h i sa r t i c l e t h i sm e t h o dc a n i n f e r e n c eb a s e do nt h ei n q u i r yk e yw o r d si n p u tb yt h eu s e r s ,t h e ni tw i l ll i s ts o m e r e l e v a n ti n q u i r ys u g g e s t i o n sf o rt h eu s e r st oc h o o s e i nt h i sw a y , i tc a ni n c r e a s et h e c o m p l e t er a t ea n d c o r r e c tr a t eo ft h ei n q u i r y , s oa st oi n c r e a s ei t sa v e r a g ep e r f o r m a n c e t h er e s e a r c ha d o p t st h eo n t o l o g yd e v e l o p m e n tt o o lp r o t d 9 6 3 2 b e t ao fs t a n f o r d u n i v e r s i t yt oe x p r e s st h ee l e c t r o n i cd o c u m e n t si ne - o f f i c ed o m a i n ,o w l - d la st h e d e s c r i p t i o nl a n g u a g eo fo n t o l o g y , j e s s ( j a v ae x p e r ts y s t e ms h e l l ) a st h ei n f e r e n c e e n g i n e a tt h es a m et i m e ,i ta d o p t sj e s s t a bt of u l f i l lt h ec o n j u n c t i o nb e t w e e np r o t d g d a n dj e s s ,w h i l eu s e sl u c e n ea st h ei n d e xe n g i n ec o r ef o rf u l l t e s ti n d e x a st h e r e s e a r c hi sb a s e do nt h ed o c u m e n t sp u b l i c i z e db yv a r i o u sd e p a r t m e n t so fj i a n g x i u n i v e r s i t yo ff i n a n c e & e c o n o m i c s t h ef u l l t e x ts e a r c hp r o v i d e di nt h es y s t e mi s d i r e c t e da tw o r df o r m a td o c u m e n t s a tt h es a m et i m et h es e a r c hi sd i r e c t e da tc h i n e s e i n f o r m a t i o n s oi t i sn e c e s s a r yt oe x t r a c tt h ec o n t e x to ft h ew o r df o r m a td o c u m e n t s b e f o r ep e r f o r m i n gf u l l t e x tr e s e a r c ho nt h ei n f o r m a t i o n p o it o o li sa d o p t e di nt h i s r e s e a r c ht oe x t r a c tc o n t e x to ft h ew o r df o r m a td o c u m e n t s i na d d i t i o n ,a st h es e a r c hi s d i r e c t e da tt h ec h i n e s ew o r df o r m a td o c u m e n t s ,w o r ds p l i t t e r o p e r a t i o ns h o u l db e p e r f o r m e do nt h ec h i n e s ec o n t e x te x t r a c t e da f t e re x t r a c t i n gt h ec o n t e x tf r o mw o r d 2 f o r m a td o c u m e n t s ,i no r d e rt op r e p a r ef o rt h ee s t a b l i s h i n gt h ei n d e xl a t e r t h er e s e a r c h a d o p tam e t h o dt h a t b a s e do hc h a r a c t e rs t r i n gm a t c h , t h a ti s ,m a t c h i n gac h i n e s e c h a r a c t e rs t r i n gt h a ti st ob ea n a l y z e dw i t hal e m m ai na “b i ge n o u g l l ”m a c h i n e d i c t i o n a r y , f i n i s h i n gw o r ds p l i t t e ro p e r a t i o n ,a n df i n a l l ye s t a b l i s h i n gi n d e xf o rt h e c o n t e x ta f t e rt h ew o r ds p l i t t e r a f t e ra n a l y z i n gt h et e s td a t a ,i tc a nb es a i dt h a t ,a l t h o u g ht h ec o m p l e t er a t ea n d c o e c ir a t eo ft h ep i l o ti n q u i r yr e a l i z e di nt h er e s e a r c hi sj u s tb e t w e e nt h a to fn o r m a l i n q u i r ya n d f u l l - t e x ti n d e x ,t h ea v e r a g ep e r f o r m a n c eo fp i l o ti n q u i r yi sh i g h e rt h a nt h a t o fb o t ht h en o r m a li n q u i r ya n df u l l - t e x ti n d e x k e y w o r d s :o n t o l o g y , j e s s ,l u c c n e ,n a v i g a t i o ni n q u i r y , f u l lt e x tr e t r i e v a l 3 独创性声明 本人郑重声骐:所呈交的论文是我个人在导婶指导下进壬亍的研究 工作及取得的研究成果。尽我所知,除了文中转别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含 为获得江疆财经大学或其他教育机构婚学位或证书所使用过的材孝 。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解江西财经大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密的论文在解密后遵守此规定) 签名:超圈导师签名: 可毒占 日期:州盼为 1 引言 1 1 研究背景 中办、国办于2 0 0 6 年5 月初印发了 2 0 0 6 - - - 2 0 2 0 年国家信息化发展战略, 提出要积极推行电予政务。电子政务是政府在国民经济和社会信息化的背景下, 以提高政府办公效率,增加透明度,改善决策和投资环境,强化经济和社会的有 效管理,提高法制治理水平为目标,将政府的信息发布、管理、服务、沟通功能 向国际互联网上迁移的系统解决方案。我国电子政务建设已经走过了十多年,它 的广泛应用大幅度提高了各级政府和公共机构的工作效率,同时也带来了巨大的 经济和社会效益。如今,我国的电子政务建设开始迈入信息开放时代,电子政务 应用将迈向更高层次。过去十多年,国家大力倡导电子政务建设,从而使我国电 子公文应用经历了一场前所未有的变革。这场变革使大多数政府部门和金融机构 的纸质公文逐步被电子公文所取代,办公成本和效率取得了双丰收。 随着电子政务的推广,各个部门产生的电子公文越来越多,如何对这些电子 公文进行有效的管理并能够提供有效的检索机制,以保证用户能够随时、快速、 全面地从这些公文中找到所关心的内容,日趋显得重要。 每一所学校的各个部门都有大量的公文,例如学校发文、院系行文、上级来 文等重要的文件,对于某部门的一个教师而言,如果想在短时间内找出相关的文 件是一件非常困难的事情,更不用说是新来的教师了,因此若想找出哪些公文中 有与某方面相关的规定的话,就要花费大量的时间和精力去检索,从而浪费了很 多人力和时间,而且检索出来的结果并不一定能够很好地满足用户的要求。因此 基于这样的背景,十分有必要对电子公文的检索进行进一步的探讨,以提高检索 的速度、准确性和查全率。 1 2 研究现状 计算机检索是通过计算机进行的文献信息检索,它包括光盘数据库、网络数 据库检索和互联网信息检索。由于计算机检索具有速度快、效率高、数据内容新、 范围广、数量大、操作简便、检索时不受国家和地理位置的限制等特点,已成为 人们获取信息的主要手段之一。 在电子政务领域,为了对产生的大量公文进行管理,各部门大都采用了文件 管理系统,其主要处理步骤可以分为文件编码、文件存储和文件检索三个步骤。 在目前的文件管理系统中,大多数采用数据库进行文件存储,然后通过关键词匹 配来进行文件检索,这种检索方式的最大缺点在于无法了解用户所输入的查询关 基于本体论及l u c e n t 的电子公文检索系统 键词的语义,例如用户欲查询本校所有与“科研”相关的公文,若仅仅通过关键 词匹配来检索的话,就会有好多符合查询者要求的结果将被丢失,例如好多公文 的主题词包括“项目”、“课题”,而“项目”、“课题”都属于“科研”的范 畴,所以如果能够理解用户所输入的查询关键词的语义将有效地提高该查询的查 全率,从而更好地满足用户的查询要求。 计算机技术的不断进步和信息量的成倍增加,使人们对信息检索技术的要求 也越来越高,尤其是网络技术和多媒体技术的出现,促使信息检索技术也不断地 发展。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文文本、 多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息 的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻 译等;二是信息资源的网络化和分布化,面向i n t c r n c t 中浩瀚无垠的资源,在广度 上提高管理和组织信息的能力。在信息检索技术研究领域中,基于概念、超文本 信息和多媒体信息检索技术的研究最为活跃,并己取得了突破性的进展。网络的 发展给信息的获取提供了广阔的空间,而检索技术的发展为人们在利用信息方面 提供更方便快捷的手段。 一 多信息源的信息检索和信息集成是本体的一个重要应用领域,国内对这方面 研究较多的是数字图书馆领域,例如由国家图书馆、中国科学院文献情报中心等 单位参与的c d l s 项目【u ,主要是针对数字图书馆系统的数字资源建设与服务,制 定我国数字图书馆标准规范发展战略与标准规范框架,制定数字图书馆核心标准 规范体系,建立数字图书馆标准规范开放建设与开放应用机制,促进我国数字图 书馆的快速、经济和可持续发展。该项目发布了我国数字图书馆标准规范专门 数字对象描述元数据规范 2 1 ,确定了揭示和描述这些对象内容及其特性要采用的 元数据标准,建立元数据格式及其扩展和互操作规则等,并提出初步的操作规范 与应用指南。 元数据提供了语义基础,使资源有了基本的微观结构,但是元数据并不能完 全解决信息系统的语义异构问题,包括资源采用不同元数据方案所造成的微观结 构的异构问题以及资源对象之间存在的复杂的关联关系,知识本体在某种程度上 可以看成是“元”数据,信息系统中不同实体对象可能采用不同的元数据方案, 不同的实体对象之间的关联关系非常复杂,知识本体能够对这些情况进行很好地 描述,从而为信息的组织、管理以及检索、查询提供模型和方法。异构是普遍存 在的,元数据对于资源描述的特殊性和一般性的矛盾与生俱来,是其本身无法克 服的。或许随着标准化的进程,d c 元数据p j 等少数元数据格式将占据主导地位, 然而永远不可能统一到仅有少数几种格式。许多专业或专门领域仍然会有大量的 元数据方案,这些元数据方案可能局限于一个狭小的领域,其本身就是一种领域 2 本体,但是只有专业的元数据对于专业的应用才是最合适的,与学科外其他领域 的互操作性考虑是次要因素。在网络环境下要联接这些“信息孤岛”,必须有某 种程度的互操作解决方案,而且最好是标准的解决方案,这就需要在元数据之上 再建立某些机制,来灵活地实现信息系统之间的互操作。知识本体的本质就是领域 知识的共享和重用,标准化和形式化的领域本体能够为信息系统之间的高层互操作提 供很好的工具1 4 1 。 多数据源面临的主要问题就是不同信息源在信息的表示上不一致,应用本体, 建立一套共享的术语和信息表示结构,不仅可以减少信息转换的难度和工作量,还 为信息集成提供了一个统一的模式。此外,基于关键词的信息检索已不能满足当前 用户对于信息和知识的深度需求,本体由于具有良好的概念层次结构和对逻辑推理 的支持而在信息检索( 特别是在基于知识的检索) 中得到了广泛的应用l s l 。 基于本体( o n t o l o g y ) 的信息检索的基本思路是【6 l : 在领域专家的帮助下,建立相关领域的本体; 收集信息源中的数据,并参照已建立的本体,把收集来的数据按规定格式 存储在元数据库( r d b ,k d b 等) 中; 对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成 规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合; 检索的结果经过定制处理返回给用户。 目前国际上在信息检索与集成领域采用本体技术的著名项目主要有如下几个: ( 1 ) ( o n t o ) 2 a g e n t l 7 1 :其目的是帮助用户检索所需要的互联网上已有的本体,主 要采用了参照本体( r e f e r e n c eo n t o l o g y ) ,即以互联网上已有的本体为对象建立 起来的本体,利用它保存网上现有本体的元数据。以前的本体检索存在着三个主 要问题:本体内容的形式化表示方式根据其被存放的服务器的不同而不同; 在同一台服务器上的本体,其描述的详细程度也有差异;对于本体目前没有一 个标准的格式,以至于用户无从选择那些在不同服务器上的本体中哪些最符合要 求。针对这三个问题,该项目提出了一个和本体相关的初始属性集( a ni n i t i a ls e to f f e a t u r e s ) ,通过该初始属性集就可以从用户的观点来对某个领域的本体进行描述 和对比、评估。该项目采用了m e t h o n t o l o g y i s 和o d e ( o n t o l o g yd e s i g n e n v i r o n m e n t ) 1 9 方法来构建参照本体。其系统结构如图1 所示。 基于本体论及l u c e n e 的电子公文检索系统 图1 ( o n t o ) j a g e n t 系统结构图 该系统从总体上可以划分为两个大的模块:d o m a i nm o d e lb u i l d e rb r o k e r 和 w w wd o m a i nm o d e lr e t r i e v a lb r o k e r 。 d o m a i nm o d e lb u i l d e rb r o k e r 模块的主要功能是收集有关本体的信息并对相 应的实例进行概念化,另外,针对不同的应用还要将本体用不同的本体表示语言 ( l o o m 、o n t o l i n g u a ) 进行描述。该模块包括如下3 个子模块:o n t o l o g yi n f o r m a t i o n c o l l e c t o r 、i n s t a n c ec o n c e p t u a l i z e r 和o n t o l o g yg e n e r a t o r t r a n s l a t o r 。 w w wd o m a i nm o d e lr e t r i e v a lb r o k e r 模块的主要功能是协助用户对本体仓库 ( o n t o l o g y w a r e h o u s e ) 中的信息进行访问,并提供一种友好的显示界面。该模块包括 如下3 个子模块:q u e r yb u i l d e r 、q u e r yt r a n s l a t o r 和i n f e r e n c ee n g i n e 。 ( 2 ) o n t o b r o k 项目面向互联网上的网页资源,其目的是为用户检索到所需要的 网页,这些网页含有用户关心的内容。o n t o b r o k e r 是德国卡尔斯鲁厄大学应用信息 学与形式描述方法学院( a i f b ) 的一个研究项目,该项目建立了一个用来处理 h t m l 、x m l 和r d f 格式的信息源和信息源语义描述系统,其核心是用形式化本 体描述背景知识,并明确网页的语义,以便综合利用本体的表达能力和推理机制。 其系统结构如图2 所示【1 0 j 。 4 i - 矗幺。 l a n g u a g e 图2o n t o b r o k 系统结构图 该系统主要包括如下几个模块:q u e r yi n t e r f a c e 、i n f e r e n c ee n g i n e 和 o n t o c r a w l e r 。每个模块的实现都采用了一种形式化的语言: 0 0 u e r yi n t e r f a c e 模块采用了一种形式化的查询语言( q u e r yl a n g u a g e ) ,其一般 形式为:o :c a - ,表示对象o 是类c 的一个实例,这个实例有一个值为v 的 属性a 。 ( ) i n f e r e n c ee n g i n e 模块采用了一种形式化的表示语言( r e p r e s e n t a t i o nl a n g u a g e ) 对本体进行详细的说明。例如:c 1 :c 2 表示c 1 是c 2 的子类、c 1 【a = c 2 】表示类 c 1 的属性a 必须是类c 2 的一个实例。 ( 要) o n t o c r a w l e r 模块采用了一种注释语言( a n n o t a t i o nl a n g u a g e ) 对w e b 文档标注 本体信息。 ( 3 ) 万捷等人提出基于内容的信息检索系统,利用本体对检索需求进行语义 扩充,并用文档分析器对检索文档进行过滤,因此增加了检索结果的准确性,更 加符合用户的检索需求。其系统结构如图3 所示【1 1 】。 该系统由如下几个模块组成:本体论服务器( o n t o s e r v e r ) 、用户需求构建模块, 数据处理模块、文档分析器。 基于本体论及l u c e n e 的电子公文检索系统 图3 基于内容的信息检索系统的系统结构图 本体论服务器:本体论以及其它数据以关系数据库的形式存放在本体论服 务器上。模式信息描述本体论的结构模式。本体论、术语及术语间的关系可分别 用表来存储。 用户需求构建模块:要实现智能化检索的前提是对数据所包含内容的充分 理解。由于自然语言内在的灵活性,必须引导用户表述他们的兴趣所在,将自然 语言规范化。在通常情况下,用户所提出的查询请求是一个简单的词( 组) 或短语。 当系统接收到查询请求后,首先对其进行语义化处理。这个功能主要是通过用户 需求构建模块来实现的。 数据处理模块:数据处理模块在接收到检索要求后,就派出搜索代理( s e a r c h a g e n t ) 携经过预处理的关键词集q r c p r o c e s s e d k e y w o r d ss e o 至l j 数据源进行关键词 的全文匹配。然后将匹配成功的文档带入文档分析器中进行分析筛选。最后将筛 选出的文档带回数据处理模块,存入信息库中。当同样的检索请求再次遇到,就 不需要重复搜索了。再通过用户界面直接将结果呈现给用户。 文档分析器:文档分析器是整个原型系统的核心组件。对于不同结构的文 档,文档分析器将采用不同的分析策略,把文档中的关键词汇收集起来。通过将 搜索代理携带的关键词集与各种文档( 自由文档和半结构化文档) 中抽取的关键词 汇相对照,删去没有匹配的文档,最后将相关度较高的文档集返回给数据处理模 块。 ( 4 ) 徐振宁等人则把本体作为信息检索系统的核心,通过构造形式化的领域本 体,提出了一种将知识表示和知识处理引入互联网信息处理的方法,为互联网上 6 半结构化数据和关系数据库提供了统一的语义模型。其系统结构如图4 所示1 1 2 l 。 图4 统一语义的数据库发布系统结构图 从系统实现的角度,该系统主要由以下几部分组成: 本体( o n t o l o g y ) 。领域概念化模型的形式化表示,采用描述逻辑( d e s c r i p t i o n l o g i e ,d u 或框架逻辑( f r a m e w o r kl o g i c ,n 0 等面向对象的形式化语言进行描述, 是生成数据库和d t d 的依据。该系统采用d l 语言形式化定义了“学术组织”和 “互联网智能信息处理技术相关概念”的本体。该系统将其中的“学术组织”本 体映射为d t d 和数据库视图。 推理引擎( i n f e r e n c ee n g i n e ) 。根据用户概念化的信息需求描述,应用形式化 本体的内容,推理用户信息需求的内涵式结果,生成针对数据库视图的查询计划。 查询引擎( q u e r y i n ge n g i n e ) 。根据数据库实际的物理视图,执行针对数据库 视图的查询计划,具体执行s q l 语句实现数据库的物理存储。 存储中间件( m i d d l e w a r e ) 。根据本体生成数据库视图,能够将合法( 符合d t d 定义) 的x m l 文档内容语义保持地存入多种关系数据库。 发布器( d i s s e m i n a t o r ) 。将查询结果以合法的x m l 文档形式发布,并根据查 询描述和用户信息提供个性化的主动信息服务。 c r a w l e r 。在互联网上收集合法的x m l 文档。 对于全文检索,l u c e n e 是很好的选择,因为l u c e n e 几乎适合于任何需要全文 检索的应用,尤其是跨平台的应用,它是目前最为流行的基于j a v a 开源全文检索 工具包。目前已经有很多应用程序的检索功能是基于l u c e n e 的,比如i b m 的开源 软件e c l i p s e 的帮助系统的检索功能,相应的i b m 商业软件w e bs p h e r e 中也采用 了l u c e n e 。此外,国内外采用l u c e n e 作为网站全文检索引擎的也很多,例如 h t t p :w w w i o f f e r c o m 和h t t p :w w w t a m i n n c o m 等等。l u c e n e 以其开放源代码的特 7 基于本体论及l u c e n e 的电子公文检索系统 性、优异的索引结构、良好的系统架构获得了越来越多的应用。 1 3 研究目标与研究方法 本研究的目标是在传统的公文检索方式的基础之上,提供一种导航式检索, 这种检索方式可以根据用户输入的查询关键词进行推理,然后给出与此查询相关 的一些查询建议供用户选择,由此来提高检索的查全率和查准率,提高其平均性 能。为了达到这个目标,需要解决如下几个子问题: ( 1 ) 分析电子政务领域的电子公文的格式和内容,并建立一个能够表示电子政 务领域的电子公文的本体; ( 2 ) 将构建好的电子政务领域的电子公文的本体映射到j e s s 中,并定义用来 推理的规贝, u ( r u l e s ) ; ( 3 ) 构建全文搜索引擎,并将导航式检索和全文检索的查询效果进行对比分 析。 为解决上述问题,本研究采用s t a n f o r d 大学的本体开发工具p r o t 6 醇来对电子 政务领域的电子公文进行表示,并采用j e s s t a b 来完成p r o t 6 9 6 与j e s s 之间的连 接,对于全文检索则采用l u c e n e 作为搜索引擎内核。由于全文检索是针对w o r d 文档进行操作的,所以采用p o i 工具来对w o r d 文档的内容进行抽取,并对抽取出 的内容进行分词操作和建立索引。 本课题的研究得到了江西省教育厅科技项目的资助( 赣教技字 2 0 0 5 1 1 1 1 号) 。 1 4 论文的结构安排 论文共分7 章,主要内容概要如下: 第1 章是绪论,介绍了课题的研究背景和研究意义,简要介绍了目前在语义 推理和全文检索方面的研究现状,并提出利用本体论和j e s s 对电子政务领域的电 子公文进行检索,说明了这种方法的可行性、采用的技术及实现方法。 第2 章综述了本体论的一些基础知识,包括本体的定义、本体的描述语言以 及常用的本体开发工具。 第3 章介绍了j a v a 专家系统内核( j e s s ) 的一些基础知识,包括j e s s 推理 机的组成,规则的定义方式以及如何在j e s s 工作区内进行查找操作。 第4 章介绍了全文检索引擎l u c e n e 软件包的组成及其索引机制。 第5 章介绍了本系统的体系结构以及本系统的实现过程,包括如何通过p r o t 6 9 6 构建电子政务领域的电子公文本体,并将其映射到j a v a 专家系统内核j e s s 中;如 何定义推理规则以实现导航查询;如何对w o r d 格式的电子公文进行信息抽取,并 对抽取出的中文信息进行分词,然后建立索引并最终实现全文检索 第6 章进行了实验分析,通过对本系统的实验数据的分析,说明了这几种检 索方式各自的优缺点以及平均性能的优劣。 第7 章对全文进行总结,并提出了未来研究的建议。 9 基于本体论及l u c e n e 的电子公文检索系统 2 本体论 2 1 本体的定义 “o n t o l o g y ”的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚 里士多德( 3 8 4 3 2 2b c ) ,其派生于希腊语的“o n t o ”( 存在) 和“l o g i a ”( 箴 言录) 。本体在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”, 是客观存在的一个系统的解释或说明,关一厶的是客观现实的抽象本质1 1 3 1 。 在人工智能领域,n e c h e s 等人最早给出了本体论的定义,n e c h e s 的定义为: “本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和 关系来定义词汇表外延的规则” t 3 l ,参见原文“a no n t o l o g yd e f i n e st h eb a s i ct e r m s a n dr c l a t i o n sc o m p r i s i n gt h ev o c a b u l a r yo fat o p i ca r e a , a sw e l la st h er u l e sf o r c o m b i n i n gt e r m sa n dr e l a t i o n st od e f i n ee x t e n s i o n st ot h ev o c a b u l a r y ” 1 4 1 。 1 9 9 3 年,美国斯坦福大学知识系统实验室的g r u b e r 给出了在信息科学领域最 著名并被引用得最为广泛的定义:“本体是概念化的明确的规范说明”,原文是: “a no n t o l o g yi sa ne x p l i c i ts p e c i f i c a t i o no fac o n c e p t u a l i z a t i o n ”1 1 5 】,它为某一领域 的人和应用系统之间的交流提供一种通用的知识共享。f e n s e l 则定义为:“本体是 对一个特定领域中重要概念的共享的形式化的描述”,原文为“a no n t o l o g yi sa c o b b n o n , s h a r e da n df o r m a ld e s c r i p t i o no fi m p o r t a n tc o n c e p t si na l ls p e c i f i cd o m a i n ” 0 6 。对这个定义进行分析后,本体的概念包括四个主要方面1 1 7 】: ( 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :对客观世界中的一些现象的相关概念进行抽象 而得到模型,这些抽象出的模型所表示的含义应该独立于具体的环境状态; ( 2 ) 明确( e x p l i c i t ) :所使用的概念及它们之间的联系都有精确的定义; ( 3 ) 形式化( f o r m 锄:精确的数学描述,本体应该是计算机可读的; ( 4 ) 共享( s h a r e d ) :本体中反映的知识是其使用者共同认可的,反映的是相关 领域中公认的概念集,所针对的应该是团体而不是个体。 虽然关于本体的定义有很多种,但是从本质来看,不同领域的学者对于本体 的认识是统一的,即本体提供一种明确定义的共识,而构造本体的目的都是为了 实现某种程度的知识共享和重用。 2 2 本体描述语言 目前有好多大学和国际性组织都在从事本体语言方面的研究开发工作,其中 有代表性的组织机构主要有:w i d ew e bc o n s o r t i u m ( w 3 c ) 、s t a n f o r du n i v e r s i t y 、 t h eu n i v e r s i t yo fw a s h i n g t o n 、t h eu n i v e r s i t yo fm a r y l a n d 、t h eu n i v e r s i t yo fm a n c h e s t e r a n d v r i j eu n i v e r s i t y 等。 1 0 2 本体论 由于有大量的组织机构和科学工作者研究该领域的问题,所以出现了多种本 体描述语言本体描述语言最早出现于人工智能领域,如k i f 、o n t o l i n g u a 、c y c l 、 l o o m 、o c m l 、f l o g i c 等。随着w e b 技术的发展,出现了一系列基于w e b 的本体 语言,如r d f 和r d f - s 、o i l 、d a v i l 、o w l 、s h o e 、x o l 等。在这些基于 w e b 的本体语言中,r d f 和r d f - s 、d a m l 、o i l 、x o l 、o w l 之间有着密切的 联系,这些语言都是w 3 c 的本体语言栈中的不同层次,也都是基于x m l 的。而 s h o e 是基于h t m l 的,是在h t m l 基础之上的一个扩展。o w l 是w 3 c 推荐的 语义网络“栈”中的一部分,这个“栈”的表示如表1 和图5 所剥2 0 】。 表1w 3 c 语言栈中部分语言的描述 名称 、描述 x m l 结构化文档的表层语法,对文档没有任何语义约束。 ) 呲s c h e m a定义x m l 支档的结构约束的语言。 对象( 或者资源) 以及它们之间关系的数据模型,为数据模型提供了简 r d f 单的语义。这蜞数据模犁能够用x m l 语法讲行裘扶。 描述r d f 资源的属性和类型的词汇表,提供了对这些属性和类型的普遍 r d fs c h e m a 层次的语义。 添加了更多的用于描述属性和类型的词汇,例如类型之间的不相交性 o w l ( d i s j o i n t n e s s ) ,基数( c a r d i n a l i t y ) 、等价性、属性的更丰富的类型、 属性特征( 例如对称性,s y m m e t r y ) 及枚举类型( e n u m e r a t e dc l a s s e s ) 。 图5w 3 c 的本体语言栈 在所有的本体描述语言中,r d f ( s ) 、d a m l + o i l 和o w l 是三种具有里程 碑意义的本体描述语言,所以本文仅对这三种语言进行讨论。 基于本体论及l u c e n e 的电子公文检索系统 2 2 1r d f 和r d f s r d f ( r e s o u r c e d e s c r i p t i o nf r a m e w o r k ,资源描述框架) 是。w 3 c 于1 9 9 9 年颁 布的一个基于x m l ( 可扩展标记语言) 的推荐标准,用于表示任何资源信息,它 的提出是为了解决元数据发展过程中的问题。 元数据( m e t a d a t a ) 是关于数据的数据( d a t aa b o u td a t a ) ,它主要用来对具体 的资源进行描述,从而达到对资源对象进行定位、检索和管理的目的。由于历史 的原因,不同的领域和团体都有自己的元数据标准,比较著名的有d c 、c d w a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论