




已阅读5页,还剩57页未读, 继续免费阅读
(计算机系统结构专业论文)基于领域本体的语义化搜索技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 摘要 随着因特网的迅速发展,网络中的信息资源快速增长,搜索引擎已成为人们 获取信息的必要途径和重要手段。国内外许多研究机构已经对搜索引擎技术开展 了大量的研究工作。目前,搜索引擎主要采用基于关键词的匹配搜索技术。存在 如下一些不足之处:返回大量的结果页面,但用户难以快速找到满足需要的信息; 搜索结果缺乏有效的信息分类;搜索策略缺乏对关键词的理解,仍属于纯关键词 匹配层次上的搜索模式。 本体论( o n t o l o g y ) 作为一门重要的新兴学科,现已成为知识工程、自然语 言处理、信息系统、智能系统集成和知识管理等多个领域的热门研究方向。它为 人们及广泛异构的应用系统提供共同的领域知识理解,并为语义网( s e m a n t i c w e b ) 中基于内容的知识获取、互用和交流提供高质量的保证。 本文的主要研究工作就是将领域本体应用于搜索技术中,构建一个基于领域 本体的语义化搜索引擎。目的是为了实现基于领域本体的语义化搜索,从而能够 为用户提供更全面、更专业、更符合用户需求的援索结果。 首先,本文介绍了搜索引擎的产生背景、组成和分类,分析了当前搜索引擎 存在的问题,并提出了本文基于领域本体的语义化搜索引擎;介绍了本体的基本 理论和本体开发工具。 其次,本文提出了语义化搜索引擎的系统功能和实现原理,提出了语义化搜 索引擎的系统架构,并对计算机科学领域本体进行了结构设计,利用本体开发工 具对其形式化。 再次,本文深入地研究了语义标注和语义扩展推理。采用x m l 技术作为资 源表达方式,提出了生成x m l 资源库的转换机制,实现了有效的搜索资源。提 出了x m l 资源的语义标注策略,给出了x m l 语义资源库的生成原理,实现了 x m l 资源的语义化。提出了基于领域本俸的语义扩展推理模型和算法,实现了 语义扩展推理查询和语义扩展搜索。 最后,描述了语义化搜索引擎的组成。详细地介绍了全文搜索引擎子系统、 语义搜索引擎子系统和语义扩展搜索子系统的实现过程,并分析和比较了三类搜 索引擎子系统的搜索效果。 本文得到了国家自然科学基金重大研究计划:基于认知图理论的网络资源 表示与推理及在教学资源中的按需服务研究( 批准号:9 0 6 1 2 0 1 0 ) 的资助。 关键词:搜索引擎,领域本体,x m l ,语义标注,语义扩展推理 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s b a n g h a iu n i v e r s i t y a b s t r a c t 黝t h er a p i dd e v e l o p m e n to fi n t e r n e t , i n f o r m a t i o nr e s o u r c e sg ou pq u i c k l y f r o mt h en e t w o r k s e a r c he n g i n eh a sb e c o m ean e c e s s a r ya p p r o a c ha n da ni m p o r t a n t m e a n sf o rp e o p l et oh a v ea c c e s st oo b t a i n i n gi n f o r m a t i o n m a n ys t u d yo r g a n i z a t i o n s h a v ed o n eal o to fr e s e a r c hw o r k a tp r e s e n t , m a t c h i n gs e a r c ht e c h n o l o g yb a s e do n k e y w o r di sw i d e l ya d o p t e db ys e a r c he n g i n ea n di te x i s t ss e v e r a ld r a w b a c k sa s f o l l o w s :i ns p i t eo fr e t u r n i n gag r e a td e a lo fr e s u l tp a g e si tb e i n gd i f f i c u l tt of i n d i n f o r m a t i o nf o rm e e t i n gt h e i r q u i c kn e e d 1 a c k i n g t h ee f f i c i e n ti n f o r m a t i o n c l a s s i f i c a t i o no fs e a r c hr e s u l t s , t h e r eb e i n gs h o r to ft h eu n d e r s t a n d i n gt ok e y w o r di n t h ea s p e c to ft h es e a r c hs t r a t e g ya n di ts t i l lb e l o n g i n gt ot h es e a r c hp a a e mi nt h e h i e r a r c h yo f p u r ek e y w o r dm a t c h i n g a sa l li m p o r t a n tb u r g e o n i n gd i s c i p l i n e ,o m o l o g yh a sd e v e l o p e dav e r yp o p u l a r r e s e a r c hb r a n c hi nt h em u l t i p l er e s e a r c hd o m a i n s ,s u c ha sk n o w l e d g ee n g i n e e r i n g , n a t u r a ll a n g u a g ep r o c e s s i n g ,i n f o r m a t i o ns y s t e m ,i n t e l l i g e n ts y s t e mi n t e g r a t i o na n d k n o w l e d g em a n a g e m e n t 。i tp r o v i d e ss h a r i n gd o m a i nk n o w l e d g eu n d e r s t a n d i n gf o r p e o p l ea n dw i d e l yh e t e r o g e n e o u sa p p l i c a t i o ns y s t e m a tt h es a m et i m e ,i ts u p p l i e s h i g l lq u a l i t y o ft h ea s s u l a n c ef o r k n o w l e d g ea c q u i r i n g ,m u t u a lu s a g ea n d c o m m u n i c a t i o nb a s e do nc o n t e n ti nt h es e m a n t i cw 曲 t h em a i nr e s e a r c ht a s ko ft h i sa r t i c l ec o n s i s t si nt h ea p p l i c a t i o no ft h ed o m a i n o n t o l o g yi n t ot h es e a r c ht e c h n o l o g y , a n dc o n s l p a c t sas e m a n t i cs e a r c he n g i n eb a s e d o nd o m a i no n t o l o g y n 坞o b j e c to ft h i s a r t i c l ei sf o rt h es a k eo fr e a l i z i n gs e m a n t i c s e a r c hb a s e do nd o m a i no n t o l o g y t h e r e f o r e ,i tc a no f f e rm o r es a t i s f a c t o r ys e a l c h r c s u l t sf o r1 l s e rw i t ht h ec h a r a c t e r i s t i co f i n t e g r i t ya n ds p e c i a l t y i nt h ef i r s tp l a c e ,t h i sa r t i c l ei n t r o d u c e st h ec o r r e l a t i v eb a c k g r o u n do fs e a r c h e n g i n e i 招c o m p o s i t i o na n dc l a s s i f i c a t i o n t h e nt h ea u t h o ro ft h i sa r t i c l ea n a l y z e st h e e x i s t e n tp r o b l e m so f c u r r e n ts e a r c he n g i n e a n dt h es e m a n t i cs e a r c he n g i n eb a s e do n d o m a i no n t o l o g yi sp u tf o r w a r db yt h ea u t h o r s u b s e q u e n t l y , t h eb a s i ct h e o r yo f o n t o l o g ya n di t sd e v e l o p m e n tt o o l sa r ei n t r o d u c e d i nt h en e x tp l a c e ,s y s t e mf u n c t i o na n di m p l e m e n t a t i o np r i n c i p l eo ft h es e m a n t i c s e a r c he n g i n ea r ep u tf o r w a r d n l e nt h es y s t e ma r c h i t e c t u r eo ft h es e m a n t i cs e a r c h e n g i n ei sb r o u g h tf o r w a r db yt h ea u t h o r l a t e r , t h es t r u c t u r ed e s i g no fc o m p u t e r s c i e n c ed o m a i no n t o l o g yi s 西v e ni nd e t a i la n di t sf o r m a l i z a t i o ni sr e a l i z e db y u t i l i z i n gt h eo n t o l o g yd e v e l o p m e n t t 0 0 1 m r d l y , s e m a n t i ca n n o t a t i o na n ds e m a n t i ce x t e n s i o nr e a s o n i n ga r es t u d i e di n d e t a i li nt h i sa r t i c l e i no r d e rt op r o v i d ee 伍c i e n ts e a r c hr e s o u r c e s x m lt e c h n o l o g yi s a d o p t e da st h ew a yo fr e s o u r c ee x p r e s s i o n , w h i c h i su t i l i z e di nt h ep r o c e s so f c o n v e r s i o nm e c h a n i s mf o rt h eg e n e r a t i o no ft h ex m lr e s o u r c ew a r e h o u s e f o rt h e s a k eo fa c c o m p l i s h i n gt h et a s ko fs e m a n t i cr e s o u r c e ,s e m a n t i ca n n o t a t i o ns t r a t e g yi s p u tf o r w a r d a n dt h eg e n e r a t i o np r i n c i p l eo fx m ls e m a n t i cr e s o u r c ew a r e h o u s ei s a l s og i v e n f o rt h et a r g e to fs e m a n t i ce x t e n s i o nr e a s o n i n gq u e r ya n ds e a r c h ,t h e s e m a n t i ce x t e n s i o nm o d e la n da l g o r i t h ma r ep u tf o r w a r db a s e do nd o m a i no n t o l o g y 一i i 上海大学硕士学位论文 l a s t l y , t h i sa r t i c l ed e s c r i b e st h ec o m p o s i t i o no ft h es e m a n t i cs e a r c he n g i n e , w h i c hi sm a i n l ym a d eu 口o ft h r e ep a r t s :f u l it e x ts e a r c he n g i n es u b s y s t e m ,s e m a n t i c s e a r c he n g i n es u b s y s t e ma n ds e m a n t i ce x t e n s i o ns e a r c hs u b s y s t e m a n d t h e i m p l e m e n t a t i o np r o c e s so ft h et h r e es e a r c hs u b s y s t e m si si n t r o d u c e dr e s p e c t i v e l y t h e nt h ea u t h o ra n a l y z e sa n dc o m p a r e st h es e a r c he f f e c to ft h et h r e es e a r c he i l g i n e s u b s y s t e m s k e y w o r d s :s e a r c he n g i n e ,d o m a i no n t o l o g y , x m l ,s e m a n t i ca n n o t a t i o n ,s e m a n t i c e x t e n s i o nr e a s o n i n g i i i 上海大学硕士学位论文 原创性声明 本人声咦:所呈交的论文是本人在导师指导下迸行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名: 绎他日期缈日 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全都或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:一导师签名: 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 第1 章绪论 1 1 搜索引擎产生背景 随着信息技术的迅猛发展,网络已经成为人们获取信息的必要途径和重要手 段,成为人们学习、工作和生活中的最重要的知识和信息来源。 w j r l dw i d ew e b ( w w w ) 是全球性的网络信息系统。1 9 8 9 年位于瑞士的 c e r n ( e u r o p e a no r g a n i z a t i o nf o r n u c l e a rr e s e a r c h ) 首先开始了w w w 的研究工 作。随后,许多其他的研究机构、大学和公司也加入w w w 研究者的行列,并 相继开发出各自的w w w 软件。这些w w w 软件的运行平台覆盖了目前主流的 计算机硬件和操作系统。在此过程中,w w w 也不断完善和发展。同时,为了保 证不同w w w 软件之间的互操作性,一系列w w w 协议和标准也不断的完善中。 在最近几年里,w w w 得到了长足的发展,不仅成为企业必不可少的组成部 分,并且开始走进千家万户根据n e c 研究院在自然上发布的数据,截止 到1 9 9 9 年2 月,i n t e r n e t 上共有网站1 6 0 0 万个,其中公开提供w w w 服务的网 站2 8 0 万个,共有w w w 网页大约8 亿页,这些网页包含了1 5 t 字节的数据。 2 0 0 0 年4 月在波士顿举行的第5 届搜索引擎年会的会议报告指出当时的网页数 目已经超过了1 0 亿。 根据c n n i c ( 中国互联网络信息中心) 2 0 0 3 年1 月1 7 日发布的中国互 联网络发展状况统计报告,截止到2 0 0 2 年1 2 月3 1 日,我国的上网计算机总数 己达2 0 8 3 万台,上网用户总人数为5 9 1 0 万人,w w w 站点数为3 7 1 6 0 0 伊”。 i n t e m e t 上的信息资源随着i n t e m e t 的发展而呈现出以下特点:1 ) 信息量大 而且分散;2 ) 自治性强;3 ) 信息资源多种多样;4 ) 不一致性和不完整性 2 - 3 j 。 网络中的海量信息既给人们带来了方便,同时也带来了许多问题。面对浩如 烟海,内容庞杂,组织松散的信息,搜索引擎( s e a r c h e n g i n e ) 技术逐渐地发展 起来了,它以一定的搜索策略在互联网中搜集、发现信息、对信息进行理解、提 取、组织和处理,并为用户提供检索服务。 搜索引擎作为i n t e m e t 上必不可少的信息资源检索工具,几乎每个网络用户 都在使用它来寻找自己需要的信息。搜索引擎可以为用户进行网络导航,帮助用 户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的 有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。搜索引擎 是引领我们在浩瀚的网络信息资源中寻找有用信息资源真正所需的重要工具。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 1 2 搜索引擎研究与分析 1 2 1 搜索引擎的组成 一般来说,一个搜索引擎主要有搜索器、索引器、检索器和用户接口等四大 部分组成 4 母j 【l l l ,每个部分完成搜索引擎的特定的功能,从而最终实现搜索引擎 的信息资源搜索目的。 1 ) 搜索器 搜索器主要功能是在互联网中漫游、发现和搜集信息。它通常为一个日夜不 停运行的计算机程序,要尽可能多、尽可能快地搜集各种类型的新信息;同时, 因互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死 连接和无效连接。 2 ) 索引器 索引器主要功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示 文档以及生成文档库的索引表,建立起自己的物理索引数据库。 3 ) 检索器 检索器的主要功能是根据用户的查询在索引库中快速检出文档,对将要输出 的结果进行排序,并实现某种用户相关性反馈机制。常用的信息检索模型:集合 理论模型、代数模型、概率模型和混合模型。 4 ) 用户接口 用户接口主要功能是输入用户查询、实现查询结果,提供用户相关性反馈机 制。主要目的是方便用户使用搜索引擎,多方式地高效地从搜索引擎中得到及时 的有效信息。用户接口的设计和实现常使用人机交互的理论和方法,以充分适应 人类的思维习惯。 1 2 2 搜索引擎的分类 搜索引擎( s e a r c he n g i n e ) 是利用自动抓取程序,在互联网上遍历各个结点, 使用全文检索技术对在各结点上抓取的信息进行分析,并进行索引、分类、建立 相应的索引数据库,保存以备用户检索的一项信息技术。 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 机器人搜索引擎、目录索引式搜索引擎和元搜索引擎“。 1 ) 机器人搜索引擎( r o b o ts e a r c he n g i n e ) 机器人搜索引擎是搜索引擎中最重要的一类,这类搜索引擎目前提供了w e b 上质量最高的信息搜索服务。国外具有代表性的机器入搜索引擎有o o o g l e 、f a s t 、 一2 一 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s b a n g h a iu n i v e r s i t y a l t a v i s t a 、i n f o s e c k 、l i g h t 等,国内著名的有百度( b a i d u ) 等。它们直接对i n t e m e t 进行循环式页面收集、存储、索引和数据管理。都是通过从互联网上提取各个网 站的信息( 以网页文字为主) 而建立在索引数据库中,检索与用户查询条件匹配 的相关记录,然后按一定的顺序排列,并将结果返回给用户以便选取。 2 ) 目录索引式搜索引擎( s e a r c hi n d e x d i r e c t o r y ) 目录索引型搜索引擎,与基于机器人的搜索引擎不同之处在于,目录索引型 的索引数据库是依靠编辑人员人工建立起来的,这些编辑人员在访问了某个w e b 站点后根据一套自定的评判标准及主观印象撰写出对该站点的描述,并根据站点 的内容和性质将其归为一个预先分好的类别。分门别类地存放在相应的目录中, 用户在查询时,可以通过关键词搜索,也可以按分类目录逐层检索。这类搜索引 擎具有代表性的有y a h o o 、o p e nd i r e c t o r y 、s n a p 等。 3 ) 元搜索引擎( m e t as e a r c he n g i n e ) 元搜索引擎是利用多个基于机器人搜索引擎的检索结果进行过滤和重新排 序、分类的搜索工具。可以把这种搜索引擎看作是信息服务的代理,它自身并不 需要维护索引数据库和管理、更新工作,而是把用户提交的搜索关键字并发的提 交给多个搜索引擎同时检索。它的主要精力放在提高搜索速度、智能化处理搜索 结果、个性搜索功能的设置和用户捡索界面的友好性上,其查全率和查准率相对 比较高。具有代表性的有m e t a c r a w l e r 、i n f o s p a c c 、d o g p i l e 、v i v i s i m o 等。 总的来说,目录索引型搜索引擎存在信息涵盖量不大、更新能力有限的缺点, 而元搜索引擎因为需要等待所有的搜索引擎提交结果,并进行综合,通常搜索速 度比较馒。所以,基于机器人( r o b o t ) 的搜索引擎成为人们研究的重点。 1 2 3 搜索引擎的研究现状及存在的问题 搜索引擎自2 0 世纪9 0 年代中期诞生以来,为人们寻求网上信息资源提供了 方便。且前网上的搜索引擎有t 6 0 多种以上。随着网络应用的不断深入,各种新 的,更加满足用户需要的搜索引擎不断被推出,而且向智能化方向发展。 然而,目前大多数搜索引擎的搜索方式都是基于关键词或者内容分类目录进 行搜索信息资源,得到的结果存在着大量的冗余信息。如返回大量的结果页面, 然而真正符合用户需求的数量很少,而且这些相关的链接很多都没有出现在查询 结果的前面:绝大部分搜索引擎的查询结果都是利用列表的方式提供的,所有帽 关的和不相关的链接没有关联的放在一起,缺乏有效的信息分类;基于关键词的 w e b 查询缺乏机器对用户行为的理解力,导致人与机器之间产生交互鸿沟。具体 表现为以下6 个方面【1 2 以4 j : 1 ) 搜索结果查准率不高 - 3 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 搜索引擎通常依赖于自动建立的摘要,该摘要一般取自w e b 页的主题或前 几行内容形成的,不一定反映实际情况。根据这种索引数据检索出来的结果将出 现偏差,不能很好地满足用户的检索需求。 2 ) 搜索结果查全率不高 搜索引擎一般是通过基于关键词的字面匹配技术实现搜索,展现给用户的搜 索结果通常都是包含搜索关键诃,而没有包含该关键词的所有结果都不会被检索 出来。搜索结果中不包含那些在语义上和关键词相关的结果。 3 ) 检索方式单一 搜索引擎一般提供分类浏览的查询方式和关键词的全文检索,不能实现概念 检索,不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念 进行笼统的检索。 4 ) 个性化服务问题 搜索引擎提供相同的界面和检索策略,不提供用户的信息定制,任何人输入 相同的查询条件返回的结果必定相同。搜索引擎提供了p u l l 服务方式,即用户 输入检索要求,系统返回包含大量包含关键词及其相应地址列表的页面,不能根 据用户的一贯兴趣模式和一定的专业领域主动反馈有用的信息,无法实现推 p u s i - i 服务方式。 5 ) 搜索引擎对信息的标注深度不够 目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页 信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息 丢失,特别是对特定的文献数据库的检索显得无能为力。 6 ) 信息收集与检索的分离 搜索引擎进行信息的收集和查询是两个分离的过程,缺少有机的结合。系统 无法根据用户的检索要求迸步提供相关信息,用户不能依据有关提示进行理性 的检索,操作比较机械。 1 2 4 基于领域本体语义化搜索引擎的提出及其意义 通过上一节对搜索引擎的研究现状及存在的问题的研究与分析,本文提出了 基于领域本体的语义化搜索引擎。通过引入最近几年的热点研究方向本体论,使 得领域内的概念和概念之间的关系通过领域本体进行描述,并且将领域本体应用 于搜索引擎中。 基于领域本体的语义化搜索引擎弥补了当前搜索引擎存在的一些不足之处, 具有语义化的信息检索功能,实现了面向知识的搜索,能够为用户提供更加准确、 4 一 上海大学硕士学位论文 t h ep o s 蟾r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 更加专业、更加符合用户需求的搜索结果,对于未来搜索引擎向智能化方向的发 展趋势具有重要的意义。 查全率( r e c a l lr a t i o ) 和查准率( p r e c i s i o nr a t i o ) 是目前衡量检索效果的 相对合理的指标。查全率是指检索出的文档信息数量与系统中总的文档信息数量 的比例,是衡量检索系统的检索出相关信息的能力。查准率是指检索出的相关文 档数量与检索出的信息总量的比例,是衡量检索系统和检索者拒绝非相关信息的 能力。两者结合起来反映了检索的效率。 基于领域本体的语义化搜索引擎相对于传统的基于关键词的搜索引擎,具有 如下一些优势和特征: 1 ) 提高了搜索的查准率 传统的搜索引挈建立在基于关键词匹配的基础之上,对查询请求完全是字面 上的匹配,将符合查询条件结果返回给用户,不具备理解的功能。精确地搜索应 该建立在收录信息和对查询请求理解的基础之上,通过对信息资源理解和查询请 求的语义理解,将信息检索提升到知识检索的层面,深刻理解用户的查询请求。 本文正是从语义标注技术出发,根据语义标注策略,通过对搜索资源进行基 于领域本体的语义标注,通过资源中的标注域的内容反映出资源的语义特征,从 而实现搜索资源的语义化。建立在语义化资源基础之上的语义化搜索引擎,能够 为用户提供的搜索结果更加符合用户的查询需要,提高了搜索的查准率。 2 ) 改善了搜索的查全率 本文从基于领域本体出发,实现关键词的语义扩展推理,提供给用户和关键 词相关的概念结果集,比如,关键词的直接子类概念集、直接父类概念集、同义 词概念集等,用户能够根据自己的需求选择相关概念进行搜索。 本文基于领域本体的语义化搜索能够实现知识或者概念层面的搜索。通过领 域本体对用户查询请求进行语义理解,实现搜索词的语义扩展,可以提供给用户 更多和关键词相关的搜索词。从语义扩展的层面上来说,改善了搜索的查全率。 3 ) 为用户进一步搜索提供导航 传统的搜索引擎对用户输入的查询条件通过关键词匹配,检索结果中以关键 词为查询结果命中对象,返回给用户搜索结果。 目前,国内外已经提出基于本体的很多改进方法和策略,即把能描述信息语 义的本体论理念和技术引入到搜索引擎系统中,并把其作为系统的核心构件。 国内外将本体应用于信息检索中的主要研究有:1 ) ( o n t o ) 2 a g e n t ,为了帮 助用户检索所需要的w w w 上已有的o n t o l o g y ;2 ) o n t o b r o k e r ,面向w w w 上 的网页资源,这些网页含有用户关心的内容;3 ) o n t o s e e k ,这是基于内容从在 新黄页和产品中进行检索的系统,把本体用作有语义信息的领域词汇表;4 ) 武 成岗等人提出基于本体论和多智能主体的信息检索服务器。 - 5 一 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 本文提出的基于领域本体的语义化搜索,通过分析和理解用户输入的搜索关 键词,对搜索词进行语义扩展推理,提供给用户和搜索关键词相关的词语概念集, 使得用户更加明确所需搜索的关键词,为用户进一步搜索提供了搜索关键词的导 航作用。 相对于国内外研究本体在信息检索系统中的应用,本文提出的语义化搜索引 擎更侧重于将本体的推理词语结果集展现给用户选择,使得用户能够根据自己的 需要和兴趣做进一步的词语选择和搜索,提供了用户与系统的交互。 1 3 本文的研究目标和内容 1 3 1 本文的研究目标 本文的研究目标是在深刻理解本体理论的基础上,通过互联网收集了计算机 科学领域的大量文档,结合中华人民共和国国家标准学科分类与代码第5 2 0 条目的计算机科学技术学科,抽取出大量的该领域概念和概念之间的关系,构建 了一个计算机科学领域本体,并将该领域本体应用于搜索引擎中,开发出一个基 于计算机科学领域本体的语义化搜索引擎演示系统,从而实现基于领域本体的语 义化搜索。 1 3 2 本文的研究内容 本文研究的具体内容包括以下几个方面: 1 ) 理解本体理论和内涵及其对计算机科学领域本体开发的指导作用。 2 ) 了解计算机科学领域的知识体系的构建过程,为抽取该领域核心概念, 形成规范的领域本体概念集,构建计算机科学领域本体( c o m p u t e rs c i e n c e o n t o l o g y ,c s 0 ) 奠定基础。 3 ) 定义计算机科学领域知识体系,应用w 3 c 推出的本体描述语言o w l 以 及斯坦福大学开发的本体开发工具p r o t 6 9 2 0 0 0 构建出计算机科学领域本体。 4 ) 收集中国知网( c n n ) 中5 0 0 0 条左右规模的计算机科学领域题录数据, 对这些题录数据采用x m l 技术表达并实现语义化,作为演示系统的实验数据。 5 ) 结合相关参考文献,本文提出并设计语义化搜索引擎的总体框架。给出 语义扩展推理模型和算法。 6 ) 实现基于领域本体的语义化搜索引擎演示系统,并对演示系统的实验搜 索结果进行效率分析和比较。 6 上海大学硕士学位论文 t h ep o s t g 】 a d u a t et k s i so f s h a n g h a iu n i v e r s i t y 1 3 3 本文的结构安排 全文共分六章,各章重点内容安排如下: 第一章是绪论部分,介绍了目前互联网的现状和搜索引擎产生的相关背景, 描述了搜索引擎的组成和分类,分析了目前搜索引擎存在的问题,从而提出本文 的基于领域本体的语义化搜索引擎,并论述了本文提出的意义。 第二章介绍了本体的基本理论和开发工具,重点论述了几种本体描述语言和 本体开发工具的比较,并选择本文实验所采用的本体描述语言o w l 和本体开发 工具p r o t d 9 62 0 0 0 。 第三章详细介绍了基于领域本体的语义化搜索引擎演示系统的系统架构及 计算机科学领域本体( c s o ) 的设计与开发过程。 第四章重点讨论了语义化搜索引擎中的语义标注和语义扩展推理。主要涉及 x m l 资源库的生成机制、x m l 语义资源库的语义标注策略和x m l 语义资源库 的生成原理、语义扩展推理的模型与算法。 第五章论述了基于领域本体的语义化搜索引擎演示系统的实现过程,对各个 子系统的实现过程分别进行了描述,并对搜索结果的效率进行比较和分析。 第六章总结了本文的主要工作和创新之处,并指明了今后需要迸一步开展研 究的几个方向。 7 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 第2 章本体理论和开发工具 本章首先介绍本体的概念、分类、功能以及构建原则,并对本体的描述语言 及开发工具进行比较和分析,为第三章构建领域本体奠定了理论基础。最后,介 绍本体在信息检索中的应用和步骤。 2 1 1 本体的定义 2 - 1 本体及本体论 本体的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚星士多 德尝试对世界上的事物分类。在哲学中本体定义为“对世界上客观存在物的系统 的描述,即存在论”。后来随着人工智能的发展,砧界引用了此概念并给予了新 的定义。然而最初人们对本体的理解并不完善,这些定义也处在不断的发展变化 中。下面是计算机领域内几种具有代表性的定义( 1 5 19 l : 1 ) 1 9 9 1 年n e c h e s 等人给出了本体定义,将本体定义为:“给出构成相关领 域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的 规则的定义”。 2 ) 1 9 9 3 年g r u b e r 给出了本体的一个最为流行的定义,采用概念化的形式定 义 结构,其中d 表示领域,r 是d 中相关的关系集合。把本体定义为: “本体是概念模型明确的规范说明”。 3 ) 1 9 9 7 年b o r s t 在c j r u b e r 研究的基础上,给出了本体的另外一种定义:“本 体是共享概念模型的形式化规范说明”。 4 ) 1 9 9 8 年s t u d e r 等人对g r u b e r 和b o r s t 给出的本体定义进行了深入研究, 认为:“本体是共享概念模型的明确的形式化规范说明”。该定义体现了本体的四 层含义: 概念模型( c o n c e p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模 型。概念模型所表现的含义独立于具体的环境状态。 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义。 形式化( f o r m a l ) 本体是计算机可读的( 即能够被计算机处理) 。 8 上海大学硕士学位论文 共享( s h a r e ) 本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体而不是个体。 2 1 2 本体的分类 本体的分类方法很多,根据本体不同方面的属性( 如形式化程度、目的和描 述对象等) ,都能对本体进行不同的分类。以下几种本体的分类方法其划分标准 明确,得到知识界的认可1 2 ”“1 : 1 ) 根据本体的形式化程度不同,可以把本体分为高度非形式化的( h i g h l y i n f o r m a l ) 、结构非形式化的( s t n l c t u r e d - i n f o r m a l ) 、半形式化的( s e m i f o r m a l ) 和严格形式化的( r i g o r o u s l yf o r m a l ) 。 2 ) g u a r i n o 提出以详细程度和领域依赖度两个维度作为对本体划分的基础。 详细程度是相对的、较模糊的一个概念,指描述或刻画建模对象的程度。详细程 度高的称作参考( r e f e r e n c e ) 本体,详细程度低的称为共享( s h a r e ) 本体。 依照领域依赖程度,可以细分为顶级( t o p - l e v e l ) 、领域( d o m a i n ) 、任务( t a s k ) 和应用( a p p l i c a t i o n ) 本体等4 类。其中,顶级本体描述的是最普通的概念及概 念之间的关系,如空间、时间、事件、行为等等,与具体的应用无关,其他种类 的本体都是该类本体的特例;领域本体描述的是特定领域( 医药、汽车、机械等) 中的概念及概念之间的关系;任务本体描述的是特定任务或行为中的概念及概念 间的关系:应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。 它们之间存在着相互关系。如图2 一l 所示。 图2 - 1 本体分类及相互关系 9 一 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a u g h a iu n i v e r s i t y 3 ) 1 9 9 9 年,p e r e z 和b e n j a m i n s 在分析和研究了各种本体分类法的基础上, 归纳出1 0 种本体:知识表示本体、普通本体、顶级本体、元( 核心) 本体、领 域本体、语言本体、任务本体、领域一任务本体、方法本体和应用本体。 2 1 3 本体的功能 本体定义了领域中研究者需要的共享的信息的一个通用词汇集合。包括了领 域中一些基本概念的预测和关系。 近年来,本体研究己经不在局限于人工智能领域,本体己经在计算机的各个 领域得到了应用和发展。 本体之所以能得到这么大研究和发展,因为本体具备以下的功斛1 8 】 2 0 】: 1 ) 在用户和软件代理之间共享对信息结构的理解。这是构建本体的一个很 重要的目标。如图2 2 所示,有三个网站包含某个领域的商业服务。如果这些 网站共享和发布他们所使用的术语的相同本体,那么计算机代理就能对不同网站 的信息进行选取和合成,能够回答用户的信息检索。 图2 - 2 基于本体的信息统一 2 ) 分离领域知识和应用知识。本体和具有的应用层分离,同一个本体可以 应用于相关的不同的具体应用。 3 ) 使得领域假设更加清楚。当我们关于领域的知识改变的时候,可以很容 易改变那些假设。程序语言中关于世界假设的复杂编码,让人难以理解和改变。 关于领域知识的清楚描述对一些领域新人尤其有用。 4 ) 提供了对领域知识的复用。例如,不同领域的模型需要描述时间符号, 包括时间距离,时间点等。如果一个研究组织定义了个细致描述时间的本体, 其他的组织和个人就可以把这个本体简单地应用到其他领域。另外,如果我们需 要构建一个大的本体,我们可以集成几个已经存在的本体用来描述大领域的一部 分。 5 ) 分析领域知识。本体术语的规范定义,使得领域知识分析成为可能。 1 0 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 6 ) 信息检索更加智能。由于本体刻画了事物之间的内在联系,这可以使得 信息共享更加智能化,更能满足用户的需求。如图2 3 所示,描述本体应用于信 息检索。 f 一一一一一一一一一一一一一一一一一一一一一一一一一一1 图2 - 3 本体应用于信息检索 2 2 本体构建原则 目前已有的本体很多,构建本体的过程是各不相同的。由于没有一个标准的 本体构造方法,不少研究人员出于指导人们构建本体的目的,从实践出发,提出 了不少有益于构建本体的标准。其中,最有影响力的是g r u b e r 于1 9 9 5 年提出的 5 条规则【2 0 【2 6 1 : 1 ) 明确性和客观性。即本体应该用自然语言对所定义术语给出明确的、客 观的语义定义。 2 ) 完全性。即所给出的定义是完整的,完全能够表达所描述术语的含义。 3 ) 一致性。即由术语得出的推论与术语本身的含义是相容的,不会产生相 互矛盾。 4 ) 最大单调可扩展性。即向本体中添加通用或专用术语时,不需要修改其 已有的内容。 5 ) 最小承诺。即对待建模对象给出尽可能少的约束。 当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 分子生物学实验操作技巧知识问答
- 工作交接流程表格化管理
- 在线咨询服务合同及安全保障承诺事项
- 生活垃圾分类网点的持续评估与改进机制
- 新质生产力推动乡村振兴的作用与路径
- 文言文启蒙:古代散文欣赏高中文言文教学课
- 跨模态注意力与角色交互对学生课堂专注度的研究
- DB14-T 3407-2025 套筒直播造林技术规程
- 小小园丁的故事植物养护体验记写景作文(8篇)
- 《古典概型问题解析:高二数学教学教案》
- (完整word版)《西方心理学史》题库
- 2023年东部机场集团有限公司校园招聘笔试模拟试题及答案解析
- 钢结构网架施工方案
- 《真菌》精品课件
- BRC第8版FSSC22000:过敏原风险评估及控制措施
- 义务教育均衡发展督导评估课件
- 新人教版小学生四年级下册英语期末试题及答案-试题-试卷
- ISO 铸件尺寸公差标准 ISO8062
- 小学语文阅读教学有效性的研究课题方案
- 巧克力糖自动包装机说明书
- 北京万集DCS30KⅡ计重收费系统技术方案
评论
0/150
提交评论