(计算机软件与理论专业论文)本体论在信息检索中的应用研究.pdf_第1页
(计算机软件与理论专业论文)本体论在信息检索中的应用研究.pdf_第2页
(计算机软件与理论专业论文)本体论在信息检索中的应用研究.pdf_第3页
(计算机软件与理论专业论文)本体论在信息检索中的应用研究.pdf_第4页
(计算机软件与理论专业论文)本体论在信息检索中的应用研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着网络信息的急增,信息检索工具将扮演着越发重要的角色。借助于信 息检索工具,人们可以快速、准确地查找到所需的信息。查全率和查准率是衡 量信息检索工具的重要标准,目前基于关键字的信息检索在查全率和查准率方 面都有待提高。一方面,检索工具会返回大量无关的链接:另一方面,相当多 的相关信息被检索工具遗漏了。为此,应该把信息检索从基于关键词的层次提 高到基于概念的层次,同时应该对概念的相关性进行挖掘。这种类型的检索模 型已成为研究热点,具有重要的研究价值及应用前景。 基于本体的信息检索模型,是将本体知识应用到信息检索中,用于提高信 息检索的查全率和查准率。本体即是对概念化的明确且形式化的描述,刻画了 概念问的各种关系。 本文首先对本体知识、语义网络等关键概念进行了阐述。接着对信息检索 中的信息组织方式、信息检索策略等相关知识进行了分析。进而,对本体论在 信息检索中的作用从用户需求的分析与构建及目标文档的获取与分析这两方面 着手,进行了深入的分析与探讨,提出了对用户需求分析中的现存问题和不同 类型文档分析中存在问题的几种解决方案。最后,在此基础上构造了一个基于 本体的信息检索模型,对模型的几个重要模块进行分析与说明。 关键词:本体论,信息检索模型,语义网络,标注 a b s t r a c t w i t ht h er a p i di n c r e m c n to ft h ei n f o r m a t i o no nt h ew e b ,i n f o m a t i o nr e t r i e v a l t o o l sa r eb e c o m i n gm o r ea n dm o r ei m p o r t a n t w i t ht h eh e l po ft h ei n f o r m a t i o n r e t r i e v a lt o o l s p e o p l ec a r ll o c a t et h en e e d e di n f o r m a t i o ni naq u i c ka n dc o r r e c tw a y r e c a l la n dp r e c i s i o na r ei m p o r t a n ts t a n d a r d sf o ri n f o r m a t i o nr e t r i e v a lt o o l s b u tt h e i n f o r m a t i o nr e t r i e v a lb a s e do i lt h ek e y w o r d si sf a rf r o ms a t i s f a c t i o ni nr e c a l la n d p r e c i s i o n o nt h eo n eh a n d al o to f i r r e l e v a n tl i n k sa r er e t u r n e d o nt h eo t h e rh a n d ,a l a r g e q u a n t i t yo f v a l u a b l ei n f o r m a t i o ni sm i s s e d s ot h ei n f o r m a t i o nr e t r i e v a lh a st ob e p r o m o t e df r o mt h ek e y w o r d sl e v e lt ot h ec o n c e p t i o nl e v e l a tt h es a m et i m et h e r e l e v a n c eo ft h ec o n c e p t i o ns h p a l db ee x p l o i t e d w i t ht h ei m p o r t a n tr e s e a r c hv a l u e a n da p p l i c a t i o np r o s p e c t t h i st y p eo f m o d e lh a sb e c o m et h ef o c u so f t h er e s e a r c h t h ei n f o r m a t i o nr e t r i e v a lb a s e do nt h eo n t o l o g ya p p l i e st h eo n t o l o g yk n o w l e d g e i ni n f o r m a t i o nr e t r i e v a lt op r o m o t et h er e c a l la n dt h ep r e c i s i o n o n t o l o g yi st h e e x p l i c i ta n df o r m a ld e s c r i p t i o no ft h ec o n c e p t u a l i z a t i o n , w h i c hd e f i n e st h er e l a t i o n s a m o n gt h ec o n c e :p t s a f t e rg i v i n gt h ef u l le x p l a n a t i o no ft h ek e yc o n c e p ts u c ha so n t o l o g ya n d s e m a n t i cn e t w o r k , t h ep a p e ra n a l y z e st h ew a yo fi n f o r m a t i o no r g a n i z a t i o na n dt h e s t r a t e g yo fi n f o r m a t i o nr e t r i e v a l w i t hd e e p l ya n a l y s i sa n dd i s c u s s i o no ft h ef u n c t i o n o ft h eo n t o l o g yi nt w oa s p e c t so fi n f o r m a t i o nr e t r i e v a li n c l u d i n gt h ea n a l y s i sa n d c o n s t r u c t i o no fu s e r sd e m a n da n dt h ea c q u i r e m e n ta n da n a l y s i so ft a r g e t e d d o c u m e n t s ,t h ep a p e rp r o p o s e ss e v e r a lr e s o l l i t i o n sf o rt h ec u r r e n tp r o b l e m sl y i n gi l l t h e s et w oa s p e c t s a tl a s ta ni n f o r m a t i o nr e t r i e v a lm o d e lb a s e do no n t o l o g yi sg i v e n o fw h i c hs e v e r a li m p o r t a n tc o m p o n e n t sa l ed e s c r i b e da n da n a l y z e d k e y w o r d s :o n t o l o g y ,i n f o r m a t i o nr e t r i e v a lm o d e l ,s e m a n t i cn e t w o r k ,a n n o t a t i o n 东南大学学位论文 独创性声明及使用授权说明 y6 9 4 4 5 2 一、学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:鱼遣日期:堕:至:堡 二、 关于学位论文使用授权的说明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保 存论文。本人电予文档的内容和纸质论文的内容相一致。除在保密期内的 保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部 或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 签名:五塑导师签名:旌墨迎日期: 东南人学硕l :学位论文 1 1 引言 第一章绪论 随着i n t e r n e t 的迅速发展,网络已经成为人们工作、生活不可缺少的一部 分。通过网络,人们可以获取有价值的信息。网络将人类带入了信息时代。人们 查找网络信息最主要的方式是利用各种检索工具在网上检索,在网络上的检索工 具主要是搜索引擎。目前国外著名的网络搜索引擎有y a h o o 、a l t a v i s t a 、g o o g l e , 搜索引擎的服务对象来自各个层次和行业;此外,还有以专业人员为主要用户群 的搜索引擎,如医学搜索引擎h e a l t h w e b 、m e d l t u n t 。国内较好的中文搜索引擎 有s o h u 、天网等。而一些数字图书馆也有专用的检索工具,如中国期刊网、万 方数据库等也提供了检索功能帮助用户快速地检索所需的信息。 然而,网络信息的激增和多样化给有效的信息检索带来了种种困难,目前在 信息检索方面所做的工作远没有达到令人满意的程度。大部分信息检索系统采用 的检索技术仅仅是利用机械的关键词匹配实现检索功能,得到的是较低的查准率 ( p r e c i s i o n ) ,结果常常会返回大量无关的链接,使得用户将大量的时间耗费在 排除无关信息上。同时,由于用户和网络文档对同一概念的表达形式往往会有差 异,造成了查全率( r e c a l l ) 的降低,导致无法接收到有用信息。如果把信息检 索从目前的基于关键词层面提高到基于知识( 或概念) 层面,就可以比较有效的 解决该问题。本体( o n t o l o g y ) 是对概念化的精确描述,本体论( o n t o l o g y ) 是 关于本体的科学。把本体论引入到信息检索中,可以有效的改善信息检索的查全 率和查准率,提高信息检索的智能水平。 1 2 研究现状 1 2 1 国内研究方向 国内对于本体论在信息检索中应用的研究主要集中于两点: 1 利用本体刻划的概念之间的内在联系将一些隐含( 或不明的) 信息挖掘出来, 使这些信息在检索中起着导引作用。文献 3 0 1 提出了一个智能搜索引擎模型,该 模型利用本体和信息过滤技术对用户的查询请求进行启发式导引,从而准确的表 明了用户的查询意图。 2 利用本体的领域信息,在这些领域信息的协助下,对要检索的文档进行分类。 同时,按照用户的兴趣爱好,对用户也进行分类,从而提高查询效率。文献1 2 9 l 以英文词汇的本体库w o r d n e t 中的本体作为背景本体,并对其中术语的每种含 义和相应的领域建立了对应关系,此外,定义了一些函数用于从本体中求出文档 关键字的定义,从某一领域对应的本体中求出该领域的术语集。并在这些函数和 本体的协助下对被检索文档按领域进行分类。 有些研究虽然没有直接涉及到本体论这个概念,但是它们所采用的概念层 次、语义网络思想实际上即属于本体论所涵盖的范畴1 3 6 1 。 东南人学预i :学位论文 1 2 2 国外研究方向 国外对于本体论的研究集中于这样几个方面: 1 _ 如何将用户的查询语言和资源描述用本体加以规范化和形式化,这样查询请 求和资源描述相一致,消除了表达上的差异,可以提高检索的精确度( p r e c i s i o n ) , 这种情况适合于在线黄页以及产品目录之类的信息检索系统。文献1 2 1 1 提出的 o n t o s e e k 系统即以在线黄页和产品目录为研究对象,将在线黄页和产品目录中 的主要数据以概念图的方式表达并存储于数据库中:同时,用户需求也以概念图 的形式表示,并与数据库中的概念图相匹配。o n t o s e e k 针对匹配提出了一系列 的规则与限制。 2 用本体的语义网络来挖掘概念之间的种种关系,将所有潜在相关的信息作为 检索的依据,提高检索的r e c a l l ( 查全率) 。文献 1 8 1 详细介绍了语言网络里的种 种关系,并提出了单词语义模型( w o r ds e m a n t i c sm o d e l ) ,将文档内容和用户查 询进行语义扩展,以此提高检索的查全率。 3 用本体概念对文档迸行标注( a n n o t a t i o n ) ,这些额外的元信息可以帮助检索工 具准确的判断哪些文档更加符合检索要求。文献【9 l 提出了e s c r i r e 系统,此系统 以生物基因领域的文章摘要和该领域的本体为试验基础,将需要表达的非形式化 信息以形式化的概念加以标注。同时该文献还探讨了有关标注中几个值得思考的 问题。 4 如何在x m l 这一类的半结构化文档中发挥本体论的作用。通常将本体的术语 概念嵌入到x m ! 标签罩,增加x m l 标签的语义表达能力。通过使用本体可以集成 访问不同的x m l 文档类型。文献 2 4 1 提出了o s i r i x ( o n t o l o g y g u i d e ds e a r c hf o r i n f o r m a t i o nr e t r i e v a li nx m ld o c u m e n t s ) 系统,o s i r i x 系统从预先定义好的本体中 产生标注d t d ,与原先的d t d 共同作用,形成了嵌有本体概念的x m l 文档,这 样,当o s i r i x 系统执行检索时,就可以利用本体中的概念层次,检索到更多的符 合需求的文档。文献p l 】开发的o n t o b r o k e r 系统,与o s i r i x 原理基本相似。 1 3 研究机构和成果 到目前为止,国内外已有许多学术机构、研究机构在从事本体论在语义化检 索中的作用的研究,并取得了一定的成果。 国外很多研究机构已经从不同的形式化程度对各个领域设计了本体,其中以 美国普林斯顿大学开发的w o r d n e t 3 2 1 ,美国德州奥斯汀的m c c ( m i c r o e l e c t r o n i e sa n dc o m p u t e rt e c h n o l o g yc o r p o r a t i o n ) 公司的研究项目 c y c l 3 3 1 ,南加州大学信息科学研究所自然语言组( t h e n a t u r a l l a n g u a g e g r o u p ) 研究的s e n s u s 3 4 1 最为著名。国内有影响的语言系统是董振东教授开发的知网, 它的概念组织结构与w o r d n e t 比较相似【3 5 i ,北京大学计算语言学研究所也在从 事中文概念辞书的研究,而概念组织结构的研究是本体组织研究的重要组成部 分。 此外,一些研究机构专注于研究本体标注,即如何将本体知识嵌入文档。在 这个领域罩,很多研究机构和组织专门研究并提出了一些标注模型,如德国的 k a d s r u h e 大学应用计算科学和形式化描述方法研究所( i n s t i t u t ef o ra p p l i e d c o m p u t e rs c i e n c ea n df o r m a ld e s c r i p t i o nm e t h o d s ) 开发的o n t o b r o k e r 系统1 3 1 l , 以及澳大利亚的g r i f f i m 大学开发的w e b k b 系统1 2 5 1 。而马早兰大学开发的 东南人学坝i ? 学位论文 s h o e 语言允许网页作者使用机器可读的知识标注他们的网络文档,使得智能 a g e n t 的工作可以丌展 1 2 1 。同时一些研究学者也在研究标注的指导原则,以便 标注工作更有效的进行1 9 】。 为了方便不同领域的专家能够自己设计、合并本体,一些组织也丌发了本体 编辑、合并、转换和管理工具,方便本体的丌发。 1 4 本文研究内容 本文以本体论在信息检索中的应用为研究对象,主要从两个方面来探讨 1 用户需求构建 用户需求中包括着丰富的语义内涵。针对目前用户需求处理中存在的同一概 念存在不同称谓、不同概念同一称谓、英文词汇的多念性、不同概念的相关性等 问题,我们可以在本体的帮助下,利用其对概念清晰的描述,统一不同称谓的同 一概念,确定同一称谓不同概念的各自领域,消除英文词汇的多态性。同时,通 过与用户的交互,利用本体描述的概念间的上位、下位、属关系,充分挖掘用户 需求蕴涵的语义,使得检索器接收到的是反映用户真f 需求的一组关键词,从而 改善了信息检索的质量。 2 文档分析 现有的文档具有不同的组织结构,通常将目前的文档根据组织结构的不同分 成三类:结构化文档、半结构化文档、非结构化文档。本文分析了不同组织结构 文档的特点及获取这些文档内容或主题时存在的问题。针对于这些存在的问题, 本文提出了不同的解决方法。结构化程度越低的文档就越不易于处理。h t m l 文 档作为非结构文档,相对于结构化文档、半结构化文档而言,语义的表现能力最 弱,然而h t m l 却是目前网络上的主要描述语言,因此对h t m l 文档的内容分类对 于信息检索而言非常重要。本文使用基于标注、基于关键词挖掘、基于机器学习 这三种方法对非结构化文档进行处理。基于标注的方法的思想是借助于事先定义 好的本体,将本体中的概念与非结构化文档旱的数据加以联系,给文档主动的增 添了语义。在基于关键词挖掘和基于机器学习这两种方法中,提出了基于概率统 计提取关键词和基于上下文训练确定文档领域的算法。 1 5 本文章节安排 本文共分为六章。第一章为绪论,简要介绍了研究现状,研究内容及章节安 排情况。第二章,我们将对本体论的概念、分类、本体的构造及与本体相关的语 言、本体工具和语义网络作更为详细的阐述。第三章主要是介绍信息检索的评估、 信息组织方式、信息检索工具和信息检索策略。在接下来的第四章是分析本体论 在信息检索中的应用,该章是在前几章的基础上,详细分析本体在用户需求构建 和文档获取分析两方面的具体应用。第五章,我们总结了前面章节,提出了基于 本体的信息检索模型,并以一简单示例加以说明。而最后一章我们对本文进行了 小结,提出了一些不足和对今后工作的展望。 东南大学硕士学位论史 第二章本体论概述 自从9 0 年代以后,本体论已经成了一个流行的研究课题,本体论是由人工 智能领域发展而来的。在信息检索和提取、知识表达和管理,基于a g e n t 的系统 设计,自然语言处理、信息集成和信息模型等领域,本体论将扮演着越来越重 要的角色。 2 1 有关本体的基本概念 2 1 1 本体定义 本体是一个哲学概念,用于描述事物的本质。 知识工程学者使用这个概念,是为了解决知识共享中的问题。人们发现, 知识难以共享常常是因为大家对同事物用了不同术语来表达。于是人们提 出,如果能找出事物的本质,并以此统一知识的组织和知识的表达,使之成为 大家普遍接受的规范,就有可能解决知识共享中的问题1 】。 关于本体的定义有多种,人们普遍接受的是斯坦福的g r u b e r t r 对本体所 给的定义: 本体是对概念化的精确描述。关于世界抽象的、简单化的观点即称之为概 念化,任何基于知识的系统都是以此为基础的。本体可以精确地表示那些隐含 ( 或不明确的) 信息,使得它们可被软件系统重用和共享。 概念是关于具有共同属性的一组对象、事件或符号的知识。它可能是具体 的,也可能是抽象地刻画、定义了一对象类的特征,通过描述元素表达出来。 同一个概念可以由多个描述元素来表达,这些描述元素在此概念的约束下构成 了同义关系,它们在此意义上可以等同起来。另外,概念并不是孤立存在的, 一个概念总是与其它概念之间存在着各种各样的关系1 3 6 1 。 从语义网络( 语义网络的定义及其介绍将在后续章节详述) 的角度来看, 我们又可以给出这样一个定义:本体是对共享概念明确、形式的描述。明确意 味着所用概念的类型和对这些概念使用的限制是明确定义的。形式是指这样一 个事实,本体应该是机器可处理的【3 】。 2 1 2 本体分类 本体的分类方式很多,从不同的角度可以有不同的分类【4 l ,目前公认的较 常见的有两种: 1 根据本体的形式化程度不同,可以把本体分为: ( 1 ) 高度非形式化的( h i g h l yi n f o r m a l ) ( 2 ) 结构非形式化的( s t r u c t u r e d i n f o r m a l ) ( 3 1 半形式化的( s e m i f o r m a l ) ( 4 ) 严格形式化的( r i g o r o u s l yf o r m a l ) 像w o r d n e t ( h t t p :,w w c o g s c i p r i n c e t o n e d u - w n ) 提供了大约l0 0 ,0 0 0 个词 汇的词汇库,这些词汇是以自然语言解释的,它们按照语义相等组成由多个单 词构成的同义词集,每一个同义词集代表一个英文单词特殊的意义,在同义词 集之间保持着各种语义关系。因此可以把它看成是非形式化的本体库。而 东南人学顺i :学位论文 c y c ( h t t p :w w w c y c c o m ) ,拥有巨大的多背景的知识库和有效的推导引擎,知 识库晕存储着超过一百力_ 条公理,可以对世界的大部分常识知识进行有效的推 导,因此可以认为是一个形式化程度很高的本体库。 2 根据本体的描述对象不同,可以把本体分为四类。 ( 1 1 特殊领域本体 领域本体( d o m a i no n t o l o g y ) 是以某一领域( 如医药、地理、余融、农 业、法律) 等为描述对象的本体。例如联合国粮农组织( f a o ) 于2 0 0 1 年启动 了农业本体论服务( a o s ,a g r i c u l t u r a lo n t o l o g ys e r v i c e ) 项目,旨在提高 网络信息的准确检索方法,建立农业分专业的信息标引、检索和知识管理平 台。 ( 2 1 一般世界知识本体 上文中提到的w o r d n e t 即属于一般知识本体,它涉及到多个领域。 ( 3 ) 问题求解本体 问题求解本体即以问题求解方法为描述对象的本体。 ( 4 ) 知识表示语言本体 表示本体( r e p r e s e n t a t i o no n t o l o g y ) 是以知识表示语言为描述对象的本 体。在表示本体中,类、对象、关系、属性、槽等术语经过严谨的分析和定 义。 目前在信息检索,知议工程,自然语言等领域用的较多的是( 1 ) ( 2 ) 描述的本 体类型。 2 1 3 本体构造 本体的构造过程需要耗费大量的人力和时间,特别在设计领域本体时,需 要与领域专家进行充分的交流、合作。 u s c h o l d g r u n i n g e r 在他所提出的本体构造的方法框架中向我们具体阐述 了本体构造的一般步骤,具有很好的借鉴意义。详细步骤如下: 1 本体捕获即确定关键的概念和关系,给出精确定义,并确定其它相关的术 语。 2 本体编码选择合适的表示语言表达概念和术语。 3 已有本体的集成对已有本体的重用和修改。 当然,在具体构造以前必须先确定本体的目的和使用范围。 2 2 与本体相关的语言探讨 2 2 1 几种本体编码语言 从上述步骤2 可以看出选用何种语言表达本体的概念和术语,以及它们之问 的关系构造和关系推导对于本体构造至关重要。目前已丌发出了许多本体编码 语言,功能各有侧重,本文对其进行了整理归纳。下面我们将按功能侧重点的 不同,分类简要介绍目前较为常用的几种本体编码语言。 1 本体交换语言 ( i ) x o l 一种基于x m l 的本体交换语言,设计的目的在于在一些特定团体 中提供一种本体定义( o n t o l o g yd e f i n i t i o n ) 交换的格式。x o l 语言既可以对模 式信息编码,如对象数据库罩的类定义:又可以对非模式信息编码,如对象数 据库幂的对象定义。x o l 由于提供了本体定义交换的格式,因此方便了本体共 东市人学顿 j 学位论义 享。x o l 的语法是基于x m l ,语义是基于o k b c l i t e ,o k b c - - l i t e 是o k b c ( o p e nk n o w l e d g e b a s ec o n n e c t i v i t y ) 框架知识表达模型的一种简单形式1 6 1 。 ( 2 ) o n t o l i n g u a 语法是基于l i s p ,语义与o k b c - l i t e 十分相似【6 】。 2 本体标记语言 ( 1 ) s h o e 由马罩兰大学开发,可以看作是h t m l 扩展。在h t m l 中,网页上 的数据机器无法理解。s h o e 允许网页作者使用机器可读的知识标注他们的网络 文档。s h o e 使得智能a g e n t 的工作可以丌展。由于x m l 的使用r 渐广泛,s h o e 还有从x m l 扩展而来的版本1 1 2 1 。 ( 2 ) 0 m l 由华盛顿大学丌发,部分是基于s h o e ,因此o m l 与s h o e 分享很多特 性1 7 1 。o m l 的语义是基于概念图。o m l 具有四个层次: o m l 核,0 层, 该层与语言的逻辑部分相关。 简单o m l 层,该层可与r d f 直接映射。 简化o m l 层,该层包括概念图特征。 标准o m l 层,该层是o m l 中最具表达力的版本。 f 3 ) d a m l 全称是t h ed a r p aa g e n tm a r k u pl a n g u a g e 。d a m l 语言也是力图克 服h t m l 语义表达的缺乏而产生的。o a m l 语言可以看作是x m l 和r d f 的扩展 1 3 7 1 。 ( 4 ) d a m l + o i l 使用于网络资源的语义标记语言,它建立在w 3 c 标准r d f 和 r d fs c h e m a 之上,同时用更丰富的建模元语对此进行了扩充。d a m l + o i l 提供了 基于框架语言旱常用的一些建模元语,可以看作是d a m l 的壤新版本 a 7 1 。 3 本体推导语言 0 i l 在o n t o k n o w l e d g e 项目中开发。o i l 是基于网络的本体表达和推导 层。不但从基于框架的语言中汲取了丰富的建模元语,同时从描述逻辑旱继承 了形式语义和推导机制。0 i l 与0 m l 对于标准本体语言采取了类似的分类标准 【3 8 】。它也分为四层,上层比下层增加了功能和复杂度,这四层由低到高依次 为: 核心o i l 标准o i l 实例o i l 重量型o i l 4 其他本体语言 o w l 是由w 3 c 组织推出的网络本体语言,o w l l 3 9 i 通过提供另外的用于 描述术语的词汇表,使得其表现的网络内容比用l ,r d f 和r d f s 表现具有更 好的机器可读性。o w l 与d a m l + o i l 之间具有相似点,也有不同点。马旱兰大学 的研究生j e n n i f e rg o l b e c k 已经丌发了从d a m l + o i l 文件到o w l 文件的转换工 具。 2 2 2x m l 与r d f 简介 从上面的几种本体语言可以看到它们与w 3 c 组织丌发的x m l 与r d f 有着非 常紧密的联系,为了能更好的理解上述几种本体语言的特性与功能,本文将在 下面对l l l l 2 7 1 和r d f 予以简要的介绍: 1 x m l x m l 是s g m l 的一个优化子集,称之为元标记语言,使用者可以根 据需要创建新的标记,x m l 的可扩展性就在于此。带标记的元素是x m l 文档的 构造块,这些元素可以有若干个属性,并可以包含零个或多个子元素。这些子 东南大学硕士学位论文 元素可以是文本数据,也可以是带标记的元素。x m l 文档可以在它的文档类型 声明中声明某个d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 。d t d 是关于l 文档中出 现的标记和元素结构的语法约束,它可以用来验证一个x m l 文档。d t d 是一系 列关于元素类型、属性、实体和符号的定义。它定义了文档所需的标记,比如 可在文档里使用的元素类型,这些元素之间可能的联系等等。x m l 的特点可用 以下几点概括: ( 1 ) 可扩展性 ( 2 1 灵活性 ( 3 ) 自描述性 ( 4 ) 简明性 2 r d f r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 是由w 3 c 开发用于描述网 络资源的框架,使用x m l 作为交换语法。r d f 旨在于使得自治a g e n t 的工作更 易于开展,搜索引擎的性能得以改善。r d f 非常简单,主要是表达和处理一些 简单的断言( a s s e r t i o n s ) 。如r d f 模型里的声明可由三部分组成:资源、属 性和值【7 1 。 在r d f 中资源由u r i s ( u n i f o r mr e s o u r c ei d e n t i f i e r s ) 或锚( a n c h o r ) i d s 来表示,属性定义了具体的特征、性质、关系来描述资源。声明给特定资 源的某个属性赋值,这个值也可能是另外一个r d f 声明。 各种本体语言间的关系可参见图2 1 。 图2 1 各种本体语言关系示意 2 3 本体工具的探讨 东南人学倾i 。学位论文 本体的研究与开发已经受到众多团体的广泛重视,本体集成开发和管理工 具可以使得本体构建、管理、集成和一致性检查的工作得以有效的进行。下面 我们将对已有的这类工具进行分类并概述其特点与功能。 2 3 1 本体编辑工具 从2 2 节我们对语言的探讨不难看出。目前的本体编码语言都是基于x m l 或是r d f 的。因此有些本体编码语言仅用x m l 编辑器就可以写出合法的本体文 件。但是一些语言为了更好的利用自己的特性,还是开发了专有的编辑工具: 1 o n t o e d i t ( h t t p :w w w o n t o p r i s e d e ) 适用语言o a m l + o i l : 2 d a m le m a c sm o d e 适用语言d a m l 3 o i l e d ( h t t p :i m g c s m a n a c u k o i l ) 是简单的o i l 编辑工具,适用于开发小范围的本体 2 3 2 本体标注工具 1 k n o w l e d g ea n n o t a t o r 此工具用于帮助用户将s h o e 标记添加到网页上 2 a e r o i ) a m l 此工具自动从文本和网页产生基本的d a m l 标注和标记 2 3 3 本体语言转换工具 1 o w lc o n v e r t e r 用予将d a m l + o i l 本体转换到o w l 本体。 2 o i l 2 r d f s 用于将x m lo i l l 0 转换到r d f s 2 4 语义网络 我们把语义网络归到本体论这一章,是因为本体论与语义网络有着极为密 切的关系,本体论是语义网络的基础。 2 4 1 国内外对于语义网络认识上的差异 语义网络是个内涵和外延都相当丰富的概念,作者查阅了大量的国内外资 料发现了国内外学者对该概念的认识上存在着差异。 国内学者普遍认为语义网络就是概念和概念之间关系组成的结点图,作者 认为这种定义涉及的只是语义网络的内涵。而未对语义网络的外延进行充分的 描述和解释。 国外对于语义网络的认识,w 3 c 已经给出了这样一个标准定义:语义网络 是力维网上数据的抽象表示,这些数据表示是基于r d f 和其他将要被定义的标 准。w 3 c 组织与很多研究者和工业伙伴j 下在合作丌发语义网络。t i m3 e r n e r s l e e 认为语义网络是目前网络的扩展,在语义网络上的信息具有定义良好的意 义,使得计算机可以理解且和人们合作工作。 东南人学顾l :学位论义 我们认为所有网络上机器可以理解的数据,不论以哪种形式表现,构成了 语义网络,这样就突破了概念结点图的局限,但是概念结点图对理解概念之间 的语义关系起到了一个良好的导向作用。在下面,我们将给出概念的几种典型 关系并举例说明,同时以一个概念语义图详细阐述。 2 4 2 概念间的各种关系及概念语义图 1 同义词关系 同义词关系表达了在相似数据源问的一种等价关系,是一种对称关系。如 计算机和电脑就属于同一个概念,它们是同义词关系。 2 上位关系 上位关系表示i s a 关系,例如:t e a c h e ri s - ap e r s o n ,p e r s o n 是 t e a c h e r 的上位概念。上位关系也称之为泛化关系,上位概念更具有一般化。 3 下位关系 下位关系则与上面提到的上位关系相反。上下位关系是不对称的,是一种 偏序关系,具有传递性。例如t e a c h e ri s ap e r s o n ,t e a c h e r 是p e r s o n 的下 位概念:e n g l i s ht e a c h e ri s at e a c h e r ,e n g l i s ht e a c h e r 是t e a c h e r 的下 位概念。根据传递性e n g l i s ht e a c h e r 是p e r s o n 的下位概念。 4 属关系 属关系r t 表示一类事物包含于另一类事物,如p a r t - o f 关系,鼠标p a r t o f 电脑。 我们综合上面概念间的各种关系,以图2 2 来阐明概念语义图的具体结 构,其中概念在其中表现为节点,而节点间的弧则代表了上述的种种关系。 2 4 3 语义网络一般体系 语义网络的基本体系由网络语言和网络工具两部分组成: 1 网络语占 这些网络语占允许数据具有机器可处理的语义。 数据可被机器处理的一个条件是数据具有一定的结构,目前在网络上使用 的最为主要的结构化技术是文档标记。如上文提到的l 可以满足具体应用 程序标签标记的需要,但是x m l 并没有指定数据的使用和语义,这样出现了 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) ,r d f 是一种给有关数据赋予意义的 机制,而在x m l 和r d f 之上发展了各种本体语言可以使数据带有机器可处理 的语义。 2 网络工具 网络工具可以用以处理这些数据。 像x m l 、r d f 解析器以及上文提到的各种本体工具、智能a g e n t 都属于这 个范畴。 2 4 4 本体论对语义网络的支持 本体论是语义网络的基础,因为本体提供了形式化和一致的领域模型,可 以被人和机器解释。本体论对语义网络的支持主要体现在以下两个方面: 1 本体虽然可以呈现不同的形式,但所有的这些形式都应该包括词汇表,为 一个领域提供共享和一致的词汇,这样网络上的数据就具有了清晰的含义,便 于人和机器的通信。 东南大学硕士学位论文 2 本体的概念组织通常是一种层次结构,通过这种层次结构,我们即可获取 语义网络上部分数据的关系。同时,网络工具也容易利用这些关系对数据进行 推导、加工。 注:h a sp a r t 可视为p a r t - o f 的逆关系 图2 2 概念语义图示例 东南人学顺i 。学位论殳 第三章信息检索 随着社会和科学的不断发展,人们对信息的需求越来越大,而现有信息量 也正在以几何级数递增,如何高效的获取有效的信息成为除信息本身之外人们 非常关注的一个焦点,信息检索成了沟通用户和信息的重要桥梁。 在这一章中,我们将首先给出衡量信息检索效果的指标,然后分析几种不 同的信息组织方式、现有的检索工具以及针对不同的信息组织方式所采取的信 息检索策略。 3 1 信息检索评估 信息检索的目的是查找出相关信息,在信息检索中,可以用以下两个指标 柬衡量检索效果: 1 查全率 查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相 关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被 检索出来。 查全率= 检出相关文献量文献库内相关文献总量 1 0 0 例如,要利用某个检索系统查询某课题。假设在该系统文献库中共有相关 文献为i 0 0 篇,而只检索出来6 0 篇,那么查全率就等于6 0 9 6 。 2 查准率 查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的 比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。 查准率= 检出相关文献量检出文献总量 1 0 0 如果检索出的文献总篇数为1 0 0 篇,经审查确定其中与课题相关的只有8 0 篇,另外2 0 篇与该课题无关。那么,这次检索的查准率就等于8 0 9 6 。 在检索中最理想的是查全率和查准率都达到1 0 0 ,就是数据库中收录的全 部相关文献都被检索出来,而且检索出来的文献全部都是相关文献。但事实 上,检索中有许多因素使这个指标很难达到,总存在一定的误差。 查准率和查全率结合起来,描述了检索系统的性能状况。查全率和查准率 之问有着互逆的关系,就是说查全率提高,查准率就下降,反之亦然。在计算 机检索中,一般认为查准率为6 0 一7 0 、查全率为4 0 _ _ 6 0 是较为理想的。 3 2 信息组织方式 3 2 1 非结构化信息 在网络上大量存在的h t m l 文档就是非结构化信息。 信息检索原理 东南人学坝i 。学位论史 - b o d y 叫h t m l h t m l 文档罩的标记都是属于一个固定标记集,h t m l 里的标记只能提供有关文 本的三方面的内容: 1 文本的物理属性如字体、颜色等。 c o l o r 说明了颜色,f o n t 代表了字体 2 文本的物理位置 如在 和 之间的文本就被认为标题 和 之间的文本就被认为是主体部分 3 与其他文本的相关性。 信息检索 说明了这儿有到信息检索文本的链接。 3 2 2 半结构化信息 x m l 文档可以看作是半结构化的文档,在这种文档中,用户可以根据自己 需要创建标记用于标注文档内元素的属性。x m l 文档示例如下: j o h n s o n k n a m e 5 0 0 0 p i n e v i l l e 6 0 0 0 0 相应的d t d 示例如下: 此文档告诉我们某个州的基本情况,这些州包括哪些城市,同时给出描述 城市的一些基本属性如城市名、人口状况等。而标记罩的c i t y i dn 以独- - n 2 的确定一个城市,等同于数据库罩的主键。 东南人学顾l :学位论义 x m l 文档对h t m l 文档改进主要在于赋予标记以意义,比如说,我们知 道了p i n e v i l l e 是城市名而不是人名,6 0 0 0 0 代表的是人口数,这样便于人机互 操作。 3 2 3 结构化信息 1 结构化信息的特征 我们认为结构化信息必须满足下列两个条件: f 1 ) 文档中的内容必须有确定的属性和值 ( 2 ) 文档中的内容必须有确定的物理位置 2 典型结构化信息分析 下面给出一个例子,从黄页我们可以查到下面的信息: ( 1 ) 汽车收音机和音响零售店 ( 2 ) 汽车发动机改造、维修和更换车问 ( 3 ) 小汽车修理和专卖店 ( 4 ) 吉普修理和零售店 ( 5 ) 马达维修和更换工厂 如果我们可以将上述五条信息根据结构化信息的特征予以组织,可以形成下面 的表格。 表3 1 序列号商业类型 活动目标领域 l 商店 零售收音机 汽车 零售音响 改造发动机 2 车间 维修发动机汽车 更换发动机 3商店 专卖小汽车 修理小汽车 4 商店 零售 拙 修理 - k :盐 5工厂 更换马达 维修马达 如果单纯从非结构信息中检索汽车,我们无法区分( 1 ) ( 2 ) 中的汽车是汽车本 身还是指汽车配件,但由于( 1 ) ( 2 ) 出现了汽车关键字,我们会把它当作汽车信息 收集,这样虽然查全率提高了,但是查准率降低,搜到的是不相关信息。而把 此信息结构化后,我们知道此汽车传达的是领域信息,目标应该是收音机和音 响。因此结构化后的信息可以保证更高的查准率。 数据库使用“表”代表一个有意义的实体,且“表”旱的属性用来刻画实 体的特征,以及他们之间的关系,这样的数据组织方式可以称之为结构化信 息。 东南大学顺i j 学位论文 目前的数字图书馆主要是存储一些科技文献,而科技文献中的标题、关键 字、作者、引文、中文刊名、机构、i s s n 、中文摘要、时间、所属领域等都属 于描述科技文献这个对象的属性。 3 3 信息检索工具 3 3 1 现有检索工具 数字图书馆如中国期刊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论