




已阅读5页,还剩50页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的视频搜索引擎的研究分析与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于本体的视频搜索引擎的研究分析与设计 摘要 随着计算机处理能力日益增强,因特网( i n t e m e t ) 技术的广泛普及 和网络带宽不断提高,大量的信息也不断地产生,在这些不断扩大的 信息中寻找需要的资源也就成为一个问题。而另一方面,虽然搜索技 术中得到相关结果的速度正以兆兆字节甚至十倍于此的速度增加,但 从w e b 或数据仓库中找到你所需要的内容却并非与其成正比。 多媒体信息凭借其具有直观友好、精彩丰富的特点,越来越受到 人们的青睐,其中视频信息是多媒体信息中所占比例最大,信息量最 多,应用前景最广,而又最复杂的部分,具有数据量大、非结构化、 内容多义性等不利于处理的特性,也正因为如此时下的搜索引擎对于 视频信息的支持更加难以达到令用户满意的效果,如何能在视频这个 领域提高搜索引擎的搜索效果及返回结果质量已经成为计算机及其 相关学科的研究热点问题之一。 针对上述问题,本文将w e b2 0 的成熟技术聚类分析与下一 代网络搜索技术的基础本体论相结合,使用o w l 来组织视频的 语义结构的信息,并以此构建了针对视频的本体模型,根据该模型制 定相应的本体推理规则并在本体推理机中进行推理查询,为了使推理 返回的结果更加符合用户的浏览习惯,将推理结果依据改进的聚类分 析算法处理后的结果修正排列顺序,使用户期望的信息记录的位置更 为靠前。 最后为了验证本文设计的视频搜索引擎的有效性和先进性,以 j e n a 推理机为基础实现了一个测试系统并对测试数据做分析和比较 说明。 关键词:视频语义网本体推理机聚类k m e a n sg d k m e a n sj e n a d 蹄z i 之e s e a r c ha n a i y s i sa n dd e s d 咖n to fv i d e o s e a r c h i n ge n g i n eb a s e do no n t o l o g y a b s t r a c t w i t ht h e i n c r e a s i n gp o w e r o ft h e c o m p u t e rp r o c e s s ,i n t e m e t t e c h n o l o g yw i d e l yu s e da n dt h ei n c r e a s eo fn e t w o r kb a n d w i d t h ,t h e i n f o r m a t i o ni si n c r e a s i n gv e r yq u i c k l y i tb e c o m e sap r o b l e mt of i n dt h e r i g h t r e s o u r c ef r o mt h i se x p a n d i n gi n f o r m a t i o n o nt h eo t h e rh a n d , a l t h o u g ht h es p e e do ff i n d i n gt h er e l a t e dr e s u l tf r o mt h eh u g er e s o u r c ei s i n c r e a s e q u i c k l y , f i n d i n gt h er i g h ti n f o r m a t i o nf r o mw e bo rd a t a w a r e h o u s ei sn o tp r o g r e s s i n g r a p i d l y m u l t i m e d i ai n f o r m a t i o ni sa t t r a c t i n gt h ep e o p l e sa t t e n t i o nb e c a u s eo f i t ss p e c i a lf e a t u r e ,s u c ha sf r i e n d l y , w o n d e r f u l ,r i c ha n ds oo n a so n eo f t h em u l t i m e d i ai n f o r m a t i o n ,t h ev i d e oi st h el a r g e s ta n dm o s tc o m p l e x o n e b e c a u s ei tc o n t a i n st h el a r g ea m o u n to fd a t a , u n s t r u c t u r e dc o n t e n t a n dd i f f i c u l tt ob ep r o c e s s e dw i t h ,t h es e a r c he n g i n et o d a yc a n ts u p p o r ti t w e l l h o wt oi n c r e a s et h eq u a l i t yo ft h es e a r c h i n gr e s u l t sh a sb e c o m eo n e o ft h eh o ti s s u e sa b o u tc o m p u t e ra n dr e l a t e dd i s c i p l i n e s i n r e s p o n s e t ot h ei s s u ea b o v e ,t h i sa r t i c l em i x e st h em a t u r e t e c h n o l o g yo fw e b 2 1h l u s t e ra n a l y s i sw i t ht h eb a s eo fn e x t - g e n e r a t i o n n e t w o r ks e a r c ht e c h n o l o g y - - - o n t o l o g y , u s et h eo w lt oo r g a n i z et h e s t r u c t u r eo ft h ev i d e o s e m a n t i ci n f o r m a t i o na n db u i l dt h ev i d e o o n t o l o g i c a lm o d e l a c c o r d i n gt ot h em o d e lt om a k et h ec o r r e s p o n d i n g r u l e so fo n t o l o g yr e a s o n i n ga n ds e a r c ht h er e s u l t si nt h eo n t o l o g i c a l r e a s o n e r s i no r d e rt om a k et h es e a r c h i n gr e s u l t sm o r es u i t a b l et ot h e u s e r sb r o w s i n gh a b i t s ,t h eo r d e ro ft h er e a s o n i n gr e s u l t sw i l lb ec h a n g e d b a s e do nt h ec l u s t e ra n a l y s i sa l g o r i t h m w i t ht h i sp r o c e s s ,t h ei n f o r m a t i o n t h a tt h eu s e r sn e e dw i l lb ep r e s e n t e di nam o r ef o r w a r dp o s i t i o n f i n a l l y , i no r d e rt ov a l i d a t et h ee f f e c t i v e n e s sa n da d v a n c e m e n to ft h e s e a r c h i n ge n g i n em o d e lw h i c ht h i sa r t i c l ed e s c r i b e s ,w ec a r r yo u tat e s t s y s t e mb a s e do nj e n aa n dm a k eaa n a l y s i sa n dc o m p a r i s o nw i t ht h et e s t 4 d a t a k e yw o r d s :v i d e os e m a n t i c 、e bo n t o l o g yk m e a n s r e a s o n n n gm l a c h i n gc l u s t e r i n gg d k m e a n sj e n ao 、l 5 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:关r 互女、 日期:7 0 i ) 7 f p 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅; 学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制 手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名:乒5l 女、日期:洲7 弓i o 导师签名:凯凳日期:九川弓。ow ,。 2 1 1 背景 第一章引言 自1 9 9 4 年左右,万维网的出现,它的开放性( o p e n n e s s ) 和其上信息广泛 的可访问性( a c c e s s i b i l i t y ) 极大地鼓励了人们创作的积极性。作为一个信息源, w e b 给信息检索领域带来了新的发展机遇和技术挑战。其规模之大,在短短的 1 0 年左右时间,人类至少生产了4 0 亿网页,我们不能不为人类在w e b 上创造文 字的激情惊叹! 正是如此,作为人类最为基本的活动之一信息的生产、传播、 搜集与查询,随着i n t e r n e t 的迅速发展而变得尤为重要,如何在成指数级增长的 各式各样的信息中快速并准确的找到用户所需要的资源和信息便成为人们重点 关注的问题。2 0 0 4 年5 月n i e l s e nn o r m a ng r o u p 发布了其2 0 0 4 年w e b 可用性调 查结果显示搜索已成为w e b 应用成功道路上的巨大障碍之一。据调查,访问搜 索引擎已成为8 8 的w e b 会话中的第一步,用户平均在每次会话中会访问3 2 个站点( 访问搜索引擎除外) 。所有用户( 包括偶尔使用或经验丰富的用户) 对搜索 结果满意的次数百分比仅为4 2 ,经验丰富的用户的满意结果可以达到5 0 , 但这仍然意味着搜索技术的失败。 作为搜索引擎应用的一个方面,多媒体信息更是搜索应用的薄弱环节。多媒 体信息包括数字、文本、图形、图像、音乐、语音、动画和视频等各种信息。视 频获取设备的普及,又造成大量图像和视频数据不断积累。这些数据汇聚为一个 海量的视频数据库。然而,目前在实际应用中,如何从这些海量数据中搜索人们 感兴趣的信息并有效利用这些信息却依然是公认的难题。对于文本,现在己经有 了很多搜索引擎来为用户搜索文本信息,但对于视频、音频等内容,目前却无法 通过现有的搜索引擎查询到。例如,在电视台多媒体编辑中快速搜索素材就是一 件很困难的事。因此如何快速地搜索各种多媒体素材,如何对大量的多媒体信息 进行组织和建库,以及如何对海量的多媒体信息进行有效的分类和检索,就成为 了人们迫切需要研究解决的问题。 多媒体信息具有直观友好、精彩丰富的特点,同时具有数据量大、非结构化、 内容多义性等不利于处理的特性。而其中视频信息是多媒体信息中所占比例最 大,信息量最多,应用前景最广,而又最复杂的部分。然而时下的搜索引擎对于 视频信息的支持却难以达到令用户满意的效果。 8 1 2 本文的主要贡献 针对以上问题以及用户信息需求的多样化,例如更快更有效的搜索结果排 名、用户反馈等,基于现有的语义分析原理本文提出了一种新的搜索引擎的设计 模型。作为本文的主要创新之处是将w e b3 0 中的关键技术本体与聚类分析 相结合,即基于本体描述视频信息,实现依据本体模型的各元素之间的联系进行 简单的推理,将可能符合用户需求的所有可能信息作为结果集,再依据聚类分析 辅助结果的排序,使用户更加方便的浏览到自己所需的视频信息。 1 3 本文的组织 本文主要研究将现有搜索引擎技术中的聚类分析与基于本体的推理相结合, 设计一种有效的视频搜索解决方案,并结合该方案对实验结果进行了分析,全文 共分为六章。 第一章是本文的引言部分。这一章主要介绍w e b 搜索的现状和碰到的比较 热门的问题,提出了本文研究的目标,给出本文研究的主要内容、创新点、意义、 应用背景及本文研究的技术基础,最后给出本文的组织结构。 第二章介绍了用于实现本视频搜索引擎设计的相关基本概念和相关技术,以 及现有聚类分析模型的详细介绍和其存在的缺点,这些都是后续章节的基础。 第三章详细阐述了基于本体的视频搜索引擎模型的设计,包括其理论基础以 及需要的相关算法设计,这些是本文最重要的理论部分。 第四、五章是本文的实验部分,主要介绍了实验环境的搭建与视频搜索模型 相关子系统的设计与实现,这一章是本文最重要的实践部分。 第六章通过对实验结果分析,说明了本文所描述的视频搜索模型与现有通用 搜索引擎的优缺点。 第七章是全文的总结部分,作者在此对本文的研究进行了归纳总结,还给出 了该模型的一些应用场景,并对后续的研究做了进一步的展望。 9 第二章相关技术 2 1 传统搜索引擎基本介绍 为了实现对网络资源的快速定位,搜索引擎已经成为网络世界中应用最为广 泛的技术,本节将对传统搜索引擎的工作流程作一个较为详细的介绍。 现代大规模高质量搜索引擎一般采用如图2 1 所示的称之为三段式的工作流 程【1 1 ,即:网页搜集、预处理和查询服务。 图2 - 1 搜索引擎三段式工作流程 基于网络爬虫的搜索引擎的框架从最简单的方面来说可以分成如图2 2 的几 个部分。首先是从网络上采集网页,然后将这些原始的资料放入搜索系统中进行 处理并且等待查询关键词的输入,最后根据查询词,这个系统可以给出按照文档 与查询关键词的相似度从大n d , 的排序查询结果,以供用户使用。 图2 - 2 简单直观的搜索引擎框架 通过观察图2 2 ,可以发现搜索引擎的几乎所有奥秘都在那个搜索系统以及 1 0 和它相关的三个接口中。所以展开这个系统的结构就成为的进一步了解搜索引擎 结构的关键。图2 3 则给出的细化的搜索系统的框架。通过图2 3 可以看到搜索 引擎工作的具体流程。 图2 - 3 搜索引擎框架的细化 分析图2 3 这个框架可以发现搜索引擎的工作流程【2 】: 第一步:网页的采集。通过网络爬虫将大量的网页抓到本地,形成文档。 第二步:文档的处理。但是图中标明的是广义的文本处理,而不是单纯的文 档处理。这是因为发现了这个广义的文本处理过程不仅仅是处理从网络上下载的 网页文档,这里的文本处理还涉及到了关键词的预处理操作。当然,处理文档和 处理关键词在这个文本处理关节中的内容是相同的。具体可以包括中文分词、停 用词消除、词干还原等等。并且这里对于不同语言的文档,其处理重点是不同的。 第三步:建立索引。对于处理完的文本,系统就可以建立索引了。现在最常 用的建索引的方式莫过于全文倒排索引。它是以从文档中切分出的单词或分好词 的中文词来作为索引项( t e r m ) ,所有不重复的索引词组成了一个词库,每个索 引项赋予它与每篇文档的关系,这种关系体现在最重要的两个信息上:一个是每 个索引项在每一篇文档中出现的次数,另一个则是整个文档中出现这个索引项的 文档个数。这样的两个信息表征了每个索引项与整个文档库中各个文档的紧密程 度。这样的通过词的这种信息来建立词到文档的“连接”方式就是倒排索引。同 时从用户处来的关键词就可以看成是上述索引项的组合,从而就可以找到与关键 词相关度很大的文档。当然,关键词可能是多个词( 即多个索引项) ,因此进行 查找是下一步的工作。 第四步:进行查找。从整个文档中找出包含查询的索引项的文档。所以在查 找前对关键词进行的处理也是重要的,它具体可以包括查询扩展和查询重构。前 者主要是利用同义词或近义词对关键词进行扩展,比如用户查找的关键词为“电 脑”时,通过这步处理系统可以做到返回与“计算机”,“微机 等同义词也相关 的文档,提高搜索的准确度【3 】。后者是指利用用户的反馈信息对关键词进行适当 的修改。当然查找这一步在许多实际的系统中和下一步一一排序,是可以同时完 成的。因为查找出来的文档都已经可以按照文档和关键词的相关度进行排序。 第五步:排序。把相关的文档按照文档与关键词的相关度进行整理排列。当 然相关度只是进行排序的一种参考参数,在实际应用中还会有进行排序的其他附 加参考参数。比如g o o g l e 的p a g e r a n k 算法就是对网页的重要程度进行排序。 第六步:结果展示。 上面描述的搜索引擎对于现有网页资源的搜索有一定的重要意义,但其作用 也有一定的局限,譬如当用户基本不了解自己所需查找的资源时往往会在选择搜 索关键词时不知如何下手,又或者用户输入的搜索请求与广泛意义上对该知识的 了解有一定差距,从而导致用户需要的资源没能被全部返回。为了解决上述问题, 语义搜索便作为一种先进的、理想化的技术登上了搜索引擎发展的历史舞台,它 的先进之处将在下一节详细介绍。 2 2 语义w e b 基本介绍 语义w 曲是现有w e b 的延伸,目的是使w e b 上的信息具有计算机可以理解 的语义。其创始人t i mb e m e r s l e e 对语义w e b 的定义【4 】是:“语义w e b 是一个 网,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息, 以利于机器的自动处理”。 现在网上比较流行的检索工具g o o g l e 和百度等搜索引擎,它们都是要求用 户输入确定的或者模糊的关键字进行查找,当模糊度较小时,可能查不到所需要 的内容,而当模糊度太大时,计算机可能要查询太多的无关内容,不容易做到实 时性。例如,当用户需要查找有关“a p p l ei n c 的信息,结果可能出现许多用 户不关心的内容,像水果“a p p l e 的大量的无关信息,或者其他的垃圾信息, 事实上,可以知道,用户是要检索“苹果公司。从语义的角度来说,用户可能 需要这个公司的相关信息,背景信息,销售记录,产品介绍等。因此,语义就是 要解决关键字的内在意义,而不是从字面上的意思进行检索。 1 2 语义网的出现正是针对上述问题,语义网的基础是一种新型搜索技术,通过 这一技术,用户只需使用日常语言输入问题,就可以获得想要的答案。下一代搜 索引擎的开发者认为,他们的技术能“理解 用户所使用的语言,在这方面远远 强于谷歌的技术。新型搜索引擎随后遍历一个覆盖所有互联网内容的数据库,以 寻找匹配度最高的内容。通过这一方式,它们可以针对用户提出的问题,例如“谁 是全球最好的石油公司,或者“女性最喜欢哪部电影 ,给出最准确的答案。 这就是很多语义搜索创业公司的目标,它们希望改变人们现有的网络搜索方 式。不过,要实现这一目标,它们必须超越谷歌。作为一个强大、易用的搜索引 擎,谷歌已经在美国网络搜索市场占据了5 0 以上的市场,成为了搜索技术领域 的实施标准。这是一项艰巨的任务,但回报也足够丰厚,因为搜索结果已经同广 告营收挂钩。 语义万维网有如下特点:首先,语义万维网并不是一个革命性的全新的网 络,相反,它是一个对现在的万维网的一个自然的扩展;其次,语义万维网和当 前的万维网最大的不同在于其上的信息具有明确给定的意义;第三,语义万维网 对社会的影响在于它能够使得电脑可以通过网络和人们进行更好的协同工作。 因此,基于语义万维网技术的语义搜索是应对下一代搜索引擎挑战的一个非 常有潜力的方法。 2 2 1 语义w e b 体系结构 语义w e b 的基本体系结构【5 1 如下图所示: 图2 - 4t i mb e r n e r s - l e e 提出的语义w e b 的体系结构 其中核心层为x m l 、r d f ,o n t o l o g y 在其体系结构中,第一层是u n i c o d e 和u r i ,它是整个语义w e b 的基础, u n i c 0 d e ( 统一编码) 处理资源的编码,u r i ( 统一资源定位器) 负责标识资源; 第二层是x m l + 名空间+ x m l 模式,用于表示数据的内容和结构;第三层是 r d f + r d f 模式,用于描述资源及其类型;第四层是本体词汇,用于描述各种 资源之间的联系;第五层是逻辑,在下面四层的基础上进行逻辑推理操作;第六 层是验证,根据逻辑陈述进行验证以得出结论;第七层是信任,在用户间建立信 任关系。 第二、三、四层是语义w e b 的关键层,用于表示w e b 信息的语义,也是现 在语义w e b 研究的热点所在。可扩展标记语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 让每个人都能创建自己的标签,来对网页或页面的部分文字进行注释。脚本, 或者说是程序,可以将这些标签运用到复杂的应用中,不过程序编写者必须知道 网页作者是如何使用每一个标签的。简而言之,x m l 允许用户在文档中加入任 意的结构。资源描述框架r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 的基本结构 是对象属性值三元组,也就相当于句子中的主语、谓语和宾语。这些三元组可 以用x m l 语法来表示。用这种结构描述由机器处理的大量数据,是非常自然的 方法。r d f 模式是一个描述r d f 资源的属性( p r o p e r t y ) 和类( c l a s s ) 的词汇 表,提供了关于这些属性和类的层次结构的语义。 因为两个系统可能采用不同的标识符表示同一概念,也可能用一个标识符表 示不同的含义,程序若要在两个数据库之间进行信息的比较和合并,就必须了解 某些标识符表示的是否是同一事物。对该问题的一个解决方法就是本体论 ( o n t o l o g y ) 。本体是概念化的显式说明,包括分类和一套推理规则。分类定义对 象的类别及其之间的关系,使我们能够表达实体之间的大量关系,而根据推理规 则,程序可以进行自动推理。简单地说,就是在不同的系统间定义一本字典或者 度量表,使它们对实体及其之间的关系达成共识,以便交流和共享,有关本体的 知识将会在下一节详细介绍。 语义w e b 需要能够对w e b 文档中的术语含义进行形式化描述。d a m l + o i l ( 即d a r p a 代理标记语言+ 本体推论语言) ,o w l ( w e b 本体语言) ,它们是 w 3 c 规范的重要扩充和改进,都是建立在人工智能知识表示基础之上的本体语 言,提供了一种自然方式来描述在w e b 词间的类与子类之间的关系,以及在类 与类之间( 或子类与子类之间) 关系上的限制。它们比r d f 模式添加了更多的 用于描述属性和类的词汇,例如类之间的不相交性( d i s j o i n t n e s s ) 、等价性、更 丰富的属性类型、属性特征等。 1 4 2 2 2o n t o l o g y 详细介绍 由于本文所要介绍的视频搜索系统中对于视频信息的描述采用的是本体描 述语言o w l ,本节将对本体的定义及相关知识做详细介绍。 知识本体( o n t o l o g y ) 本来是哲学中的一个概念。近年来,知识本体在人工智 能领域引起了研究人员的兴趣,并越来越多的应用在万维网信息的表示、组织和 管理上。知识本体被赋予了太多的含义,从抽象的哲学概念,到实用的计算机推 理。牛津英语辞典对“o n t o l o g y 一的解释是“对于存在的研究或科学( t h es c i e n c eo r s t u d yo f b e i n g ) ,人工智能领域经常引用o r u b e 一6 】在1 9 9 3 年的定义“概念体系 的规范( s p e c i f i c a t i o no fc o n c e p t u a l i z a t i o n ) ,其定义的表达如下:”i ti s 觚e x p l i c i t f o r m a ls p e c i f i c a t i o no f as h a r e dc o n c e p t u a l i z a t i o n 译为中文:即本体是一套得到大 多数人认同的,关于概念体系的明确的、形式化的规范说明。 其后,德国卡尔斯鲁厄大学的s t u d c r 等学者在这个定义的基础上,对本体的 特点给出了一个较为直观和明确的解释:本体就是对概念体系的明确的、形式化、 可共享的规范说吲7 】。这个定义说明了本体体现的四层含义: 1 本体是明确的( e x p l i c i t ) 。所使用的概念及使用这些概念的约束都有明确 的定义: 2 本体是形式化的( f o r m a l ) 。本体是计算机可读的,可以被机器所理解的; 3 本体是共享i 拘( s h a r e ) 。本体中体现的是共同认可的知识,反映的是相关 领域中公认的概念集,它所针对的是团体而不是个体; 4 本体是概念化的。它是一个概念体系,又称概念模型( c o n c e p t u a l i z a t i o n ) 。 本体是一个通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得 到的模型,其表示的含义独立于具体的环境状态。 本体论为同一应用领域的成员之间提供了统一的术语集,能够将描述对象进 行概念化表示。一个本体由概念类、关系、函数、公理和实例等5 种元素组成。 本体中的概念是广义上的概念,它除了可以是一般意义上的概念以外,也可以是 任务、功能、行为、策略、推理过程等等。本体中的这些概念通常构成一个分类 层次。本体中的关系表示概念之间的关联,这种关联表现了除分类层次关系之外 的概念之间的所有联系;函数是一种特殊的关系,与关系不同支持是概念之间的 关系还是对应的概念。如:“球的体积 定义球的体积由球的半径唯一确定。公 理在许多领域中,表示函数之间或关联之间也存在着关联或约束。实例是指属于 1 5 基本概念类的基本元素,即某概念类所指的具体实体,特定领域的所有实例。 2 2 3 基于本体的语义w e b 基础软件 1 早期的基于本体的基础软件研究 o n t o k n o w l e d g e o r g 是一个由b t 、s w i s sl i f e 等多家欧洲科研机构和大学组 成的研究项目。它的成果o i l ( o n t o l o g yi n f e r e n c el a y e r ) 对本体语言提供了一个层 次结构视图,已经成为d a m l 的一个基础。这些组织还开发了许多研究工具, 其中最成熟的是o i l e d ,它是一个本体的编辑、设计工具,支持d a m l 格式。 s i r p a c ( s i m p l er d fp a r s e r & c o m p i l e r ) 是一个r d f 的解释器,被广泛使用 于许多语义w e b 项目,由斯坦福( s t a n f o r d ) 大学开发。s i r p a c 实际上是一个r d f a p i , 可以在文件系统的基础上访问和存储本体。s e s a m e 是一个开发源代码的 本体存储与查询系统,由a i d m i n i s t r a t o r 公司开发。 另外,s t a n f o r d 大学的k s l 实验室的c h i m e a r a 是目前对w e b 环境下的本体 研究最为成熟的成果之一。 2 k a r l s r u h e 大学的研究 k a o n ( t h ek a r l s r u h eo n t o l o g ya n ds e m a n t i cw e bi n f r a s t r u c t u r e ) 是德国 k a r l s r u h e 大学的一个科研项目。该项目致力于为语义w e b 提供所需的基础本体 系统和相关工具。它针对基于本体的上层商业应用的需求提供了一个开放的本体 管理软件,为本体的存储、创建和标识提供了一个全面的支撑平台。 r d f a p i 采用的是斯坦福大学的r d f a p i ,但做了相应的重写和扩展,为上 层应用或k a o na p i 提供了本体的内存存储机制。目前,r d fa p i 不但包括了 一个r d fp a r s e r 可解析r d f 文件,还包括了r d fs e r i a l i z e r 可以将本体序列化 到关系型数据库和文件中去。 k a o n a p i 为应用屏蔽了底层的存储机制,但实际上它也可以通过多种方式 访问k a o n 本体,一种是通过r d fa p i ( 然后通过r d fs e r v e r ) ,另一种是直接 通过e n g i n e e r i n gs e r v e r 。k a o na p i 的定义有其合理性,例如它有o b s e r v a b l e 这个设计范式,可以让应用自动得到本体修改或升级的消息。 r d fs e r v e r 和e n g i n e e r i n gs e r v e r 都基于关系型数据库,可以提供并发控制和 交易机制,它们还可以直接支持e j b ( 可选) ,提供e n t i t yj a v ab e a n s 接口。不同 的是r d fs e r v e r 面向r d f ,e n g i n e e r i n gs e r v e r 面向k a o n 自己的本体标准。 e n g i n e e r i n gs e r v e r 还有一个特点就是已经具有了初步的分布机制,有客户端。 k a o n 的r d fc r a w l e r 用于c r a w l i n g ,并综合w e b 上的r d f 信息。可以把 1 6 c r a w l i n g 的深度、指定范围等这样的参数放到配置文件中,并把结果存于本地文 件。k a o np o r t a l 用于建立一个多语种的、基于本体的门户网站。需要先将网站 内容进行本体标识。在网站上可以基于本体进行可视化的浏览导航。它把显示与 内容做了严格的分离。有很好的可配置性。k a o n 的o i m o d e l e r 是一个本体的 建模工具,用于可视化地建立文件并维护它。 3 h p 的j e n a 本体处理平台 惠普( h p ) 实验室的j e n a 也是一个以r d fa p i 为核心,用于实现语义 w e b ( s e m a n t i cw e b ) 的工具。 j e n a 由n e t w o r ka p i 、q u e r y 、r e a d e r s 、i n f e r e n c e 、w r i t e r s 、s t o r e s 几部分围 绕r d fa p i 组成。 4 基于w e b 的分布式本体系统 w o d o s ( w e bo r i e n t e dd i s t r i b u t e do n t o l o g ys y s t e m ) 系统由清华大学计算机 系知识工程室研究开发。它是一个全面的基于本体的语义w e b 知识处理平台, 支持中英文,可将本体信息存于关系型数据库中,可以做r d f 文件的导入导出, 支持r q l 查询,第三方软件可以通过o d o a p i 进行操作。w o d o s 引入推理机 制,可以对存于w o d o s 中的本体事实施以规则( 基于f l o g i c ) ,并在这些规则的 基础上进行推理。w o d o s 建立了统一的用户界面,可以把对w o d o s 的各种操 作( 如原有的r q l 查询、r d f 文件导入导出和新加入的f l o g i c 操作等) 集成在一 起。 2 3 文本聚类相关知识介绍 有句话叫“物以类聚,人以群分 ,在自然科学和社会科学中,存在着大量 的分类问题。所谓类,通俗地说,就是指相似元素的集合。聚类分析又称群分析, 它是研究( 样品或指标) 分类问题的一种统计分析方法。聚类分析起源于分类学, 在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工 具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有 时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到 了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形 成了聚类分析。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态 聚类法、模糊聚类法、图论聚类法、聚类预报法等。 将物理或抽象对象的集合分子聚集成为由类似的对象组成的多个类的过程 被称为聚类。它的基本要求是:由聚类所生成的簇是一组数据对象的集合,这些 1 7 对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。 2 3 1 文本聚类 文本聚类【8 】是完全根据文本内容的自身的特性来组织文本集合,通过特定的 处理和相应的算法将整个集合聚成若干个类,并使得属于同一类的文本尽量相似 ( 即内容相关) ,属于不同类的文本差别明显( h o 内容无关) 。由于事先没有关于这 些文本信息的分类知识或可以使用的分类表,因此,文本的聚类处理是一种无监 督的学( u n s u p e r v i s e dl e a r n i n g ) ,其特点可概括为“先有文本后有类 。 文本聚类研究所依据的思想和方法起源于数值分类学的“聚类分析 ( c l u s t e r i n ga n a l y s i s ) 。早期的文本聚类分析主要依靠专业知识和经验,局限在定 性的范围内。后来随着学科的发展与信息量的激增,分类越来越细,需要分类的 文本对象也越来越多,这时仅仅依靠文本的一些特性进行定性划分也变得越来越 困难。于是,作为数值分类学的主要分支,聚类分析技术就被引入到文本聚类领 域。 设s = d l , d :,d ) 代表一个文本集,墨代表s 的一个子集,则文本聚类的 任务就是将s 分割为k 个子集,并且满足: s = u m t s i 式( 2 - 1 ) 这个条件很容易满足,但是仅仅这个条件是不够的,因为文本聚类更重要的 是使类内的文本在语义上尽可能相似,而与其他类中的文本尽可能“相隔”较远 或者不同,即: 当d s i 时,m a x ( s i m ( d ,s f ) ) ; 当d 诺墨时,r r f i n ( s i m ( d ,s f ) ) ; 式( 2 - 2 ) 式( 2 3 ) 不同于文本分类,文本聚类没有训练数据,所以没有训练步骤。文本聚类的 过程相对简单,如图2 5 所示,它首先对原始的文本数据进行预处理,进而表示 成文本特征向量,然后采用聚类算法进行聚类,最终得到多个文本类。 文本聚类的一般过程 图2 - 5 文本聚类的一般过程 1 文本预处理 由于文本数据不同于数据库中的结构化数据,必须把文本表示成为计算机能 够处理的、可体现文本本质特征的形式。文本的内容是人类所使用的自然语言, 计算机并不具有人类的特有智能,因此很难处理其语义。由于文本信息源的这些 特殊性,所以需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以 用结构化的形式保存,作为文本的中间表示形式。空间向量模型( v e c t o rs p a c e m o d e l ,v s m ) 9 】近年来应用最多且效果较好的方法之一。 2 生成文本特征向量 当选择表示文本的特征后,就可以依据一定的原则将文本数据表示为特征空 间内的特征向量;同时根据文本数据的特点一一高维、稀疏,还要进行相应的特 征选择和抽取【l o 】,这样不但可以降低特征向量的维数,使聚类算法的计算复杂 度大大降低,而且可以去除由于同义词及多义词所产生的噪声和歧义,进而大幅 度提高文本聚类系统的性能。 3 聚类 当生成文本的特征向量后,文本数据就表示成为便于计算机处理的结构化形 式,即可应用所选择的聚类算法对文本进行聚类处理,生成相应的聚类结果。 2 3 2 向量空间模型 文本聚类的目标就是要将语义相近的文本聚成一类,使得同一类内的文本之 间的相似度大,而类间的文本之间的相似度小。然而文本都是非结构化的,因此 必须建立文本模型,将非结构化文本转换为计算机可以识别的格式,这种模型应 尽可能多的反映文本所蕴涵的语义信息,同时又要便于计算机处理。 目前在信息检索领域,存在着许多文本模型,具有代表性的有布尔模型 1 9 ( b o o l e a nm o d e l ) ,向量空间模型( v e c t o rs p a c em o d e l ,v s m ) ,概率模型 ( p r o b a b i l i s t i em o d e l ) 等。这些模型从不同的角度出发,使用不同的方法处理特征 加权、类别学习和相似计算等问题。 在这几种模型中,由gs a l t o n 教授于2 0 世纪6 0 年代末提出,并成功的应用 到s m a r t 系统中的向量空间模型,是最简便有效的文本表示模型之一。该模型 及其相关技术,包括特征项的选择、权重的计算,以及采用相关反馈进行优化查 询等在文本分类、自动索引、信息检索等许多领域得到广泛的应用,并且取得了 较好的效果。 1 向量空间模型概述 向量空间模型是文本表示的一个统计模型,该模型将任意一篇文本表示成向 量空问中一个向量,并以特征项作为文本表示的基本单位,向量的每一维对应文 本中的一个特征项,而每一维的值则表示了其对应的特征项在该篇文本中的权 重,它代表了这个特征项相对于这篇文本的重要程度,即该特征项表示文本内容 的能力。这样一个文本d 可以表示为: d = ( f l ,w 1 ) ,( f 2 ,) ,( f 。,) ) 式( 2 4 : 其中t ,表示第f 个特征项,表示特征项t ;在文本d 中的权重。因此,所名 的文本向量都可以组成文本集的一个特征空间。 2 特征项的选取 特征项通常用文本所包含的基本语义单位( 字,词,词组或短语等) 来表示, 也可以用相应词语或者短语的语义概念类来表示。特征项的选择由处理速度,精 度,存储空间等方面的具体要求来决定。选出的特征项越具有代表性,语言层次 越高,所包含的信息就越丰富,但是分析的代价就越大,而且受分析精度( 如句 法分析的正确率) 的影响就越大。由于词是组成文本基本元素,并且在不同内容 的文本中,它的出现频率呈现一定的统计规律,不同的特征词可以区分不同内容 的文本,因此可以认为选择词作为特征项是比较合理的。它也是于文本检索与分 类领域常采用的方法。但是选用词作为文本特征项时要考虑以下问题: ( 1 ) 文本中存在一些使用频率很高但没有实际意义的虚词和功能词,如英语 中的 t h e 、”a ,、”o f ,汉语中的“的、这、那、得 等。它们几乎出现在该语 言的每一个文本中,但是它们对于这个文本所表达的意思却几乎没有任何贡献。 所以如果以这些单词作为文本特征的话,即使是内容上完全不同的两个文本也会 因为这些共有的特征而很难被区分开来。因此,非常有必要将这些停用词从原始 的文本中过滤出去,即停用词过滤。停用词过滤还可以显著提高文本分类和文本 聚类的效率,包括存储空间和时间。有研究指出英文中最常出现的1 0 个单词通 常占整个文本所有词条量的2 0 0 0 - 3 0 1 1 】。因此删除这些停用词也就相应地节省 了相同比例的存储空间,自然后续的处理时间也就节省好多。 ( 2 ) 在英语及其他西方语言中,单词有复杂的词尾变化和派生现象。比如英 文单词”d o ”,可以有”d o i n g 、”d o e s ”、”d o n e ”等不同的形式出现,如果将它们看 作不同的词的话,即使相同主题的文本也可能只有很低的相似性。所以非常有必 要将不同形式的单词都作为相同的单词来对待,即词干抽取( s t e m m i n g ) 。词干抽 取所解决的问题就是将具有相同词根但不同形式的单词还原为词根,作为同一个 词条来进行处理。首先,可以使使用不同形式的单词但是表达相同主题的文本具 有更高的相似性,从而使文本分类或者文本聚类的结果更为优秀。其次,词干抽 取可以极大较少词条的数量,从而在存储空间和时问上极大提高文本分类或者文 本聚类的性能。 3 权重的计算 最简单的权重的计算方法是使用o 和l 来表示一个单词是否出现在一个文本 当中。但是这种计算方法忽略了不同单词对一个文本的重要程度,认为所有出现 的单词对一个文本来说同等重要的。然而很显然的是,不同的单词对一个文本来 说其重要性是不一样的,因此需要使用其他的一些技术或者方法来使重要的单词 具有更高的权重,不重要的单词具有较低的权重。 权重计算要考虑因素主要包括词频和文档频数。词频指的是一个单词在一个 文本中出现的次数。通常情况下,对于一个文本来说,如果一个单词在这个文本 中出现得频率非常高,那么它就很可能与这个文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 徒步初三作文800字(8篇)
- 风险评估与应对措施标准流程工具
- 文学名著导读:红楼梦人物关系解析
- 1.3 物质的变化 课件(内嵌视频) 化学科粤版(2024)九年级上册
- 药剂科综合知识培训总结课件
- 门诊叙事护理
- 术后肠瘘护理
- 街电电动自行车充电桩服务合同8篇
- 窗帘材质培训课件图片
- 科学岩石碎裂课件
- 国庆节英语介绍模板
- 《油气管道无人机智能巡检系统技术管理规范》
- 巡察工作基本流程课件
- 游艇火灾安全知识培训课件
- 2025年新版期权知识考试题库带答案
- 《职业素养》课件全套 模块1-8 职业认知与职业道德 -职业发展素养
- 《机械制图(多学时)》中职全套教学课件
- 新教科版小学1-6年级科学需做实验目录
- 英语10000个单词频率排序
- 部编教材九年级历史(上)全册教案
- 人民音乐出版社四年级音乐上册教案
评论
0/150
提交评论