(计算机应用技术专业论文)基于本体的专业搜索引擎的研究.pdf_第1页
(计算机应用技术专业论文)基于本体的专业搜索引擎的研究.pdf_第2页
(计算机应用技术专业论文)基于本体的专业搜索引擎的研究.pdf_第3页
(计算机应用技术专业论文)基于本体的专业搜索引擎的研究.pdf_第4页
(计算机应用技术专业论文)基于本体的专业搜索引擎的研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 论文深入研究了专业搜索引擎的基本原理和开发专业搜索引擎的关键技术, 提出将领域本体应用在专业搜索引擎开发中的观点。论文用本体提供的一套概念 和术语来描述计算机教学领域知识库,获取该领域的常用概念及各个概念之问的 关系。论文采用w 3 c 推荐的标准本体语言o w l ,对计算机教育领域的概念和相互 之间的关系进行了较为精确的定义,一方面促进机器理解,另一方面可以从根本 上解决知识共享问题。另外,论文通过研究探讨构造领域本体知识库的方法,提 出一种适合本系统领域本体建设的新方法,并将该方法应用到计算机教育资源本 体的建设中。该领域本体为专业搜索引擎的网络爬虫提供主题描述,使网络爬虫 能够实现基于语义的网页相关度计算。同时,领域本体为用户的查询提供语义检 索功能。 在专业搜索引擎开发技术中,网络爬虫的实现是至关重要的,论文重点阐述 了基于领域本体的网络爬虫的设计和实现。提出了一种适合专业搜索擎的超链接 权值计算策略,从网页内容、网页上下层结构、超链接内容等几个方面预测u r l 的相关度。另外,论文通过分析计算机教育网页的特点,提出大纲式提取网页内 容的新方法,并使用领域本体中的概念将提取网页内容语义化,从而提高了计算 网页相关度的速度和准确度,也就提高了爬虫爬行的效率和准确率。 论文使用p r o t 6 9 6 构建了计算机教育资源领域本体。使用j a v a 开发了基于 领域本体的主题爬虫,使用s q ls e r v e r 2 0 0 0 作为数据库。设计了基于本体的专 业搜索引擎的框架。 关键字:专业搜索引擎,本体,网络爬虫,内容相关度,预测u r l a b s t r a c t b a s e do no u ri n - d e p t hr e s e a r c ha b o u tb a s i cp r i n c i p l e sa n dk e yt e c h n o l o g i e s d e v e l o p i n go ft h ep r o f e s s i o n a ls e a r c he n g i n e ,t h i sp a p e rs h o w s av i e w p o i n tt h a tt o d e v e l o pap r o f e s s i o n a ls e a r c he n g i n eb a s e do nt h ef i e l do n t o l o g y t h ea r t i c l ed e s c r i b e s t h et e a c h i n gc o m p u t e rk n o w l e d g eb a s eb yas e to fc o n c e p t sa n dt e r m i n o l o g yt h a t o n t o l o g yp r o v i d e d ,a n dg a i n st h eb a s i cc o n c e p t so ft h ef i e l da n dt h er e l a t i o n s h i po f t h e s ec o n c e p t s i nt h i sp a p e lt h ec o n c e p ta n dt h ei n t e r - r e l a t i o n s h i pi nt h ec o m p u t e r e d u c m i o nf i e l da r ed e f i n e dp r e c i s e l yb yt h eo n t o l o g yl a n g u a g eo w ls t a n d a r dw h i c h i sr e c o m m e n d e db yt h ew 3 c o nt h eo n eh a n d ,w h i c hp r o m o t e su n d e r s t a n d i n go f m a c h i n e s ;o nt h eo t h e rh a n d ,i ts o l v e st h ei s s u eo fa c c e s st ok n o w l e d g ef u n d a m e n t a l l y i na d d i t i o n ,t h r o u g hr e s e a r c h i n ga n dd i s c u s s i n gh o wt oc o n s t r u c td o m a i n k n o w l e d g e b a s e ,t h ep a p e rg e t san e wm e t h o dw h i c hi ss u i t a b l ef o rc o n s t r u c t i n gd o m a i no n t o l o g y o ft h es y s t e ma n dt h e na p p l i e st h i sm e t h o di n t ot h ec o n s t r u c t i o no fc o m p u t e r e d u c a t i o nr e s o u r c e so n t o l o g y t h ed o m a i no n t o l o g yp r o v i d e st h e m ed e s c r i p t i o nf o r t h et h e m ec r a w l e ro fp r o f e s s i o n a ls e a r c he n g i n e ,w h i c hh e l p sc r a w l e rf i n i s h i n gw e b r e l a t e dc a l c u l a t i o nb a s e do nt h es e m a n t i c m e a n w h i l e ,t h ed o m a i no n t o l o g yp r o v i d e s s e m a n t i cr e t r i e v a lf o ru s e r i np r o f e s s i o n a ls e a r c he n g i n e d e v e l o p e dt e c h n o l o g yf i e l d ,t h er e a l i z a t i o no ft h e n e t w o r kc r a w l e ri se s s e n t i a l t h i sp a p e rf o c u s e so nd e s i g na n di m p l e m e n t a t i o no f d o m a i no n t o l o g y - b a s e dc r a w l e r , a n dp r e s e n t sah y p e r l i n k sv a l u es t r a t e g yr i g h tt o p r o f e s s i o n a ls e a r c he n g i n ew h i c hc a nf o r e c a s tu r lr e l e v a n c ef r o mw e bc o n t e n t , w e b s i t ec l a s ss t r u c t u r e ,h y p e r l i n ka ss e v e r a l i na d d i t i o n ,t h i sp a p e rp r o p o s e st h en e w w a yo fo u t l i n e s t y l ec o n t e n te x t r a c t i o nm e t h o db ya n a l y z i n gf e a t u r e so fc o m p u t e r e d u c a t i o nw e b s i t e ,a n ds e m a n t i c i z e sc o n t e n to ft h ew e b s i t eb yu s i n gt h ec o n c e p bo f d o m a i no n t o l o g y , t h e r e b yt o i m p r o v et h es p e e da n da c c u r a c yo fr e l e v a n tw e b c a l c u l a t i o n ,a n di m p r o v et h ee f f i c i e n c ya n da c c u r a c yo fc r a w l i n ga tl a s t t h i sp a p e rc o n s t r u c t st h ed o m a i no n t o l o g yo fc o m p u t e re d u c a t i o nr e s o u r c e sb y u s i n gp r o t 6 9 6 n e t w o r kc r a w l e r sa r ed e v e l o p e db yt a k i n gj a v aa sp r o g r a m m i n g l a n g u a g ea n ds q ls e r v e r 2 0 0 0i s u s e da sd b m s i td e s i g n st h ef r a m e w o r ko f o n t o l o g y b a s e dp r o f e s s i o n a ls e a r c he n g i n e k e yw o r d s :p r o f e s s i o n a ls e a r c he n g i n e ,o n t o l o g y , n e t w o r kc r a w l e r , c o n t e n tr e l e v a n c e , u r lf o r e c a s t 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得鑫叠盘堂或其他教育机构的学位或证 书丽使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文串 作了明确的说明并表示了谢意。 学位论文作者签名:关磁缅隐 签字目期: 。 年擘月,o 霉 学位论文版权使用授权书 本学位论文作者完全了解苤鲞基堂有关傈留、使用学彼论文的规定。 特授权基鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向圜家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:装、聪鸳汪 导师签名: ) 呵乙 签字目期:。夕年7 月肜日 签字日期: 府7 年? 月日 第一章绪论 1 1 问题的提出 第一章绪论 i n t e r n e t 在中国的迅速发展和广泛应用,导致了网上中文信息爆炸性地增长, 如何在庞大的i n t e r n e t 上获得有价值的信息成为关键问题。中文搜索引擎的应运 而生似乎提供了解决问题的方法,它以一定的策略在i n t e m e t 中搜集、发现信息, 为用户提供检索服务,从而起到信息导航的作用。但目前的中文搜索引擎( 包括 百度和中文g o o g l e 等) 对要检索的信息仅仅采用机械的关键词匹配来实现,缺 乏理解能力和知识处理能力,也就是说搜索引擎无法处理在用户看来是非常普通 的常识性问题;而且大部分搜索引擎有很多局限性,如信息丢失,返回信息太多, 返回信息无关等。开发基于语义的搜索引擎是问题的解决之道,但综合性搜索引 擎因其信息覆盖面广,使得基于语义的搜索引擎开发困难重重,而开发基于领域 的语义搜索引擎却可以降低开发的难度。基于领域的搜索引擎使得搜索的范围变 的相对小,搜索词语,表述形式有一定的规律可循,尤其是领域本体的出现,更 使得开发领域的基于语义搜索引擎成为可能。 本人所在的项目组承担了河北省科技攻关计划项目:中文智能搜索的研究与 开发。开发基于领域的智能搜索引擎是本项目的第一个步骤。基于领域开发搜索 引擎首先要建立领域的知识库,需要该领域的专家。本组成员全部工作在计算机 教育战线,所以我们把专业领域定位到计算机教育资源上。知识库的建设使用基 于领域的本体,该本体库不但为网络爬虫提供主题描述,使网络爬虫实现基于语 义的网页信息提取,同时也为检索器提供语义推理的服务,从而提高系统的查全 率和查准率。 1 2 本文的研究工作 主题描述知识库的建设使用领域本体来实现,用本体提供的一套概念和术语 来描述计算机教学领域知识库,获取该领域的本质的概念结构及概念之间的关 系。本文采用w 3 c 推荐的标准本体语言o w l ,对领域知识的概念和相互之间的关 系进行较为精确的定义,一方面促进机器理解,另一方面可以从根本上解决知识 共享和互操作问题。该本体库不但为网络爬虫提供主题描述,使网络爬虫实现基 于语义的网页信息提取;同时也为检索器提供语义推理的服务,从而提高系统的 第一章绪论 查全率和查准率。具体研究如下 ( 1 ) 构建一个领域本体计算机教育资源本体,研究探讨建设领域本体 知识库的方法,并提出一种适合本系统的领域本体构建的新方法,把该方法应用 到计算机教育资源本体的建设中。 ( 2 ) 将领域本体应用到专题网络爬行器中,用该本体提供的概念和关系作 为本专业搜索引擎的主题描述,使爬行器能够基于语义有针对性的爬行网页,提 取所需要的网络链接。设计并实现了基于本体的网络爬虫,采用了一种基于结构 和内容的搜索策略,从内容相关度和权威值两方面来考虑有用链接的提取,提高 了爬虫爬行的效率和准确率。 ( 3 ) 设计了一个基于本体的专业搜索引擎模型。 1 3 论文的组织 第一章绪论,介绍了选题的背景和目的,阐述了论文的研究内容和组织形式。 第二章搜索引擎综述,介绍了搜索引擎的发展趋势,描述了综合搜索引擎和 专业搜索引擎的工作原理,并且分析了综合搜索引擎的不足之处,从而论证了开 发专业搜索引擎的必要性和可行性。 第三章本体的介绍,本章介绍了本体的定义和一些基本概念,通过描述本体 的分类确定系统需要的本体是领域本体;通过对本体的描述语言的比较,确定系 统使用构建本体的语言是o w l 。 第四章计算机教育资源本体的建设,通过综合比较几种常用的本体建模方 法,形成了适合本系统领域本体建设的方法,使用该方法构建了系统需要的计算 机教育资源领域本体。 第五章基于本体的主题网络爬行器的设计与实现,本章详细描述了系统中主 题网络爬虫的设计与实现,介绍了h t m l 文档的解析方法,提出了一种新的网页 相关度和超链接相关度的计算方法,该方法计算简单速度快,适合主题爬虫的需 要。 第六章基于本体的计算机教育资源搜索引擎的设计,构造了一个完整的基于 计算机教育本体的专业搜索引擎的框架,介绍了各个功能模块的具体功能和开发 思路。 第七章总结与展望,总结现在完成的工作,确定下一步的研究和开发方向。 第二章搜索引擎综述 2 1 背景 第二章搜索引擎综述 随着互联网以及相关技术的发展与成熟,人们已经进入信息量极其丰富的时 代。网络信息的爆炸式增长,使人们面对的资源库越来越多,而如何高效、准确 地找到自己真止想要的信息当然成为关键性问题。需要产生技术,于是专门帮助 人们在网上查找信息资源的工具搜索引擎( s e a r c he n g i n e ) 产生了。从1 9 9 1 年,第一个搜索引擎w e b c r a w l e r 诞生以来,陆续出现了许多功能多样的搜 索引擎。搜索引擎的使用越来越受到网络用户的欢迎,搜索引擎技术正成为计算 机工业界和学术界争相研究、开发的对象。目前,比较著名的搜索引擎有:g o o g l e , y a h o o ,a s k ,i n f o s e e k ,搜狐( s o h u ) ,百度( b a i d u ) 等,这些搜索引擎都各有特 点。但目前的搜索引擎还是不能完全满足用户的需求,网络用户对搜索引擎不满 意的地方主要集中在搜索精度不够,无效链接太多,重复或不相关的垃圾信息较 多。当然,致力于搜索引擎研究的科研人员正在搜索引擎技术的各个方面做着大 量的努力。 当前,搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、 人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等多领 域的理论和技术,所以对于任何一个研究人员来讲都具有很高的挑战性。又由于 搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界 和信息产业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意 的动向: ( 1 ) 非常关注提高信息查询结果的精确度,尽力提高检索的有效性。 人们使用搜索引擎进行信息检索时,并不十分关注返回结果的多少,而是注 重查询结果和自己的需求的吻合程度。对于一个查询,传统的搜索引擎可能会返 回十几万、几十万篇文档,用户不得不在结果中反复筛选。解决查询结果过多的 问题,目前出现了几种方法:一是通过各种方法获得用户没有在查询语句中表达 出来的真正意途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相 关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关( 及其相关的程 度) ,哪些不相关,通过多次交互逐步求精。二是用正文分类( t e x t c a t e g o r i z a t i o n ) 技术将结果进行分类,使用可视化技术显示分类结构,用户可 以只浏览自己感兴趣的类别。三是进行站点类聚或内容类聚,从而减少信息的总 量。 第一二章搜索引擎综述 ( 2 ) 基于智能代理的信息过滤和个性化服务。 信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模 型( 如w e b 知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用 户模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤( 包 括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提 交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而 提供个性化的服务。智能代理可以在用户端进行,也可以在服务器端运行。 ( 3 ) 采用分布式体系结构提高系统规模和性能。 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有 千秋。但当系统规模到达一定程度( 如网页数达到亿级) 时,必然要采用某种分 布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都 可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以 提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引 对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的 速度和性能。 ( 4 ) 重视交叉语言检索的研究和开发。 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库 中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻 译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在 于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨 越国界的今天,无疑具有很重要的意义。 2 2 搜索引擎的基本结构和原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的数据库。它 也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。简单的说,搜 索引擎是通过从互联网上提取各网站的信息来建立数据库,检索和用户查询条件 匹配的相关记录,然后按一定的排列顺序将结果返回给用户。一个综合的搜索引 擎一般由数据采集器、索引器、检索器和用户接口四个部分组成: ( 1 ) 数据采集器 主要功能是通过自动采集或用户提交,人工选择、跟踪的方式搜集互联网上 的信息资源。它的性能有很大程度上影响了搜索引擎站点的规模。 ( 2 ) 索引器 索引器的功能是为数据采集器所采集的信息建立索引。从信息中抽取出索引 第二章搜索引擎综述 项,用于表示文档以及生成文档库的索引表。 索引项有客观索引项和内容索引项两利,:客观索引项与文档的语意内容无 关,如作者名、u r l 、更新时间、编码内容、文档长度、链接流行度( l i n k p o p u l a r i t y ) 等等;内容索引项是用来反映文档内容的,如关键词及其权重、短 语、句子等等。索引表一般使用某种形式的倒排表( i n v e r s i o nl is t ) ,即由索 引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置,以便检 索器计算索引项之间的相邻或相关关系。 ( 3 ) 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询 的相关度计算,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。 ( 4 ) 用户接口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 主要的目的是方便用户使用搜索引擎,高效率、灵活地从搜索引擎中得到准确、 有效、及时的信息。 2 3 搜索引擎的分类 2 3 1 按照信息搜集方法和服务提供方式的不同分类 ( 1 ) 目录式搜索引擎乜3 :这种搜索引擎一般以人工方式或半自动方式搜集 信息,由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个 小类,依次细分,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服 务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因 此其搜索的准确度是相当高的,缺点是需要人工介入、维护大、信息更新不够及 时。y a h o o 就是这类搜索引擎的代表。 ( 2 ) 机器人搜索引擎:由一个称为网络蜘蛛( c r a w l e r ) 的机器人程序以某 种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引, 由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式 是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、不需 要人工干预,缺点是返同信息过多,并且有很多无关信息,用户必须从结果中进 行筛选。g o o g l e 和百度就是这类搜索引擎的代表。 ( 3 ) 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同 时向多个搜索引擎递交,将返回的结果进行反复去重、重新排序等处理后,作为 自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点 第二章搜索引擎综述 是返同结果的信息量更大、更全,缺点是不能够充分利用所使用搜索引擎的功能, 用户需要做更多的筛选。这类搜索引擎的代表是引擎:b y t e s e a r c h ( h t t p :w w w h y t e s e a r c h c o m ) ,m a m m a ( h tt p :w w w m a m m a c o m ) ,p r o f u sio n ( h t t p :w , v w p r o f u s i o n c o m ) 等。 2 3 2 按提供检索的范围分类 ( 1 ) 通用搜索引擎 通用搜索引也叫综合搜索引擎,我们常用的g o o g l e 、百度这样的网上信息 检索系统都是通用搜索引擎。它提供综合型搜索,搜索范围是整个互联网,服务 面向所有网络用户。 ( 2 ) 专业搜索引擎 专业搜索引擎又叫垂直搜索引擎或主题搜索引擎,是搜索引擎的细分和延 伸。它是针对某一个行业某一领域的搜索引擎,服务对象通常是某专业领域的人 员。专业搜索引擎和通用搜索引擎的最大区别是对网页信息进行了结构化信息抽 取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索 是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而专业搜 索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加 工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。 专业搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、 房产搜索、人才搜索、地图搜索、m p 3 搜索、图片搜索几乎各行各业各类信 息都可以进一步细化成各类的专业搜索引擎。专业性搜索引擎使用与之相应的索 引技术和检索语言,从而使在特定专业范围内的检索效果优于综合性搜索引擎, 它对网上科技信息的有效利用、最新科技成果的共享提供有力工具。本文研究的 就是专业搜索引擎。 2 4 专业搜索引擎 随着信息多元化的增长,适用于所有用户的综合性搜索引擎显然已经不能满 足特定用户更高的查询需求,他们对信息的需求往往是针对固定领域和面向特定 主题的,综合性搜索引擎的召回率和精确率都无法满足他们的需要。针对这种情 况,需要一个分类精确、数据全面、更新及时的面向主题的专业搜索引擎,有人 认为这种专业搜索引擎是第四代搜索引擎的发展方向。 2 4 1 综合搜索引擎的不足 6 第二章搜索引擎综述 综合搜索引擎目前的不足之处可以总结为以下几点n 1 : ( 1 ) 不同领域和不同背景的用户往往具有不同的检索目的和需求,通用搜索 引擎所返回的结果包含大量用户不需要的网页。 ( 2 ) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器 资源与无限的网络数据资源之间的矛盾将进一步加深。 ( 3 ) 互联网数据形式的丰富和网络技术的不断发展,图片、数据库、音频 视频多媒体等不同数据的大量出现,通用搜索引擎往往对这些信息含量密集且具 有一定结构的数据无能为力,不z 玎, 匕l c , ,f , k e l 好地发现和获取。 ( 4 ) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出 的查询。 ( 5 ) 综合“搜索引擎”由于产品定位过宽,在管理上经常遭遇瓶颈,譬如 经常受累于垃圾信息,形成“搜索引擎垃圾( s p a m ) ”,由此引起许多用户的不 满制。 2 4 2 专业搜索引擎的优点 专业搜索引擎目前已经成为搜索引擎技术的主要发展趋势,它的优势突出表 现为胡: ( 1 ) 采集信息的学科领域小,信息量相对较少。可以保证用“专家分类标 引 的方法对采集到的信息进行组织整理,进一步提高信息的质量并能建立起一 个较高质量、专业信息收录全面、能够及时更新的索引数据库。 ( 2 ) 专业搜索引擎只涉及某一个或几个领域,词汇和术语的“一词一字多 义的可能性降低,而且利用专业词表进行规范化控制,能大大提高“查全率 和“查准率”。 ( 3 ) 信息采集量小,从而减少存储和索引,节省空间。 ( 4 ) 索引数据库的规模小,有利于缩短查洵响应时间。还可以采用复杂的 查询语法,提高用户的查询精度。 ( 5 ) 数据规模的降低,可以节省搜索引擎的投资成本。用普遍的硬件投资 即可建立高质量、高效的专业搜索引擎。 下表2 - 1 1 全面展示了专业搜索引擎和通用搜索引擎的差异之处,通过表中 条目的比较,更加说明,专业搜索引擎是搜索引擎的发展方向。 第一奄搜索引警综述 袤2 1 专业搜索引擎与通川搜索引擎的差异 _ 囊蹬翟啊 r 盅商目标 店用目 田 应月恃 应用啦粜 信旦”目辫 信县处目方e o 孽信息担目 l 罐e 信旦剃用 2 怪术特点 3 = 攻靠麻# 发 4拽盍譬曩 5 控寅分忻 镪懿鳃曩醑睡舅啊一 十b 化 m 4 痘 口 e 息m * 椅z 毓域z 目信b * r n 业鹰月 h 、电,垒谯, 是镕翱 * 章信导单元 噩i 为主 秆n 佰息悟式化保啦撼4 中 自* 筮e 自冒娩信息* 目 是镕强太 矗大 是活翱并窑景扩晨 43 专业搜索引擎一般结构和技术 专业搜索引擎工作原理与一般的搜索引擎工作原理基本相同,所不同的是专 业搜索引擎所建立的数据库是关于某一领域或某一专业。图2 一为某专业搜索 引擎的基本结构和工作流程:第一步,爬行模块取回网页:第二步,调用相关度 分析模块,对网页进行相关度分析:第三步,爬行模块根据分析的不同结果进行 相应的处理:第四步,爬行模块从数据库取出等待处理的u r l 继续工作,返回到 第一步,直至没有新的u r l ;第五步,对网页的重要程度进行排序。当然无论是 怎样的结构,专业搜索引擎中都会有过滤模块或分析模块来分析网页与主题的相 关度从而确定是否收集。 图2 - 1 q k 搜索引擎结构 一一一一一一一眦嗽无王一霸#枞 第二章搜索引擎综述 专业搜索引擎开发方案一般可分为以下几种: ( 1 ) 基于专题搜索的网络爬行器( 也叫网络蜘蛛) ,它根据主题抓取目标, 有选择的访问万维网上的网页与相关的链接,获取所需要的信息。 ( 2 ) 网络爬行器通爬网页,然后再按照专题分类,如文献 8 巾的专业搜索 引擎。一般采用了综合搜索引擎专业化的方法实现专业搜索引擎。 ( 3 ) 基于元搜索的专业搜索引擎,如文献 9 搜索引擎。 三种方案各有千秋,本文将采用第一种方案设计专业搜索引擎。主题描述使 用基于领域本体库,由于本体具有良好的概念层次及概念问、属性间关系定义, 因而能很方便地获得一个词语的同义词或上、下义词,这样使得网络爬虫可以根 据语义进行爬行,同时基于本体的推理功能,可以实现基于语义的检索。 2 4 4 专业搜索引擎的现状 c i t e s e e r ( 又名r e s e a r c h i n d e x ) ,是n e c 研究院在自动引文索引( a u t o n o m o u s c i t a t i o ni n d e x i n g ,a c i ) 机制的基础上建设的一个学术论文数字图书馆。目前 在其数据库中可检索到超过5 0 0 ,0 0 0 篇论文,主要涉及计算机科学领域,涉及的 主题包括:互联网分析与检索、数字图书馆与引文索引、机器学习、神经网络、 语音识别、人脸识别、元搜索引擎、音频音乐等。c i t e s e e r 引文索引的基本原 理是,根据文献的相互引用关系建立索引系统。 s c i r u s 科学搜索引擎由爱思唯尔科学公司( e l s e v i e rs c i e n c e ) 于2 0 0 1 年4 月1 日推出。s c i r u s 是专为搜索高度相关的科学信息而设计的搜索引擎。它不 仅包含科学技术类期刊文章的概要,还包含精选的科学类的网页。目前搜索超 过2 亿多的科学类的网页。s c i r u s 的特色是专为科研人员所设计的,它与一般 搜索引擎( 如y a h o o 、g o o g l e 等) 不同的是它主要涵盖专门科学方面的信息。 g o o g l e 现在除了拥有的新闻、图片等搜索之外,又拓展了本地搜索、g o o g l e e a r t h 、大学搜索、学术搜索等等新的特色服务,而百度也在之前的基础上增加 了若干类似的服务内容。2 0 0 4 年1 1 月1 8 日,g o o g l e 公司宣布针对科学家和研 究人员推出新的搜索服务6 0 0 9 l es c h o l a r 。g o o g l es c h o l a r 可以过滤掉普通搜 索结果中的大量垃圾信息,还可以通过引用链接方便地找到与搜索结果关联的其 他相关学术资料。6 0 0 9 l e 目前发布了其博客搜索工具,它仅针对博客内容进行 搜索。 国内的专业搜索引擎还处于起步阶段,有不少专业搜索引擎,但做的都不完 善。如由精品学习网和无忧考试网联合推出的专业教育搜索引擎网站“搜课 网”。“搜课网”是一个提供互联网教育搜索服务的网站,为学院提供“简易、 真实、专业、高效”的各省市的课程、学校和学习资料专业化检索服务。目前, 9 第二章搜索引擎综述 搜课网共收录了全国1 8 0 0 0 多所学校和培训机构,5 1 0 0 0 多个课程,6 3 0 0 0 多个 班级。“搜课网”最大的特点就是信息搜索的精确化和功能化。“搜课网”的信 息直接来源于培训机构或学校的自主发布,随时更新学校动态。搜索者可以在很 短的时问内,相对精准和全面的搜索到自己所需求的专业教育信息。另外还有专 门搜索职业信息的搜职网“h t t p :w w w g l o b e h r c o m ”,其他还有比如旅游搜索 引擎、本地搜索引擎等等。 2 5 性能指标 我们可以将w e b 信息的搜索看作一个信息检索问题,即在由w e b 网页组成的 文档库中检索出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统 的性能参数召回率( r e c a l l ) 和精度( p r e c i s i o n ) 衡量一个搜索引擎的性能。 召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的 是检索系统( 搜索引擎) 的查全率;精度是检索出的相关文档数与检索出的文档 总数的比率,衡量的是检索系统( 搜索引擎) 的查准率。对于一个检索系统来讲, 召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。所 以常常用1 1 种召回率下1 1 种精度的平均值( 即1 1 点平均精度) 来衡量一个检 索系统的精度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到 所有的w e b 网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度。 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括 文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排 序方法和用户进行相关度反馈的机制。 l o 第三章o n t o l o g y 介绍 3 1 o n t o i o g y 的定义 第三章o n t o 1o g y 介绍 o n t o l o g y 最早是一个哲学的范畴,是客观存在的一个系统的解释和说明, 客观现实的一个抽象本质。后来随着人工智能的发展,被人工智能界给予了新的 定义。人工智能界最早给出o n t o l o g y 定义的是n e c h e s n 蚍等人,最初对o n t o l o g y 定义为:给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构 成的规定这些词汇外延的规则的定义;1 9 9 3 年g r u b e r n 定义o n t o l o g y 是概念模 型的明确的规范说明;b o r s t n 2 1 则认为o n t o l o g y 是共享概念模型的形式化规范说 明;s t u d e r u 钉认为o n t o l o g y 是共享概念模型的明确的形式化规范说明。 尽管对本体定义有很多不同的方式,但是从内涵上来看,大家对于本体的认 识却是统一的,都把本体作为领域内部不同主体之间进行交流的一种语义基础, 即由本体提供该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些 词汇( 术语) 和词汇之间相互关系的明确定义。因此,某个领域的本体可以认为 是关于该领域的一个公认的概念集,其中的概念含有公认的语义,这些语义通过 概念之间的各种关联来体现,本体通过它的概念集及其所处的上下文来刻画概念 的内涵。 3 2 本体的分类 目前关于本体的研究非常广泛,尤其是在国外,许多研究组织和机构都研究 建立了各种各具特色的本体。 1 9 9 9 年p e r e z 和b e n j a m i n s n 引在分析和研究了各种o n t o l o g i e s 分类方法的 基础上,归纳出1 0 种o n t o l o g i e s :知识表示o n t o l o g i e s 、普通o n t o l o g i e s 、 项级o n t o l o g i e s 、元( 核心) o n t o l o g i e s 、领域o n t o l o g i e s 、语言o n t o l o g i e s 、 任务o n t o l o g i e s 、领域一任务o n t o l o g i e s 、方法o n t o l o g i e s 、应用o n t o l o g i e s 。 以上分类法是对g u a r i n o 提出的分类方法的扩充和细化,但这种分类法中的1 0 种o n t o l o g i e s 之间有交叉,层次也不够清晰。 f e n s e l 根据其应用主题,将这些为数众多的本体划分为四种类型。 ( 1 ) 领域知识本体 用于描述某个特定专业领域的本体,定义该领域的概念和概念间的关系,描 述该领域的基本原理,主要实体和活动关系,提供领域内部知识共享和知识重用 第三章o n t o l o g y 介绍 的公共理解基础。目前许多领域已经拥有了相应的本体,例如,美国国家医学图 书馆建立的u m l s 医学领域本体,爱丁堡大学开发的企业本体等。 领域本体可以定义为一个6 元组( n ,f ,h ,s ,r ,t ) ,其中n 是本体名,f 是n 的父本体名,a 是该本体的属性集,s 是组成该本体的子本体集,r 是该本 体与其他领域本体之间的关系集,t 是附加到该本体之上的事件集,它的执行将 影响到自身或其他本体的状态。 该定义体现以下观点: 1 ) 本体与其父本体、子本体集之间构成层次关系,又通过静态关系集r 和 动态关系集t 与邻域本体之间构成网状关系; 2 ) 本体在某一时刻的属性值决定了该时刻的状态; 3 ) 本体之间通过事件相互影响状态; 4 ) 子本体可以继承其父本体的某些属性和关系。 ( 2 ) 通用或常识本体 用于描述通用知识,如时间、空间、事件等。目前世界上最大的常识本体是 c y c 公司的o p e n c y c 本体,最新版的o p e n c y c 包括6 0 0 0 多个概念和6 0 0 0 0 个关 于这些概念的声明( 包括概念间的关系,对概念的限制等) ,另外o p e n c y c 还包 括一个基于本体的知识推理机。 ( 3 ) 方法本体 也称为任务本体,用于描述任务的求解方法,如医学诊断方法、知识检索方 法等。方法本体和一般的本体不同,它主要描述的是动态知识,其目的在于提供 求解方法的共享基础,方法本体中经常描述的要素包括:任务目标、任务数据和 执行状态等。 ( 4 ) 元数据本体 用于描述信息资源元数据的本体,元数据用来定义联机信息资源的格式和内 容,元数据本体则提供了这些定义方法的公共理解基础。 3 3 描述领域知识本体的框架模型 p e r e z n 劬等人用分类法组织了o n t o l o g y ,归纳出5 个基本的建模元语 ( m o d e li n gp r i m i t i r e s ) 。 ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它 表示的是对象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称, 与其他概念之间的关系的集合,以及用自然语言对概念的描述。 1 2 第二章o n t o l o g y 介绍 一个框架由一系列描述事物各个方面的槽( s l o t ) 组成,槽组合起来可以表 达本体的属性、条件、行为等特征信息。每个槽又由一系列侧面( f a c e t ) 构成, 说明对槽的约束如取值类型、范围、缺省值、操作类型以及语义信息等。特别是 框架可以用来表示推理规则,如槽值中包含的过程信息( 本体的行为特征) 可以 作用到其他本体框架的槽上来获得新的值或激活新的操作。针对领域知识概念和 规则表达的不同特点,设计两种不同的框架类型,概念框架和规则框架。 ( 2 ) 关系( r e l a t i o n s ) 关系是在领域中概念之间的交互作用,形式上定义为n 维笛告儿积的予集: r :c 1 c 2 c n ,如子类关系( s u b c l a s s - o f ) 。在语义上关系对应于对象元组 的集合。 ( 3 ) 函数( f u n c t i o n s ) 函数是一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。 形式化的定义为f :c 1xc 2 c n - 1 一c n 。如m o t h e r o f 就是一个函数, m o t h e r o f ( x ,y ) 表示y 是x 的母亲。 ( 4 ) 公理( a x i o m s ) 公理代表永真断言,如概念乙属于概念甲的范围。 ( 5 ) 实例( i n s t a n c e s ) 实例代表元素,从语义上讲实例表示的就是对象。 另外,从语义上讲,基本的关系共有4 种: 表3 一l 概念之间的基本关系 关系名 关系描述 p a r t 。o f 表达概念之间部分与整体的关系。 k i n d - o f 表达概念之间的继承关系,类似于面向对象中 的父类与子类之间的关系。给出两个概念c 和d , 记c = xix 是c 的实例) ,d = xix 是d 的实例 , 如果对任意的x 属干d7 ,x 都属干c7 ,则称c 为 d 的父概念,d 为c 的子概念。 in s t a n c e o f 表达概念的实例与概念之间的关系,类似于面 向对象中的对象和类之间的关系。 a t t r ib u t e - o f 表达某个概念是另一个概念的属性。如概念“作 者”是概念“试题库”的一个属性。 在实际建模过程中,不一定要严格地按照上述5 类基本建模元语来构造 o n t o l o g y ,概念之间的关系不限于上面列出的4 种基本关系,可以根据领域的具 1 3 第三章o n t o l o g y 介绍 体情况定义相应的关系,以满足应用的需要。 3 4 本体的描述语言 本体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该 满足以下要求: 良好定义的语法( aw e l1 - d e f i n e ds y n t a x ) 良好定义的语义( aw e l1 - d e f i n e ds e m a n tic s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( s u f f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论