（计算机应用技术专业论文）一种基于元数据的搜索引擎的设计与实现.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：78 大小：2.49MB 积分：0 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

（计算机应用技术专业论文）一种基于元数据的搜索引擎的设计与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要工 n t e r n e t的发展使得互联网成为一个巨大的信息库，但是信息的获取质量却停滞不前。传统的搜索引擎大都基于关键字机械匹配，因而不具备理解文档内容的能力，也导致查准率普遍不高。为此本文提出一种新的基于元数据和r d f 的搜索引擎模型。元数据是描述数据的数据，而r d f 是一种携带元数据的很好的工具。由于计算机可以理解of 描述和携带的元数据的含义，因此可以做到基于内容的精确检索。该模型包含词汇集设计、r d f 描述生成工具、运行于服务器端的 r d f 描述信息收集和解析程序、基于词汇集的查询四个模块。词汇集定义了从哪些角度去描述资源: r d f 生成工具帮助用户建立对网络资源的描述，或者将of 描述以x m l 数据岛的形式嵌入网页中，或者直接将of 描述文档发往搜索引擎服务器的of 文档缓冲区: of 收集和解析模块则负责在网络上寻找被r d f 描述过的网页资源，以文本文档的形式存储在服务器的of 文档缓冲区中， of 解析器解析该缓冲区中的of 文档，得到的三元组被存储在索引数据库中，查询模块提供查询界面接受用户检索，并将结果以元数据的方式显示出来。本系统还研究了受控词表的建立、元数据自动生成等内容，这些研究是对该机制的完善和补充。建立受控词表是为了更好的描述和查询，而元数据自动生成能提高系统的自动化程度。关键词 x m l r d f ，搜索引擎，元数据，网络机器人，r d f 解析器 abs tract t h e d e v e l o p m e n t o f i n t e rn e t m a k e s i t a h u g e b a s e o f i n f o r m a t i o n , b u t t h e q u a l i t y o f i n f o r m a t i o n o b t a i n m e n t d o e s n o t g e t a h e a d . t h e m o s t o f t r a d i t i o n a l s e a r c h e n g i n e s a r e b a s e d o n m a t c h i n g o f k e y w o r d s , s o t h e y d o n t h a v e c a p a c i t y o f u n d e r s t a n d i n g d o c u m e n t s o n i n t e rne t , w h i c h r e s u l t i n t h e l o w a c c u r a c y o f s e a r c h i n g . t h i s p a p e r p r o v i d e s a n e w s e a r c h i n g mo d e l b a s e d o n me t a d a t a a n d r d f . me t a d a t a i s d a t a a b o u t d a t a , w h i l e r d f i s a g o o d t o o l t h a t d e s c r i b e s a n d c a r r i e s m e t a d a t a . b e c a u s e c o m p u t e r c a n u n d e r s t a n d t h e m e a n i n g o f m e t a d a t a c a r r i e d b y r d f , o u r s e a r c h i n g e n g i n e c a n p r o v i d e i n f o r m a t i o n r e t r i e v a l b a s e d o n c o n c e p t o r c o n t e n t . t h i s s y s t e m i n c l u d e s f o u r m o d u l e s : d e s i g n o f v o c a b u l a r i e s , a t o o l f o r g e n e r a t i n g r d f d e s c r ip t i o n , a r u n - a t - s e r v e r p r o c e d u r e t o c o l l e c t i n g a n d p a r s i n g r d f d e s c r i p t i o n a n d a b / s p r o c e d u r e f o r u s e r t o r e t r i e v e . t h e v o c a b u l a ry d e f i n e s a s e t o f m e t a d a t a t h a t i s u s e d t o d e s c r i b e r e s o u r c e s . t h e r d f g e n e r a t i n g t o o l h e l p u s e r t o d e s c r i b e r e s o u r c e o n i n t e r n e t . t h e r e a r e t w o w a y s o f d e s c r i p t i o n , o n e i s e m b e d d i n g r d f i n f o r m a t i o n i n t o w e b p a g e s i n t h e f o r m o f x m l i s l a n d , t h e o t h e r i s d i r e c t l y s e n d i n g r d f d e s c r i p t i o n i n f o r m a t i o n t o r d f d o c u m e n t b u ff e r a t t h e s e a r c h in g e n g i n e s e r v e r ; r d f c o l l e c t in g a n d p a r s i n g m o d u l e s r e s p o n s ib i l i t y i s s e a r c h in g w e b p a g e s w h i c h i s d e s c r i b e d b y r d f , t h e n s t o r i n g t h e m t o r d f d o c u m e n t s b u f f e r i n t h e f o r m o f t e x t f i l e , r d f p a r s e r w i l l p a r s e r d f d o c i n t h e s e t e x t f i l e s t o t r i p l e s w h i c h i s s t o r e d a t i n d e x d a t a b a s e ; f i n a l l y , r e t r i e v e m o d u l e p r o v i d e s i n t e r f a c e f o r u s e r t o r e t r i e v e , a n d d i s p l a y t h e r e t r i e v e r e s u l t i n t h e f o r m o f m e t a d a t a . i n a d d i t i o n , w e h a v e r e s e a r c h e d t h e c o n t r o l l e d v o c a b u l a ry a n d t h e a u t o m a t i c g e n e r a t i o n o f m e t a d a t a , w h i c h i s u s e d t o p e r f e c t t h e m e c h a n i s m w e p r o v i d e . v c a b u l a ry c a n m a k e d e s c r ip t i o n a n d q u e ry m o r e c o n v e n i e n t , a n d t h e l a t t e r c a n m a k e t h e s y s t e m m o r e a u t o m a t i c . ke y wor d s x ml , r d f , s e a r c h p 盯s e r e n g i n e ,m e t a d a t a , w e b r o b o t , r d f 1 1 原创性声明本人声明，所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了论文巾特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在在论文中作厂明确的说明。作者签名: y 铃日期 :z , o u ch 年二月车日关于学位论文使用授权说明本人了解中南人学有关保留、使用学位论文的规定，即:学校有权保留学位论文，允许学位论文被查阅和借阅; 学校可以公布学位论文的全部或部分内容，可以采用复印、缩印或其它手段保存学位论文; 学校可根据国家或湖南省有关部门规定送交学位沦文。作者签名导师二名吼 n,- 日期 :、年工月享日图表索引图卜1 w o ) 搜索的一般模式， . . . . . . . . . . . . . . . ， . . ， . . 2 图 2 - 1 r d f语句. ，， . . . . . . . . . . . . 、二， . . ， . ，， . . 1 4 图2 - 2 r d f 描述词汇集示例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 图3 - 1网页自描述方式. . . ， . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 图3 - 2集中式描述方式. . . . . . . . . . . . . . . . . . . . . . . . . ， . . . . 2 2 图3 一 3一般搜索引擎的食询机制， . . . . ， . . . . . . . . . 2 3 图3 - 4系统数据流图. . . . . . . . ， . ， . . . . . . . . . . . . . . . . . . . . ， 2 4 图3 - 5系统结构图， . . . . . . ， . . . . . . . . . . . . . . . ， . ， . . . 2 6 图3 一 6图像处理受控词表层次图 . . . . . . . . . . . ， . . . . 3 2 图3 - 7 of 描述生成模块. . . . . . . . . _ . . . . . . . . . . . . . . . . . . . . 二 :3 3 图3 - 8 r d f 收集和解析模块 . ， . . . . . . . . . . . ，， . . . . . . . . . . . 3 5 图3 一 9 查询模块. . . . . . . . . . . . . . . . . . . ， . ， . . . . . . . . . . . 3 5 图4 - 1 of 描述生成模块程序界面图. . . t . ，， . . . . . . . . . . 4 1 图4 - 2 of 收集和解析模块程序界面. . . . . . . . . . . . . . . . . . . . ， . . 4 3 图4 - 3 r e a d方法程序流程图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 8 图4 - 4查询模块界面. . . . . . . . . . . _ . . . . . . . . . . . . . . . . . . . . . . . . 5 0 图4 - 5 s e a r c h函数程序流程图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ， 5 3 图4 - 6 w e b r o b o t 搜集结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 图4 - 7查询结果. . 卜 . . _ . . . . . . . . . . . . . . . . . . . . . . ， . . 5 6 图4 - 8试验中的层次结构图， . . . . . . . . . . . . . . . . ， . . . . 5 8 图4 - 9文档与查询匹配度曲线图、 . . ， . . . . ， . . 5 9 图4 - 1 0查准率、查全率计算示意图. . . . . . . . . . . . . . . . _ . . ，，二、， 6 0 图 4 - 1 1查准率、查全率与c :的关系图 . . . . . . . . . . . . . . . . . . . 6 1 图 5 - 1线图分析法结构图示. . . . . . . . . . . . . . . . . . . . . . . . . . . 6 5 表1 一 1 布尔检索的优缺点 . . . . . . . . . . . . . . . . . . . . ，，，， . 3 表4 - 1检索文档的分类. . . . . . . . . . . . . . . . . . . . . . ， . . 二， . . 5 7 表4 - 2 g o o g l e的部分搜索结果 . . . . . . . . . . . . . . . . . . . . . . ， . 二卜 . 5 7 表4 - 3试验中的文档描述结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 8 表4 - 4节点距离矩阵. . . . . ， . . . . . . . ， . . . . . . 5 9 表 4 - 5木系统与g o o g l e 搜索引擎的比较. . . . ， . . . . . . . . . . 6 2 中南大学硕士学位论文第一章绪论第一章绪论 1 . 1研究背景 1 . 1 . 1 搜索引擎概述因特网作为一种新的大众传媒，由于其快速、方便而受到人们的普遍欢迎。美国一家主要调查因特网使用情况的公司 “ 媒体调查公司 ( m e d i a r e s e a r c h i n c . )”在1 9 9 9 年5 月的一份调查报告中指出: 在美国，平均每个月约有6 千 4 百万成年人，或占三分之一 1 8 岁以上的人口在使用万维网。这要比上一年调查的数字 5 千 3 百万高出2 0 yo。而全世界有 2 亿人使用因特网，到 2 0 0 3 年，使用人数己增加到 5 亿人口。w e b 从 1 9 9 1 年出现以来，经过短短几年己经发展成为一个巨大的全球化信息空间，最新的统计数据表明，在 1 9 9 9 年 2月，w e b 上大约有 2 8 0 万台服务器，存储了8 亿个页面，信息量高达 1 . 5 t b o 万维网的丰富多样的应用给人们带来了方便，同时也派生出一种新的应用: 信息检索 ( i n f o r m a t i o n r e t r i e v e ) 【，。她的目的是将用户带到用户想浏览的页面，或者提供给用户所要的信息，或者告诉用户网上某项服务的存在。信息检索技术比信息提供本身更重要，因为它是用户和万维网的接口，用户能不能找到自己感兴趣的内容直接决定了万维网的信息服务质量。网络搜索引擎2 1 一般由信息收集软件 ( s p i d e r )、索引器( i n d e x ) 和查询接口( q u e r y i n t e r f a c e ) 三部分组成。其模式如图1 - 1 所示。这三部分相互合作共同完成搜索任务。 1 . 信息收集软件又称为巡视程序、信息采集器，它是一种穿行 w e b空问的计算机软件，它从一个网页跨越到另一个网页，自动追寻超文本的链接，遵循超文本传输协议 ( h t t p ) ，从网络服务器上采集新出现的信息，并对网页的信息进行标引，确认网页间的链接是否有效，删除不存在的链接。它标引网页的方式将直接影响从索引数据库中检索信息的质量。 2 . 索引器其实是一个数据库，它是信息检索的基础。信息采集器将采集和标引的信息记录在索引数据库中。不同搜索引擎记录网页的内容不同，数据库的规模也不同。 3 . 查询接口，也称为检索代理。是用户与搜索引擎交互的界面。当用户提出查询要求时，它代替用户在数据库中进行查询并返回查询结果给用户。在这中南大学硕上学位论文第一章绪论一过程中，该程序利用一些算法刘文件与用户需求的相关性进行计算和评估并根据计算结果进行排序，将最符合用户需求的信息排在最前面。图1 - 1 w e b 搜索的一般模式 1 . 2 现有信息检索的基本方法 1布尔模型。在布尔模型中，查询表达式由逻辑算子a n d , o k , n o t 连接若干查询词构成例如; 表达式 1 = “ 飞碟” 表达式2 = “ 飞碟”a n d“ 美国” 表达式3 =“ 飞碟” a n d( “ 中国” o k 表达式 2的含义是文档中同时含有 ( n o t“ 科幻小说” ) ) “ 飞碟”和 “ 美国”两个词的含义为文档中含有 “ 飞碟” ，并且要么含有 “ 中国”要么不含有 “ 检索匹配结果用公式表示为: ，表达式 3 科幻小说，o 0 , r e s u “ 一 1, 查询表达式为假查询表达式为真 ( 1 - 1 ) 布尔检索的优缺点如表1 - 1 所示。中南大学硕十学位论文第一章绪论表1 - 1 布尔检索的优缺点优点缺点 1 )匹配方式非0 即1 ，简单、速度快 2 )查询表达式易于掌握 1 )不够精确，不能反映不同t e r m 个文档的重要程度的差异 2 )检索结果地位平等、无法排序为了改变匹配过于简单的缺点，扩展的布尔检索将非。即 1 的计算方式改为计算相似度，例如对于t e r m , o r t e r m , o r 一(o r t e r m 。形式的查询表达式，相似度计算公式为: s i m ( q , d ) ( 1 一 2 ) 对于t e r m , a n d t e r m , a n da n d t e r m , 形式的查询表达式，其相似度训算公式为: s i m ( q _ , , d ) ( 1 一 x , ) 0 + ( 1 一 x z ) + . + ( 1 一 x x m ( 1 - 3 ) 下ij 厂1.1 一，.1 - 其中x . e ( 0 ,1 )为t e r m ，在文档d 中的权重， 1 _ p p r o b ( n r ld ; , q ) p r o b ( r ldq ) _ p r o b ( n r ld ，。 ) ( 1 - 6 ) 其中， p r o b ( r ld ;, q ) 表示文档d , 是要寻找的相关文档的概率， p r o b ( n r id , , q ) 表不文档d , 不是相关文档的概率。概率模型因为计算量太大而较少被采用。 1 . 1 . 3 现有搜索引擎的缺陷 1 . 查准率低。从卜述信息检索的模型可以看出，现有搜索引擎处理的对象都是对文档分词过后的没有任何语义修饰的词的集合，这些词的含义及词之间的关系都不得而知。模型计算的依据都是对词在文档中的词频进行分析来判断词在文档中的重要程度。这种重要程度缺乏语义的描述，因而是不可靠的，所以会出现查准率低的情况。现在有很多网站在呈现查找结果时，往往罗列了很多网页地址，但是真正和用户的意图相符的很少，有用的信息被大量无关的结果淹没了。 2 . 仅使用关键词在一个输入框中提问。现有的搜索引擎仅允许用一组关键词及逻辑运算符组成提问。但关键词检索不能完个满足用户的要求，而月 .它是一种盲日的匹配。而自然语言理解又是非常困难的任务，现在仍在研究之中。 3 . 搜索出米页面太多，有用信息被淹没在大量的无用信息之中。大多数的搜索引擎都只返回一张长长的检索结果表，一般有好儿页，该表中可能包含成千上万个指向 w e b站点的链接指针。用户可能只选择一小部分，而放弃其余部分。因为用户不可能有这么好的耐心，结果是他们可能丢失了很多有用的信息。，， 1 . 4 搜索引擎缺陷原因分析经过研究万维网的发展历程，我们认为 h t ml是造成搜索质量难以提高的重要原因。 1 . h t m l语言c i 是通过利用各种标记来标识文档的结构以及标识超链 ( 吻p e r l i n k ) 的信息。这些标记是用来告诉浏览器如何安排显示格式的，即它的目的是显示网页，因此h t m l 语言没有描述网页信息内容的能力，搜索引擎特别是基于全文检索的搜索引擎拿到网页的源文件后却看不懂它的含义，看到的只是一个不能被解释的文木字节流。因此搜索引擎不能理解网页的描述内容，搜索质量自然很难提高。 2 . h t m l 语台标记不能扩展，即它是固定的， h t m l 语言自从它诞生起，它的中南大学硕十学位论文第一章绪论标记数日就不会有大的改变，即使改变也不能任意增加。 3 . h t m l 语a 语法不是很严格规范的。它表现在两方面:( 1 )虽然i it m l 语a 描述了文档的结构格式，但并不能精确地定义文档信息必须如何显示和排列，而只是建议* e b 浏览器 ( 如m o s i a c , n e t s c a p e 等)应该如何显示和排列这些信息，最终在用户面前的显示结果取决于w e b 浏览器本身的显示风格及其对标记的解释能力。这就是为什么同一文档在不同的浏览器中展示的效果会不一样。( 2 ) 浏览器对 h t m 工语言的容错性强，网页设计者即使没有严格遵守 h t m l语法，浏览器也能显示出来，这在一定程度卜方便了网页设计者，但是会使搜索引擎更加难以分析网页源文件，处理难度也会更大，因为搜索引擎很难应对各种各样的并不规范的格式。综上所述，搜索引擎质量的一个非常重要的影响因素就是 i it m l 本身的局限性，这是由i it m l 形成的历史决定的，万维网的飞速发展是和 h t m l 语言的简单性分不开的，然而电子商务、电子图书、远程教育等全新领域异军突起，迅猛发展并逐渐成为互联网世界必不可少且愈发重要的组成部分，随之而来的是w e b 文化的复杂化、多样化、智能化，于是高容量、高信息量、高效率便成为网络信息技术发展的追求目标。而这一切是h t m l 所不能满足的。当初人们并没有想象万维网会发展到现在的规模，没有想到它会走进干家万户，成为一个巨大的信息海洋，所以万维网并没有相应的机制对网页信息进行有效的描述，导致后来的信息检索质量难以提高。 1 . 2基于元数据的解决方法及其目标为了解决上述问题，本系统利用元数据对原始网页进行描述性标记来达到提高搜索引擎质量的目的。一般的，提高w e b 信息检索的质量包括两方面的内容: 1 . 如何在现有的资源上面设计更好的检索技术; 2 . 如何为 w e b上的资源附加上计算机可以理解的内容，便于计算机处理，即给出一种计算机能够理解的描述资源的手段。基于后一种考虑，我们利用由网页携带元数据的方法来提高检索的质量。元数据们是关于数据的数据，或者是解释数据的数据，如文献的“ 作者，、“ 日期”等。它描述了资源的属性、类别以及资源之间的关系等信息，使w e b 上的中南人学硕_ i s 学位论文第一章绪论信息由一次进入二次，由不可靠变为可靠，由没有语义修饰变为带有语义修饰，为充分开发利用w e b 资源提供了前提条件和可能。目前人们所使用的万维网，实际上是一个存储和共享图像、文本的媒介，电脑所能看到的只是一堆文字或图像，对其内容无法进行识别。万维网中的信息，如果要让电脑进行处理的话，就必须首先将这些信息加工成计算机可以理解的原始信息后刁能进行处理，这是相当麻烦的事情。而本系统的任务就是通过为网页里的资源添加元数据标注使网贝其有自己描述自己的能力，这些描述信息必须是规范的、计算机可理解的，从而为搜索引擎提供更好的服务打下基础。为了有效的利用元数据对网页进行描述，需要有一个元数据的描述标准，资源描述框架r d f ( f r a m e w o r k f o r r e s o u r c e d e s c r i p t i o n ) ，作为元数据描述和交换的工具，被认为是描述网络资源的极佳工具。本系统就是采用r d f 语言来作为携带和交换元数据的。本系统希望达到如下目标: 1 . w e b 资源得到良好描述; 2做到准确、可靠的搜索; 3 . 满足专业化领域的搜索要求，对专业领域的资源进行良好描述，以方便检索到以p d f , d o c , a v i , r m 等各种格式的文献资料; 4 . 查询界面应该尽量灵活，目的是使用户能够较好的表述自己的查询要求，而不再是在单个输入框输入查询词。其中w e b 资源得到良好描述是实现这些目标的前提和关键，只有描述好了刁能提供高质量的查询。灵活的查询机制是基于词汇集进行的，而词汇集就是用来描述网页的，可见查询机制也依赖于描述机制。 1 . 3国外相关研究情况关于元数据和r d f的研究在国外已经非常广泛和深入。许多大学和组织都有这方面的研究项目。 l视频内容检索m 数据包括视频中的帧、目的。 2 . 网上个人音乐、下面介绍一些与元数据和r d f 有关的课题研究。。通过往视频文件中嵌入描述视频内容的元数据，这些元镜头、场景等信息，使得检索工具能够达到内容检索的图片的收集检索。 m u s i c b r a i n z m e t a d a t a i n i t i a t i v e项中南大学硕士学位论文第一章绪论目7 、通过建立一种轻便、灵活的机制来存储和交换网上的数字音乐元数据。它其实是一个音乐的内容描述模型。r d f p i c项目 lh ，则针对网上图像文件的检索，它的一个模块实现将元数据用 r d f格式写进图像文件，另一个模块负责 r d f信息的收集和检索。 3 . e d u t e l l a 项目 u ,i 也是一个基于r d f 的项目，它为j x t a p 2 p 系统提供一个分布式、可查询、可复制的元数据机制。 4 . 在数字图书馆及w e b资源发现领域，元数据和 r d f由于能够协助描述和检索也得到了极大的发展和重视。其中都柏林核心集作为描述图书馆资源的元数据集已经得到许多国家的支持，有望成为国际标准。比较典型的案例有以下些。 ( 1 )澳洲的“ 分散式系统技术中心” ( d s t c ) 推动了一系列的研究计划，重点在研究如何利用都柏林核心集来改进一般搜索引擎的性能，如何来协助使用者在w w a 上搜索资料等。其中m e t a w e b 是跟元数据最密切相关的计划之一。 m e t a w e b是元数据y具和服务计划 ( m e t a d a t a t o o l s a n d s e r v i c e s p r o j e c t )的简称，此计划的主要宗旨为发展元数据栏位、使用者工具、索引服务等来提升元数据在万维网上的应用，其合作伙伴包括澳洲国家图书馆。目前m e t a w e b 系统使用的测试版搜索引擎名为“ h o t m e t a , h o t m e t a 是一个元数据搜索引擎，可以将网络上电子文件的元数据，提取出来作成索引后，来加以查询。系统包含两个模块，一个是类似一般搜索引擎自动抓取程序的 “ 收集者” ， “ 收集者” 负责将h t m l 文件中的元数据抽出，以s o i f ( s u m m a r y o b j e c t i n t e r c h a n g e f o r m a t ) 格式送到另外一个模块一-“ 经纪人” ( b r o k e r ) 存放， “ 经纪人”负责管理存放的资料 ( 含其索引) ，并提供检索界面。在目前的实验阶段， h o t m e t a 的资料库将只涵盖澳洲网站的资料，所提取的元数据也只限定在都柏林核心集。 ( 2 )荷兰国家图书馆将发展一种新的全球资讯网服务，系统的主要做法是要在所有已收集的网页中，加入都柏林核心集的元数据资料。新的网页将要求提供者先自行加入都柏林核心集的元数据资料后再呈送，将来荷兰国家图书馆的搜索引擎会利用这些元数据来协助检索。 ( 3 )丹麦政府决定自西元1 9 9 7 年起将所有政府的出版物上网，系统的主要规格之一，是采用都柏林核心集来描述文件和协助查询。 ( 4 )英国的 u k o l n正在推行一个名为 b i b l i n k的计划，在出版社和国家书目中心间建立一条网路通讯管道，来直接交换书籍记录和资讯，这套系统是使中南大学硕十学位论文第一章绪论用都柏林核心集作为其基本的格式。 5 . 针对未来的互联网，万维网之父 t i m 13 e r n e r s - l e e提出了“ 语义 w e b ( s e m a n t i c w e b ) 0 j - ，0 的概念，其含义是把万维网建设成为计算机可以理解其信息含义的庞大的信息数据库，人们可以利用各种智能代理做许多现在无法完成的事情，而智能代理就是充分利用语义 w e b为人们提供服务的工具。而 r d f 是实现 “ 语义 w e b ”的重要语言。 1 . 4本文主要研究内容及意义 1 . 4 . 1 一种基于元数据的搜索引擎系统通过分析元数据和 r d f 的应用现状，我们还没发现有哪个项目提供一个应用于整个w e b 的集资源描述和资源检索于一体的搜索引擎系统。本文尝试一种基于r d f 描述网络资源的w e b 搜索引擎的实现，主要包括词汇集设计、网页的 r d f 描述生成工具、页面r d f 信息的收集、r d f 文档的解析和基于词汇集的查询四个部分。 r d f 描述生成工具协助用户向网页中添加与某应用领域相关的描述信息:页面r d f 语义信息的收集是指如何得到各个网页的用 r d f 描述的信息;of 的解析是指提取灵活的of 文档中的三元组，结构化存储到数据库中;基于词汇集的查询则是为用户提供针对性强、体现查询需求、专业化的、基于知识的查询。 1 . 4 . 2 元数据自动生成研究用元数据描述资源需要做大量的人工标引工作，为此我们尝试使用信息提取技术对某些元数据进行自动提取和生成，以提高系统的智能化和自动化水平。本文对科技论文摘要进行了分析，针对科技论文 “ 贡献类别”这一元数据的自动提取和生成提出了一个算法，并做了相关试验。 1 . 4 . 3 研究意义元数据对于万维网和语义w e b 都是非常重要的。本文的研究也正体现了语义w e b 这一思想，通过在网页中嵌入描述性of 格式的元数据将w e b上的巨量无序信息库变为有序信息数据库，使网页由一次信息进入二次信息，从而为各种高精度、功能强大的w e b 应用如搜索引擎提供基础支持。本文实现的搜索引擎就是建立在这种元数据机制之上的，它能为人们提供可靠的、准确的搜索服中南大学硕十学位论文第一章绪论务。相信木文的研究能够对元数据、x m l , r d f 的在互联网上的应用起到一定的促进作用。在提出和实现这种新的搜索机制的过程中，本文还研究了词汇集的设计、受控词表的建立和使用、元数据自动生成等内容，这些研究对完善该机制起了重要的作用。 1 . 5小结本章在讨论和分析了当前w e b 信息检索的现状和缺陷后，指出h t m i 的简单性导致没有能力描述网页内容是当前搜索引擎查准率不高的重要原因。基于这一线索，本文提出基于元数据的解决办法，使网页具备内容描述的能力，从而为搜索引擎提高搜索质量打下基础。接着描述了本文要设计和实现的一种搜索引擎的概貌，最后论述了本文的研究意义。中南大学硕学位论文第二章资源描述框架r d f 第二章资源描述框架r d f 要实现上述目标，必须制定一个元数据描述和携带的标准， of 就是这样一个资源描述标准。它提供了一种灵活的语法来描述网络资源，它基于x m 1 语法，摆脱了h t m l 语言的限制，借助于x m l 中的。i c o d e 字符集、命名空间、u r 工等概念可出色的完成元数据交互的功能。为此，先讨论x m l 语言的基本语法要点和相对于h t m l的优势所在，再介绍 r d f的特点和概貌。 2 . 1 x m l 的基本特点 x m l 是一个精简的s g m l 0 6 ，它将s g m l 的丰富功能与h t m ! 的易用性结合到 w e b 的应用中。 x m i 保留了s g m l 的可扩展功能，这使x m l 从根本上有别于h t m l . x m l 要比h t m l 强大得多，它不再是固定的标记，而允许定义数量不限的t 11 记来描述文档中的资料，允许嵌套的信息结构。 h t m l 只是w e b 显示数据的通用方法，而x m l 提供了一个直接处理w e b 数据的通用方法o h t m 丁着重描述w e b 页面的显示格式，而x m l 着重描述w e b 页面的内容。以是一段简单的x m l 文档实例: 编译原理 / 名称) 陈火旺 3 5 名称) 基于内容的视觉信息检索. 作者) 章毓晋 4 5 / 售价) / 推荐从书) 中南大学硕十学位论文第二章资源描述框架r d f 兀素是组成x m l 文档的主要单位，元素由一对标识以及其中的内容组成。就象这样: c o n t e n t 。元素的名称和标识的名称是 - 样的。标识可以用属性来进一步描述。从这段 x m l 文档中可以着出x m l 和h t m l 的几个重要区别: x m l 是一种元语言，是可扩展的。以上位于内的标签是用户自己定义的，而且可以是全球任何一种语言。在x m l 中，没有任何保留字，用户可以根据自己的需要定义自己的标签，从而使x m l 具有可扩展性。 x m l 是描述内容的。例如上面这段x m l 文档就是描述一本书的信息。具体到了名称、作者、售价等详细内容信息，如果在h t m l 语言里很可能就是一个指向一本书的链接，链接的文本名字是这本书的书名或者是一个表格，表格的各个栏里包括了作者、售价等信息。 x m l 是一种可嵌套任意程度的结构，如上例中推荐丛书元素包括书籍子元素，而书籍子元素又包括名称、作者、售价三个子元素。利用x m l 的这种嵌套结构可以表达非常复杂的关系。如家族成员关系、部件组成关系、集成关系等都可以用x m l 来表达。 x m l 语法比h t m l 要严格。在x m l 语法中，一个标记必须是成对出现的，后一个标记的第一个字母必须是 / ，元素之间有严格的嵌套关系，属性也有一定的规则。这些规范保证了语义可读性和程序处理的方便性。 2 . 2 x m l 语法规则 x m l 的文档和h t m l 的原代码类似，也是用标记来标识内容。但是创建x m l 文档必须严格遵守下列重要规则: 规则 1 :必须有x m l 声明语句。声明是x m l 文档的第一句，其格式如下: 声明的作用是告诉浏览器或者其它处理程序: 这个文档是x m l 文档。声明语句中的v e r s i o n 表示文档遵守的x m l 规范的版本;s t a n d a l o n e 表示文档是否附带d t d 文件，如果有，参数为n o ; e n c o d i n g 表示文档所用的语言编码，默认是 u t f - 8 a 规则2 :是否有d t d 文件。中南大学硕士学位论文第二章资源描述框架即f 如果文档是一个“ 有效的x m i 文档” ，那么文档一定要有相应d i d 文件，并且严格遵守d t d 文件制定的规范. d t d 文件的声明语句紧跟在x m l 声明语句后面，如，其中” ! d o c t y p e 是指你要定义一个d o c t y p e , t y p e - o f - d o e 是文档类型的名称，由用户自己定义，通常与d t d 文件名相同， s y s t e m / p u b l i c 这两个参数只用其一。 s y s t e m 是指文档使用的私有d i d 文件的网址，而p u b l i c 则指文档调用一个公用的d i d 文件的网址。 d t d - n a m e 就是d i d 文件的网址和名称。所有d t d 文件的后缀名为 “ . d t d . 还是用上面的例子，应该写成这样: 规则3 :大小写有区别。在x m l 文档中，大小写是有区别的。和是不同的标识。注意在写元素时，前后标识大小写要保持一样。例如: a ,j i e ，写成 a j i e 是错误的。规则 a :给属性值加引号。在 h i m l 代码里面，属性值可以加引号，也可以不加。例如: w o r d 和 w o r d 都可以被浏览器正确解释。但是在x m l 中则规定，所有属性值必须加引号( 可以是单引号，也可以是双引号) ，否则将被视为错误。规则5 :所有的标识必须有相应的结束标识。在 h t m l 中，标识可能不是成对出现的，比如。而在标识必须成对出现，有一个开始标识，就必须有一个结束标识误。 x m l 中规定，所有。否则将被视为错规则 6 :所有的空标识也必须被关闭。空标识就是标识对之间没有内容的标识。比如 , 等标识。在x m l 中，规定所有一的标识必须有结束标识，针对这样的空标识， x m l 中处理的方法是在原标识最后加/ 2 . 3 x m l 中和r d 相关的重要技术中南大学硕十学位论文第二章资源描述框架r d f 在x m i 中还有其他一些重要的语法如注释、 c d a t a , e n t i t y 实体【 u ) 等，它们也是x m l 语法的重要组成部分。下面介绍的是和 of 密切相关的x m l 中的一些技术。 1 . u r 丁 u r i 的全名叫 “ u n i f o r m r e s o u r c e i d e n t i f i e r ，即统一资源标识符。用于唯一的标识全球的资源，u r i 包括了u r l 和u r n ，是二者的超集。 u r l 是统一资源定位符 ( u n i f o r m r e s o u r e l o c a t o r ) 的缩写， u r n 是统一资源名称 ( u n i f o r m r e s o u r c e n a m e ) 的缩写。 u r l 是通过 “ 通讯协议+网络地址” 字符串来唯一标识信息位置及资源访问途径的一种方法; u r n 则主要用于唯一标识全球范围内由专门机构负责的稳定的信息资源，u r n 通常给出资源名称而不提供资源位置。 2 . u n i c o d e 字符集 u n i c o d e ( 统一码)

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）一种基于元数据的搜索引擎的设计与实现.pdf

文档简介

温馨提示

最新文档

评论