




已阅读5页,还剩73页未读, 继续免费阅读
(计算机应用技术专业论文)一种基于元数据的搜索引擎的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 工 n t e r n e t的发展使得互联网成为一个巨大的信息库,但是信息 的获取质量却停滞不前。传统的搜索引擎大都基于关键字机械匹配, 因而不具备理解文档内容的能力, 也导致查准率普遍不高。 为此本文 提出一种新的基于元数据和r d f 的搜索引擎模型。 元数据是描述数据 的数据, 而r d f 是一种携带元数据的很好的工具。 由于计算机可以理 解of 描述和携带的元数据的含义, 因此可以做到基于内容的精确检 索。该模型包含词汇集设计、r d f 描述生成工具、运行于服务器端的 r d f 描述信息收集和解析程序、 基于词汇集的查询四个模块。 词汇集 定义了从哪些角度去描述资源: r d f 生成工具帮助用户建立对网络资 源的描述, 或者将of 描述以x m l 数据岛的形式嵌入网页中, 或者直 接将of 描述文档发往搜索引擎服务器的of 文档缓冲区: of 收集 和解析模块则负责在网络上寻找被r d f 描述过的网页资源, 以文本文 档的形式存储在服务器的of 文档缓冲区中, of 解析器解析该缓冲 区中的of 文档, 得到的三元组被存储在索引数据库中, 查询模块提 供查询界面接受用户检索,并将结果以元数据的方式显示出来。 本系统还研究了受控词表的建立、 元数据自动生成等内容, 这些 研究是对该机制的完善和补充。 建立受控词表是为了更好的描述和查 询,而元数据自动生成能提高系统的自 动化程度。 关键词 x m l r d f ,搜索引擎,元数据,网络机器人,r d f 解析器 abs tract t h e d e v e l o p m e n t o f i n t e rn e t m a k e s i t a h u g e b a s e o f i n f o r m a t i o n , b u t t h e q u a l i t y o f i n f o r m a t i o n o b t a i n m e n t d o e s n o t g e t a h e a d . t h e m o s t o f t r a d i t i o n a l s e a r c h e n g i n e s a r e b a s e d o n m a t c h i n g o f k e y w o r d s , s o t h e y d o n t h a v e c a p a c i t y o f u n d e r s t a n d i n g d o c u m e n t s o n i n t e rne t , w h i c h r e s u l t i n t h e l o w a c c u r a c y o f s e a r c h i n g . t h i s p a p e r p r o v i d e s a n e w s e a r c h i n g mo d e l b a s e d o n me t a d a t a a n d r d f . me t a d a t a i s d a t a a b o u t d a t a , w h i l e r d f i s a g o o d t o o l t h a t d e s c r i b e s a n d c a r r i e s m e t a d a t a . b e c a u s e c o m p u t e r c a n u n d e r s t a n d t h e m e a n i n g o f m e t a d a t a c a r r i e d b y r d f , o u r s e a r c h i n g e n g i n e c a n p r o v i d e i n f o r m a t i o n r e t r i e v a l b a s e d o n c o n c e p t o r c o n t e n t . t h i s s y s t e m i n c l u d e s f o u r m o d u l e s : d e s i g n o f v o c a b u l a r i e s , a t o o l f o r g e n e r a t i n g r d f d e s c r ip t i o n , a r u n - a t - s e r v e r p r o c e d u r e t o c o l l e c t i n g a n d p a r s i n g r d f d e s c r i p t i o n a n d a b / s p r o c e d u r e f o r u s e r t o r e t r i e v e . t h e v o c a b u l a ry d e f i n e s a s e t o f m e t a d a t a t h a t i s u s e d t o d e s c r i b e r e s o u r c e s . t h e r d f g e n e r a t i n g t o o l h e l p u s e r t o d e s c r i b e r e s o u r c e o n i n t e r n e t . t h e r e a r e t w o w a y s o f d e s c r i p t i o n , o n e i s e m b e d d i n g r d f i n f o r m a t i o n i n t o w e b p a g e s i n t h e f o r m o f x m l i s l a n d , t h e o t h e r i s d i r e c t l y s e n d i n g r d f d e s c r i p t i o n i n f o r m a t i o n t o r d f d o c u m e n t b u ff e r a t t h e s e a r c h in g e n g i n e s e r v e r ; r d f c o l l e c t in g a n d p a r s i n g m o d u l e s r e s p o n s ib i l i t y i s s e a r c h in g w e b p a g e s w h i c h i s d e s c r i b e d b y r d f , t h e n s t o r i n g t h e m t o r d f d o c u m e n t s b u f f e r i n t h e f o r m o f t e x t f i l e , r d f p a r s e r w i l l p a r s e r d f d o c i n t h e s e t e x t f i l e s t o t r i p l e s w h i c h i s s t o r e d a t i n d e x d a t a b a s e ; f i n a l l y , r e t r i e v e m o d u l e p r o v i d e s i n t e r f a c e f o r u s e r t o r e t r i e v e , a n d d i s p l a y t h e r e t r i e v e r e s u l t i n t h e f o r m o f m e t a d a t a . i n a d d i t i o n , w e h a v e r e s e a r c h e d t h e c o n t r o l l e d v o c a b u l a ry a n d t h e a u t o m a t i c g e n e r a t i o n o f m e t a d a t a , w h i c h i s u s e d t o p e r f e c t t h e m e c h a n i s m w e p r o v i d e . v c a b u l a ry c a n m a k e d e s c r ip t i o n a n d q u e ry m o r e c o n v e n i e n t , a n d t h e l a t t e r c a n m a k e t h e s y s t e m m o r e a u t o m a t i c . ke y wor d s x ml , r d f , s e a r c h p 盯s e r e n g i n e ,m e t a d a t a , w e b r o b o t , r d f 1 1 原 创 性 声 明 本人声明, 所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。 尽我所知, 除了论文巾特别加以标注和致谢的 地方外, 论文中不包含其他人已 经发表或撰写过的研究成果, 也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。 与我共 同工作的同志对本研究所作的贡献均已在在论文中作厂 明确的说明。 作者签名: y 铃日 期 :z , o u ch 年 二月 车日 关于学位论文使用授权说明 本人了解中南人学有关保留、 使用学位论文的规定, 即:学校有 权保留学位论文, 允许学位论 文被查阅和借阅; 学校可以公布学位论 文的全部或部分内容, 可以采用复印、 缩印或其它手段保存学位论文; 学校可根据国家或湖南省有关部门规定送交学位沦文。 作者签名 导 师 二 名 吼 n,- 日 期 :、 年 工 月 享 日 图表索引 图 卜1 w o ) 搜索的一般模式 , . . . . . . . . . . . . . . . , . . , . . 2 图 2 - 1 r d f语句. , , . . . . . . . . . . . . 、 二, . . , . , , . . 1 4 图2 - 2 r d f 描述词汇集示例. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7 图3 - 1网页自描述方式. . . , . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 0 图3 - 2集中式描述方式. . . . . . . . . . . . . . . . . . . . . . . . . , . . . . 2 2 图3 一 3一般搜索引擎的食询机制 , . . . . , . . . . . . . . . 2 3 图3 - 4系统数据流图. . . . . . . . , . , . . . . . . . . . . . . . . . . . . . . , 2 4 图3 - 5系统结构图, . . . . . . , . . . . . . . . . . . . . . . , . , . . . 2 6 图3 一 6图像处理受控词表层次图 . . . . . . . . . . . , . . . . 3 2 图3 - 7 of 描述生成模块. . . . . . . . . _ . . . . . . . . . . . . . . . . . . . . 二 :3 3 图3 - 8 r d f 收集和解析模块 . , . . . . . . . . . . . , , . . . . . . . . . . . 3 5 图3 一 9 查询模块. . . . . . . . . . . . . . . . . . . , . , . . . . . . . . . . . 3 5 图4 - 1 of 描述生成模块程序界面图. . . t . , , . . . . . . . . . . 4 1 图4 - 2 of 收集和解析模块程序界面. . . . . . . . . . . . . . . . . . . . , . . 4 3 图4 - 3 r e a d方法程序流程图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 8 图4 - 4查询模块界面. . . . . . . . . . . _ . . . . . . . . . . . . . . . . . . . . . . . . 5 0 图4 - 5 s e a r c h函数程序流程图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . , 5 3 图4 - 6 w e b r o b o t 搜集结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 图4 - 7查询结果. . 卜 . . _ . . . . . . . . . . . . . . . . . . . . . . , . . 5 6 图4 - 8试验中的层次结构图 , . . . . . . . . . . . . . . . . , . . . . 5 8 图4 - 9文档与查询匹配度曲线图 、 . . , . . . . , . . 5 9 图4 - 1 0查准率、查全率计算示意图. . . . . . . . . . . . . . . . _ . . , , 二、, 6 0 图 4 - 1 1查准率、查全率与c :的关系图 . . . . . . . . . . . . . . . . . . . 6 1 图 5 - 1线图分析法结构图示. . . . . . . . . . . . . . . . . . . . . . . . . . . 6 5 表1 一 1 布尔检索的优缺点 . . . . . . . . . . . . . . . . . . . . , , , , . 3 表4 - 1检索文档的分类. . . . . . . . . . . . . . . . . . . . . . , . . 二, . . 5 7 表4 - 2 g o o g l e的部分搜索结果 . . . . . . . . . . . . . . . . . . . . . . , . 二卜 . 5 7 表4 - 3试验中的文档描述结构. . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 8 表4 - 4节点距离矩阵. . . . . , . . . . . . . , . . . . . . 5 9 表 4 - 5木系统与g o o g l e 搜索引擎的比较. . . . , . . . . . . . . . . 6 2 中南大学硕士学位论文 第 一 章 绪论 第一章 绪论 1 . 1研究背景 1 . 1 . 1 搜索引擎概述 因特网作为一种新的大众传媒,由于其快速、方便而受到人们的普遍欢迎。 美国一家主要调查因特网使用情况的公司 “ 媒体调查公司 ( m e d i a r e s e a r c h i n c . )”在1 9 9 9 年5 月的一份调查报告中指出: 在美国,平均每个月约有6 千 4 百万成年人,或占三分之一 1 8 岁以上的人口 在使用万维网。这要比上一年调 查的数字 5 千 3 百万高出2 0 yo。而全世界有 2 亿人使用因特网,到 2 0 0 3 年, 使用人数己增加到 5 亿人口。w e b 从 1 9 9 1 年出现以来,经过短短几年己经发展 成为一个巨大的全球化信息空间,最新的统计数据表明,在 1 9 9 9 年 2月,w e b 上大约有 2 8 0 万台服务器,存储了8 亿个页面,信息量高达 1 . 5 t b o 万维网的丰富多样的应用给人们带来了方便,同时也派生出 一 种新的应用: 信息检索 ( i n f o r m a t i o n r e t r i e v e ) 【 , 。她的目 的是将用户带到用户想浏览的页 面,或者提供给用户所要的信息,或者告诉用户网上某项服务的存在。信息检 索技术比信息提供本身更重要,因为它是用户和万维网的接口,用户能不能找 到自己感兴趣的内容直接决定了万维网的信息服务质量。 网 络搜索引擎2 1 一般由 信息收集软件 ( s p i d e r )、 索引 器( i n d e x ) 和查询接 口( q u e r y i n t e r f a c e ) 三部分组成。其模式如图1 - 1 所示。 这三部分相互合作共 同完成搜索任务。 1 . 信息收集软件又称为巡视程序、信息采集器,它是一种穿行 w e b空问的 计算机软件,它从一个网页跨越到另一个网页,自 动追寻超文本的链接,遵循 超文本传输协议 ( h t t p ) ,从网络服务器上采集新出现的信息,并对网页的信息 进行标引,确认网页间的链接是否有效,删除不存在的链接。它标引网页的方 式将直接影响从索引数据库中检索信息的质量。 2 . 索引器其实是一个数据库,它是信息检索的基础。 信息采集器将采集和 标引的信息记录在索引数据库中。不同搜索引擎记 录网页的内容不同,数据库 的规模也不同。 3 . 查询接口,也称为检索代理。是用户与搜索引擎交互的界面。当用户提 出查询要求时,它代替用户在数据库中进行查询并返回查询结果给用户。在这 中南大学硕上 学位论文第一章 绪论 一过程中,该程序利用一些算法刘文件与用户需求的相关性进行计算和评估 并根据计算结果进行排序,将最符合用户需求的信息排在最前面。 图1 - 1 w e b 搜索的一般模式 1 . 2 现有信息检索的基本方法 1布尔模型。 在布尔模型中, 查询表达式由逻辑算子a n d , o k , n o t 连接若干查询词构成 例如; 表达式 1 = “ 飞碟” 表达式2 = “ 飞碟”a n d“ 美国” 表达式3 =“ 飞碟” a n d( “ 中国” o k 表达式 2的含义是文档中同时含有 ( n o t“ 科幻小说” ) ) “ 飞碟”和 “ 美国”两个词 的含义为文档中含有 “ 飞碟” ,并且要么含有 “ 中国”要么不含有 “ 检索匹配结果用公式表示为: ,表达式 3 科幻小说,o 0 , r e s u “ 一 1, 查询表达式为假 查询表达式为真 ( 1 - 1 ) 布尔检索的优缺点如表1 - 1 所示。 中南大学硕十学位论文 第一章 绪论 表1 - 1 布尔 检索的 优缺点 优点 缺点 1 )匹配方式非0 即1 ,简单、速度快 2 )查询表达式易于掌握 1 )不够精确, 不能反映不同t e r m 个文档的重要程度的差异 2 )检索结果地位平等、无法排序 为了改变匹配过于简单的缺点,扩展的布尔检索将非 。即 1 的计算方式改 为 计 算相 似 度, 例 如对 于t e r m , o r t e r m , o r 一(o r t e r m 。形 式的 查 询 表达 式, 相似度计算公式为: s i m ( q , d ) ( 1 一 2 ) 对 于t e r m , a n d t e r m , a n da n d t e r m , 形 式的 查 询 表 达式, 其 相 似 度 训 算公式为: s i m ( q _ , , d ) ( 1 一 x , ) 0 + ( 1 一 x z ) + . + ( 1 一 x x m ( 1 - 3 ) 下ij 厂1.1 一 ,.1 - 其中x . e ( 0 ,1 )为t e r m , 在文 档d 中的 权重, 1 _ p p r o b ( n r ld ; , q ) p r o b ( r ldq ) _ p r o b ( n r ld , 。 ) ( 1 - 6 ) 其中 , p r o b ( r ld ;, q ) 表 示 文 档d , 是 要 寻 找 的 相 关 文 档 的 概 率 , p r o b ( n r id , , q ) 表不文档d , 不是相关文档的概率。概率模型因为计算量太大而较少被采用。 1 . 1 . 3 现有搜索引擎的缺陷 1 . 查准率低。从 卜 述信息检索的模型可以看出,现有搜索引擎处理的对象 都是对文档分词过后的没有任何语义修饰的词的集合,这些词的含义及词之间 的关系都不得而知。模型计算的依据都是对词在文档中的词频进行分析来判断 词在文档中的重要程度。这种重要程度缺乏语义的描述,因而是不可靠的,所 以会出现查准率低的情况。现在有很多网站在呈现查找结果时,往往罗列了很 多网页地址,但是真正和用户的意图相符的很少,有用的信息被大量无关的结 果淹没了。 2 . 仅使用关键词在 一 个输入框中提问。现有的搜索引擎仅允许用一组关键 词及逻辑运算符组成提问。但关键词检索不能完个满足用户的要求,而月 .它是 一种盲日的匹配。而自 然语言 理解又是非常困难的任务,现在仍在研究之中。 3 . 搜索出米页面太多,有用信息被淹没在大量的无用信息之中。大多数的 搜索引擎都只返回一张长长的检索结果表,一般有好儿页,该表中可能包含成 千上万个指向 w e b站点的链接指针。用户可能只选择一小部分,而放弃其余部 分。因为用户不可能有这么好的耐心,结果是他们可能丢失了很多有用的信息。 , , 1 . 4 搜索引擎缺陷原因分析 经过研究万维网的发展历程,我们认为 h t ml是造成搜索质量难以提高的 重要原因。 1 . h t m l语言c i 是通过利用各种标记来标识文档的结构以及标识超链 ( 吻p e r l i n k ) 的信息。 这些标记是用来告诉 浏览器如何安排显示 格式的,即它 的目的是显示网页,因此h t m l 语言没有描述网页信息内 容的能力,搜索引擎特 别是基于全文检索的搜索引擎拿到网页的源文件后却看不懂它的含义,看到的 只是一个不能被解释的文木字节流。因此搜索引擎不能理解网页的描述内容, 搜索质量自 然很难提高。 2 . h t m l 语台 标记不能扩展,即它是固定的, h t m l 语言自 从它诞生起, 它的 中南大学硕十学位论文第一章 绪论 标记数日就不会有大的改变,即使改变也不能任意增加。 3 . h t m l 语a 语法不是很严格规范的。 它表现在两方面:( 1 )虽然i it m l 语a 描述了文档的结构格式,但并不能精确地定义文档信息必须如何显示和排列, 而只是建议* e b 浏览器 ( 如m o s i a c , n e t s c a p e 等)应该如何显示和排列这些信 息, 最终在用户面前的显示结果取决于w e b 浏览器本身的显示风格及其对标记的 解释能力。这就是为什么同一文档在不同的浏览器中展示的效果会不一样。( 2 ) 浏览器对 h t m 工语言的容错性强,网页设计者即使没有严格遵守 h t m l语法,浏 览器也能显示出来,这在一定程度 卜 方便了网页设计者,但是会使搜索引擎更 加难以分析网页源文件,处理难度也会更大,因为搜索引擎很难应对各种各样 的并不规范的格式。 综上所述,搜索引擎质量的一个非常重要的影响因素就是 i it m l 本身的局限 性,这是由i it m l 形成的历史决定的,万维网的飞速发展是和 h t m l 语言的简单 性分不开的,然而电子商务、电子图书、远程教育等全新领域异军突起,迅猛 发展并逐渐成为互联网世界必不可少且愈发重要的组成部分, 随之而来的是w e b 文化的复杂化、多样化、智能化,于是高容量、高信息量、高效率便成为网络 信息技术发展的追求目 标。而这一切是h t m l 所不能满足的。当初人们并没有想 象万维网会发展到现在的规模,没有想到它会走进干家万户,成为一个巨大的 信息海洋,所以万维网并没有相应的机制对网页信息进行有效的描述,导致后 来的信息检索质量难以提高。 1 . 2基于元数据的解决方法及其目 标 为了解决上述问题,本系统利用元数据对原始网页进行描述性标记来达到 提高搜索引擎质量的目的。 一般的,提高w e b 信息检索的质量包括两方面的内容: 1 . 如何在现有的资源上面设计更好的检索技术; 2 . 如何为 w e b上的资源附加上计算机可以理解的内容,便于计算机处理, 即给出一种计算机能够理解的描述资源的手段。 基于后一种考虑, 我们利用由网页携带元数据的方法来提高检索的质量。 元数据们 是关于数据的数据, 或者是解释数据的数据, 如文献的“ 作者, 、“ 日 期”等。它描述了资源的属性、类别以 及资源之间的关系等信息,使w e b 上的 中南人学硕_ i s 学位论文第一章 绪论 信息由一次进入二次,由不可靠变为可靠,由没有语义修饰变为带有语义修饰, 为充分开发利用w e b 资源提供了前提条件和可能。 目 前人们所使用的万维网,实际上是一个存储和共享图像、文本的媒介, 电脑所能看到的只是一堆文字或图像,对其内容无法进行识别。万维网中的信 息,如果要让电脑进行处理的话,就必须首先将这些信息加工成计算机可以理 解的原始信息后刁 能进行处理,这是相当麻烦的事情。而本系统的任务就是通 过为网页里的资源添加元数据标注使网贝其有自己描述自己的能力,这些描述 信息必须是规范的、计算机可理解的,从而为搜索引擎提供更好的服务打下基 础。 为了有效的利用元数据对网页进行描述,需要有一个元数据的描述标准, 资源描述框架r d f ( f r a m e w o r k f o r r e s o u r c e d e s c r i p t i o n ) ,作为元数据描述和 交换的工具,被认为是描述网络资源的极佳工具。本系统就是采用r d f 语言来 作为携带和交换元数据的。 本系统希望达到如下目标: 1 . w e b 资源得到良 好描述; 2做到准确、可靠的搜索; 3 . 满足专业化领域的搜索要求,对专业领域的资源进行良好描述,以方便 检索到以p d f , d o c , a v i , r m 等各种格式的 文献资料; 4 . 查询界面应该尽量灵活, 目的是使用户能够较好的表述自己的查询要求, 而不再是在单个输入框输入查询词。 其中w e b 资源得到良 好描述是实现这些目 标的前提和关键,只有描述好了 刁 能提供高质量的查询。灵活的查询机制是基于词汇集进行的,而词汇集就是 用来描述网页的,可见查询机制也依赖于描述机制。 1 . 3国外相关研究情况 关于元数据和r d f的研究在国外已经非常广泛和深入。许多大学和组织都 有这方面的研究项目。 l视频内 容检索m 数据包括视频中的帧、 目的。 2 . 网上个人音乐、 下面介绍一些与元数据和r d f 有关的课题研究。 。 通过往视频文件中嵌入描述视频内容的元数据, 这些元 镜头、场景等信息,使得检索工具能够达到内容检索的 图片的收集检索。 m u s i c b r a i n z m e t a d a t a i n i t i a t i v e项 中南大学硕士学位论文第一章 绪论 目7 、 通过建立一种轻便、 灵活的机制来存储和交换网上的数字音乐元数据。 它其 实是一个音乐的内容描述模型。r d f p i c项目 lh , 则针对网上图像文件的检索,它 的 一 个模块实现将元数据用 r d f格式写进图像文件,另一个模块负责 r d f信息 的收集和检索。 3 . e d u t e l l a 项目 u ,i 也是一个基于r d f 的 项目 , 它为j x t a p 2 p 系统提供一个 分布式、可查询、可复制的元数据机制。 4 . 在数字图书馆及w e b资源发现领域,元数据和 r d f由于能够协助描述和 检索也得到了极大的发展和重视。其中都柏林核心集作为描述图书馆资源的元 数据集已经得到许多国家的支持,有望成为国际标准。比较典型的案例有以下 些。 ( 1 )澳洲的“ 分散式系统技术中 心” ( d s t c ) 推动了 一系列的 研究计划, 重点在研究如何利用都柏林核心集来改进一般搜索引擎的性能,如何来协助使 用者在w w a 上搜索资料等。 其中m e t a w e b 是跟元数据最密切相关的计划之一。 m e t a w e b是元数据y具和服务计划 ( m e t a d a t a t o o l s a n d s e r v i c e s p r o j e c t )的简称,此计划的主要宗旨为发展元数据栏位、使用者工具、索引服 务等来提升元数据在万维网上的应用,其合作伙伴包括澳洲国家图书馆。 目前m e t a w e b 系统使用的测试版搜索引擎名为“ h o t m e t a , h o t m e t a 是一个 元数据搜索引擎,可以将网络上电子文件的元数据,提取出来作成索引后,来 加以查询。系统包含两个模块,一个是类似一般搜索引擎自 动抓取程序的 “ 收 集者” , “ 收集者” 负责将h t m l 文件中的 元数据抽出, 以s o i f ( s u m m a r y o b j e c t i n t e r c h a n g e f o r m a t ) 格式送到另外一个模块一-“ 经纪人” ( b r o k e r ) 存放, “ 经纪人”负责管理存放的资料 ( 含其索引) ,并提供检索界面。在目 前的实验 阶段, h o t m e t a 的资料库将只涵盖澳洲网站的资料, 所提取的元数据也只限定在 都柏林核心集。 ( 2 )荷兰国家图书馆将发展一种新的全球资讯网服务,系统的主要做法是 要在所有已收集的网页中,加入都柏林核心集的元数据资料。新的网页将要求 提供者先自 行加入都柏林核心集的元数据资料后再呈送,将来荷兰国家图书馆 的搜索引擎会利用这些元数据来协助检索。 ( 3 )丹麦政府决定自 西元1 9 9 7 年起将所有政府的出版物上网,系统的主要 规格之一,是采用都柏林核心集来描述文件和协助查询。 ( 4 )英国的 u k o l n正在推行一个名为 b i b l i n k的计划,在出版社和国家书 目中心间建立一条网路通讯管道,来直接交换书籍记录和资讯,这套系统是使 中南大学硕十学位论文第一章 绪论 用都柏林核心集作为其基本的格式。 5 . 针对未来的互 联网,万维网之父 t i m 13 e r n e r s - l e e提出了“ 语义 w e b ( s e m a n t i c w e b ) 0 j - ,0 的 概念, 其 含 义 是 把 万 维网 建 设 成 为 计 算 机 可以 理 解 其 信息含义的庞大的信息数据库,人们可以利用各种智能代理做许多现在无法完 成的事情,而智能代理就是充分利用语义 w e b为人们提供服务的工具。而 r d f 是实现 “ 语义 w e b ”的重要语言。 1 . 4本文主要研究内容及意义 1 . 4 . 1 一种基于元数据的搜索引擎系统 通过分析元数据和 r d f 的应用现状,我们还没发现有哪个项目 提供一个应 用于整个w e b 的集资源描述和资源检索于一体的搜索引擎系统。本文尝试一种 基于r d f 描述网络资源的w e b 搜索引擎的实现,主要包括词汇集设计、网页的 r d f 描述生成工具、页面r d f 信息的收集、r d f 文档的解析和基于词汇集的查询 四个部分。 r d f 描述生成工具协助用户向网页中添加与某应用领域相关的描述信 息:页面r d f 语义信息的收集是指如何得到各个网页的用 r d f 描述的信息;of 的解析是指提取灵活的of 文档中的三元组,结构化存储到数据库中;基于词 汇集的查询则是为用户提供针对性强、体现查询需求、专业化的、基于知识的 查询。 1 . 4 . 2 元数据自 动生成研究 用元数据描述资源需要做大量的人工标引工作,为此我们尝试使用信息提 取技术对某些元数据进行自 动提取和生成,以提高系统的智能化和自 动化水平。 本文对科技论文摘要进行了分析,针对科技论文 “ 贡献类别”这一 元数据的自 动提取和生成提出了一个算法,并做了相关试验。 1 . 4 . 3 研究意义 元数据对于万维网和语义w e b 都是非常重要的。本文的研究也正体现了语 义w e b 这一思想,通过在网页中嵌入描述性of 格式的元数据将w e b上的巨量 无序信息库变为有序信息数据库,使网页由一次信息进入二次信息,从而为各 种高精度、功能强大的w e b 应用如搜索引擎提供基础支持。本文实现的搜索引 擎就是建立 在这种元数据机制之上的,它能为人们提供可靠的、 准确的搜索服 中南大学硕十学位论文第一章 绪论 务。相信木文的研究能够对元数据、x m l , r d f 的在互联网上的应用起到一定的 促进作用。 在提出和实现这种新的搜索机制的过程中,本文还研究了词汇集的设计、 受控词表的建立和使用、元数据自动生成等内容,这些研究对完善该机制起了 重要的作用。 1 . 5小结 本章在讨论和分析了当前w e b 信息检索的现状和缺陷后,指出h t m i 的简单 性导致没有能力描述网页内容是当前搜索引擎查准率不高的重要原因。基于这 一线索,本文提出基于 元数据的解决办法,使网页具备内容描述的能力,从而 为搜索引擎提高搜索质量打下基础。接着描述了 本文要设计和实现的 一 种搜索 引擎的概貌,最后论述了本文的研究意义。 中南大学硕 学位论文第二章 资源描述框架r d f 第二章 资源描述框架r d f 要实现上述目 标, 必须制定一个元数据描述和携带的标准, of 就是这样一 个资源描述标准。它提供了一种灵活的语法来描述网络资源,它基于x m 1 语法, 摆脱了h t m l 语言的限制,借助于x m l 中的。i c o d e 字符集、命名空间、u r 工 等 概念可出色的完成元数据交互的功能。为此,先讨论x m l 语言的基本语法要点 和相对于h t m l的优势所在,再介绍 r d f的特点和概貌。 2 . 1 x m l 的基本特点 x m l 是一个精简的s g m l 0 6 ,它将s g m l 的丰富功能与h t m ! 的易用性结合到 w e b 的应用中。 x m i 保留了s g m l 的可扩展功能, 这使x m l 从根本上有别于h t m l . x m l 要比h t m l 强大得多,它不再是固定的标记,而允许定义数量不限的t 11 记来 描述文档中的资料, 允许嵌套的信息结构。 h t m l 只是w e b 显示数据的通用方法, 而x m l 提供了一个直接处理w e b 数据的通用方法o h t m 丁 着重描述w e b 页面的显 示格式,而x m l 着重描述w e b 页面的内容。 以 是一段简单的x m l 文档实例: 编译原理 / 名称) 陈火旺 3 5 名称) 基于内容的视觉信息检索. 作者) 章毓晋 4 5 / 售价) / 推荐从书) 中南大学硕十学位论文第二章 资源描述框架r d f 兀素是组成x m l 文档的主要单位, 元素由一对标识以及其中的内容组成。 就 象这样: c o n t e n t 。 元素的名 称和标识的 名称是 - 样的。标识可以用属性来进一步描述。 从这段 x m l 文档中可以着出x m l 和h t m l 的几个重要区别: x m l 是一种元语言,是可扩展的。以上位于内的标签是用户自己定义的, 而且可以是全球任何一种语言。在x m l 中,没有任何保留字,用户可以根据自 己的需要定义自己的标签,从而使x m l 具有可扩展性。 x m l 是描述内容的。 例如上面这段x m l 文档就是描述一本书的信息。 具体到 了名称、作者、售价等详细内容信息,如果在h t m l 语言 里很可能就是一个指向 一本书的链接,链接的文本名字是这本书的书名或者是一个表格,表格的各个 栏里包括了作者、售价等信息。 x m l 是一种可嵌套任意程度的结构,如上例中推荐丛书元素包括书籍子元 素,而书籍子元素又包括名称、作者、售价三个子元素。利用x m l 的这种嵌套 结构可以表达非常复杂的关系。如家族成员关系、部件组成关系、集成关系等 都可以用x m l 来表达。 x m l 语法比h t m l 要严格。在x m l 语法中,一个标记必须是成对出现的,后 一个标记的第一个字母必须是 / ,元素之间有严格的嵌套关系,属性也有一 定的规则。这些规范保证了语义可读性和程序处理的方便性。 2 . 2 x m l 语法规则 x m l 的文档和h t m l 的原代码类似,也是用标记来标识内容。但是创建x m l 文档必须严格遵守下列重要规则: 规则 1 :必须有x m l 声明语句。 声明是x m l 文档的第一句,其格式如下: 声明的作用是告诉浏览器或者其它处理程序: 这个文档是x m l 文档。 声明语 句中的v e r s i o n 表示文档遵守的x m l 规范的版本;s t a n d a l o n e 表示文档是否附 带d t d 文件,如果有,参数为n o ; e n c o d i n g 表示文档所用的语言编码, 默认是 u t f - 8 a 规则2 :是否有d t d 文件。 中南大学硕士学位 论文第二章 资源描述框架即f 如果文档是一个“ 有效的x m i 文档” , 那么文档一定要有相应d i d 文件,并 且严格遵守d t d 文件制定的规范. d t d 文件的声明语句紧跟在x m l 声明语句后面, 如 ,其中” ! d o c t y p e 是指 你要定义一个d o c t y p e , t y p e - o f - d o e 是文档类型的名称,由用户自己定义, 通常与d t d 文件名相同, s y s t e m / p u b l i c 这两个参数只用其一。 s y s t e m 是指文 档使用的私有d i d 文件的网址,而p u b l i c 则指文档调用一个公用的d i d 文件的 网址。 d t d - n a m e 就是d i d 文件的网址和名称。 所有d t d 文件的后缀名为 “ . d t d . 还是用上面的例子,应该写成这样: 规则3 :大小写有区别。 在x m l 文档中, 大小写是有区别的。 和 是不同的标识。 注意在写元素 时,前 后标识大小写要保持一样。例如: a ,j i e ,写成 a j i e 是错误的。 规则 a :给属性值加引号。 在 h i m l 代码里面,属性值可以加引号,也可以不加。 例如: w o r d 和 w o r d 都 可以被浏览器正确解释。 但是在x m l 中则规定,所有属性值必须加引号( 可以是单引号,也可以是双 引号) ,否则将被视为错误。 规则5 :所有的标识必须有相应的结束标识。 在 h t m l 中,标识可能不是成对出现的,比如 。而在 标识必须成对出现, 有一个开始标识, 就必须有一个结束标识 误。 x m l 中规定,所有 。 否则将被视为错 规则 6 :所有的空标识也必须被关闭。 空标识就是标识对之间没有内容的标识。比如 , 等标识。 在x m l 中, 规定所有 一 的标识必须有结束标识, 针对这样的空标识, x m l 中处理的方法是 在原标识最后加/ 2 . 3 x m l 中和r d 相关的重要技术 中南大学硕十学位论文第二章 资源描述框架r d f 在x m i 中还有其他一些重要的语法如注释、 c d a t a , e n t i t y 实体【 u ) 等, 它们 也是x m l 语法的重要组成部分。下面介绍的是和 of 密切相关的x m l 中的一些 技术。 1 . u r 丁 u r i 的全名叫 “ u n i f o r m r e s o u r c e i d e n t i f i e r ,即统一资 源标识符。用 于唯一的标识全球的资源,u r i 包括了u r l 和u r n , 是二者的超集。 u r l 是统一 资源定位符 ( u n i f o r m r e s o u r e l o c a t o r ) 的缩写, u r n 是统一资源名称 ( u n i f o r m r e s o u r c e n a m e ) 的缩写。 u r l 是通过 “ 通讯协议+网 络地址” 字符串 来唯一标 识信息位置及资源访问途径的一种方法; u r n 则主要用于唯一标识全球范围内由 专门机构负责的稳定的信息资源,u r n 通常给出资源名称而不提供资源位置。 2 . u n i c o d e 字符集 u n i c o d e ( 统一码)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025西安航天发动机有限公司校园招聘启动笔试历年参考题库附带答案详解
- 2025航天新气象科技有限公司招聘1人笔试历年参考题库附带答案详解
- 2025福建莆田市正美文旅投资有限公司招聘3人(四)笔试历年参考题库附带答案详解
- 2025福建福州平潭综合实验区人才发展集团有限公司第二十六批劳务外包招聘4人笔试历年参考题库附带答案详解
- 2025福建省大数据集团平潭有限公司招聘3人笔试历年参考题库附带答案详解
- 2025甘肃兰州能源投资集团有限公司招聘笔试历年参考题库附带答案详解
- 2025浙江温州市瓯飞新型建材有限公司招聘10人笔试历年参考题库附带答案详解
- 2025江苏盐城市滨海县阳光城市公交有限公司招聘拟聘用人员笔试历年参考题库附带答案详解
- 2025年淮南大通区某单位招聘劳务外包人员4人笔试历年参考题库附带答案详解
- 2025四川绵阳市长虹民生物流股份有限公司招聘软件开发工程师岗位1人笔试历年参考题库附带答案详解
- DZ∕T 0248-2014 岩石地球化学测量技术规程(正式版)
- 护理文书书写规范 (15)课件
- 二十四节气农事活动
- 食物中毒的心理援助与危机干预
- 2022星闪无线短距通信技术(SparkLink 1.0)安全白皮书网络安全
- 卫生公共基础知识考试大纲
- 小学数学六年级上册第五单元课件
- 《电子凭证会计数据标准-全面数字化的电子发票(试行版)》指南
- 湖南土建中级职称考试复习总结
- 混合痔痔的护理查房
- 大学物理实验长测量
评论
0/150
提交评论