(计算机应用技术专业论文)面向xml的搜索引擎研究.pdf_第1页
(计算机应用技术专业论文)面向xml的搜索引擎研究.pdf_第2页
(计算机应用技术专业论文)面向xml的搜索引擎研究.pdf_第3页
(计算机应用技术专业论文)面向xml的搜索引擎研究.pdf_第4页
(计算机应用技术专业论文)面向xml的搜索引擎研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)面向xml的搜索引擎研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 当今,互联网已成为人类有史以来资源最多、品种最全、规模最大的 信息库。作为网上最主要的信息检索工具,搜索引擎发挥着非常重要的作 用。传统的搜索引擎大都是基于h t m l 的搜索引擎,h t m l 重显示而非内容的 特点大大限制了搜索引擎的查准率,传统搜索引擎的查准率亟待提高。现 在,一釉可扩展标记语言x m l 开始慢慢发展起来,越来越多的文档开始用 x m l 语言来描述、存储和交换。x m l 的标记含义丰富、意义明确,能明白的 提示所标记的内容,搜索引擎可以依靠标记和内容之间的依存关系,准确 定位、找到目标,从而大大减小搜索范围,提高检索精度。在这种发展背 景下,本文对面向x m l 文档的搜索引擎进行了研究。 首先,本文设计了面向x m l 文档的搜索引擎的模型,介绍了模型的设 计思想及大体框架。模型包括机器人模块、转换模块、解析模块、索引模 块和查询模块这几部分。本文详细描述了各个模块的结构和实现思想,并 给出了部分模块的具体实现。 接着,本文介绍系统的索引模块。针对x m l 文档的特点,本文设计的 索引模块包括节点结构构造器和索引器,其中索引器用来为x m l 文档建立 索引。文章对x m l 文档的结构和内容都建立了索引,并对索引的实现方法 进行了详细论述。 最后,本文介绍了搜索引擎的查询模块。它包括查询执行器、解释器 和用户界面。配合已建立的索引,根据用户有无输入关键词的区别分别设 计了两种界面,在界面上提供一种导航式的策略,引导用户逐级的找到自 己所要查找的类别的结构定义,使得用户可用此类别结构中的标签来限定 上下文关系,从而准确找到自己所需要的信息,充分体现了利用x m l 语言 查询的优势。 关键词:搜索引擎;x m l ;h t m l 哈尔滨t 程大学硕士学位论文 a b s t r a c t t o d a y ,i n t e r n e th a sa l r e a d yb e c o m ea nin t o r m a t i o nb a n kt h a th a s m o s tr e s o u r c e ,m o s tk i n d sa n dl a r g e s ts c a l es i r i c et h ed o w n o fh u m a n c i v i l i z a t i o na l r e a d y s e a r c he n g i n eisv e r yi m p o r t a n t h o w e v e r i t i 8v e r yd i f f i c u l tt h a tu s e ro b t a i ni n f o r m a t i o nr a p i d l ya n de x a c t l y t h em o s to ft r a d i t i o n a ls e a r c he n g i n ea r eb a s eo nh t m l n o w ,a n o t h e re x t e n d a b l el a n g u a g ex m lg r o w u ps l o w l y t h eg r e a t m a s so fi n f o r m a t i o no nt h ew e bw i1 1b ed e s c r i b e d ,s t o r e da n de x p r e s s e d w i t hx m ld o c u m e n t t h et a go fx m li sa b u n d a n t ,s e a r c he n g i n ec a nf i n d i n f o r m a t i o nr e l yo nt h er e l a t i o n s h i po ft a ga n dc o n t e n t ,a n ds o e n h a n c et h ea c c u r a c yo fs e a r c he n g i n e u n d e rt h i sd e v e l o p i n g b a c k g r o u n d ,w et r yt or e s e a r c h o nx m l o r i e n t e ds e a r c he n g i n e f i r s t ,w ed e s i g nt h ef r a m e w o r ko ft h en e ws e a r c he n g i n e ,i t c o m p r i s e sr o b o tm o d u l e ,s w i t c hm o d u l e ,p a r s em o d u l e ,i n d e xm o d u l e a n dq u e r ym o d u l e s e c o n d ,w ei n t r o d u c eh o wt oi m p l e m e n ti n d e xm o d u l e t h ei n d e x m o d u l ec o n t a i n sac o n s t r u c t o rf o rs t r u c t u r eo fn o d ea n di n d e x e r w e d e s i g ni n d e xf o rs t r u c t u r ea n dc o n t e n t0 fx m ld o c u m e n ta n ds p e c i f y t h em e t h o d0 fi n d e x f i n a l l y ,w er e c o m m e n d t h eq u e r ym o d u l eo fs e a r c he n g i l i e c o o p e r a t ew i t ht h ei n d e xt h a th a dc r e a t e d ,w ep r o v i d ean a v i g a t i o n o nt h eu s e rin t e r f a c ea n ds h o wu s e r st h es t r u c t u r eo fd o c u m e n t ,t h e n l e a du s e r sf i n dt h e irn e e d s i te m b o d i e st h e a d v a n t a g eo ft h e c o m b i n a t i o no fx m la n ds e a r c he n g i n e k e y w o r d s :s e a r c he n g i n e :x m l :h t m l 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) : 豇拖 日期:川年五月访日 堕笙鎏;:f ;墨盔主鎏:= j 耋鎏耋 1 1 论文的研究背景 第1 章绪论 随着计算机技术和互联网技术的飞速发展,i n t e r n e t 已成为人类有史以 来资源最多、品种最全、规模最大的信息库。人类处于了资源极其丰富的时 代,但由于t n t e r n e t 资源所具有的分布性、开放性和异构性的特点,使得用 户在i n t e r n e t 上迅速的、准确的获取所需信息变得越来越困难。如何准确有 效的从i n t e r n e t 上获取信息,就显得十分迫切和重要。搜索引擎就是这一时 代需求的产物,它是指能够自动对i n t e r n e t 上的信息资源进行分析处理,并 通过查询为用户返回匹配资源的典型的网络信息检索系统。 网络技术发展到今日,h t - h y p e r t e x tm a r k u pl a n g u a g e ,超文本标 记语言功不可没。h t m l 以其简单精炼的语法、极易掌握的通用性与易学性, 使w e b 网页可以亲近于每一个普通人,互联网也才得以普及发展以至今日的 辉煌目前大多数网页上的文档都是用h t m l 格式存放和传送的,因此,传统 搜索引擎大都是基于对h t m l 文档的搜索。然而随着网络的发展,电子商务、 电子图书、远程教育等全新领域如异军突起,迅猛发展并逐渐成为互联网世 界必不可少且愈发重要的组成部分,随之而来的则是w e b 文件的复杂化、多 样化、智能化,于是高容量、高信息量、高效率便成为了网络信息传输技术 发展的追求。与此同时,还有另一种需求变得愈发广泛而迫切,那便是同样 的数据能否根据不同用户需求而以不同的效果、形式表达、再现出来。这样 一来,b 文件必须具有极高的复杂性与灵活性,以应付如此复杂多变的具 体应用。h t m l 所欠缺的恰恰就是这一点,它的简单与普遍性原则虽曾使w e b 的推广受益匪浅,但反过来也成为其发展的最大桎梏。尽管人们已付诸很多 努力,包括各式各样的修改扩充,如增加表格、框架、脚本语言等等,但均 未能从根本上改变h t m l 的局限性,于是人们开始全力重新构造w e b ,并相继 诞生了许多新的技术,但由于种种原因大都没能普及并且生存下来,唯有一 项,不仅在使用中得到各方肯定,更在短短两年内迅速崛起,这就是可扩展 哈尔滨工挥大学硕十学位论文 的标记语言x m l ”1 ( e x t e n s i b l em a r k u pl a n g u a g e ) 。以x m l 为基础的新一代 w w w 环境是直接面对w e b 数据的,不仅可以很好的兼容原有的w e b 应用,而 且可以更好的实现w e b 中的信息共享与交换。 随着x m l 的广泛应用,w e b 上大量的信息都将通过x m l 文档来进行存储、 交换,或者通过各种应用接口用x m l 来表现。本文就是在此背景下提出的。 作者结合目前先进的x m l 、j a v a 技术,提出了面向x m l 文档的搜索引擎模型, 希望对搜索引擎领域的发展有所推动和有所提高,从而使得用户可以快速准 确的找到自己想要查询的信息。 1 2 论文的研究意义 搜索引擎是一种非常有用的w e b 工具,可以说搜索引擎是w e b 上资源的 窗口,它可以帮助人们从w e b 上获取各种各样的信息。目前开发出来的搜索引 擎大都是基于对h t m l 文档的搜索。这种搜索引擎的搜索方式是对网站实行 “地毯式”搜寻( 即全文检索) ,因此往往具有很高的查全率,但是其查准率 却远远不能满足用户的需求。如通过搜索引擎搜索一篇有关“x m l ”的技术性 文章,而它返回给你的是一大堆包含有“x m l ”字样的文章、新闻、广告、书 籍等几十万条条目,要在这几十万条条目里再次寻找你所要的条目同样无异 于大海捞针。主要原因是h t m l 只提供信息资源的内容,而不提供信息资源的 描述及信息资源的上下文联系,因此搜索引擎无法获取信息资源内容的准确 信息。 x m l 解决了h t m l 不能解决的两个w e b 问题,即i n t e r n e t 发展速度快而 接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的那部分信 息的问题,x m l 能增加结构和语义信息,可使计算机和服务器即时处理多种 形式的信息”。x m l 可看作一种半结构化的数据模型,可以很容易的将x m l 的 文档描述与关系数据库中的属性一一对应起来,实现精确的查询与模型抽取。 x m l 的标记含义丰富、意义明确,明白的提示所标记的内容,所以可让搜索 依靠标记和内容之间的依存关系,准确的定位,找到目标,完成任务。利用 x m l 文档中的标签,搜索引擎可以确定在文档中的哪一部分查找,而不是像 在h t m l 文档中那样,是在整个文档中查找。文档依据语义进行分类,可以大 哈尔滨工程大学硕士学位论文 大减小搜索范围,提高检索精度。 由于x m l 具有许多h t m l 所不具备的优点,x m l 已经得到了研究人员和产 业界的广泛关注。在x m l 数据源中对大量的信息进行有效的查询,对用户而 言。,就显得非常重要,它能够帮助用户更方便的浏览信息,更有效地获取信 息,使用户不至于迷失在信息的海洋中。可见,把传统的信息检索技术和x m l 文档的结构化查询语言有机的结合起来,研究一种既能有效利用文档的结构 信息及其固有的语义信息,又能实现全文的相似性检索以及对检索结果的相 关性估计的x m l 文档的个性化检索是一个比较前沿的课题。本文所研究的搜 索引擎就是基于x m l 的搜索引擎系统。 1 3 国内外研究历史及现状 w w w 的迅速发展和广泛应用为搜索引擎的发展提供了广阔的空间,搜索 引擎迅速发展为i n t e r n e t 的一个新兴产业。针对英文信息的搜索引擎发展很 快,技术也较为成熟。我国在信息获取领域起步较晚,加上中文信息相对英 文信息处理较难,从国内搜索引擎的应用效果和对搜索引擎技术的掌握上与 发达国家比较,存在较大的差距。特别是在智能搜索引擎的开发、建设和应 用水平方面差距更大。这种差距表现在两个方面:第一是搜索引擎的性能和 搜索结果的质量与国外的搜索引擎相比存在很大的差距。第二是对搜索引擎 与信息获取技术的掌握和应用上有待于加强和提高。 基于x m l 的搜索引擎有两种信息检索单位:第一种是以文档为检索单位 第二种是以文档中的被标注元素为检索单位。其中第二种把x m l 文档库看作 是半结构化文档的数据库,并使用了相应的数据库风格的查询语言”1 。 国外对x m l 文档的检索技术研究非常的热,主要有以下三种技术: 源于关系数据库s q l 查询语言的x m l 文档检索技术 是一种类似于数据库查询语言的x m l 文档查询语言,比如x m l q l 语言。 源于x m l 文档的树型结构的x m l 文档检索技术 是一种利用x m l 所固有的垂直分类体系结构,实现树的遍历的路径描述 语言,比如x p a t h 语言。 源于传统的信息检索技术的x m l 文档检索技术 3 哈尔滨:j i 程大学硕士学位论文 是一种对x m l 的结构化查询语言进行扩展的技术,使其能够支持相似性 匹配及对结果文档的相关性估计,比如x i r q l “1 、e l i x i r ;或者对传统的信息 技术进行改进,使其能够描述结构化信息。比如对向量空间模型的向量进行 改进,把向量的概念由单个的词语扩展到一棵标记树,从而实现树型匹配算 法1 。 目前已有的以文档为检索单位的x m l 搜索引擎有:i n f o g l i d e ,g o x m l ”1 , x d e x 等。i n f o g i d e 的核心技术是“相似性搜索”。它能够在数据和查询都有 误差的情况下,按照记录相似的百分比返回记录。这一点和已有的s o l 查询 以及因特网搜索引擎都不同,并且它还能够跨多个数据库进行数据的相似性 查找。g o x m l 在查询界面上进行了初步的测试。它的第一个查询界面和普通 的基于文档的搜索引擎一样提供了供用户输入要查询的关键词的表单。在 第一步查询之后,g o x m l 不但返回了所有包含所查询关键词的页面链接,也 返回了所有页丽中关键词出现位置的标注标签,也就是关键词的上下文关系。 用户可以在这些标签中选定一个来把查找范围缩小到同时满足这两个条件的 网页中。x d e x 可以对h t t p 数据源、f t p 数据源和本地文件数据源建立索引, 还提供了让用户输入要查找的关键词和关键词的上下文标签的查询界面。 目前已有的以文档中的被标注元素为检索单位的x m l 搜索引擎有:x r s ( x m lr e t r i e v a ls y s t e m ) ,l o r e ”。等。x r s 是基于b u s 技术的用j a v a 实现的 一个搜索引擎。它采用的基本思想是:在文档的最低结构层次上建立索引, 在进行查询的时候在较高结构层次上计算词的权重信息。它十分依赖于文档 的结构信息,在己知文档的结构定义的情况下能够很好的在数据记录一级进 行文档的查询。l o r e 是斯坦福大学开发的x m l 文档数据库管理系统。这一项 目致力于定义一种对于x m l 的查询语言,开发一种交互式的查询方法和高效 的查询处理器。l o r e 的数据模型是对象交换模型o e m ( o b j e c te x c h a n g e m o d e l ) ,它原来是用来描述半结构化数据的。最近l o r e 对o e m 进行了修改, 使得它能够对x m l 进行描述。文献 1 0 分析了o e m 和x m l 的不同,在o e m 基 础上提出了一个适合于描述x m l 的改进的0 e m 模型。 哈尔滨i 程人学硕士学位论文 1 4 论文的组织及主要工作 作者主要承担并完成了以下工作:在广泛了解当前国内外网络信息检索 的技术状况和发展趋势后,设计了一个面向x m l 的新型搜索引擎模型,实现 了其中部分模块;对x m l 文档的检索提出了新的倒排方法;根据x m l 文档的 特点改进了普通搜索引擎的查询界面,对搜索引擎的查准率提高有一定意义。 本文是根据作者所做的工作进行组织安排的,具体结构如下: 第l 章说明了本论文研究的背景、目的及意义,介绍了搜索引擎与面向 x m l 的搜索引擎的国内外研究历史及现状。 第2 章首先介绍了搜索引擎的基本原理,对其技术发展现状及发展方向 进行了描述,并分析了搜索引擎所面临的问题:接着介绍了x m l 与h t m l 标识 语言,并对x m l 语言与h t m l 语言进行了对比,最后分析了面向x m l 的搜索引 擎在提高查准率方面的意义。 第3 章在分析了现有搜索引擎存在的问题及面向x m l 的搜索引擎在提高 查准率方面的意义后,提出了面向x m l 新型搜索引擎的模型,对各模块进行 了具体介绍并实现了其中部分模块。 第4 章介绍了索引模块的具体模型,研究了数据库中x m l 文档的关键字 检索技术,概述四种倒排索引技术并对其利弊进行了分析及比较。最后提出 作者自己的观点,介绍了一种新的倒排索引技术。 第5 章根据x m l 文档的特点及第4 章对x m l 文档关键字的检索技术进行 的分析,给出查询模块的具体模型,并设计出一种新型的界面,用来引导用 户输入关键词并提示结构信息以便提高查准率。 在结论中,本文作者对所做的研究工作加以总结,并提出了一些有待进 一步探讨的问题。 哈尔滨r 程大学硕士学位论文 2 1 引言 第2 章搜索引擎与x m l w w w ( w o r l dw i d ew e b ) 自从1 9 9 1 年产生以来,已经发展成为一个巨大的 全球化信息空间。w w w 信息的出现和迅速发展在很大程度上解决了信息匮乏 的问题,为了在如此丰富的信息海洋中迅速找到用户所需的信息,人们开发 了一系列的信息检索工具,并慢慢发展成为了现有的搜索引擎技术。现有的 搜索引擎大多是针对静态h t m l 设计的,h t m l 只是一种简单的标识语言,它 的功能不是用来描述页面内容,而是用来描述这些内容是如何显示的,所以 无法对检索信息作精确定位,导致w e b 信息传输量大,网速很慢,查询结果 极不精确。另外随着互联网的发展,h t m l 已经有些力不从心了,而另一种可 扩展标识语言x m l 慢慢的发展起来,并逐渐得到了各方的认同本章将对搜 索引擎和x m l 进行一个大概的描述,并阐述将搜索引擎与x m l 结合的理由。 2 ,2 搜索引擎概述 2 2 ,1 搜索引擎技术发展现状 w w w 的迅速发展和广泛应用为搜索引擎的发展提供了广阔的发展空间, 搜索引擎迅速发展为i n t e r n e t 的一个新兴产业。根据搜索引擎使用技术的不 同,现在的搜索引擎主要分为三大类:目录型搜索引擎( d i r e c t o r ys e a r c h e n g i n e ) 、检索型搜索引擎( r o b o ts e a r c he n g l i s h ) 和元搜索引擎( m e t a s e a r c he n g i n e ) i 。 目录型搜索引擎是最早出现的w w w 的搜索引擎,以y a h o o 为代表,主要 是由专门信息人员跟踪和选择有用的w w w 站点或页面,并按规范方式进行分 类标引并组建成索引数据库。这种搜索引擎搜索的准确度很高,但搜集速度 慢,不能及时对网上信息进行实际监控,查全率不是很好。 检索型搜索引擎是i n t e r n e t 很常用的一类搜索引擎,它是由一个被称 哈尔滨1 :程入学硕士学位论文 作r o b o t ( 机器人) 的计算机程序在网中爬行进行信息采集工作的。由于应用 了r o b o t 技术,大大提高了信息搜索的速度和广度。r o b o t 是一个后台运行 程序,它依据一定的网络协议,例如h t t p 、f t p 等,自动在网上爬行,并将 得到的信息返回给本地服务器,本地服务器对搜集的文档进行分类、索引处 理,建立关于文档信息的数据库,以供用户查询。由于分类和索引缺乏人工 参与,其查准率不是很好。 元搜索引擎的思想是将各种搜索引擎的搜索结果进行整合,是一种建立 在搜索引擎之上的搜索引擎,它代表用户向其它的搜索引擎站点发出请求, 然后对返回的结果进行整合,将整合后的结果反馈给用户。 经过了多年的发展之后,现在的搜索引擎功能越来越强大,提供的服务 也越来越全面,总的来说现在的搜索引擎主要有以下几种情况。 目录型和检索型的搜索引擎相互结合 由于目录型和检索型的搜索引擎都有各自的优点和缺点,目前它们谁也 无法完全取代谁,于是很多搜索站点都同时提供这两种类型的服务。例如 y a h o o 是目录型搜索引擎的代表,但同时它也提供基于关键词的检索服务; 而i n f o s e e k 则主要是一个检索型的搜索引擎,但它同时也建立了一个由人工 编辑的小型目录。 多样化和个性化的服务 现在绝大多数搜索引擎都提供多样化的服务,以吸引更多的用户,商业 搜索引擎尤其注重这一点。例如y a h o o ,用户可以从它的首页上察看新闻、 金融证券信息、天气预报、浏览黄页,可以进行网上购物、拍卖、找人,或 者使用免费邮箱和网上寻呼等服务。 近期许多搜索引擎己开始提供个性化服务,如y a h o o 的“m yy a h o o ”, 它允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放 在该页面上。 强大的查询功能 与最早的搜索引擎相比,现在的搜索引擎在查询功能方面已经有了很大 的改进,除了简单的a n d 、o r 和n o t 逻辑外,不少搜索引擎还支持相似查询。 域搜索也是一项很实用的功能,它允许用户把查询范围限制在网页的某个域 中“。 7 哈尔滨工:释入学硕十学位论文 2 2 2 搜索引擎基本结构 搜索引擎的工作包括如下三个过程:一是在互联网中发现、搜集网页信 息;二是对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序 根据用户输入的查询关键词,在索引库中快速检出相关文档,进行文档与查 询内容的相关度比较,对检出的结果进行排序。并将查询结果返回给用户。 它一般包含以下几个基本部分:数据采集机制、数据组织和索引机制及用户 检索机制。本文主要研究的是检索型搜索引擎,所以以下详细介绍检索型搜 索引擎的工作方式,并且在下文中提到的搜索引擎,不加特殊说明,均指检 索型搜索引擎。 数据采集机制 通过被称为w e bs p i d e r 或w e br o b o t ( 网络蜘蛛或网络机器人) 的软件来 完成,它能够自动搜索、采集和标引网络上众多站点和页面,从而能有效和 及时地跟踪与检索网络资源,网络机器人日夜不停地在互联网中漫游,它要 尽可能多、尽可能快的搜集各种类型的新信息,还要定期更新已经搜集过的 旧信息,以避免无效链接。一旦发现更新的或新的网站,它会自动提取网站 的信息和网址加入到自己的数据库中。 数据组织和索引机制 用来对网络机器人下载的数据进行分析并建立数据索引。数据分析技术 一般包括分词、过滤和转换等。其工作过程可简单描述为:数据组织和索引 机制对网络机器人收集回来的网页进行分析,提取相关网页信息,根据一定 的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中每一个关 键词的相关度( 或重要性) ,然后用这些相关信息建立网页索引数据库。 搜索引擎的数据组织与索引模块还要实现索引数据的动态维护,例如针 对不断更新内容的网页和不断变更的网页地址,对索引数据进行及时的更新、 添加、删除等处理,以保证索引数据库准确反映网络信息资源的当前状况。 用户检索机制 用户检索机制有一个查询界面,用户在界面上输入检索关键词,检索机 制接受用户检索要求,将检索要求编制成计算机可执行的规范化检索式,然 后利用检索式检索索引数据库,并将检索到的结果按相关度进行整理排序, 哈尔滨工程大学硕士学位论文 最后输出结果”。 22 3 搜索引擎发展方向 要提供更理想的搜索结果不仅仅需要新兴的技术支持,更需要设计搜索 技术的发展方向问题,要想大幅度提高搜索引擎的效率和搜索结果准确度, 应考虑以下几个方向“: 智能化搜索:准确的搜索应建立在对收录信息和搜索请求的理解之上, 显然,基于自然语义理解技术的搜索引擎,由于可以同用户使用自然语言交 谈,并深刻理解用户的搜索请求,则查询的结果也更加准确。 个性化搜索:提高搜索精确度的另一个途径是提供个性化的搜索,也 就是将搜索建立在个性化的搜索环境之下,通过对用户的不断了解、分析, 使得个性化搜索更符合每个用户的需求,而不仅仅是准确。 结构化搜索:所谓结构化搜索,是指充分利用x m l 等技术使信息结构 化,同时使查询结构化,从而使搜索的准确度大大提高。 垂直化专业领域搜索:由于社会分工的加大,互联网用户从事的职业 有很大不同,不同互联网用户对信息搜索也往往有自己的专业要求。专业垂 直引擎只针对某领域,可保证此领域信息的收录齐全与及时更新。 本土化的搜索:世界上许多著名的搜索引擎都在美国,它们以英语为 基础,完全按它们的思维方式和观点搜集和检索资料,这对于全球不同国家 的用户来说显然是不适合的。各国的文化传统、思维方式和生活习惯不同, 在对网站内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求, 搜索引擎就必须本土化。 2 3h t m l 简介 h t m l r h y p e r t e x tm a r k u pl a n g u a g e ,超文本标记语言,出现在2 0 世 纪9 0 年代初,是一种用于建立超文本超媒体文档的标记语言,用于创建网 页和进行信息发布。它以纯文本形式存储,以标签定义文档的组织,提供跨 平台的文档共享。h t m l 是s g m l ( s t a n d a r dg e n e r a l z e dm a r k u pl a n g u a g e ) 的一种应用,是s g m l 的一种实例标记语言,它的d t d 是固定的。h t m l 的文 哈尔滨j i 程人学硕士学位论文 档标签主要分为八类:格式控制、字体控制、加载图片、定义超文本链接、 特殊字符、颜色背景控制、表格、交互表格标签等。h t m l 的结构主要有两种: 一种是超文本结构,依据此结构,逻辑上相关联的结构信息在物理上链接起 来;另一种是由h t m l 文本特点决定的文本组织结构,通过h t m l 语言用不同 的方法将数据组织在文本中。h t m l 继承了s g m l 的一些重要的优点,它具有 通用的语义,适合于表示各种领域的信息,同时句法简明紧凑,易于掌握。 h t m l 的这些优点使它得以在w e b 主页上大显身手,尤其是它的简单易懂 促进了w e b 的飞速发展,但是,随着w e b 应用的越来越广泛,h 1 、m l 过于简单 等弱点越来越明显了,归纳起来,它有如下主要缺点“: 链路容易断,链宿地址改变后,链源不能自动纠正。 不支持多国语言。h t m l 缺乏对双字节或多国文字的支持,或者说支持 不够。例如中文信息页面在不同的平台下会出现格式不齐等问题。 难以有效的支持搜索引擎的查询。检索时所花的时间较长,检索到的 内容针对性较差,返回的结果较多。 扩展性差。h t m l 的标记集合是固定的,不允许用户自行定义他们自己 的标识,也不允许用户根据需要来创建新的标记,更无法表示许多特殊行业 的数据。 缺少语义性。h t m l 是一种标记技术,它仅仅描述了w e b 浏览器应该如 何在页面上布置文字、图形等,并不揭示所标记信息的具体含义,计算机无 法知道各段文本的确切含义。h t m l 在设计上是用来展示内容和手工浏览网页 的,不适合用作网络信息资源的自动化组织管理。 2 4x m l 简介 2 4 1x m l 的由来及x m l 文档特点 近年来,随着w e b 的应用越来越广泛和深入,人们渐渐觉得h t m l 不够 用了,h t m l 过于简单的语法严重的阻碍了用它来表现复杂的形式。而s g m l 又过于复杂,正是这种情况下,人们开始研究能改进或替代h t m l 的w e b 页面 制作语言,其中晟有成效的,并已初步投入使用的就是x m l 。x m l 由w 3 c ( w o r l d w jd ew e bc o n s o r t i u m ) 发起并于2 0 0 0 年2 月中期成为一个正式的规范。x m l 1 0 哈尔滨上程人学硕十学位论文 ( e x t e n s i b l em a r k u pl a n g u a g e ) ,即可扩展标记语言,是s g m l 的一个简化 而又严格的子集,x m l 规范只用了s g m l 规范很少的一部分,却实现了s g m l 大部分的功能,这也说明了对s g m l 精简的程度。x m l 不仅是一种语言,并且 是一个定义其它语言1 的语言。它是特别为w e b 应用设计的,是针对于h t m l 和i n t e r n e t 的标准的、可扩展的、通用的数据格式。x m l 保留了s g m l 可扩 展性、结构以及数据确认方面的主要优点,它对s g m l 进行了机能的扩张,并 删掉和变更了s g m l 中一部分影响其实用化的机能。它的灵活性允许表示各种 各样的信息,而这些信息是自我描述的。x m l 突破了h t m l 固定标记集合的约 束,它的使用者可以自行定义无穷无尽的标记来描述w e b 中的任何元素,从 而组成一个完整的信息体系,使文件的内容更丰富更复杂。 x m l 文档为树状结构,每一个文档必须有一个独一无二的“首元素”,即 树的“根”,它紧跟在x m l 声明之后,是整个文档的根节点,并且文档的结束 也必须以根元素结尾。 组成x m l 文档的最基本单位为元素,每个元素都必须有一个起始标记和 一个结束标记,形式如: ( 标记属性= “值” 信息内容 x m l 标记对大小写敏感。元素的属性值必须用双引号括起来,同一属性 不可重复指定,并且只能写在起始标签中,不可写在结束标签中。任何元素 如果要嵌套,就必须分清主次关系和上下层关系,不允许相互嵌套。 2 4 2x m l 的组成 x m l 主要的组成元素有:文档类型定义d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 或x m ls c h e m a ”( x m l 大纲) ,用来规定文档的逻辑结构,定义x m l 文件中的 元素、元素的属性以及元素和元素属性之间的联系;可扩展的样式语言 x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ) 或级联样式表c s s ( c a s c a d i n gs t y l e s h e e t s ) ,用于规定文档样式,能在客户端使w e b 浏览器改变文档的表示方法, 从而不需要再与服务器进行交互通信;可扩展链按语言x l i n k ( e x t e n s i b l e l i n kl a n g u a g e ) 与x m l 指针语言x p o i n t e r ( x m lp o i n t e rl a n g u a g e ) ,可以扩 展目前w e b 上已有的简单链接,指定x m l 文档的任一部分;专门的x m l 文档 查询语占x q u e r y 或x p a t h ;文档解析标准d o m 和s a x 。其主要规范如图2 1 啥尔滨工程大学硕士学位论文 _ | _ _ _ _ _ _ - 一ii i i i i1 1 所示。 图2 1x m l 文档主要规范 2 4 3x m l 的解析 对于一个写好的x m l 文档,应用程序是不能直接取用或进行处理的,必 须通过x m l 的解释器把文档解释成可操作的文档。x m l 的解释器实际上是一 些代码,用来读取文档并分析文档的结构。解析x m l 文档是处理x m l 文档的 第一步一般来说,要对x m l 文档中的数据进行处理、创建x m l 文档、对文 档进行添加、删除、修改等操作都要通过x m l 的解析器。解析器取得x m l 文 档并检查文档是结构良好的或是有效的。通过解释器可以生成解释对象,目 前主要有d o m 1 和s a x ”。 d o m 的全称是d o c u m e n to b j e c tm o d e l ,即文档对象模型,定义了允许程 序对x m l 文档的格式、结构和内容进行访问和更新的接口,是w 3 c 推荐的一 种标准模型。d o m 分析器通过对) o i i l 文档的分析,把整个埘l 文档以一棵d o m 树的形式存放在内存中,树状结构以d o c u m e n t 对象为根,其余所属元素及属 性构成根的子树,实现了对x m l 文档的随机访问d o m 通过提供一系列接口 ( 属性和方法) 来表达文档对象,其核心概念是n o d e ,x m l 的每种结构如元 素、属性都用它来表示。在形成一棵树后,需要程序自己写递归算法进行遍 历,而且要求了解当前节点的状态( 前趋、后继) 这种访问方式给应用程序 的开发带来了很大的灵活性,它可以任意控制整个x m l 文档中的内容。然而, 由于整个x m l 都被转化为d o m 树放在内存中,因此,当处理较大的x m l 文档 哈尔滨:【程犬学硕士学位论文 时,对内存的需求比较高,此外,对于结构复杂的树遍历也是一项比较耗时 的操作,所以d o m 分析器对机器性能的要求较高,实现效率较低,但由于实 现了随机访问,d o m 分析器还是有很广泛的使用价值。 s a x 是t h es i m p l ea p i f o rx m l 的简称,即x m l 的简单应用编程接口, 这是另一种可以对x m l 文档进行操作的方法。s a x 是一种基于事件的模型, 可用于避免构造文档完整的树状结构。s a x 事件由解释器在进入或离丌文档、 元素、属性、子树时产生。该模型可在不关注文档完整结构的情况下测定其 特征或相关数据,它是事件驱动的有广泛支持的应用协议接口标准。 s a x 分析器提供的是一种对x m l 文档的顺序访问机制,它每次装载一定 量的数据,犹如一个管道一样,数据从管道流过,如果这个数据符合条件, 就可以对它进行适当的操作,对于已经分析过的部分,不能再倒回去重新处 理。同d o m 相比,s a x 并不需要将整个文档装入内存,或者进行缓存处理, 为处理海量数据奠定了基础。其缺点是在数据查找方面效率太低,如果用户 需要查找某数据,它必须从头扫描到尾。 系统在对x m l 文档建立索引前,需要对文档进行解析,本文作者选用了 d o m 方式,故此举例说明用d o m 方式对x m l 文档解析时的特点。 这里有一个x m l 文档: 比利时饼干 $ 5 9 5 美元 可乐 $ 3 0 1 美元 哈尔滨,j :程大学硕士学位论文 以d o m 方式解析成一棵树,如图2 2 所示。 图2 2x m l 文档的d o m 树 从上图可以看出,在d o m 中,文档被组织成一个像“树”一样的逻辑结 构,在形成一棵树后。需要自己写递归算法进行遍历来提取全部数据。 2 5x m l 与h t m l 举例对比 x m l 文档的一个重要特点是,它只描述文档的内容、结构和含义,而不 描述页面上元素的显示格式。也就是说,文档本身仅描述文档内容的标记, 而不定义文档的外观,外观格式的定义可以存放在一个样式表文档中,x m l 文档可以引用样式表文档。相对而言,h t m l 文档同时包含了结构、含义和显 示格式标记,可以通过二者的对比来具体说明这一点”。 如在2 4 3 节中的x m l 文档,若写为h t m l 文档则如下所示: 早餐菜单 早餐菜单 哈尔滨工程大学硕士学位论文 f o o d : n a m e :比利时饼干 p r i c e :$ 5 9 5 美元 d r i n k : n a m e :可乐 p r i c e :$ 3 0 1 美元 h t m l 注重显示,如 、 、 这些标签表示的是字体的大小,而 表示字体为粗体, 表示要空行,也可写成 这样的形式。 而在x m l 文档中,使用有含义的标记名称如 、 、 和 来代替了像 、 、 和 这样的标记,这样,使 人们通过阅读源代码来理解作者的本意变得更加容易。 ) ( m l 文档有这样的特点,使得计算机、自动化机器人定位文档中的具体 内容更加容易。在h t m l 文档中,自动化机器人只能确定 是一个元素, 而无法确定它所表达的真正含义。搜索引擎是人们常见的一种自动化机器人, 然而从h t m l 的标签本身,它们几乎得不到任何有用的信息。例如要搜索位于 b a t h 市的所有旅店的信息,用户输入关键字h o t e l 和b a t h ,搜索引擎往往返 回所有带有卫生间( b a t h r o o m ) 的旅店信息,却可能会丢失位于b a t h 市的旅店 信息。更糟的是,这样的查询会返回所有包含这两个关键字的文档,比如那 些卫生设备公司在旅店举办会议的消息、出版物等。但如果利用x m l 就会明 显改善这种情况,x m l 文档的标签。类似于数据库中的各个字段,都有着明 确的含义,可以很好的表示w e b 上的语义。搜索引擎只要查找特定的标签及 内容即可,而不用像在h t m l 文档中那样,搜索整个文档的内容。在h t m l 中, 各种用途都有固定的标记,而在x m l 中,各种用途没有固定的标记,对于各 种具体应用,用户可以自由选择元素的名称,使它具有特定的含义,这使得 x m l 更灵活和更易被接受。 哈尔滨【程人学硕士学位论文 2 6 本章小结 本章是对搜索引擎和x m l 的一个概述,首先介绍了搜索引擎的技术原理 和它的几个发展方向。接着简单介绍了h t m l ,总结了其优缺点,由此引出可 扩展语苦x m l ,并重点介绍了x m l ,其中包括x m l 的由来、文档样式、组成与 解析,并对x m l 与h t m l 进行了对比,阐述了x m l 优于h t m l 的地方以及将x m l 与搜索引擎相结合的意义。 哈尔滨工程大学硕+ 学位论文 3 1 引言 第3 章面向x m l 白c j 搜索引擎模型 i n t e r n e t 的出现及其迅速普及发展使它日益成为人们获得信息的必要 途径和重要手段。与此同时,信息检索技术便成为网络发展的关键性条件。 信息检索技术将网络中用户想要的有效信息提取出来,大大减少了用户查找 信息的时间,提高了获取信息的效率,因此搜索引擎成为了人们在网上检索 信息的必需工具。但是,随着搜索引擎重要性的增加,许多用户却发现,面 对信息的海洋,大部分搜索引擎使得用户往往花费了很多时间却所获甚少, 有时查出的结果跟用户的真正需求相去甚远,如何提高搜索引擎查询效率和 查询质量,成了一项重要而迫切的研究课题。针对搜索引擎查准率的问题, 本章将提出一种面向x m l 的搜索引擎,并设计出其基本结构。 3 2 设计思想及模型 面向x m l 的搜索引擎仍然包括普通搜索引擎的几大模块,即采集、索引 和查询这几大模块,另外针对x m l 文档的特点,本系统还设计了转换模块和 解析模块。本系统中的采集机制即机器人模块,它从i n t e r n e t 上搜集h t m l 文档和x m l 文档,将搜集到的文档传递给转换模块统一转换为x m l 文档后 再由索引模块为其建立索引,以方便用户查询。 目前在i n t e r n e t 上只有部分网页是由x m l 编写的。所以本搜索引擎并不 规定数据源的格式,机器人不但下载x m l 文档,还下载h t m l 文档。机器人下 载了各类文档后,需要将其转换成x m l 文档,同时为没有d t d 的x m l 文档生 成d t d ,即将无效但格式良好的x m l 文档转换成有效的x m l 文档。完成这两 项工作的部分称为转换模块。 x m l 文档分为文本信息和结构信息,它是严格的树状结构,各个标签之 间有严格的父子、兄弟关系,标签之间是文本信息。标签中的内容用来标明 哈尔滨工程大学硕士学位论文 夹在起始标签与结束标签间的数据的性质。建立索引之前需要提取x m l 文档 的文本信息和结构信息,这个工作由解析模块来完成,所以在转换模块与索 引模块之间应该有个解析模块,转换模块将转换后的文档传给解析模块,解 析x m l 文档的文本信息与结构信息。 普通搜索引擎为t ) j n 快对用户检索要求的响应速度,需要给采集到的数 据建立索引,x m l 文档被解析后,就由索引模块对x m l 文档的文本信息和结 构信息建立索引记录,并将记录放入索引数据库中。索引模块相当于普通搜 索引擎的数据组织与索引机制。 本系统还应有个查询模块,对应着普通搜索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论