【毕业学位论文】（Word原稿）基于Lucene.NET的web垂直搜索引擎系统的设计与开发-软件工程

上传人：O*** IP属地：四川上传时间：2016-07-04 格式：DOC 页数：68 大小：1.84MB 积分：30 举报 版权申诉

【毕业学位论文】（Word原稿）基于Lucene.NET的web垂直搜索引擎系统的设计与开发-软件工程_第2页

【毕业学位论文】（Word原稿）基于Lucene.NET的web垂直搜索引擎系统的设计与开发-软件工程_第3页

【毕业学位论文】（Word原稿）基于Lucene.NET的web垂直搜索引擎系统的设计与开发-软件工程_第4页

【毕业学位论文】（Word原稿）基于Lucene.NET的web垂直搜索引擎系统的设计与开发-软件工程_第5页

已阅读5页，还剩63页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中图分类号：学校代码： 10055 密级：硕士专业学位论文基于开发 f eb 要 I 摘要搜索引擎是人们在浩瀚的互联网信息海洋中获取知识与信息的主要方式，然而如何从海量信息中精简地提取出我们想要的信息已经成为搜索引擎面临的主要问题之一。本文通过对搜索引擎原理及其关键技术和研究，运用软件工程的思想设计和实现了基于直搜索引擎系统。本系统的设计目的旨在减少搜集结果的冗余度、用较精简的搜索结果满足用户的搜索请求，以期达到节约用户浏览时间的目的。本文首先研究了搜索引擎的相关理论、相关技术和详细分析了基于总体架构和主要功能模块的工作原理。然后使用 C#开发网络爬虫和实现中文分词、应用建和维护索引库、并采用一种新的文本分类技术对检索结果进行分类，从而使用户能够更高效的搜索到更有价值的信息。最后对搜索引擎系统进行了性能测试和查准率测试，测试结果表明系统设计符合要求。本文设计实现的基于直搜索引擎系统是在境下进行搜索引擎系统开发的一次新的尝试，对基于搜索引擎系统的研究具有重要的意义。关键字：垂直搜索引擎 I is to on as as to of by a f n of to of a to s in to of s i f n eb #, a to f n is a ET its of f f n 录录第一章绪论 . 1 第一节研究背景 . 1 第二节研究意义 . 2 第三节研究内容及章节安排 . 2 第二章相关理论及技术 . 4 第一节搜索引擎相关理论 . 4 种搜索引擎 . 4 直搜索引擎结构 . 6 第二节网络爬虫 . 8 取原理 . 8 虫架构 . 9 第三节理 . 11 引文档 . 12 入文档 . 13 第三章系统总体设计 . 16 第一节需求分析 . 16 第二节系统设计目标及原则 . 16 第三节系统整体结构和部署关系 . 17 统整体结构 . 17 统部署关系 . 18 第四节数据库设计 . 19 第五节中文分词设计 . 21 引原理 . 22 目录索引压缩算法 . 22 第四章系统详细设计与实现 . 24 第一节信息抓取模块 . 24 络爬虫程序 . 24 络爬虫遍历 . 27 息保存 . 29 第二节索引模块 . 31 建索引库 . 31 找索引库 . 35 第三节 C#实现中文分词 . 37 本切分 . 37 文分词 . 39 第四节分类统计功能 . 42 索接口 . 42 类统计 . 44 第五节系统实现 . 48 统运行环境 . 48 统前台实现 . 48 统后台实现 . 51 第五章系统测试 . 53 第一节网络爬虫测试 . 53 第二节性能测试 . 54 第三节查准率测试 . 55 第六章总结与展望 . 57 第一节总结 . 57 第二节展望 . 58 目录 V 参考文献 . 59 致谢 . 61 个人简历 . 62 第一章绪论 1 第一章绪论第一节研究背景随着网络时代的飞速发展，网民上网获取信息的需求也从被动式的、单一的信息浏览转向了多样的、主动式的信息搜索。在经济、信息全球化的环境中，互联网已经成为人们生活中的重要部分和获取信息的重要途径，因此人们对搜索引擎的要求日益增加。最早的搜索引擎出现在上世纪 90年代，当时还没有出现万维网，大量的文件还是存储保存在各个分散的服务器上，信息检索起来很不方便 1。 1994 年斯坦福大学的杨致远创立了雅虎，这是一种基于目录结构的搜索引擎系统，当时雅虎搜索引擎能够提供给用户一个可搜索的目录，虽然搜索准确度很高，但是搜索引擎系统收录的资源非常有限。随着术的发展，以谷歌为代表的全文搜索引擎系统开始占据了互联网的主要市场。谷歌通过法，得以实现网页排名，这种网页排名方式更加符合人们的期盼的搜索结果。 1999 年百度推出了超级链接分析技术，并成为新一代的中文搜索引擎。现如今，搜索引擎已经成为人们在互联网应用中必不可少的工具，许多优秀的搜索引擎为人们快速获取信息提供了大量的帮助。但是，由于网络的信息量巨大，即便是像样的搜索引擎也不会一次搜集全所有的信息内容。因此，通用搜索引擎通常只会索引一定层次的信息内容。对于通用搜索引擎来说，它将所有的网络信息整理在一起供互联网用户使用，虽然解决了搜索查找信息资源的问题，但通用搜索引擎还是存在一些不完善的地方。通用搜索引擎是通过关键词进行索引和服务的，用户根据关键词在现有的信息库中搜寻查找，搜索引擎本身是没有能力理解和判断用户搜索的目的和意图的，这就使得，只要不同的用户输入的关键词一样，就会检索到相同的返回结果，这样的搜索结果是不能满足不同用户的搜索需求的。垂直搜索引擎是近些年来针对于通用搜索引擎存在的一些问题提出来的一种搜索引擎服务模式。垂直搜索引擎通过专注于某一行业或领域，为各种需求第一章绪论 2 的用户提供适当的搜索结果。它提供给用户的并不是海量的相关网页信息，而是极具针对性的、范围极具缩小的具体信息内容。第二节研究意义互联网技术水平的不断提高和快速发展，使得我们可以获取巨大的信息量。然而，互联网信息量的急速增长，反倒促使信息的利用率呈下降趋势，我们称之这种现象为“信息过载”。这种现象的出现，使得网民很难通过输入网址或导航网站的方式有效、准确地找到所需要的信息。因此，对搜索引擎的研究也就更加重视，近些年搜索引擎的各种相关技术都有了较大的进步，并且相继出现了像优秀的搜索引擎，搜索引擎已经成为通过互联网查找所需信息的必不可少的检索工具。但随着信息的指数式增长，如何解决搜索的精度已经成为搜索引擎面临的主要问题 2。垂直搜索引擎是针对某一个特定需求提供的专业搜索引擎，是搜索引擎的延伸和细分，是对互联网中某类信息进行的一次整合，它通过定向分字段抽取出所需要的数据，然后进行处理后再以某种形式返回给用户。垂直搜索引擎是针对通用搜索引擎查询返回结果的信息量大、精确度不高等提出来的新的搜索引擎服务模式，其特点就是“专、精、深”，和通用搜索引擎的无序化海量信息相比，垂直搜索引擎则更加专注、深入和具体。垂直搜索引擎搜集的信息内容是与特定主题相关的，冗余度低、信息量较少，并且搜集的信息能够及时更新，从而保证搜索结果更加准确、深入和具体。鉴于以上优势，垂直搜索引擎成为现阶段搜索引擎发展趋势之一，并成为搜索引擎领域研究和应用的热门课题。第三节研究内容及章节安排本文主要对搜索引擎系统进行研究，并设计实现基于直搜索引擎系统，论文研究内容主要包括以下几个方面：首先对搜索引擎相关理论及技术进行深入研究，包括各种搜索引擎的优缺点、网络爬虫的抓取信息原理和理。然后对基于直搜索引擎系统提出系统设计目标，并对第一章绪论 3 系统进行总体设计分析，其中包括系统整体体系结构设计、各个功能模块的设计并编码实现。最后是系统的实现，并对本文所设计的基于直搜索引擎系统进行性能和查准率的测试。本文的章节安排如下：第一章介绍论文的研究背景及意义，以及论文的研究内容及章节安排。第二章阐述了搜索引擎相关理论及技术，介绍了各种搜索引擎、网络爬虫和第三章系统总体设计，阐述了系统设计目标及原则、系统结构和数据库设计。第四章系统各个功能模块的详细设计与实现，其中包括信息抓取模块、索引模块、中文分词和分类统计模块。第五章设计实现基于直搜索引擎系统，并对该系统进行性能和查准率测试第六章对整个论文的工作进行总结，并对后续研究工作提出展望。第二章相关理论及技术 4 第二章相关理论及技术第一节搜索引擎相关理论种搜索引擎搜索引擎起源于国外，近十几年来迅速发展，除了成为著名的、综合的搜索引擎外，各类搜索引擎都有各自的特色，使得它们在搜索引擎领域占有自己的一片天地。国外的搜索引擎技术有许多值得我们学习和借鉴的地方，尤其是随着元搜索引擎、站内搜索引擎和垂直搜索引擎的崛起，运行在大规模云计算的通用搜索引擎受到极大的挑战。下面就搜索引擎应用现状展开分析：元搜索引擎所谓元搜索引擎（是指用户只需要提交一次检索请求，就会由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，然后将各个独立搜索引擎的查询结果集中起来以整体的形式呈现给用户 5。元搜索引擎采用一系列优化运行机制，能够在较短的时间内提供相对准确、全面的信息，而且即使搜索结果不能完全满足用户需求，仍然可以作为相对可靠的参考源进行扩展搜索，因此，元搜索引擎成为备受推崇的检索首选入口。元搜索引擎的技术重心在于查询前的处理（检索请求提交机制和检索接口代理）和查询结果的集成。其特点是信息覆盖面广、搜索结果的可靠性和权威性高、可维护性强、检索效率高，其基本结构由检索请求提交机制、检索接口代理机制和检索结果显示机制组成，如图 2 第二章相关理论及技术 5 用户端浏览器用户请求提交机制查询结果显示机制互联网信息资源搜索引擎 2搜索引擎 1搜索引擎 3搜索引擎 4搜索引擎请求标准请求响应结果结果页面图 2搜索引擎的基本结构图 “检索请求提交机制”主要负责实现调用哪些搜索引擎、检索时间限制和结果数量限制等用户“个性化”的检索设置要求。“检索接口代理机制”将用户的检索请求“翻译”成不同搜索引擎“本地化”要求所需的不同格式。“检索结果显示机制”主要是对所有源搜索引擎搜索结果进行处理，包括去除重复结果、合并相似结果和输出处理等。由于元搜索引擎的运作和使用是建立在各种独立的搜索引擎的基础上的，因此，它和其他独立的搜索引擎相比，元搜索引擎对网络信息资源的发现和信息检索具有多方面的优势。垂直搜索引擎垂直搜索，是针对某一特定领域、某一特定需求和某一特定人群提供的有一定价值的信息和相关服务。其特点是专、精、深、且具有一定的行业色彩 7。垂直搜索引擎专注具体、深入的纵向服务，致力于特定领域内信息的全面和内容的深入，它主要依靠网页爬虫技术，抓取某一特定领域中的所有相关信息，并对相关信息进行分类。之后，系统就可以分门别类地将内容集成到对象信息仓库中。在进行了抓取、分类、抽取之后，垂直搜索引擎就可以利用这些结构化的对象信息，来应答用户的请求，并进行各种智能分析和挖掘工作。垂直搜索引擎大体有以下四种关键技术，即聚焦、实时和可管理的网页采集技术，从非结构化内容到结构化数据的网页解析技术，精、准、全的全文索第二章相关理论及技术 6 引和联合检索技术，高度智能化的文本挖掘技术。垂直搜索引擎的特点是对筛选结果先预处理，然后再甄别。这就大大提高搜索引擎的搜索效率和搜索结果的精确度，使得搜索技术向着搜索数据专业化与纵深化的方向发展，从而有效避免了大量与主题无关的冗余信息的干扰。另外垂直搜索引擎在信息搜索与信息反馈的关联方面也了一定的改定改善。站内搜索引擎站内搜索就是在一个网站内进行信息搜索，主要针对整站信息量检索自己所需内容，因此得到的检索内容全部出自该网站的数据库，但也不排除某些网站链接了其他搜索，以便扩充自己的信息量。站内搜索的特点是目的性强，这类搜索引擎给予你的是有选择、有方向的提供你搜寻的目标内容，而不是漫无目的的自我寻找 8。站内搜索引擎具有自动归类匹配功能，它将信息自动归类，分成一组一组的，并且会有相应的内容进行匹配，从而方便了用户的查找。目前站内搜索有基于数据库的站内搜索、基于爬虫抓取的站内搜索和站内搜索软件系统三种流行的实现方式。直搜索引擎结构搜索引擎的结构用于提供搜索引擎系统中重要组件与组件之间的关系描述。体系架构的设计能够保证系统的设计需求和明确系统的设计目标，因此，体系架构是实现搜索引擎系统设计的前提与基础。垂直搜索引擎通常由三大部分组成：抓取、索引和搜索。系统架构如图 2 第二章相关理论及技术 7 用户获取文档文本提取索引程序检索器互联网索引库文档数据库图 2直搜索引擎系统架构图各部分的基本功能如下：信息抓取：主要负责从网页获取文档和文本提取的工作。信息抓取的工作原理可以抽象为一个有向图的遍历过程。它能根据一些指定的算法，获取新的网页内容和超级链链，从而实现源源不断获取网页信息的功能。文档数据库：文档数据库负责存储从网络获取的网页信息和超链接结构信息，以便分析器对这些信息数据进行分析。分析器：依据搜集端数据库搜集的数据的特点，按照特定的算法，对所搜集的信息进行分析，从中提取和用户检索内容相关的信息，并将其交于索引器建立索引。索引程序：负责对已经分析好的网页信息内容建立索引 11。它的核心工作就是重新整理网页内容的描述信息，为用户的检索要求做充分的准备。检索器：主要负责响应用户的检索请求并追踪用户的检索行为。当用户提交检索请求后，检索器从检索数据库中提取相关的网页信息，并依据特定的算法将这些数据进行排序，然后显示给用户。第二章相关理论及技术 8 第二节网络爬虫所谓网络爬虫就是能够从互联网上抓取信息的一系列程序，它能够从互联网上源源不断地抓取海量信息，搜索引擎结果中的信息皆来源于此，如果把互联网比喻成一个覆盖全球的蜘蛛网，那么网络爬虫程序就是网上爬来爬去的蜘蛛。取原理网络爬虫需要实现的基本功能包括下载网页以及对址的遍历。为了快速高效地遍历网站内容，还需要应用专门的数据结构来优化网络爬虫程序。鉴于运行爬虫程序需要消耗大量的带宽资源，因此设计爬虫程序时必须考虑如何节省网络带宽等问题。由于所有的网页都能链接到其他的网站上，我们可以从一个网站开始，跟踪所有网页上的链接，这样就能遍历整个互联网，为了更快更好地抓取所需的信息，网页抓取首先从一个已知的抓取下来的网页中包含了我们所需的信息，一般存储在数据库或是索引库等专门的存储系统中，如图 2 互联网请求网页解析网页存储系统新解析出的内容初始虫基本结构图在搜索引擎中，网络爬虫程序从一系列种子链接中把这些初始网页中的相关理论及技术 9 提取出来，放入作队列，然后遍历所有工作队列中的后下载新的网页并把其中新发现的次放入作队列中。爬虫程序抓取的基本过程如图 2 v i s i t e d 集合T o d o 队列初始 U R L 地址解析 U R 析出的 U R 虫程序抓取的基本流程图虫架构基本架构如果说互联网是大海，有用的信息是鱼，那么采集信息的网络爬虫程序就是渔夫。网络爬虫通常包含以下七个模块。保存种子待抓取数据结构模块。爬虫程序通常把一些活跃的网页作为种子如某网站的首页面，因为这些网页经常会发现一些新的超级链接。通常情况下，网络爬虫程序都是将一系列的种子做起始爬取对象，这些子一般从数据库表或者配置文件中读取。保存待抓取的个较小的爬虫程序可能会使用内存中的一个队列，甚至是优先级队列来存储。保存已经抓取过的数据结构，防止重新抓取模块。待抓取的页面获取模块。当爬虫程序从种子列或从抓取出来的列中获得要根据这个取方法即普通的 I/这个模块中，仅仅是把指的内容按照二进制的格式读出来，而不对内容做任何处理。第二章相关理论及技术 10 提取已经获取的页面内容中的有效信息模块。通常网页中除了包含文本内容外，还有超级链接、图片等。对于文本内容，首先把件。至于超链接的提取，可以根据法，使用正规表达式提取，也可使用专门的负责连接前处理模块，负责连接后处理模块，过滤器模块。如果只是抓取某个网站的页面，则可以对多线程模块。爬虫程序主要消耗网络带宽、中央处理器和磁盘三种资源。三者之间任何一种都有可能成为制约网络爬虫的瓶颈，为了增强爬虫程序的效率，最直接的方法就是使用多线程方式进行处理。在爬虫系统中，将要处理的个线程顺序地从队列中取得常，可以利用线程池来管理线程。分布式爬虫架构分布式爬虫就是把抓取任务分布到不同的节点，其主要目的就是为了增强爬虫程序的可扩展性 15。也可以使用物理分布的爬虫系统，让每个爬虫节点抓取靠近它的网站。图 2 w e 网页D N 页面内容是否重复？文档U R L 过滤按域名分割 U R L 去重U R L F r o n t i e 于其他节点发送到其他节点图 2布式爬虫结构图分布式爬虫的特点在于按域名分配搜索采集任务，分布式系统中的每台机第二章相关理论及技术 11 器都有各自的所辖任务，如果收到不属于自己所辖的采集任务后会转交给其他的机器。垂直爬虫架构垂直爬虫往往抓取指定网站的新闻或论坛信息。可以指定初始抓取的首页或者列表页，然后提取相关的详细页中的有效信息存入数据库，垂直爬虫设计到的功能有首页提取、网页分类、列表页链接提取和详细页面内容提取 18。总体结构如图 2 初始抓取的列表页数据表结果数据表分析列表页解析详细页新解析出的详细页新解析出的列表页图 2直爬虫结构图第三节理搜索引擎的灵魂是索引，索引是文档的最佳组织方式。搜索的过程就是对索引库进行折半查找。本文使用动态链接库管理搜索引擎索引库。一个采用 C#开发的开放源代码的全文索引库。引库中存放的是文档，所谓文档即信息的组织结构。索引库按关键词给这些文档建立索引，使用关键词搜索查询，以文档的形式返回查询结果。工作原理如图 2 第二章相关理论及技术 12 A d d D o c u m e n t ( )匹配到的文档L u c e n e . N e t 索引库I n d e x W r i t e rQ u e r y t i t l eI n d e x S e a r c h e 工作原理图待检索和索引的文档进行分词处理，然后对经过分词处理的文本建立索引，目的是为以后的检索过程提供快速准确的检索索引结构。下面将逐一介绍。引文档搜索引擎的基础在于对全文索引库的管理，在，通过体代码实现如下： ”c:; /指定索引文件存放路径 /建立一个处理文本的分析器第二章相关理论及技术 13 (); /创建一个文档，并添加一列 ”,; /把文档写入索引库 /关闭写入器 ; 下面我们介绍代码中的相关概念，是索引库，在通过索引，通过取索引，作用是打开索引。是一个抽象类，定义了分析文本的接口。不同的语言可以使用不同的分析器子类。来处理英文。表索引库中的记录，待搜索的信息被封装成入索引库。入文档搜索文档首先通过入索引，然找入的索引。法中指定返回多少条结果，象。把搜索过程定义在一个方法中，结合代码来看，搜索的过程主要分为以下几个步骤： ”D: 第二章相关理论及技术 14 /假定待读入的索引文件在 D: ; /打开索引文件，并读入相关信息 /执行该语句后，索引文件的相关信息将放入 “ /执行该语句后，索引文件的相关信息将放入 0); 返回结果总数 ” ,+ i = 0; i ”); ”); ; 索技术作为一个开源的项目，自从它诞生以来，乎已经成为全文搜索的同义词，随着发平台越来越强大，作为台的移植版本，日益流起来。开发人员可以用它构建具体的全文搜第二章相关理论及技术 15 索的应用，而且还可以将成到各种系统软件中去，甚至一些商业软件也采用了术作为其全文搜索的核心。其开源的特征、健壮的系统架构和良好的索引结构获得了广泛的应用。第三章系统总体设计 16 第三章系统总体设计第一节需求分析通过调研发现 , 搜索引擎是人们在浩瀚的互联网信息海洋中获取知识与信息的主要方式，近些年来搜索引擎的各种相关技术都有了较大的进步，并且相继出现了像优秀的搜索引擎，搜索引擎已经成为通过互联网查找所需信息的必不可少的检索工具。但随着信息的指数式增长，如何从海量信息中精简地提取出我们想要的信息已经成为搜索引擎面临的主要问题之一。针对以上情况分析，本文利用开源的搜索工具包，设计实现基于直搜索引擎系统，系统功能需求主要有：前台：友好的搜索界面。搜索结果必须包含真实的链接内容。过滤搜索结果。合理的信息呈现，用户可以快速地看到自己想要搜索的结果信息的名称、发布日期、摘要等信息。后台：应用爬虫原理抓取信息实现互联网信息的搜集。创建索引库，并为正在创建索引的文件提供一个稳定的存储环境。对索引结果进行分类统计。建立系统维护功能，以方便对系统进行维护第二节系统设计目标及原则目前搜索引擎存在着不能很好的理解自然语言的语义、充分理解用户的搜索请求等问题。用户浏览搜索结果时往往只是浏览搜索结果排在前面的几页内容。如何按照用户的搜索意图精简搜索结果，节约用户的浏览时间已经成为现代搜索引擎面临的主要问题之一。第三章系统总体设计 17 本系统主要针对互联网现有搜索引擎搜索结果信息量较大，针对性不强等问题进行研究设计，通过发索引擎程序，并在面中调用搜索引擎程序，然后通过架设行实现系统功能。系统功能包括：前台搜索页面接收用户查询关键字、系统初步识别关键字敏感性、查找索引库并将查询结果返回前台界面、文档索引管理功能、搜索结果分类统计功能等，力争设计一个简单易用、搜索针对性强、安全性高、开源的台。具体表现在： (1) 设计一个基于索引擎系统，力争系统运行稳定、搜索结果针对性较强、可拓展性良好。 (2) 搜索引擎系统准确性较高，数据分类精准，不能包含重复冗余信息。比如，用户输入的关键字经系统判定是学习相关的，那么搜索引擎系统就可以通过搜索结果筛查去除商业类等和学习内容不相关的信息。 (3) 系统人性化设计，友好的人机交互界面，简单易用。为用户输入的关键词敏感性提供判断。例如 ,如果用户输入的搜索关键字时间等敏感字段，说明用户需要查询的信息内容应该是最新的，那么搜索引擎返回结果的时候就可以按照时间排序，信息内容越新搜索结果排名就应越靠前。 (4) 搜索引擎系统的实现过程具有复杂性，在今后的运行实践中难免会出现一些漏洞或不完善的地方，因此这就要求本文开发的搜索引擎系统可扩展性要强，即在今后的运行实践中各个功能模块容易二次开发，便于后续研究工作对系统进行完善。第三节系统整体结构和部署关系统整体结构本文设计的基于直搜索引擎系统功能包括各种格式文档索引功能、实现中文分词、全文搜索引擎查询、搜索结果分类统计与导航等，系统整体结构如图 3示。第三章系统总体设计 18 基于 . N E T 的 w e b 垂直搜索引擎系统中文分词文档索引管理引擎代理搜索结果分类统计关键词切分倒排索引索引切词索引存储用户数据处理检索数据处理关键词查询结果集排序图 3统功能模块图各子系统的功能相对独立，但它们之间又存在紧密的联系。搜索子系统负责尽可能多的收集互联网上的信息资源，这个子系统可以独立运行。中文分词子系统利用搜索子系统获得的信息内容通过关键词切分和索引切分建立索引库。同样该子系统也可以独立运行。文档索引子系统的功能是将构建好的本体库转换为多层倒排索引。索引子系统主要负责处理用户查询，并对用户输入的关键词进行分析处理，然后在多层倒排索引上进行查询。索引子系统独立运行的目的是为了实现分布式处理，特别是当多层倒排索引规模比较大时，可以将索引程序放置在专门的容量较大的内存服务器上。搜索结果分类子系统通过对搜索结果的排序使得搜索引擎系统准确性较高，数据分类更加精准，当用户输入搜索关键字时，用户接口系统就会将查询关键字发送到检索子系统，检索子系统对搜索结果分类排序后返回相应的查询结果。统部署关系本文开发的基于基于浏览器端服务第三章系统总体设计 19 器模式的 B/系统的部署关系如图 3 维护工具查询工具接口层搜索服务数据库图 3统部署关系图其中，系统的搜索服务部署在服务器上，接口层则部署在浏览器端，通过网络协议进行数据通信，查询页面和维护工具则通过接口调用搜索服务来实现查询和搜索管理的功能。第四节数据库设计搜索引擎系统通过对所搜集的网页信息进行标引，然后从中抽取出索引项，从而形成索引数据库。索引项分为内容索引项和一般索引项，其中内容索引项反映了文档内容，包含关键词、短语及其权重等。一般索引项与文档的内容无关，只是表述一些客观的属性。本系统采用 008 作为数据库开发环境。数据库用来存储索引库和搜索引擎返回结果等。在系统中，关于数据库的设计，主要是三个表的设计，第三章系统总体设计 20 即文献表、支撑表和监控表。文献表用来存储文献资料，它主要负责记录文献资料的相关数据，包括文献的类型、所属分类、名称、内容等。支撑表用来存储用户信息及文献表相关元数据，包括文献库信息表、文献库列信息表、文献库存储信息表、文献库分类信息表、文献库用户权限表和文献库用户表。监控表则是用来记录监控文件信息。文献表是在搜索引擎系统运行过程中由用户创建的，除了记录文献名称、类型、内容和分类的字段外

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）基于Lucene.NET的web垂直搜索引擎系统的设计与开发-软件工程

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）基于Lucene.NET的web垂直搜索引擎系统的设计与开发-软件工程

文档简介

温馨提示

最新文档

评论

相关文档