




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中图分类号: 学校代码: 10055 密级: 硕 士 专 业 学 位 论 文 基于 开发 f eb 要 I 摘要 搜索引擎是人们在浩瀚的 互联网 信息海洋中获取知识与信息的主要方式,然而如何从海量信息中精简地提取出我们想要的信息已经成为搜索引擎面临的主要问题之一。 本文通过对搜索 引擎原理 及 其关键技术和 研究, 运用软件工程的思想 设计 和 实现 了 基于 直搜索引擎系统 。本系统的设计目的 旨在减少搜集结果的冗余度、用较精简的搜索结果满足用户的搜索请求,以期达到节约用户浏览时间的目的。 本文首先 研究了搜索引擎的相关理论、 相关 技术和 详细分析了 基于 总体架构和主要功能模块的工作原理。 然后 使用 C#开发网络爬虫 和 实现中文分词、应用 建和维护索引库、 并 采用一种新的文本分类 技术对检索结果进行分类,从而 使 用户能够更高效的搜索到更有价值的信息。 最后对 搜索引擎 系统 进行了性能测试和查准率测试,测试结果表明系统设计符合要求。 本文 设计 实现的 基于 直搜索引擎系统 是 在 境下进行搜索引擎系统开发的一次新的尝试,对基于 搜索引擎系统 的 研究具有重要的意义。 关键字 : 垂直 搜索引擎 I is to on as as to of by a f n of to of a to s in to of s i f n eb #, a to f n is a ET its of f f n 录 录 第一章 绪论 . 1 第一节 研究背景 . 1 第二节 研究意义 . 2 第三节 研究内容及章节安排 . 2 第二章 相关理论及技术 . 4 第一节 搜索引擎相关理论 . 4 种搜索引擎 . 4 直搜索引擎结构 . 6 第二节 网络爬虫 . 8 取原理 . 8 虫架构 . 9 第三节 理 . 11 引文档 . 12 入文档 . 13 第三章 系统总体设计 . 16 第一节 需求分析 . 16 第二节 系统设计目标及原则 . 16 第三节 系统整体结构和部署关系 . 17 统整体结构 . 17 统部署关系 . 18 第四节 数据库设计 . 19 第五节 中文分词设计 . 21 引 原理 . 22 目录 索引压缩算法 . 22 第四章 系统详细设计与实现 . 24 第一节 信息抓取模块 . 24 络爬虫程序 . 24 络爬虫遍历 . 27 息保存 . 29 第二节 索引模块 . 31 建索引库 . 31 找索引库 . 35 第三节 C#实现中文分词 . 37 本切分 . 37 文分词 . 39 第四节 分类统 计功能 . 42 索接口 . 42 类统计 . 44 第五节 系统实现 . 48 统运行环境 . 48 统前台实现 . 48 统后台实现 . 51 第五章 系统测试 . 53 第一节 网络爬虫测试 . 53 第二节 性能测试 . 54 第三节 查准率测试 . 55 第六章 总结与展望 . 57 第一节 总结 . 57 第二节 展望 . 58 目录 V 参考文献 . 59 致谢 . 61 个人简历 . 62 第一章 绪论 1 第 一 章 绪论 第一节 研究背景 随着网络时代 的飞速发展,网民上网获取信息的需求也从被动式的、单一的信息浏览转向了多样的、主动式的信息搜索。在经济、信息全球化的环境中,互联网已经成为人们生活中的 重要 部分 和获取信息的重要途径,因此人们 对 搜索引擎的 要 求日益增 加 。 最早的搜索引擎 出现在上世纪 90年代 ,当时还没有出现 万维网 ,大量的文件还是 存储保存 在 各个 分散的服务器上, 信息检索起来 很不方便 1。 1994 年斯坦福大学的杨致远创立了 雅虎 , 这是 一种基于目录结构的搜索引擎系统, 当时雅虎搜索引擎能够提供给用户一个可搜索的目录,虽然搜索准确度很高 ,但是搜索引擎系统 收录的资 源非常有限。 随着 术的发展,以 谷歌 为代表的全文搜索引擎系统开始占据了互联网的 主要市场。 谷歌通过 法, 得以实现网页排名 , 这种网页排名方式更 加 符合人们的 期盼 的搜索 结果。 1999 年 百度推出了 超 级 链 接 分析技术 ,并成为 新一代的中文搜索引擎。 现如今,搜索引擎已经成为人们在互联网应用中必不可少的工具, 许多优秀的 搜索引擎为人们快速获取信息提供了大量的帮助。但是,由于网络的信息量巨大,即便是像 样的搜索引擎也不会一次搜集全所有的信息内容。因此,通用搜索引擎通常只会索引一 定层次的 信息内容。 对于通用搜索引擎来说,它将所有的网络信息整理在一起供互联网用户使用,虽然解决了搜索查找信息资源的问题,但通用搜索引擎还是存在一些不完善的地方。通用搜索引擎是通过关键词进行索引和服务的,用户根据关键词在现有 的信息 库 中 搜寻 查找,搜索引擎本身是 没有能力 理解 和判断 用户搜索的 目的和 意图的, 这就使得 , 只要不同的用户 输入的关键词一样,就会 检索到 相同的返回结果,这样的 搜索 结果是 不能 满足 不同用户的搜索需求的 。 垂直搜索引擎是近些年来针对于通用搜索引擎存在的一些问题提出来的一种搜索引擎服务模式。垂直搜索引擎 通过专注于某一行业或领域,为各种需求第一章 绪论 2 的用户提供适当的搜索结果。 它提供给用户的并不是海量的相关网页信息,而是极具针对性的、范围极具缩小的具体信息内容。 第二节 研究意义 互联网技术水平的不断提高和快速发展,使得我们可以获取巨 大的信息量。然而,互联网信息量的急速增长,反倒促使信息的利用率呈 下降趋势,我们称之这种现象为“信息过载”。这种现象的出现,使得网民很难通过输入网址或导航网站的方式有效、准确地找到所需要的信息。因此,对搜索引擎的研究也就更加重视,近些年搜索引擎的各种相关技术都有了较大的进步,并且相继出现了像 优秀的搜索引擎,搜索引擎已经成为通过互联网查找所需信息的必不可少的检索工具。但随着信息的指数式增长,如何解决搜索的精度已经成为搜索引擎面临的主要问题 2。 垂直搜索引擎是针对某一个特定需求提供的专业搜索引擎,是搜索引擎的延伸和细分,是对互联网中某类信息进行的一次整合,它通过定向分字段抽取出所需要的数据,然后进行处理后再以某种形式返回给用户。垂直搜索引擎是针对通用搜索引擎查询返回结果的信息量大、精确度不高等提出来的新的搜索引擎服务模式,其特点就是“专、精、深”,和通用搜索引擎的无序 化海量信息相比,垂直搜索引擎则更加专注、深入和具体。 垂直搜索引擎搜集的信息内容是与特定主题相关的,冗余度低、信息量较少,并且搜集的信息能够及时更新,从而保证搜索结果更加准确、深入和具体。鉴于以上优势,垂直搜索引擎成为现阶段搜索引擎发展趋势之一,并成为搜索引擎领域研究和应用的热门课题。 第三节 研究内容 及章节安排 本 文 主要对搜索引擎系统进行 研究 ,并设计实现 基于 直搜索引擎系统 ,论文研究 内容主要包括 以下几个方面: 首先对搜索引擎相关理论及技术进行深入研究,包括各种搜索引擎的优缺点 、网络爬虫的抓取信息原理和 理。 然 后对 基于 直搜索引擎系统 提出系统设计目标,并对第一章 绪论 3 系统进行总体设计分析,其中包括系统整体体系结构设计、各个功能模块的设计并编码实现。 最后是系统的实现,并对本文所设计的 基于 直搜索引擎系统 进行性能和 查准率的测试。 本 文的章节安排如下: 第一章 介绍论文的研究背景及意义,以及论文的研究内容及章节安排。 第二章 阐述了搜索引擎相关理论及技术,介绍了各种搜索引擎、网络爬虫和 第三章 系统总体设计,阐述了系统设计目标及原则、系统结构和数据库设计。 第四章 系统各个功能模块的详细设计与实现,其中包括信息抓取模块、索引模块、中文分词和分类统计模块。 第五章 设计实现 基于 直搜索引擎系统 ,并对该系统进行性能和查准率测试 第六章 对整个论文的工作进行总结,并对后续研究工作提出展望。 第二章 相关 理论及技术 4 第 二 章 相关理论及技术 第 一 节 搜索引擎相关理论 种搜索引擎 搜索引擎起源于国外,近十几年来迅速发展,除了 成为著名的、综合的搜索引 擎外, 各类搜索引擎都有各自的特色,使得它们在搜索引擎领域占有自己的一片天地。国外的搜索引擎技术有许多值得我们学习和借鉴的地方,尤其是随着元搜索引擎、站内搜索引擎和垂直搜索引擎的崛起,运行在大规模云计算的通用搜索引擎受到极大的挑战。下面就搜索引擎应用现状展开分析: 元搜索引擎 所谓元搜索引擎( 是指用户只需要提交一次检索请求,就会由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,然后将各个独立搜索引擎的查询结果集中 起来以整体的形式呈现给用户 5。元搜索引擎采用一系列优化运行机制,能够在较短的时间内提供相对准确、全面的信息,而且即使搜索结果不能完全满足用户需求,仍然可以作为相对可靠的参考源进行扩展搜索,因此,元搜索引擎成为备受推崇的检索首选入口。 元搜索引擎的技术重心在于查询前的处理(检索请求提交机制和检索接口代理)和查询结果的集成。其特点是信息覆盖面广、搜索结果的可靠性和权威性高、可维护性强、检索效率高,其基本结构由检索请求提交机制、检索接口代理机制和检索结果显示机制组成,如图 2 第二章 相关 理论及技术 5 用户端浏览器用 户 请 求 提 交 机 制查 询 结 果 显 示 机 制互联网信息资源搜 索 引 擎 2搜 索 引 擎 1搜 索 引 擎 3搜 索 引 擎 4搜 索 引 擎 请 求 标 准 请 求响 应 结 果结 果 页 面图 2搜索引擎的基本结构图 “检索请求提交机制”主要负责实现调用哪些搜索引擎、检索时间限制和结果数量限制等用户“个性化”的检索设置要求。“检索接口代理机制”将用户的检索请求“翻译”成不同搜索引擎“本地化”要求所需的不同格式。“检索结果显示机制”主要是对所有源搜索引擎搜索结果进行处理,包括去除重复结果、合并相似结果和输出处理等。 由于元搜索引擎的运作和使用是建立在各种独立的搜索引擎的基础上的,因此,它和其他独立的搜索引擎相比,元搜索引擎对网络信息资源的发现和信息检索具 有多方面的优势。 垂直搜索引擎 垂直搜索,是针对某一特定领域、某一特定需求和某一特定人群提供的有一定价值的信息和相关服务。其特点是专、精、深、且具有一定的行业色彩 7。垂直搜索引擎专注具体、深入的纵向服务,致力于特定领域内信息的全面和内容的深入,它主要依靠网页爬虫技术,抓取某一特定领域中的所有相关信息,并对相关信息进行分类。之后,系统就可以分门别类地将内容集成到对象信息仓库中。在进行了抓取、分类、抽取之后,垂直搜索引擎就可以利用这些结构化的对象信息,来应答用户的请求,并进行各种智能分析和挖掘工作。 垂 直搜索引擎大体有以下四种关键技术,即聚焦、实时和可管理的网页采集技术,从非结构化内容到结构化数据的网页解析技术,精、准、全的全文索第二章 相关 理论及技术 6 引和联合检索技术,高度智能化的文本挖掘技术。 垂直搜索引擎的特点是对筛选结果先预处理,然后再甄别。这就大大提高搜索引擎的搜索效率和搜索结果的精确度,使得搜索技术向着搜索数据专业化与纵深化的方向发展,从而有效避免了大量与主题无关的冗余信息的干扰。另外垂直搜索引擎在信息搜索与信息反馈的关联方面也了一定的改定改善。 站内搜索引擎 站内搜索就是在一个网站内进行信息搜索,主要针对整站信息 量检索自己所需内容,因此得到的检索内容全部出自该网站的数据库,但也不排除某些网站链接了其他搜索,以便扩充自己的信息量。站内搜索的特点是目的性强,这类搜索引擎给予你的是有选择、有方向的提供你搜寻的目标内容,而不是漫无目的的自我寻找 8。站内搜索引擎具有自动归类匹配功能,它将信息自动归类,分成一组一组的,并且会有相应的内容进行匹配,从而方便了用户的查找。 目前站内搜索有基于数据库的站内搜索、基于爬虫抓取的站内搜索和站内搜索软件系统三种流行的实现方式。 直 搜索引擎结构 搜索引擎的结构用于提供搜索引 擎系统中重要组件与组件之间的关系描述。体系架构的设计能够保证系统的设计需求和明确系统的设计目标,因此,体系架构是实现搜索引擎系统设计的前提与基础。 垂直搜索引擎通常由三大部分组成:抓取、索引和搜索。 系统架构如图 2 第二章 相关 理论及技术 7 用 户获 取 文 档 文 本 提 取索 引 程 序检 索 器互 联 网索 引 库文 档 数 据 库图 2直搜索引擎系统架构图 各部分的基本功能如下: 信息抓取 :主要负责从网页获取文档和文本提取的工作。 信息抓取 的工作原理可以抽象为一个有向图的遍历过程。它能根据一些指定的算法,获取新的网页内容和超级链链,从而实现源源不断获 取网页信息的功能。 文档 数据库: 文档 数据库负责存储从网络获取的网页信息和超链接结构信息,以便分析器对这些信息数据进行分析。 分析器:依据搜集端数据库搜集的数据的特点,按照特定的算法,对所搜集的信息进行分析,从中提取和用户检索内容相关的信息,并将其交于索引器建立索引。 索引 程序 :负责对已经分析好的网页信息内容建立索引 11。它的核心工作就是重新整理网页内容的描述信息,为用户的检索要求做充分的准备。 检索器:主要负责响应用户的检索请求并追踪用户的检索行为。当用户提交检索请求后,检索器从检索数据库中提取相关的网 页信息,并依据特定的算法将这些数据进行排序,然后显示给用户。 第二章 相关 理论及技术 8 第二节 网络爬虫 所谓网络爬虫就是能够从互联网上抓取 信息的一系列程序,它能够 从互联网上源源不断地抓取海量信息,搜索引擎结果中的信息 皆 来源于此,如果把互联网比喻成一个覆盖 全 球的蜘蛛网,那么网络爬虫程序就是网上爬来爬去的蜘蛛 。 取原理 网络爬虫需要实现的基本功能包括下载网页以及对 址的遍历。为了快速高效地遍历网站内容,还需要应用专门的数据结构来优化网络爬虫程序。鉴于 运行爬虫程序需要消耗大量的带宽资源,因此设计爬虫程序时必须考虑 如何节省网络带宽等问题。 由于所有的网页都能链接到其他的网站上,我们可以从一个网站开始,跟踪所有网页上的链接,这样就能遍历整个互联网,为了更快更好地抓取所需的信息,网页抓取首先从一个已知的 抓取下来的网页中包含了我们所需的信息,一般存储在数据库或是索引库等专门的存储系统中,如图 2 互 联 网请 求 网 页解 析 网 页存 储 系 统新解析出的内容初始虫基本结构图 在搜索引擎中,网络爬虫程序从一系列种子链接中把这些初始网页中的 相关 理论及技术 9 提取出来,放入 作队列,然后遍历所 有工作队列中的 后下载新的网页并把其中新发现的 次放入 作队列中。爬虫程序抓取的基本过程如图 2 v i s i t e d 集 合T o d o 队 列初 始 U R L 地 址 解 析 U R 析 出 的 U R 虫程序抓取的基本流程图 虫架构 基本架构 如果说互联网是大海,有用的信息是鱼,那么采集信息的网络爬虫程序就是渔夫。 网络爬虫通常包含以下 七 个模块。 保存种子 待抓取 数据结构 模块 。爬虫程序通常把一些活跃的网页作为种子 如某网站的首页面,因为这些网页经常会发现一些新的超级链接。通 常情况下,网络爬虫程序都是将一系列的种子 做起始爬取对象, 这些 子一般从数据库表或者配置文件中读取。保存待抓取的 个较小的爬虫程序可能会使用内存中的一个队列,甚至是优先级队列来存储。 保存已经抓取过的 数据结构,防止重新抓取模块。待抓取的 页面获取模块。 当爬虫程序从种子 列或从抓取出来的 列中获得 要根据这个 取方法即普通的 I/这个模块中,仅仅是把 指的内容按照二进制的格式读出来,而不对内容做任何处理。 第二章 相关 理论及技术 10 提取已经获取的页面内容中的有效信息模块。通常网页中除了包含文本内容外,还有超级链接、图片等。对于文本内容,首先把 件 。至于超链接的提取,可以根据 法,使用正规表达式提取,也可使用专门的 负责连接前处理模块,负责连接后处理模块,过滤器模块。如果只是抓取某个网站的页面,则可以对 多线程模块。爬虫程序主要消耗网络带宽、中央处理器和磁 盘三种资源。三者之间任何一种都有可能成为制约网络爬虫的瓶颈,为了增强爬虫程序的效率,最直接的方法就是使用多线程方式进行处理。在爬虫系统中,将要处理的个线程顺序地从队列中取得 常,可以利用线程池来管理线程。 分布式爬虫架构 分布式爬虫就是把抓取任务分布到不同的节点,其主要目的就是为了增强爬虫程序的 可扩展性 15。也可以使用物理分布的爬虫系统,让每个爬虫节点抓取靠近它的网站。 图 2 w e 网 页D N 页 面内 容 是 否重 复 ?文 档U R L 过 滤 按 域 名 分 割 U R L 去 重U R L F r o n t i e 于 其 他 节 点发 送 到 其 他 节 点图 2布式爬虫结构图 分布式爬虫的特点在于按域名分配搜索采集任务,分布式系统中的每台机第二章 相关 理论及技术 11 器都有各自的所辖任务,如果收到不属于自己所辖的采集任务后会转交给其他的机器。 垂直爬虫架构 垂直爬虫往往抓取指定网站的新闻或论坛信息。可以指定初始抓取的首页或者列表页,然后提取相关的详细页中的有效信息存入数据库,垂直爬虫设计到的功能有首页提取、网页分类、列表页链接提取和详细页面内容提取 18。总体结构如图 2 初 始 抓 取 的 列 表 页 数 据 表结 果 数 据 表分 析 列 表 页 解 析 详 细 页新 解 析 出 的 详 细 页新 解 析 出 的 列 表 页图 2直 爬虫结构图 第三节 理 搜索引擎的灵魂是索引,索引是文档的最佳组织方式。搜索的过程就是对索引库进行折半查找。本文使用动态链接库 管理搜索引擎索引库 。一个采用 C#开发的开放源代码的全文索引库。 引库中存放的是文档,所谓文档即信息的组织结构。索引库按关键词给这些文档建立索引,使用关键词搜索查询,以文档的形式返回查询结果。 工作原理如图 2 第二章 相关 理论及技术 12 A d d D o c u m e n t ( )匹 配 到 的 文 档L u c e n e . N e t 索 引 库I n d e x W r i t e rQ u e r y t i t l eI n d e x S e a r c h e 工作原理图 待检索和索引的文档进行分词处理,然后对经过分词处理的文本建立索引,目的是为以后的检索过程提供快速 准确 的检索索引结构。下面 将逐一介绍。 引文档 搜索引擎的基础在于对全文索引库的管理,在 ,通过体代码实现如下: ”c:; /指定索引文件存放路径 /建立一个处理文本的分析器 第二章 相关 理论及技术 13 (); /创建一个文档,并添加一列 ”,; /把文档写入索引库 /关闭写入器 ; 下面我们介绍代码中的相关概念, 是索引库,在 通过 索引,通过 取索引, 作用是打开索引。 是一个抽象类,定义了分析文本的接口。不同的语 言可以使用不同的分析器子类 。 来处理英文。 表索引库中的记录,待搜索的信息被封装成 入索引库。 入文档 搜 索 文 档 首 先 通 过 入 索 引 , 然 找 入 的 索 引 。 法中指 定返回多少条结果,象。 把搜索过程定义在一个方法中,结合代码来看,搜索的过程主要分为以下几个步骤: ”D: 第二章 相关 理论及技术 14 /假定待读入的索引文件在 D: ; /打开索引文件,并读入相关信息 /执行该语句后,索引文件的相关信息将放入 “ /执行该语句后,索引文件的相关信息将放入 0); 返回结果总数 ” ,+ i = 0; i ”); ”); ; 索技术作为一个开源的项目,自从它诞生以来, 乎已经成为全文搜索的同义词,随着 发平台越来越强大,作为 台的移植版本, 日益流起来。开发人员 可以用它构建具体的全文搜第二章 相关 理论及技术 15 索的应用,而且 还 可以将 成到各种系统软件中去,甚至 一些 商业软件也采用了 术作为其全文搜索的核心。 其开源的特征、 健壮的系统架 构和良好 的索引结构获得了 广泛 的应用 。 第三章 系统总体设计 16 第 三 章 系统总体设计 第一节 需求分析 通过调研发现 , 搜索引擎是人们在浩瀚的 互联网 信息海洋中获取知识与信息的主要方式, 近些年 来 搜索引擎的各种相关技术都有了较大的进步,并且相继出现了像 优秀的搜索引擎,搜索引擎已经成为通过互联网查找所需信息的必不可少的检索工具。但随着信息的指数式增长, 如何从海量信息中精简地提取出我们想要的信息已经成为搜索引擎面临的主要问题之一。 针对 以上 情况 分析 ,本文利用开源的搜索工具包, 设计实现 基于 直搜索引擎系统 , 系统功 能需求主要有 : 前台 : 友好的 搜索界面。 搜索结果必须包含真实的链接 内容 。 过滤搜索结果 。 合理的信息 呈现,用户可以快速地看到 自己想要搜索的结果信息 的名称、发布日期、摘要等信息。 后台 : 应用爬虫原理抓取信息实现互联网信息的搜集。 创建索引库,并为 正在创建索引的文件 提供 一个稳定的存储环境。 对索引结果进行分类统计。 建立系统维护功能,以方 便 对系统进行维护 第 二 节 系统 设计目标及原则 目前 搜索引擎存在 着 不能 很好的 理解自然语言的语义 、充分理解用户 的搜索请求等问题。用户浏览搜索结果时往往只是浏览搜索结果排在前面的几页内容 。 如何按照用户的搜索意图精简搜索结果,节约用户的浏览时间 已经 成为现代搜索引擎面临的主要问题之一。 第三章 系统总体设计 17 本 系统 主要针对互联网 现有搜索引擎搜索结果信息量较大,针对性不强等问题 进行研究设计 , 通过 发 索引擎程序,并在 面中调用搜索引擎程序, 然 后通过架设 行实现系统功能。 系统功能包括:前台搜索页面接收用户查询关键字、 系统初步识别关键字敏感性、 查找索引库并将查询结果返回前台界面、 文档索引管理功能、搜索 结果分类统计功能等,力争 设计一个 简单易用 、 搜索针对性强、 安全性高、 开源的 台。 具体表现在 : (1) 设计 一个 基于 索引擎系统 ,力争系统 运行稳定 、 搜索结果针对性较强 、 可拓展性良好 。 (2) 搜索引擎 系统 准确性较高,数据分类精准,不能包含重复冗余信息 。比如,用户输入的关键字经系统判定是学习相关的,那么搜索引擎系统就可以通过搜索结果筛查去除商业类等和学习内容不相关的信息。 (3) 系统人性化设计,友好的人机交互界面,简单易用。 为用户输入的关键词敏感性提供判断。 例如 ,如果 用户输入的 搜索 关键 字时间等敏感字段 ,说明用户需要查询的信息 内容 应该是最新的, 那么 搜索引擎返回结果 的时候就可以按照时间排序 , 信息内容越新搜索结果排名 就 应 越靠前。 (4) 搜索引擎系统的实现过程具有复杂性,在今后的运行实践中难免会出现一些漏洞或不完善的地方,因此这就要求本文开发的搜索引擎 系统可扩展性要 强, 即在今后的运行实践中各个功能模块容 易二次开发,便于后续研究 工作对系统进行 完善。 第 三 节 系统 整体结构和部署关系 统整体结构 本文设计的基于 直搜索引擎系统功能包括各种格式文档索引功能、实现中 文分词、全文搜索引擎查询、搜索结果分类统计与导航等,系统整体结构如图 3示。 第三章 系统总体设计 18 基 于 . N E T 的 w e b 垂 直 搜 索 引 擎 系 统中 文 分 词文 档 索 引 管 理引 擎 代 理搜 索 结 果 分 类 统 计关键词切分倒排索引索引切词索引存储用户数据处理检索数据处理关键词查询结果集排序图 3统功能模块图 各子系统的功能相对独立,但它们之间又存在紧密的联系。 搜索 子系统负责尽可能多 的 收集 互联网 上的信息 资源 ,这个子系统可以独立运行。 中文分词子系统利用 搜索 子系统获得 的信息内容通过关键词切分和索引切分建立索引库。 同样该子系统也 可以 独立运行。 文档 索引子系统 的功能是 将构建好的本体库转换为多层倒排索引。索引子系统 主要负责 处理用户查询, 并 对用户输入的关键词 进行 分析 处理,然后在多层倒排索引上进行查询。 索引子系统 独立运行的目的是为了 实现分布式处理,特别是当多层倒排索引规模比较大 时 ,可以将索引程序 放置在专门的 容量较大的 内存服务器 上 。 搜索结果分类 子系统 通过对搜索结果的排序使得 搜索引擎系统准确性较高,数据分类 更加 精准 ,当用 户 输入 搜索 关键 字 时,用户接口系统 就会 将查询关键 字 发送到检索子系统,检索子系统 对搜索结果分类排序后 返回相应的查询结果 。 统部署关系 本文开发的 基于 基于 浏览器端 服务第三章 系统总体设计 19 器模式 的 B/系统 的部署关系 如图 3 维 护 工 具 查 询 工 具接 口 层搜 索 服 务数 据 库图 3统部署关系图 其中, 系统的 搜索服务部署在服务器 上 ,接口层则部署在 浏览器 端,通过网络 协议进行 数据通信 ,查询 页面和维护工具 则通过 接口 调用 搜索服务 来实现查询 和搜索管理 的功能。 第 四 节 数据 库设计 搜索引擎 系统 通过对所 搜 集的网页 信息 进行标引, 然后 从中抽取出索引项,从而 形成索引数据库。索引项分为内容索引项 和 一般索引项 ,其中内容索引项反映了文档内容,包含关键词 、短语 及其权重等 。 一般索引项与文档的内容无关, 只是表述一些客观的属性 。 本系统采用 008 作为数据库开发环境。数据库用来存储索引库和搜索引擎返回结果等。 在系统中,关于数据库的设计,主要 是三个 表 的设计,第三章 系统总体设计 20 即 文献表 、 支撑表 和 监控表。文献表 用来 存储文献资料, 它 主要 负责 记录文献资料的相关数据,包括文献的类型、所属分类 、名称、内容 等。支撑表用来存储用户信息及文献表相关元数据,包括文献库信息表、文献库列信息表、 文献库存储信息表、 文献库分类信息表、 文献库用户权限表 和文献库用户表 。 监控表则是 用来记录监控文件信息。 文献表是在 搜索引擎 系统运行过程中由用户创建的,除了记录文献名称、类型 、内容 和 分类的字段外
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 配件合同协议完整版
- 进口冲洗地车销售合同协议
- 水泵电机协议书
- 湖南少干协议书
- 车缝设备合同补充协议
- 买卖赊账协议书
- 服务注册协议书
- 转让篮球俱乐部合同协议
- 水电专利协议书
- 浴场管理协议书
- 2025-2030有机肥料产业市场深度调研及发展趋势与投资前景研究报告
- 2025-2030创新药CRO行业竞争态势及未来投资趋势预测研究报告
- 2025年人教版小学五年级下册奥林匹克数学竞赛测试卷(附参考答案)
- 北京市通州区马驹桥镇招考笔试真题2024
- 2024年高考数学真题(北京卷)试题试卷原卷答案解析
- 2025年安全生产月主题培训课件:如何查找身边安全隐患
- 2025年高考历史答题技巧与答题模板专题08影响、作用类(答题模版)(学生版+解析)
- 韵达加盟合同协议
- 职代会知识培训课件
- 2025-2030中国药物递送系统行业市场深度分析及发展前景与投资研究报告
- 泰康集团入职测评题库及答案
评论
0/150
提交评论