




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘 要由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并实现了一个面向教育主题的垂直搜索引擎系统,着重研究了专业网络蜘蛛定制,基于VSM的主题相关度算法和倒排索引建立等关键技术及其实现细节。实验结果表明,该系统能够快速地响应用户的查询请求,并且返回结果具有较高的准确性。实现了教育资源的共享,具有较高的应用价值。关键词:垂直搜索引擎 ;主题网络蜘蛛;主题相关度Abstract The general search engine has some disadvantages, such as the amount of inf
2、ormation is too large, the searchresults are not accurate enough, and the search deepness is insufficient enough. Based on the general search engine technology and according to the search strategies of expertise field, this paper designs and realizes a vertical search engine system for education the
3、me.We focus on researching and realizing some key techniques about the professionalcustomization of web spider, the algorithm for the degree of subject relativity based on VSM, and the establishment ofinverted index. The experimental results show that, this system can quickly respond to the users qu
4、eries, and the results can return with a high accuracy. The system realizes the sharing of educational resources, which has a high application value.Key words:vertical search engine; topic web spider; subject relativityI目录摘 要IAbstractI第一章 绪论11.1国内外的研究现状11.2研究意义21.3论文结构2第二章 搜索引擎及垂直搜索引擎相关介绍22.1搜索引擎的概念
5、22.2搜索引擎的局限性22.3垂直搜索引擎的概念32.4垂直搜索引擎与搜索引擎的比较及其优点4第三章 基于教育主题的垂直搜索引擎研究与分析43.1教育主题垂直搜索引擎的体系结构设计43.1.1教育主题信息采集与主题识别模块53.1.2 信息抽取与索引模块53.1.3 用户接口与信息检索模块963.2 面向主题的垂直搜索引擎关键技术63.2.1面向教育主题的网络蜘蛛设计63.2.2基于Lucene索引的创建73.2.3 检索与用户接口模块8第四章 总结8参考文献9II基于教育主题的垂直搜索引擎研究与分析第一章 绪论1.1国内外的研究现状随着人们对网络信息需求的不断增加,产生了基于网络的搜索引擎
6、,这成为了人们查找并获取信息的重要手段。经过近年的发展,搜索引擎技术取得了极大进展,它建立了快速地从海量的互联网信息里定位和检索的途径,成为当代人日常生活和工作越来越不能缺少的重要工具。但是,用户的个性化需求、信息多元化的发展等一系列因素的产生,使部分用户对引擎有了更深入、快速、及时等查询。通用搜索引擎可以保证查全率,但是对某具体领域而言,无法为用户提供比较精准的信息。因此,人们迫切希望可以有一种信息分类清晰、准确、全面、更新及时的专业搜索引擎来获取网络资源信息,而垂直搜索引擎迎合了这一需求1。垂直搜索引擎提供的服务是通用搜索引擎所不能给予的。主题的垂直搜索引擎针对的领域也不一样。面向具体的某
7、一特定领域的垂直搜索引擎能够为这一领域的用户提供更加一专业、更加精确、更加细化的服务。现今,这种而向某一主题的搜索引擎越来越受到人们的关注,在国内外的市场上已经涌现出了很多样的产品,这些垂直搜索引擎包含了各个领域,如教育、社会问题、影视资讯、旅行、房产交易等等,几乎各个领域都发展出了自己的垂直搜索引擎,如Elsevier 科学出版社开发的 SCIRUS 系统,是目前因特网上最全面、综合性最强的科技文献专业网站之一,FocusedProjec 系统等。我国的垂直搜索引擎市场还处于起步阶段,垂直搜索引擎自身的技术发展还不成熟,同时用户对于垂直搜索引擎的认知还非常欠缺。但是在这样的环境下,还是涌现出
8、了一批具有代表性的垂直搜索引擎网站:搜房网,是专注于房产行业的搜索;酷讯,是一款以即讨的生活信息为检索对象的垂直搜索引擎;职友集,是针对职业搜索,除此之外,还有摩狗汽车,络龙医搜、奇虎等等。由此可见,这种而向具体某一主题、专业化的搜索引擎已经成为了现在的流行热点2。1.2研究意义针对某些领域特殊人群的特定需求,出现了垂直搜索引擎,它的出现,在快捷、专业、精准方面给人们提供了更好的检索服务。当人们根据需要,给出关键词和例文,垂直搜索引擎可以在此基础上自动查找类似内容,提高了专题相关内容的覆盖率。当主题搜索引擎集中某一特点领域时,可自动排除无关的干扰信息,提高准确率的同时也保证了信息的详细收录和刷
9、新3。1.3 论文结构 本文共分为四章。第一章阐述了教育主题垂直搜索引擎的研究背景、研究意义、国内外的研究现状。第二章分析了搜索引擎与垂直搜索引擎的概念,它们之间的区别及相关知识。 第三章主要分析了教育主题垂直搜索引擎的体系结构和关键技术,阐述了 Lucene 的相关技术研究。 第四章对本文进行了总结。第二章 搜索引擎及垂直搜索引擎相关介绍2 .1搜索引擎的概念搜索引擎是一种从互联网上获取、分析与处理信息并返回结果的系统。对文本的查询和索引是搜索引擎的核心技术,它处理的是文本类信息,承续了信息检索技术,它的前身是全文的信息检索与网络软件,后来逐步发展为现在的搜索引擎。它本质上是一个提供信息检索
10、服务的 Web 服务器,声音、新闻组、图片、Web 网页、Web 网站都是它可以用来检索的资源,网页网址、网页内容摘要和网页的标题是它提供的主要信息4。搜索引擎是一种计算机程序,它搜集并处理和组织网络上的信息,然后给用户提供运算后的信息,是提供检索服务给用户的系统。2.2搜索引擎的局限性(1)在信息搜集和检索的过程中缺乏同步性。在网络上搜索信息时,专业的爬虫程序遍历互联网搜集的网页索引信息是搜索引擎的主要依据,但是,爬虫程序完成这项工作需要大量的处理时间,同时,它也不能随时随地遍历网络,而网络上的一些动态的内容越来越多, 如新闻、股票等信息,而且变化较快。它的用户查询和源信息是完全分开的,因此
11、,它的信息采集是在确定的时间段内定期进行的。这样的信息采集方式,决定了无法保证信息的及时更新。(2)信息检索的方式存在单一性。通用的搜索引擎存在查全率较低、容易漏掉信息的问题。它只是提供分类浏览的查询检索和基于关键词的全文检索方式,因此,所得到的结果中往往含有很多无关的网页,也就导致了查准率的下降。(3)信息检索的内容存在单一性。现有的搜索引擎忽视了用户之间的差异性,也就是说,只要输入搜索的关键词汇相同,得到的搜索结果就会相同,这一点对所有的用户都是一样的。但是在现实中,用户的需求往往是不同的。(4)信息的服务方式存在被动性。少数对搜索引擎系统了解的用户,可以使用好的关键词来构造查询,可以获得
12、高质量的查询结果。但是,对于绝大多数人来说,想要准确表述自己对信息资源的需求是很难的,同时,也不知道准确有效查找的方式,这种现象就是人们常说的信息迷失5。2.3垂直搜索引擎的概念垂直搜索引擎是一种专业的搜索引擎,它是针对某个特定的人群、领域或需求提供的有一定价值的信息,是对中某个主题的信息进行爬行、索引并整合,定向分字段抽取出需要的数据进行处理后再以某种满足用户个性化需求的形式返回给用户6。垂直搜索引擎是对通用搜索引擎的延伸和细化,二者在基本原理和工作过程等方面基本相同,相对于传统的通用搜索引擎,垂直搜索引擎是对某一类网络信息深化和整合。2.4垂直搜索引擎与搜索引擎的比较及其优点表一:垂直搜索
13、引擎与搜索引擎的比较目前,垂直搜索引擎已然成为搜索引擎技术的主要发展方向,它的优点主要有以下几点:(1)采集的信息比较集中,关注某一个或几个学科领域,可以采用多种方法对信息进行组织整理。(2)信息量小,节省存储和索引存储空间。(3)一词或一字多义现象的可能性降低,利用专业词表可以对词汇进行规范和控制,减少歧义。(4)查询响应时间短,可以采用复杂的查询方法提高精度7。第三章 基于教育主题的垂直搜索引擎研究与分析3.1教育主题垂直搜索引擎的体系结构设计面向教育主题的垂直搜索引擎系统主要包含信息采集模块与主题识别模块,信息抽取与索引模块,用户接口与信息检索模块三部分,总体结构设计如图1所示:83.1
14、.1教育主题信息采集与主题识别模块在信息采集模块中,运用面向教育主题的网络蜘蛛对教育主题相关信息进行抓取,这是搜索引擎的第一个步骤,从某一个具有主题意义的种子URL开始,按照深度优先算法,采用多线程并行抓取方式自动在互联网上搜索爬行,遍历教育领域的门户网站,抓取与教育主题相关的网页,采集网页信息,抽取并压缩网页内容存入原始数据库中,然后跳转到网页中链接指向的其他网页,直至遍历整个网络。在此过程中,运用主题识别算法对网络蜘蛛所采集的页面进行主题相关性判断,根据计算得到的相关度结果,对采集到的网页进行取舍,将相关度大于预先设定的阈值的网页保存到面向主题网页数据库中,舍弃与主题不相关的网页,这垂直搜
15、索引擎的核心部分,可以控制信息采集的规模,保证采集到的信息的专业性,提高搜索的准确性。3.1.2 信息抽取与索引模块信息抽取与索引模块对存储于面向主题数据库中的大量结构和非结构化的数据进行抽取,将网页主题块中特定的结构化信息抽取出来!并进行过滤、分词等预处理操作,构造索引,计算词的权值按检索结果合理排序,并存入索引数据库中。3.1.3 用户接口与信息检索模块9用户接口与信息检索模块是接受用户输入查询请求并将查询结果反馈给用户的接口界面,模块首先对用户输入的搜索关键字,排序方式进行分词等信息分析处理,然后在索引数据库中查找到包含搜索关键词的文本记录,并根据相关度评价和用户需要将记录排序,最后以超
16、级链接的形式将提取网页的摘要信息反馈给用户。3.2 面向主题的垂直搜索引擎关键技术3.2.1面向教育主题的网络蜘蛛设计面向教育主题网络蜘蛛系统模型主要由信息采集模块,页面解析与过滤模块,主题相关性计算器,链接剪枝控制器4部分构成。页面采集模块主要负责从初始URL队列出发,通过HTTP协议请求并下载web页面,采集URL指向的页面信息,送入页面解析与过滤模块中。本文采用了多线程并发技术,大大提高了页面采集效率,页面解析与过滤对下载到原始数据库中的页面信息进行消重处理,解析web页面,提取例如链接文本,结构信息,链接URL地址等数据。主题相关性计算器主要是对网址解析与过滤模块中提取的网页内容文本进
17、行主题相关性判定,将主题相关度大于预先设定阈值的网页保存在面向主题数据库中,过滤掉与主题相关度较低或不相关的页面,从而保证网络所采集页面的主题的相关性与专业性,链接剪枝控制器的任务是从与经过过面向主题数据库相关结果集检索与用户接口模块查询结果分析网页搜索查询结果显示信息抽取与索引模块网页结构化信息抽取建立倒排索引信息采集与主题识别模块主题采集Web信息提取页面分析与过滤URL与主题相关性计算web索引数据库,过滤后得到的主题相关的页面中抽取出链接URL,并采用主题相关计算方法对URL进行筛选,将有价值的URL暂存在待搜索URL队列中,按照主题相关度大小进行排序,相关度越高的越先被访问。 面向教
18、育主题的网络蜘蛛工作流程如图2所示:103.2.2基于Lucene索引的创建垂直搜索引擎在同一时间会接受大量的用户的查询请求,这就要求索引模块完成大量的运算操作,以提高检索模块的工作效率。Lucene是用JAVA实现的开放源代码的全文检索引擎工具包,是一个高性能、可伸缩的信息搜索库,本文正是基于Lucene技术建立索引,其工作方式如图3所示:11索引网页库存储链接与其指向网页的映射,文本解析器用来分析和处理不同格式的文档,提取正文信息,过滤垃圾信息,中文分词切分索引项等操作,形成统一格式的文档,存储于文本中间格式数据库中,由于中文构词方式的差异,需要对中文网页进行分词,以便建立索引文件。本文采
19、用双向哈希索引词典,对数据库中中文网页进行分词处理,文本中间格式数据库存储经文本解析器提取、过滤、分词等操作的数据,数据格式为纯文本格式,为索引器提供可分析数据,索引器是垂直搜索引擎中用来分析处理文本中间格式数据库中的非结构化文档信息,建立索引的程序,主要任务是按照预设的索引项建立索引列表,更改索引字典,文本索引库中存储以索引形式组织存放的文档信息数据文件,一般的数据库系统不能同时满足大量用户的查询请求,所以在本系统中采用了倒排索引技术,创建倒排索引包括建立正向索引,创建反向索引,归并索引等操作,将存放词和编码意义映射关系存储于索引字典中。3.2.3 检索与用户接口模块面向教育主题的垂直搜索引
20、擎通过检索模块实现与用户的交互,系统对通过接口输入的查询短语进行分词等操作,将它传送至检索器,检索器根据查询项在索引文件上查找,按照与查询项相关程度排序,并将结果通过用户接口呈献给用户,其主要流程如下:(1)通过用户接口接受用户的查询项,并对其进行分析分词等处理。(2)搜素包含关键词的网页,过滤掉与查询项不相关的网页。(3)按照与查询项相关度大小对匹配的网页排序,以链接形式呈现给用户12。第四章 总结本文详细描述了面向教育主题的垂直搜索引擎系统的总体设计,从教育领域信息搜索的实际出发,着重研究了主题网络蜘蛛、倒排索引建立等关键技术,并给出了具体的实现细节!在此基础上,开发了一个面向教育主题的垂
21、直搜索引擎,该系统能够有效地采集分散的教育主题相关网页,形成面向教育主题网页数据库,快速地响应用户的查询请求,准确地返回相关度较高的网页,实现了教育资源的共享,具有较高的社会价值。参考文献1XuePing.The Research and Implementation of Vertieal Seareh Engine Based on the Edueational Field,2011.2WEI Renjia, WU Zhenqiang. Design and implementation of vertical search engine for education video resources.Computer Engineering
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 理解C语言的可维护性与扩展性试题及答案
- 2025年医药电商平台药品化妆品合规性分析报告
- 毕节市威宁县2024年九年级《道德》上册期末试题与参考答案
- 旅游产业链工作汇报
- 港口人才培养与标准化管理体系建设
- 2025年绿色建筑材料市场推广与政策支持政策对绿色建筑市场潜力研究报告
- 跨境贸易公司运营管理方案
- 2025年老年教育课程设置与多元化教学模式创新研究报告
- 文化产业园公共服务平台建设中的文化产业人才培养计划
- 动漫周边商品创意市集企业制定与实施新质生产力项目商业计划书
- 女性生殖系统的解剖与生理练习试卷1(题后含答案及解析)
- 铝合金技术知识培训课件
- 2025年数字广西集团有限公司招聘笔试参考题库含答案解析
- 2024版非ST段抬高型急性冠脉综合征诊断和治疗指南解读
- 快手信息流广告优化师(初级)认证考试题库(附答案)
- 2023-2024年外卖骑手行业现状及发展趋势研究报告
- 染料敏化太阳能电池材料课件
- 建工集团全资子公司负责人年度经营业绩考核办法
- 2025年湖北省武汉市高考数学模拟试卷(附答案解析)
- 融汇画方网络准入设备技术白皮书
- 道口抓拍系统施工方案
评论
0/150
提交评论