

已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
厦门大学软件学院毕业设计(论文)开题报告学生姓名 班级 学号0 指导教师姓 名 职称 所在单位厦门大学软件学院毕业设计(论文)题 目基于nutch+lucene搜索引擎的搭建 -搜索引擎技术的相关设计与分析毕业设计(论文)的目标:一毕业设计的整体目标1通过研读nutch的流程代码,了解搜索引擎的基本工作原理。2熟悉掌握现在比较流行的WEB开发技术,以及搜索引擎的设计流程。3开发一个具有基本搜索功能的搜索引擎。二搜索引擎-搜索引擎技术的相关设计与分析1在Nutch的基础上构建网站搜索引擎2索引模块的相关设计3搜索结果显示的实现4Nutch的Web前端美化:加入Ajax技术丰富用户体验,搜索部分模块的界面设计实现方法:一 基本环境开发工具:Eclipse 3.2;Cygwin;Tomcat 5.5;开发语言:JAVA JDK 1.5开发平台:Windows XP 二模块划分1 搜索显示界面设计模块 设计一个基于WEB的搜索显示界面 2 索引设计模块通过对爬虫从网页上爬去下来的内容和标题进行索引3 搜索显示实现模块爬虫通过访问网页连接数据库里的网址链接,实现文本和网页内链接的内容抓取,并把结果按与关键字相关的网页显示4 更新网页链接数据库模块把网页内链接的网址添加入网页链接数据库5 Nutch的Web前端美化模块采用ajax技术方便用户更快速方便的查询和搜索三模块关系框图如下前台搜索界面显示模块后台索引设计模块数据库访问模块搜索结果显示实现模块Nutch的Web前端美化模块搜索界面获取网页内容建立相应的索引库获取关键字分析并显示结果加入Ajax技术丰富界面系统流程图: 前台后台五界面模块设计1采用轻量级GUI组件,如Swing、SWT等进行界面设计,尽量消除用户界面在不同浏览器(IE,Firefox,Safari,Opera)下的平台显示的一致性。2使用Ajax技术,提高用户体验度,使用户能够更快速地搜索到所需要的东西。六基于nutch+lucene搜索引擎的搭建1. Lucene简介Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个用java写的开放源代码的全文检索引擎工具包。它不是一个完整的全文检索引擎,二十一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎及部分文本分析引擎。2. Nutch Nutch是一个开源的Java实现的搜索引擎。是以Lucene为基础实现的搜索引擎应用程序。Lucene为Nutch提供了文本索引和查询服务的API,而Nutch在Lucene的基础上实现了网页收集。其工作流程如下图所见:3. 爬虫(1)网络爬虫:网络爬虫是一个自动提取网页的程序 ,它为搜索引擎从Web上下载网页 ,是搜索引擎的重要组成部分。通用网络爬虫从一个或若干初始网页的URL开始 ,获得初始网页上的 URL列表;在抓取网页的过程中 ,不断从当前页面上抽取新的URL放入待爬行队列 ,直到满足系统的停止条件。(2)主题网络爬虫:主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接 ,保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一步要抓取的网页 URL,并重复上述过程 ,直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储 ,进行一定的分析、过滤 ,并建立索引,对于主题网络爬虫来说 ,这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。七开发前的准备 配置好所有的需要的开发工具以及所需要的开发平台,通过研读nutch的基本流程代码,了解搜索引擎的基本原理;掌握Map-Reduce体系结构;学习AJAX技术。时间进度安排:2008年2月25日-2008年3月15日 查阅相关文献资料,确定功能模块的划分。2008年3月16日-2008年3月31日 征求导师意见后进一步改进,整理提交毕业设计开题报告。2008年4月1日-2008年4月30日 对必要技术及工具进一步了解学习,完成后台代码的编写。2008年5月1日-2008年5月10日 完成前台界面的代码的编写从而基本完成项目的主体开发。2008年5月11日-2008年5月20日 单元测试,完善项目功能。2008年5月21日-2008年5月26日完成所有文档的编写,进行系统测试。2008年5月27日-2008年6月2 日 项目文档终稿完成,提交毕业论文,准备毕业答辩。指导教师审核意见: 校内指导教师签名: 2008年 月 日毕业论文任务书题 目: 基于nutch+lucene搜索引擎的搭建 -搜索引擎技术的相关设计与分析目标要求:1在Nutch的基础上构建网站搜索引擎2索引模块的相关设计3搜索结果显示的实现4Nutch的Web前端美化:加入Ajax技术丰富用户体验,搜索部分模块的界面设计支持条件:操作系统:Windows XP开发工具:Eclipse3.2,Cygwin,Tomcat5.5开发语言:Java JDK 1.5校内指导教师(签名) 职称 学生(签名) 分阶段进度安排阶段起讫时间计划完成内容12008年2月18日-3月31日阅读文献资料,理解任务,完成开题报告22008年4月1日- 4月30日对必要技术及工具进一步学习,完成后台代码编写32008年 5月1日- 5月10日完成前台代码编写,并基本完成项目的主体开发42008年 5月11日- 5月20日进行系统测试,并完成论文初稿52008年 5月21日- 6月2日论文定稿,封装并提交教师分阶段指导记录第一阶段:指导完成论文题目的选定,并提供给相应的课题材料用于参考与分析,并明确参考文献的查找范围。第二阶段:讨论并确定详细的需求分析,撰写需求分析文档,指导学生熟悉开发环境与开发语言,搭建系统框架。 第三阶段:指导系统分阶段的进行开发,并提交分阶段成果,对疑难问题进行与会讨论并解决。第四阶段: 督促学生编码,解决系统联调及其可能出现的问题,并对系统做全面深入的测试。第五阶段:指导论文的撰写,修订论文,指导答辩工作。论文评语拟评成绩
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小白兔过河题目及答案
- 2025高考英语试题分类汇编:词类、短语辨析含解析
- 2025长期合作协议范本
- 2025授权贷款合同代理书模板
- 2025年建筑架子工(普通架子工)测试题(含答案)
- 物态变化实验试题及答案
- 2025项目部合同管理规程
- 2025年3月药学练习题库(含答案)
- 2025年国家特种设备安全管理人员A证考试题库(含答案)
- 2025养殖场租赁合同协议书
- 2024年7月廉洁警示教育
- 中国诗词文化概论课件
- 黑水虻养殖生产建设项目可行性研究报告
- 第46届世界技能大赛贵州省选拔赛美容技术文件
- 北京利达主机JB-QB-LD128E(Q)
- 股份制公司章程样本
- 火灾救援中的心理辅导与应对策略
- 2025-2030年中国石灰行业运营动态及发展策略分析报告
- 2024年中级会计师《中级会计实务》《财务管理》《经济法》真题及答案解析【完整版】
- 配电网运维知识培训课件
- 普通高中生物学课程标准-(2024修订版)
评论
0/150
提交评论