




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
毕业设计(论文)开 题 报 告 题 目 类gmail中信息推送网络爬虫技术研究指导教师 周建东 院 别 工学院 班 级 计082本 学 号 08104010217 姓 名 濮建华 一、选题的意义随着 interact 技术的快速发展以及网络的日益普及,网络资源已经成为人们获取信息的主要渠道之一。互联网的高速发展,每天都有上千万张网页出现,而如今,全球的网站数量更是突破5亿大关。要在如此巨量的信息资源中查找信息几乎是不可能的。为了解决这一问题,搜索引擎诞生了。经过几十年的研究发展,搜索引擎已经成为人们上网的必备工具。它们能够快速、方便的为用户查找所需的信息,它们也是人们开启互联网大门的一把金钥匙。搜索引擎也分多种搜索引擎,如baidu、google属于全文搜索引擎,它们是通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,是最通用的搜索引擎;yahoo、网易属于目录索引类搜索引擎,是按目录分类的网站链接列表;infospace、搜星属于元搜索引擎,它们是在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。而搜索引擎的核心就要属网络爬虫了,它是一个自动搜索网络资源的应用程序,能够在互联网上的各个服务器中进行爬行,并下载相关的资源。将网络爬虫应用于oa系统上,能够方便用户迅速掌握到相关的信息。而不用需要再打开百度或google进行搜索了。二、研究的主要内容,拟解决的主要问题(阐述的主要观点)本课题研究的主要内容是实现类似gmail中的信息推送,并在网络中进行搜索的网络爬虫技术研究。主要内容即为1.了解网络爬虫的工作原理和结构,分析网络爬虫在抓取网页时的过程。2.对比网络爬虫的各种抓取策略,并分析各种策略之间的优缺点,选择适当的策略作为该课题的网络爬虫策略。3.参考及研究合适的网络爬虫控件,分析其原理,在选定的开发工具上实现其的爬行。4. 将成型的网络爬虫与jquery ajax结合,实现其功能后应用于oa系统上。拟解决的主要问题是:1网络爬虫是怎么工作的,即网络爬虫是怎么在网络上进行爬行搜索,并将爬行到的网页,返回给服务器的。2.怎么将网络爬虫抓取到的数据进行处理,剔除那些垃圾信息。3怎么将网络爬虫与jquery ajax结合,并应用于oa系统之上。三、研究(工作)步骤、方法及措施(思路)1.研究步骤:第一阶段(2011.11.07-2011.11.24):分析课题内容,掌握相关理论基础,熟悉开发工具,撰写开题报告。第二阶段(2011.11.25-2011.12.25):对该系统进行需求分析,撰写需求文档,构建静态页面,设计数据库,收集相关资料,撰写外文翻译和文献综述。第三阶段(2011.11.26-2012.02.20):编写源代码,实现具体功能。第四阶段(2012.02.21-2012.03.01):对系统进行全面的测试,精简代码,从各个方面完善系统,对界面的美观进行设计。第五阶段(2012.03.02-2012.03.11):撰写毕业设计论文,准备毕业设计的答辩。2.研究思路以理论为指导,实际开发为指引,按照软件开发规范,结合spring、struts 2、jquery、ajax等技术系统规划,利用powerdesigner设计数据库,统一代码规范,与其他相关的系统进行比较,通过测试对系统进行修改和完善,体会j2ee的系统开发优势。四、毕业论文(设计)提纲第一章是绪论,主要介绍网络爬虫的背景,发展历史以及简述网络爬虫的研究现状,通过对现有的搜索引擎网站的分析,发现其中的不足点和待完善的地方。 第二章是具体分析网络爬虫的研究现状,主要包括网络爬虫的分类,具体功能,以及各种网络爬虫之间的对比和各种网络爬虫的搜索策略的分析。第三章是企联oa系统的需求分析,主要对该系统中网络爬虫模块的功能需求做详细的分析设计,确定自己应该开发哪一种网络爬虫。第四章是企联oa系统的数据库设计,分析网络爬虫模块的数据库以及其数据流程图,分析表的各字段并完成数据库的设计。第五章是企联oa系统的总体设计,详细介绍网络爬虫模块的具体实现及界面设计,并对一些关键性的代码给出相应的解析。第六章是总结,介绍在本次开发过程中所得的经验、感想最后是参考文献和致谢,介绍在论文和设计过程中所参考的资料,以及对导师、同学表示感谢。五、主要参考文献1 罗刚,王振东,自己动手写网络爬虫m,北京:清华大学出版社,2010.10.2 王亮, 搜索引擎零距离:基于ruby+java搜索引擎原理与实现m, 清华大学出版社,2009.06.3 袁津生,李群主,搜索引擎基础教程m,清华大学出版社,2010.4 郭邦财, 蜜蜂群并行网页抓取系统, 软件导刊j,2011年 01期5 詹恒飞,杨岳湘,方宏, nutch分布式网络爬虫研究与优化j, 计算机科学与探索, 2011年 01期6 管翠花,支持ajax技术的deep web网络爬虫模型研究d,大连海事大学,2011-08-017 冯明远,深度网络信息爬取关键技术研究与实现d,浙江大学,2010.04.128 梁萍,搜索引擎中网络爬虫及结果聚类的研究与实现d,中国科学技术大学,2011-08-159 龚秋艳,并行网络爬虫设计与实现d, 华东师范大学,2010-10-1510 于成龙,于洪波, 网络爬虫技术研究j, 东莞理工学院学报, 2011年 03期11 杨松梅,网络爬虫j,硅谷,2009年15期12 李琳琢,网络爬虫软件的研究与开发j,软件导刊,2011年05期13 (美)w. bruce croft,(美)donald metzler,(美)trevor strohman, information retrieval in practice m, 机械工业出版社,2009.14 surya b. yadav,a conceptual model for user-centered qualityinformation retrieval on the world wide webj,j intell inf syst,2010 15 jquery-apieb/ol./指导教师意见:请签上意见签名: 年 月 日毕业设计(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 12135-2025气瓶检验机构技术条件
- 2024年安全员考试高分题库【易错题】附答案详解
- 应急安全培训感想课件
- 2024化验员模考模拟试题【全优】附答案详解
- 2024年安全员考试高频难、易错点题附参考答案详解【巩固】
- 静脉补液在重症秋季腹泻治疗中指征与操作
- 广州现房销售合同(标准版)
- 消防物品销售合同(标准版)
- 中学生读物的管理制度(34篇)
- 2025年绿色消费理念传播策略与消费者行为引导在绿色环保食品市场的应用报告
- 第二章 有理数的运算 单元测试(含解析)2025-2026学年人教版(2024)数学七年级上册
- 2025-2026学年岭美版(2024)小学美术一年级上册教学计划及进度表
- 2025年全国保密教育知识竞赛题库附答案
- 安全员a证考试试题库及答案
- 2025年护士资格证真题附答案详解
- 心电图课件教学
- 商业航天行业深度报告:政策技术需求共振商业航天赛道加速
- 新员工网络安全知识培训课件
- 后勤人员消防知识培训课件
- 2025年高等教育法学类自考-00859警察组织行为学历年参考题库含答案解析(5套典型考题)
- 2025年大队委选拔笔试题目及答案
评论
0/150
提交评论