




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 / 24课程设计实验报告模板课程设计报告( 2016 - 2016 年度第 一 学期)名 称:题 目:院 系:班 级:学 号:学生姓名:指导教师:设计周数:成 绩:日期: 软件设计与实践课程设计 计算机系 软件设计与实践教学组2016 年 1 月 14日软件设计与实践课程设计任 务 书一、 目的与要求2 / 241 了解网络爬虫的架构和工作原理,实现网络爬虫的基本框架; 2 开发平台采用 JDK eclipse 集成开发环境。二、 主要内容1. 了解网络爬虫的构架,熟悉网页抓取的整个流程。2. 学习宽度优先和深度优先算法,实现宽度 crawler 应用程序的编写、调试和运行。 3. 学习主题爬行及内容分析技术。 4. 实现网络爬虫的基本框架。三、 进度计划四、 设计成果要求1 要求按时按量完成所规定的实验内容;2 界面设计要求友好、灵活、易操作、通用性强、具有实用性;3 / 243 基本掌握所采用的开发平台。 五、 考核方式平时成绩验收实验报告。学生姓名:于兴隆 指导教师:王蓝婧 2016 年 1 月 2 日一、课程设计的目的与要求 1.目的:掌握 crawler 的工作原理及实现方法; 了解爬虫架构;熟悉网页抓取的整个流程及操作步骤;掌握宽度优先,深度优先算法,并实现宽度 crawler 应用程序的编写、调试和运行; 掌握主题爬行及内容分析技术; 实现一个最基础的主题爬虫的过程; 理解 pageRank 算法,并编程验证; 二、设计正文网络爬虫研究与应用摘要:本文通过对网络爬虫研究的逐步展开,讨论了爬虫4 / 24的相关概念与技术,并通过实验设计了简单的基于宽度优先的爬虫和主题式爬虫。最后,讨论了 PageRank 算法。 关键词:网络爬虫 爬虫应用 PageRank 算法 1.引言随着网络技术的迅速发展,万维网已经成为人们获取信息的重要渠道,如何高效地提取并利用这些信息成为一个巨大的挑战。现阶段的搜索引擎,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1)统一的返回不能满足不同用户的检索需求。(2)搜索引擎提高覆盖面的目标与膨胀的网络信息之间的矛盾日益加深。 (3)搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。为了解决上述问题,定向抓取相关网页资源的主题爬虫应运而生。主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,主题爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 2.网5 / 24络爬虫Internet 上的网页关系建模如下图所示,如果将网页看成是图中的某一个节点,而将网页中指向其他网页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个 Internet 上的网页建模成一个有向图。理论上,通过遍历算法遍历该图,可以访问到Internet 上的几乎所有的网页。图 1. 网页关系的建模图搜索引擎的分类和整体结构分类 :搜索引擎虽然所采用的技术和实现的方法各有不同,但是总体来说可以分为两类,一种是基于目录的搜索引擎,另一种是基于全文检索的搜索引擎。 整体结构: 目前,在国内外各主要商业搜索引擎在技术上主要使用了全文检索技术,下图为基于使用全文检索技术的搜索引擎的整体结构。基于全文检索技术的搜索引擎主要由三部分组成,如图所示,信息采集器,索引器、搜索接口。6 / 24图 2 搜索引擎的整体结构网络爬虫:定义:网络爬虫是一个自动提取网页的程序,它为搜索引擎从 Web 上下载网页,是搜索引擎的重要组成部分。基本原理:爬虫从一个或若干初始网页的 URL 开始,通过分析该 URL 的源文件,提取出新的网页链接,继而通过这些链接继续寻找新的链接,这样一直循环下去,直到抓取并分析完所有的网页为止。当然这是理想状态下爬虫的执行过程,但是实际上要抓取 Internet 上所有的网页是不可能完成的。从目前公布的数据来看,最好的搜索引擎也只不过抓取了整个 Internet40%的网页。这有两个原因,其一是网络爬虫设计时的抓取技术瓶颈造成的,无法遍历所有的网页,很多网页链接不能从其他网页中得到。其二是存储技术和处理技术造成的,如果按照每个页面的平均的大小是 20K,那么 100 亿个页面的大小就是 200000G,对于现在的存储技术来说是个挑战。 爬行策略: 广度优先:广度优先搜索策略是指在抓取过程中,在完成当前层次的7 / 24搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单,可以覆盖尽可能多的网页。本课题采用广度优先策略。 对图 1 中的节点进行访问:12345678 深度优先:深度优先搜索策略是一种在开发 Spider 的早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。当不再有其他超链可选择时,说明搜索已经结束。对图 1 中的节点进行访问:12563748 爬虫物理分布架构图 3 爬虫物理分布架构爬虫部分阶段性地从互联网上抓取内容。存储库存储爬虫下载下来的网页,是分布式的江南大学信息学院课程设计实验报告课程设计报告的格式要求8 / 24撰写课程设计报告参考格式:题目学生姓名(学号)电子科学与技术专业指导教师:【摘要】: 【关键词】: 【ABSTRACT】: 【KEY WORDS】: 1 (小四号宋体,加黑,顶头,序号与文字间空两格)11 9 / 2412. 2 (小四号宋体,加黑,顶头,序号与文字间空两格)参考文献:1 2 3 撰写课程设计报告格式的具体要求如下:1摘要要求主题明确,数据可靠,逻辑严密,文字精炼。课程设计报告一律采用宋体字,倍行距。10 / 242课程设计报告摘要要求具体充实,需要包括三部分内容,即研究的问题、过程,方法、结果和结论。在正文当中,如果有个别名词或情况需要解释时,可加注释说明。注释说明要求一律采用页末注,而不是行中注和篇末注。在同一页中有两个或两个以上的注释时,按先后顺序编注释号,采用阿拉伯数字,编在右上角,如 1,隔页时,注释号需从头开始不得连续。注释内容当页写完,不得隔页,采用小五号宋体。3中外摘要以 200300 字,英文摘要以约 150 个实词为宜。内容要简要介绍课程设计的研究目的、方法、结果和结论,语言力求精炼。中英文摘要均要有关键词,一般为35 个。字体为五号宋体,各关键词之间要有分号。4参考文献一律放在正文后,并与正文相隔两行。在文中要有引用标注,1如。参考文献一般不应少于 3 篇。参考文献表采用顺序编码制,文献作者罗列不超过三名,多余三名的后加“等” ,英文加“et al.” 。参考文献具体请按以下格式给出:11 / 24期刊文章序号作者.题名J.刊名,年,卷(期):起始页码.专著序号作者.题名M.出版地:出版者,出版年.起始页码.论文集序号论文集题名C.出版地:出版年.析出文献起始页码.专利序号专利所有者.专利题名P.专利国别:专利号,出版日期.参考文献1 王传昌。高分子化工的研究对象。天津大学学报,1997,53:1-7.12 / 242 李 明。物理学。北京:科学出版社,1977,5862.3 Dupont marrow transplantation in sever combined immunodeficiency with anunrelated MLC compatible :White H J,Smith R, of the Third Annual Meeting of the International Society for Experimental Intremational Society for Experimental Hematology,1997,44464 王 健。建筑物防火系统可靠性分析:硕士学位论文.天津:天津大学,1997.5 姚光起。一种氧气镐材料的制备方法.中国专利。891056088,1980-07-03.6 中华人民共和国国家技术监督局。GB3100-3102.中华人民共和国国家标准.北京:中国标准出版社,1994-11-01.13 / 24以上,序号用中扩号,与文字之间空两格。如果需要两行的,第二行文字要位于序号的后边,与第一行文字对齐。中文的用五号宋体,外文的用五号 Times New Roman 字体。5附录另起一页。附录的有无根据说明书情况而定,内容一般包括正文内不便列出的冗长公式推导、符号说明、计算机程序等。 “附” “录”中间空两格、四号字、黑体、居中。附录中的内容一般也取为五号宋体。附录中有程序源代码的因篇幅限制可酌情考虑内容的字号和行距。6.几点具体要求语言表述要做到数据可靠、推理严谨、立论正确。论述必须简明扼要、重点突出,对同行专业人员已熟知的常识性内容,尽量减少叙述。14 / 24论文中如出现一些非通用性的新名词、术语或概念,需做出解释。标题和层次标题要重点突出,简明扼要,层次要清楚。页眉和页码页眉从正文开始,一律设为“天津大学 XX 级电子科学与技术专业课程设计报告” ,采用宋体五号字居中书写。页码从正文开始按阿拉伯数字连续编排,居中书写。图、表、公式图:a. 要精选、简明,切忌与表及文字表述重复。b. 图中术语、符号、单位等应同文字表述一致。c. 图序及图名居中置于图的下方,用小五号字宋体。15 / 24表:a. 表中参数应标明量和单位的符号。b. 表序及表名置于表的上方。c. 表序、表名和表内内容采用小五号宋体字。公式:a.编号用括号括起写在右边行末,其间不加虚线。b.公式中的英文字母和数字可以采用默认的字体和字号。图、表与下文之间要有一行的间距,公式与正文之间不需空行;文中的图、表、附注、公式一律采用阿拉伯数字分章编号。如:图 2-5,表 3-2,公式等。若图或表中有附注,采用英文小写字母顺序编号。量和单位要严格执行 GB31003102:93 有关量和单位的规定;物理量用斜体,单位用正体;单位名称的书写,可以采用国际通用符号,也可以用中文名称,但全文应统一,不要两种混用。16 / 24标点符号及数字注意中英文标点符号的区别,不能混用。数字与英文字符均采用 “Times New Roman” 字体。打印规格除任务书和开题报告需要教师手写签字以及外文资料可以复印外,其它文字统一使用 Word 字或与 Word 兼容处理软件打印,一律采取 A4 纸张,页边距一律采取默认形式,行间距取多倍行距;字符间距为默认值。成都理工大学课程设计实验报告课程名称 程序设计 院 系 信科院数字媒体技术系 班 级 所属小组 姓 名 学 号 指导教师 何建军17 / 242016 年 月 日课程设计要求:课程设计的目的检验学生对相应知识体系掌握程度。对学生来说是全面展示自己的理论知识掌握程度、综合编程实践能力以及写作能力。这对未来的工作有较好的帮助,希望各位同学认真对待,独立、保质保量完成相应设计内容。1、有封面2、有目录页3、排版正确、格式美观一级标题:一、三号黑体二级标题:1、小四号宋体三级标题:小四号宋体18 / 24正文:小四号宋体4、每个小组做同样的题,但每个成员独立完成设计内容,不利相互抄袭,抄袭或复制都成绩为 0。5、设计报告上交形式提交纸质报告、电子文档、程序源码各一份电子文档、程序源码打包压缩成一个文件,文件名为“完整学号-中文姓名” ,上传至服务器:“综合作业/”文件夹下面纸质报告用 A4 双面打印,装订好后交学习委员,学习委员收齐后交指导老师6、课程设计作业必须在规定时间上上交,过时成绩为 0课程设计报告编写指南19 / 24一、设计目的描述你对老师规定设计内容所能达到目的的全面理解,以及对未来工作的重要性。二、设计内容按老师要求列出内容三、算法描述对设计内容的算法进行完整描述四、程序结构描述设计思路、程序总体框架结构、数据结构使用说明等五、程序代码六、运行结果七、自我总结20 / 24程序设计课程设计内容以下设计内容可在 TC、VC 环境中编程 第一组:三种算法的直线段生成 第二组:用正方形的窗口对一个多边形进行裁剪第三组:对一个多边形进行充填第四组:两种算法的圆的生成 第五组:Bezier 曲线的生成第六组B 样条曲线的生成21 / 24四 川 大 学操作系统课程设计报告学 院:专 业:年 级:组 编 号:组 成 员: 软件 学 院 第 X 组 乔心轲 0743111340张雯 XXXXXXXX 康小芳 XXXXXXXX提交时间: 2016 年 月 日.指导教师评阅成绩:XXX1:22 / 24XXX1:XXX1:XXX1:XXX1:实验项目一项目名称:实验目的:实验时间:人员分工:实验环境:实验环境的搭建过程、选用的操作系统、机器配置、编译器等。实验内容:23 / 24对实践过程的详细说明,针对已经满足的实践要求,采用了何种算法或思想,对 Nachos 平台的哪些代
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年房贷还息转账代办服务合同范本
- 2025年度事业单位科研助理聘用合同修订版
- 2025年农业农业资源管理技术员聘用协议
- 金融企业客户关系管理数字化升级对市场营销的影响报告
- 2025年智能电动伸缩门设计与安装一体化合同
- 2025版健身教练专业运动营养咨询合同范本
- 2025宠物领养与宠物医疗救治合作协议书
- 2025版智能交通系统工程承包合同样书
- 2025年仓储物流设备维修保养服务合同范本
- 2025版并购交易中涉及劳动合同法及社会保障法律风险评估合同
- GB/T 1508-2002锰矿石全铁含量的测定重铬酸钾滴定法和邻菲啰啉分光光度法
- GA 1800.6-2021电力系统治安反恐防范要求第6部分:核能发电企业
- 办公室主任竞聘报告课件
- 行为金融学案例
- 万科集团财务管理制度手册207
- “李可中医药学术流派论治厥阴病”-课件
- 通用技术作品设计报告
- 锚杆支护技术规范正式版本
- 下一代互联网技术
- 皮肤知识与问题性皮肤分析(入行必看)
- 单位消防安全评估报告(模板)
评论
0/150
提交评论