网络爬虫论文答辩PPT_第1页
网络爬虫论文答辩PPT_第2页
网络爬虫论文答辩PPT_第3页
网络爬虫论文答辩PPT_第4页
网络爬虫论文答辩PPT_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络爬虫论文答辩,答辩学生:包志英,指导老师:赵中英,定向爬取 脚本之家 文本信息,课题综述,1,研究过程,4,目前现状,2,研究结论,5,研究目标,3,参考文献,6,目录页,选题背景及意义,有效信息,广告、无用信息,选题背景及意义,研究目标,目录页,php、数据可视化显示,研究方法,研究步骤,目录页,关键技术,主爬虫的设计编写,数据的转换与显示,Spider 主爬虫文件的编写,利用Scrapy根据网站的自身特性构建URL,将抓取下来的网页信息进行信息提取,并将有用信息存储到mongo数据库,监测数据库插入情况,可视化显示 将Mongodb中的数据通过脚本程序复写到MySQL,利于网站依赖关系

2、处理,用Laravel框架编写后台控制逻辑,友好的Bootstrap前台显示。,Scrapy,Scrapy环境搭建需要导入的一些关键包:python2.7、lxml、zope、Twisted、pyOpenSSL、pywin32、一定要注意版本,国内一些也没有,安装依赖包就会将很多人拒之门外。,Mongodb,启动脚本:mongod -dbpath ./data 依赖包:pymongo 主要类:Script2Pipeline(object) pymongo.MongoClient( ) tdb = client self.post.insert(scriptInfo),Spider,关键代码:s

3、rc2Spider(scrapy.Spider): parse(self, response): scrapy.selector.Selector(response) new_url=self.url+str(self.pageNum) + .htm yield Request(new_url, callback = self.parse),Data,提取字段:title、desc、content、tag 主配置:USER_AGENT COOKIES_ENABLED CONCURRENT_REQUESTS HTTPCACHE_ENABLED MONGODB_CONFIG,技术难点,VS,案例对

4、比分析,目录页,01 完成了主题爬虫编写,两条爬虫同时爬取目标网站四个多小时,共提取出了有效信息85000条,以json格式,每一万条数据一张表的形式,保存至mongodb数据库,03 通过laravel。bootstrap框架利用MVC框架,将数据优雅的显示到前台,并提供简单的查询功能,但搜索功能还是不尽人意,在多重模糊查询中由于mysql左连接的缺陷是的搜索速度非常的缓慢,有时还可能拖死mysql数据库,02 将mongodb数据库中的数据经过整合,首先使用自带的CSV作为中间件进行转换时由于CSV文件的单个单元格最大 存储32,767 个字符造成数据截取丢失,编写自适应错误脚本程序将mo

5、ngodb中的数据转换到了mysql数据库,成果形式,成果形式 脚本之家主爬虫代码片段,数据成果存储展现形式,应用前景,目录页,论文总结,笑看历史,小试牛刀,闭关思修,山科论剑,Summary,一个多月的开发,回头望去,困难很多,但通过查阅书记,网络资源,以及老师的指导,已经没有什么困难可以让自己放弃,在未来的生活学习中也会将这种学习过程延续下去,经过基础知识的储备和项目理论的设计,在编写Spider主文件递归调用时、还是多次出错,引入mongo数据库操作时,初始化函数也很不尽人意,数据转换脚本中,由于字符编码和数据量过大(10000/table)引起了数据丢失,与宕机现象,通过上网、书籍查询,自主的完成了基础python,scrapy,php,mongodb,laravel,bootstrap知识的学习,培养了自学体系,多次与老师探讨URL构造的设计,数据的保存形式,以及搜索最快最准确的方式,导师对不成熟的设计及时做出了矫正,并在Spider的递归调用,数据迁移脚本的编写做出了指正。,致谢,THANKS!,大学生活即将结束,在此,我要感谢所有教导我的老师和陪伴我一齐成长的同学,他们在我的大学生涯给予了很大的帮助。本论文能够顺利完成,要特别感谢我的导师赵中英老师,赵中英老师对该论文从选题,构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论