《第1节 爬取网络信息》参考课件_第1页
《第1节 爬取网络信息》参考课件_第2页
《第1节 爬取网络信息》参考课件_第3页
《第1节 爬取网络信息》参考课件_第4页
《第1节 爬取网络信息》参考课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

川教版(2019)九年级上册第三单元我的课外读物—网络爬虫第1节爬取网络信息课堂导入同学们:随着信息技术的迅速发展,互联网上涌现出了大量的信息,网络爬虫可以有效地筛选并提取我们需要的信息。本单元我们将通过完成“我的课外读物”项目,掌握Python网络爬虫的编写技术,学会处理和保存信息的方法。学习目标1.分析任务要达到的目标。2.学会将任务分解成小任务并梳理出方法和步骤。3.学会在Python中使用requests模块访问网络,获取信息。目录一、明确任务二、实现方法三、Python爬虫访问网页明确任务一、明确任务明确任务网上有很多书目介绍的网站,我们以“京东商城”为例,网址是“/chanpin/459613.html”。我们可以用python程序把这个网页的信息获取下来,对信息进行筛选和整理,并且保存下来,还可以进行简单的处理,最后得到我们想要的信息。我们按以下步骤来进行:1.搜索满足要求的网站;2.编写程序从网页获取信息;3.筛选出所需信息;4.将信息转化成表格的格式;5.保存信息;6.使用/分析信息。上面的过程可以概括为获取信息、处理信息、保存信息、使用/分析信息等步骤。明确任务用Python编写爬虫程序访问网页获取网页内容筛选出所需信息调整所需信息格式保存需要的信息分析信息()信息()信息()信息()信息获取处理保存使用/分析实现方法二、实现方法“我的课外读物”项目用Python爬虫编程实现所需知识和方法。所属步骤流程说明所需知识、方法获取信息访问网页、获取网页内容requests模块的使用方法处理信息筛选信息、整理信息使用BeautifulSoup模块调用lxml解析器清除不需要的html内容保存信息保存信息至文件文件保存、写操作使用/分析信息根据需求使用、分析信息用Excel排序,或使用pandas模块排序实现方法实现方法上表中的知识与方法,是我们编写爬虫程序的基础,表中列举的requests和BeautifulSoup模块需要提前安装。安装方法如下:打开cmd命令提示符,输入pipinstallrequests,按回车键开始下载安装。打开cmd命令提示符,输入pipinstallbeautifulsoup4,按回车键开始下载安装。只要掌握了这些知识,就可以编写出符合我们需求的爬虫程序。Python爬虫访问网页三、Python爬虫访问网页编写程序,让程序访问网络并获取我们需要的信息,这样的程序,我们把它叫做“网络爬虫”。首先,请从浏览器中打开“京东商城”的网页,页面上有很多书,每本书有书籍名、内容简介、好评数、作者、价格等信息,如下图所示:Python爬虫访问网页Python爬虫访问网页在页面上点击右键,选择“查看页面源代码”,这些源代码就是一些纯文本。有如<html>…</html>,<head>…</head>,<spanclass=“title”>…<lspan>,<divclass=“price”>…<ldiv>这些文本,它们叫Html标签,用来控制页面文本或者图片在网页中的显示,如下图所示:Python爬虫访问网页我们使用requests模块的get函数,可以获取这个页面的源代码。将上面代码保存为文件“我的课外读物.py”,然后执行。执行结果如下图所示:Python爬虫访问网页通过上面代码中的五条语句获取到网页的源代码。但是我们不需要全部的内容,只需要书籍名称及它的好评数和价格、作者、内容简介等信息。仔细观察源代码,发现书籍名称代码中有一些相同的代码:<spanclass=“title”>…</span>。这就是Html标签,书籍名称不同,但标签中的class=“title”却是相同的,我们使用class=“title”做关键字来查找书籍名。再找找好评数、价格和内容简介的标签与关键字,统一大小写、规范填写。如下表所示:查找内容起始标签结束标签关键字书籍名<span></span>class="title"内容简介好评数价格<em></em>class="curr"<div></div>class="p-commit"<strong></strong>class="p-price"Python爬虫访问网页根据代码特征就可以从全部源代码中提取出我们需要的信息。这需要对txt文件中的“字符串”进行操作。七年级上学期我们了解到通过input函数获取到的数据默认是字符串类型,前面获取的页面源代码“resTxt”也是一个字符串。下面我们来进一步了解字符串。字符串:在Python中,字符串通常都放在单引号或者双引号之间,如果字符串较长,甚至有分段,我们还可以使用三个单引号或者三个双引号,来将这种长字符串“包括”在其中。Python爬虫访问网页练习:请同学们运行下面的代码,观察运行结果,总结定义字符串的方式。stra='我是字符串a’strb=“我是字符串b”print(stra)print(strb)strc="Let’sgo!"strd=’’’欢欢说:“Let’sgo!”’’’stre=”””乐乐说:’Let’sgo!”””print(strc)print(strd)print(stre)Python爬虫访问网页从上面的代码中运行结果可以看出,定文字符串有4种不同的方式,请同学们填写在下表中。定义字符串符号应用范围单引号只有字符或文字双引号三个单引号三个双引号只有字符或文字字符串较长,甚至有分段字符串较长,甚至有分段Python爬虫访问网页拓展阅读:网络爬虫,又被称为网页蜘蛛、网络机器人等。它的本质,是一种按照一定的规则,自动爬取网络信息的程序或脚本。网络爬虫帮助搜索引擎从互联网上读取网页,是搜索引擎最重要也是最基础的组成部分。网络爬虫能快速、高效地帮助我们获取到有用的信息,特别是当我们需要从网络上大规模的获取某类信息时,网络爬虫将会使我们的工作事半功倍。所以,理解网络爬虫的基本原理,甚至能够自己编写爬虫。是我们生活在信息时代应该具备的技能。网络爬虫及其作用课堂小结爬取网络信息明确任务步骤:1.获取信息2.处理信息3.保存信息4.使用/分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论