Python网络爬虫基础教程教学设计

上传人：追*** IP属地：河北上传时间：2025-10-05 格式：PDF 页数：93 大小：31.14MB 积分：12 举报 版权申诉

已阅读5页，还剩88页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

黑马程序员传智教育旗下

©高端IT教育品牌一样的教育，不一样的品质

黑马程序员

《Python网络爬虫基础教程》

教学设计

课程名称：_____________________

授课年级：_____________________

授课学期：_____________________

教曲姓名：_____________________

年月

©需骏得豁骤牌

一样的教育，不一样的品质

计划

课题名称第1章认识网络爬虫2课时

课时

随着网络的蓬勃发展，万维网成为大量信息的载体，如何有效提取并利用

这些信息成为一个巨大的挑战。网络爬虫作为一种自动采集数据技术，它凭借

教学引入

自身强大的自动提取网页数据的能力，成为当下万维网收集数据高效灵活的解

决方案之一。本章主要对网络爬虫的基础知识进行详细地讲解。

•使学生熟悉网络爬虫的概念及分类，能够归纳通用网络爬虫和聚焦网络爬

虫的区别

•使学生了解网络爬虫的应用场景，能够列举至少3个网络爬虫的应用场景

•使学生熟悉网络爬虫的Robots协议，能够说明robots.txt文件中每个选项

的含义

•使学生熟悉防网络爬虫的应对策略，能够列举至少3个应对防网络爬虫的

策略

教学目标•使学生掌握网络爬虫的工作原理，能够定义通用爬虫和聚焦爬虫的工作原

理

•使学生熟悉网络爬虫抓取网页的流程，能够归纳网络爬虫抓取网页的完整

流程

•使学生了解网络爬虫的实现技术，能帔说出使用Python实现网络爬虫有哪

些优势

•使学生熟悉网络爬虫的实现流程，能够归纳使用Python实现网络爬虫的流

程

•网络爬虫的工作原理

教学重点•网络爬虫抓取网页的流程

•Python实现网络爬虫的流程

教学难点无

教学方式课堂教学以PPT讲授为主，并结合多娱体进行教学

第一课时（什么是网络爬虫、网络爬虫的应用场景、Robots协议、防爬虫应对

策略）

一、教师通过直接导入的方式导入新课

教师首先讲解网络爬虫的概念，其次讲解网络爬虫历经几十年的发展，衍

生出的爬虫类型，了解了什么是网络爬虫，然后讲解网络爬虫的应用场景，最

教后讲解Robots协议以及防爬虫对应策略.

学二、新课讲解

过知识点1-什么是网络爬虫

程教师通过PPT的方式讲解什么是网络爬虫。

（1）熟悉网络爬虫的概念。

（2）熟悉网络爬虫的分类。

教师通过PPT的方式讲解网络爬虫的概念。

网络爬虫（WebCrawler）又称网络蜘蛛、网络机器人，它是一种按照一定

规则，自动浏览万维网的程序或脚本。通俗地讲，网络爬虫就是一个模拟真人

浏览万维网行为的程序，这个程序可以代替真人自动请求万维网，并接收从万

。需篇1箴髓黠牌一样的教育，不一样的品质

维网返回的数据。与真人浏览互联网相比，网络爬虫能够获取的信息量更大，

效率也更高。

教师通过PPT的方式讲解网络爬虫的分类。

(1)通用网络爬虫(GeneralPurposeWebCrawler)又称全网爬虫(Scalable

WebCrawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是互联网早

期出现的传统网络爬虫，它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的

重要组成部分，主要用于将互联网中的网页下载到本地，形成一个互联网内容

的镜像备份。

(2)聚焦网络爬虫(FocusedCrawler)又称上题网络爬虫(TopicalCrawler),

是指选择性地访问那些与预先定义好的主题相关网页的网络爬虫，它根据预先

定义好的目标，有选择性地访问与目标主题相关的网页，获取所需要的数据。

(3)增量式网络爬虫(IncrementalWebCrawler)是指对已下载的网页采

取增量式更新，只爬行新产生或者已经发生变化的网页的爬虫。

(4)深层网络爬虫(DeepWebCrawler)是指爬行深层网页的网络爬虫，

它要爬行的网页层次比较深，需要通过一定的附加策略才能够自动爬行，实现

难度稍微大一些。

知识点2-网络爬虫的应用场景

教师通过PPT的方式讲解网络爬虫的应用场景。

(1)搜索引擎

<2)舆情分析与监测

(3)聚合平台

(4)出行类软件

知识点3-Robots协议

教师通过PPT的方式讲解Robots协议。

(1)Robots协议又称爬虫协议，它是网站国际互联网界通行的道德规范，

其目的是保护网站数据和敏感信息'，确保网站用户的个人信息和隐私不受侵犯。

(2)网站管理员通常会在网站的根目录下放置一个符合Robots协议的

robots.txt文件，通过这个文件告知网络爬虫在抓取该网站时存在哪些限制，哪

些网页是允许被抓取的，哪些网页是禁止被抓取的。

知识点4-防爬虫应对策略

教师通过PPT的方式讲解防爬虫应用策略。

(1)添加User-Agent字段

浏览器在访问网站时会携带固定的User-Agent(用户代理，用于描述浏览

器的类型及版本、操作系统及版本、浏览器插件、浏览器语言等信息)，这么做

的目的是向网站表明自己的真实身份。

(2)降低访问频率

如果同一账户在较短的时间内多次访问了网页，那么网站运维人员会推断

此种访问行为可能是网络爬虫的行为，并将该账户加入到黑名单禁止访问网站。

为防止网站运维人员从访问量上认出网络爬虫的身份，我们可以降低网络爬虫

访问网站的频率。

(3)设置代理服务器

网络爬虫在访问网站时，若反复使用同一IP地址进行访问，极易被网站认

出网络爬虫的身份后进行屏蔽、阻止、封禁等操作，此时便可以在网络爬虫和

Web服务器之间设置代理服务器。

。需篇1箴髓黠牌一样的教育，不一样的品质

（4）识别验证码

有些网站在检测到某个客户端的IP地址访问次数过于频繁时，有时会要求

该客户端进行登录验证，并随机提供一个验证码，此时为了应对这种突发情况,

网络爬虫除了要输入正确的账户密码之外，还要像人类一样通过滑动或点击行

为识别验证码，如此才能继续访问网站。

三、归纳总结

教师回顾本节课所讲的内容，并通过测试题的方式引导学生解答问题并给

予指导。

四、布置作业

教师通过高校教辅平台（）布置本节课作业以及下节课

的预习作业。

第二课时（网络爬虫的工作原理、网络爬虫抓取网页的流程、网络爬虫的实现

技术、Python实现网络爬虫的流程）

一、复习巩固

教师通过上节课作业的完成情况，对学生吸收不好的知识点进行再次巩固

讲解。

二、教师通过直接导入的方式导入新课

互联网中有多种网络爬虫，尽管这些网络爬虫的使用场景不同，但它们的

工作原理大同小异。接下来，本节课将讲解网络爬虫的工作原理、网络爬虫的

工作流程、网络爬虫的实现技术和Python实现网络爬虫的流程。

三、新课讲解

知识点1-网络爬虫的工作原理

教师通过PPT的方式讲解学习目标。

（I）通用网络爬虫的工作原理。

（2）聚焦网络爬虫的工作原理。

教帅通过PPT的方式讲解通用网络爬虫的工作原理。

通用网络爬虫的采集目标是整个互联网上的所有网页，它会先从一个或多

个初始URL开始，获取初始URL对应的网页数据，并不断从该网页数据中抽

取新的URL放到队列中，直至满足一定的条件后停止，如下图所示。

黑马程序员

©I高端IT救背茄牌一样的教育，不一样的品质

知识点2-网络爬虫抓取网页的流程

教师通过PPT的方式讲解网络爬虫抓取网页的流程

虽然通用网络爬虫和聚焦网络爬虫的工作原理有•些差别，但它们抓取网

页的流程是相似的，如下图所示。

。需篇1箴髓黠牌一样的教育，不一样的品质

关于上图工作流程的介绍如下。

(1)精心选择一些网页，将这些网页的链接作为种子URL。

(2)将种子URL放入到待抓取URL队列中。

(3)从待抓取URL队列中依次读取URL,并通过DNS解析URL,把链接

地址转换为网站服务器所对应的IP地珏。

(4)将IP地址和网页相对路径名称交给网页下载器，网页下载器负责网页

内容的下载。

(5)网页下载器将相应网页的内容下载到本地。

(6)将下载到本地的网页存储到页面库中，等待建立索引等后续处理.；与

此同时将下载过网页的URL放入到已抓取URL队列中，这个队列记载了网络

爬虫已经下载过的网页URL,以避免网页的重复抓取。

(7)对于刚刚下载的网页，从中抽取出所包含的所有链接信息，并在己抓

取URL中枪直其是否被抓取过，如果还未被抓取过，则将这个URL放入到待

抓取URL队列中。

(8)下载待抓取URL队列中的URL对应的网页，如此重复(3)~(7),

直到待抓取URL队列为空。

知识点3.网络爬虫的实现技术

教师通过PPT的方式讲解网络爬虫的实现技术。

•PHP

•Go

•C++

•Java

•Python

知识点4-Python实现网络爬虫的流程

教师通过PPT的方式讲解Python实现网络爬虫的流程。

(1)抓取网页数据

抓取网页数据是按照设定的目标，根据所有目标网页的URL向目标网站发

送请求，并获得整个网页的数据。抓取网页数据的过程类似于用户在浏览器中

键入网址，按回车后看到由浏览器渲染后的网页的过程。

(2)解析网页数据

黑马程序员

©I高端IT救背茄牌一样的教育，不一样的品质

解析网页数据是采用不同的解析网页的方式从整个网页的数据中提取出目

标数据。例如，我们想要采集所有苹果手机的价格信息，价格便是提取的目标

数据。解析网页数据的过程类似于从浏览器显示页面中找到目标标签的文本，

然后将文本复制下来的过程。

(3)存储网页数据

储网页数据的过程也是比较简单，就是将上一步骤中提取的目标数据以文

件的形式存放到本地，也可以存储到数据库，方便后期对数据进行深入地研究。

四、归纳总结

教师回顾本节课所讲的内容，并通过测试题的方式引导学生解答问题并给

予指导。

五、布置作业

教师通过高校教辅平台(http://tch.ityxb.com)布置本节课作业以及下节课

的预习作业。

教学后记

黑马程序员传智教育旗下

©高端IT教育品牌一样的教育，不一样的品质

黑马程序员

《Python网络爬虫基础教程》

教学设计

课程名称：_____________________

授课年级：_____________________

授课学期：_____________________

教曲姓名：_____________________

年月

。需篇1箴髓黠牌一样的教育，不一样的品质

计划

课题名称第2章网页请求原理4课时

课时

网络爬虫请求网页的过程可以理解为用户使用浏览器加载网页的过程，在这一

过程中浏览器向网站服务器发送请求，网站服务器响应请求后将网页源代码传送回

教学引入来。因此，了解浏览器与服务器之间的通信方式和交互过程，理解网页开发技术、

结构、分类、数据格式，能进一步加深对网络爬虫的理解。本章将针对网页请求原

理的相关知识进行讲解。

•使学生了解浏览器加载网页的过程，能够复述出浏览器加载网页的过程

•使学生熟悉HTTP的基本原理，能够归纳URL格式、HTTP请求格式和HTTP响

教学目标应格式

•使学生熟悉网页基础，能够区分HTML、JavaScript和CSS三者的区别

•使学生掌握HTTP抓包工具Fiddler的使用，能够独立安装并使用Fddler工具

•Fiddler的下载与安装

•Fiddler界面详解

教学重点

•Fiddler捕获HTTPS页面的设置

•Fiddler的基本使用

教学难点•Fiddler的基本使用

教学方式课堂教学以PPT讲授为主，并结合多媒体进行教学

第一课时（浏览器加载网页的过程、URL简介、HTTP和HTTPS、HTTP请求格

式、HTTP响应格式）

二、复习巩固

教师通过上节课作业的完成情况，对学生吸收不好的知识点进行再次巩固讲

解。

三、通过直接导入的方式导入新课

在第1章，我们学习了什么是网络爬虫以及网络爬虫的基本实现流程，对于网

络爬虫而言抓取的数据都在网页中，因此理解网页的相关内容是非常有必要的。接

教下来，本节将对浏览器加载网页的完成过程、URL简介、HTPP和HTTPS、HTTP请

学求格式、HTTP响应格式进行讲解。

过二、新课讲解

程知识点1-浏览器加载网页的过程

教师通过PPT的方式讲解浏览器加教网页的过程。

（1）浏览器通过DNS（DomainNameSystem,域名系统）服务器查找百度服

务器对应的IP地址。

（2）浏览器向IP地址对应的Web服务器发送HTTP请求。

（3）Web服务器接收HTTP请求后进行处理，向浏览器返回HTML页面。

（4）浏览器对HTML页面进行渲染呈现给用户。

知识点2-URL简介

教师通过PPT的方式讲解URL简介。

（1）熟悉URL的概念。

。需篇1箴髓黠牌一样的教育，不一样的品质

（2）熟悉URL的语法格式。

教师通过PPT的方式讲解URL的概念。

URL（全称UniformResourceLocator）又称URL地址，表示统一资源定位符，

它用于指定因特网上某个资源的位置。

教师通过PPT的方式讲解URL的语法格式。

URL的语法格式如下。

scheme://[user]:[password]©host:[port]/path;[params]?[query]#[frag]

•scheme：表示方案，用于标识采用哪种传输协议访问服务器资源

•user；表示用户，用于标识采用某些方案访问资源时需要使用的用户名

•password：表示密码，用户名后面可能要包含的密码，中间以冒号分隔

•host：表示主机地址，也就是存放资源的服务器主机名或IP地址

•port：表示端口，也就是存放资源的服务器监听的端口号

•path：用于指定本次请求资源在服务器中的位置

•params：表示访问资源时使用的协议参数，参数之间以;分隔

•query：表示查询字符串，用于指定查询的资源，一般使用？与URL的其余

部分进行分隔。查询字符串没有通用格式，它通常会以&多个参数，每个

参数的名称与值使用=进行连接。

•frag：表示片段，用于指定访问资源时某一部分资源的名称。

知识点3-HTTP和HTTPS

教师通过PPT的方式讲解HTTP和HTTPS.

（1）熟悉HTTP的概念。

（2）熟悉HTTPS的概念。

教师通过PPT的方式讲解HTTP的概念。

HTTP办议全称为超文本传输协议（HypertextTransferProtocol）,它用于将Web

服务滞的超文本资源传送到浏览器中。HTP协议能够高效准确的传送超文本资源，

但浏览器与Web服务器的连接是•种•次性连接，它限制每次连接只处理•个请

求，这意味着每个请求都是独立的，当服务器返回本次请求的应答后便立即关闭连

接，下次请求再重新建立连接。

教师通过PPT的方式讲解HTTPS的概念。

HTTPS协议全称为超文本传输安全协议（HypertextTransferProtocoSecure）,

该协议是基于HTTP协议基础上添加了SSL（SecureSocketsLayer安全套接字协议），

数据在传输过程中主要通过数字证书、加密算法、非对称密钥等技术完成互联网数

据传输加密，实现互联网传输安全保护。

知识点4-HTTP请求格式

教师通过PPT的方式讲解HTTP请求格式。

（1）熟悉HTTP请求的概念。

（2）熟悉HTTP请求的格式。

（3）熟悉请求行。

（4）熟悉请求头。

教师通过PPT的方式讲解HTTP请求的概念。

一次HTTP通信的过程包括HTTP请求和HTTP响应，其中HTTP请求是指从浏

览器到服务器端的请求信息。

教师通过PPT的方式讲解HTTP请求的格式。

HTTP清求由请求行、请求头部、空行、以及请求数据（有的也称为请求体）

。需篇1箴髓黠牌一样的教育，不一样的品质

这四个部分组成，如下图所示。

|空格

请求方法1空格IRL协议版本回车符换行符诘求行

•

头部字段名,值|："Ht?.!换行符

…＞请求头部

头部字段名■值|Pirn换行符

回车符1换行符

请求数据

教师通过PPT的方式讲解请求行。

请求行的格式如下所示。

GET/item/Python/407313HTTP/1.1

在请求行中，GET表示向服务器请求网络资源时所使用的请求方法，

/item/Python/407313表示请求的URL地址，HTTP/1.1表示使用的HTTP协议版本。

教师通过PPT的方式讲解请求头。

(1)Host

Host用于指定被请求资源的服务器主机名和端II号。

(2)User-Agent

User-Agent用于标识客户端身份，通常页面会根据不同的User-Agent信息自动

做出适配，甚至返回不同的响应内容。

(3)Accept

Accep:用「指定浏览器或其他客户端可以接受的MIME(MultipurposeInternet

MailExtensions,多用途互联网邮件扩展)文件类型，服务器可以根据该字段判断

并返回适当的文件格式。

(4)Referer

Referer用于标识当前请求页面的来源页面地址，即表示当前页面是通过此来

源由血里的链接进入的。

(5)^ccept-Charset

AccepWharset用于指定浏览器可以接受的字符集类型,在早期版本的HTTP/1.1

协议中，规定了一个默认的字符集(ISO-8259-1),但目前每一种内容类型都有自己的

默认字符集。

(6)Cookie

Cookie是在浏览器中寄存的小型数据体，它可以记载和服务器相关的用户信

息，也可以用来实现模拟登录。

(7)Content-Type

Content-Type也叫互联网媒体类型(InternetMediaType)或者MIME类型,用

于告知服务器POST请求或PUT请求中的数据类型信息。

知识点5-HTTP响应格式

教师通过PPT的方式讲解HTTP响应格式。

(1)热悉HTTP响应的格式。

(2)熟悉状态行的组成。

(3)熟悉响应头信息。

(4)熟悉响应正文。

教师通过PPT的方式讲解HTTP响应的格式。

。需篇1箴髓黠牌一样的教育，不一样的品质

服务器端发送给客户端的响应信息由4个部分组成，分别是状态行、响应头、

空行、以及响应正文，具体如下图所示。

版本空格状杰码空格原因短语回车将换行符状态行

头部字段名1:值1回车符换行符

…■响应头

头部字段名II:值1回车符换行符

回车符换行符

响应正文|响应正文

教师通过PPT的方式讲解状态行的组成。

状态行的格式如下所示。

HTTP/1.1200OK

在状态行中，HTTP/1.1表示HTTP协议的版本号，200表示响应状态码，OK表

示响应状态码的简短描述。

教师通过PPT的方式讲解响应头信息。

(1)Cache-Control：must-revalidate,no-cache,private

Cache-Control表示服务端告知客户端(浏览器)当前的HTTP响应是否可以缓

存，当取值为must-revalidate表不在一个缓存过期之后，不能直接使用这个过期的

缓存，必须检验之后才能使用；当取值为no-cache表示客户端可以缓存资源，每次

使用缓存资源前都必须重新验证其有效性；当取值为private表示响应只能被单个

用户缓存，不能作为共享缓存。

(2)Connection：keep-alive,closed

Connection表示客户端是否使用持久HTTP连接，当取值为keep-alive表示使用

持久连接；当取值为closed表示不使用持久连接。

(3)Content-Encoding:gzip,compress,identity

Content-Encoding表示服务端对特定媒体类型的数据进行压缩，当取值为gzip

表示采用Lempel-Ziv压缩算法；当取值为compress表示采用Lempel-Ziv-Welch算法；

当取值为identity表示数据未经压缩或修改。

(4)Content-Type：text/html;charset=UTF-8

Content-Type表示服务端告知客户端实际返回的内容的内容类型，当取值为

text/html;charset=UTF-8表示服务端返回资源文件的类型为text/html,字符编码格

式为UTF-8o

教师通过PPT的方式讲解响应正文。

响应正文是服务器返回的具体数据，常见的数据是HTML文档。浏览器在接收

到HTTP响应后，会根据响应正文的不同类型进行不同的处理。对于IE浏览器来说,

如果响应正文是DOC文档，这时浏览器会借助安装在本机的Word程序打开这份文

档；如果响应正文是RAR压缩文档，这时浏览器会弹出一个下载窗口让用户下载；

如果响应正文是HTML文档，这时浏览器会在自身的窗口中展示该文档。

三、归纳总结

教师回顾本节课所讲的内容，并通过测试题的方式引导学生解答问题并给予指

导。

四、布置作业

教师通过高校教辅平台(http:〃)布置本节课作业以及下节课的预

习作业。

。需篇1箴髓黠牌一样的教育，不一样的品质

第二课时(网页开发技术、网页的结构、网页的分类、网页数据的格式)

一、复习巩固

教师通过上节课作业的完成情况，对学生吸收不好的知识点进行再次巩固讲

解。

二、教师通过直接导入的方式导入新课

网页可以看作承载各种网站应用和信息的容器，它包含文字、图像、超链接、

音频、视频以及动画等内容。网络爬虫抓取的数据主要存在网页中，接下来，本节

课将讲解网页开发技术、网页的结构、网页的分类和网页数据的格式。

四、新课讲解

知识点1-网页开发技术

教师通过PPT的方式讲解网页开发技术。

(1)熟悉什么是HTML。

(2)熟悉什么是CSS。

(3)熟悉什么是JavaScript。

教师通过PPT的方式讲解什么是HTMLo

HTML的英文全称HyperTextMarkupLanguage,即超文本标记语言，是一种用

于创建网页的标准标记语言。一个HTML文档由一系列的HTML元素组成，HTML

元素的组成如下图所示。

而V今天天气屈丁笳耳

教师通过PPT的方式讲解什么是CSSo

CSS(CascadingStyleSheets)全称为层叠样式表，它用于更改HTML页面中内

容的字体、颜色、大小、间距或者添加动回及其他的效果。

教师通过PPT的方式讲解什么是JavaScripto

JavaScript是一门独立的网页脚本编程语言，它主要用于向HTML网页中添加交

互行为。

知识点2.网页的结构

教师通过PPT的方式讲解网页结构。

(1)熟悉如何查看网页源代码。

(2)熟悉HTMLDOM标准。

教师通过PPT的方式讲解如何查看网页源代码。

如果想要了解一个网页的结构，我们可以直接在浏览器打开的右键菜单中选择

“检查”选项。

教师通过PPT的方式讲解HTMLDOM标准。

根据万维网联盟(WorldWideWebConsortium,简称W3C)的HTMLDOM标

准，HTMLDOM由节点组成，HTML文档的所有内容都是节点，整个HTML文档是

一个文档节点，每个HTML元素是元素节点，每个HTML属性是属性节点，每个注

释是注释节点。把•个HTML文档中的所有节点组织在•起，就构成了•棵HTML

DOM树，这些节点之间存在层级关系，HTMLDOM节点树如下图。

。需篇1箴髓黠牌一样的教育，不一样的品质

知识点3-网页的分类

教师通过PPT的方式讲解网页分类

（1）熟悉什么是静态网页。

（2）熟悉什么是动态网页。

教师通过PPT的方式讲解静态网页。

静态网页是纯粹HTML格式的网页，它是•个标准的HTML文件，文件的扩展

名为.htm、.html。静态网页可以包含文本、图像、声音、FLASH动画、超链接等内

容，这些内容在编写网页源代码时已经确定，基本上不会发生变化，除非网页源代

码被重新修改。

教师通过PPT的方式讲解动态网页。

动态网页相比静态网页，动态网页有数据库支撑、包含程序以及提供与用户交

互功能，比如用户登录、用户注册、信息查询等功能，这些功能根据用户传入不同

参数网页会显示不同数据。

知识点4-网页数据的格式

教师通过PPT的方式讲解网页数据格式。

（1）熟悉网页数据格式的分类。

（2）熟悉XML的概念及特点。

（3）熟悉JSON的概念及特点。

教师通过PPT的方式讲解网页数据格式的分类。

（1）非结构化数据是指数据结构不规则或不完整，没有预定义的数据模型，

不方便使用数据库二维表结构表现的数据，包括文本、图片、HTML等。

（2）结构化数据就是能够用二维表结构表现的数据，这种数据严格遵循数据

格式与长度规范，包括JSON和XML等。

教师通过PPT的方式讲解XML的概念及特点。

（1）XML的概念

XML是ExtensibleMarkupLanguage的缩写，它是一种类似于HTML的标记语言，

称为可扩展标记语言。可扩展指的是用户可以按照XML规则自定义标记。

（2）XML的特点

XML片段如下图所示。

。需篇1箴髓黠牌一样的教育，不一样的品质

〈employees〉

<lastName>Gates</lastName>

</employee>

<firstName>Steve</firstName>

</employee>

〈employee〉

</employee>

</employees>

•XML元素由开始标记和结束标记组成，必须是成对出现的。

•〈employees〉元素是整个XML片段的根元素，它包含了3个(employee〉子

元素。

•每个(employee〉元素又包含了<firstName>、<lastName>Jt2个子元素。

教师通过PPT的方式讲解JSON的概念及特点。

(1)JSON的概念

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，它采用完全独

立于编程语言的文本格式存储和表示数据。

(2)JSON的特点

JSON片段如孑图所示。

(

"employees":[

(

HfirstNamen:“Bill”，

HlastNamen:"Gates”

(

"firstName":"Steve",

HlastNamen:nJobs',

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python网络爬虫基础教程教学设计

文档简介

温馨提示

最新文档

评论

Python网络爬虫基础教程教学设计

文档简介

温馨提示

最新文档

评论

相关文档