《大数据应用技术基础》课件项目一大数据与爬虫

上传人：h*** IP属地：山东上传时间：2026-04-21 格式：PPTX 页数：39 大小：2.44MB 积分：15 举报 版权申诉

已阅读5页，还剩34页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

项目一大数据与爬虫目录任务一：发布网站任务二：编写爬虫程序爬取网页所有td标签任务三：编写爬虫程序爬取网页所有div标签任务四：编写爬虫程序爬取网页所有img标签任务五：爬取网页所有文本内容任务六：编写爬虫程序爬取网站数据表任务一：发布网站【任务分析】在IIS实现网站发布并浏览网站。1）把网站文件复制到IIS的网站默认目录中。2）用浏览器成功浏览网址，访问本地网站首页。任务一：发布网站【任务实施】1.执行“开始”菜单的IIS，如图1-1所示。图1-1“开始”菜单的IIS任务一：发布网站2.打开网站的DefaultWebSite，单击“基本设置”，如图1-2所示。图1-2单击“基本设置”任务一：发布网站3.单击“...”打开网站物理路径，如图1-3所示。图1-3单击“...”任务一：发布网站4.查看到网站目录为C:\inetpub\wwwroot，如图1-4所示。图1-4查看到网站目录任务一：发布网站5.在资源管理器打开网站目录C:\inetpub\wwwroot，把网站文件复制到网站目录下，如图1-5所示。图1-5文件复制到网站目录任务一：发布网站6.打开浏览器，输入网址，查看到网站首页的页面内容，证明网站发布成功，如图1-6所示。经验分享

就是本地主机的IP地址，通常也被称为localhost。当在浏览器或其他网络应用程序中使用localhost或

时，都是在访问本地部署的服务和网站。即无论是输入localhost还是

，都是指向本地计算机自身。图1-6输入网址任务二：编写爬虫程序爬取网页所有td标签【任务分析】编写爬虫程序爬取网站数据表。1）在IIS发布网站。2）在浏览器浏览网站首页，如图1-7所示。3）编写爬虫程序爬取网站首页的数据表，并打印输出结果。图1-7在浏览器浏览网站首页

任务二：编写爬虫程序爬取网页所有td标签【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot，把网站文件复制到网站目录下。经验分享：发布网站后，在浏览器访问localhost或

，若成功看到网页内容，表示网站发布成功。任务二：编写爬虫程序爬取网页所有td标签2.启动PyCharm，执行File/NewPreject...，如图1-8所示。图1-8执行File/NewPreject...任务二：编写爬虫程序爬取网页所有td标签3.在CreateProject窗口中，设置项目目录D:\Pycharm目录，单击“Create”按钮，如图1-9所示。图1-9单击“Create”按钮任务二：编写爬虫程序爬取网页所有td标签4.在弹出的OpenProject对话框中，单击“ThisWindow”按钮，如图1-10所示。图1-10单击“ThisWindow”按钮任务二：编写爬虫程序爬取网页所有td标签5.在项目的main.py文件中，输入程序爬虫代码，如果输入importrequests代码时，提示需要导入模块，请把鼠标移动requests上，执行Istallpackagerequests，如图1-11所示。。图1-11执行Istallpackagerequests任务二：编写爬虫程序爬取网页所有td标签代码参考：importrequests

fromparselimportSelector

response=requests.get('http://localhost/index.html')

response.encoding='utf8'

vhtml=response.text

items=Selector(text=vhtml)

vtable=items.css('table')

vtr=vtable.css('tr')

foriteminvtr:

item2=item.css('td')

print(item2)任务二：编写爬虫程序爬取网页所有td标签6.如果输入importrequests代码时，提示需要导入模块，请把鼠标移动fromparselimportSelector上，执行Istallpackageparsel，如图1-12所示。图1-12执行Istallpackageparsel任务二：编写爬虫程序爬取网页所有td标签知识链接:parsel库parsel是一个基于XPath和CSS选择器的Python库，用于解析HTML和XML文档。它提供了一种简单而强大的方式来提取网页中的数据。常用用法包括选择器选择、提取数据、嵌套选择、过滤器、提取多个结果、序列化和反序列化等。（1）导入parsel库在应用parsel库时，须在程序前导入parsel库中的Selector类，才用于解析HTML文档。例:导入Selector类fromparselimportSelector（2）数据进行解析使用CSS选择器或XPath表达式来选择特定的元素或元素集合。例：应用parsel库的解析功能items=Selector(text=vhtml)使用Selector类将变量vhtml中的HTML数据进行解析，并将结果保存在items变量中。（3）parsel库的选择器选择功能例1：应用parsel库的选择器选择table标签vtable=items.css('table')使用CSS选择器定位所有的table标签，并将结果保存在vtable变量中。例2：应用parsel库的选择器选择tr标签vtr=vtable.css('tr'):在上一步筛选出的table标签中，再次使用CSS选择器定位所有的tr标签，并将结果保存在vtr变量中。这个语句同样应用到了parsel库的选择器选择功能。例3：应用parsel库的选择器选择td标签item2=item.css('td'):在每个tr标签中，使用CSS选择器定位所有的td标签，并将结果保存在item2变量中。因为例中item变量指tr标签，该语句也有嵌套选择的功能。任务二：编写爬虫程序爬取网页所有td标签7.鼠标右击main.py，执行Run'main'运行程序main.py如图1-13所示。图1-13执行Run'main'运行程序main.py任务二：编写爬虫程序爬取网页所有td标签8.运行程序main.py输出的结果，如图1-14所示。图1-14运行程序main.py输出的结果任务三：编写爬虫程序爬取网页所有div标签【任务分析】编写爬虫程序爬取网站数据表。1）在IIS发布网站。2）在浏览器浏览网站首页，如图1-15所示。3）编写爬虫程序爬取网站首页的数据表，并打印输出结果。图1-15在浏览器浏览网站首页任务三：编写爬虫程序爬取网页所有div标签【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot，把网站文件复制到网站目录下发布网站。2.启动PyCharm，执行File/NewPreject...，打开main.py文件，逐步输入程序代码，当输入frombs4importBeautifulSoup代码时，若提示Unresolvedreference'bs4',执行Installpackagebeautifulsoup4，安装beautifulsoup4库,如图1-16所示。图1-16执行Installpackagebeautifulsoup4任务三：编写爬虫程序爬取网页所有div标签3.安装beautifulsoup4库成功，会在右下角看到提示“Packagesinstallsuccessfully”，如图1-17所示。图1-17安装beautifulsoup4库成功任务三：编写爬虫程序爬取网页所有div标签代码参考：importrequests

frombs4importBeautifulSoup

response=requests.get('http://localhost/index.html')

response.encoding='utf8'

html=response.text

soup=BeautifulSoup(html,'html.parser')

div_tags=soup.find_all('div',class_='card')

fordiv_tagindiv_tags:

print(div_tag)任务三：编写爬虫程序爬取网页所有div标签4.执行Run'main'运行程序，如图1-18所示。图1-18执行Run'main'运行程序任务三：编写爬虫程序爬取网页所有div标签5.运行程序在终端看到爬取的网站代码，如图1-19所示。图1-19运行程序在终端看到爬取的网站代码任务四：编写爬虫程序爬取网页所有img标签【任务分析】编写爬虫程序爬取网站数据表。1）在IIS发布网站。2）在浏览器浏览网站首页，如图1-20所示。3）编写爬虫程序爬取网站首页的数据表，并打印输出结果。图1-20在浏览器浏览网站首页任务四：编写爬虫程序爬取网页所有img标签【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot，把网站文件复制到网站目录下。2.启动PyCharm，执行File/NewPreject...创建Python项目，在项目的main.py文件中，输入程序爬虫代码，如图1-21所示。图1-21任务四：编写爬虫程序爬取网页所有img标签参考代码：importrequests

frombs4importBeautifulSoup

response=requests.get('http://localhost/index.html')

response.encoding='utf8'

html=response.text

soup=BeautifulSoup(html,'html.parser')

img_tags=soup.find_all('img')

print(f"访问网站的状态码：{response.status_code}")

print(f"找到了

{len(img_tags)}个img标签")

forimginimg_tags:

print(img['src'])任务四：编写爬虫程序爬取网页所有img标签3.运行程序在终端看到爬取的标签信息，如图1-22所示。图1-22任务五：爬取网页所有文本内容【任务分析】编写爬虫程序爬取网站数据表。1）在IIS发布网站。2）在浏览器浏览网站首页，如图1-23所示。3）编写爬虫程序爬取网站首页的数据表，并打印输出结果。图1-23在浏览器浏览网站首页任务五：爬取网页所有文本内容【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot，把网站文件复制到网站目录下。2.启动PyCharm，执行File/NewPreject...创建Python项目，在项目的main.py文件中，输入程序爬虫代码，如图1-24所示。图1-24任务五：爬取网页所有文本内容参考代码:importrequests

frombs4importBeautifulSoup

url='http://localhost/index.html'

response=requests.get(url)

response.encoding='utf8'

soup=BeautifulSoup(response.text,'html.parser')

job_cards=soup.find_all('div',{'class':'card'})

forcardinjob_cards:

job_title=card.find('h1').text

job_requirements=[p.textforpincard.find_all('p')]

print(job_title)

print('\n'.join(job_requirements))

print('-'*30)任务五：爬取网页所有文本内容3.运行程序在终端看到爬取的网站代码，如图1-25所示。图1-25任务六：编写爬虫程序爬取网站数据表【任务分析】

编写爬虫程序爬取网站数据表。1）在IIS发布网站。2）在浏览器浏览网站首页，如图1-26所示。3）编写爬虫程序爬取网站首页的数据表，并打印输出结果。图1-26浏览网站首页任务六：编写爬虫程序爬取网站数据表【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot，把网站文件复制到网站目录下。2.启动PyCharm，执行File/NewPreject...创建Python项目，在项目的main.py文件中，输入程序爬虫代码，如图1-27所示。图1-27点击Istallpackageparsel任务六：编写爬虫程序爬取网站数据表爬虫代码：importrequests

fromparselimportSelector

response=requests.get('http://localhost/index.html

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据应用技术基础》课件项目一大数据与爬虫

文档简介

温馨提示

最新文档

评论

《大数据应用技术基础》课件 项目一 大数据与爬虫

文档简介

温馨提示

最新文档

评论

相关文档

《大数据应用技术基础》课件项目一大数据与爬虫