《大数据应用技术基础》课件 项目二 数据保存处理_第1页
《大数据应用技术基础》课件 项目二 数据保存处理_第2页
《大数据应用技术基础》课件 项目二 数据保存处理_第3页
《大数据应用技术基础》课件 项目二 数据保存处理_第4页
《大数据应用技术基础》课件 项目二 数据保存处理_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目二数据保存处理目录任务一:爬取网站图片并重命名保存任务二:爬取网站通知保存到word文档任务三:爬取网站数据表排序后保存到txt文件任务四:爬取网站图片路径信息保存在word文档任务五:爬取数据表保存在xlsx文件任务六:爬取数据表保存在csv文件任务一:爬取网站图片并重命名保存【任务分析】编写爬虫程序爬取网站图片并按序列保存。1)在IIS发布网站。2)在浏览器浏览网站首页,如图2-1所示。3)编写爬虫程序爬取网站首页的jpg图片

文件,并保存在d:\htmlimages目录下。图2-1在浏览器浏览网站首页的效果任务一:爬取网站图片并重命名保存【任务实施】

1.在资源管理器打开网站目录C:\inetpub\wwwroot,把网站文件复制到网站目录下。2.启动PyCharm,执行File/NewPreject...创建Python项目,在项目的main.py文件中,输入程序爬虫代码。importos

importrequests

frombs4importBeautifulSoup

#创建保存图片的目录

save_dir="d:/htmlimages"

ifnotos.path.exists(save_dir):

os.makedirs(save_dir)

#请求网页

url="http://localhost"

response=requests.get(url)

#解析HTML

soup=BeautifulSoup(response.text,"html.parser")

#获取所有图片标签

image_tags=soup.find_all("img")

#下载图片并保存到指定目录

fori,imginenumerate(image_tags):

src=img["src"]

image_url=f"{url}/{src}"

file_name=f"t{i+1}.jpg"

file_path=os.path.join(save_dir,file_name)

response=requests.get(image_url)

withopen(file_path,"wb")asf:

f.write(response.content)

print(f"已保存图片:{file_path}")参考代码:任务一:爬取网站图片并重命名保存经验分享:

采用os.makedirs创建目录save_dir="d:/htmlimages"#创建一个变量save_dir保存目录,拟用于保存图片ifnotos.path.exists(save_dir):#检查该目录如果不存在os.makedirs(save_dir)#创建目录d:/htmlimages

任务一:爬取网站图片并重命名保存3.查看运行结果,可看到终端输出已保存文件信息,如图2-2所示。图2-2查看运行结果任务二:爬取网站通知保存到word文档【任务分析】编写爬虫程序爬取网站数据表排序后保存输出。1)在IIS发布网站。2)在浏览器浏览网站首页,如图2-3所示。3)编写爬虫程序爬取网站的销售数据表,按降序处理排序后保存到d:\data\datas.txt文件中。图2-3在浏览器浏览网站首页的效果任务二:爬取网站通知保存到word文档【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot,把网站文件复制到网站目录下。2.启动PyCharm,执行File/NewPreject...创建Python项目,在项目的main.py文件中,输入程序爬虫代码,运行程序后,查看输出信息,确认“开工通知”文本内容在标签<divclass="notice">中,如图2-4所示。图2-4输入程序爬虫代码任务二:爬取网站通知保存到word文档参考代码:importrequests

url="http://localhost/index.html"

response=requests.get(url)

response.encoding='utf8'

ifresponse.status_code==200:

html_code=response.text

print(html_code)

else:

print("请求失败,状态码:",response.status_code)经验分享:

在爬虫程序的编写中,需要把获取的网页代码输出,从中找出内容所在的标签,以确定接下的程序语句还要怎样处理。任务二:爬取网站通知保存到word文档3.编辑main.py代码,实现爬取<divclass="notice">内的文本的功能。参考代码:importrequests

frombs4importBeautifulSoup

#发送请求获取网页内容

url="http://localhost/index.html"

response=requests.get(url)

response.encoding='utf8'

ifresponse.status_code==200:

html_content=response.text

#使用BeautifulSoup解析HTML内容

soup=BeautifulSoup(html_content,"html.parser")

#找到指定的<divclass="notice">标签并获取其中的文本

notice_div=soup.find("div",class_="notice")

ifnotice_div:

notice_text=notice_div.get_text()

#将结果保存到文件

file_path=r"d:\data\通知.doc"

withopen(file_path,"w",encoding="utf-8")asfile:

file.write(notice_text)

print("已将通知内容保存到",file_path)

else:

print("未找到指定的通知内容")

else:

print("请求失败,状态码:",response.status_code)任务二:爬取网站通知保存到word文档4.程序运行后,打开D:\data\通知.doc,查看到通知内容已存在文档中,如图2-5所示。图2-5打开D:\data\通知.doc任务三:爬取网站数据表排序后保存到txt文件【任务分析】编写爬虫程序爬取网站数据表排序后保存输出。1)在IIS发布网站。2)在浏览器浏览网站首页,如图2-6所示。3)编写爬虫程序爬取网站的销售数据表,按降序处理排序后保存到d:\data\datas.txt文件中。图2-6在浏览器浏览网站首页的效果任务三:爬取网站数据表排序后保存到txt文件【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot,把网站文件复制到网站目录下。2.启动PyCharm,执行File/NewPreject...创建Python项目,在项目的main.py文件中,输入程序爬虫代码。importrequests

frombs4importBeautifulSoup

#发送GET请求并获取网页内容

url="http://localhost/index.html"

response=requests.get(url)

response.encoding='utf8'

html_content=response.text

#使用BeautifulSoup解析网页内容

soup=BeautifulSoup(html_content,'html.parser')

#获取销售表格的所有行

table=soup.find('table')

rows=table.find_all('tr')

#创建一个空列表来存储销售数据参考代码:任务三:爬取网站数据表排序后保存到txt文件sales_data=[]

#遍历每一行,提取销售数据

forrowinrows[1:]:#跳过表头行

cells=row.find_all('td')

branch=cells[0].text

sales=int(cells[1].text.strip().replace(",",""))#去除逗号,转换为整数

profit=cells[2].text

order_count=cells[3].text

#将销售数据添加到列表中

sales_data.append((branch,sales,profit,order_count))

#按销售额降序排序销售数据

sales_data.sort(key=lambdax:x[1],reverse=True)

#将销售数据保存到文本文件

output_file=r"d:\data\datas.txt"

withopen(output_file,'w')asfile:

fordatainsales_data:

file.write(f"{data[0]}\t{data[1]}\t{data[2]}\t{data[3]}\n")

print("销售数据已保存到文件.")任务三:爬取网站数据表排序后保存到txt文件经验分享:

水平制表符\t\t是一个转义序列,代表水平制表符(Tab)。在字符串中使用\t时,它会被解释为一个特殊字符,用于产生一个水平制表符的效果。

水平制表符用于在文本中创建水平对齐的间距。在使用\t的地方,它会被替换为适当数量的空格字符,以便在输出中产生等同于一个制表符的效果。通常情况下,一个制表符相当于多个空格字符的宽度。任务三:爬取网站数据表排序后保存到txt文件3.运行后,打开d:\data\datas.txt文件,查看到输出的降序数据,如图2-7所示。图2-7打开d:\data\datas.txt文件任务四:爬取网站图片路径信息保存在word文档【任务分析】编写爬虫程序爬取网站图片路径信息保存在word文档。1)在IIS发布网站。2)在浏览器浏览网站首页,如图2-8所示。3)编写爬虫程序爬取网站首页所有的img标签的src属性设置的图片路径信息,并保存在d:\data\picture.doc文件中。图2-8在浏览器浏览网站首页的效果任务四:爬取网站图片路径信息保存在word文档【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot,把网站文件复制到网站目录下。2.启动PyCharm,执行File/NewPreject...创建Python项目,在项目的main.py文件中,输入程序爬虫代码。参考代码:importrequests

frombs4importBeautifulSoup

#设置请求头,模拟浏览器行为

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/58.0.3029.110Safari/537.3'}

#发送GET请求,获取网页内容

url='http://localhost/index.html'

response=requests.get(url,headers=headers)

html=response.text

#使用BeautifulSoup解析网页内容

soup=BeautifulSoup(html,'html.parser')

#获取所有图片的src属性,并保存到本地文件中

withopen('d:\\data\\picture.doc','w')asf:

forimginsoup.find_all('img'):

src=img['src']

f.write(src+'\n')任务四:爬取网站图片路径信息保存在word文档3.运行后,打开d:\data\picture.doc文件能看到输出文件内容,如图2-9所示。图2-9打开d:\data\picture.doc文件任务五:爬取数据表保存在xlsx文件【任务分析】爬取数据表保存在xlsx文件。1)在IIS发布网站。2)在浏览器浏览网站首页,如图2-10所示。3)编写爬虫程序爬取网站首页数据表的前10行记录,保存在D:/out.xlsx文件中。图2-10在浏览器浏览网站首页的效果任务五:爬取数据表保存在xlsx文件【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot,把网站文件复制到网站目录下。2.启动PyCharm,执行File/NewPreject...创建Python项目,在项目的main.py文件中,输入程序爬虫代码。参考代码:importrequests

frombs4importBeautifulSoup

fromopenpyxlimportWorkbook

#发送GET请求获取网页内容

url="http://localhost/index.html"

response=requests.get(url)

response.encoding='utf8'

html=response.text

#使用BeautifulSoup解析网页内容

soup=BeautifulSoup(html,'html.parser')

#创建一个电子表格

workbook=Workbook()

sheet=workbook.active

#查找数据表格并提取前10行数据

table=soup.find('table')

rows=table.find_all('tr')[1:11]#跳过表头,只保留前10行数据

#将数据写入电子表格

forrowinrows:

cells=row.find_all('td')

row_data=[]

forcellincells:

row_data.append(cell.text)

sheet.append(row_data)

#保存电子表格

workbook.save("D:/out.xlsx")任务五:爬取数据表保存在xlsx文件3.运行后,打开D:/out.xlsx文件能看到输出文件内容,如图2-11所示。图2-11打开D:/out.xlsx文件任务六:爬取数据表保存在csv文件【任务分析】爬取数据表保存在csv文件。1)在IIS发布网站。2)在浏览器浏览网站首页,如图2-12所示。3)编写爬虫程序爬取网站首页数据表的前10行记录,保存在D:/out.csv文件中。图2-12在浏览器浏览网站首页的效果任务六:爬取数据表保存在csv文件【任务实施】1.在资源管理器打开网站目录C:\inetpub\wwwroot,把网站文件复制到网站目录下。2.启动PyCharm,执行File/NewPreject...创建Python项目,在项目的main.py文件中,输入程序爬虫代码。参考代码:frombs4importBeauti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论