网络爬虫项目实战 课件7-3 购物Selenium爬虫实战(课后练习)_第1页
网络爬虫项目实战 课件7-3 购物Selenium爬虫实战(课后练习)_第2页
网络爬虫项目实战 课件7-3 购物Selenium爬虫实战(课后练习)_第3页
网络爬虫项目实战 课件7-3 购物Selenium爬虫实战(课后练习)_第4页
网络爬虫项目实战 课件7-3 购物Selenium爬虫实战(课后练习)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目7购物Selenium爬虫项目网络爬虫实战项目式教程《网络爬虫项目实战》高级篇7.2任务分解7.1项目介绍7.4课后练习目录Content7.3项目实施7.5能力拓展7.4课后练习1.选择题1.Selenium通过( )与Chrome浏览器通讯。A.IEExplorerB.Firefox C.QQ D.ChromeDriver2.DataFrame.to_csv(“test.csv”,header=None)中,header=None控制()。A.test.csv不包含列名。B.test.csv不包含DataFrame第一行。C.test.csv包含索引列。D.test.csv包含列名。3.DataFrame.to_csv(“test.csv”,index=False)中,index=False控制()。A.test.csv不包含列名。B.test.csv不包含DataFrame第一行。C.test.csv不包含索引列。D.test.csv包含列名。7.4课后练习1.选择题4.执行splited_df=df["单位属性"].str.extract("(?P<单位类型>.+)\|(?P<规模>.+)")后,splited_df最多包含()列。A.0B.1C.2D.35.cypher_text=re.sub("\d+","*","电话)中,\d+代表()。A.0到多个数字。B.1到多个数字。C.0到多个字母。D.1到多个字母。7.4课后练习2.填空题(1)技术人员想从brochure.html中爬取招生院校后保存到college_raw.csv,请完善代码。#encoding=utf-8fromlxml.htmlimportetreeimportcsvwithopen("brochure.html","r",encoding="utf-8")asf:html_str=f.read()html_obj=etree.HTML(html_str)

#简章标题

h1_title=html_obj.cssselect("_____")[0]7.4课后练习

print("标题:{}".format(h1_title.text))colleges=html_obj.cssselect("div.wp_articlecontent")forcollegeincolleges:#析取学校名称

strong_name=college.cssselect("__________")[0]#析取学校代码

strong_code=college.cssselect("__________")[0]#析取招生代号

strong_jscode=college.cssselect("__________")[1]#析取办学地点

strong_location=college.cssselect("__________")[0]#保存到CSV文件

withopen('college_raw.csv',mode='a',encoding='utf-8',newline='')asf:csv_writer=csv.writer(f,delimiter=',')csv_writer.writerow([strong_name.text,strong_code.text,strong_jscode.text,strong_location.text])7.4课后练习2.填空题(2)生成的college_raw.csv中,每列都包含键值对,键和值之间用“:”分隔,比如“一、学校名称:苏州太湖学院”,技术人员想把值(例如“苏州太湖学院”)解析出来保存到brochure_clean.csv,请完善代码。#encoding=utf-8importpandasaspdlabels=["学校名称","学校代码","招生代号","办学地点"]df=pd.read_csv('college_raw.csv',names=labels,encoding='utf-8')7.4课后练习'''每列以键值对出现,比如第一行为:一、学校名称:苏州太湖学院,学校代码:13383,招生代号:1265,二、办学地点:江苏省苏州市吴中区吴中大道1171号要求删除每个健,只保留值。'''defextract_amount_char(x):value=__________returnvaluedf["学校名称"]=__________df["学校代码"]=__________df["招生代号"]=__________df["办学地点"]=__________print

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论