版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目7购物Selenium爬虫项目网络爬虫实战项目式教程《网络爬虫项目实战》高级篇7.2任务分解7.1项目介绍7.4课后练习目录Content7.3项目实施7.5能力拓展7.4课后练习1.选择题1.Selenium通过( )与Chrome浏览器通讯。A.IEExplorerB.Firefox C.QQ D.ChromeDriver2.DataFrame.to_csv(“test.csv”,header=None)中,header=None控制()。A.test.csv不包含列名。B.test.csv不包含DataFrame第一行。C.test.csv包含索引列。D.test.csv包含列名。3.DataFrame.to_csv(“test.csv”,index=False)中,index=False控制()。A.test.csv不包含列名。B.test.csv不包含DataFrame第一行。C.test.csv不包含索引列。D.test.csv包含列名。7.4课后练习1.选择题4.执行splited_df=df["单位属性"].str.extract("(?P<单位类型>.+)\|(?P<规模>.+)")后,splited_df最多包含()列。A.0B.1C.2D.35.cypher_text=re.sub("\d+","*","电话)中,\d+代表()。A.0到多个数字。B.1到多个数字。C.0到多个字母。D.1到多个字母。7.4课后练习2.填空题(1)技术人员想从brochure.html中爬取招生院校后保存到college_raw.csv,请完善代码。#encoding=utf-8fromlxml.htmlimportetreeimportcsvwithopen("brochure.html","r",encoding="utf-8")asf:html_str=f.read()html_obj=etree.HTML(html_str)
#简章标题
h1_title=html_obj.cssselect("_____")[0]7.4课后练习
print("标题:{}".format(h1_title.text))colleges=html_obj.cssselect("div.wp_articlecontent")forcollegeincolleges:#析取学校名称
strong_name=college.cssselect("__________")[0]#析取学校代码
strong_code=college.cssselect("__________")[0]#析取招生代号
strong_jscode=college.cssselect("__________")[1]#析取办学地点
strong_location=college.cssselect("__________")[0]#保存到CSV文件
withopen('college_raw.csv',mode='a',encoding='utf-8',newline='')asf:csv_writer=csv.writer(f,delimiter=',')csv_writer.writerow([strong_name.text,strong_code.text,strong_jscode.text,strong_location.text])7.4课后练习2.填空题(2)生成的college_raw.csv中,每列都包含键值对,键和值之间用“:”分隔,比如“一、学校名称:苏州太湖学院”,技术人员想把值(例如“苏州太湖学院”)解析出来保存到brochure_clean.csv,请完善代码。#encoding=utf-8importpandasaspdlabels=["学校名称","学校代码","招生代号","办学地点"]df=pd.read_csv('college_raw.csv',names=labels,encoding='utf-8')7.4课后练习'''每列以键值对出现,比如第一行为:一、学校名称:苏州太湖学院,学校代码:13383,招生代号:1265,二、办学地点:江苏省苏州市吴中区吴中大道1171号要求删除每个健,只保留值。'''defextract_amount_char(x):value=__________returnvaluedf["学校名称"]=__________df["学校代码"]=__________df["招生代号"]=__________df["办学地点"]=__________print
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物流解决方案外包合同
- 成都it行业呼叫中心外包合同
- 18项核心制度试题及答案
- 二级建造师矿业工程案例题库(附答案)
- 杭州职工公寓外包合同
- 眼科学主治医师结膜病考试试题及答案
- 2026年特种作业人员高空安装作业安全技能考核试卷及答案
- 北京未来城主厂房给排水消防及采暖通风与空调工程施工方案
- 道路施工方案(终版)
- 幼儿园保育员五级考试试题(含答案)
- 2025中小学教师考试《教育综合知识》试题及答案
- 广东广州2012-2024年中考满分作文130篇
- DGTJ08-2271-2018 工程物探技术标准
- 卫生健康事业高质量发展路径
- 暖通可行性研究报告
- 电气建修公司运营方案
- 监狱安防报警管理制度
- 2024年中考科学易错点随身记(新统考)
- 医疗机构内部管理问题及整改措施
- 临床用血储备计划制度
- 2024年中国辅酶Q10胶囊行业投资分析、市场运行态势、未来前景预测报告
评论
0/150
提交评论