项目一 大数据与爬虫 练习题答案_第1页
项目一 大数据与爬虫 练习题答案_第2页
项目一 大数据与爬虫 练习题答案_第3页
项目一 大数据与爬虫 练习题答案_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

练习题(参考答案)1.下面有一段代码,请填空补充完整。importrequests

fromparselimportSelector

response=【1】requests.get('http://localhost/index.html')

response.encoding=【2】'utf8'#设置国标码

vhtml=response.text

items=Selector(text=vhtml)

vtable=items.【3】css('table')

vtr=vtable.【4】css('tr')

foriteminvtr:

item2=item.【5】css('td')

print(item2)2.下面有一段代码,请填空补充完整。importrequests

frombs4importBeautifulSoup

response=【1】requests.get('http://localhost/index.html')

response.【2】encoding='utf8'#设置国标码

html=response.【3】text#从响应对象中获取网页内容,将其赋值给变量html。

soup=BeautifulSoup(html,'html.parser')

div_tags=soup.【4】find_all('div',class_='card')#使用soup对象的find_all方法,查找所有class属性为'card'的div标签,并将结果存储在div_tags变量中。

【5】fordiv_tagindiv_tags:#遍历div_tags列表中的每个div标签。

print(div_tag)3.下面有一段代码,请填空补充完整。importrequests

【1】frombs4importBeautifulSoup#从bs4库中导入BeautifulSoup类

response=requests.get('http://localhost/index.html')

response.encoding='utf8'

html=【2】response.text#从响应对象中获取网页内容,将其赋值给变量html。

soup=BeautifulSoup(html,'html.parser')

img_tags=soup.find_all(【3】'img')#使用soup对象的find_all方法,查找所有img标签,并将结果存储在img_tags变量中。

print(f"访问网站的状态码:{【4】response.status_code}")#打印访问网站的状态码,即请求的响应状态码。

print(f"找到了{len(img_tags)}个img标签")

forimg【5】inimg_tags:#遍历img_tags列表中的每个img标签。

print(img['src'])4.下面有一段代码,请填空补充完整。url='http://localhost/index.html'

【1】response=requests.get(url)#发送GET请求,获取网页的响应对象,并将其赋值给变量response。

response.encoding='utf8'

soup=BeautifulSoup(response.text,【2】'html.parser')"""使用BeautifulSoup对response.text进行解析,创建一个BeautifulSoup对象soup。第二个参数'html.parser'表示使用Python内置的HTML解析器进行解析。"""job_cards=soup.【3】find_all('div',{'class':'card'})#使用soup对象的find_all方法,查找所有class属性为'card'的div标签,并将结果存储在job_cards变量中。

forcardinjob_cards:

job_title=card.find('h1').【4】text#在当前循环中的div标签下查找第一个h1标签,并获取其文本内容,将其赋值给变量job_title。

job_requirements=[p.textforpincard.find_all('p')]

print(job_title)

print(【5】'\n'.join(job_requirements))#打印job_requirements列表中的每个元素(即工作要求),并使用换行符连接它们。

print('-'*30)5.下面有一段代码,请填空补充完整。5.下面有一段代码,请填空补充完整。importrequestsfromparselimportSelector#发送请求并获取响应page_response=requests.get('http://localhost/index.html')print(f"HTTP状态码:{【1】page_response.status_code}")#输出网站响应状态码#设置编码并解析HTMLpage_response.【2】encoding='utf-8'#设置响应的文本编码为UTF-8,以正确解析中文字符。html_content=page_response.text#使用CSS选择器提取表格数据parsed_html=Selector(【3】html_content)table_elements=parsed_html.css('table')table_rows=table_elements.css('tr')#遍历每一行并输出数据(跳过表头)forrow_num,rowinenumerate(table_rows):columns=row.【4】css('td')#使用CSS选择器选取所有的<td>元素

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论