下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.Python爬虫的作用是什么?()A.爬取网页上的图片B.爬取网页上的文本C.爬取网页上的视频D.爬取网页上的音频2.以下哪个不是Python爬虫常用的库?()A.requestsB.BeautifulSoupC.ScrapyD.Pygame3.以下哪个不是HTTP协议中的请求方法?()A.GETB.POSTC.DELETED.UPDATE4.以下哪个正则表达式可以匹配所有以数字开头的字符串?()A.^\d+$B.^\d*$C.^\d+$D.^\d{1,}$5.以下哪个不是BeautifulSoup库中常用的解析器?()A.lxmlB.html.parserC.xmlD.json6.以下哪个XPath表达式可以选取所有class属性为"example"的元素?()A.//*[@class="example"]B.//*[class="example"]C.//*[@class=="example"]D.//*[@*]7.以下哪个不是Python网络爬虫的常用爬取策略?()A.深度优先策略B.广度优先策略C.贪心策略D.随机策略8.以下哪个不是Python网络爬虫的常用反爬机制?()A.IP代理池B.User-Agent伪装C.验证码识别D.数据加密9.以下哪个不是Python网络爬虫的常用反反爬机制?()A.动态IP代理池B.随机User-Agent伪装C.模拟登录验证机制D.数据解密10.Python爬虫中常用的数据处理工具有哪些?()A.pandas库B.numpy库C.matplotlib库D.以上所有在字符串前添加r可使字符串不经过转义()可以直接通过BeautifulSoup或tag对象实现BeautifulSoup中find_all()方法的功能()HTTP所有状态码的第一个数字代表了响应的五种状态之一()HTTP状态码中,200表示请求已成功,数据随此响应返回()在XPath中,希望选取此节点的所有子节点,应该使用”//”()在XPath中,希望选取所有名称为”title”的子节点,应该使用”//title”()在XPath中,希望选取所有名称为title且属于bookstore元素的元素,应该使用”//bookstore/title”()在XPath中,希望选取所有价格大于或等于30且小于40的书应该使用”//book[price>=30andprice<40]”()正则表达式中,使用”a.*”来匹配任意以字母a开头的字符串()BeautifulSoup库可以通过属性名和属性值来查找HTML或XML文件中的元素,比如使用soup.find_all(attrs={"class":"book"})来查找所有属性名为book的元素,返回值是一个列表()在浏览器中打开网站后,在网站首页的地址后面添加______,如果网站设置了访问许可,按回车就可以看到网站的robots
协议,即
robots.txt
文件内容。Web页面它具有一定的结构,即由_______。HTTP状态码是用来表示网页服务器HTTP响应状态的3位数字代码。状态码包含了五种类别,即消息、____、_____、______和服务器错误.404代表“NOTFOUND”,认为网页已经失效;___代表“ServiceUnavailable”,认为网页临时不可访问;___代表“Forbidden”,认为网页目前禁止访问;___代表是“MovedPermanently”,认为网页重定向至新URL。Requests模块中,headers参数的作用是________。若想要读写模式打开文件,应该使用___Cooike是___端的,数据保存在___端;Session是_____端的,数据保存在_____。使用matplotlib绘制散点图,使用的函数是_______。html标签从闭合的角度可以分为_______与______。按照链接的存在方式不同,分为________和________。什么是爬虫?爬虫的流程是什么?Python中常用的爬虫库有哪些?写爬虫是用单线程好还是多线程好?为什么?爬虫中如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年人护理评价
- 户外景区安全员培训课件
- 初中历史课堂中运用多媒体技术提升学生历史认知与情感体验的实证研究教学研究课题报告
- 初中英语演讲中服装风格对听众印象塑造课题报告教学研究课题报告
- 企业信息化建设与运维管理(标准版)
- 山东高速集团有限公司2025年下半年校园招聘(管培生和战略产业人才招聘)备考题库及一套参考答案详解
- 2026年学前心理考试题库完整
- 2026年大连职业技术学院单招职业技能考试题库附答案
- 岳阳楼区珍珠山幼儿园2026年春季教师招聘备考题库带答案详解
- 2026年淮南职业技术学院单招综合素质考试题库新版
- 除尘布袋更换施工方案
- 员工工资明细表Excel模板
- DB32-T 4086-2021 特种设备风险分级管控工作规范
- 深圳加油站建设项目可行性研究报告
- 浙江省交通设工程质量检测和工程材料试验收费标准版浙价服定稿版
- JJG 945-2010微量氧分析仪
- GB/T 38537-2020纤维增强树脂基复合材料超声检测方法C扫描法
- “多规合一”实用性村庄规划质检软件建设方案
- GB/T 20727-2006封闭管道中流体流量的测量热式质量流量计
- GB/T 16770.1-2008整体硬质合金直柄立铣刀第1部分:型式与尺寸
- 红楼梦研究最新课件
评论
0/150
提交评论