奥鹏最新南开大学本部20秋学期网络爬虫与信息提取在线作业非免费答案_第1页
奥鹏最新南开大学本部20秋学期网络爬虫与信息提取在线作业非免费答案_第2页
奥鹏最新南开大学本部20秋学期网络爬虫与信息提取在线作业非免费答案_第3页
奥鹏最新南开大学本部20秋学期网络爬虫与信息提取在线作业非免费答案_第4页
奥鹏最新南开大学本部20秋学期网络爬虫与信息提取在线作业非免费答案_第5页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、拿答案:1144766066答案来源:雅宝题库网()-南开大学(本部)20 秋学期(1709、1803、1809、1903、1909、2003、2009)网络爬虫与信息提取在线作业试卷总分:100 得分:100第 1 题,()是 Scrapy 官方开发的,用来部署、运行和管理 Scrapy 爬虫的工具A、ScrapydB、ScrapyDeployC、DeployDScrapy_Deploy 正确答案:第 2 题,当爬虫创建好了之后,可以使用scrapy()”命令运行爬虫。A、startupB、starwarC、drawlDcrawl 正确答案:第 3 题,在 Scrapy 的目录下,哪个文件负

2、责存放爬虫的各种配置信息?()A、spiders 文件夹B、item.pyC、pipeline.pyDsettings.py 正确答案:第 4 题,使用 UIAutomatorr 根据坐标来滑动桌面的操作是得到相应控件后使用命令()A、swipeB、moveC、scrollDsfly 正确答案:答案来源:雅宝题库网(),windows 中创建定时任务的命令为A、 taskB、schtasksC、createtasksDmaketasks:第 6 题,MongoDB 中数据存储的形式类似于()AB、C、D、正确答案:第 7 题,requests 中 post 请求方法的使用为 requests.

3、post (data 为 ()A、B、C、D、正确答案:第 8 题,Python 中把列表转换为集合需要使用#函数A、setB、listC、convertDchange正确答案:第 9 题, 使用了 RedisSpider 作为爬虫的父类以后, 爬虫会直接监控()中的数据, 并不读取 start_urls中的数据。A、RedisB、RedisSpiderC、SpiderD.MongoDB正确答案:表组典合列元字集网址,data=data)中的表组典合列元字集答案来源:雅宝题库网(),在 MacOS 下安装 MongoDB用命令()installmongodbA、brewB、apt-getC、s

4、udoDapt正确答案:第 11 题,当需要把 Python 里面的数据发送给网页时,应先将其转换成()AJson 字符串B、GETC、POSTDRequest正确答案:答案来源:雅宝题库网(),服务器端记录信息确定用户身份的数据是A、sessionB、cookiesC、moonpiesDlocalstorage正确答案:第 13 题,下列说法错误的是()A、小程序的请求极其简单,基本上没有验证信息B、 用 Python 来请求小程序的后台接口从而获取数据, 比请求异步加载网页的后台接口要复杂很多。C、如果目标网站有小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。Dk 小程序的反爬虫

5、能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率。正确答案:第 14 题,下面 Python 代码输出为():defdefault_para_trap(para=口,value=0):para.append(value)returnparaprint(第步:.format(default_para_trap(value=100)print(第二步:。.format(default_para_trap(value=50)A 第一步:100第二步:100,50B、第一步:100第二步:50C、第一步:100第二步:口DK 第一步:100第二步:100正确答案:答案来源:雅宝

6、题库网(),在 Scrapy 的目录下,哪个文件负责存放爬虫文件?()A、spiders 文件夹B、item.pyC、pipeline.pyDsettings.py正确答案:第 16 题,xpath 中 extractA方法返回值类型是()B、C、D表组典合列元字集正确答案:第 17 题,参数 headers=(),把请求头添加到 Scrapy 请求中, 使爬虫的请求看起来像是从浏览器发起的。AHEADERB、HEADERSC、HEADDBODY正确答案:第 18 题,Python 中 Object=(1,2,3,4,5),A、B、C、D则 Objcet 是()表组典合列元字集正确答案:第 1

7、9 题,在 Scrapy 的目录下,哪个文件负责定义需要爬取的数据?()A、spiders 文件夹B、item.pyC、pipeline.pyDsettings.py正确答案:答案来源: 雅宝题库网(以()形式生成AB、C、D.表组典合列元字集正确答案:),Scrapy 中使用 Xpath 狄得的结果调用了.extract 方法,结果第 21 题,Python 中的容器有()A、B、C、D.表组典合列元字集正确答案:,B,C,D第 22 题,使用 Selennium 狄取网页中元素的方法有A、find_element_by_nameB、find_element_by_idC、find_elem

8、ents_by_nameDfind_elements_by_id正确答案:,B,C,D第 23 题,一个可行的自动更换代理的爬虫系统,应该下列哪些功能?A、有一个小爬虫 ProxySpider 去各大代理网站爬取免费代理并验证,将可以使用的代理 IP保存到数据库中B、在发现某个请求已经被设置过代理后,什么也不做,直接返回C、在 ProxyMiddlerware 的 process_request 中,每次从数据库里面随机选择一条代理地址使用DK 周期性验证数据库中的无效代理,及时将其删除正确答案:,C,D第 24 题,下列关于在 IOS 上配置 Charles 的说法正确的是()A、不同 io

9、s 设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。B、手机和电脑需要在同一个局域网下。C、HTTP 代理可以使用自动选项。D 安装好证书以后,打开 iOS 设备上的任何一个 App,可以看到 Charles 中有数据包在流动正确答案:,D答案来源:雅宝题库网(),下列说法错误的是()A、mitmproxy 的强大之处在于它还自带一个 mitmdump 命令。这个命令可以用来运行符合一定规则的 Python 脚本,并在 Python 脚本里面直接操作 HTT可口 HTTPS 勺请求,以及返回的数据包。B、命令行中执行 mitmdump-sparse_request.py

10、即可运行 python 脚本C、使用 python 可以自定义返回的数据包,如 response.headers,就是返回的头部信息 Dk 如果返回的是 JSONI 型的字符串,python 无法进行解析。正确答案:第 26 题,以下 HTTP 状态码表示服务器本身发生错误的是A、400B、503C、302DK500正确答案:,D第 27 题,Python 中哪种容器生成后可以修改内容A 列表B、元组C、字典D集合正确答案:,C,DIP第 28 题,以下 HTTP 状态码表示服务器没有正常返回结果的是A、200B、301C、404D.500正确答案:,C,D第 29 题,如果目标网站有反爬虫声

11、明,那么对方在被爬虫爬取以后,可以据()来起诉使用爬虫的公司A、服务器日志B、数据库日志记录C、程序日志记录Dk 服务器监控正确答案:,B,C,D答案来源:雅宝题库网(),requests 中 post 请求方法的第二个参数可以为()A、字典B、列表C、json 数据D 字符串正确答案:,C第 31 题,process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数 parse_xxx()前调用T、对F、错正确答案:F第 32 题,需要登录的网站一般通过 GET 请求就可以实现登录。T、对F、错第 33 题,Pyth

12、on 中相比于 findall 方法,search 方法对于从超级大的文本里面只找第 1 个数据特别有用,可以大大提高程序的运行效率。T、对F、错更多答案下载:雅宝题库网()第 34 题,UIAutomatorViewer 与 Pythonuiautomator 可以同时使用T、对F、错正确答案:F第 35 题,device.sleep()方法是使用 UIAutomatorr 关闭屏幕的命令T、对F、错更多答案下载:雅宝题库网()第 36 题,在发送请求时需要注意 requests 提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的T、对F、错正确答案:F第 37

13、题,mitmproxy 的强大之处在于它还自带一个 mitmdump 命令。这个命令可以用来运行符合一定规则的 Python 脚本T、对F、错更多答案下载:雅宝题库网()第 38 题,MongoDB 是一个关系数据库产品T、对F、错第 39 题,Python 正则表达式中.*?”是非贪婪模式,获取最短的能满足条件的字符串T、对F、错更多答案下载:雅宝题库网()第 40 题,Charles 能截获 HTT 评口 HTTPS 勺数据包,如果网站使用 websocket 就可以截获T、对F、错正确答案:F第 41 题,Charles 和 Chrome 开发者工具相比,只是多了一个搜索功能T、对F、错

14、正确答案:第 42 题,爬虫中间件的激活需要另外写一个文件来进行T、对F、错正确答案:F第 43 题,Cookies 一般包含在请求头 Headers 中T、对F、错更多答案下载:雅宝题库网()第 44 题,已经创建好的 Scrapy 爬虫*py 文件可以直接通过 Python 来运行T、对F、错正确答案:F第 45 题,如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的T、对F、错更多答案下载:雅宝题库网()第 46 题,Redis 中使用 Irange 读取数据后数据也会删除T、对F、错正确答案:第 47 题,开源库 pytesseract 的作用是将图像中文字转换为文本T、对F、错更多答案下载:雅宝题库网()第 48 题,Scrapy 每一次发起请求之前都会在这里检查网址是否重复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论