南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)_第1页
南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)_第2页
南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)_第3页
南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)_第4页
南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南开大学20秋网络爬虫与信息提取在线作业(参考答案)()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy当爬虫创建好了之后,可以使用“scrapy()”命令运行爬虫。A.startupB.starwarC.drawlD.crawl在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()。A.swipe

2、B.moveC.scrollD.flywindows中创建定时任务的命令为()。A.taskB.schtasksC.createtasksD.maketasksMongoDB中数据存储的形式类似于()。A.列表B.元组C.字典D.集合requests中post请求方法的使用为requests.post(网址, data=data)中的data为()。A.列表B.元组C.字典D.集合Python中把列表转换为集合需要使用()函数。A.setB.listC.convertD.change使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据

3、。A.RedisB.RedisSpiderC.SpiderD.MongoDB在Mac OS下安装MongoDB使用命令()install mongodb。A.brewB.apt-getC.sudoD.apt当需要把Python里面的数据发送给网页时,应先将其转换成()。A.Json字符串B.GETC.POSTD.Request服务器端记录信息确定用户身份的数据是()。A.sessionB.cookiesC.moonpiesD.localstorage下列说法错误的是()。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接

4、口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率下面Python代码输出为():def default_para_trap(para=,value=0):para.append(value)return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第

5、一步:100第二步:D.第一步:100第二步:100在Scrapy的目录下,哪个文件负责存放爬虫文件?()A.spiders文件夹B.item.pyC.pipeline.pyD.settings.pyxpath中extract方法返回值类型是()。A.列表B.元组C.字典D.集合参数headers=(),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODYPython中Object=(1,2,3,4,5),则Objcet是()。A.列表B.元组C.字典D.集合在Scrapy的目录下,哪个文件负责定义需要爬取的数据?(

6、)A.spiders文件夹B.item.pyC.pipeline.pyD.settings.pyScrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成。A.列表B.元组C.字典D.集合Python中的容器有()。A.列表B.元组C.字典D.集合使用Selennium获取网页中元素的方法有()。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id一个可行的自动更换代理的爬虫系统,应该下列哪些功能?()A.有一个小爬虫ProxySpider去各大代理

7、网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后,什么也不做,直接返回C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中的无效代理,及时将其删除下列关于在IOS上配置charles的说法正确的是()。A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口B.手机和电脑需要在同一个局域网下C.HTTP代理可以使用“自动”选项D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动下列说法错误的是()

8、。A.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包B.命令行中执行mitmdump -s parse_request.py即可运行python脚本C.使用python可以自定义返回的数据包,如response.headers,就是返回的头部信息D.如果返回的是JSON类型的字符串,python无法进行解析以下HTTP状态码表示服务器本身发生错误的是()。A.400B.503C.302D.500Python中哪种容器生成后可以修改内容?()A.列表

9、B.元组C.字典D.集合以下HTTP状态码表示服务器没有正常返回结果的是()。A.200B.301C.404D.500如果目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据()来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控requests中post请求方法的第二个参数可以为()。A.字典B.列表C.json数据D.字符串process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用。()A.正确B.错误需要登录的网站一般通过GET请求就可以实现登

10、录。()A.正确B.错误Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。()A.正确B.错误UI Automator Viewer与Python uiautomator可以同时使用。()A.正确B.错误device.sleep()方法是使用UI Automatorr关闭屏幕的命令。()A.正确B.错误在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。()A.正确B.错误mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用

11、来运行符合一定规则的Python脚本。()A.正确B.错误MongoDB是一个关系数据库产品。()A.正确B.错误Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。()A.正确B.错误Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。()A.正确B.错误Charles和Chrome开发者工具相比,只是多了一个搜索功能。()A.正确B.错误爬虫中间件的激活需要另外写一个文件来进行。()A.正确B.错误Cookies一般包含在请求头Headers中。()A.正确B.错误已经创建好的Scrapy爬虫*.py文件可以直接通过Pyth

12、on来运行。()A.正确B.错误如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。()A.正确B.错误Redis中使用lrange读取数据后数据也会删除。()A.正确B.错误开源库pytesseract的作用是将图像中文字转换为文本。()A.正确B.错误Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。()A.正确B.错误“curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。()A.正确B.错误中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术。()A.正确B.错误 参考答案:A参考答案:D参考答案:D参考答案:A参考答案:B参考答案:C参考答案:C参考答案:A参考答案:A参考答案:A参考答案:A参考答案:A参考答案:D参考答案:A参考答案:A参考答案:A参考答案:B参考答案:B参考答案:B参考答案:A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论