傻傻分不清的理论-第十一天附有答案_第1页
傻傻分不清的理论-第十一天附有答案_第2页
傻傻分不清的理论-第十一天附有答案_第3页
傻傻分不清的理论-第十一天附有答案_第4页
傻傻分不清的理论-第十一天附有答案_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

傻傻分不清的理论第十一天[复制]1.(单选)WebMagic使用哪个日志框架作为slf4j的实现.如果你自己定制了slf4j的实现[单选题]*A.log4jB.logbackC.slf4j-log4j12(正确答案)D.以上都不对2.(单选)webmagic-core的目标是什么[单选题]*A.是成为网页爬虫的一个教科书般的实现。(正确答案)B.注解格式定义爬虫C.模拟浏览器进行页面渲染D.分布式支持3.(单选)webmagic遵循哪个开发协议?[单选题]*A.gunB.Apache2.0协议(正确答案)C.httpD.tcp4.(单选)WebMagic中的Downloader组件作用是什么?[单选题]*A.下载、(正确答案)B.处理、C.管理D.持久化5.(单选)WebMagic中的Pipeline组件作用是什么?[单选题]*A.下载、B.处理、C.管理D.持久化(正确答案)6.(单选)WebMagic中的Scheduler组件作用是什么?[单选题]*A.下载、B.处理、C.管理(正确答案)D.持久化7.(单选)WebMagic中的PageProcessor组件作用是什么?[单选题]*A.下载、B.处理、(正确答案)C.管理D.持久化8.(单选)用于数据流转的对象Request的作用是什么?[单选题]*A.对URL地址的一层封装(正确答案)B.代表了从Downloader下载到的一个页面C.保存PageProcessor处理的结果D.以上都不对9.(单选)用于数据流转的对象Page的作用是什么?[单选题]*A.对URL地址的一层封装B.代表了从Downloader下载到的一个页面(正确答案)C.保存PageProcessor处理的结果D.以上都不对10.(单选)用于数据流转的对象ResultItems的作用是什么?[单选题]*A.对URL地址的一层封装B.代表了从Downloader下载到的一个页面C.保存PageProcessor处理的结果(正确答案)D.以上都不对11.(单选)哪个是是WebMagic操作的入口,它封装了爬虫的创建、启动、停止、多线程等功能[单选题]*A.DownloaderB.、PageProcessorC.、SchedulerD.、PipelineE.Spider(正确答案)12.(单选)哪个是WebMagic内部流程的核心[单选题]*A.DownloaderB.、PageProcessorC.、SchedulerD.、PipelineE.Spider(正确答案)13.(单选)Downloader作用是什么[单选题]*A.负责从互联网上下载页面(正确答案)B.负责解析页面,抽取有用信息C.负责管理待抓取的URL,以及一些去重的工作D.负责抽取结果的处理14.(单选)PageProcessor作用是什么[单选题]*A.负责从互联网上下载页面B.负责解析页面,抽取有用信息(正确答案)C.负责管理待抓取的URL,以及一些去重的工作D.负责抽取结果的处理15.(单选)Scheduler作用是什么[单选题]*A.负责从互联网上下载页面B.负责解析页面,抽取有用信息C.负责管理待抓取的URL,以及一些去重的工作(正确答案)D.负责抽取结果的处理16.(单选)Pipeline作用是什么[单选题]*A.负责从互联网上下载页面B.负责解析页面,抽取有用信息C.负责管理待抓取的URL,以及一些去重的工作D.负责抽取结果的处理(正确答案)17.(单选)Spider是爬虫启动的入口,其中thread(n)作用是[单选题]*A.开启n个线程(正确答案)B.启动C.异步启动D.停止爬虫18.(单选)Spider是爬虫启动的入口,其中run()作用是[单选题]*A.开启n个线程B.启动(正确答案)C.异步启动D.停止爬虫19.(单选)Spider是爬虫启动的入口,其中start()/runAsync()作用是[单选题]*A.开启n个线程B.启动C.异步启动(正确答案)D.停止爬虫20.(单选)Spider是爬虫启动的入口,其中stop()作用是[单选题]*A.开启n个线程B.启动C.异步启动D.停止爬虫(正确答案)1.WebMagic特性有*A.简单的API,可快速上手(正确答案)B.模块化的结构,可轻松扩展(正确答案)C.提供多线程和分布式支持(正确答案)D.支持任何语言2.WebMagic由四个组件构成,分别是*A.Downloader(正确答案)B.、PageProcessor(正确答案)C.、Scheduler(正确答案)D.、Pipeline(正确答案)3.WebMagic的主要部分是*A.webmagic-core(正确答案)B.webmagic-extension(正确答案)C.webmagic-MVCD.webmagic-downloadE.webmagic-selenium4.WebMagic的外围功能有*A.webmagic-samples(正确答案)B.webmagic-scripts(正确答案)C.webmagic-selenium(正确答案)D.webmagic-saxon(正确答案)5.WebMagic的生命周期包含*A.链接提取、(正确答案)B.页面下载、(正确答案)C.内容抽取、(正确答案)D.持久化(正确答案)6.WebMagic支持哪些特性*A.支持多线程抓取,(正确答案)B.分布式抓取,(正确答案)C.支持自动重试、(正确答案)D.自定义UA/cookie(正确答案)7.WebMagic可以支持哪些方式进行链接和内容的提取*A.css(正确答案)B.selector、(正确答案)C.xpath(正确答案)D.正则表达式(正确答案)8.webmagic-extensionwebmagic的扩展模块,提供一些更方便的编写爬虫的工具。包括哪些支持?*A.注解格式定义爬虫、(正确答案)B.JSON、(正确答案)C.分布式(正确答案)D.以上都对(正确答案)9.webmagic的主要特色有哪些?*A.完全模块化的设计,强大的可扩展性。(正确答案)B.核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料(正确答案)C.提供丰富的抽取页面API。(正确答案)D.无配置,但是可通过POJO+注解形式实现一个爬虫。(正确答案)10.webmagic的有哪些优点?*A.支持多线程。(正确答案)B.支持分布式。(正确答案)C.支持爬取js动态渲染的页面。(正确答案)D.无框架依赖,可以灵活的嵌入到项目中去。(正确答案)1.(判断)WebMagic是一个简单灵活的Java爬虫框架[单选题]*A.正确(正确答案)B.错误2.(判断)WebMagic需要依赖<groupId>us.codecraft</groupId>[单选题]*<artifactId>webmagic-core</artifactId>A.正确(正确答案)B.错误3.(判断)WebMagic需要依赖<groupId>us.codecraft</groupId>[单选题]*<artifactId>webmagic-extension</artifactId>A.正确(正确答案)B.错误4.(判断)WebMagic是开源的[单选题]*A.正确(正确答案)B.错误5.(判断)WebMagic的设计参考了业界最优秀的爬虫Scrapy[单选题]*A.正确(正确答案)B.错误6.(判断)WebMagic具有很好的扩展性[单选题]*A.正确(正确答案)B.错误7.(判断)wegMagic注重实用性[单选题]*A.正确(正确答案)B.错误8.(判断)WebM

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论