下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《网络爬虫与信息提取》20春期末考核-00001要答案751495932一、单选题(共20道试题,共40分)如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个()列表元组字典集合答案:C使用UIAutomatorr输入文字的操作是得到相应控件后使用命令()settextsetset_texttext答案:C在Scrapy的目录下,哪个文件负责存放爬虫文件?()spiders文件夹item.pypipeline.pysettings.pyHTTP常用状态码表明服务器正忙的是()TOC\o"1-5"\h\z500503403404如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击XSSDOSDDOSD胯域使用UIAutomatorr判断元素是否存在的操作是得到相应控件后使用命令()existexistsisnullcontains7.带上通过Chrome浏览器从评论页面复制而来的()再发起请求,可以减少爬虫被网站封锁的概率CookieHtmlHeadersCSS8.Redis中查看一个列表长度,使用关键字()lenlengthllencount9.使用Xpath获取文本使用()texttext()contentcontent()使用python定制mitmproxy,下面的语句请求的是()。{req.headers["User-Agent"]}headers文本内容目标网站user-agentPython中Object={1,2,3,4,5},则Objcet是()列表元组字典集合在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?()spiders文件夹item.pypipeline.pysettings.pyRedis是一个开源的使用()语言编写ANSICC++JAVAPython14•某些网站在发起Ajax请求时会携带()字符串用于身份验证TokenCookieReqTimesum15.使用UIAutomatorr点亮屏幕的操作是得到相应控件后使用命令()wakeuplightbrightsleep16.Chrome的开发者工具中哪个选项可以查找到cookiesElementsSourcesNetworkPeformance17.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成列表元组字典集合以下哪个命令是创建文件夹命令()curltar-zxvfmkdircp可以通过()绕过网站登录。sessioncookiesmoonpieslocalstoragePython中把列表转换为集合需要使用##函数setlistconvertchange二、多选题(共5道试题,共10分)Python中的容器有()列表元组字典集合22.HTTP常用状态码表明表明服务器本身发生错误的有()40340450050323.Python中哪种容器生成后可以修改内容列表元组字典集合最常见的HTTP请求类型有()GETPOSTSENDRECEIVEBS4可以用来从()中提取数据HTMLXML数据库JSON三、判断题(共10道试题,共20分)在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用Robo3T与RoboMongo是完全不一样的软件Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行33.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exeredis.windows.conf启动Redismiddlewares.py是下载器中间件在Charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。四、主观填空题(共4道试题,共8分)使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控##中的数据,并不读取start_urls中的数据。一般通过##表达式来解析网页数据实现异步加载需要利用##技术Python中定义函数关键字为##五、简答题(共2道试题,共10分)Python正则表达式中sear
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026福建福州市园开新筑开发建设有限公司招聘1人考试备考试题及答案解析
- 2026年01月广东广州市天河区长湴小学招聘编外聘用制专任教师2人考试备考题库及答案解析
- 2026广西百色市平果市政协办公益性岗位人员招聘1人考试备考题库及答案解析
- 2026河北邯郸市涉县招聘警务辅助人员23人考试参考题库及答案解析
- 2026吉林北华大学招聘博士人才212人(1号)考试参考题库及答案解析
- 2026西藏日喀则市亚东县爱国主义教育基地招聘讲解员1人考试备考题库及答案解析
- 2026备战中考【语文考点专练:“说明文、散文阅读”专题】精练(含答案)
- 2026四川德阳市旌阳区孝感社区卫生服务中心招聘护士2人考试备考试题及答案解析
- 2026云南昆明市昆华实验中招聘10人考试参考试题及答案解析
- 2026上海宝山区行知科创学院“蓄电池计划”招募考试参考题库及答案解析
- GB/T 18991-2003冷热水系统用热塑性塑料管材和管件
- GA/T 947.3-2015单警执法视音频记录系统第3部分:管理平台
- FZ/T 50047-2019聚酰亚胺纤维耐热、耐紫外光辐射及耐酸性能试验方法
- 市政道路施工总进度计划表
- (更新版)国家开放大学电大《机械制造基础》机考网考题库和答案
- 2023年新疆文化旅游投资集团有限公司招聘笔试模拟试题及答案解析
- aw4.4工作站中文操作指南
- 国际货物运输与保险课后习题参考答案
- 项目经理竞聘简约PPT(中建)
- (WORD版可修改)JGJ59-2023建筑施工安全检查标准
- 区老旧住宅长效物业管理工作推进方案老旧小区管理方案.doc
评论
0/150
提交评论