付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
习题三一、单选选择题1.下列不属于常见爬虫类型的是()A.通用网络爬虫B.增量式网络爬虫C.浅层网络爬虫D.聚焦网络爬虫2.下列不属于聚焦网络爬虫的常用策略的是()A.基于深度优先的爬取策略B.基于内容评价的爬取策略C.基于链接结构评价的爬取策略D.基于语境图的爬取策略3.下列不属于常用反爬虫手段的是()A.访问频度B.验证码校验C.账号权限D.人工筛选4.下列属于反爬虫目的的是()A.限制访问人数B.防止网站信息被竞争对手随意获取C.限制用户访问权限D.变换网页结构5.下列关于Python爬虫库的功能,描述不正确的是()A.通用爬虫库-urllib3B.通用爬虫库-RequestsC.爬虫框架-ScrapyD.HTML/XMML解析器pycur6.下列不属于Socket库中的方法是()A.服务器端方法B.公共方法C.通信方法D.客户端方法7.下列属于HTTP必须实现的请求方法的是()A.GET与HEADB.POST与DELETEC.TRACE和OPTIONSD.OPTIONS和CONNECT8.下列不属于HTTP头部类型的是()A.通用头B.回复头C.请求头D.响应头9.下列有关Cookie机制描述错误的是()A.服务器能通过Cookie识别用户B.通过Cookie验证后不需重新提交表单C.Cookie按内存式或硬盘式进行存储D.Cookie不存在时效性10.下列不属于HTTP请求过程的是()A.生成请求B.超时设置C.请求重定向D.搜索文档11.Apache服务器是实现()网络协议的服务器。A.FTPB.DHCPC.HTTPDD.HTTP12.网络爬虫最常需要配置的请求头是()A.user-agentB.accept-encodingC.acceptD.referer二、问答题1.数据采集定义2.数据来源分类3.数据质量评估一、选择题:1-6CADBDC7-12ABDDDA二、问题题:1.数据采集定义答:数据采集(DataCollection)是指通过特定方法和工具,系统地从各种来源收集、获取并整理数据的过程。这些数据可以是结构化的,如数据库中的表格信息,也可以是非结构化的,如社交媒体上的文本、图像或视频。2.数据来源分类答:数据来源可以根据不同的标准进行分类,常见的分类方式有:按照数据产生方式:原始数据(一手数据如调研问卷、实验数据)和二手数据(如已发布的研究报告、公开数据库)。按照数据形态:文本数据、图像数据、音频数据、视频数据等。按照数据来源:内部数据(组织内部系统生成的数据)和外部数据(如公共数据库、第三方服务机构提供的数据)。3.数据质量评估答:数据质量评估是对采集到的数据的质量进行检查和评价的过程,主要包括以下几个方面.准确性:数据是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农行员工培训制度
- 留学人员培训制度
- 客房部经理培训制度
- 咖啡店培训考核制度
- 师生安全培训制度
- 教育宣传培训制度
- 培训班各类管理制度
- 煤矿培训后勤保障等制度
- 培训老师请假制度
- 教育科研培训制度
- 退役军人之家管理制度
- 陕西省2025届高考 英语适应性检测(二) 英语试卷(含解析)
- 室外及绿化工程技术难点及质量控制关键点
- 施工合作协议书
- 四川省绵阳市涪城区2024-2025学年九年级上学期1月期末历史试卷(含答案)
- 儿童故事绘本愚公移山课件模板
- IIT临床研究培训
- 中国消化内镜内痔诊疗指南及操作共识(2023年)
- GB/T 20568-2022金属材料管环液压试验方法
- JJF 1798-2020隔声测量室校准规范
- GB/T 29516-2013锰矿石水分含量测定
评论
0/150
提交评论