网络数据爬取与处理智慧树知到课后章节答案2023年下上海商学院

上传人：题*** IP属地：浙江上传时间：2023-11-10 格式：DOCX 页数：20 大小：517.29KB 积分：6 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

网络数据爬取与处理智慧树知到课后章节答案2023年下上海商学院上海商学院

第一章测试

以下描述错误的是（）。

A:Jupyternotebook是一个基于网页交互的编程环境B:Jupyternotebook可通过Markdown语法编写说明文档C:Anaconda只提供了Jupyternotebook编程环境D:Anaconda是一个开源的Python发行版本

答案:Anaconda只提供了Jupyternotebook编程环境

以下描述错误的是（C）。

以下哪一项不属于数据科学的基本任务（）。

A:分析数据B:获取数据C:处理数据D:存储数据

答案:存储数据

以下关于数据科学的说法中，正确的是（）。

A:对大数据的采集就是数据科学B:计算工具的革新，数据量的持续增长推动了数据科学的发展。C:数据科学只适用于科学研究，对我们日常生活没有关系D:数据科学就是研究数学的科学

答案:计算工具的革新，数据量的持续增长推动了数据科学的发展。

智能健康手环的运用了以下哪一项数据采集技术（）。

A:网络爬虫B:传感器C:统计报表D:API接口

答案:传感器

下列关于大数据特点的说法中，错误的是（）.

A:数据类型多样B:数据生成和处理速度快C:数据价值密度高。D:数据规模大

答案:数据价值密度高。

第二章测试

下列选项哪不是爬虫程序的常见类型（）。

A:聚焦网络爬虫B:增量式网络爬虫C:深层式网络爬虫D:通用网络爬虫

答案:深层式网络爬虫

以下关于实现网络爬虫程序的描述中，错误的是（）。

A:通过Python编写网络爬虫程序，本质上是模拟人类浏览网页的行为B:通过爬虫程序获取的数据文件均为HTML文件C:网络爬虫是自动获取互联网上公开数据的程序D:编写爬虫程序前，可以使用浏览器自带的开发者工具，对我们发出的请求和接受到的响应进行分析

答案:通过爬虫程序获取的数据文件均为HTML文件

通过浏览器访问网站服务器的过程，描述错误的是（）。

A:HTTP协议规范了请求与响应的过程B:参与对象包：括浏览器、域名解析服务器、网站服务器C:TCP协议规范了超文本标记语言的语法格式D:互联网上公开数据的地址是由URL协议规范

答案:TCP协议规范了超文本标记语言的语法格式

下列不属于常用反爬虫手段的是（）。

A:限制访问频率B:人工筛查C:对请求头的检测D:验证码校验

答案:人工筛查

以下关于爬虫程序的描述中，正确的是（）。

A:通过爬虫程序获取的数据可在互联网上公开B:爬虫程序可以爬取互联网上任意数据C:通过爬虫程序获取的数据可用于商业用途D:爬虫程序执行时应避免对服务器造成过载

答案:爬虫程序执行时应避免对服务器造成过载

第三章测试

以下关于re库的描述中，错误的是（）。

A:re库是Python的第三方库B:可通过re库实现字符串的正则表达式匹配C:可re库提取HTML文档中的数据D:re.findall()方法返回的数据类型为列表

答案:re库是Python的第三方库

‎正则表达式中能够匹前面的字符或子表达式1次或多次的符号是（）。

A:|B:*C:?D:+

答案:+

‎以下不能够匹配任意数字字符的正则表达式的是（）。

A:dB:[0123456789]C:[0-9]D:{0123456789}

答案:{0123456789}

第四章测试

HTML是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于HTML的标签，并且标签都是成对出现的。下列说法中，错误的是（）。

A:<html>..</html>表示标记中间的元素是网页B:有的标记附标签是可以带有属性参数，表示为＜标记属性="参数值"＞C:表示超链接标签D:<img>..</img>表示该标签是标题

答案:<img>..</img>表示该标签是标题

下列关于BeautifulSoup中对象类型描述错误的是（）。

A:attrs属性可获取标签的属性B:string属性可获取标签的id属性C:name属性可获取标签名D:NavigableString属性可获取标签内非属性字符串

答案:string属性可获取标签的id属性

执行以下程序输出的结果是（）。

frombs4importBeautifulSoup

html='<html><pclass="story">ss<aid="name1">Alice</a><aid="name2">Amy</a></html>'

soup=BeautifulSoup(html,'html.parser')

print(soup.a.string)

A:AliceAmyB:ssC:AliceD:Amy

答案:Alice

执行以下程序输出的结果是（）。

frombs4importBeautifulSoup

html='<html><pclass="story">ss<aid="name1">Alice</a><aid="name2">Amy</a></html>'

soup=BeautifulSoup(html,'html.parser')

soup.find_all(name='a',id='name2')

A:[<pclass="story">ss<aid="name1">Alice</a>]B:[<aid="name1">Alice</a>,<aid="name2">Amy</a>]C:[<aid="name1">Alice</a>]D:[<aid="name2">Amy</a>]

答案:[<aid="name2">Amy</a>]

执行以下程序输出的结果是（）。

frombs4importBeautifulSoup

html='<html><pclass="story">ss<aid="name1">Alice</a><aid="name2">Amy</a></html>'

soup=BeautifulSoup(html,'html.parser')

soup.select('p~a')

A:[<pclass="story">ss<aid="name1">Alice</a>]B:[<aid="name2">Amy</a>]C:[<aid="name1">Alice</a>,<aid="name2">Amy</a>]D:[<aid="name1">Alice</a>]

答案:[<aid="name2">Amy</a>]

第五章测试

以下关于JSON模块描述错误的是（）。

A:json.loads()能够将json字符串解析为Python数据类型B:JSON模块可对JSON数据进行解析与编码C:json.loads()只只能将json字符串解析为字典D:json.dumps()能够将一个Python数据类型编码为json字符串

答案:json.loads()只只能将json字符串解析为字典

以下关于json数据的描述中，错误的是（）

A:JSON数据非常简洁，层次结构非常清晰B:JSON是非常利于人阅读，但是不太利于机器解析和生成的。C:JSON是一种轻量级的数据交换格式D:JSON是以文本格式来存储和表示

答案:JSON是非常利于人阅读，但是不太利于机器解析和生成的。

表单登陆需要使用的请求方法是（）

A:GETB:DELETEC:POSTD:PUT

答案:POST

以下关于Ajax技术描述错误的是（）

A:Ajax通过JavaScript发送请求、解析数据、渲染网页B:浏览器通过Ajax向服务器发送请求的类型为XMLHttpC:Ajax可以在不刷新整个页面的情况下，对网页进行部分更新D:网络爬虫程序不能从采用Ajax技术的网页中爬取数据

答案:网络爬虫程序不能从采用Ajax技术的网页中爬取数据

以下描述错误的是（）

A:可通过javascript可控制网页的动态功能B:可通过HTML语言定义网页结构C:可通过CSS设置网页的样式D:可通过Ajax可实现网页的静态加载

答案:可通过Ajax可实现网页的静态加载

第六章测试

Pandas提供的数据类型中，以下哪一项是带索引的一维数组（）。

A:PanelB:ArrayC:SeriesD:DataFrame

答案:Series

执行以下程序输出的结果是（）。

importpandasaspd

s=pd.Series([3,5,6,7,9],index=['a','b','c','d','e'])

print(list(s[2:4]))

A:[5,6]B:[6,7]C:[5,6,7]D:[6,7,9]

答案:[6,7]

执行以下程序输出的结果是（）。

importpandasaspd

s1=pd.Series([3,5,6,7,9])

s2=pd.Series([1,2,3,4,1])

print((s1+s2).sum())

A:[4,7,9,11,10]B:41C:[3,5,6,7,9,1,2,3,4,1]D:4

答案:41

执行以下程序输出的结果是（A）。

importpandasaspd

d={'one':[1,3,5,7],'two':[2,4,6,8]}

df=pd.DataFrame（）

df['three']=df['two']-df['one']

df.drop(2)

print(df)

A:B:C:D:

答案:

执行以下程序输出的结果是（A）。

importpandasaspd

d={'one':[1,3,5,7],'two':[2,4,6,8]}

df=pd.DataFrame（）

df['three']=df['two']-df['one']

print(df[(df.one>3)&(df.two<8)])

A:B:C:D:

答案:

第七章测试

关于pandas的merge方法描述错误的是（）。

A:merge方法可以将两个dataframe在任意列上对齐连接B:merge方法可以将两个dataframe在行索引上对齐连接C:merge方法可以将两个dataframe在名称不同的列上对齐连接D:merge方法默认执行内连接

答案:merge方法可以将两个dataframe在行索引上对齐连接

关于pandas的concat方法描述错误的是（）。

A:concat方法可以将两个dataframe在行索引上对齐连接B:concat方法可以将两个dataframe在任意列上对齐连接C:concat方法可以将两个dataframe在列索引上对齐连接D:concat方法可以将两个series在行索引上对齐连接

答案:concat方法可以将两个dataframe在任意列上对齐连接

变量df1与df3的值如下图所示，执行以下程序后，变量df的值为（）。

df=pd.concat([df1,df3],axis=1,join='inner')

A:B:C:D:报错

答案:

变量df1与df2的值如下图所示，执行以下程序后，变量df的值为（）。

df=pd.merge(df1,df2,on=['key1','key2'],how='left')

A:B:C:D:

答案:

变量df1与df2的值如下图所示，执行以下程序后，变量df的值为（）。

df=pd.merge(df1,df2,on=['key1','key2'],how='right')

A:B:C:D:

答案:

第八章测试

以下描述错误的是（）。

A:可通过groupby方法对dataframe进行分组聚合变换B:apply方法可将函数功能应用到dataframe上的每一个元素C:可通过pandas库的to_csv方法将dataframe写入文本文件D:可通过pandas库的read_csv方法将文本文件读入dataframe

答案:apply方法可将函数功能应用到dataframe上的每一个元素

以下关于缺失值的处理描述错误的是（）。

A:对于dataframe中具有缺失值的行可以进行删除或填充处理B:通过dataframe的isnull()方法可直接查询到每一列缺失值的个数C:通过dataframe的fillna()方法可填充缺失值D:通过dataframe的dropna(

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网络数据爬取与处理智慧树知到课后章节答案2023年下上海商学院

文档简介

温馨提示

最新文档

评论

网络数据爬取与处理智慧树知到课后章节答案2023年下上海商学院

文档简介

温馨提示

最新文档

评论

相关文档