大数据基础与应用学习通超星课后章节答案期末考试题库2023年_第1页
大数据基础与应用学习通超星课后章节答案期末考试题库2023年_第2页
大数据基础与应用学习通超星课后章节答案期末考试题库2023年_第3页
大数据基础与应用学习通超星课后章节答案期末考试题库2023年_第4页
免费预览已结束,剩余6页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据基础与应用学习通超星课后章节答案期末考试题库2023年____的主要目的是消除不同特征变量量纲级别相差太大造成的不利影响。

参考答案:

数据标准化;数据归一化

DataFrame是一种二维表格数据结构,可以通过____、____或____创建。

参考答案:

列表###字典###二维数组

data为以下结构的DataFrame:若想获得c1和c3列的前二行,以下哪些方法可以实现()

参考答案:

data[['c1','c3']][0:2]###data[0:2][['c1','c3']]###data.iloc[0:2][['c1','c3']]###data.loc[['r1','r2']][['c1','c3']]

JupyterNotebook是Anaconda自带的代码编辑器,适合Python初学者使用。

参考答案:

JupyterNotebook有两种模式,分别为___________和____________。

参考答案:

命令模式###编辑模式

Markdown中前后有____个星号或下划线表示加粗。

参考答案:

2;两

Markdown是一种专门的笔记语言,用于创建类似笔记或注释的内容。

参考答案:

np.arange(5,10,0.5)的结果为()

参考答案:

[55.566.577.588.599.5]

np.arange(5,10)的结果为()

参考答案:

[56789]

np.arange(5)的结果为()

参考答案:

[01234]

Python中两种常用的非数值类型数据处理方法是____和LabelEncoding编号处理。

参考答案:

Get_dummies哑变量处理;哑变量处理;get_dummies哑变量处理;哑变量处理;get_dummies;Get_dummies

Python中做数据分析最常用的库是Numpy和pandas库,其中____库主要用来处理一维数据,____库主要用来处理二维表格数据。

参考答案:

Numpy;numpy###pandas;Pandas

Python中如下变量命名正确的是:

参考答案:

my_height=58###my_lat=40###my_long=105

Python中读取Excel数据的函数为()

参考答案:

pd.read_excel()

range(5)生成的对应数列是()

参考答案:

01234

Scikit-learn库中搭建线性回归模型的函数为()

参考答案:

LinearRegression

不需要数据标准化的模型有()

参考答案:

决策树模型###随机森林模型###Xgboost模型

二分类模型可以使用AUC值来衡量模型的好坏,AUC值(AreaUnderCurver)指在曲线下面的面积,该面积通常越大越好。()

参考答案:

以下代码的输出是什么?()names=["Carol","Albert","Ben","Donna"]names.append("Eugenia")print(sorted(names))

参考答案:

['Albert','Ben','Carol','Donna','Eugenia']

以下运行title函数结果正确的是()name="LiSAcomefromengland"print(name.title())

参考答案:

LisaComeFromEngland

使用()语法来获取字典键对应的值。

参考答案:

D.values()

使用()语法来获取字典键的列表。

参考答案:

D.keys()

决策树模型既可以做分类分析(即预测分类变量值),也可以做回归分析(即预测连续变量值)。能做分类的决策树模型函数为()

参考答案:

DecisionTreeClassifier

函数代码块以def关键词开头,后接函数标识符名称(不能与内置函数同名)和圆括号()。

参考答案:

创建DataFrame的函数为()

参考答案:

pd.DataFrame()

取模(相除后的余数)运算符是()

参考答案:

%

变量作用域:函数内定义,函数外不可用;函数外定义,函数内可用。

参考答案:

可以使用____函数或isna()函数来查看空值,用____函数来删除空值,用____函数来填补空值。

参考答案:

isnull();isnull###dropna();dropna###fillna();fillna

可以使用____函数来查询重复数据的内容,用____函数来删除重复行。

参考答案:

duplicated();duplicated###drop_duplicates();drop_duplicates

在实战中,我们通常要将数据拆分为训练集及测试集,其中____拿来做训练,而____拿来检验模型训练的结果。

参考答案:

训练集###测试集

字典中多个元素之间使用____分隔开,每个元素的”键”和”值”之间使用____隔开。

参考答案:

逗号###冒号

对线性回归方程的检验包括哪些?()

参考答案:

拟合优度的检验###回归方程的显著性检验###回归系数的显著性检验

常规的Python文件扩展名为.py,而JupyterNotebook创建的文件扩展名为____。

参考答案:

ipynb;.ipynb

异常值的检测有两种方法:箱体图观察和利用____。

参考答案:

标准差检测;标准差

引入Numpy库的代码为____。

参考答案:

importnumpyasnp

引入pandas库的代码为____。

参考答案:

importpandasaspd

当数据服从正态分布时,99%的数值应该位于距离均值3个标准差之内的距离,95%的数值应该位于距离均值2个标准差之内的距离。因为3个标准差过于严格,此处我们将阈值设定为2即可,即认为当数值与均值距离超出____个标准差,则可以认为它是异常值。

参考答案:

2;两;2个;两个

数据标准化的两种方法有:____和____。

参考答案:

min-max标准化;Min-max标准化;离差标准化###Z-score标准化;z-score标准化;均值归一化

数据表拼接与合并主要涉及的函数有()

参考答案:

merge###concat###append

机器学习主要分为____、____两大类,两者的区别在于训练数据中是否有目标变量(或预测变量)。

参考答案:

监督式学习;有监督学习###非监督式学习;无监督学习

用来衡量二分类模型的指标有()

参考答案:

AUC值###KS值

用来衡量二分类模型的评估方法为()

参考答案:

ROC曲线###KS曲线

用来衡量线性回归方程拟合程度的指标为()

参考答案:

R-squared

监督式学习模型主要包括聚类与分群模型,非监督式学习主要包括回归、决策树模型。

参考答案:

线性回归方程的Rsquared越高,模型的拟合程度越高。()

参考答案:

线性回归的因变量y是____变量。

参考答案:

数值;数值;连续型;连续;定量

调用函数时,Python必须将函数调用中的每个实参都关联到函数定义中的每一个形参。

参考答案:

选取多个列表元素,只要在列表之后加一个[序号1:序号2],这样的选法会包括序号2,但不会包括序号1。

参考答案:

通常利用pandas库中的____函数进行哑变量处理。而且为了避免哑变量处理产生的多重共线性问题,需通过____函数删去其中一列,并通过____函数更换列名。

参考答案:

get_dummi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论