南开-《数据科学导论》在线作业_第1页
南开-《数据科学导论》在线作业_第2页
南开-《数据科学导论》在线作业_第3页
南开-《数据科学导论》在线作业_第4页
南开-《数据科学导论》在线作业_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、单选题共20题,40分哪一项不属于规范化的方法()A最小-最大规范化B零-均值规范化C小数定标规范化D中位数规范化我的得分:2分我的答案:D例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()A简单函数变换B规范化C属性构造D连续属性离散化我的得分:2分我的答案:BApriori算法的加速过程依赖于以下哪个策略()A抽样B剪枝C缓冲D并行我的得分:2分我的答案:B以下属于关联分析的是()ACPU性能预测B购物篮分析C自动判断鸢尾花类别D股票趋势建模我的得分:2分我的答案:B在一元线性回归模型中,残差项服从()分布。A泊松B正态C线性D非线性我的得分:2分我的答案:B以下哪一项不是特征工程的子问题()A特征创建B特征提取C特征选择D特征识别我的得分:2分我的答案:D下面不是分类的常用方法的有()AK近邻法B朴素贝叶斯C决策树D条件随机场我的得分:2分我的答案:D置信度(confidence)是衡量兴趣度度量()的指标。A简洁性B确定性C实用性D新颖性我的得分:2分我的答案:B变量之间的关系一般可以分为确定性关系与()。A非确定性关系B线性关系C函数关系D相关关系我的得分:2分我的答案:A以下哪一项不是特征选择常见的方法()A过滤式B封装式C嵌入式D开放式我的得分:2分我的答案:D设X={1,2,3}是频繁项集,则可由X产生()个关联规则。A4B5C6D7我的得分:2分我的答案:C以下哪一项不属于数据变换()A简单函数变换B规范化C属性合并D连续属性离散化我的得分:2分我的答案:C根据映射关系的不同可以分为线性回归和()。A对数回归B非线性回归C逻辑回归D多元回归我的得分:2分我的答案:BBFR聚类是用于处理数据集()的k-means变体。A大B中C小D所有我的得分:2分我的答案:A以下哪个不是处理缺失值的方法()A删除记录B按照一定原则补充C不处理D随意填写我的得分:2分我的答案:D维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()AK-meansBBayesNetworkCC4.5DApriori我的得分:2分我的答案:D我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。A自上而下B自下而上C自左而右D自右而左我的得分:2分我的答案:B通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A简单函数变换B规范化C属性构造D连续属性离散化我的得分:2分我的答案:C单层感知机拥有()层功能神经元。A一B二C三D四我的得分:2分我的答案:A多层感知机是由()层神经元组成。A二B三C大于等于二层D大于等于三层我的得分:2分我的答案:D二、多选题共10题,20分距离度量中的距离可以是()A欧式距离B曼哈顿距离CLp距离DMinkowski距离我的得分:2分我的答案:ABCD相关性的分类,按照相关的方向可以分为()。A正相关B负相关C左相关D右相关我的得分:2分我的答案:AB聚类的主要方法有()。A划分聚类B层次聚类C密度聚类D距离聚类我的得分:2分我的答案:ABC数据科学具有哪些性质()A有效性B可用性C未预料D可理解我的得分:2分我的答案:ABCDk近邻法的基本要素包括()。A距离度量Bk值的选择C样本大小D分类决策规则我的得分:2分我的答案:ABD多层感知机的学习过程包含()。A信号的正向传播B信号的反向传播C误差的正向传播D误差的反向传播我的得分:2分我的答案:AD下列选项是BFR的对象是()A废弃集B临时集C压缩集D留存集我的得分:2分我的答案:ACD一元回归参数估计的参数求解方法有()。A最大似然法B距估计法C最小二乘法D欧式距离法我的得分:2分我的答案:ABC什么情况下结点不用划分()A当前结点所包含的样本全属于同一类别B当前属性集为空,或是所有样本在所有属性上取值相同C当前结点包含的样本集为空D还有子集不能被基本正确分类我的得分:2分我的答案:ABCK-means聚类中K值选取的方法是()。A密度分类法B手肘法C大腿法D随机选取我的得分:2分我的答案:AB三、判断题共20题,40分两个对象越相似,他们的相异度就越高。A对B错我的得分:2分我的答案:B贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布有关。A对B错我的得分:2分我的答案:A在一元线性回归中,输入只包含一个单独的特征。A对B错我的得分:2分我的答案:A在数据预处理时,无论什么情况,都可以直接将异常值删除A对B错我的得分:2分我的答案:B茎叶图失去原始数据的信息,而直方图保留原始数据的信息。A对B错我的得分:2分我的答案:B交叉表可以帮助人们发现变量之间的相互作用。A对B错我的得分:2分我的答案:A使用SVD方法进行图像压缩不可以保留图像的重要特征。A对B错我的得分:2分我的答案:BPearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。A对B错我的得分:2分我的答案:A平均减少的不纯度越大,则特征重要度越高。A对B错我的得分:2分我的答案:A朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能A对B错我的得分:2分我的答案:A由不同的距离度量所确定的最近邻点是不同的A对B错我的得分:2分我的答案:A一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。A对B错我的得分:2分我的答案:A决策树内部结点表示一个类,叶结点表示一个特征或属性A对B错我的得分:2分我的答案:B剪枝是决策树学习算法对付“过拟合”的主要手段A对B错我的得分:2分我的答案:A子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。A对B错我的得分:2分我的答案:A特征的信息增益越大,则其越不重要。A对B错我的得分:2分我的答案:B信息熵越大,数据信息的不确定性越小。A对B错我的得分:2分我的答案:B利用K近邻法进行分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论