南开19秋学期1709、1803、1809、1903、1909《数据科学导论》在线作业标准答案.doc_第1页
南开19秋学期1709、1803、1809、1903、1909《数据科学导论》在线作业标准答案.doc_第2页
南开19秋学期1709、1803、1809、1903、1909《数据科学导论》在线作业标准答案.doc_第3页
南开19秋学期1709、1803、1809、1903、1909《数据科学导论》在线作业标准答案.doc_第4页
南开19秋学期1709、1803、1809、1903、1909《数据科学导论》在线作业标准答案.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

19秋学期(1709、1803、1809、1903、1909)数据科学导论在线作业-0003试卷总分:100 得分:0一、 单选题 (共 20 道试题,共 40 分)1.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。A.1B.2C.3D.42.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A.关联规则发现B.聚类C.分类D.自然语言处理3.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。A.计数属性B.离散属性C.非对称的二元属性#对称属性4.变量之间的关系一般可以分为确定性关系与()。A.非确定性关系B.线性关系C.函数关系D.相关关系5.BFR聚类是用于处理数据集()的k-means变体。A.大B.中C.小D.所有6.例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化7.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()A.普通值B.异常值C.不一致的值D.重复值8.层次聚类适合规模较()的数据集A.大B.中C.小D.所有9.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=100-1.2X,这说明()。A.产量每增加一台,单位成本增加100元B.产量每增加一台,单位成本减少1.2元C.产量每增加一台,单位成本平均减少1.2元D.产量每增加一台,单位平均增加100元10.设X=1,2,3是频繁项集,则可由X产生()个关联规则。A.4B.5C.6D.711.根据映射关系的不同可以分为线性回归和()。A.对数回归B.非线性回归C.逻辑回归D.多元回归12.多层感知机是由()层神经元组成。A.二B.三C.大于等于二层D.大于等于三层13.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A.简单函数变换B.规范化C.属性构造D.连续属性离散化14.单层感知机是由()层神经元组成。A.一B.二C.三D.四15.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()A.异常值B.不一致的值C.重复值D.缺失值16.我们需要对已生成的树()进行剪枝,将树变得简单,从而使它具有更好的泛化能力。A.自上而下B.自下而上C.自左而右D.自右而左17.一元线性回归中,真实值与预测值的差称为样本的()。A.误差B.方差C.测差D.残差18.以下哪一项不是特征工程的子问题()A.特征创建B.特征提取C.特征选择D.特征识别19.对于k近邻法,下列说法错误的是()。A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则20.聚类的最简单最基本方法是()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类二、 多选题 (共 10 道试题,共 20 分)1.多层感知机的学习过程包含()。A.信号的正向传播B.信号的反向传播C.误差的正向传播D.误差的反向传播2.Apriori算法的计算复杂度受()影响。A.支持度阈值B.项数C.事务数D.事务平均宽度3.什么情况下结点不用划分()A.当前结点所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类4.聚类的主要方法有()。A.划分聚类B.层次聚类C.密度聚类D.距离聚类5.下列选项是BFR的对象是()A.废弃集B.临时集C.压缩集D.留存集6.关联规则的评价度量主要有:()。A.支持度B.置信度C.准确率D.错误率7.数据科学具有哪些性质()A.有效性B.可用性C.未预料D.可理解8.系统日志收集的基本特征有()A.高可用性B.高可靠性C.可扩展性D.高效率9.相关性的分类,按照相关的方向可以分为()。A.正相关B.负相关C.左相关D.右相关10.距离度量中的距离可以是()A.欧式距离B.曼哈顿距离C.Lp距离D.Minkowski距离三、 判断题 (共 20 道试题,共 40 分)1.多层感知机的学习能力有限,只能处理线性可分的二分类问题。A.对B.错2.阶跃函数具有不光滑、不连续的特点。A.对B.错3.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。A.对B.错4.剪枝是决策树学习算法对付“过拟合”的主要手段A.对B.错5.为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过少,以致于把训练集自身的一些特点当作所有数据都具有的一般性质而导致过拟合A.对B.错6.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。A.对B.错7.方差过小的特征对数据的区分能力强A.对B.错8.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。A.对B.错9.两个对象越相似,他们的相异度就越高。A.对B.错10.给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集。A.对B.错11.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。A.对B.错12.决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建A.对B.错13.K-means聚类是发现给定数据集的K个簇的算法。A.对B.错14.增加神经元的个数,无法提高神经网络的训练精度。A.对B.错15.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。A.对B.错16.茎叶图失去原始数据的信息,而直方图保留原始数据的信息。A.对B.错17.当特征为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论