数据工程智慧树知到期末考试答案章节答案2024年同济大学

上传人：题*** IP属地：浙江上传时间：2024-05-25 格式：DOCX 页数：13 大小：20.80KB 积分：6 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据工程智慧树知到期末考试答案+章节答案2024年同济大学使用KMEANS聚类时，更大的K值所得到结果的误差的平方和(SSE)一定更小。

答案:错DBSCAN是一种基于密度的聚类。

答案:对基于中心的欧几里得密度是指一个点指定半径内点的个数。

答案:对在机器翻译中，如果我们在不使用句子归一化的情况下进行波束搜索(beamsearch)，该算法将会输出过短的译文。

答案:对在分布式数据库中，数据划分后的性能主要取决于数据上的具体操作。

答案:对数据审计不属于数据清理的组成部分。

答案:错可以将熵作为判断聚类有效性的内部测度。

答案:错SQL语言功能强大，但是非常难理解。

答案:错分布式系统中的CAP理论包括（）。

答案:一致性###系统可用性###网络分区容忍性关于BP神经网络说法正确的是（）

答案:是一种非线性模型###sigmoid是其常用的一种激活函数###有良好的自组织自学习能力机器学习方法###可用于分类或回归可以用来做可视化渲染的技术包括：

答案:WebGL###SVG###HTML5Canvas信息可视化中，动画设计需要遵守哪些准则：

答案:一次只展示一个动画；如果需要同时展示多个动画，需要分阶段展示###动画必须与其载体，即所对应的可视化形式保持兼容###动画的每个步骤必须有具体的含义，动画的产生必须有明确的原因以下哪些交互可能会导致可视化中数据的改变：

答案:具象/抽象你有一个63x63x16的输入体积，并将其与32个每个为7x7的filter进行卷积，步幅（stride）为2并且没有填充（padding）。输出大小是多少？

答案:29x29x32以下哪一项不是消除平行坐标系中视觉混乱问题的方法：

答案:数据重构以下哪一项不是图的基本可视化形式：

答案:包含图在平行坐标轴中，数据元素被显示为：

答案:折线做组内研究时，使用不同工具完成相同任务时往往需要使用不同的数据，这样做的目的是：

答案:避免用户记住答案，影响实验结果在平行坐标轴中，如果两个维度之间没有相关性，则其相关数据元素被展现为：

答案:杂乱无章的直线当设计实验任务时，以下哪个说法是错误的：

答案:任务数量越多越好以下哪一项不是图的布局所要解决的问题：

答案:确定变得显示方式您认为幽灵存在的可能性约为5％。然后，您不曾说谎的叔叔说他看见了一个鬼。另一方面，您叔叔的视力不好，曾经把一个包误认为一条狗。您估计存在的鬼的可能性应该？

答案:稍微提高决策树的父节点和子节点的熵的大小关系是什么()

答案:父节点的熵更大SVM中的代价参数C表示什么？

答案:在分类准确性和模型复杂度之间的权衡对于神经网络的说法,下面正确的是:1.增加神经网络层数,可能会增加测试数据集的分类错误率2.减少神经网络层数,总是能减小测试数据集的分类错误率3.增加神经网络层数,总是能减小训练数据集的分类错误率

答案:1当数据密度分布不均匀时，DBSCAN也能够得到很好的结果。

答案:错K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。

答案:对较小不纯度的节点需要更多的信息来区分总体。

答案:错关系数据库中的连接操作把两张或多张数据库表，按照一定条件，把它们各一行记录连接起来，生成结果集的一条记录。

答案:对基尼指数反映了从样本集D中随机抽取两个样本，其类别标记不一致的概率，因此越小越好。

答案:对逻辑回归分析需要对离散值做预处理，决策树则不需要。

答案:对对于KMEANS算法而言，不同的初始聚类中心选择可能导致不同的聚类结果。

答案:对聚类是这样的过程，它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。

答案:错CHAMELEON是一种静态建模的层次聚类算法。

答案:错增大L2正则项的系数有助于减缓梯度消失问题

答案:错有哪些图形属性可以用来编码数据？

答案:颜色###形状###大小可视化图形符号包括哪些形式？

答案:线###面###点下面哪个是SVM在实际生活中的应用？

答案:图片分类###新闻聚类###文本分类下列操作哪些属于关系数据库的基本操作？

答案:Group操作###Join操作###Select操作###Insert操作分布式数据库的主要特点有（）。

答案:站点自治性###物理分布性###逻辑完整性通常在ConvNet中看到以下哪些内容？

答案:最后几层是FC层###多个CONV层，然后接POOL层大数据管理的挑战包括()。

答案:多源异构###数据量大###高可用性###安全隐私数据集成主要可以采用哪些模式？

答案:联邦数据库模式###中介者模式###数据仓库模式假设你输入的是300x300色（RGB）图像，并且没有使用卷积网络。如果第一个隐藏层有100个神经元，每个神经元都完全连接到输入，那么这个隐藏层有多少个参数（包括偏向参数）？

答案:27,000,100MDS投影技术的设计原理是：

答案:最小化数据点与数据点之间的距离在高、低维空间中的差异当需要从中挑选一个特征来构建决策树模型时，以下哪种准则的最大化最合适（）

答案:H(Y)-H(Y|Xj)神经元(neuron)计算什么？

答案:神经元计算线性函数（z=Wx+b），然后计算激活函数可视化符号是用来：

答案:呈现数据元素及元素之间关系的假设某个行业中有5％的公司歧视爱荷华州。如果一家公司歧视，它将永远不会从爱荷华州雇用人。假设有20名同等资格的申请人在该行业的公司中求职，其中6名来自爱荷华州。如果该公司从这组申请人中雇用了四人，但没有人来自爱荷华州，那么该公司歧视的可能性是多少？

答案:0.2030“刷选与链接”交互是为了完成什么任务：

答案:在不同可视化视图中展现数据元素之间的关联假设你的输入是300x300色（RGB）图像，并且使用了一个卷积层，其中包含100个filter，每个filter为5x5。该隐藏层有多少个参数（包括偏置参数）？

答案:7600以下哪一种不是树的可视化方法：

答案:关系图在众多数值型可视化通道中，以下哪一项是最为精确的：

答案:位置下面关于SVM中核函数的说法正确的是？1核函数将低维空间中的数据映射到高维空间.2它是一个相似度函数

答案:1和2下面哪一项用决策树法训练大量数据集最节约时间（）

答案:减少树的深度关于图的邻接矩阵表示方式，以下哪个说法是错误的：

答案:图中的路径可以清晰的展现在邻接矩阵中假设你选取了高Gamma值的径向基核（RBF），这表示：

答案:模型不会被数据点与超平面的距离影响“重构”交互主要是为了完成什么任务：

答案:改变可视化的空间布局以提供不同视角在word2vec算法中，你估计P(t|c)，其中t是目标单词，c是上下文（context）单词。t和c该如何从训练集当中选择？

答案:c和t应该相邻标识通道是用来显示数据的：

答案:分类属性公路交通图可以被抽象为以下哪种类型的数据？

答案:图实现“数据浏览”交互，可以使用哪些基本方法：

答案:直接导引或拖拽缩放在训练神经网络时，损失函数(loss)在最初的几个epochs时没有下降，最可能的原因是？

答案:学习率太低BP网络具有广泛的适应性和有效性。

答案:对内存数据库无需磁盘IO，可以有效应对停电导致数据丢失的问题。

答案:错CHAMELEON算法中既包含对图的划分也包含对子图的合并。

答案:对轮廓系数属于簇有效性的外部度量方法之一。

答案:错虚拟式数据集成需要从各个数据源中把数据拷贝到目标数据仓库中。

答案:错在中介者数据集成模式中，中介者需要保存各个数据源的数据。

答案:错SQL语言是一种声明性语言。

答案:对GPU所配置的显存的大小，对于在该GPU上训练的深度神经网络的复杂度、训练数据的批次规模等，都是一个无法忽视的影响因素。

答案:对在KMEANS的训练过程中，可以选择不同的K值，比较使绝对误差标准较小的K值，结合聚类业务的可解释性，从而选择合适的K值。

答案:对熵值越小所蕴含的不确定信息越小，越有利于数据的分类。

答案:对CHAMELEON算法第二阶段中，将不断寻找合并相对接近度和相对互联度较低的两个子簇。

答案:错划分聚类算法不具备全局目标。

答案:错在数据仓库中，ETL操作可以多次执行。

答案:对下列数据库中哪些是开源数据库?

答案:MySQL###PostgreSQL分布式数据库一般属于并行数据库。

答案:对单层感知机能够实现各种布尔逻辑函数。

答案:错单层感知机可以实现XOR操作。

答案:错为了能够构建非常深的网络，我们通常仅使用池化层来减小激活函数输出的高度/宽度，且卷积使用“valid”pooling。否则，我们将过快缩小模型的输入。

答案:错用户认证是确保数据库安全性的方法之一

答案:对数据清洗中的覆盖类异常包括（）。

答案:元组缺失###值缺失下列哪些属于数据清洗中的语法类异常：

答案:词法错误###不规则取值###值域格式错误NoSQL数据库主要可以分为哪几类？

答案:图数据库###列数据库###文档数据库###键值数据库为什么要对数据进行可视化？

答案:促进数据的交流与沟通###直观展现信息###帮助数据分析与推理并行与分布式数据库主要有哪几种信息共享架构？

答案:共享磁盘架构###共享内存架构###无共享架构文档数据库的主要优点包括（）。

答案:结构灵活###不需要预先定义表结构假设输入大小为nHxnWxnC。下面哪几项是正确的？

答案:可以使用1x1卷积层来降低nC，但不能降低nH，nW。###可以使用池化层来降低nH，nW和nC。数据仓库的主要特点包括（）。

答案:一般面向主题###数据随着时间增加###数据内容更新少###数据是集成的下列属于数据清洗过程中评价数据质量的标准有（）。

答案:一致性###完整性###唯一性以下关于深度神经网络的说法中正确的是（）。

答案:在使用SGD训练时，若训练loss的变化逐渐平缓不再明显下降时，通常可以通过减小learningrate的方式使其再进一步下降###若batchsize过小，batchnormalization的效果会出现退化以下哪些不是用来提高可视化信息传达效率的方法：

答案:最小化谎言因子以下哪一项不可以用来做任务的衡量指标：

答案:用户在完成任务时系统的延迟等待时间以下哪一项是力导向布局的缺点：

答案:当图的密度较大时，会导致视觉混乱以下哪种情况会导致SVM算法性能下降？

答案:数据有噪声，有重复值我们想在大数据集上训练决策树,

为了使用较少时间,

我们可以()

答案:减少树的深度数据标准化(Standardization)和规范化(Normalization)处理属于数据清理中的（）。

答案:数据转换以下哪个不属于可视化创建的关键步骤？

答案:可视化开发为了防止过拟合，在训练神经网络时，会加入许多技巧。请问以下技巧中既可以防止过拟合，又可以使最终参数具有稀疏性？

答案:AddL1RegularizationtoParameters神经网络训练时可能有一个停滞期，这是因为神经网络在进入全局最小值之前陷入局部最小值。为了避免这种情况，下面的哪个策略有效？（）

答案:抖动学习速率，即改变几个时期的学习速率下列哪些数据库属于内存数据库？

答案:SQLite###Redis“具象与抽象”交互主要是为了完成什么任务：

答案:从不同的粒度呈现数据关于组内研究表述不正确的是：

答案:如果实验只有两个自变量，分析组内研究结果时，需要使用非配对t检验数据墨水是指：

答案:用于呈现图表中与数据相关部分的内容所消耗的笔墨总量可视化图形符号可以用来表示：

答案:数据元素神经网络模型是受人脑的结构启发发明的。神经网络模型由很多的神经元组成，每个神经元都接受输入，进行计算并输出结果，那么以下选项描述正确的是（）。

答案:每个神经元有多个输入和多个输出假定你在神经网络中的隐藏层中使用激活函数X。在特定神经元给定任意输入，你会得到输出「-0.0001」。X可能是以下哪一个激活函数？

答案:tanh在MySQL中，创建名为“education”的数据库的正确语句是（）?

答案:CREATEDATABASEeducation当到达ConvNet的更深层时，通常会看到以下哪项？

答案:nH和nW减小，而nC增加稀有的蜻蜓总是天生就有额外的翅膀。但是，普通的蜻蜓有时也会通过突变获得额外的翅膀。在某些栖息地中，有0.3％的蜻蜓属于这种稀有物种，已知有0.1％的常见蜻蜓发生了翼外突变。您会在该栖息地中看到带有额外一对翅膀的蜻蜓。它是稀有物种的成员的概率是多少？

答案:0.7506在平行坐标轴中，数据的维度被显示为：

答案:坐标轴可视化属性可以用来表示：

答案:数据属性以下哪一项不是点线图的布局方式：

答案:邻接布局在卷积神经网络中，激活函数的引入是为了（）

答案:加入非线性因素等，将某些特征过滤映射出来实现“重构”交互，有哪些基本方法：

答案:重新排序或重组视图MongoDB创建新数据库“education”的正确语句是（）。

答案:useeducation在格式塔法则中，哪一种法则下所展现的群组关系最为强烈：

答案:连通性准则有关深度神经网络的训练（Training）和推断（Inference），以下说法中不正确的是：（）

答案:TensorFlow使用GPU训练好的模型，在执行推断任务时，也必须在GPU上运行。当谎言因子>1时，说经可视化设计：

答案:夸大了数据事实以下等式是ResNet块中的计算。上面的两个空白是什么？a[l+2]=g(W[l+2]g(W[l+1]a[l]+b[l+1])+bl+2+_______)+_______

答案:分别是a[l]和0以下哪一项不属于数值型可视化通道：

答案:色相PCA

的设计原理是：（）。

答案:最大化数据点在低维空间中点的差异以下哪一种交互不属于常见的可视化交互类型。

答案:定向数据可视化有哪些主要分支方向？

答案:科学可视化###信息可视化###可视分析谎言因子是设计用来度量可视化中什么设计指标的方法？

答案:可视化呈现数据时夸张程度的度量方法以下哪一项不是可视化的基本评估方法？

答案:定量实验分析下列选项中哪一项不属于可视化的基本设计准则。（）

答案:设计能够直观传递信息的可视化信息可视化主要是针对什么类型数据的？

答案:抽象数据在受控用户实验中，当我们对比工具A与工具B时，以下哪一个假设符合实验设计标准？

答案:假设在处理数据异常时，用户使用工具A比使用工具B更快以下哪一项不属于数据的维度的类型（）。

答案:时间属性“数据浏览”交互主要是为了完成什么任务：（）。

答案:展现数据中的不同子集假设你正在训练LSTM。你有10000个单词的词汇，并且正在使用具有100维激活的LSTM。每步当中的维数是多少？

答案:100为了使RNN更容易训练，需要选取更好的激活函数，如Relu激活函数。ReLU函数的左侧导数为0，右侧导数恒为1，这就避免了梯度爆炸问题的发生。

答案:错下列哪一项在神经网络中引入了非线性？

答案:修正线性单元（ReLU）梯度下降算法的正确步骤是什么？a.计算预测值和真实值之间的误差b.重复迭代，直至得到网络权重的最佳值c.把输入传入网络，得到输出值d.用随机值初始化权重和偏差e.对每一个产生误差的神经元，调整相应的（权重）值以减小误差

答案:dcaeb已知：大脑是有很多个叫做神经元的东西构成，神经网络是对大脑的简单的数学表达。-每一个神经元都有输入、处理函数和输出。-神经元组合起来形成了网络，可以拟合任何函数。-为了得到最佳的神经网络，我们用梯度下降方法不断更新模型给定上述关于神经网络的描述，什么情况下神经网络模型被称为深度学习模型？

答案:加入更多层，使神经网络的深度增加训练CNN时，可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。

答案:对您正在训练RNN，发现您的权重和激活都具有NaN的值（“非数字”）。以下哪项最可能是此问题的原因？

答案:梯度爆炸问题多对一RNN架构可以应用于以下哪些任务？

答案:情感分类（输入一段文字并输出0/1表示正面或负面情绪）###语音中的性别识别（输入音频剪辑并输出表明说话者性别的标签）下面哪项操作能实现跟神经网络中Dropout的类似效果？

答案:BaggingRNN会发生梯度消失的问题，产生这样的问题的原因是RNN在算是会有激活函数导数的累乘，如果取tanh或sigmoid函数作为激活函数的话，那么必然是一堆小数在做乘法，结果就是越乘越小。随着时间序列的不断深入，小数的累乘就会导致梯度越来越小直到接近于0，这就是“梯度消失“现象。

答案:对关于决策树算法的描述正确的是（）。

答案:决策树可以看成一个If-then规则的集合。VM算法的最小时间复杂度是O（n²），基于此，以下哪种规格的数据集并不适该算法？

答案:大数据集若参数C（costparameter）被设为无穷，下面哪种说法是正确的？

答案:只要最佳分类超平面存在，它就能将所有数据全部正确分类在贝叶斯定理的公式当中，哪一个是先验概率？

答案:P(A)怎样理解“硬间隔”？

答案:SVM只允许极小误差对于信息增益,决策树分裂节点,下面说法正确的是（）1.纯度高的节点需要更多的信息去区分2.信息增益可以用”1比特-熵”获得3.如果选择一个属性具有许多归类值,那么这个信息增益是有偏差的

答案:2和3贝叶斯决策是由先验概率和类条件概率，推导后验概率，然后利用这个概率进行决策。

答案:对SVM中的泛化误差代表什么？

答案:SVM对新数据的预测准确度在电视游戏节目中，参赛者选择三个门之一；一扇门的后面有奖，而另两扇的后面没有奖。参赛者选择一扇门后，游戏节目主持人将打开其余的一扇门，并显示门后没有任何奖金。然后，主持人询问参赛者是将自己的选择切换到另一扇未打开的门，还是将STICK切换到其原始选择。这对参赛者来说切换们是有利的。

答案:对决策树中属性选择的方法有（）。

答案:信息增益###GINI系数###信息增益率DBSCAN算法的缺点包括？

答案:对于高维问题，密度定义是个比较麻烦的问题###对输入参数敏感###当簇的密度变化太大时，不能很好的处理凝聚层次聚类中，定义簇间的相似度的方法有（）。

答案:组平均###MIN（单链）###Ward方法###MAX（全链）全链在处理大小不同的簇时，可能使大的簇破裂。

答案:对以下哪些选项是K-均值聚类面临的问题？

答案:K的选择具有挑战性###关于数据的球形假设（到聚类中心的距离）###贪心算法存在的问题###难以处理噪声、异常值CHAMELEON算法的优点包括：（）。

答案:能识别具有不同形状、大小和密度的簇###能够有效地聚类空间数据###对噪声和异常数据不敏感同一组数据通过不同聚类算法得到的簇的个数是相同的。

答案:错下列关于不同的簇类型的说法中，不正确的是（）。

答案:在明显分离的簇中，同簇中的对象之间的距离要大于异簇的对象使用KMEANS、DBSCAN等多

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据工程智慧树知到期末考试答案章节答案2024年同济大学

文档简介

温馨提示

最新文档

评论

数据工程智慧树知到期末考试答案章节答案2024年同济大学

文档简介

温馨提示

最新文档

评论

相关文档