人工智能自然语言技术练习(习题卷10)_第1页
人工智能自然语言技术练习(习题卷10)_第2页
人工智能自然语言技术练习(习题卷10)_第3页
人工智能自然语言技术练习(习题卷10)_第4页
人工智能自然语言技术练习(习题卷10)_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能自然语言技术练习人工智能自然语言技术练习(习题卷10)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能自然语言技术练习第1部分:单项选择题,共116题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.以下哪个模型是属于产生式模型A)HMMB)SVMC)CRFD)MEMM答案:A解析:[单选题]2.ELMO的第一层LSTM中更多的得到的是什么信息A)固定的词向量B)词义信息C)语义信息D)句法信息答案:D解析:[单选题]3.tf.add函数是对两个tensor做什么运算?A)维度转化B)相加C)相减D)相乘答案:B解析:[单选题]4.以下几个关于Bagging的说法正确的是A)对于偏差来说,Bagging通常选用偏差高的弱学习器B)对于方差来说,Bagging可以降低方差C)不确定D)对于方差来说,Bagging可以提高方差答案:B解析:[单选题]5.关于自然语言处理,以下说法正确的是()A)就是相人一样听到语言,然后查找数据库识别声音B)就是理解书面文字,翻译成另一种语言C)理解自然界各种自然的声响,并加以解释D)具备人类般文字处理能力,从文本中提取意义答案:D解析:[单选题]6.对特征进行归一化后有什么样的优点A)可以为数据增加适量的沉余B)可以为代价函数加入正则项C)不确定D)更快地通过梯度下降找到最优解。答案:D解析:[单选题]7.结构化数据是()?A)数据库中的数据B)HTML文档C)文本D)图片答案:A解析:[单选题]8.下面哪个个关于softmax函数的说法是正确的?A)主要用于二分类B)算出来为概率值C)将最小的概率值所对应的类别作为输入样本的输出类别D)所有的概率相加大于1答案:B解析:[单选题]9.Fasttext做分类,会有以下哪个优点A)网络层数较多B)复杂度高C)精度高D)快速答案:D解析:[单选题]10.词库太大,使用词袋子模型做文本表示会出现什么问题A)向量维度小B)有很强的语义信息C)维度爆炸D)简单快速答案:C解析:[单选题]11.当使用withtf.Session()创建的会话时,在关闭时的同事()释放资源A)自动B)手动C)不能D)无法答案:A解析:[单选题]12.下面模型当中哪个使用了Bi-LSTMA)bertB)GPTC)ELMOD)word2vec答案:C解析:[单选题]13.人工智能中关于F-范数,可标记为()A)||*||FB)||·||FC)||-||FD)F||·||答案:B解析:[单选题]14.CNN网络包含如下哪个概念A)视野域B)循环结构C)梯度消失D)以上都不包含答案:A解析:[单选题]15.seq2seq是什么样的模型架构A)编码和解码B)解码C)编码D)预测答案:A解析:[单选题]16.在BERT模型当中有一个遮蔽任务的训练,那么有多少的遮蔽掉的词A)10%B)12%C)15%D)20%答案:C解析:[单选题]17.平方损失函数一般用在以下哪个算法中A)逻辑回顾B)线性回归C)SVMD)聚类答案:B解析:[单选题]18.评估回归模型的指标,用哪个?A)A:FR²B)B:MFFEC)C:MSED)D:ABC全错答案:C解析:[单选题]19.人工智能关于数据预处理的方法,下面哪个不属于?A)变量代换B)离散化C)聚集D)估计遗漏值答案:D解析:[单选题]20.基于语义的自然语言文本表示中深度学习是哪个?A)LDAB)LSIC)PLSID)wordembedding答案:B解析:[单选题]21.Relu的求导非常简单所以速度快,它正半区的求导之后是多少A)0B)0.25C)1D)-1答案:C解析:[单选题]22.模型训练阶段,使用优化算法是为了在迭代的过程中实现怎么的效果A)增大损失值B)使学习率衰减C)降低损失值D)提升正则项范围答案:B解析:[单选题]23.人工智能机器学习的K均值算法,以下说法不对的是A)K均值算法是聚类算法B)K均值算法是通过迭代过程把数据集划分成不同的类别C)K均值算法是有监督学习算法D)K均值算法对初始值敏感,不同的初始值,可能会导致不同的结果答案:C解析:[单选题]24.GBDT(GradientBoostingDecisionTree)的全名叫什么A)随机森林B)梯度提升决策树C)聚类D)逻辑回归答案:B解析:[单选题]25.XGBoost虽然是在GBDT的基础上进行的改进但是它可以吧哪些方面发挥到极致A)速度B)代价C)准确率D)以上都是答案:A解析:[单选题]26.ELMO是一种什么样的模型A)语言模型B)基于神经网络的语言模型C)基于统计的语言模型D)预训练语言模型答案:D解析:[单选题]27.什么是随机梯度下降A)随机赋值,祈祷它们是正确的B)搜索所有权重和偏差的组合,直到得到最佳值C)赋予一个初始值,通过检查跟最佳值的差值,然后迭代更新权重D)以上都不正确答案:C解析:[单选题]28.设输入句子:?我爱人工智能?,通过自然语言处理产生输出:?我/爱/人工智能?。这个过程称为()。A)中文分词B)词性标注C)依存词法分析D)命名实体识别答案:A解析:[单选题]29.XGBoost是对某个算法的改进,是以下四个选项中的哪个算法A)GBDTB)随机森林C)线性回归D)逻辑回归答案:A解析:[单选题]30.Relu的求导,正半区的求导之后是多少A)0B)0.25C)1D)-1答案:C解析:[单选题]31.不同标注集的根本差别在于()A)如何对某些词进行分类B)如何排布词语C)如何对某种字符进行分类D)如何排布字符答案:A解析:[单选题]32.CBOW的模型网络结构是___?A)输入之后在投影层求和或求平均,最终使用softmax分类B)先对向量求和或求平均,然后将其映射到一个稠密的向量空间上C)先编码再解码D)不确定答案:A解析:[单选题]33.语言模型word2Vec有什么优劣势A)编码的词向量中不包含语义信息B)是一种有监督的训练方式C)无法处理一词多意问题D)不确定答案:C解析:[单选题]34.常用的操作Batch归一化,对比到神经网络中,和下列描述的哪个步骤很相似?A)reluB)dropoutC)sigmoidD)tanh答案:B解析:[单选题]35.梯度消失可以使用的处理方式有:A)对于RNN,可以通过梯度截断,避免梯度消失B)可以通过添加正则项,避免梯度爆炸C)使用LSTM等自循环和门控制机制,避免梯度爆炸D)优化激活函数,譬如将sigmold改为relu,避免梯度消失答案:D解析:[单选题]36.在一个_概率_空间,进行多种划分后,其其信息熵是()A)一定相等B)一定不等C)不确定无关联D)互有关联答案:C解析:[单选题]37.正则化也是常用的手段,以下关于正则化描述错误的是哪个A)过拟合可以通过正则化方式消除B)常用的正则化方式由L1,L2,以及dropoutC)欠拟合可以通过正则化方式消除D)正则化是损失函数的一个补偿项答案:C解析:[单选题]38.下列管Batch归一化操作的作用描述正确的是?A)作用于输出层B)仅作用于输入层C)无法在隐藏层起作用D)用于输入层,甚至深度隐藏层的归一化过程答案:D解析:[单选题]39.下列选项中不属于智能问答分类的是()。A)开放领域自动问答B)非特定领域自动问答C)特定领域自动问答D)常用问题集自动问答答案:B解析:[单选题]40.Transformer是一个基于什么的模型A)AttentionB)CNNC)RNND)LSTM答案:A解析:[单选题]41.下列四个选项中,对于正则化(regularization)的描述正确的选项是哪个?A)每一个隐层都需要正则化(regularization)B)每一个模型中都需要正则化,否则无法正确预测结果C)正则化可以预防欠拟合D)正则化可以预防过拟合答案:D解析:[单选题]42.多头机制的作用是什么A)使每个子空间都有相互之间的连接B)使计算变得跟深,更不容易理解C)本质是多个独立的Attention的计算,作为一个集成的作用防止过拟合,然后每个子空间之间相互独立D)不确定答案:C解析:[单选题]43.不属于文本挖掘的基本技术分类的是()A)文本信息抽取B)文本分类C)文本聚类D)文本数据挖掘答案:D解析:[单选题]44.在进行池化的时候,如果参数ksize=[1,4,4,1]那么图像会发生什么样的变化A)缩小到1/2B)缩小到1/16C)扩大两倍D)扩大四倍答案:B解析:[单选题]45.以下是softmax函数的是()A)概率B)归一化C)损失函数D)空间答案:B解析:[单选题]46.大概率事件怎么理解?如何理解大概率事件A)发生可能性不大的事件B)发生可能性大的事件C)发生可能性不去确定的事件D)以上都正确答案:B解析:[单选题]47.基于LDA主题模型的文本情感分析不包括()。A)文本转换B)主题提取和情感词提取C)主题情感摘要生成D)系统评测答案:A解析:[单选题]48.以下哪个不是文本向量化的常用方法?A)EMB)CBOWC)BDOWD)DM答案:A解析:[单选题]49.sigmoid作为常见的激活函数,有着非线性变化的作用,它的曲线是什么样的A)直线B)A型曲线C)C型曲线D)S型曲线答案:D解析:[单选题]50.关于梯度消失的解释,下面哪个是准确的?A)通过优化算法,处理梯度,可以更快做梯度下降,获取最优解B)由于数据处理或者激活函数选择不合理等原因,无法获取梯度,从而不能获得最优解C)由于隐藏层数量过少,无法获取梯度,从而不能获得最优解D)通过更多隐藏层,减少梯度迭代,从而更快的进行计算,获取最优解答案:B解析:[单选题]51.决策树的基本算法A)分支限界算法B)回溯法C)贪心算法D)概率算法答案:C解析:[单选题]52.以下几个选项中,哪个可以表示超平面A)Wt*x+b=0B)w*log(x)=0C)w*ln(x)=0D)wx²=0答案:A解析:[单选题]53.以下哪个与LSTM无关A)遗忘门B)输入门C)输出门D)更新门答案:D解析:[单选题]54.CART回归树和XGBoost使用的什么相同的方法去寻找最优结果A)贪心算法B)线性回归C)逻辑回归D)岭回归答案:A解析:[单选题]55.哪个技术可以用来解决过拟合问题?A)DorpoutB)正则化C)批规范化D)以上技术均可以答案:D解析:[单选题]56.语言是()A)句子的集合B)产生式的集合C)符号串的集合D)句型的集合答案:A解析:[单选题]57.Bagging中的采样方法是什么样的A)有放回的随机抽样B)无放回的随机抽样C)有放回的顺序抽样D)无放回的顺序抽样答案:A解析:[单选题]58.在实际的应用中,通常的归一化和以下哪个选项中的描述一并使用A)训练集的mini-batchB)测试集的mini-batchC)整个训练集D)整个测试集答案:A解析:[单选题]59.TF-IDF中用权重衡量一个词肯定不够全面,怎么办A)使用one-hotB)使用bagofwordC)使用Word2VecD)不确定答案:C解析:[单选题]60.下列哪个说法是正确的?A)神经网络的更深层通常比前面层计算更复杂的输入特征。B)神经网络的前面层通常比更深层计算更复杂的输入特性。C)神经网络由输入和隐藏层构成D)神经网络的隐藏层只能是一层答案:A解析:[单选题]61.以下选项中关于sigmoid求导之后的值域描述正确的是?A)(0,0.1]B)(0,0.2]C)(0,0.25]D)(0,0.5]答案:C解析:[单选题]62.关于logit回归和SVM不正确的是A)Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。B)Logit回归的输出就是样本属于正类别的几率,可以计算出概率C)SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。D)SVM可以通过正则化系数控制模型的复杂度,避免过拟合。答案:A解析:[单选题]63.以下哪个超参数的调试,对神经网络最重要?A)mini-Batch的大小B)动量梯度下降的参数βC)学习率αD)隐藏层数目答案:C解析:[单选题]64.以下哪个聚类算法不是属于基于原型的聚类A)模糊C均值B)EM算法C)SOMD)CLIQUE答案:A解析:[单选题]65.AUC的值不会大于几?A)1B)2C)3D)4答案:A解析:[单选题]66.文本分类中,数据提取特征阶段的任务是()A)选择具体分类模型及算法,训练文本分类器B)对文档矩阵降维,提取训练集中最有用的特征C)应用性能最高的分类模型对分类文档进行分类D)应用性能最高的分类模型对分类文档进行分类答案:B解析:[单选题]67.关于XGBoost对树的复杂度以下描述正确的是A)一个是树里面根节点的个数TB)一个是树里面叶子节点的个数TC)不确定D)以上都正确答案:B解析:[单选题]68.怎样理解?硬间隔??A)SVM只允许极小误差B)SVM允许分类时出现一定范围的误差C)二者都不对D)不确定答案:A解析:[单选题]69.格的中心是()A)动词B)名词C)介词D)副词答案:A解析:[单选题]70.在模型构建前期,对数据进行划分,正常的将数据集进行切分为三个集合,下面哪个不被包含?A)确认集B)测试集C)验证集D)训练集答案:A解析:[单选题]71.神经网络中经常使用到激活函数,下面关于激活函数的说法是正确的?A)神经网络中最好的激活函数是sigmoidB)激活函数有正则化作用C)dropout是CNN中的激活函数D)神经元输出后需要给定一个激活函数答案:D解析:[单选题]72.K-Means所处理的数据是什么样子的A)未标记的数据集B)已标记的数据集C)半标记的数据集D)不确定答案:A解析:[单选题]73.trainset和testset描述正确的是A)可以直接使用训练集来验证算子的准确率B)训练集用于算子的拟合C)验证集和测试集用来评判算子的准确度D)可以不配置验证集答案:A解析:[单选题]74.聚类肘部法的作用是:A)就是从K值和代价函数J的二维图中找出J下降变平滑的拐点对应的K值。B)最大K值C)最小K值D)随机K值答案:A解析:[单选题]75.编解码器的encode在中如果使用LSTM接收的是什么A)每个单词的wordembedding和上一时间点的hiddenstateB)接收的是原始的单词C)接收的是上一层和hiddenstateD)接收的是每个单词的wordembedding答案:A解析:[单选题]76.以下归一化的描述,正确的是()A)通过中值和均值进行确定B)通过平均值和最小值确定C)通过方差和均值确定D)通过标准差和均值确定答案:C解析:[单选题]77.我们在做一个线性回归时候,如果(x,y)的值为(5,6),(6,7),(7,8),(8,9),则y与x之间的回归直线方程为A)y=x+1B)y=x+2C)y=x-1D)y=2x+1答案:A解析:[单选题]78.并行地训练一系列各自独立的同类模型,然后再将各个模型的输出结果按照某种策略进行聚合,是什么思想A)BaggingB)BoostingC)StackingD)以上都正确答案:A解析:[单选题]79.在贝叶斯统计中,如果后验分布与先验分布属于同类,则被称为什么A)二项分布B)多项分布C)共轭分布D)Bete分布答案:C解析:[单选题]80.sigmoid函数的缺点:导数值范围为(0,0.25],反向传播时会导致?梯度消失?。而()函数导数值范围更大,相对好一点。A)coshB)sinC)tanhD)sigmoid答案:C解析:[单选题]81.SVM处理一个四分类问题,假定数据集中每一类的分布相同,且训练一次SVM模型需要10秒,若完成上面的任务,共花费多少秒?A)20B)40C)60D)80答案:B解析:[单选题]82.大数据中,哪种梯度下降速度最快A)A:随机梯度下降B)B:小批量梯度下降C)C:对代价函数求导D)D:批量梯度下降答案:B解析:[单选题]83.Relu和Tanh相比有什么不同的地方A)输出的值域不同B)Relu可以做非线性变换而Tanh不可以C)Relu是激活函数但是Tanh不是激活函数D)都不可以做线性变换答案:A解析:[单选题]84.以下哪个与支持向量机无关A)使用核函数B)将低维向量向高维向量转换C)使低维线性不可分的数据在高维线性可分D)使用向量的都叫支持向量机答案:D解析:[单选题]85.需要做参数调优的时候可以使用哪个方法A)网格搜索B)SVMC)岭回归D)贪心法则答案:A解析:[单选题]86.人工智能近几年大火,它最早是在什么时候出现的?A)20世纪50年代B)20世纪60年代C)20世纪70年代D)20世纪80年代答案:A解析:[单选题]87.以下哪个逻辑运算不能用单层人工神经网络实现A)NOT(逻辑非)B)AND(逻辑与)C)OR(逻辑或)D)XOR(逻辑异或)答案:D解析:[单选题]88.tf.matmul()方法的作用是什么A)相与B)乘积C)相除D)相加答案:B解析:[单选题]89.如果要采用神经网络来对文本进行建模,必须先将文本向量化,这一过程是指()A)将文本分词B)获得文本类别标签C)将文本压缩D)将文本转换为数值向量答案:D解析:[单选题]90.特征工程本质上是一个什么样的过程A)特征工程是一个表示和展现数据的过程B)特征工程是一个文本分类的过程C)特征工程是一个回归过程D)特征工程是一个聚类过程答案:A解析:[单选题]91.美元货币符号?$?表示匹配字符串的()位置。A)结束B)开始C)中间D)表示货币的字符串答案:A解析:[单选题]92.决策树中为什么要进行剪枝的操作A)决策树生成算法递归的产生决策树,进行剪枝毫无意义B)决策树生成算法递归的产生决策树,直到不能继续下去为止,这样产生的树往往对训练数据的分类很准确,但对未知测试数据的分类缺没有那么精确,即会出现过拟合现象,因此需要剪枝C)决策树的训练过程当中可能会发生欠拟合,因此需要做剪枝D)决策树的需要做节点的选择,因此需要做剪枝答案:B解析:[单选题]93.可以在自然语言处理中用于语义关系提取的神经网络技术是以下哪种?A)循环神经网络B)卷积神经网络C)递归神经网络D)残差神经网络答案:A解析:[单选题]94.LDA称为()A)损失分布法B)内部衡量法C)打分卡法D)内部损失数据法答案:A解析:[单选题]95.专家系统的推理机的最基本的方式是()。A)直接推理和间接推理B)正向推理和反向推理C)逻辑推理和非逻辑推理D)准确推理和模糊推理答案:B解析:[单选题]96.LightGBM中使用了带有深度限制的按叶子生长算法去对GBDT进行优化,关于这个算法缩写,是以下选项中的哪个?A)leaf-wiseB)HistogramC)SklearnD)Nnumpy答案:A解析:[单选题]97.谷歌开源出的BERT模型也得到了很广泛的应用,对于BERT有几个训练任务A)1B)2C)3D)4答案:B解析:[单选题]98.关于HMM的解码问题,用什么算法处理A)前向算法B)后向算法C)Viterbi算法D)Baum-Welch算法答案:C解析:[单选题]99.SVM算法的性能取决于:A)核函数的选择B)核函数的参数C)软间隔参数CD)以上所有答案:D解析:[单选题]100.在下列四个选项中,正确的找出激活函数A)L1B)ReluC)L2D)MSE答案:B解析:[单选题]101.RMSprop相比较与算法Momentum,建议可以采取更大的()A)学习率B)样本集C)损失函数D)激活函数答案:A解析:[单选题]102.()根据文本的不同特征划分为不同的类A)文本概括B)文本分类C)文本聚类D)都可以答案:C解析:[单选题]103.设输入句子?我爱人工智能?,经过词性标注等得到?我/PN爱/VV人工智能/NR",其中,PN、VV和NR的含义分别是代词、动词、专有名词。以下()是命名实体。A)?我?B)?爱?C)?人工智能?D)?我?、?人工智能?答案:C解析:[单选题]104.以下哪个激活函数经常用来解决二分类问题A)tanhB)LeakyReluC)sigmoidD)relu答案:C解析:[单选题]105.什么是自然语言处理(NLP)A)机器理解B)让计算机/机器在理解语言上像人类一样智能C)弥补人类交流和计算机理解之间的差距D)一门计算机科学、人工智能以及语言学的交叉学科答案:D解析:[单选题]106.在NLP任务中,以下哪个可以提高模型精度A)ELMoB)OpenAI?sGPTC)ULMFitD)One-Hot答案:B解析:OpenAI的GPT能够通过使用Transformer模型的注意力机制(AttentionMechanism)来学习数据中的复杂模式,因此更适合于诸如语义相似性、阅读理解和常识推理之类的复杂用例。[单选题]107.一个文本语料库中我们要提取的特征可能是什么A)文本中词计数B)词的向量标注C)词性标注(PartofSpeechTag)D)以上所有答案:D解析:[单选题]108.SVM中,若C趋于无穷,以下哪种说法正确?A)数据仍可正确分类B)数据无法正确分类C)不确定D)以上都不对答案:A解析:[单选题]109.以下哪个模型使用了双向的Transformer作为特征提取A)BERTB)Word2VecC)ELMOD)GPT答案:A解析:[单选题]110.像个性化推荐,机器创作等这类任务,用到了以下哪个内容A)深度学习B)GANC)自编码D)迁移学习答案:A解析:[单选题]111.DecisionTreeClassifier中的max_leaf_nodes参数的作用是什么A)最大叶子节点数B)类别权重C)随机种子D)决策树深度答案:A解析:[单选题]112.并行地训练一系列各自独立的不同类模型,然后通过训练一个元模型(meta-model)来将各个模型输出结果进行结合,是什么思想A)BaggingB)BoostingC)StackingD)以上都正确答案:C解析:[单选题]113.KNN算法更适合于()的分类问题。A)稀有事件B)易发事件C)不确定D)以上都正确答案:A解析:[单选题]114.梯度爆炸如何解决??A)对于RNN,可以通过梯度截断,避免梯度消失B)可以通过添加正则项,避免梯度爆炸C)使用LSTM等自循环和门控制机制,避免梯度爆炸D)优化激活函数,譬如将sigmold改为relu,避免梯度消失答案:B解析:[单选题]115.中文NLP的基本流程由语料获取、()、文本向量化、模型构建、模型训练和模型评价6部分组成。A)语料预处理B)中文分词C)去停用词D)词性标注答案:A解析:[单选题]116.自然语言处理包括哪些阶段()。A)自然语言书写。B)自然语言理解。C)自然语言写作。D)然语言分析。答案:B解析:第2部分:多项选择题,共57题,每题至少两个正确答案,多选或少选均不得分。[多选题]117.以下哪些是CNN的内容A)卷积B)池化C)循环神经结构D)以上都不对答案:AB解析:[多选题]118.关键词提取系统的实用性主要表现在以下()A)可读性B)高速性C)学习性D)健壮性答案:ABCD解析:[多选题]119.目前深度学习的到了广泛的应用,那么深度学习可以应用到以下哪些领域A)计算机视觉B)语音识别C)自然语言处理D)人机博弈答案:ABCD解析:[多选题]120.SVM的原理是什么?A)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机B)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;C)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。D)以上都正确答案:ABCD解析:[多选题]121.下面哪些算法可以用于文本的分词?()A)基于规则的分词B)TF-IDF算法C)反向最大匹配法D)词嵌入答案:AC解析:[多选题]122.降维最终是为了达到一个什么样的效果A)减少预测变量的个数。B)降低算法运算开销。C)去除数据噪声。D)确保这些变量是相互独立的。答案:ABCD解析:[多选题]123.CNN模型的核心包括下面哪些选项A)局部连接B)权值共享C)多层次结构D)池化操作答案:ABD解析:[多选题]124.同样是做降维,LDA和PCA的相同点A)两者均可以对数据进行降维;B)两者在降维时均使用了矩阵特征分解的思想;C)有监督的降维方法;D)两者都假设数据符合高斯分布;答案:ABD解析:[多选题]125.如果网络中的梯度达到了0,那么说明___?A)局部最优解B)全局最优解C)鞍点D)转折点答案:ABC解析:[多选题]126.以下死哦模型当中,哪些是用于产生词嵌入的双向语言模型A)BERTB)GPTC)ELMoD)Word2Vec答案:AC解析:[多选题]127.在下列四个选项中,关于GBDT算法描述正确的选项有哪些?A)预测阶段的计算速度快,树与树之间可并行化计算(注意预测时可并行)B)在分布稠密的数据集上,泛化能力和表达能力都很好;C)GBDT在高维稀疏的数据集上表现不佳;D)训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度。答案:ABCD解析:[多选题]128.对于一个词向量方式词袋子模型,它有什么优劣势A)简单方便快速B)在语料充足的前提下,对于简单自然语言处理任务效果不错C)准确率较低D)无法关注词语间的顺序答案:ABCD解析:[多选题]129.下列应用属于自然语言处理的是()A)机器阅读B)机器翻译C)语音识别D)人脸识别答案:AB解析:[多选题]130.正则表达式可以()A)测试字符串内的模式。例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式B)替换文本。可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它C)基于模式匹配从字符串中提取子字符串D)可以查找文档内或输入域内特定的文本答案:ABCD解析:[多选题]131.下列()是违约概率模型A)风险中性定价模型B)信用监测模型C)信用风险计算方法D)以上都正确答案:ABCD解析:[多选题]132.ELMO中使用双向的LSTM有什么可以优化的地方A)将LSTM替换成TransformerB)双向的LSTM在最后拼接的时候融合效果差C)适应性广,普适性强D)可以动态调整的词向量答案:BC解析:[多选题]133.线性函数归一化,是怎么去实现的A)将原始数据映射到均值为0、标准差为1的分布上B)对原始数据的等比缩放C)使结果映射到[1,2]的范围D)以上都正确答案:AB解析:[多选题]134.TF-IDF分别代表__和__?A)TF(词频)B)TF(逆文档频率)C)IDF(逆文档频率)D)IDF(词频)答案:AC解析:[多选题]135.Batch归一化对于神经网络的调试为什么有用?A)通过归一化所有的输入特征值,以获得类似范围的值,加速学习B)将参数归一化可以减缓学习速率C)可以使权重比你的网络更滞后或更深D)可以使权重比你的网络更超前或更深答案:AC解析:[多选题]136.K-Means聚类的思想是什么A)适当的选择K个类的初始质心B)迭代更新,求C个中心的距离,找到距离最短的中心所在类C)利用均值等方法更新中心值D)不断迭代更新,直到值保持不练答案:ABCD解析:[多选题]137.梯度消失对于模型的训练非常重要,会造成模型学不到新的东西。下列说法中,关于其描述正确的选项都有哪些?A)梯度消失对神经网络无影响B)可以通过激活函数防止梯度消失C)尽量避免梯度消失D)梯度消失反向传播时,由于梯度值过小或消失的现象答案:BCD解析:[多选题]138.在下列参数中,有哪些参数是在神经网络中需要进行调试的?A)学习率αB)动量梯度下降的参数βC)mini-Batch的大小D)隐藏层数目答案:ABCD解析:[多选题]139.判别式Discriminativemodel模型使用的方式有:A)HMMB)SVMC)CRFD)MEMM答案:BCD解析:[多选题]140.词性标注后会降低()处理的复杂度。A)词义标注B)信息检索C)字音转换D)简繁转换答案:ABCD解析:[多选题]141.下列哪些是预训练模型A)ELMOB)BERTC)GPTD)GPT-2答案:ABCD解析:[多选题]142.常用的激活函数包括哪些A)tanhB)sigmoidC)ReluD)leaky-Relu答案:ABCD解析:[多选题]143.能逃离局部最优解的方式为A)AdamB)MomentumC)RMSpropD)Lasso答案:ABC解析:[多选题]144.关于如下运算:a=tf.Variable([3,4,5])和b=tf.Variable(a),以下描述正确的是A)合法B)非法C)合法但a需要提前初始化D)合法但不够安全答案:ACD解析:[多选题]145.文本的One-hot表示的缺点有()A)维数过高B)矩阵稀疏C)不能保留语义D)以上都不对答案:ABC解析:[多选题]146.应用最宽泛的深度学习框架是哪个A)caffeB)tensorflowC)torchD)mxnet答案:ABCD解析:[多选题]147.自然语言处理的典型应用场景有()A)文档分类和时间序列分类B)根据电影评论进行情感分析C)根据最近天气数据预测未来天气D)将英语翻译为法语答案:ABCD解析:[多选题]148.下面关于_概率图模型_,其分类说法正确的是A)有向图:贝叶斯网络B)有向图:马尔可夫随机场C)无向图:贝叶斯网络D)无向图:马尔可夫随机场答案:AD解析:[多选题]149.训练好的线性回归模型可能会遇到什么不好的问题A)欠拟合B)数据量过小C)过拟合D)模型正常答案:AC解析:[多选题]150.所谓的命名实体包括哪些?()A)人名B)地名C)机构名D)时间答案:ABCD解析:[多选题]151.文本分类任务中使用FastText算法有什么特点A)可以进行有监督学习,也可以无监督学习B)引入了分层的softmaxC)结构与CBOW类似D)缺点是没有引入N-Gram答案:ABC解析:[多选题]152.One-Hot的缺点是什么A)简单快速容易使用B)可能会产生维度爆炸C)没有语义信息D)向量的特征表示并不是很好答案:BCD解析:[多选题]153.LDA中有四个分布分别是哪四个分布A)二项分布B)多项分布C)beta分布D)Dirichlet分布答案:ABCD解析:[多选题]154.下面哪些关于特征工程正则化的描述是正确的?A)正则化可以防止欠拟合B)relu函数具有正则化效果C)正则化可以防止过拟合D)dropout具有正则化效果答案:CD解析:[多选题]155.自然语言处理产生的对话系统,对企业有哪些好处?A)节省人工B)提高奖金C)节省费用D)降低耗电答案:AC解析:[多选题]156.NLP研究的方向和内容都有哪些??A)文档分类B)信息抽取C)舆情分析D)信息检索答案:ABCD解析:[多选题]157.下列四个选项中,关于朴素贝叶斯算法特点描述正确的是?A)低偏差B)高方差C)低方差D)高偏差答案:CD解析:[多选题]158.下列属于文本分类模型的有()。A)基于规则的分类模型B)基于概率的分类模型C)基于机器学习的分类模型D)基于神经网络的分类模型答案:ACD解析:[多选题]159.篇章分析中关于自动文摘,可以分为哪两大类A)LDAB)ExtractiveC)AbstractiveD)Recall答案:BC解析:[多选题]160.CNN网络中的卷积部分分别都是有哪些部分构成的A)卷积层B)RELUC)POOLING层D)pedding答案:ABC解析:[多选题]161.N-gram对NLP中的什么任务有不错的效果A)中文词性标注B)中文分词C)中文文本分析D)以上都正确答案:ABCD解析:[多选题]162.以下哪些属于长短期记忆网络A)输入门B)输出门C)遗忘门D)重置门答案:ABC解析:[多选题]163.概率图模型中关于判别式模型的缺点,以下哪些?A)学习过程比较复杂B)目标分类中易产生较大错误率C)不能反映训练数据本身的特性D)没办法把整个场景描述出来答案:CD解析:[多选题]164.如果在训练任务中发生了过拟合现象应该如何解决A)增加数据量B)减少数据量C)增加迭代次数D)减少迭代次数答案:AD解析:[多选题]165.以下哪些是随机森林的特点:A)A:能够有效地运行在大数据集上B)B:能够处理具有高维特征的输入样本,而且不需要降维C)C:对于缺省值问题也能够获得很好得结果D)D:能够评估各个特征在分类问题上的重要性答案:ABCD解析:[多选题]166.以下哪些网络是循环神经网络A)RNNB)LSTMC)GRUD)以上都是的答案:ABCD解析:[多选题]167.以下哪些算法经常会用到归一化A)SVMB)线性回归C)逻辑回归D)神经网络答案:ABCD解析:[多选题]168.pytorch框架可用于解决以下哪些问题A)NLPB)CVC)DMD)都不能答案:ABC解析:[多选题]169.文本表示的模型有哪些A)词袋子模型B)N-gramC)线性回归模型D)逻辑回归模型答案:AB解析:[多选题]170.相比机器学习,深度学习在处理数据的时,在以下哪些方面更加简便A)数据清洗B)特征提取C)特征选择D)模型训练答案:ABC解析:[多选题]171.逻辑回归可以做分类,以下对于它有点描述A)多重共线性和预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。B)高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有2%。C)过多的变量,对查找规律造成冗余麻烦。D)仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。答案:ABCD解析:[多选题]172.以下哪些是判别式模型A)HMMB)SVMC)CRFD)MEMM答案:BCD解析:[多选题]173.CNN在NLP中也有广泛的应用,下面程序语句例如conv2d(input_d,filter_d,strides=[1,3,3,1],padding='SAME'),这条语句的含意理解为()?A)步长在高度方向和宽度方向均为3B)填充图像边缘,使图像尺寸不变C)input_d是待卷积的数据D)进行卷积操作答案:ABCD解析:第3部分:判断题,共66题,请判断题目是否正确。[判断题]174.Attention和Self-Attention的计算方式是相同的A)正确B)错误答案:对解析:[判断题]175.提升隐层层数或者隐层神经元个数,神经网络?容量?会变大,空间表达力会变强。A)正确B)错误答案:对解析:[判断题]176.感知器分类器最早由Rosenblatt提出(Rosenblatt,1962),其又被称作正确驱动的方法。A)正确B)错误答案:错解析:[判断题]177.sub函数能够找到所有模式匹配的字符串并用指定的字符串替换。对A)正确B)错误答案:对解析:[判断题]178.中文对于词没有一个形式上的分界符。A)正确B)错误答案:对解析:[判断题]179.类模型提出的意义是降低模型参数的规模。A)正确B)错误答案:对解析:[判断题]180.自然语言处理是能实现计算机与计算机之间用自然语言进行有效通信的各种理论和方法。A)正确B)错误答案:对解析:[判断题]181.决策树如果不加剪枝操作的话,很容易陷入过拟合A)正确B)错误答案:对解析:[判断题]182.在应用领域中,不会根据量而划分是否是语料库A)正确B)错误答案:对解析:[判断题]183.激活函数一般连接在输入层的后面A)正确B)错误答案:对解析:[判断题]184.在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。A)正确B)错误答案:对解析:[判断题]185.ID3,C4.5,CART算法中,选择的特征方法不同A)正确B)错误答案:对解析:[判断题]186.将一个具有多变量的全局函数因子分解,得到几个局部函数的乘积,以此为基础得到的一个双向图叫做因子图A)正确B)错误答案:对解析:[判断题]187.情感词的强度指的是情感的强弱。对A)正确B)错误答案:对解析:[判断题]188.符合正态分布的两类样本的分类面的位置与先验概率无关。A)正确B)错误答案:错解析:[判断题]189.层次softmax使用的是霍夫曼树来编码输出层词典A)正确B)错误答案:对解析:[判断题]190.CNN中卷积核的尺寸越小越好A)正确B)错误答案:错解析:[判断题]191.首先gbdt是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。A)正确B)错误答案:对解析:[判断题]192.机器翻译不属于自然语言处理技术。A)正确B)错误答案:错解析:[判断题]193.词法分析中,通常用正确率、召回率、F值来评价系统的性能A)正确B)错误答案:对解析:[判断题]194.构造一个句法分析器需要考虑两部分工作。首先,是句法的形式化表示;其次,有了这些规则,还需要有使用这些规则来达成分析的算法A)正确B)错误答案:对解析:[判断题]195.ELMO相比较Word2Vec解决了一词多义问题A)正确B)错误答案:对解析:[判断题]196.redwine是搭配词A)正确B)错误答案:对解析:[判断题]197.森林中任意两棵树的相关性:相关性越大,错误率越低。A)正确B)错误答案:错解析:[判断题]198.EM中的M步,结合E步求出的隐含变量条件概率,求出似然函数下界函数的最大值A)正确B)错误答案:对解析:[判断题]199.TextCNN是用于机器翻译的算法A)正确B)错误答案:错解析:[判断题]200.文本离散表示的特点是忽略文本信息中的语序信息和语境信息,仅将其反映为若干维度的独立概念。对A)正确B)错误答案:对解析:[判断题]201.Seq2Seq并不是编解码结构A)正确B)错误答案:对解析:[判断题]202.深度学习相比较于人工神经网络,前者的隐藏层数更多A)正确B)错误答案:对解析:[判断题]203.CYK分析法首先需要对文法进行Chomsky范式化处理A)正确B)错误答案:对解析:[判断题]204.EM算法是一种监督学习算法A)正确B)错误答案:错解析:[判断题]205.隐马尔科夫模型适宜用于系统中长期预测A)正确B)错误答案:错解析:[判断题]206.发生了过拟合之后,可以从数据入手,获取更多的数据集A)正确B)错误答案:对解析:[判断题]207.神经网络中的输出层可以是一层,也可以是多层A)正确B)错误答案:错解析:[判断题]208.正则表达式的组成部分只能是可打印字符。错A)正确B)错误答案:错解析:[判断题]209.可以把数据集分割为子集训练,这些子集被取名为mini-batchA)正确B)错误答案:对解析:[判断题]210.情感词典可以根据要求自行构建也可以从网上下载专门的情感词典。对A)正确B)错误答案:对解析:[判断题]211.CBOW属于基于神经网络的文本表示方法,是word2vec中重要的一种实现方式A)正确B)错误答案:对解析:[判断题]212.EM算法中求和的项数会随着隐变量的数目指数上升,会给梯度计算带来麻烦。EM算法是一种非梯度优化算法A)正确B)错误答案:对解析:[判断题]213.gensim包中当word2vce的参数sg=1时,代表选择CBOW算法A)正确B)错误答案:错解析:[判断题]214.判别模型直接估计分类的最终优化目标条件概率()A)正确B)错误答案:对解析:[判断题]215.keras是TensorFlow的高级集成API,它更加的简介方便A)正确B)错误答案:对解析:[判断题]216.关于网络中的学习问题,在一次学习问题中,只能通过一个样本进行学习,以能够认出同一个人。A)正确B)错误答案:对解析:[判断题]217.基于规则的标注方法是较早的一种词性标注方法,这种方法需要获取能表达一定的上下文关系及其相关语境的规则库。对A)正确B)错误答案:对解析:[判断题]218.ELMO和Word2Vec都属于预训练模型,ELMO相比较Word2Vec解决了一词多义问题A)正确B)错误答案:错解析:[判断题]219.深度学习可以同时应用在图像和自然语言领域A)正确B)错误答案:对解析:[判断题]220.逆文档频率是统计一个词在一篇文档中出现频次的统计量。错A)正确B)错误答案:错解析:[判断题]221.编解码模型由非常广泛的应用A)正确B)错误答案:对解析:[判断题]222.理性主义与经验主义的基本出发点是一致的。()A)正确B)错误答案:错解析:[判断题]223.特征工程可有可无A)正确B)错误答案:错解析:[判断题]224.浅层句法分析的方法基本上可以分成两类:基于统计的方法和基于规则的方法A)正确B)错误答案:对解析:[判断题]225.ID3可以做聚类A)正确B)错误答案:错解析:[判断题]226.不可撤回方式是利用问题给出的局部知识来决定如何选取规则,接着再根据新状态继续选取规则,搜索过程一直进行下去,不必考虑撒回用过的规则。A)正确B)错误答案:对解析:[判断题]227.LR的可解释性强,可控度高A)正确B)错误答案:对解析:[判断题]228.关键词提取技术的主要应用有新闻阅读、广告推荐、历史文化研究、论文索引等领域。对A)正确B)错误答案:对解析:[判断题]229.word2vce中计算相似度用的是余弦值,距离范为0-1之间,值越大代表两个词关联度越高A)正确B)错误答案:对解析:[判断题]230.采用回溯算法将导致大量的冗余操作,效率非常低A)正确B)错误答案:对解析:[判断题]231.支持向量机是基于Vapnik提出的统计学习原理构建的一种线型分类器()A)正确B)错误答案:对解析:[判断题]232.概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系A)正确B)错误答案:对解析:[判断题]233.语料库必须以电子文本形式存在。错A)正确B)错误答案:错解析:[判断题]234.SVM中当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论