人工智能自然语言技术练习(习题卷9)_第1页
人工智能自然语言技术练习(习题卷9)_第2页
人工智能自然语言技术练习(习题卷9)_第3页
人工智能自然语言技术练习(习题卷9)_第4页
人工智能自然语言技术练习(习题卷9)_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能自然语言技术练习人工智能自然语言技术练习(习题卷9)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能自然语言技术练习第1部分:单项选择题,共116题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列哪个不是目前命名实体识别技术的难点?()A)长度不确定B)嵌套情况复杂C)分词准确度不高D)命名实体的构成规律复杂答案:C解析:[单选题]2.EM算法在高斯混合模型中的应用中的E步骤主要做了什么事情A)确定Q函数B)明确隐变量,写出完全数据的对数似然函数C)求Q函数对theta的极大值,即求新一轮迭代的模型参数D)不确定答案:A解析:[单选题]3.下列可以用马尔可夫模型来分析的是A)基因序列数据B)其余选项结对C)股价数据D)电影评论数据答案:B解析:[单选题]4.贝叶斯定理实质上是对()的陈述。A)联合概率B)边际概率C)条件概率D)后验概率答案:C解析:[单选题]5.如果从一个区间[a,b],从中随机出一个值y,下列说法中不正确的是?A)取最小值的对数得到a的值B)取最小值的对数得到b的值C)取最大值的对数得到b的值D)取任意值r,则超参数设置为10的r次方答案:B解析:[单选题]6.以下选项中关于LDA的优点描述说法正确的是A)LDA适合对非高斯分布样本进行降维;B)可以使用类别的先验知识;C)LDA降维最多降到分类数k-1维;D)LDA可能过度拟合数据。答案:B解析:[单选题]7.对于满足正态分布的样本数据来说效果会很好,但是过于依赖初始聚类中心的算法是基于()的聚类算法。A)模型B)网格C)模糊D)密度答案:C解析:[单选题]8.BP算法是人工智能的里程碑,具体这个算法能起到什么作用A)最大化实际输出与训练集的误差率B)最小化实际输出与训练集的误差率C)均值化实际输出与训练集的误差率D)范数化实际输出与训练集的误差率答案:B解析:[单选题]9.基于信息论的词义消歧方法的关键在于特征选择,为此可以采用①互信息②信息增益③决策树④最大熵等方法进行特征选择()A)①②B)③④C)①②③④D)②③④答案:C解析:[单选题]10.以下选项当中,描述了EM的优缺点,那么关于它的优点描述正确的是?A)对初始值敏感B)简单性和普适性C)不同的初值可能得到不同的参数估计值D)不能保证找到全局最优值答案:B解析:[单选题]11.概率图中的无向边表示的是什么A)表示单向的依赖B)表述互相依赖关系C)表示无依赖关系D)不确定答案:B解析:[单选题]12.下面使用深度学习做情感分析的说法错误的是哪个?()A)情感分析是一个分类问题,不需要人工标注样本B)卷积神经网络也能提取文本的特征,实现文本情感的分类C)使用循环神经网络进行情感分析时,每个时刻的输入是句子中词的编码,最后一个时刻才有输出,即情感类别D)当检验样本与训练样本有比较大的差别时,即使使用深度学习的算法,分类效果往往也不理想答案:A解析:[单选题]13.情感分析的基础性工作是()。A)文本信息抽取B)文本的主客观分类C)情感分类D)情感极性判断答案:A解析:[单选题]14.以下哪种不是文法的表示类型?A)无约束短语结构文法B)上下文有关文法C)上下文无关文法D)反则文法答案:D解析:[单选题]15.如果造成了数据的维度稀疏,我们可以怎么解决A)回归B)分类C)降维D)聚类答案:C解析:[单选题]16.在机器学习算法中,正则化是为了A)防止欠拟合B)防止过拟合C)防止拟合D)其它都不对答案:B解析:[单选题]17.看以下这个单词,RandomForest指的是哪个算法A)随机森林B)决策树C)聚类D)逻辑回归答案:A解析:[单选题]18.CRF(条件随机场)是一个什么模型A)是生成式模型B)是判别式模型C)即是生成式模型又是判别式D)不确定答案:B解析:[单选题]19.ReinforcementLearning是什么网络A)全连接网络B)迁移学习C)循环神经网络D)强化学习答案:D解析:[单选题]20.在下列神经网络的参数中,其中的参数的调试不包括哪个?A)学习率αB)动量梯度下降的参数βC)mini-Batch的大小D)输入图片大小答案:D解析:[单选题]21.自然语言处理是用()技术的一种应用。A)语音识别B)虚拟现实C)人工智能D)文字识别答案:C解析:[单选题]22.TF-IDF应该如何构建A)文档中出现频率最高的词B)文档中最重要的词C)词向量化D)文本分类答案:B解析:[单选题]23.以下不是语料库的三点基本认识的是A)语料库中存放的是在语言的实际使用中真实出现出的语言材料。B)语料库是以电子计算机为载体承载语言知识的基本资源,并不等于语言知识。C)真实语料需要经过加工(分析和处理),才能成为有用的资源。D)语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。答案:D解析:[单选题]24.()是统计一个词出现在文档集中文档频次的统计量。A)逆文档频率B)词频C)词频-逆文档频率D)以上都不对答案:A解析:[单选题]25.TextRank是由哪个算法改进而来的A)FastTextB)TextCNNC)PageRankD)TF-IDF答案:C解析:[单选题]26.汉语自动分词的F-测度具体定义是()A)P=(系统输出正确词个数/系统输出词个数)*100%B)R=(系统输出正确词个数/标准答案中词的个数)*100%C)F=((β2+1)*P*R)/(β2*P+R)=(B=1)(2*P*R)/(P+R)D)P(A|B)=P(B|A)*P(A)/P(B)答案:C解析:[单选题]27.以下哪个技术可以用于机器写诗、机器阅读A)深度学习B)GANC)自编码D)迁移学习答案:A解析:[单选题]28.在tf中常用的reshape函数它的用途是做什么?A)维度转化B)相加C)相乘D)相减答案:A解析:[单选题]29.纵观决策树有哪些优点A)易于理解和解释,决策树可以可视化。B)决策树学习可能创建一个过于复杂的树,并不能很好的预测数据。也就是过拟合C)决策树可能是不稳定的,因为即使非常小的变异,可能会产生一颗完全不同的树D)如果某些分类占优势,决策树将会创建一棵有偏差的树答案:A解析:[单选题]30.NLP任务是,使用以下哪个模型会使准确率升高A)BERTB)XLNETC)GPT-2D)ELMo答案:B解析:XLNET在所有模型中都给出了最好的准确性。它在20个任务上都优于BERT,在情感分析、问答、自然语言推理等18个任务上都取得了顶尖的结果。[单选题]31.tf.subtract的返回值是什么类型的数据A)范数B)数组C)矢量D)Tensor答案:D解析:[单选题]32.自然语言处理是指理解给定文本的哪方面内容?A)字数B)关键词C)敏感词D)含义答案:D解析:[单选题]33.下列特征选择的方法,不属于的是哪个?A)嵌入B)过滤C)包装D)抽样答案:D解析:[单选题]34.关于面向对象的特性,下面描述不对的是():A)A:封装B)B:继承C)C:多态D)D:消息答案:D解析:[单选题]35.关于指数加权平均数的好处,下列说法描述正确的是哪个?A)只需要少量参数B)占用极少内存C)不适用学习率D)是非监督式学习答案:B解析:[单选题]36.现实世界中,各处都体现出信息传递的过程,那么信息传播的速度,是以()数量级进行A)线性B)幂函数C)指数D)常数答案:C解析:[单选题]37.AutoEncoder是什么网络和技术A)自编码器B)强化学习C)迁移学习D)循环神经网络答案:A解析:[单选题]38.RNN可以将()的时间步进行关联处理A)先前B)之后C)丢失D)LSTM答案:A解析:[单选题]39.SVM作为常用的经典算法,其中的泛化误差指的是什么A)分类超平面与支持向量的距离B)SVM对新数据的预测准确度C)SVM中的误差阈值D)不确定答案:B解析:[单选题]40.自然语言处理不能做什么?()A)分词B)词编码C)自动文摘D)计算机病毒答案:D解析:[单选题]41.使用共现矩阵做词向量容易导致维度爆炸,如何解决A)使用SVD降维B)使用K-MeansC)使用KNN处理D)不能解决答案:A解析:[单选题]42.在HMM中,我们可以怎么样去进行参数估计呢?A)EM算法B)维特比算法C)前向后向算法D)极大似然估计答案:D解析:[单选题]43.马尔科夫链在计算时要依靠A)先验概率B)后验概率C)条件概率D)最大似然概率答案:B解析:[单选题]44.人工智能最近大火,那么它是从20世纪()开始出现了A)50年代B)60年代C)70年代D)80年代答案:A解析:[单选题]45.BERT有几个训练任务A)1B)2C)3D)4答案:B解析:[单选题]46.如果对数据的特征做了归一化,会有什么优点A)提高复杂关系的拟合能力B)不确定C)训练数据归一化后,容易更快地通过梯度下降找到最优解。D)以上都正确答案:C解析:[单选题]47.什么是KNN算法,如何理解KNNA)KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一B)通过建立自变量因变量之间一次函数的关系去做回归C)找到间隔最大的超平面,去做分类D)不确定答案:A解析:[单选题]48.EM算法也有很多的缺点,例如:A)解决梯度下降等优化方法的缺陷B)对初始值敏感C)解决了求和的项数将随着隐变量的数目以指数级上升D)不确定答案:A解析:[单选题]49.KS检验与卡方检验的相同点A)处理方式相同B)得到的效果相同C)二者都用于类别数据D)都采用实际频数和期望频数只差进行检验答案:D解析:[单选题]50.构建神经网络模型,经常会发生过拟合现象,下列选项中关于拟合说法正确的是?A)过拟合只发生在理论阶段,实际不会发生这种情况B)欠拟合是数据量过多,造成无法全部计算的现象C)过拟合是指数据量大,计算复杂的情况D)训练准确率高,测试准确率低的情况,数据过拟合答案:D解析:[单选题]51.线图分析法的数据结构不包括那个部分?A)线图B)待处理表C)点规则集合D)点图答案:D解析:[单选题]52.一家全国范围发行的杂志出版商聘用你分析他们的社交媒体数据集,并希望知道哪些新出版物是最有价值的。你会使用以下哪一项分析工具?()A)文本挖掘B)情感分析C)网络挖掘软件D)关联分析的数据答案:B解析:[单选题]53.以下哪一个不是知网描述的关系A)上下位关系B)实体-值关系C)实体-属性关系D)反义关系答案:C解析:[单选题]54.在文档中,删除?啊??的?这样的词称为什么A)词干提取(Stemming)B)词形还原(Lemmatization)C)停用词(StopWords)D)以上所有答案:C解析:[单选题]55.网络表示(NetworkEmbedding)模型是受到以下哪种模型的启发而来?A)LDAB)word2vecC)PageRankD)SVD答案:B解析:[单选题]56.词义消歧可以看成是一种标注问题,但是要使用()A)词性标记B)语性标记C)词义标记D)语义标记答案:D解析:[单选题]57.在以下四个选项中哪些属于神经网络中的参数A)学习率B)权重C)迭代次数D)隐藏层的大小答案:B解析:[单选题]58.Relu函数存在一定的缺陷,以下哪个激活函数是对其进行的改进A)sigmoidB)LeakyreluC)reluD)tanh答案:B解析:[单选题]59.基于机器学习的情感分类,关键在于特征选择、()分类模型。A)标记词性B)特征提取C)特征权重量化D)情感极性判断答案:C解析:[单选题]60.通常使用到的交叉熵函数是作为什么作用?A)损失函数B)激活函数C)sigmoid函数D)relu函数答案:A解析:[单选题]61.tf.split是什么意思A)沿着某一维度连结tensorB)沿着某一维度将tensor分离为num_splittensorsC)对tensor进行切片操作D)沿着某维度进行序列反转答案:B解析:[单选题]62.LDA中的一个采样是什么采样A)gamma函数B)二项分布C)pLSAD)Gibbs采样答案:D解析:[单选题]63.对原始的语料文件进行预处理时要进行()。A)抽取数据中的问答对话集合B)构建词典C)模型训练D)模型测试答案:B解析:[单选题]64.通过去计算一个句子出现的概率的模型,称之为什么模型A)预训练模型B)语言模型C)编码模型D)解码模型答案:B解析:[单选题]65.关于采用卷积神经网络进行图像分类和文本分类的比较,下列说法错误的是()A)卷积神经网络只能用于图像分类,不能用于文本分类B)使用卷积神经网络进行句子分类,一般将句子中每个词表示为固定长度的向量,这样句子就可以表示为矩阵,从而使得在结构上与图像类似,并在后续进行卷积等处C)图像处理应用中,卷积核处理的局部区域为图像的一小块区域,而在文本分类时卷积核处理的局部区域通常为相邻的上下几行(几个词)。因此卷积核的宽度和输入矩阵的宽度相等D)使用卷积神经网络进行句子分类或者文档分类,卷积提取的特征与采用n-gram模式提取的特征类似答案:A解析:[单选题]66.以下哪个领域包含文本摘要任务A)图像识别B)数据挖掘C)自然语言D)不确定答案:C解析:[单选题]67.以下的序列数据中,属于一对多(一个输入,多个输出)的关系是哪个?A)音乐生成B)情感分类C)机器翻译D)DNA序列分析答案:A解析:[单选题]68.我们经常使用到L1,L2正则化,那么他们可以起到什么样的作用?A)防止过拟合B)边缘检测C)提取特征D)简化数据答案:A解析:[单选题]69.在使用深度学习进行文本处理时,一个文本句子要被理解,首先需要做的是。()A)分词B)词性标注C)命名实体识别D)生成词嵌入答案:A解析:[单选题]70.适合高阶n-gram模型的平滑方法为()。A)加1平滑B)古德-图灵平滑C)线性插值平滑D)均值平滑答案:D解析:[单选题]71.在文本分类应用中,关于词袋模型的描述正确的是()A)任何一个单词只能存在于某一个词袋中B)一个单词可能存在于多个词袋中但频率不同C)所有词袋中单词的并集就等同于词汇表D)词袋模型描述的是单词在所有文本中出现的频率答案:B解析:[单选题]72.贝叶斯作为常用的理论基础,它的定理实质上是对()的陈述。A)联合概率B)边际概率C)条件概率D)后验概率答案:C解析:[单选题]73.下列选项中关于朴素贝叶斯分类算法是基于什么假设的说法正确的是?A)条件独立B)条件不独立C)联合概率D)不确定答案:A解析:[单选题]74.下列选项中对于神经网络中的超参数调试的方法的描述,其中描述正确的是哪个选项?A)随机选择点来试验超参数效果B)当你给超参数取值时,另一个惯例是采用由精细到粗糙的策略。C)只调试容易的D)给定默认值即可答案:A解析:[单选题]75.()思想是如果测试过程中的一个实例在训练语料中未出现,那么,它就是一个新事物,也就是说,这是它第一次出现,可以用在训练语料中看到新实例的概率来代替未出现实例的概率A)Witten-Bell平滑算法B)绝对折扣和线性折扣C)扣留估计算法D)交叉校验算法答案:A解析:[单选题]76.网络结构中常用的dropout函数,对其描述正确的是哪个?A)用于分割数据集B)一个激活函数C)属于正则处理D)用于将数据样本多样化答案:C解析:[单选题]77.GBDT使用的是什么思想A)BaggingB)BoostingC)逻辑回归D)线性回归答案:B解析:[单选题]78.概率图模型是常用的基础,以下四个选项关于概率图模型描述正确的是?A)概率图模型是用图来表示变量概率依赖关系B)概率图是树状的结构C)概率图就是概率,是相同的D)不确定答案:A解析:[单选题]79.以下关于智能问答方法的说法错误的是()。A)智能问答方法包括基于信息检索的方法,基于语义分析的方法,基于规则的专家系统方法,基于深度学习的方法B)基于信息检索的方法要求答案中必须至少包含问句中的一个字或词,所以不如语义解析方法精确C)基于语义分析的方法常用的方法是利用组合范畴语法(CCG),CCG的核心是词汇D)基于规则的专家系统方法准确度高,并且具有很强的通用性,能覆盖很多的应用场景答案:D解析:[单选题]80.线性回归的本质是什么A)通过数据预测进行分类B)通过数据将预测结果回归到真实值上C)通过数据使相似的数据聚到一块D)通过数据做缩小维度答案:B解析:[单选题]81.ELMO是个预训练模型,使用了LSTM做特征提取,那么其中用了几层的LSTMA)单层B)双层C)三层D)不确定答案:B解析:[单选题]82.tf中的conv2d(a,b,c,d),参数b代表什么?A)被卷积数据B)步长C)卷积核D)填充答案:C解析:[单选题]83.专家系统是以()为基础,以推理为核心的系统。A)专家B)软件C)知识D)解决问题答案:C解析:[单选题]84.关于损失函数的意义说法正确的是A)损失函数越小,模型鲁棒性越好B)损失函数越小,模型鲁棒性越差C)损失函数越大,模型鲁棒性越好D)不确定答案:A解析:[单选题]85.适用于样本容量较大的文本集合的文本分类算法是()A)朴素贝叶斯算法B)支持向量机算法C)神经网络算法D)K最近邻答案:D解析:[单选题]86.tf.expand_dims是什么意思A)改变tensor的形状B)返回tensor的rankC)插入维度1进入一个tensor中D)返回数据的元素数量答案:C解析:[单选题]87.带深度限制的Leaf-wise的叶子生长策略是以下哪个算法的优化A)XGBoostB)随机森林C)GBDTD)LightGBM答案:D解析:[单选题]88.以下四个算法中哪个是文本特征提取算法A)TF-IDFB)OpenNLPC)SVDD)PLSA答案:A解析:[单选题]89.隐马尔科夫模式是指:A)HMMB)SVMC)CRFD)MEMM答案:A解析:[单选题]90.预训练模型的优势在哪里A)不用从零还是重新训练只需要微调B)需要重新在自己的数据上训练并且微调C)速度慢D)准确度相比较来说会比较低答案:A解析:[单选题]91.sigmoid缺点之一就是非线性变化较慢,可以通过以下哪个激活函数进行改善A)SigmoidB)TanhC)ReluD)不确定答案:C解析:[单选题]92.对自然语言中的交叉歧义问题,通常通过()技术解决。A)分词B)命名实体识别C)词性标注D)词向量答案:A解析:[单选题]93.目前情感分类的研究主要有基于情感词典的情感分析和基于()的情感分类方法。A)统计学习B)机器学习C)语料库D)模式匹配答案:B解析:[单选题]94.哪个算法可以做机器翻译A)LSAB)seq2seqC)TextFastD)LSTM答案:B解析:[单选题]95.统计自然语言处理研究的典型过程是A)设计算法-进行训练-测试算法-发现问题-改进算法B)设计算法-进行训练-测试算法-发现问题-改进算法-重复C)设计算法-测试算法-进行训练-发现问题-改进算法D)设计算法-进行训练-测试算法-发现问题-改进算法-重复答案:B解析:[单选题]96.哪种数据类型数据类型可以看作关系型数据库的一张表A)半结构化数据B)非结构化数据C)结构化数据D)不确定答案:C解析:[单选题]97.像TensorFlow这样的框架,为机器学习和()提供了方便灵活的接口A)机器学习B)算法重构C)NPLD)深度学习答案:D解析:[单选题]98.使用word2vec后会得到的是___?A)得到的是一个向量空间,相似的词之间距离小,不想近的词之间距离大B)一个句子出现的概率C)得到一个词出现的概率D)以上都不是答案:A解析:[单选题]99.transformer的作用是什么A)做分类B)做特征函数C)不确定D)做特征提取答案:D解析:[单选题]100.关于Relu激活函数说法正确的是A)经过Relu变换之后的取值在[0,1]之间B)正半区是本身,负半区全为0C)经过Relu变换之后的取值在[-1,1]之间D)经过Relu变换之后的取值在[-∞,+∞]之间答案:B解析:[单选题]101.RNN的意思是什么A)全连接网络B)卷积神经网络C)循环神经网络D)感知机网络答案:C解析:[单选题]102.对一个概率空间,其信息熵在多种划分中是A)一定相等B)一定不等C)不确定无关联D)互有关联答案:C解析:[单选题]103.以及几个模型中,可以产生词向量并且用单向的特征提取器的是哪个A)BERTB)GPTC)ELMoD)Word2Vec答案:B解析:[单选题]104.关于常用的交叉熵函数,说法正确的是__?A)在二分类中交叉熵函数和最大似然函数表达式相同B)交叉熵函数是从信息论角度得到的C)交叉熵函数是从概率角度得到的D)最大似然函数是从概率角度的到的答案:C解析:[单选题]105.概率图模型中的有向图模型和无向图模型有什么相同的地方A)都是转换成了概率相加的形式B)将复杂的联合分布分解为多个因子相加C)将复杂的联合分布分解为多个因子的乘积D)以上所有答案:C解析:[单选题]106.GBDT是怎样构成的A)由多个弱分类器B)由多个强分类器C)由若干个弱分类器和若干个强分类器D)不确定答案:A解析:[单选题]107.Earley算法中涉及几项基本操作?A)1B)2C)3D)4答案:C解析:[单选题]108.(1)关键词归一化(2)潜在语义索引(3)隐狄利克雷分布,这三项技术当中,哪些可以减小特征的维度A)只有(1)B)(2)、(3)C)(1)、(3)D)(1)、(2)、(3)答案:D解析:[单选题]109.自然语言处理是()技术的一种应用。A)语音识别B)虚拟现实C)人工智能D)自然语言答案:C解析:[单选题]110.随机森林过拟合了怎么办,如何处理?A)要用交叉验证来调整树的数量。B)换模型C)换代价函数D)不确定答案:A解析:[单选题]111.正规式Ml与M2等价就是指()A)Ml与M2的状态数相等B)MI与M2的有向边条数相等C)Ml与M2所识别的语言集相等D)Ml与M2状态数与有向边条数相等答案:C解析:[单选题]112.关于traintest.Dev数据集说法错误的是A)可以直接使用训练集来验证算子的准确率B)训练集用于算子的拟合C)验证集和测试集用来评判算子的准确度D)可以不配置验证集答案:A解析:[单选题]113.数据可视化可以导入下面那个包?A)A:sklearn.linear_modelB)B:sklearn.model_selectionC)C:matplotlib.pylabD)D:sklearn.metrics答案:D解析:[单选题]114.词袋子模型有很多缺点,使用NNLM解决了词袋子的哪些缺点A)简单快速B)数据稀疏和语义问题C)预料充足的情况下效果好D)不确定答案:B解析:[单选题]115.softmax又可以称为什么函数A)概率B)归一化C)损失函数D)空间答案:B解析:[单选题]116.模型中参数过多,过于复杂可能会发生一下哪种情况A)正常拟合B)过拟合C)欠拟合D)不确定答案:B解析:第2部分:多项选择题,共57题,每题至少两个正确答案,多选或少选均不得分。[多选题]117.自然语言处理可用于下列哪些领域()A)文本分类B)舆情监测C)机器翻译D)智能问答答案:ABCD解析:[多选题]118.下面哪些算法可以处理分类任务?A)KNNB)逻辑回归C)k-meanD)PCA答案:AB解析:[多选题]119.LDA可以分为以下哪些步骤A)一个函数:gamma函数。B)四个分布:二项分布、多项分布、beta分布、Dirichlet分布。C)一个概念和一个理念:共轭先验和贝叶斯框架。D)两个模型:pLSA、LDA。答案:ABCD解析:[多选题]120.文本表示分类(基于粒度)A)长文本表示B)离散表示C)词表示D)基于聚类表示答案:AC解析:[多选题]121.BagofWords模型的优点A)简单方便快速B)在语料充足的前提下,对于简单自然语言处理任务效果不错C)准确率较低D)无法关注词语间的顺序答案:AB解析:[多选题]122.以下任务中图像的哪些任务用到了深度学习A)图像识别B)物体识别C)图片修复D)图片美化答案:ABCD解析:[多选题]123.目前较常用的无监督关键词提取算法有()A)TF-IDF算法B)TextRank算法C)主题模型算法D)以上都不对答案:ABC解析:[多选题]124.XGBoost的目标函数由哪些组成A)损失函数B)正则项C)梯度下降D)以上都正确答案:AB解析:[多选题]125.随机森林中的?随机?体现在什么方面A)随机森林的随机性体现在每棵树的训练样本都是随机的B)模型的代价是随机的C)树中每个节点的分裂属性集合也是随机选择确定的。D)以上都正确答案:AC解析:[多选题]126.线性回归中最小化代价函数是寻找哪些最优参数A)K(拐点数)B)W(权重)C)B(偏置)D)以上都正确答案:BC解析:[多选题]127.概率图模型结合了下列哪些知识A)信息论B)图论C)概率论D)以上都是答案:BC解析:[多选题]128.特征归一化常用的方式有哪些A)线性函数归一化B)非线性函数归一化C)零均值归一化D)以上都是答案:AC解析:[多选题]129.写出几种主要的网络结构形式。A)星形结构:具有一个中心结点,所有通讯都通过它。B)环形结构:网络结点连成一个封闭的环形。C)总线结构:具有一个共享总线,所有结点挂在上面,又称树形结构D)以上都正确答案:ABCD解析:[多选题]130.预处理单个特征的时候,通常有哪些操作A)归一化B)离散化C)缺失值处理D)数据变换答案:ABCD解析:[多选题]131.以下四个选项中,有哪些属于有监督学习算法A)聚类B)降维C)分类D)回归答案:CD解析:[多选题]132.下面对专家系统叙述错误的是:()A)专家系统是运用知识和推理来解决问题的;B)专家系统是把关于问题求解的知识隐含于程序中的;C)专家系统不具有透明性,无法回答用户?Why?和?How?等问题;D)利用骨架系统开发专家系统,相对于其他开发工具,其效率是最高的,灵活性是最好的,局限性也是最少的。答案:BCD解析:[多选题]133.NLP的应用,都有那些??A)语音识别B)自动翻译C)控制装置D)人脸识别答案:ABC解析:[多选题]134.随机森林也有很多明显的缺点,以下描述正确的是A)它可以处理很高维度的数据,并且不用降维,无需做特征选择;B)随机森林已经被证明在某些噪音比较大的分类或回归问题上会过拟合。C)对于有不同取值的属性数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。D)以上都正确答案:BC解析:[多选题]135.下列属于词袋模型优点的是:A)简单方便快速B)在语料充足的前提下,对于简单自然语言处理任务效果不错C)准确率较低D)无法关注词语间的顺序答案:AB解析:[多选题]136.逻辑回归中加入非线性有什么好处A)提升模型表达能力B)降低模型表达能力C)易于模型的快速迭代D)加大拟合答案:ACD解析:[多选题]137.协同过滤和基于内容的模型是两种流行的推荐引擎,在建立这样的算法中NLP扮演什么角色?A)从文本中提取特征B)测量特征相似度C)为学习模型的向量空间编程特征D)以上都是答案:ABCD解析:[多选题]138.无监督学习的特点有()A)目标明确B)不需要带标签的数据C)效果容易评估D)无法量化效果答案:BD解析:[多选题]139.以下关于机器学习K-mean聚类描述正确的是?A)A:同一族尽可能相似B)B:不同簇尽可能相异C)C:同一簇尽可能相异D)D:不同簇尽可能相似答案:AB解析:[多选题]140.以下选项中描述tensorflow正确的有哪些?A)在被称之为会话(Session)的上下文(context)中执行图B)使用图(graphs)来表示计算任务,用于搭建神经网络的计算过程C)使用feed和fetch可以为任意的操作赋值或者从其中获取数据D)使用张量(tensor)表示数据,用?阶?表示张量的维度,通过变量(Variable)维护状态答案:ABCD解析:[多选题]141.GPT的缺点有哪些A)适用双向的LSTM特征提取能力弱B)使用了单向的语言模型C)使用单向的Transformer,会丢失很多信息D)不确定答案:BC解析:[多选题]142.使用tf实现一个交叉熵的损失函数,以下选项正确的是哪些?A)entropy=-tf.reduce_sum(y_actual*tf.log(y_predict))B)entropy=-tf.reduce_mean(y_actual*tf.log(y_predict))C)entropy=-tf.reduce_max(y_actual*tf.log(y_predict))D)entropy=-tf.reduce_any(y_actual*tf.log(y_predict))答案:AB解析:[多选题]143.BERT虽然目前比较火,但是也很多需要改进的地方,例如___?A)参数量太大B)输入遮蔽的时候随机遮蔽单个字C)输入句子最大限度512D)有很强烈的语义信息答案:ABC解析:[多选题]144.以下几个选项中关于GBDT描述正确的是A)预测阶段的计算速度快,树与树之间可并行化计算(注意预测时可并行)B)在分布稠密的数据集上,泛化能力和表达能力都很好;C)GBDT在高维稀疏的数据集上表现不佳;D)训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度。答案:ABCD解析:[多选题]145.关于集合外一个点,到该集合的距离,描述正确的是哪些选项A)是该点到集合边界点的最短距离B)是该点到集合内所有点的最短距离C)是该点到集合内任意一点的距离D)是该点到集合内非边界点的某点的距离答案:AB解析:[多选题]146.XGBoost虽然是在GBDT的基础上改进的,但是也有很多不同的地方,例如:A)GBDT是机器学习算法,XGBoost是该算法的工程实现。B)在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。C)GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数。D)传统的GBDT采用CART作为基分类器,XGBoost支持多种类型的基分类器,比如线性分类器。答案:ABCD解析:[多选题]147.关于神经网络的层数说法,正确的分为哪几层A)输入层B)输出层C)隐藏层D)以上都正确答案:ABCD解析:[多选题]148.循环神经网络一般用于下面哪些领域A)聊天机器人B)文本纠错C)命名实体识别D)文本分类答案:ABCD解析:[多选题]149.我们一般将数据集分为哪几类A)训练集B)测试集C)验证集D)批处理集答案:ABC解析:[多选题]150.LDA中的两个模型指的是哪两个A)pLSAB)GBDTC)LDAD)XGBoost答案:AC解析:[多选题]151.人类语言有什么特别之处?A)专门用来传达说话者/作者意思的系统B)让计算机/机器在理解语言上像人类一样智能C)一门计算机科学、人工智能以及语言学的交叉学科D)一个离散的/符号的/分类的信号系统答案:AD解析:[多选题]152.哪些适合用RNN神经网络处理A)语音识别B)情感分类C)机器翻译D)DNA序列分析答案:ABCD解析:[多选题]153.基于规则的分词主要方法有()A)统计语言模型B)正向最大匹配法C)逆向最大匹配法D)双向最大匹配法答案:BCD解析:[多选题]154.DSSM的思路是什么A)使用了遮蔽部分词的思想B)摒弃了后匹配的思路,采用词间先匹配C)将先匹配的结果做成灰度图,然后在建模D)使用了杰卡德进行计算答案:BC解析:[多选题]155.下列几个优化器中,可以跳出局部最优的分别有哪些?A)AdamB)MomentumC)RMSpropD)Lasso答案:ABC解析:[多选题]156.在NLP的工业应用中,基于统计的语言模型都有哪些应用A)语音识别B)机器翻译C)句法分析D)短语识别答案:ABCD解析:[多选题]157.自然语言的应用都有哪些A)机器翻译B)文本摘要C)文本分类D)多轮会话机器人答案:ABCD解析:[多选题]158.神经网络中最常用的Dropout,可以起到什么作用A)防止过拟合B)每次训练,都对每个神经网络单元,按一定概率临时丢弃C)将词向量化D)防止欠拟合答案:AB解析:[多选题]159.关于Adaboost的权重描述,以下体现正确的是()A)A:样本权重B)B:代价函数C)C:梯度下降D)D:弱分类器权重答案:AD解析:[多选题]160.基于统计的语言模型在哪些自然语言方面得到广泛应用A)序列标注B)语音识别C)序列标注D)机器翻译答案:ABCD解析:[多选题]161.相比XGBoost,LightGBM在哪些地方进行了优化?A)基于Histogram的决策树算法B)带深度限制的Leaf-wise的叶子生长策略C)直方图做差加速直接D)支持类别特征(CategoricalFeature)答案:ABCD解析:[多选题]162.下列选项中,哪些是比较常用的梯度下降优化器?A)dropoutB)动量梯度下降法C)RMSpropD)Adam答案:BCD解析:[多选题]163.TF-IDF处理的特点是:A)TF=在某一类中词条出现的次数/该类中所有词条数目B)IDF=log(语料库中文档总数/包含词条的文档数+1)C)IDF=log(语料库中文档总数/包含词条的文档数)+1D)TF-IDF=TF*IDF答案:ABD解析:[多选题]164.softmax函数的描述以下正确的是哪些选项?A)用于多类别分类B)映射到概率空间C)压缩数据D)用于卷积层答案:ABC解析:[多选题]165.人工智能Deeplearning中,文本分类方法有哪些?A)特征工程B)TextCNNC)分类器D)FastText答案:BD解析:[多选题]166.EM算法放到高斯混合模型中应用,一般会有哪些步骤?A)明确隐变量,写出完全数据的对数似然函数。B)EM算法的E步:确定Q函数C)求Q函数对theta的极大值,即求新一轮迭代的模型参数D)以上都正确答案:ABCD解析:[多选题]167.什么是聚类算法,如何去理解聚类?A)聚类是一种机器学习技术B)它涉及到数据点的分组C)给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组D)聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术答案:ABCD解析:[多选题]168.什麽样的资料集适合深度学习A)数据集太大B)数据集太小,数据样本不足C)数据集没有局部相关特性D)样本量多答案:AD解析:[多选题]169.Transformer中的encode层是由那几个构成的A)self-AttentionB)Attention层C)前馈神经网络D)CNN答案:AC解析:[多选题]170.以下四个选项中,哪些方法可以解决深度网络的梯度消失问题A)控制网络深度B)使用Sigmoid激活函数C)预训练+微调D)使用ReLU激活函数答案:ACD解析:[多选题]171.词袋子模型的优缺点A)简单方便快速B)在语料充足的前提下,对于简单自然语言处理任务效果不错C)准确率较低D)无法关注词语间的顺序答案:ABCD解析:[多选题]172.如何去构建一颗决策树A)构建根节点B)构建叶子节点C)选择新特征继续分割D)最终子集都被分到叶子节点上答案:ABCD解析:[多选题]173.GBDT算法中如果按照高维的ID特征做分裂,会出现哪些不好的情况A)子树数量非常多B)计算量会非常大C)训练会非常慢D)以上都正确答案:ABCD解析:第3部分:判断题,共66题,请判断题目是否正确。[判断题]174.机器学习包含了深度学习,同时也包含了人工智能A)正确B)错误答案:错解析:[判断题]175.RNN的中文名叫循环神经网络或递归神经网络A)正确B)错误答案:对解析:[判断题]176.LightGBM是google开源出来的A)正确B)错误答案:错解析:[判断题]177.机器学习和深度学习没有任何区别A)正确B)错误答案:错解析:[判断题]178.文本情感分类是简单的二分类任务。错A)正确B)错误答案:错解析:[判断题]179.文本向量化按照向量化的粒度可以将其分为以字单位、以词为单位和以句子为单位向量表达。对A)正确B)错误答案:对解析:[判断题]180.Skip-Gram模型与CBOW模型相反,是根据目标词预测其上下文。对A)正确B)错误答案:对解析:[判断题]181.自然语言处理,简称NLP,是计算机科学领域以及人工智能领域的一个重要的研究方向。A)正确B)错误答案:对解析:[判断题]182.国标码用两位二进制数表示一个汉字A)正确B)错误答案:错解析:[判断题]183.数据特征归一化可以用到决策树中A)正确B)错误答案:错解析:[判断题]184.浅层句法分析,也叫部分句法分析或语块分析A)正确B)错误答案:对解析:[判断题]185.决策树基本思想是贪心算法A)正确B)错误答案:对解析:[判断题]186.随着状态序列长度T的增加,隐状态序列的个数成倍增长。A)正确B)错误答案:错解析:[判断题]187.分词是自然语言处理技术的基础构成之一,并且是其它技术的基础。对A)正确B)错误答案:对解析:[判断题]188.GBDT是非集成学习,而随机森林属于集成学习A)正确B)错误答案:错解析:[判断题]189.ELMo是很好的语言模型,而word2vec是预训练模型A)正确B)错误答案:错解析:[判断题]190.目前常见的智能问答技术包括文本问答、知识图谱问答、社区问答(问答对)、表格问答、视觉问答等多种形式,其中,知识图谱问答是起到各类问答核心桥梁作用的问答形式,通常会与文本、视觉、社区等问答形式混合搭配起来使用。()A)正确B)错误答案:对解析:[判断题]191.HMM是生成式模型,属于动态贝叶斯网络。A)正确B)错误答案:对解析:[判断题]192.深度学习属于连接主义学派的A)正确B)错误答案:对解析:[判断题]193.汉字的外码只是研制汉字输入系统时要考虑的问题,跟文本的自动分析没有关系。A)正确B)错误答案:对解析:[判断题]194.贝叶斯网络(Bayesiannetwork),又称信念网络(BeliefNetwork),或有向无环图模型(directedacyclicgraphicalmodel),是一种概率图模型A)正确B)错误答案:对解析:[判断题]195.激活函数一般连接在输入层的前面A)正确B)错误答案:错解析:[判断题]196.基于词义消歧方法主要包括:基于词典语义定义的方法,基于义类辞典的方法和基于双语词典的方法A)正确B)错误答案:对解析:[判断题]197.NLP是人工智能研究的一个子领域,也是人工智能中最为困难的问题之一。A)正确B)错误答案:对解析:[判断题]198.机器学习中,传统的基于规则的方法,其中的规律可以人工显性的明确出来A)正确B)错误答案:对解析:[判断题]199.GBDT的核心在于累加所有树的结果作为最终结果,而分类树的结果显然是没办法累加的A)正确B)错误答案:对解析:[判断题]200.由于EM的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法(ExpectationMaximizationAlgorithm)A)正确B)错误答案:对解析:[判断题]201.前向算法需要对网格所有路径进行穷举计算。A)正确B)错误答案:错解析:[判断题]202.机器学习的分类模型可用于文本情感分析。对A)正确B)错误答案:对解析:[判断题]203.end-to-end是由输入端的数据直接得到输出端A)正确B)错误答案:对解析:[判断题]204.基于词典的分词方法常用字符串匹配的方式实现A)正确B)错误答案:对解析:[判断题]205.CNN卷积神经网络在NLP中同样有很多的应用A)正确B)错误答案:对解析:[判断题]206.国际扩展码GBK兼容国标码。A)正确B)错误答案:对解析:[判断题]207.CNN中卷积核的大小越大越好A)正确B)错误答案:错解析:[判断题]208.循环神经网络和卷积神经网络没有什么区别A)正确B)错误答案:错解析:[判断题]209.Glove进行编码的词向量可以解决一词多意A)正确B)错误答案:对解析:[判断题]210.梯度下降在应用中并无实际意义A)正确B)错误答案:错解析:[判断题]211.机器学习和深度学习的共同的目标就是实现人工智能A)正确B)错误答案:对解析:[判断题]212.扩大隐层层数会使得神经网络的?容量?更多,进而表达力和特征抽取能力会变强A)正确B)错误答案:对解析:[判断题]213.Doc2vec不仅提取文本的语义信息,而且提取了文本的语序信息。对A)正确B)错误答案:对解析:[判断题]214.训练文本分类模型的正确流程是文本清洗、词性标注和去除停用词、文本特征提取、特征降维、使用梯度下降训练模型。对A)正确B)错误答案:对解析:[判断题]215.互信息是信息论中的一个概念,它用来度量一个消息中两个信号之间的相互依赖程度A)正确B)错误答案:对解析:[判断题]216.ASCII码由美国国家标准局制定,1972年被国际标准化组织定为国际标准,称为ISO646标准A)正确B)错误答案:对解析:[判断题]217.在马尔科夫模型中,每个状态代表了多个可观察事件。A)正确B)错误答案:错解析:[判断题]218.程序设计语言中的自底向上分析法适用于汉语句法分析A)正确B)错误答案:错解析:[判断题]219.词频TF注重词在文档中的出现频次,没有考虑到词在其他文档下的出现频次,缺乏对文档的区分能力。对A)正确B)错误答案:对解析:[判断题]220.CNN不能做文字的特征提取,只适用于做图片的特征提取A)正确B)错误答案:错解析:[判断题]221.在逻辑回归中也可以在目标函数上加入L1,L2正则项A)正确B)错误答案:对解析:[判断题]222.逻辑回归既可以做分类又可以做回归,是个比较全能的算法A)正确B)错误答案:错解析:[判断题]223.SVM既可以做分类也可以做回归A)正确B)错误答案:对解析:[判断题]224.卷积的目的进行特征抽取A)正确B)错误答案:对解析:[判断题]225.感知器分类器最早由Rosenblatt提出()A)正确B)错误答案:对解析:[判断题]226.正则表达式可用于自动提取人名与电话号码。对A)正确B)错误答案:对解析:[判断题]227.N-Gram中的N越大的话,速度会特别特别慢,因为窗口变大了A)正确B)错误答案:对解析:[判断题]228.LSTM和GRU同样都有三个门A)正确B)错误答案:错解析:[判断题]229.基于划分的聚类特点是计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。A)正确B)错误答案:对解析:[判断题]230.设计一个汉字输入系统需要对汉字进行编码,这里指汉字的外码,即输出码A)正确B)错误答案:错解析:[判断题]231.LR的训练速度很慢A)正确B)错误答案:错解析:[判断题]232.CNN网络只适用于计算机视觉,而不适用于自然语言A)正确B)错误答案:错解析:[判断题]233.浅层句法分析的结果并不是一颗完整的句法树,但各个语块是完整句法树的一个子图,只要加上语块之间的依附关系,就可以构成完整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论