人工智能自然语言技术练习(习题卷8)_第1页
人工智能自然语言技术练习(习题卷8)_第2页
人工智能自然语言技术练习(习题卷8)_第3页
人工智能自然语言技术练习(习题卷8)_第4页
人工智能自然语言技术练习(习题卷8)_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:人工智能自然语言技术练习人工智能自然语言技术练习(习题卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages人工智能自然语言技术练习第1部分:单项选择题,共116题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.深入挖掘BERT,其输出的向量有几个A)1B)2C)3D)4答案:C解析:[单选题]2.在NLP,处理句子文本时,哪种基于语法的文本句法分析方法可以用于名词短语检测等任务A)部分语音标注B)依存句法分析(DependencyParsing)和选取句法分析(ConstituencyParsing)C)SkipGram和N-Gram提取D)连续性词包答案:B解析:[单选题]3.零均值归一化会将原始数据的标准差映射为多少?A)0B)1C)2D)3答案:B解析:[单选题]4.Pytorch为机器学习和()提供了方便灵活的接口A)机器学习B)算法重构C)NPLD)深度学习答案:D解析:[单选题]5.特征的归一化属于以下哪个选项中A)特征工程B)分类C)回归D)聚类答案:A解析:[单选题]6.以下哪一个属于序列标注问题()?A)英文词的形态还原B)命名实体识别C)指代消解D)词频统计答案:B解析:[单选题]7.双曲正切激活函数,指的是以下哪个激活函数?A)ReluB)sigmoidC)tanhD)sin答案:C解析:[单选题]8.像sigmoid,relu,tanh等等这类叫做什么函数A)非激活B)激活C)极值D)修正线答案:B解析:[单选题]9.关于文本预处理的过程,下列描述错误的是()。A)文本分词是预处理过程中必不可少的一个操作B)词干提取是一个很粗略的去除单词两端词缀的过程C)词形还原是一个去除曲折的词缀且返回词典中包含的词的过程D)文本中的每个单词都能够表明文本的特征答案:D解析:[单选题]10.从训练的角度来说哪个不是随机森林的优点A)降方差B)将所有的决策树通过bagging的形式结合起来,避免了单个决策树造成过拟合的问题C)RF可以生成特征重要性,进行特征选择D)提高方差答案:D解析:[单选题]11.ELMO中使用的特征提取器是什么A)单向LSTMB)TransformerC)双向LSTMD)CNN答案:C解析:[单选题]12.下面选项中有四个函数,其中哪个函数可以表示一个超平面?A)Wt*x+b=0B)w*log(x)=0C)w*ln(x)=0D)wx²=0答案:A解析:[单选题]13.Embedding的作用是什么A)是对文章进行了分段B)把一个单词映射到行的空间上C)对句子进行了分词D)不确定答案:B解析:[单选题]14.Relu在负半区求导之后值为多少A)0B)1C)2D)-1答案:A解析:[单选题]15.二项分布属于()A)连续型分布B)离散型分布C)正态分布D)伽玛分布答案:B解析:[单选题]16.实际的开发问题中,需要根据需求和实际问题,构建相应的__?A)架构B)流程图C)数学模型D)数据集答案:C解析:[单选题]17.关于k-NN中的k,根据偏差,以下哪一项是正确的A)当你增加k时,偏差会增加B)当你减少k时,偏差会增加C)不能判断D)以上都不对答案:A解析:[单选题]18.要在某一台机器上为某种语言构造一个编译程序,必须掌握哪些内容()A)汇编语言、高级语言、编译方法B)程序设计方法、测试方法、编译方法C)源语言、目标语言、编译方法D)高级语言、程序设计方法、机器语言答案:C解析:[单选题]19.隐马的应用场景非常广泛的,HMM属于一个什么模型A)是生成式模型B)是判别式模型C)即是生成式模型又是判别式D)不确定答案:A解析:[单选题]20.过拟合是训练模型阶段常发生的事情,那么如何理解过拟合?A)指曲线能不能去很好的描述现有的数据B)一条曲线过分的去描述了现有的数据C)指的是在训练集上表现良好,测试集上表现很差D)指的是在训练测试集上表现都不好答案:A解析:[单选题]21.怎么去理解模型当中的过拟合现象A)指的就是样本该学习到的特征没有学习到,导致了曲线拟合数据的时候,效果不好。B)指的肯定就是说,这条曲线,过分的去描述现有的数据特征了。C)指得就是说这个曲线能不能去很好的描述现有的数据。D)欠拟合指的就是在训练和测试数据上的表现都不好答案:B解析:[单选题]22.关于方差k-NN中的k,以下哪一项是正确的?A)当你增加k时,方差会增加B)当你减少k时,方差会增加C)不能判断D)以上都不对答案:B解析:[单选题]23.transformer是一个什么样的模型A)统计的语言模型B)编解码模型C)语言模型D)预训练模型答案:B解析:[单选题]24.在动量梯度下降中,其中的参数β一般的默认值是多少,下列哪个选项是正确的A)0.7B)0.8C)0.9D)1答案:C解析:[单选题]25.LDA属于什么学习算法A)有监督B)无监督C)半监督D)强化学习答案:A解析:[单选题]26.BP算法说的是那两个参数之间的误差率A)最大化实际输出与训练集的误差率B)最小化实际输出与训练集的误差率C)均值化实际输出与训练集的误差率D)范数化实际输出与训练集的误差率答案:B解析:[单选题]27.如果把知识按照表达内容来分类,下述()不在分类的范围内。A)元知识B)显性知识C)过程性知识D)事实性知识答案:B解析:[单选题]28.关于有限状态层叠法,下列说法正确的是A)有限状态层叠法B)基于转换的错误驱动的学习方法C)基于实例的规则学习方法D)以上三项都对答案:D解析:[单选题]29.构造编译程序应掌握()A)源程序B)目标语言C)编译方法D)以上三项都就是答案:D解析:[单选题]30.神经网络一般包括输入层、隐藏层和输出层,Batch归一化操作用于网络的什么层?A)输出层B)输入层C)无法在隐藏层起作用D)用于输入层,甚至深度隐藏层的归一化过程答案:D解析:[单选题]31.在编写模型或者训练模型的时候,如果模型过于复杂的话,会出现什么情况A)正常拟合B)过拟合C)欠拟合D)不确定答案:B解析:[单选题]32.EM算法是什么样的算法A)迭代优化策略B)贪心策略C)寻找最优路径策略D)不确定答案:A解析:[单选题]33.图灵测试是想实现以下哪种目标A)人类思考B)人工智能C)机器智能D)机器动作答案:C解析:[单选题]34.以下哪个激活函数是对Relu的改进A)tanhB)sigmoidC)softmaxD)leaky-Relu答案:D解析:[单选题]35.以下描述,说的是下列选项中哪个激活函数?描述:输入信号<0时,输出都是0,输入信号>0的情况下,输出等于输入A)Sigmoid函数B)tanh函数C)ReLUD)cosh答案:C解析:[单选题]36.字频和词频是最基本的()。A)统计数据B)格式说明C)概括描述D)信息处理答案:A解析:[单选题]37.训练了一个线性SVM,这个模型出现了欠拟合现象。应该采取下列什么措施?A)增加数据点B)减少数据点C)增加特征D)减少特征答案:C解析:[单选题]38.关于Porter算法,以下描述错误的是()A)v表示一个元音字母B)c表示一个辅音字母C)C表示不连续的辅音字母串D)V表示连续的元音字母串答案:C解析:[单选题]39.()衡量给定的特征区分训练样本的能力A)信息增益B)语义分析C)词法分析D)语义抽取答案:A解析:[单选题]40.以下哪个可以进行过采样A)SMOTEB)Word2vecC)BERTD)ELMO答案:A解析:[单选题]41.属于一对多输出的序列网络有:A)音乐生成B)情感分类C)机器翻译D)DNA序列分析答案:A解析:[单选题]42.多层复杂的LSTM网络结构,可以处理更大范围的()A)不稳定性B)静态性C)动态性D)鲁棒性答案:C解析:[单选题]43.tf.conv2d(a,b,c,d)函数的四个参数,哪个参数表示输入数据?A)bB)aC)cD)d答案:B解析:[单选题]44.sigmoid可以将数据的特征,映射到哪个区间?A)0,1B)0,-1C)10,0D)0,0.1答案:A解析:[单选题]45.线性回归的损失函数是MSE,逻辑回归的损失函数是什么A)信息熵B)信息增益C)对数损失D)均方误差答案:C解析:[单选题]46.KNearestNeighbors属于以下哪个算法的全称A)线性回归B)逻辑回归C)KNND)K-means答案:C解析:[单选题]47.以下任务当中,哪个任务不能用BERT实现A)情感分析B)问答系统C)垃圾邮件过滤D)机器翻译答案:D解析:[单选题]48.加入正则项,可以解决处理以下哪个问题A)正常拟合B)过拟合C)欠拟合D)不确定答案:B解析:[单选题]49.竖线?|?用于对两个正则表达式进行?或?操作。如果A和B是正则表达式,那么AIB表示为()。A)匹配A和B一起出现的字符B)匹配A或B中出现的任何字符C)匹配A中出现的任何字符D)匹配B中出现的任何字符答案:B解析:[单选题]50.以下__模型是基于上下文的EmbeddingA)one-hotB)bagofwordsC)ELMOD)word2vec答案:C解析:[单选题]51.产生了梯度消失梯度消失后,如何解决A)使用one-hot编码B)梯度裁剪C)没有办法D)扩大维度答案:C解析:[单选题]52.不属于关键词提取算法的是()A)TF-IDF算法B)TextRank算法C)主题模型算法D)关联算法答案:D解析:[单选题]53.在神经网络中常使用到的非线性激活函数sigmoid,该函数的模型曲线是()?A)X型B)S型C)L型D)U型答案:B解析:[单选题]54.以下几个选项中关于梯度消失的说法描述正确的是哪个选项?A)通过优化算法,处理梯度,可以更快做梯度下降,获取最优解B)由于数据处理或者激活函数选择不合理等原因,无法获取梯度,从而不能获得最优解C)由于隐藏层数量过少,无法获取梯度,从而不能获得最优解D)通过更多隐藏层,减少梯度迭代,从而更快的进行计算,获取最优解答案:B解析:[单选题]55.下面哪个框架是Google开发出来的?A)caffeB)torchC)tensorflowD)mxnet答案:C解析:[单选题]56.不属于NLP应用场景的是()。A)百度翻译B)图灵机器人C)微信语音转文字D)数据挖掘答案:D解析:[单选题]57.下列选择中,哪个不是关键词提取常用的算法?A)TE-IDFB)LDAC)TextRankD)SSA答案:D解析:[单选题]58.相比con1d,conv2d的作用是什么A)lstm操作B)一维卷积C)GRU操作D)二维卷积答案:D解析:[单选题]59.以下哪种情况下不需要做特征工程A)数据没有缺失值B)决策树的输入C)SVM的输入D)数据不需要做填充答案:C解析:[单选题]60.假设你选取了高Gamma值的径向基核(RBF),这表示:A)建模时,模型会考虑到离超平面更远的点B)建模时,模型只考虑离超平面近的点C)建模时,模型只考虑离超平面近的点D)以上所有答案:B解析:[单选题]61.下列哪个是中文字符编码()。A)国标码B)大五码C)GBKD)其他三项都是答案:D解析:[单选题]62.马尔科夫可以用一个什么图去进行表示A)无向图B)有无向图C)有向图D)不确定答案:A解析:[单选题]63.常用的关键词提取算法有TF-DF算法、()和主题模型算法。A)正向最大匹配算法B)聚类算法C)Textrank算法D)PageRank算法答案:C解析:[单选题]64.LightGBM有什么明显的优势A)支持串行B)支持并行C)效率低下D)不确定答案:B解析:[单选题]65.激活函数有很多种,也有很多异同点,以下Relu和Tanh两个激活函数,有什么不同点A)输出的值域不同B)Relu可以做非线性变换而Tanh不可以C)Relu是激活函数但是Tanh不是激活函数D)都不可以做线性变换答案:A解析:[单选题]66.以下哪个激活函数指的是修正线性单元?A)ReluB)sigmoidC)tanhD)sin答案:A解析:[单选题]67.以下哪个与卷积神经网络无关A)局部连接B)权值共享C)池化操作D)多层次结构答案:D解析:[单选题]68.文总共有N个文档,其中一个文档中有T个词条,某个词条出现了K次,那么TF-IDF的计算公式应该是哪个A)KT*Log(3)B)T*Log(3)/KC)K*Log(3)/TD)Log(3)/KT答案:C解析:[单选题]69.L2正则化项的加入,可以使模型达到什么样的效果A)防止过拟合B)防止欠拟合C)防止完美拟合D)不确定答案:A解析:[单选题]70.关于KNN和K-Means的相似点,下列说法正确的是A)都是有监督学习B)都属于聚类算法C)训练的数据都带有label标签D)都包含这样的过程,给定一个点,在数据集中找离它最近的点答案:D解析:[单选题]71.以下四个算法当中,哪个算法和逻辑回归一样都可以做分类A)线性回归B)岭回归C)K-meansD)SVM答案:D解析:[单选题]72.下列关于词嵌入说法错误的是?()A)词嵌入算法是对文本语料库进行学习,从而得到预定义的固定大小词汇表的实值向量表示B)嵌入层是一种与特定自然语言处理任务的神经网络模型共同学习的词嵌入C)CBOW模型基于上下文来预测当前的词,从而学习到词嵌入D)嵌入层是一种统计学方法,它可以从文本语料库中高效地学习独立的词嵌入答案:D解析:[单选题]73.以下四个选项中,BP算法属于以下哪一类A)梯度上升问题B)梯度优化C)梯度消失问题D)梯度下降法答案:D解析:[单选题]74.?re.sub(自然语言处理?,"NLP",text1)?表示的含义为()。A)将test1中的?自然语言处理?替换为?NLP?B)将test1中的?NLP?替换为?自然语言处理?C)找出test1中的?自然语言处理?D)找出test1中的?NLP?答案:A解析:[单选题]75.词袋子模型和预先模型(word2vec)对比,哪个是不正确的A)word2vec无法处理一词多义问题B)词袋子模型不包含语义信息,而word2vec包含语义信息C)词袋子模型高纬度稀疏D)词袋子模型中包含的语义信息比word2vec更加充分答案:D解析:[单选题]76.以下几种技术当中可以做主语检测和宾语检测的是哪个A)词性标注(PartofSpeechTagging)B)SkipGram和N-Gram提取C)连续性词袋(BagofWords)D)依存句法分析(DependencyParsing)和成分句法分析(ConstituencyParsing)答案:D解析:[单选题]77.下列关于mini-batch原理的说法,描述正确的是?A)选取数据中部分数据进行梯度下降B)和批量梯度下降相同,只是将算法进行优化C)将数据每次进行一小批次处理,通过迭代将数据全部处理D)随机选取一些数据,计算梯度进行下降,每次将学习率降低一点答案:C解析:[单选题]78.以下有关文本分词的说法正确的是哪个?()A)英文文本不需要分词。B)分词算法都需要一个词典。C)基于统计的分词方法的性能与训练语料库的质量密切相关D)分词合适与否不会引起句子的歧义答案:C解析:[单选题]79.直方图算法中的K可以认为是什么A)代价B)常数C)学习率D)不确定答案:B解析:[单选题]80.深度学习模型在训练的时候需要达到哪些基本要求A)对计算机硬件需求小B)适合小数据训练C)需要将问题逐层分解D)对硬件要求高,并且需要大量数据集答案:D解析:[单选题]81.用户希望对以下这句话进行预测?我的祖国是中国,我的母语是?,则应该采用以下哪种神经网络结构进行处理?A)多层感知机B)生成对抗网络C)循环神经网络D)卷积神经网络答案:C解析:[单选题]82.线性回归训练过程中属于哪种训练方式A)有监督B)无监督C)半监督D)强化学习答案:A解析:[单选题]83.word2Vec模型的输入是one-hot向量,根据输入和输出模式不同,分为()和跳字模型(Skip-Gram)。A)连续词袋模型CBOWB)DM模型C)LDA模型D)主题模型答案:A解析:[单选题]84.CNN中卷积层的作用是什么?A)特征缩放B)特征提取C)数据清洗D)数据提取答案:B解析:[单选题]85.不符合数据清洗方式的有:A)A:缺失值填充B)B:重复值去除C)C:寻找离群点(奇点)D)D:集成不同的数据库答案:D解析:[单选题]86.以下哪一项是最经典的决策树学习算法A)ID3B)C4.5C)CARTD)SVM答案:A解析:[单选题]87.不属于基于Seq2Seq模型的聊天机器人的实现流程的是()A)读取语料库B)绘画建模C)抽取数据中的问答对话集合D)添加答案:B解析:[单选题]88.在以下四个选项当中,关于LightGBM的说法正确的有哪些A)更慢的训练速度B)更低的内存消耗C)更差的准确率D)不支持分布式答案:B解析:[单选题]89.关于?与/或?图表示知识的叙述,错误的有()。A)用?与/或?图表示知识方便使用程序设计语言表达,也便于计算机存储处理。B)?与/或?图表示知识时一定同时有?与结点?和?或结点?。C)?与/或?图能方便地表示陈述性知识和过程性知识。D)能用?与/或?图表示的知识不适宜用其他方法表示。答案:D解析:[单选题]90.下列关于特征函数的输出值是0或1的叙述正确的是()。A)0表示要标注序列不符合这个特征,1表示要标注序列符合这个特征B)0表示要标注序列符合这个特征,1表示要标注序列不符合这个特征C)0和1都表示要标注序列符合这个特征D)0和1都表示要标注序列不符合这个特征答案:A解析:[单选题]91.以下哪个技术是通过上下文进行建模的A)Word2VecB)GloVeC)BERTD)以上所有答案:C解析:只有BERT(BidirectionalEncoderRepresentationsfromTransformer)支持上下文建模。[单选题]92.下列关于jieba词性标注的流程错误的是()。A)加载离线统计词典B)构建前缀词典C)构建无向无环图D)计算最大概率路径答案:C解析:[单选题]93.()函数用于获取语料库中的文件。A)categoriesB)fawC)open(fileid)D)fileids答案:D解析:[单选题]94.决策树分类器可以对文本数据分类。关于文本分类算法,下列说法错误的是()A)文本预处理包括文本分词和去停用词等步骤B)数据集可以是公开数据集,也可以是通过网络爬虫爬取的文本数据C)不需要进行特征工程D)对数值化后的文本数据,可采用如SVM、RF等进行分类答案:C解析:[单选题]95.Tanh激活函数活跃在各大算法当中,当Tanh求导了之后,它的取值范围是多少A)[-1,1]B)[0,2]C)[0,1]D)0或1答案:A解析:[单选题]96.下面哪一个说法更能解释随机梯度下降的原理A)随机赋值,祈祷它们是正确的B)搜索所有权重和偏差的组合,直到得到最佳值C)赋予一个初始值,通过检查跟最佳值的差值,然后迭代更新权重D)以上都不正确答案:C解析:[单选题]97.文本分类,会话机器人等等属于以下哪个选项的子任务A)数据挖掘B)不确定C)图像识别D)自然语言答案:D解析:[单选题]98.深度学习可以用在下列哪些NLP任务中?A)情感分析B)问答系统C)机器翻译D)所有选项答案:D解析:[单选题]99.transformer和seq2seq的差异在哪A)都属于编解码模型B)都可以做机器翻译C)transformer使用了全Attention的形式D)都可以做文本摘要答案:C解析:[单选题]100.隐马的工业应用面很官方,隐马尔科夫是几元组模型A)2B)3C)4D)5答案:D解析:[单选题]101.早期语料库语言学研究不包括A)语言习得B)音系研究C)方言学与语料库技术的结合D)发展模式答案:D解析:[单选题]102.下列对于Batch归一化操作的应用范围描述正确的是?A)作用于输出层B)仅作用于输入层C)无法在隐藏层起作用D)用于输入层,甚至深度隐藏层的归一化过程答案:D解析:[单选题]103.计算机在面对自然语言的解析任务时始终难以摆脱困境,下列不是造成这种状况的主要原因的是()。A)NLP系统中先验知识的覆盖程度是有限的,系统需要处理大量的未知语言现象。B)自然语言中存在复杂的歧义。C)NLP实现的是机器追踪和服从人的语言、从语言的有限集到无限集的推演过程。D)NLP的应用面非常广泛。答案:D解析:[单选题]104.NNLM和CBOW他们都是什么模型A)预训练模型B)语言模型C)编码模型D)解码模型答案:B解析:[单选题]105.概率图模型关于隐马尔可夫模型的解码算法,是用那个算法?A)前向算法B)后向算法C)Viterbi算法D)Baum-Welch算法答案:C解析:[单选题]106.词袋模型是最早的以词语为基本处理单元的文本向量化方法.以下哪个选项不是词袋模型的A)基于分布假设B)存在语义鸿沟C)维度灾难D)无法保留次序信息答案:C解析:[单选题]107.RNN和CNN下面说法正确的是A)RNN在处理长依赖序列问题的时候效果会比较好B)RNN属于卷积神经网络C)CNN在处理长序列问题会更好D)CNN又叫循环神经网络答案:A解析:[单选题]108.以下四个描述中,哪个选项正确的描述了XGBoost的基本核心思想A)训练出来一个一次函数图像去描述数据B)训练出来一个二次函数图像去描述数据C)不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。D)不确定答案:C解析:[单选题]109.国际码每一横行叫一个区,每个区有()位。A)94B)96C)97D)99答案:A解析:[单选题]110.人工智能中贝努力实验是()的基础A)交叉熵损失函数B)最小二乘损失函数C)与二项式分布有关D)与信息量有关答案:A解析:[单选题]111.CNN的全称是什么A)全连接网络B)循环神经网络C)卷积神经网络D)以上都不对答案:C解析:[单选题]112.下列哪个选项使用了基于Histogram的决策树算法A)LightGBMB)XGBoostC)随机森林D)岭回归答案:A解析:[单选题]113.RNN和CNN都可以处理文本,哪个处理长文本效果更好A)RNNB)CNNC)一样好D)不确定答案:A解析:[单选题]114.katz指数又称ADL指数,由难到易分为()类A)4B)5C)6D)7答案:C解析:[单选题]115.Tanh激活函数的输出值域是多少?A)[0,1]B)[0,2]C)[0,3]D)[-1,1]答案:D解析:[单选题]116.下列哪个不是体现出的随机森林的随机性A)样本的随机性(Bagging):在Bagging时,随机选择样本B)特征的随机性(Randomsubspace)C)随机特征组合(Randomcombination)D)随机代价函数答案:D解析:第2部分:多项选择题,共57题,每题至少两个正确答案,多选或少选均不得分。[多选题]117.以下哪些方法可以解决过拟合问题A)增加数据量B)加入正则化C)降低模型复杂度D)收敛之前迭代答案:ABCD解析:[多选题]118.下列选项中,关于随机梯度下降的描述说法正确的是?A)mini-batch大小为1B)每次迭代有可能原理最优解C)永远不会收敛D)不能使用向量化加速答案:ABCD解析:[多选题]119.经过Batch归一化的操作会产生相应的良性效果,那么为什么会该操作会产生作用A)通过归一化所有的输入特征值,以获得类似范围的值,加速学习B)将参数归一化可以减缓学习速率C)可以使权重比你的网络更滞后或更深D)可以使权重比你的网络更超前或更深答案:AC解析:[多选题]120.以下四个选项中,XGBoost是如何对树的复杂度进行处理的?A)控制树的叶子节点个数B)增加叶子数的个数C)树上叶子节点的得分w的L2模平方D)以上都正确答案:AC解析:[多选题]121.LSTM中有很多激活函数,分别是什么作用A)在LSTM中,遗忘门、输入门、输出门使用Sigmoid函数作为激活函数B)在LSTM中,遗忘门、输入门、输出门使用Tanh函数作为激活函数C)在生成候选记忆时,使用双曲正切函数Tanh作为激活函数D)在生成候选记忆时,使用sigmiod作为激活函数答案:AC解析:[多选题]122.如果做模型的评估可以使用以下哪些方式A)准确率B)精确率C)召回率D)F1值答案:ABCD解析:[多选题]123.为什么要进行文本表示A)无实际性的意义B)根本原因是计算机不方便直接对文本字符串进行处理,因此需要进行数值化或者向量化。C)便于机器学习。不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程。D)良好的文本表示形式可以极大的提升算法效果。答案:BCD解析:[多选题]124.符合文本方式的有:A)长文本表示B)离散表示C)词表示D)基于聚类表示答案:AC解析:[多选题]125.TF-IDF相关公式有哪些A)TF=在某一类中词条出现的次数/该类中所有词条数目B)IDF=log(语料库中文档总数/包含词条的文档数+1)C)IDF=log(语料库中文档总数/包含词条的文档数)+1D)TF-IDF=TF*IDF答案:ABD解析:[多选题]126.下列四个选项中,描述sigmoid性质正确的有哪些A)概率平均B)能解决非线性分类问题C)将负的权值映射到正值D)将正权值映射到负数答案:BC解析:[多选题]127.深度学习的热门,那么主要得益于哪些因素?A)新方法的出现,为神经网络深度的拓展解决了梯度弥散的问题;B)大量已标注数据的出现,为神经网络的训练做好了数据准备;C)GPU(图形处理器)的使用,为卷积计算提供了高速解决方案D)深度学习等于人工智能答案:ABC解析:[多选题]128.机器学习中常用的损失函数有哪些?A)平方损失函数B)log损失函数C)Hinge损失函数D)以上都正确答案:ABCD解析:[多选题]129.在工业中,NLP有哪些应用落地较好?A)语音识别B)自动翻译C)控制装置D)人脸识别答案:ABC解析:[多选题]130.聚类要实现的目标是包括?A)A:同一族尽可能相似B)B:不同簇尽可能相异C)C:同一簇尽可能相异D)D:不同簇尽可能相似答案:AB解析:[多选题]131.常用的聚类方法有()A)KMeansB)感知机C)NBMD)DBSCAN答案:AD解析:[多选题]132.对于k-NN中的连续变量,我们使用以下哪个距离度量?A)汉明距离B)欧氏距离C)曼哈顿距离D)以上都正确答案:AB解析:[多选题]133.神经网络一般包括哪几层A)输入层B)隐藏层C)输出层D)以上都包括答案:ABCD解析:[多选题]134.NLP中常用的预训练模型中ELMO中的优点和缺点分别都有哪些A)引用上下文动态调整单词的EmbeddingB)适应的范围广C)LSTM的特征提取的能力弱于TransformerD)使用拼接的方式特征融合能力偏弱答案:ABCD解析:[多选题]135.ELMO可以接哪些NLP任务A)文本分类B)QA问答C)机器翻译D)文本摘要答案:ABCD解析:[多选题]136.EM算法过程中,可以分为哪两个步骤A)期望步B)极大步C)不确定D)选择最优K取值答案:AB解析:[多选题]137.word2vec中的一个模型CBOW中,最后一层的(softmax)可以怎么优化A)层次softmaxB)负例采样C)直接省略D)不确定答案:AB解析:[多选题]138.kmeans聚类算法的实现流程A)在选择初始化质心,最基本的方法就是从数据集XXX中选择kkk个样本。在初始化后,k-means就由剩下两步循环完成。B)通过计算将本样本分到其最近的质心。C)通过取分配给每个质心的所有样本的均值来创建新的质心。计算新旧质心之间的差值,重复上面两步(2)(3),直到差值小于阈值。D)以上都正确答案:ABCD解析:[多选题]139.HMM和CRF在工业应用中都很常见,那么他们的区别是什么A)前者描述的是P(X,Y)=P(X|Y)*P(Y),是generativemodelB)后者描述的是P(Y|X),是discriminativemodelC)前者你要加入对状态概率分布的先验知识,而后者完全是datadriven.D)没有什么区别答案:ABCD解析:[多选题]140.下列四个选项中,朴素贝叶斯不是以哪些为基础的分类方法?A)概率论B)天文学C)地理学D)物理学答案:BCD解析:[多选题]141.bagofword和one-hot的共同点是什么A)编码成的向量稀疏B)都不包含语义信息C)容易造成维度爆炸D)简单快速答案:ABCD解析:[多选题]142.假如说数据的维度过大,可以通过以下哪种方式减少维度?A)隐狄利克雷分布(LatentDirichletAllocation)B)潜在语义索引(LatentSemanticIndexing)C)关键词归一化(KeywordNormalization)D)不确定答案:ABC解析:[多选题]143.K-NN是一种常用的分类算法,它有很多优点,例如:A)简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。B)模型训练时间快,上面说到KNN算法是惰性的,这里也就不再过多讲述。C)预测效果好。D)对异常值不敏感答案:ABCD解析:[多选题]144.聚类算法可以基于以下哪些选项去划分A)基于划分B)基于层次C)基于密度D)基于网格答案:ABCD解析:[多选题]145.下边那些模型是基于N-Gram的A)BERTB)GPTC)NNLMD)CBOW答案:CD解析:[多选题]146.图像也需要用到深度学习,以下属于深度学习在图像上应用的是?A)文本分类B)人脸检测C)机器翻译D)目标检测答案:BD解析:[多选题]147.DataFrame类型可以由如下类型创建:A)A:二维ndarray对象B)B:由一维ndarray、列表、字典、元组或Series构成的字典C)C:Series类型D)D:其他的DataFrame类型答案:ABCD解析:[多选题]148.在评价不平衡类问题分类的度量方法有如下几种A)F1度量B)召回率(recall)C)精度(precision)D)真正率(turepositiverate,TPR)答案:ABCD解析:[多选题]149.概率图模型中的判别式模型,其缺点有哪些呢?A)学习过程比较复杂B)目标分类中易产生较大错误率C)不能反映训练数据本身的特性D)没办法把整个场景描述出来答案:CD解析:[多选题]150.下列关于数据归一化的描述,正确的选项有哪些?A)归一化可以预防过拟合B)归一化没有实质作用C)归一化将所有数据样本值缩放到0-1之间D)归一化是一种激活函数答案:AC解析:[多选题]151.DSSM的核心优势有哪些A)可以很好的把握语义焦点B)可以对上下文语义进行很好地建模C)可以通过语义很好的计算出相似度D)不确定答案:ABC解析:[多选题]152.没有用到马尔科夫链的算法有:A)HMMB)SVMC)CRFD)MEMM答案:BCD解析:[多选题]153.关于KNN算法,以下哪些描述没有问题?A)A:当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。B)B:计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。C)C:使用KDTree可以加快k近邻的搜索效率D)D:可理解性差,无法给出像决策树那样的规则。答案:ABC解析:[多选题]154.基于统计的词性标注方法的优点表现在()A)速度快B)代价低C)覆盖率高D)精确率低答案:ABC解析:[多选题]155.对HMM参数说法正确的是A)Y:隐状态B)A:输出观察值概率矩阵C)B:状态转移概率矩阵D)Π:初始状态概率矩阵答案:AD解析:[多选题]156.使用tensorflow关于实现交叉熵损失函数的API,以下选项正确的是哪些?A)entropy=-tf.reduce_sum(y_actual*tf.log(y_predict))B)entropy=-tf.reduce_mean(y_actual*tf.log(y_predict))C)entropy=-tf.reduce_max(y_actual*tf.log(y_predict))D)entropy=-tf.reduce_any(y_actual*tf.log(y_predict))答案:AB解析:[多选题]157.自然语言处理(NLP)中为什么要进行文本表示文本表示A)根本原因是计算机不方便对文本字符串进行处理B)便于机器学习C)良好的文本表示可以提升算法的效果D)无实际意义答案:ABC解析:[多选题]158.属于jieba框架中的分词方法的是?A)cutB)lcut_for_searchC)lcutD)cut_for_search答案:ABCD解析:[多选题]159.以下关于概率图GraphicalModels模型分类表述正确的是A)有向图:贝叶斯网络B)有向图:马尔可夫随机场C)无向图:贝叶斯网络D)无向图:马尔可夫随机场答案:AD解析:[多选题]160.RNN适用于处理()等与时序相关的问题。A)视频B)语音C)文本D)图像答案:ABC解析:[多选题]161.以下四个选项中,概率图模型分别都结合了下列哪些知识A)信息论B)图论C)概率论D)以上都是答案:BC解析:[多选题]162.Web内容挖掘实现技术()A)文本总结B)文本分类C)文本聚类D)关联规则答案:ABCD解析:[多选题]163.对树进行了剪枝的操作回答道什么样的效果A)减少模型复杂度B)防止了欠拟合C)增加模型复杂度D)防止了过拟合答案:AD解析:[多选题]164.以下四个选项中关于NNLM说法正确的有哪些A)使用(N-1)个前项词的One-Hot表示B)输出层用softmaxC)输出成使用的sigmoidD)投影层投影到稠密的D维表示答案:ABD解析:[多选题]165.除了Histogram算法,LightGBM还做了哪些改进A)带深度限制的Leaf-wise的叶子生长策略B)直方图做差加速直接C)支持类别特征(CategoricalFeature)D)不确定答案:ABC解析:[多选题]166.以下选项中哪些是随机森林算法的优点A)它可以处理很高维度的数据,并且不用降维,无需做特征选择;B)如果有很大一部分的特征遗失,仍可以维持准确度;C)不容易过拟合D)随机森林已经被证明在某些噪音比较大的分类或回归问题上会过拟合。答案:ABC解析:[多选题]167.如果使用了正则项,会有什么好处A)控制参数幅度B)限制参数搜索空间C)解决过拟合问题D)解决欠拟合问题答案:ABCD解析:[多选题]168.以下技术当中,哪个可以将字或者词做向量化A)GloveB)word2vecC)LDAD)词袋答案:ABCD解析:[多选题]169.以下属于AI人工智能的机器学习模型/算法有哪些?A)SVMB)LRC)LSTMD)RNN答案:ABCD解析:[多选题]170.语料库的构建原则包括()A)代表性B)结构性C)平衡性D)规模性答案:ABCD解析:[多选题]171.文本挖掘的工具有()A)SPPTextMiningB)IBMDB2intelligentMinerC)SASTextMinerD)SPSSTextMining答案:BCD解析:[多选题]172.在Deeplearning中,以下解决过拟合是哪些?A)DropoutB)批规范化C)正则化D)激活函数答案:ABC解析:[多选题]173.长短期记忆网络的门指哪几项A)输入门B)遗忘门C)输出门D)更新门答案:ABC解析:第3部分:判断题,共66题,请判断题目是否正确。[判断题]174.自然语言处理的各项任务中,各层次的语义歧义问题是最难解决的A)正确B)错误答案:对解析:[判断题]175.知识图谱是智能问答系统的大脑。()A)正确B)错误答案:对解析:[判断题]176.维比特算法的时间复杂度是O(NT)。A)正确B)错误答案:错解析:[判断题]177.线性回归的图像是条直线A)正确B)错误答案:对解析:[判断题]178.KNN是一种基于划分的聚类A)正确B)错误答案:错解析:[判断题]179.字表不可以用数组来存放。A)正确B)错误答案:错解析:[判断题]180.BERT使用的单向的TransformerA)正确B)错误答案:对解析:[判断题]181.中文词性标注相比与英文词性标注有一定的难度,这是因为中文不像英文可以通过词的形态变化判断词的词性。对A)正确B)错误答案:对解析:[判断题]182.DRMM是交互性的深度匹配模型A)正确B)错误答案:对解析:[判断题]183.LightGBM占用的内存变小了A)正确B)错误答案:对解析:[判断题]184.线性可分支持向量机利用间隔最大化求得最优分离超平面,这时,解是唯一的A)正确B)错误答案:对解析:[判断题]185.LDA只能做聚类A)正确B)错误答案:错解析:[判断题]186.情感分析可应用于舆情分析。对A)正确B)错误答案:对解析:[判断题]187.典型的智能问答系统主要包括常见问题解答、问题理解、文档库和答案抽取四个模块.()A)正确B)错误答案:错解析:[判断题]188.基于机器学习的情感分类的关键在于特征选择、特征权重量化、分类器模型这3个要素。对A)正确B)错误答案:对解析:[判断题]189.DM模型对应Word2Vec模型里的CBOW模型。对A)正确B)错误答案:对解析:[判断题]190.GMM-HMM模型中,GMM主要用于求某一因素的概率,HMM主要用于对每个文本-语音对建模。A)正确B)错误答案:对解析:[判断题]191.词频是统计一个词出现在文档集中文档频次的统计量。错A)正确B)错误答案:错解析:[判断题]192.神经网络的中间结点的准确值我们是不知道到的A)正确B)错误答案:对解析:[判断题]193.交集型切分歧义的问题是该不该切,组合型切分歧义的问题是切在哪里A)正确B)错误答案:错解析:[判断题]194.经验主义的方法又称基于统计的方法。()A)正确B)错误答案:对解析:[判断题]195.由于自然语言的歧义性,在移进归约的分析过程中可能出现移进-归约冲突和归约-归约冲突A)正确B)错误答案:对解析:[判断题]196.神经网络通过把这些单个神经元叠加在一起来形成。如果你把这些神经元想象成单独的乐高积木,你就通过搭积木来完成一个更大的神经网络。A)正确B)错误答案:对解析:[判断题]197.防止过拟合:从数据入手,获得更多的训练数据。A)正确B)错误答案:对解析:[判断题]198.NLP在中文分词的基础上进行了词的过滤、词性标注和同义词匹配。对A)正确B)错误答案:对解析:[判断题]199.谓词逻辑表示法中,谓词名是命题的主语A)正确B)错误答案:错解析:[判断题]200.格的中心是名词A)正确B)错误答案:错解析:[判断题]201.word2vec可以做一次多意的词嵌入A)正确B)错误答案:错解析:[判断题]202.可以基于经验主观判断、不断调试、操作性强、最为常用。来去定LDA中的Topic的个数A)正确B)错误答案:对解析:[判断题]203.ELMO中的第一层的LSTM更多的是得到句子的语义信息A)正确B)错误答案:错解析:[判断题]204.支持向量机是聚类算法,同时他也可以做分类A)正确B)错误答案:错解析:[判断题]205.SVM,逻辑回归,LDA,PCA这几个算法都可以做分类问题A)正确B)错误答案:错解析:[判断题]206.隐马尔科夫模型的数学思想是由Baum及其同事提出来的。A)正确B)错误答案:对解析:[判断题]207.DM模型的输入不仅包括上下文而且还包括相应的段落。对A)正确B)错误答案:对解析:[判断题]208.聚类的形式和方法有:基于划分,基于层次,基于密度,基于网络A)正确B)错误答案:对解析:[判断题]209.如果训练集较小,直接使用batch梯度下降法A)正确B)错误答案:对解析:[判断题]210.字符是一切文本处理中最基本的单位。中文文本里出现的一般是双字节的中文字符,有时也出现一些单字节字符。A)正确B)错误答案:对解析:[判断题]211.知识的存储结构为知识图谱。A)正确B)错误答案:错解析:[判断题]212.在做NLP任务的时候,可以直接把汉字作为模型输入A)正确B)错误答案:错解析:[判断题]213.一个词在文档集中越少的出现在文档中,说明这个词对文档的区分能力越强。对A)正确B)错误答案:对解析:[判断题]214.一般来说,自动分词需要一个词表,但是无法把所有的词都收进词表,那些在词表外的词就是?未登录词?。A)正确B)错误答案:对解析:[判断题]215.Snownlp可以用来实现文本情感分析。对A)正确B)错误答案:对解析:[判断题]216.基于规则的分词方法必须要使用词典。对A)正确B)错误答案:对解析:[判断题]217.决策树既能做分类也能做回归A)正确B)错误答案:对解析:[判断题]218.GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。A)正确B)错误答案:对解析:[判断题]219.TF-IDF算法倾向于过滤常用的词语,保留相对重要的词语,只考虑了词的出现频次、出现文档的个数这两个信息,对文本内容的利用程度较低。对A)正确B)错误答案:对解析:[判断题]220.TextRank不能提取到关键词A)正确B)错误答案:错解析:[判断题]221.图灵测试是指让人和机器进行交流,如果人无法判断和自己交流的对象是人还是机器,就说明这个机器有智能了。A)正确B)错误答案:对解析:[判断题]222.在21世纪之后,深度学习在机器翻译、问答系统等多个自然语言处理任务中取得了不错的成果。A)正确B)错误答案:对解析:[判断题]223.随机森林中是由多棵树构成的A)正确B)错误答案:对解析:[判断题]224.情感分析的对象是主观性文本,文本的主客观分类是情感分析的基础工作。对A)正确B)错误答案:对解析:[判断题]225.GBDT每轮迭代的时候,都去拟合损失函数在当前模型下的负梯度。A)正确B)错误答案:对解析:[判断题]226.相比sigmoid函数,relu更容易发生梯度消失现象A)正确B)错误答案:错解析:[判断题]227.语料库的实质是经过科学取样和加工的大规模电子文本库。对A)正确B)错误答案:对解析:[判断题]228.马尔科夫模型描述了一类重要的随机过程。随机过程又称?随机函数?,是随时间而随机变化的过程。A)正确B)错误答案:对解析:[判断题]229.R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论