雨课堂学堂在线学堂云《机器学习数学基础(国防科技)》单元测试考核答案_第1页
雨课堂学堂在线学堂云《机器学习数学基础(国防科技)》单元测试考核答案_第2页
雨课堂学堂在线学堂云《机器学习数学基础(国防科技)》单元测试考核答案_第3页
雨课堂学堂在线学堂云《机器学习数学基础(国防科技)》单元测试考核答案_第4页
雨课堂学堂在线学堂云《机器学习数学基础(国防科技)》单元测试考核答案_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1题通过学习理论,我们将认识到,所有的问题都能通过机器学习来解决。第2题通过理论学习,我们可以寻找某个问题的重要因素有哪些。第3题通过理论学习,我们可以判定某个问题的求解上是否还有更优的选择。第1题开球、闭球、球面都是凸集;多面体不是凸集。第2题集合

是凸集,如果函数为凸函数,那么为凹函数。第3题定义域Ω=R++1,函数是凸函数,这个函数叫负熵函数。1.3-预备知识之凸函数性质(习题)第1题函数的凸性可以由函数的梯度刻画。第2题集合是凸集,函数f:Ω→R1

二次可微,那么函数f为凸函数当且仅当其海赛矩阵为半正定矩阵。第3题无论原函数f是什么函数,其共轭函数一定是凸函数。1.4-预备知识之基本不等式(习题)第1题Jensen不等式:对凸函数f,有f(E{X})≤E{f(X)}

。第2题Cauchy-Schwartz(V1):对于随机变量X,Y,我们有。第3题UnionBound:

。1.5-预备知识之复杂不等式(习题)第1题Hoeffding(V1):独立同分布,有。第2题一个随机过程成为鞅,如果满足。第3题在机器学习中,需要大量用随机变量的不等式,这些不等式对于机器学习的算法分析具有不可替代的作用。1.6-预备知识之凸优化模型(习题)第1题凸优化问题的可行域Ω为()。A凹集B凸集第2题凸优化问题就是在凸集上求凸函数的最小。第3题凸优化问题可能会陷入局部最优的局限。1.7-预备知识之最优化对偶(习题)第1题优化问题我们一般从两个角度考虑,一个是主问题或原问题,另一个是(

)。A对偶问题B简化问题第2题对于一般的优化问题,强对偶性一定成立。第3题强对偶性成立时,对于任意的优化问题,KKT条件是最优解的(

)。A必要条件B充分条件1.8-预备知识之硬间隔模型(习题)第1题向量

与超平面的距离是()。AB第2题两个平行的超平面

的距离是

。1.9-预备知识之核方法模型(习题)第1题在原始空间中线性不可分的问题,可将样本从原始空间映射到一个高维特征空间。第2题每个核函数都隐性定义了一个特征空间,称为再生核希尔伯特空间。第3题因为Φ映射形式不定,所以核函数的选择具有()。A明确性B盲目性1.10-预备知识之软间隔模型(习题)第1题我们坚决不允许支持向量机在样本上出错。第2题硬间隔模型的对偶模型与软间隔模型的对偶模型差别不大。第3题软间隔的意思是在最大化间隔的同时,不满足约束的样本应尽可能()。A少B多2.1-机器学习的基本概念(习题)第1题概念空间与函数空间没有必然的联系。第2题由于

是p的独立同分布采样,因此f的经验误差的期望等于其泛化误差。2.2-可分情形的可学性(习题)第1题学习理论中最基本的是概率近似正确理论,也就是PAC理论。第2题对于计算算法来说,可以不考虑时间复杂度。第3题F中的任何一个函数都会在训练集中出现或多或少的错误。2.3-不可分情形的可学性(习题)第1题假定学习算法A处理每个样本的时间为常数,则A的时间复杂度等价于样本复杂度。第2题在PAC理论模型中,p可以是任意分布,训练集和测试集可以来自不同分布。2.4-布尔合取式的可学性(习题)第1题布尔合取式概念空间是PAC可学的。第2题布尔合取式概念空间不是高效PAC可学的。2.5-析取与合取范式的可学性(习题)第1题在()情况下,3-DNF这个概念空间是高效PAC可学的。ARP=NPBRP≠NP第2题3-CNF这个概念空间是高效PAC可学的。第3题即使对同一个概念空间,选择不同的表达方式可能会导致不同的可学性。2.6-轴平行矩形的可学性(习题)第1题

R2上轴平行矩阵概念空间C是PAC可学的。第2题R2上轴平行矩阵概念空间C不是高效PAC可学的。3.1-函数空间的VC维度(习题)第1题F对样本所能赋予标记的可能结果数越大,表明F的表示能力()。A越弱B越强第2题函数空间F可能包含无穷多个函数,但是F(x)却是有限的。第3题增长函数在一定程度上描述了函数空间F的表示能力,反映了函数空间的复杂程度。3.2-VC维度的例子计算(习题)第1题VC维的定义与分布有关。第2题有限函数空间F的VCdim(F)通常远远(

)。A小于B大于3.3-VC维度的两类估计(习题)第1题当函数空间F的VCdim(F)=+∞

,增长函数随着数据集大小的增加而呈指数级增长。第2题当函数空间F的VCdim(F)=d而且d≤m,增长函数随着数据集大小的增加而呈多项式增长。3.4-Natarajan维度的定义(习题)第1题子函数空间与向量值空间F(x)是一一对应的。第2题对于大多数学习问题而言,学习算法A考虑的函数空间并不是有限的。3.5-Natarajan维度的估计(习题)第1题对于K多分类问题,函数空间为F,如果Ndim(F)=d,那么对于任意的m∈N

,有()A≤B≥第2题对于多分类问题的函数空间F,Natarajan维,是能被F打散的最大样本集大小。3.6-Rademacher复杂度定义(习题)第1题Rademacher复杂度与数据分布D(Z)相关。第2题VC维的定义与数据无关。第3题在Rademacher复杂度定义中,

σi是{+1,-1}上服从(

)的随机变量。A均匀分布B高斯分布3.7-Rademacher复杂度估计(习题)第1题相比于给定的z,我们更关心z服从分布时函数空间的复杂度。第2题Rademacher复杂度不依赖于具体学习问题以及数据分布。第3题基于Rademacher复杂度可以比VC维推导出更加紧致的泛化误差界。3.8-线性超平面的VC维度(习题)第1题以下属于线性超平面的有哪些?A一般线性超平面B齐次线性超平面C典型线性超平面正确答案:ABC第2题

Rd中由齐次线性超平面构成的函数空间

的VC维为d。第3题

Rd中由非齐次线性超平面构成的函数空间

的VC维为d+1。3.9-线性超平面的Rademacher复杂度(习题)第1题线性超平面构成的函数空间复杂度不仅可用VC维度刻画,还可以基于Rademacher复杂度进行刻画。第2题Rademacher复杂度与数据分布不相关。第3题在计算Rademacher复杂度时需要对分布进行适当的限制。3.10-支持向量机的VC维度(习题)第1题原始样本空间往往线性不可分。第2题高维空间的维度为d,则支持向量机考虑的函数空间VC维为d+1。3.11-增长函数的两类估计(习题)第1题函数空间的,可知函数空间

的增长函数为。第2题对于函数族定义函数空间,那么有。第3题对于函数族定义函数空间,那么有。3.12-神经网络的VC维度(习题)第1题整个多层神经网络的函数族可以表示为

。第2题多层神经网络中,令可以得到。第3题令表示对应多层神经网络的函数族,其VC维。4.1-可分的有限的函数空间的泛化上界(习题)第1题一般来说,泛化误差与学习算法

所考虑的函数空间

、训练集大小m、数据分布有关。第2题一般来说,无法强求通过训练集x能够精确找到目标概念c。第3题函数空间

是有限可分时,学习算法

输出函数的泛化误差依赖函数空间的大小

和训练集的大小m。4.2-不可分有限的函数空间的泛化上界(习题)第1题在不可分情形中,目标概念不在函数空间中,我们希望找到()。A目标概念的ε近似B泛化误差最小的函数的ε近似第2题当训练集中样本数目m较大时,f的经验误差是泛化误差的较好近似。第3题在有限不可分的情形下,泛化误差的收敛率为ABC4.3-VC维有限的函数空间的泛化上界(1)(习题)第1题函数空间无限,但是VC维有限时,算法的泛化误差估计需要利用增长函数。第2题对于无限的函数空间

,算法的泛化误差的估计需要从VC维和Rademacher复杂度的角度进行分析。第3题对于函数空间

,当时有

。4.4-VC维有限的函数空间的泛化上界(2)(习题)第1题若函数空间的有限VC维为d,,则对m>d和

有第2题有限VC维的不可分函数空间比有限的不可分函数空间更难收敛。第3题对于VC有限维的函数空间,泛化误差的收敛率与VC维的大小有关。4.5-基于Rademacher复杂度的泛化上界(1)(习题)第1题对于从

独立同分布采样得到的大小为m的训练集z,函数空间

关于z的经验Rademacher复杂度和关于的Rademacher复杂度分别是。第2题基于可以分析关于函数空间的泛化误差界。4.6-基于Rademacher复杂度的泛化上界(2)(习题)第1题Rademacher复杂度不但可用于回归问题,也可用于分类问题。第2题Rademacher复杂度不同的性质适用范围相同。4.7-基于VC维的可分函数空间的泛化下界(习题)第1题对于学习算法而言,判断其性能好坏的依据是泛化误差,也就是学习算法基于训练集学习得到的模型在未见数据上的预测能力。第2题泛化误差依赖学习算法所考虑的函数空间以及训练集的大小,这使得评估学到的模型的泛化误差较为简单。第3题泛化误差与学习算法所考虑的函数空间、训练集的大小、数据分布之间如何相关,就是泛化误差的下界估计。4.8-基于VC维不可分函数空间的泛化下界(1)(习题)第1题对于可分函数空间的泛化误差下界,主要比较学习算法的泛化误差与贝叶斯最优分类器泛化误差之间的关系。第2题为了确定随机变量σ的取值,训练集大小m至少应该为4.9-基于VC维不可分函数空间的泛化下界(2)(习题)第1题对于任意的学习算法A,在不可分情形下必定存在一种坏分布,使得A输出的假设的泛化误差以常数概率为第2题令Z为取值范围为[0,1]的随机变量,对于

有。4.10-支持向量机的泛化误差估计(1)(习题)第1题在实际应用中,支持向量机通常会使用替代损失函数,比如hinge损失函数,还可以考虑更具有一般性的间隔损失函数。第2题Lipschitz函数和函数空间F复合后的经验Rademacher复杂度可以基于函数空间F的经验Rademacher复杂度进行表示。4.11-支持向量机的泛化误差估计(2)(习题)第1题令

且,对于和固定的,以至少的概率有。第2题若为α-Lipschitz函数,则对于任意实数值函数空间F,有

。4.12-经验风险最小化算法的性能(习题)第1题泛化界主要讨论的是学习算法A输出函数A(z)的泛化误差与()误差之间的关系。A经验B期望第2题PAC学习理论要求的是找到函数空间中具有最小泛化误差函数的近似。5.1-机器学习算法的多类型风险(习题)第1题泛化误差界主要基于不同的函数空间复杂度度量,如增长函数、VC维和Rademacher复杂度等,与具体的学习算法无关。第2题直观而言,()刻画了训练集的扰动对算法结果的影响。A复杂度B稳定性C泛化性第3题在稳定性研究中,一般考虑数据集a的两种扰动:移除样本和替换样本。5.2-机器学习算法的多类型稳定性(习题)第1题对数据集a和样本z取期望,在期望条件下考虑训练集的扰动对算法输出函数的影响,就产生了期望稳定性第2题直观而言,一致稳定性确保了当训练数据足够多时,替换一个样本对学习算法输出函数的影响()A较小B较大第3题移除样本一致稳定性可以推出替换样本一致稳定性。5.3-一致稳定性与风险的关系(习题)第1题泛化误差解从函数空间的复杂度来研究泛化性,与具体的算法无关。第2题可以从算法稳定性角度来研究泛化性,完全从算法自身的属性来研究泛化性,与函数空间的复杂度无关。5.4-期望稳定性与风险的关系(习题)第1题泛化性研究通过训练数据学得的输出函数能否很好地适应用于未见过的新数据,这是机器学习关心的根本问题。第2题期望稳定性的误差估计与函数损失函数的取值范围有关。5.5-稳定性与过拟合的关系(习题)第1题稳定性研究训练集a的扰动对算法A输出函数的影响。第2题当学习算法A是稳定的,替换数据集的所有样本都不会导致算法输出函数发生较大变化,由此不会发生过拟合现象。第3题不出现过拟合现象的充分必要条件是算法在期望情况下具有()稳定性。A单个样本B全样本C替换样本5.6-稳定性与可学性的关系(习题)第1题若学习算法A在a上学习得到的输出函数满足经验风险(),则称算法A满足经验风险最小化原则。A最小化B最大化C最优化第2题若学习算法A是ERM的,且具有替换样本一致稳定性,则函数空间F是可知PAC可学的。第3题稳定性研究数据集的随机扰动对学习结果的影响,其本身与函数空间F无关,但一个问题的可学性与函数空间F相关。5.7-支持向量分类的稳定性(习题)第1题不考虑核函数的支持向量机,目标函数为

第2题令为目标函数所得最优解,则对任意,以至少的概率满足:。5.8-支持向量回归的稳定性(习题)第1题支持向量回归是支持向量机用于分类任务的经典算法。第2题考虑不适用核函数的支持向量回归,目标函数为。第3题令为目标函数所得最优解,则对任意,以至少的概率满足:。5.9-岭回归模型的稳定性(习题)第1题岭回归是一种常用的正则化()算法。A分类B回归C预测第2题给定常数,考虑样本空间,以及优化目标函数,则岭回归具有替换样本一致稳定性。第3题令为目标函数所得最优解,则对任意

,以至少的概率满足:

5.10-k近邻的稳定性(习题)第1题k近邻是机器学习中的一种经典的()方法。A分类B回归C预测第2题k近邻的函数空间VC维是无限的。第3题虽然很难从稳定性角度分析k近邻的泛化性,但是我们可以从函数空间复杂度角度来分析k近邻的泛化性。6.1-贝叶斯分类器与贝叶斯风险(习题)第1题贝叶斯最优分类器指在未见数据分布上所能取得最好性能的分类器。第2题对于分类器,可以定义分类器f在分布上的分类错误率为泛化风险。第3题在分布上取得最大错误率的分类器,我们称之为贝叶斯最优分类器。6.2-贝叶斯插入法与一致性概念(习题)第1题基于条件概率估计的分类方法被称为()。A分类法B插入法C估计法第2题当

,若学习算法满足,则称学习算法A具有一致性。第3题一致性刻画了学习算法A在有限维数据情形下学习的性能极限。6.3-替代函数的模型构建(习题)第1题替代函数本质上不是损失函数。第2题给定训练集和实数值函数f,函数f在训练集

上的分类错误率

本质上是泛化风险

的一种()。A无偏估计B有偏估计C最优估计第3题实数值函数f在分布上的泛化风险为6.4-替代函数一致性概念(习题)第1题给定替代函数,它在分布D上的泛化风险称为替代泛化风险。第2题替代经验风险是替代泛化风险的一个()。A无偏估计B有偏估计C最优估计第3题若时,有成立,则称替代函数对原目标函数具有一致性,简称替代函数一致性。6.5-替代函数一致性的充分条件(习题)第1题替代函数的最优实数值输出函数为。第2题对替代函数,若最优实数值输出函数满足,且存在常数使得

,则替代函数具有一致性。6.6-划分机制一致性概念(习题)第1题一些机器学习方法可以看做是将样本空间划分为多个互不相容的区域,然后在各个区域中对正例和反例分别计数,以多数的类别作为区域中样本的标记,这称为划分机制。第2题划分机制一致性需要满足两个条件:一是划分后的区域应该足够大,从而保证能够捕捉数据的全部信息;二是划分后的区域应包含足够多的训练样本,从而确保少数服从多数方法的有效性。第3题常见的基于划分机制的机器学习方法包括最近邻、决策树、随机森林等。6.7-划分机制一致性定理(习题)第1题假设是m个独立同分布的伯努利随机变量,满足,则有

。第2题假设条件概率在样本空间上连续,划分后的每个区域无需满足任何条件,该划分机制具有一致性。6.8-Hinge函数的替代一致性(习题)第1题若分布已知,优化hinge函数可得到最优实数值输出函数和最优替代泛化风险。第2题Hinge函数针对原0/1目标函数不具有替代一致性。第3题支持向量机本质上优化hinge函数。6.9-平方Hinge函数的替代一致性(习题)第1题支持向量机常用的另一种替代函数是平方hinge函数。第2题平方hinge函数针对原0/1目标函数不具有替代一致性。第3题若分布已知,优化平方hinge函数可得到最优实数值输出函数和最优替代泛化风险。6.10-平方函数的替代一致性(习题)第1题优化平方函数得到的输出函数是最优实数值函数。第2题平方函数针对原0/1目标函数不具有替代一致性。6.11-指数函数的替代一致性(习题)第1题优化指数函数得到的输出函数不是最优实数值函数。第2题指数函数针对原0/1目标函数具有替代一致性。6.12-对率函数的替代一致性(习题)第1题优化对率函数得到的输出函数不是最优实数值函数。第2题对率函数针对原0/1目标函数具有替代一致性。6.13-随机森林的模型构建(习题)第1题随机森林是一种重要的集成学习方法,通过对数据集进行有放回采样产生多个训练集,然后基于每个训练集产生随机决策树,最后通过投票法对随机决策树进行集成。第2题随机决策树是在决策树生成之后,对划分节点、划分属性以及划分点引入随机选择而产生的。第3题决策树的根节点是样本空间本身。6.14-随机森林的一致性定理(习题)第1题当训练集规模m趋于无穷时,如果每棵随机决策树的迭代次数满足,则随机决策树具有一致性。第2题当训练集规模m趋于无穷时,如果每棵随机决策树的迭代次数满足,则随机森林不具有一致性。7.1-优化问题收敛率的基本概念(习题)第1题支持向量机原始问题和对偶问题都不可以表述为凸优化问题。第2题精确求解优化问题一般而言是非常困难的,通常优化算法设计为迭代算法,不断近似优化求解优化问题。第3题常用的优化算法可以分为确定优化和随机优化两种。7.2-凸函数的梯度下降算法(习题)第1题对于一般的凸优化问题,梯度下降算法可以达到的收敛率。第2题凸优化梯度下降最后将算法T轮迭代的最大值作为输出。7.3-强凸函数的梯度下降算法(习题)第1题强凸且光滑的函数能够得到更快的收敛率。第2题强凸函数的梯度下降算法的解更新规则本质上仍然是进行梯度下降更新后再投影到可行域。第3题目标函数满足λ强凸而且γ光滑,梯度下降取得了()。A线性收敛率B非线性收敛率C超线性收敛率7.4-凸函数的随机梯度下降算法(习题)第1题随机梯度下降和梯度下降的唯一区别就是使用随机梯度代替真实梯度。第2题与真实梯度相比,随机梯度每轮迭代的计算代价()。A更高B更低C一样第3题大规模的机器学习中,随机梯度算法比真实梯度算法更加适用。7.5-凸函数的随机梯度下降算法(习题)第1题目标函数的随机梯度有上界,且可行域有界,那么随机梯度下降法在期望值和大概率意义上的收敛率相同。第2题目标函数的随机梯度有上界,且可行域有界,那么随机梯度下降法在期望值和大概率意义上的收敛率都是()。ABC7.6-强凸函数的阶段随机梯度下降(习题)第1题阶段随机梯度下降是几层的循环算法?A1层B3层C2层第2题阶段随机梯度下降算法的内层就是采用固定步长的随机梯度下降算法。第3题当目标函数f为λ强凸时,Epoch-GD算法在期望值意义上的收敛率为()。ABC7.7-强凸函数的阶段随机梯度下降(习题)第1题若目标函数f为λ强凸函数,Epoch-GD以大概率取得()的收敛率。ABC第2题Epoch-GD算法的一般流程中,令TK+1=2Tk。7.8-支持向量机梯度下降算法(习题)第1题在支持向量机中,hinge函数是光滑的,不需要计算次梯度。第2题梯度下降求解支持向量机的收敛率为()。ABC7.9-对率回归随机梯度下降算法(习题)第1题对率回归随机梯度算法中,为了计算随机梯度,将在每一轮均匀随机选择1个样本作为输入。第2题随机梯度下降求解对率回归的收敛率为()。ABC第8.1讲-遗憾界的基本概念(习题)第1题批量学习只关心整个学习过程结束之后得到的分类器性能。第2题批量学习算法假设所有的训练数据提前获得。第8.2讲-在线凸优化的遗憾界(习题)第1题在线学习考虑数据持续增长的场景,通常利用当前到来的训练样本更新模型。第2题完全信息在线学习框架会对损失函数进行一定程度的限制。第3题在大多数机器学习中,损失函数常常是凸函数。第4题在线凸优化是一种非常强大的学习范式,可以用于求解经验风险最小化问题,降低计算复杂度。第8.3讲-在线强凸优化的遗憾界(习题)第1题在线强凸优化就是所有的在线函数都是λ强凸的。第2题在线强凸优化,不可以采用在线梯度下降算法。第8.4讲-在线凸优化的拓展(习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论