中科院机器学习题库-new_第1页
中科院机器学习题库-new_第2页
中科院机器学习题库-new_第3页
中科院机器学习题库-new_第4页
中科院机器学习题库-new_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习题库一、极大似然1、指数模型的最大似然估计(10)高斯分布经常被用于在真实线上对数据建模,但是当数据通常接近于零但被限制为非负时,高斯分布有时是不合适的。在这种情况下,可以拟合指数分布,其概率密度函数由下式给出给定N个观察值xi从这样的分布中得出:记下可能性作为标度参数的函数记下对数可能性的导数。给出b的最大似然估计的简单表达式2、换成泊松分布:3、二、贝叶斯假设在考试的多项选择中,考生知道正确答案的概率为p,猜测答案的概率为1-p,并且假设考生知道正确答案答对题的概率为1,猜中正确答案的概率为,其中m为多选项的数目。那么已知考生答对题目,求他知道正确答案的概率。1、共轭先验本周的阅读包括共轭先验的讨论。给定一类具有参数的模型的似然,共轭先验是具有超参数的分布,使得后验分布与先验的分布族相同(a)假设似然性由速率参数为:的指数分布给出表明伽马分布_是指数的共轭先验。导出给定观测值和预测分布的参数更新。证明分布是几何分布的共轭先验它描述了当每次投掷的正面概率为时,投掷硬币直到第一个正面出现的次数。导出参数更新规则和预测分布。假设是似然的共轭先验;表明混合物在先假设混合权重wm sum为1,对于相同的似然性也是共轭的。(d)对于先验是单一分布且似然是混合分布的情况,重复部分(c)。对于似然的每个混合分量,先验是共轭的。对于几种不同的可能性,一些先验可以是共轭的;例如,是伯努利的共轭几何分布和对于指数和具有固定的是共轭的(e )(额外信贷,20)探索可能性是固定成分和未知权重的混合物的情况;即权重是要学习的参数。三、判断题(1)给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。(2)极大似然估计是无偏估计且在所有的无偏估计中方差最小,所以极大似然估计的风险最小。(3)回归函数A和b、如果A比B更简单,则A几乎一定会比B在测试集上表现更好。(4)全局线性回归需要利用全部样本点来预测新输入的对应输出值,而局部线性回归只需利用查询点附近的样本来预测输出值。所以全局线性回归比局部线性回归计算代价更高。(5)助推和制袋材料都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。(6)在助推迭代中,每个新决策残端的训练误差和组合分类器的训练误差大致一致(女性)虽然组合分类器的训练误差通常随着提升迭代而减小,但是由于示例权重集中在最困难的示例上,因此单个决策树桩的误差通常会增大。(7)助推的一个优点是它不会过量(女性)(8)支持向量机能够抵抗异常值,即来自不同分布的非常嘈杂的例子(女性)(9)在回归分析中,最佳子集选择可以作为特征选择,当特征数量大时,计算量大;岭回归和套索模型计算量小,套索还可以实现特征选择。(10)当训练数据较少时,拟合更可能发生。(11)梯度下降有时会陷入局部极小值,但电磁算法不会。(12)在核回归中,对回归的过拟合和欠拟合之间的平衡影响最大的参数是核函数的宽度。(13)在AdaBoost算法中,所有错误分类点的权重将增加相同的乘法因子。(吨)(14)真/假:在最小二乘线性回归问题中,增加L2正则化惩罚不能减少训练数据上解的L2误差。(女性)(15)真/假:在最小二乘线性回归问题中,添加L2正则化罚函数总是会降低未知测试数据上解的预期L2误差。(16)除了电磁算法外,梯度下降法也可用于计算高斯混合模型的参数。(吨)(20)我们从具有类条件高斯分布的生成模型中得到的任何决策边界原则上都可以用SVM核和多项式核来重现。真的!事实上,由于类条件高斯总是产生二次决策边界,它们可以用一个核的度数小于或等于2的SVM来重现。(21)只要组合了足够多的弱分类器,无论使用哪种弱分类器,AdaBoost最终都会达到零训练误差。假的。如果数据不能通过弱分类器的线性组合来分离,AdaBoost就不能实现零训练误差。(22)岭回归中的L2罚相当于权重上的拉普拉斯先验。(女性)(23)通过期望最大化算法的连续迭代,数据的对数似然性将总是增加。(女性)(24)在给定输入的情况下,通过最大化标签的可能性来训练逻辑回归模型时,我们有多个局部最优解。(女性)一.返回1.将回归视为正则化回归问题。在下图中,罚函数作为二次正则化函数给出。当正则化参数C取不同值时,给出训练集和测试集的平均对数似然。(10分)(1)“图2中训练集的对数似然性永远不会随着C的增加而增加”的说法是否正确,并说明原因。(2)解释为什么当c取较大值时,图2中测试集的对数似然性降低。2.考虑线性回归模型:训练数据如下图所示。(10分)(1)用最大似然估计参数,并绘制图(a)中的模型。(3分)(2)通过正则化极大似然估计参数,即在对数似然目标函数中加入正则化惩罚函数。参数C取大值时的模型如图(b)所示。(3分)(3)正则化后,高斯分布的方差变大、变小还是不变?(4分)图(a)图(b)3.考虑二维输入空间点的回归问题,其中它在单位平方内。训练样本和测试样本均匀分布在单位正方形中。输出模型是我们使用1-10阶的多项式特征,并使用线性回归模型来学习X和Y之间的关系(高阶特征模型包含所有低阶特征)。损失函数取平方误差损失。(1)在当前样本上,训练具有1阶、2阶、8阶和10阶特征的模型,然后在大规模独立测试集上进行测试,然后在接下来的3列中选择适当的模型(可能有多个选项),并解释为什么您在第三列中选择的模型具有较小的测试误差。(10分)最小训练误差训练误差最大。最小测试误差一阶特征的线性模型X二阶特征的线性模型X八阶特征的线性模型X十阶特征的线性模型X(2)在当前样本上,训练具有1阶、2阶、8阶和10阶特征的模型,然后在大规模独立测试集上进行测试,然后在接下来的三列中选择合适的模型(可能有多个选项),并解释为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论