SVM习题集.docx_第1页
SVM习题集.docx_第2页
SVM习题集.docx_第3页
SVM习题集.docx_第4页
SVM习题集.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SVM1.判断题(1) 在SVM训练好后,我们可以抛弃非支持向量的样本点,仍然可以对新样本进行分类。(T)(2) SVM对噪声(如来自其他分布的噪声样本)鲁棒。(F)2简答题现有一个点能被正确分类且远离决策边界。如果将该点加入到训练集,为什么SVM的决策边界不受其影响,而已经学好的logistic回归会受影响?答:因为SVM采用的是hinge loss,当样本点被正确分类且远离决策边界时,SVM给该样本的权重为0,所以加入该样本决策边界不受影响。而logistic回归采用的是log损失,还是会给该样本一个小小的权重。3产生式模型和判别式模型。(30分,每小题10分)图2:训练集、最大间隔线性分类器和支持向量(粗体)(1)图中采用留一交叉验证得到的最大间隔分类器的预测误差的估计是多少(用样本数表示即可)?从图中可以看出,去除任意点都不影响SVM的分界面。而保留所有样本时,所有的样本点都能被正确分类,因此LOOCV的误差估计为0。(2)说法“最小结构风险保证会找到最低决策误差的模型”是否正确,并说明理由。(F)最小结构风险(SRM)只能保证在所有考虑的模型中找到期望风险上界最小的模型。(3)若采用等协方差的高斯模型分别表示上述两个类别样本的分布,则分类器的VC维是多少?为什么?等协方差的高斯模型的决策边界为线性,因为其VC维维D+1。题中D=2.4、SVM分类。(第15题各4分,第6题5分,共25分)下图为采用不同核函数或不同的松弛因子得到的SVM决策边界。但粗心的实验者忘记记录每个图形对应的模型和参数了。请你帮忙给下面每个模型标出正确的图形。(1)、其中。线性分类面,C较小,正则较大,|w|较小,Margin较大,支持向量较多(c)(2)、其中。线性分类面,C较大,正则较小,|w|较大,Margin较小支持向量的数目少(b)(3)、其中。二次多项式核函数,决策边界为二次曲线(d)(4)、其中。RBF核函数,决策边界为曲线, =1较大,曲线更平滑 (a)(5)、其中。RBF核函数,决策边界为曲线, =sqrt(1/2)较小,曲线更弯曲 (e)(6)考虑带松弛因子的线性SVM分类器:下面有一些关于某些变量随参数C的增大而变化的表述。如果表述总是成立,标示“是”;如果表述总是不成立,标示“否”;如果表述的正确性取决于C增大的具体情况,标示“不一定”。(1) 不会增大(不一定)(2) 增大(不一定)(3) 不会减小(是)(4) 会有更多的训练样本被分错(否)(5) 间隔(Margin)不会增大(是)5、考虑带松弛因子的线性SVM分类器:。在下图中,并且已经标出分界面和支持向量。请给每幅图标出最可能的C的取值,并分析原因(20分)。答:等价于所以,即margin减小(当C增大到一定程度时,Margin不再变化),不允许错分太多样本(对错分样本的惩罚大),支持向量(落在Margin内的样本和错分的样本)的数目减少。6. SVM(1) 下面的情况,适合用原SVM求解还是用对偶SVM求解。1) 特征变换将特征从D维变换到无穷维。(对偶)2) 特征变换将特征从D维变换到2D维,训练数据有上亿个并且线性可分。(原)(2) 在线性可分情况下,在原问题形式化中怎样确定一个样本为支持向量?在原问题中,给出了w,w0,支持向量满足:。7SVM和松弛因子。考虑如图给出的训练样本,我们采用二次多项式做为核函数,松弛因子为C。请对下列问题做出定性分析,并用一两句话给出原因。(1) 当C时,决策边界会变成什么样?答:当C很大时,错分样本的惩罚会非常大,因此模型会尽可能将样本分对。(记住这里决策边界为二次曲面) CC0(2) 当C0时,决策边界会变成什么样?可以错分少量样本,但Margin大(3) 你认为上述两种情况,哪个在实际测试时效果会好些?我们不能过于相信某个特定的样本,因此C0的效果会好些,因为它最大化样本云团之间的Margin.(4) 在图中增加一个点,使得当C时,决策边界会不变。能被原来的分类器正确分类,不会是支持向量。(5) 在图中增加一个点,使得当C时,该点会显著影响决策边界。能被原来的分类器正确分类,不会是支持向量。当C很大时,错分样本的惩罚会非常大,因此增加一个不能被原来分类器正确分类的样本会影响决策边界。8对outlier的敏感性。我们知道在SVM用于回归时,等价于采用不敏感的损失函数(如下图所示),即SVM的目标为:。课堂已经讨论L2损失对outliers比较敏感,而L1损失和huber损失相对不敏感些。(1) 请说明为什么L2损失比较L1损失对outliers更敏感。Outlier为离群点,因此其预测残差r会比较大。L2损失为残差r的平方r2,L1损失为残差r的绝对值|r|。当r1时,r2|r|,从而L2损失在outliter样本点的值会非常大,对结果影响更大。(2) 请给出一个outlier影响预测子的例子。(3) 相比于L2损失和L1损失,分析SVM的不敏感的损失函数对outliers敏感性。不敏感的损失函数对outliers的敏感性更接近于L1损失,因此比L2损失更不敏感。初看起来,不敏感的损失函数在区间-,不施加惩罚,似乎比L1对outliers更不敏感。但实际上outliers对应的残差通常很大,所以不会落在区间-,,所以不敏感的损失函数对outliers的敏感性和L1损失相似。(4) SVM也等价于MAP估计,则该MAP估计对应的先验和似然是什么?同岭回归类似,先验为0均值得高斯分布,但方差为2C,同时各维独立,即,似然函数在区间-,为常数,其他地方为Laplace分布:9. 多个数据源的SVM假设你在两天内用两个不同的仪器收集了两批数据,你觉得数据集1标签的可信度为数据集2的两倍。我们分别用表示数据集1,表示数据集2,数据集1的松弛因子表示为,数据集2的松弛因子表示,二者的Lagrange乘子分别表示为和。关于怎样处理这两批数据,你的朋友们给出了不同的建议。张三:将数据集1的松弛惩罚乘以2,因此优化问题为:李四:将数据集1的Lagrange乘子乘以2,因此优化问题为:王五:将数据集1的数据点复制一份(即数据集1中的每个样本点变成2个),然后照常处理。问题:请说明上述处理是否等价(得到的分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论