




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、灰度重采样的方法分为口数据科学简化:重采样方法概念机器学习算法具有一种从数据中学习模式的方法。该方法是直观的。该模型根据给定的数据集确定基础模式。这个过程称为训练模型。经过训练的模型在之前从未见过的另一个数据集上进行了测试。目标始终是找到最佳模型。努力达到模型在训练集和测试集上令人满意地表现的最佳效果。测试误差是在新观测值上的模型进行预测时发生的平均误差。该模型以前没有看到过这个新观察结果。训练误差率通常与测试误差大不相同,并且可能大大低估后者。y随着模型复杂度的提高,训练误差也随之降低。训练误差减少了,因为模型的复杂性有助于它学习训练数据中发现的所有变化。此过程称为过拟合。但是,由于测试样本
2、是看不见的数据,因此过拟合模型对测试样本的效果不佳。造成这种行为的因素是偏差和方差。偏差定义为预测值与实际值之间的距离。方差定义为估算值与平均值之间的差异程度。随着模型变得复杂,将发生以下情况:拟合度低时,表示偏差高,方差小。随着模型复杂度的增加,偏差会降低。复杂的模型可以适应数据点中的各种行为。但是,方差也增加了,因为这意味着必须估计越来越多的参数。偏差与方差的权衡是该模型渴望实现的最佳目标。模型训练的过程与其训练的数据一样好。那么,我们如何确保模型训练中不会出现数据偏差呢?我们如何确保模型足够泛化?重采样方法用于确保模型足够好并且可以处理数据的变化。该模型通过对数据集中发现的各种模式进行训
3、练来做到这一点。本文讨论了这些重采样方法。验证集方法首先,模型基于训练数据学习的内容高度依赖于训练集中包含的观察结果。如果训练集中包含离群点观测值,模型将倾向于从与实际数据不相关的离群点观测值中学习。其次,训练集只包含观测值的一个子集,排除训练观测值意味着模型将无法学习测试集中数据的细微差别。通常,验证集误差往往会高估测试误差。K-Fold交叉验证我们已经看到了验证集方法的挑战K-Fold交叉验证方法用于克服这些挑战。此方法的工作方式如下:数据被拆分为折叠(k)。通常,有5或10个相等的折痕。每个折叠都有一组随机的数据点。在第一次迭代中,模型在(k-1)折页上训练,并在剩下的一个折页上进行测试
4、。重复此过程,直到对所有折痕进行训练和测试为止。让我们举个例子。DunktHU1TKtiMGdei耐erw|科气0如IEsLlTia:/dFerlcnraKiE5heritienFddlFflU!TMiF0U4FjdiFddTk4dJFCM10UdatkmMlnTrarTntoiYamTillikiiiVilaTiln-TrstabilHrrjIraiiJkdj*血呃町耐,我们有一个数据集。该数据集被分成十等分。对于第诩迭代一九折用于训练模型,即2-10折。在第1折(即#1折)上测试模记录了训练和测试误差。在第二次迭代中,再次使Ij一”际折,第3-10折进行。在第二折(即#2折)上测试模型。记
5、录了迭代2的训练和测试误差。这个过程一直持续到对所有折痕都进行一Lbe-JrIff:xrt?wts叫乂次训练,并且对所有折痕进行模型测试为泄。咲在此示例中型。迭代1训练在第1折来训练模型。但是.魚型。记”TeKfri*,在这种情况下,第一折与其他八折一起用于训练。eratlM2FsdlFtW-5-hk6仙7FrtJlO曲klrtknThinTihIr-fflnTkaJrTrainTrainU淀斶吨-Ito愉cranes基于所有迭代的平均误差来计算模型的整体性能。对于回归模型,可以定义所有折叠的平均误差一如下所示:其中一MSE是均方误差。对于分类器,可以将所有折痕的平均误差定义如下:KCVK=V
6、竺Eg其中Err可以是分类指标一例如AUC,召回率,精度等。如我们所见,k-Fold交叉验证方法消除了验证集方法的许多弊端。它主要在确保偏差不会渗入模型性能方面做得很好。通过对每个折痕进行训练和测试一它可以做到优雅。但是,正如预期的那样,与验证集方法采用的简单方法相比,该方法可能很耗时。由于交叉验证方法比验证集方法训练的时间多(k-1)倍,因此所消耗的时间显而易见。这个问题可能更明显,尤其是在训练量很大的情况下。自举采样采样数据的另一种方法是使用引导采样方法。Bootstrap是一种灵活而强大的统计方法,可用于量化与估算器相关的不确定性。弓用以下方法:我们不是从总体中重复获取独立的数据集,而是
7、通过对原始数据集进行替换并重复采样来收集不同的数据集。每个引导数据集都是通过替换抽样创建的,并且大小与我们的原始数据集相同。引导样本中的观察结果可能会出现多次或根本不出现。伽Xr111Q314154704flE97JQ130叶在上图中,有十个观察结采样以下列方式工作1.原始数据集有十个观测值*0hL+I11i嚴0DrflrutIhuirtfralahj,ujSp.*DaLbre?liien*Yl让我们看一个例子以更好地理解它。2训练集的大小与原始数据集的大小相同,即,对十个观测值进行训练。但是,训练集中的观察是从原始数据集中重复的。在上面的示例中,对于第一次迭代,从原始数据集中重复观察2、3、4和9。不重复观察1。3.训练模型后,将在看不见的数据上对其进行测试。看不见的数据是那些不在训练数据集中但存在于原始数据集中的观测值。测试数据集是原始数据集-训练数据集。对于引导程序样本2同样重复这三个步骤。对于指定数量的引导程序样本(通常在1000个样本的范围内),此过程将继续进行。整个引导程序估计值是从每个引导程序样本估计值获得的估计值的平均值。与一般的训练测试拆分机制相比,Bootstrap估计的估计方差较小。引导采样在实践中是有利的。如果感兴趣的观测值相对较少,则可以使用自举抽样来重复采样数据集中的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国高强度锚固胶泥行业发展研究报告
- 2025至2030年中国鞋子面料行业发展研究报告
- 2025至2030年中国间隙放电器行业发展研究报告
- 2025至2030年中国铜抛光补充剂行业发展研究报告
- 2025至2030年中国金属网过滤器行业发展研究报告
- 2025至2030年中国运油式模温机行业发展研究报告
- 2025至2030年中国调车机车作业监控记录系统行业发展研究报告
- 2025至2030年中国自动卷门行业发展研究报告
- 2025至2030年中国罗拉式单喷储纬器行业发展研究报告
- 2025至2030年中国红外零照度摄像机行业发展研究报告
- 气体灭火系统介绍
- 高端矿泉水项目融资计划书
- 课程设计列车变频空挪用直流电源系统的设计
- JCT903-2012 吸声板用粒状棉
- 铁艺栏杆检验批
- 裁剪验片记录表
- 人教版三年级下册数学全册计算题专项训练(含答案)
- 内镜进修汇报
- 婴幼儿常见疾病与意外伤害的预防及护理-婴幼儿常见传染病
- 食用油中酸价、过氧化值的测定课件
- 山西省灵丘县恒鑫源矿业有限公司东岐铁矿资源开发利用和矿山环境保护与土地 复垦方案
评论
0/150
提交评论