迁移学习_第1页
迁移学习_第2页
迁移学习_第3页
迁移学习_第4页
迁移学习_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汇报内容 迁移学习 传统的机器学习 假设训练数据与测试数据服从相同的数据分布 在许多情况下 由于训练数据过期则不满足同分布的假设情况 我们不得不去标注新数据 但是标注新数据又非常昂贵 而且舍弃掉大量的不同分布下的过期数据又是很浪费的 在这种情况下 迁移学习变得非常重要 因为迁移学习是可以从现有数据中迁移知识 用来帮助将来的学习 迁移学习 机器与人 迁移学习 传统的机器学习基于统计学习 统计学习虽然在其能力范围内显示出了很好的学习效果 但是 由于统计学习是基于数理统计 这就要求学习的知识和应用的问题必须具有相同的统计特征 于是 一般情况下 统计学习只能解决相同领域内 同一问题的学习 因为当学习和应用的场景发生迁移后 统计特征往往发生改变 从而影响统计学习的效果 然而 在现实生活中 人们在学习时 例如 我们在学习物理的时候 需要大量借助以往的数学基础 人在学习时 具有在不同领域 不同问题之间进行迁移转移的能力 这正是机器学习所缺乏的 而 这种知识在不同场景之间迁移转化的能力被称为迁移学习 TransferLearning 迁移学习 迁移学习是人的基本学习技能 但是迁移并不适用于每一件事情上 当两种学习在内容和方法上 或两种学习的刺激和反映无共同之处时 就不会有迁移作用的发生 若两种学习有共同因素时 就会产生迁移 共同因素越多 迁移作用就越大 迁移学习 迁移学习的定义 NIPS2005对迁移学习给出了一个比较有代表性的定义 transferlearningemphasizesthetransferofknowledgeacrossdomains tasks anddistributionsthataresimilarbutnotthesame 翻译成中文就是说 迁移学习强调的是在不同但是相似的领域 任务和分布之间进行知识的迁移 即 给定源域DS和学习任务TS 一个目标域DT和学习任务TT 迁移学习致力于用DS和TS中的知识 帮助提高DT中目标预测函数fT 的学习 并且有DS DT或TS TT 基于实例的迁移学习 如果训练数据和测试数据的分布不同 传统的机器学习效果可能会非常差 正因为如此 我们希望能够设计出一种算法来针对训练数据和测试数据来自不同的数据源的情况 我们考虑这样的问题 辅助域 数据多 目标域 数据少 不同分布 模型 测试数据 同分布 基于实例的迁移学习 基于Boosting的迁移学习算法 基本思想是 尽管辅助数据和目标数据或多或少会有些不同 但是辅助数据中应该还是会存在一部分比较适合用来训练一个有效的分类模型 并且适应测试数据 于是 我们的目标就是从辅助数据中找出那些适合测试数据的实例 并将这些实例迁移到目标数据的学习中去 基于实例的迁移学习 具体来说 推广了传统的AdaBoost算法 使之具有迁移学习的能力 从而能够最大限度的利用辅助数据来帮助训练目标的分类 关键的想法是利用boosting的技术来过滤掉辅助数据中那些与目标数据最不像的数据 其中 boosting的作用是建立一种自动调整权重的机制 于是重要的辅助数据的权重将会增加 不重要的辅助数据的权重将会减小 调整权重之后 这些带权重的辅助数据将会作为额外的训练数据 与目标数据一起从来提高分类模型的可靠度 于是 我们得到了一个新的boosting算法 称为TransferAdaBoost 简称TrAdaBoost 基于实例的迁移学习 TrAdaboost算法原理 1 初始化训练数据 每个样本 的权值分布 如果有N个样本 则每一个训练的样本点最开始时都被赋予相同的权重 1 N 2 训练弱分类器 具体训练过程中 如果某个样本已经被准确地分类 那么在构造下一个训练集中 它的权重就被降低 相反 如果某个样本点没有被准确地分类 那么它的权重就得到提高 同时 得到弱分类器对应的话语权 然后 更新权值后的样本集被用于训练下一个分类器 整个训练过程如此迭代地进行下去 3 将各个训练得到的弱分类器组合成强分类器 各个弱分类器的训练过程结束后 分类误差率小的弱分类器的话语权较大 其在最终的分类函数中起着较大的决定作用 而分类误差率大的弱分类器的话语权较小 其在最终的分类函数中起着较小的决定作用 换言之 误差率低的弱分类器在最终分类器中占的比例较大 反之较小 基于实例的迁移学习 d TrAdaBoost算法通过增加误分类的目标数据的权重 同时减少误分类辅助数据的权重 来使得分类面朝正确的方向移动 基于实例的迁移学习 问题定义 定义 基本符号 Xa为辅助样例空间 auxiliaryin stancespace 设Xb为目标样例空间 targetinstancespace 也就是需要被分类的样例空间 设Y 0 1 为类空间 在本工作中 我们将问题简化为两分类问题 对于多分类问题 可以很自然地从两分类问题推广得之 训练数据T X Xb Xa Y 是从目标样例空间和辅助样例空间中采集得来的 一个概念c X Y 将样本x X映射到其真实的类标c x Y上去 基于实例的迁移学习 问题定义 定义 测试数据集 未标注数据集 其中 数据集S是未标注的 且k是集合S中的元素个数 训练数据集T可以划分为两个子集合 基于实例的迁移学习 问题定义 定义 训练数据集 其中 c x 是实例x的真实类标 Ta是辅助训练数据集 Tb是目标训练数据集 n和m分别是辅助训练数据集和目标训练数据集的大小 基于实例的迁移学习 于是 合并起来的训练数据集T xi c xi 就可以定义如下 至此 我们可以定义问题如下 给定一个很小的目标训练数据集Tb 大量的辅助训练数据Ta和一些未标注的测试数据集S 我们的目标就是要训练一个分类器 尽可能减小S上的分类误差 基于实例的迁移学习 基于实例的迁移学习 基于实例的迁移学习 实验分析 我们在三个文本数据集20Newsgroups SRAA和Reuters 21578上测试我们算法的效果 在本实验中 我们将TrAdaBoost算法与三个基准算法进行比较 分别是 1 SVM 即简单的用SVM结合源训练数据Tb进行训练 2 SVMt 即用SVM结合合并训练集T进行训练 3 AuxSVM 根据SVM的一种迁移学习方法 基于实例的迁移学习 基于实例的迁移学习 基于实例的迁移学习 给出了当只有1 的目标数据是训练数据时 SVM SVMt AuxSVM和TrAdaBoost SVM 的分类错误率 所有的结果都是随机取10次训练数据后的平均结果 迭代次数为100 表 当只有1 目标数据是训练数据时的分类错误率 基于实例的迁移学习 TrAdaBoost算法在peoplevs

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论