


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上多标记学习中LIFT算法的简要概述作者:李星星来源:大众科学·上旬2019年第02期 摘 要:在多标记学习体系內,关于现实内的所有客观对象,系统均会在输入空间(属性空间)通过使用一个样本来描述这种对象的性质,而在输出空间(类标空间)中则采用类标来描述这种对象所具有的语义信息。而其中一种基于特异性特征的多标记学习方法LIFT尤为重要。 关键词:多标记学习;类别属性;LIFT算
2、法 一、LIFT算法概述 在多标记学习体系内,关于现实内的所有客观对象,系统均会在输入空间(属性空间)通过使用一个样本来描述这种对象的性质,而在输出空间(类标空间)中则采用类标来描述这种对象所具有的语义信息。而多标记学习的任务就是替真实世界中拥有多种语义的那些客观对象构建分类器的模型,从而以便这种模型能够高效地预测未知样本拥有的所有相关标记。
3、0; 以前很多多标记学习方法应运而生,然而这些方法所采用的共同思想就是在同样的特征空间中,利用相同的特征集合来预测样本所有的类标。换言之,通过这类方法,多标记学习体系将得出的p个实值函数f1,f2,fp则是通过同样特征集合所训练而来。 虽然这些方法在性能上也实现了很好的鲁棒性,但是这种思想也许并不是最好的选择。比如说:当判断一个学生是计算机系的学生还是艺术系的学生时,可以通过像代码和艺术作品这类的特性就可以大致区别该学生的身份来;以上的信息特征和所对应的类别最相关、对该类别最具有
4、区分能力的属性,这类特征也被称之为类标特异性特征(Label-Specific Features)。对于此,本文将介绍一种基于特异性特征的多标记学习方法LIFT。 二、LIFT算法基本原理及步骤 在构建多标记学习模型的过程中,已有的多标记学习方法基本都是在输出空间(类标空间)的基础上进行研究,而很少在输入空间(特征空间)上进行研究。基于此,与以往方法的思想不同,为了充分考察特征空间的性质,充分利用某一特定类标
5、lkL,k1,2,p的特异性特征,LIFT算法被提出以便应对这些多标记数据集。 假设x=IRk表示为包含k个维度的样本空间,L=l1,l2,lp表示为类标向量,符号p表示为类别总数。S=(xi,Yi)|i=1,2,n表示为多标记学习的训练集,符号n表示为训练样本的数目。则第i个样本对象可看作是具有k个属性值的一个向量xi=xi1,xi2,xik,其中xix,并且Yi=Yi1,Yi2,YiP包含于L,是样本xi的地表真实类标。基于这些性质,LIFT算法分为以下三个步骤:类标特异性特征构建、分类模型架构以
6、及未知样本的预测。 (1)类标特异性特征构建 对于LIFT算法,每一个类标lkL,训练样本均被划分为两个部分,即正训练样本子集Pk和负训练样本子集Nk。换句话说,Pk代表着由囊括类标lk的样本所构成的集合,同样地,Nk代表着由不含类标lk的样本所构成的集合。它们的形式可表示如下: 在式(1)和(2)中,如果训练样本x
7、i涵盖类标lk,则xi隶属于Pk,否则的话,则xi隶属于Nk。 为了获得Pk和Nk的内在属性,LIFT方法分别对正训练样本集合Pk和负训练样本集合Nk上采用聚类分析方法。在先前文献1, 2中,依据经典而又有效的k-means方法来聚类分析。在此,将Pk划分成mk个不相交的聚类,并且它的聚类中心被描述为 , 按照同样的方式,Nk也被划分成mk个不相交的聚类,其聚类中心被描述为 。正如我们所知,在多标记学习系统中
8、,经常会 出现类别不平衡的问题,即Nk的聚类中心数目远远地超过Pk的聚类中心数目,形式化表示则为|Nk|20*|Pk|。因此,为了避免这个问题,LIFT算法对子集Pk和Nk设置了同样的聚类中心数目。如此说来,LIFT算法对正训练样本子集Pk和负训练样本子集Nk的聚类信息则赋予了一样的权重。具体而言,聚类中心数目以如下形式表示: 式中,|.|可表示为集合的势,也称作该集合的基数。并且0,1表示为一个可以控制聚类
9、数目的参数。 根据聚类自身的特性可以知道,子集Pk和Nk的聚类中心展现了它们样本数据的内部结构特点。所以说,通过聚类中心,我们可以构建出类标特异性特征,其形式如下所示: 式中,d(·,·)表示着两不同样本间的距离,在文献25, 26中,欧氏距离通常被用来计算距离,其实在本文中,也尝试用其他距离公式,如,闵可夫斯基距离来计算样本间的距离,然而最后的效果却和欧氏距离所得到的效果并无多的差异。因
10、此,本文最后还是使用欧氏距离。实际上,这是一个由原始的k维的特征空间向2mk维的类标特异性特征空间Nk的映射函数 (2)分类模型架构 在第二步中,LIFT算法则通过由上一步骤中所构建的类标特异性特征空间Nk中的类标特异性特征k分别训练出个分类模型Q1,Q2,Q。对于每一个类标lkL,依据映射函数k,从原始的训练集S内得到相应的具有n个样本的二类训练集Sk*,二类训练集Sk*具有如下表示:
11、; 式中,如果lkYi,则p(lk,Yi)值为+1;否则其值为-1。基于以上的分析,任何的一个二类学习算法都可以被用来诱导出类标lk所对应的一个分类模型Qk:NkR。 (3)未知样本的预测 在最后一步中,在给出某一未知样本x'x后,其预测类标子集可由如下公式表示 &
12、#160; 参考文献 1Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific FeaturesJ. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120. 2Zhang M L. LIFT: multi-label learning with label-specific f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025鄂托克前旗政府专职消防员招录15名考前自测高频考点模拟试题及答案详解(必刷)
- 2025年临沂郯城县部分医疗卫生事业单位招募见习人员的考前自测高频考点模拟试题及参考答案详解
- 2025江苏无锡市第二人民医院编外员工招聘80人考前自测高频考点模拟试题及1套完整答案详解
- 车载传感器融合-洞察与解读
- 班组新员工安全培训学时课件
- 班组安全规章制度培训课件
- 2025内蒙古民航机场集团有限公司管制“+1”培养生、管理培养生招聘15人模拟试卷完整答案详解
- 2025内蒙古赤峰市红山区崇文实验学校教师招聘14人模拟试卷及答案详解(历年真题)
- 2025江西省肿瘤医院抚州医院(抚州市立医院)招聘第二批编外人员30人模拟试卷及答案详解(有一套)
- 2025辽宁本溪高新区国有企业招聘6人考前自测高频考点模拟试题及答案详解(网校专用)
- 2025年淮南市大通区和寿县经开区公开招聘社区“两委”后备干部30名笔试备考题库及答案解析
- 2025双11大促商家一站式指南
- 助理医师考试题库及答案
- 电梯管理安全试题库及答案解析
- 生理学全套课件
- 癌痛规范化治疗课件资料
- 内分泌和代谢疾病总论课件
- 牛津9AU3-Head-to-head名师制作优质教学课件
- 深信服SDWAN产品介绍
- 雨露计划职业教育补助-学籍证明-模板四川优秀资料
- 购牛合同参考参考
评论
0/150
提交评论