2012J 增量学习:领域和方法的一个调查.doc_第1页
2012J 增量学习:领域和方法的一个调查.doc_第2页
2012J 增量学习:领域和方法的一个调查.doc_第3页
2012J 增量学习:领域和方法的一个调查.doc_第4页
2012J 增量学习:领域和方法的一个调查.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

增量学习:领域和方法的一个调查摘要随着增量学习在数据挖掘应用领域的逐渐发展,实质上,增量学习算法领先一步发展变得极其重要。无标号数据的巨大增长已经使增量学习产生了一个大的飞跃。从BI应用到图像分类,从分析到预测,每个领域都需要学习和更新。增量学习在开拓新领域的同时可以进行知识积累。在本文中,我们讨论增量学习目前发生的领域和方法以及在决策方面它的突出潜力。本文对于当前的研究基本上给出了一个概述,对这个话题将为学生和研究学者们提供一个背景。关键字:增量,学习,挖掘,有监督的,无监督的,决策1.引言数据挖掘过程面对的一个重要问题是不断演化的新数据。至关重要的是,现有的分类和聚类方法要以这样一种方式解决这个问题:分类器不断的适应它,这里我们就需要增量学习;一种随着新数据的发生这个过程也要跟着发生变化的学习。机器学习的方法像k-均值聚类,被认为是机器学习的枢纽块(关键)之一,在聚类稳定之前必须经过多重扫描12。其他技术层次的不考虑聚类的总体规模3。有监督的和半监督的学习方法允许我们在训练数据的帮助下学习和分类。在有效的学习算法的设计中,连同新的进化数据一起压缩预处理数据创建确定的问题。处理学习知识的问题,同时保持前一个,对于增量学习方法是最重要的目标4。另一个问题是当被标记的数据很低并且难以获得用户专业知识的时候如何处理学习。识别领域的学习是否要在线与数据流一起连续被做也影响学习过程。时间和存储空间的约束在学习过程中也扮演一个重要的角色,因此使增量学习变得有效同时又精确是很有必要的。这个领域的研究已经为增量学习提出了各种方法。在本文中,我们将讨论增量学习如何与现有的有监督的到无监督方法的学习环境使用。尽管当前的工作,许多挖掘和增量学习活动是就特定的领域和应用程序执行,但是有多样的方法和技术证明关于应用的类型是更有用和有益的。这篇文章讨论关于它们的方法和领域来阐明增量学习的概念。2.现存的学习方法和增量学习随着增量学习的需要,首先我们讨论关于无监督学习方法到有监督技术。关于增量学习怎样逐渐生成那些学习方法的,本文分阶段开展。我们的论文的重点是在方法、途径和他们的创新,也用于增量学习引用应用程序的类型。理解过程中一个精确增量的方法是,必须明白,增量学习可以是就新增加的知识以及演化成新的类或一个聚类而言。它甚至可以合并或重组这些类。伴着这些因素,可以确切地说,增量学习在所有的时间构成一个完整的包。考虑到传统的方法和增量学习站的位置就随着每一个应用程序,是在这一部分之前被讨论。2.1 数学表示和算法当我们谈论增量学习的时候,它是关于学习方法或者分类器,关于这个环境谁有能力来执行活动。数学上表示为:让表示新的未标记的数据,并且。是分类器,用于增量学习。因此,有where。这里的值可以是现存的类或者新生成的类。控制整个过程。它在可用的新数据的每一个阶段被模仿和学习。这个学习过程在算法上总结如下:1. 对于每一个或者2. 用,如果,分类,随着生成,更新,赋值新的3.聚类和增量学习通常,属于同一类别或有可能在同一组的发现模式是聚类的主要任务。在聚类中,增量学习找到一个特殊的身份。对于增量聚类是一种需要,这里新数据没有重聚簇就能够适应。像k-均值2一样的聚类算法被控制进行多次扫描,就像BIRCH一样对数据是敏感的56。影响聚类的其他相关因素是质心(中心)的选定和聚类形成的形状。聚类形成的数量也是一个重要的参数,它控制着学习。在本质上,快速和稳定的算法是增量的可以克服早些时期聚类方法所面对的困难。增量聚类方法旨在限制重聚簇阶段,适应新的无标号数据集,同时要有有效更新的和有效的聚类特征7。关于增量聚类的研究开始于多种因素以及多种领域;一个应用领域是在文档和图像分类。同样的,89提出增量聚类,那里点的聚类被认为是动态。维持聚类包括合并和更新阶段,这种方法是基于距离测量的,聚类的直径被认为是在截止占据决策。此外,聚类技术往往采用聚类和数据集之间相似度指标的计算,新样本都被增量聚类。10以相同的理由提出增量聚类方法,阈值在决定群组时扮演一个重要的角色。随着阈值的出现,一个增量的区分和聚合方法在11中被提出,它使用于关系数据集。在某些情况下贝叶斯方法结合的相似性度量方法使学习更有效12。13提出一个GRIN算法,与BIRCH(支持增量分层聚类)相对比,这种方法是基于物理的引力理论,能够处理大型数据库。管理一个带有新数据的数据仓库由增量学习方法来处理是一项挑战。现存的DBSCAN(基于密度的聚类算法)方法被进一步增强为了用于改变环境增量,部分聚类影响被检测并且聚类被带有插入和缺失更新考虑它们的密度14。对于网页分类的增量方法现在也正占据一席之地。基于质心的方法,以及文档的更新和网页的重新分配被建议。ART(自适应共振理论)是又一个流行的概念,对于增量学习被用于无监督神经网络。针对特定类型的数据有不同的变体,16提出修改ART,处理混合数据属性,再次以距离分层为基础。为了进一步提高学习,17提出基于粗糙集的方法。这里强调的是时间间隔数据的聚类,这里聚类的代表点之间不同的功能被定义。更进一步,18针对轨迹提出增量方法。19提出的方法,定义最小边界矩形盒来定位移动对象聚类的路径。增量聚类的方法也被应用于基于模式推理,新模式是基于神经网络的增量学习20组成的学习和推理阶段来支持决策。进一步的技术是用于理解文档的布局,论文属于Elsevier的期刊,机器学习是基于一阶逻辑的分类21。有必要注意的是不同数据集在内存中的需求依赖于数据的类型。方法的选择应该是这样的,需要的结果或者是分类应该达到一个高的速度。从相关研究来看,值得一提的是,大部分的增量聚类模式发现依赖于数据点之间的相似性度量,一些是由阈值控制。虽然我们总是可以得到和想出其它的组合技术以一个更好的办法来改善和管理数据,但是结果应该不会影响现有的知识。4有监督的和半监督的增量学习在有监督和半监督环境下增量学习的事例中,需要看到的是训练集数据在后续阶段出现。而不是限制环境的特定数据,增量学习展开学习。基于技术的模式,22在保持完好的旧的神经网络的基础上提出新的数据块模式的学习,同样可以应用在文本领域23。为了避免训练阶段,和更新那时被形成的每个新的训练数据集,总体基本方法是使用4。24提出一个Learn+,一种被Adaboost算法(通过迭代弱分类器而产生最终的强分类器的算法)激励的方法,工作在基于神经网络分类器整体致力于数字光学数据库。进一步25提出ADAIN,一个自适应框架,重点利用非线性回归模型,但相对速度比Learn+快。26采用Gaussian(高斯)混合模型和资源分配NN的学习与应用在宿舍学习习惯的学生。性能驱动的数据选择模型是另一种方法27,在这里选择性增量学习发生在无标号数据,以决定学习特定的数据集,为进一步的学习被分类。一个广阔的应用是有一个机器人学习利用马尔可夫方法操纵任务是由28提出的,教学初始阶段发生,后来机器人学习。在医学图像分割方面拓展这个方法,29为知识获取提出Rippledownrules(涟波下降规则),在卫生监测领域为了检测紧急状态而提出的贝叶斯算法30。相似的31提出其使用在体育视频视图分类明确在棒球展现新的距离度量和阈值标准生成正面和负面的模型池。有趣模式的发现进一步提升了发生在图像等级的对象检测方面的学习。增量检测和分类新的图像与现有的对象是应用于此。假设人脸识别,增量学习已经领先一步,33为新特性和分类器提出自适应学习算法。这里的特征空间是与使用神经网络调整资源分配网络(RAN)和长期使用的内存(LTM)模型。支持向量机(SVM)用在大量的分类和回归问题被发现是有效的。34讨论他们在光学字符识别中的使用,与总体中支持向量机的操作,发现一个新的领域。基于算法的整体进一步用于动态加权方案,是为早期新的训练集给出增量算法建立额外训练的模型,在35中提出可用在成批的处理中。36关注在学习概念漂移的综合方法,那个被非平稳环境表征应用在天气预报系统中的方法,在那里Learn+算法被扩展。5.当前情况随着相关工作的发生,本文的目的在于使研究人员熟悉概念。目前的工作执行着重于符号学习和数据分布。集中一些,37关于HMM(隐马尔可夫模型)参数的增量学习的不同技术给出了一个调查。这个任务为HMM参数估计成批审核学习技术。试图消除用有限的数据使用HMM作为先验方法的影响。进一步,增量和强化学习和整个系统的学习可能是下一个大事件。38为操作多主体场景提出使用增量强化学习设计。任务是基于Q-Learning的修改版本,代理面临很多它学习的任务。在查询公式(符号学习)中增量学习被文献39利用,它帮助用户形成查询,从任意一个试图结构化架起查询形式之间的桥梁,它可以形成检索的有效性。最近为控制数据分布40的漂移增量算法这个概念被提出。域识别是为土地覆盖分类的遥感图像。在操作上与内核函数和马尔可夫链的基础上,学习过程是活跃的,使用训练向量的添加或删除。6.讨论和结论本文对于目前的增量算法试图强调它的领域和方法论,更多的思想还需要探索。考虑到各个领域和工作正在进行,它使研究者有个广泛的认识并且在工作领域中增量学习的过程将有助于做出重大决策。增量学习就数据集而言是有选择性的,同时使用自适应和动态的有能力根据目前看到的做出正确的决策。考虑决策的影响,精度同样应该被考虑。下面的表格总结了在使用的领域和算法。(因为覆盖到算法和领域的每一个方面是不可能,所以可能会有本文中还没有发现的更多应用和领域。)算法应用领域Bayesian,GRIN,BIRCH,DBSCAN关系数据库/数据仓库神经网络,Centroidbasedmethods(质心计算方法)网页/文档布局ART,NN, Rough sets(粗糙集)文档聚类Minimum bounding boxes(最小边界框)移动式/轨迹模式匹配-神经网络文本分类Ensemble based methods, Learn+, ADAIN数字光学高斯分布/神经网络学生的行为模式马尔可夫链机器人贝叶斯学习、资源分配网络医学图像分割/体育视频SVM, Ensemble methods, Dynamic weighing光学字符/文本文档Concept drift(概念漂移),Ensemble methods天气预报/数据流表1:增量方法和域:一个调查的总结关键是没有一个目的(解释)起作用,除了识别领域在有监督的和无监督的环境下,学习将是有效的同时可以继续用于预测。当我们谈到预测,它可以对天气,一个行业的销售,损耗率等。在这一点上方法和算法的提出旨在给出精确度同时也更好的做决策。这里讨论的意义不仅仅是你想要的应用,还有你想要增量学习的原因。当前的工作已经在各个领域被做,对于带有反馈机制的进化增量学习另一个因素必须被讨论。决策的效果和那些决策的影响和嵌入对进一步的学习是有需要的。主要的方面,可以进一步研究的部分,是这个决策支持机制,这本身将进化采取的每一个新的决定,无关被使用的应用。最终,它同样基本上确定使用什么样的统计方法用于什么目的。每一个现有的方法都有自己的特点和先决条件,那就应该更进一步的开拓提出新方法,用于增量学习。文献阅读:1Y. Lui, J. Cai, J. Yin, A. Fu, Clustering text data streams, Journal of Computer Science and Technology, 2008, pp 112-128.2A. Fahim, G. Saake, A. Salem, F. Torky, M. Ramadan, K-means for spherical clusters with large variance in sizes, Journal of World Academy of Science, Engineering and Technology, 2008.3F. Camastra, A. Verri, A novel kernel method for clustering, IEEE Transactions on Pattern Analysis and Machince Intelligence, Vol. 27, no.5, 2005, pp 801-805.4F. Shen, H. Yu, Y. Kamiya, O. Hasegawa, An Online Incremental Semi-Supervised Learning Method, Journal of advanced Computational Intelligence and Intelligent Informatics, Vol. 14, No.6,2010.5T. Zhang, R. Ramakrishnan, M. Livny, Birch: An efficient data clustering method for very large databases, Proc. ACM SIGMOD Intl.Conference on Management of Data, 1996, pp.103-114.6S. Deelers, S. Auwantanamongkol, Enhancing k-means algorithm with initial cluster centers derived from data partitioning along the data axis with highest variance, International Journal of Electrical and Computer Science, 2007, pp 247-252.7S. Young, A. Arel, T. Karnowski, D. Rose, A Fast and Stable Incremental Clustering Algorithm,Proc. of International Conference on Information Technology New Generations, 2010, pp 204-209.8M. Charikar, C. Chekuri, T. Feder, R. Motwani, Incremental clustering and dynamic information retrival, Proc. of ACM symposium on Theory of Computeion, 1997, pp 626- 635.9K. Hammouda, Incremental document clustering using Cluster similarity histograms, Proc. of IEEE International Conference on Web Intelligence, 2003, pp 597- 601.10X. Su, Y. Lan,R. Wan, Y. Qin, A fast incremental clustering algorithm, Proc. of International Symposium on Information Processing, 2009, pp 175-178.11T. Li, HIREL: An incremental clustering for relational data sets, Proc. of IEEE International Conference on Data Mining, 2008, pp 887 892.12P. Lin, Z. Lin, B. Kuang, P. Huang, A Short Chinese Text Incremental Clustering Algorithm Based on Weighted Semantics and Naive Bayes, Journal of Computational Information Systems, 2012, pp 4257- 4268.13C. Chen, S. Hwang, Y. Oyang, An Incremental hierarchical data clustering method based on gravity theory, Proc. of PAKDD, 2002, pp 237-250.14M. Ester, H. Kriegel, J. Sander, M. Wimmer, X. Xu, Incremental Clustering for Mining in a Data Warehousing Environment, Proc. of Intl. Conference on very large data bases, 1998, pp 323-333.15G. Shaw, Y. Xu,Enhancing an incremental clustering algorithm for web page collections, Proc. Of IEEE/ACM/WIC Joint Conference on Web Intelligence and and Intelligent Agent Technology, 2009.16C. Hsu, Y. Huang, Incremental clustering of mixed data based on distance hierarchy, Journal of Expert systems and Applications, 35, 2008, pp 1177 1185.17S. Asharaf, M. Murty, S. Shevade, Rough set based incremental clustering of interval data, Pattern Recognition Letters, Vol.27 (9), 2006, pp 515-519.18Z. Li, Incremental Clustering of trajectories, Computer and Information Science, Springer 2010, pp 32-46.19S. Elnekava, M. Last, O. Maimon, Incremental clustering of mobile objects, Proc.of IEEE International Conference on Data Engineering, 2007, pp 585-592.20S. Furao, A. Sudo, O. Hasegawa, An online incremental learning pattern -based reasoning system,Journal of Neural Networks, Elsevier, Vol. 23,(1), 2010.pp 135-143.21S. Ferilli, M. Biba, T.Basile, F. Esposito, Incremental Machine learning techniques for document layout understanding, Proc. of IEEE Conference on Pattern Recognition, 2008, pp 1-4.22S. Ozawa, S. Pang, N. Kasabov, Incremental Learning of chunk data for online pattern classification systems, IEEE Transactions on Neural Networks, Vo. 19 (6), 2008, pp 1061-1074.23Z. Chen, L. Huang, Y. Murphey, Incremental learning for text document classification, Proc. of IEEE Conference on Neural Networks, 2007, pp 2592-2597.24 R. Polikar, L. Upda, S. Upda, V. Honavar, Learn +: An incremental learning algorithm for supervised neural networks, IEEE Transactions on Systems, Man and Cybernatics, Vol.31 (4), 2001,pp 497-508.25 H. He, S. Chen, K. Li, X. Xu, Incremental learning from stream data, IEEE Transactions on Neural Networks, Vol.22(12), 2011, pp 1901-1914.26 A. Bouchachia, M. Prosseger, H. Duman, Semi supervised incremental learning, Proc. of IEEE International Conference on Fuzzy Systems, 2010 pp 1-7.27 R. Zhang, A. Rudnicky, A new data section principle for semi-supervised incremental learning,Computer Science department, paper 1374, 2006, /compsci/1373.28 Z. Li, S. Watchsmuch, J. Fritsch, G. Sagerer, Semi-supervised incremental learning of manipulative tasks, Proc. of International Conference on Machine Vision Applications, 2007, pp 73-77.29 A. Misra, A. Sowmya, P. Compton, Incremental learning for segmentation in medical images, Proc. of IEEE Conference on Biomedical Imaging, 2006.30 P. Kranen, E. Muller, I. Assent, R. Krieder, T. Seidl, Incremental Learning of Medical Data for Multi-Step Patient Health Classification, Database technology for life sciences and medicine, 2010.31 J. Wu, B. Zhang, X. Hua, J, Zhang, A semi-supervised incremental learning framework for sports video view classification, Proc. of IEEE Conference on Multi-Media Modelling, 2006.32 S. Wenzel, W. Forstner, Semi supervised incremental learning of hierarchical appearance models,The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. Vol.37,2008.33 S. Ozawa, S. Toh, S. Abe, S. Pang, N. Kasabov, Incremental Learning for online face recognition,Proc. of IEEE Conference on Neural Networks, Vol. 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论