版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于不平衡样本重构的加权在线贯序极限学习机摘要:针对现有学习算法难以有效进步不平衡在线贯序数据中少类样本分类精度的问题,提出一种基于不平衡样本重构的加权在线贯序极限学习机。该算法从提取在线贯序数据的分布是否用特征更恰当?这里主要想表达提取数据内在的分布规律,还是觉得用特性好一些。特性入手,主要包括离线和在线两个阶段:离线阶段主要采用主曲线构建少类样本的可信区域,并通过对该区域内样本进展过采样,来构建符合样本分布趋势的平衡样本集,进而建立初始模型;而在线阶段那么对贯序到达的数据根据训练误差赋予各样本相应权重,同时动态更新网络权值。采用UCI标准数据集和澳门实测气象数据进展实验比照,结果说明,与现
2、有在线贯序极限学习机OSELM、极限学习机ELM和元认知在线贯序极限学习机MCOSELM相比,所提算法对少类样本的识别才能更高,以澳门气象数据为例,所提算法对少类样本的预测精度分别比其他三种算法进步了22.87%、25.76%和22.42%,且所提算法的模型训练时间与其他三种算法相差不大。结果说明在不影响算法复杂度的情况下,所提算法能有效进步少类样本的分类精度。关键词:样本重构;极限学习机;主曲线;过采样;不平衡数据中图分类号: TP181 文献标志码:A英文摘要Abstract:Many traditional machine learning methods tend to get bia
3、sed classifier which leads to low classification precision for minor class in imbalanced online sequential data. To improve the classification accuracy of minor class, a new weighted online sequential extreme learning machine based on imbalanced samplereconstruction was proposed. The algorithm start
4、ed from exploiting distributed characteristics of online sequential data, and contained two stages. In offline stage, the principal curve was introduced to construct the confidence region, where oversampling was achieved for minor class to construct the equilibrium sample set which was consistent wi
5、th the sample distribution trend, and then the initial model was established. In online stage, a new weighted method was proposed to update sample weight dynamically, where the value of weight was related to training error. The proposed method was evaluated on UCI dataset and Macao meteorological da
6、ta. Compared with the existing methods, such as Online SequentialExtreme Learning Machine OSELM, Extreme Learning Machine ELMand MetaCognitive Online Sequential Extreme Learning Machine MCOSELM, the experimental results show that the proposed method can identify the minor class with a higher ability
7、. Moreover, the training time of the proposed method has not much difference compared with the others, which shows that the proposed method can greatly increase the minor prediction accuracy without affecting the complexity of algorithm.英文关键词Key words:samplereconstruction; Extreme Learning Machine E
8、LM; principal curve; oversampling; imbalanced data0 引言综上可知,单独考虑数据层面或者算法层面,均难以有效解决不平衡在线贯序数据的分类问题。不难发现,提取在线贯序数据的分布特性是解决该问题的关键所在。为此,本文同时从数据策略和算法策略入手,通过引入主曲线提取在线数据的分布特性,并在此根底上改进SMOTE方法,进步对少类样本的过采样质量;同时引入动态加权的思想,提出一种基于不平衡样本重构的加权在线贯序极限学习机Imbalanced Samplereconstruction Weighted Online Sequential Extreme L
9、earning Machine,ISWOSELM;最后采用UCI标准数据集和实际的澳门气象数据验证了该方法的有效性。1 相关工作1.1 在线贯序极限学习机极限学习机Extreme Learning Machine,ELM7是一种单隐层前馈神经网络。该算法随机挑选输入层参数,直接利用MoorePenrose广义逆,即可求得最小L2范数的输出层权重。整个学习过程只有隐神经元个数可调,构造简单,具有非常快的学习速度和优秀的泛化才能。在线贯序极限学习机是在原始ELM算法的根底上提出的在线增量式快速学习算法。由文献8可知,算法步骤分为两个阶段:步骤1 初始化阶段。2 不平衡样本重构加权在线贯序极限学习机
10、为减少少类样本合成过程中的盲目性,进步其分类精度,本文同时从数据和算法两个角度出发,提出一种基于不平衡样本重构的加权在线贯序极限学习机算法,主要分为离线和在线两个阶段。2.1 离线阶段初始离线阶段,通过改进SMOTE算法,对不平衡样本重构,并建立初始模型。其根本思想是首先采用主曲线构建少类样本的可信区域,得到种子样本,再分别对每个种子样本,采用所改进的SMOTE算法生成虚拟样本,同时判断其可信度;考虑到样本的离散度,引入类中心和类平均间隔 的概念,进一步对虚拟样本挑选进而得到平衡的样本集,最后建立初始训练模型。定义1 类中心class center10是指某类样本在数据空间的平均中心点。类中心
11、点c是与样本维数一样的请核实,c是否为向量为黑斜。c为黑斜向量,计算方法如下所示:c=1nni=1x是否黑?xi表示向量,为黑。xi4定义2 类平均间隔 class average distance10是指某类中各样本到类中心间隔 和的平均值,是一标量。该间隔 d可以反映出类的间隔 程度,值越小类间隔 程度越紧,反之较松散。计算方法如下所示:d=1nni=1Dxi, c5步骤1 生成种子样本。3 仿真实验与分析3.1 UCI标准数据集选择两个标准数据集Blood和Abalone来进展仿真实验。离线阶段,采用改进SMOTE算法对数据预处理,得到平衡的样本集,见表1。给定隐层激活函数为中英全径向基
12、函数Radial basis function, RBF核函数,隐层节点分别为25、45,运行30次取均值,四种模型的性能如表2和表3所示。3.2 澳门气象数据在空气质量监测等实际问题中,数据往往具有在线序列到达的特点,且空气质量良好的天数远远大于空气严重污染的天数,因此是一种典型的不平衡在线贯序问题。由于采集数据的局限性,本文采用澳门气象局网站上公布的空气质量数据11进展仿真实验。分别以每个种子样本为中心,生成虚拟样本并挑选,最终得到平衡的初始训练样本集。使用改进SMOTE算法前后2021年的样本数目如表4。由表4可知,经改进SMOTE算法处理之后,两类样本的数据比近似于11,从而解决了离线
13、阶段的数据不平衡问题。利用处理后的平衡离线样本集,建立初始模型。给定隐层激活函数为RBF核函数,对2021的数据进展在线贯序训练。图6和图7分别为随隐层节点个数变化,ISWOSELM、MCOSELM、OSELM和ELM的训练精度和测试精度的变化。设定隐节点个数为30,分别用ISWOSELM、OSELM、ELM和MCOSELM四种算法对气象数据进展仿真实验,表5为四种算法运行30次所得结果的平均性能比较。从表5中可以看出,尽管ISWOSELM对多类样本的识别率略有下降,总体测试精度也未到达最正确,但其少类训练精度和测试精度均明显优于其他三种算法,其中少类测试精度分别比其他三种算法进步了22.87
14、%、25.76%和22.42%,因此大大减少了少类样本的误判率。从另一个方面来说,ELM和OSELM多类测试精度明显较高,恰恰说明直接对类别严重不平衡的样本分类,分类面更加偏向于少类样本,从而造成多类样本分类效果的“虚假提升。是否应为图6和图7?图6和图7中,随隐层节点变化,四种算法的图形均有一定程度的波动,这是ELM本身的随机性所致。但不难发现,较其他三种算法,ISWOSELM的图形波动相对较小,表现出良好的稳健性。从表5可以看出,ISWOSELM的训练时间与其他三种算法接近,但少类的测试精度明显进步,由此可以看出,在不增加算法时间复杂度的前提下,ISWOSELM对少类样本的识别率更高,更适宜于不平衡在线贯序数据的分类问题。 4 结语本文提出了一种基于不平衡样本重构的加权在线贯序极限学习机,继承了OSE
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州六盘水攀登开发投资贸易有限公司面向社会招聘12人笔试历年备考题库附带答案详解3套试卷
- 2025浙江金华市轨道交通集团有限公司及下属子公司第一批工作人员招聘12人笔试历年常考点试题专练附带答案详解3套试卷
- 2025四川绵阳市安州区建投矿业有限公司第一批次人力资源需求社会招聘7人笔试历年典型考点题库附带答案详解3套试卷
- 多源遥感数据融合的水体信息识别精度提升方法研究
- 2025年角膜接触镜学试题含答案
- 2025年食堂安全考试试题含答案
- 2025年防治水(专业管理人员)考试题及答案
- 2025年金属非金属矿山(露天矿山)作业模拟考试题库试题十一附答案
- 不稳定型心绞痛急救处理流程培训
- 电子商务岗位实训考核标准
- 高血压病症状解析及护理指南培训
- 2025银行招聘国家开发银行招聘笔试完整真题及答案解析
- 2025年无人机巡检电力设施项目收益分析可行性研究报告
- 国家赔偿法-形成性考核(二):第3-5章(占总成绩10%)-国开(ZJ)-参考资料
- 教职工安全培训应急知识课件
- 2025年陕西省招聘社区工作者考试应知应会题库(附答案)
- 2025版安全生产法
- 压缩空气储能项目经济性分析
- 《教师职业道德与专业发展》自考试题及答案(一)
- 商场消防安全用电知识培训课件
- 《基层常见病诊疗指南》
评论
0/150
提交评论