随机森林算法在生物信息学中的应用研究_第1页
随机森林算法在生物信息学中的应用研究_第2页
随机森林算法在生物信息学中的应用研究_第3页
随机森林算法在生物信息学中的应用研究_第4页
随机森林算法在生物信息学中的应用研究_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 随机森林算法在生物信息学中的应 用研究 摘要:在生物信息学的研究过程 当中,经常会遇到二分类的问题。例如 RNA 甲基化预测、蛋白质相互作用预 测、蛋白质中二硫键的预测等都属于二 分类问题。要解决二分类问题,目前在 机器学习中提到了很多算法。比较常用 的有支持向量机(sVM)和随机森林 (RF)算法。文章在研究一般 RF 算法 的同时,进一步讨论了集成 RF 算法对 于处理非平衡数据起到的突出作用,最 后分析总结了一般随机森林算法和集成 随机森林算法的优缺点。 中国论文网 /8/view-12938014.htm 关键词:生物信息学;二分类; -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 随机森林;集成随机森林;非平衡数据 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017) 10-0186-02 随着后基因组时代的到来,高通 量测序技术的运用,使得基因数据库和 蛋白质数据库中累加了巨量的新测定的 序列,而通过传统的实验手段去剖析它 们的结构、功能以及遗传信息就显得十 分的耗时和费力。因此人们就寄希望于 通过计算机的手段去分析这些序列的相 关信息。在此基础上,人们开发了很多 有针对性的计算机算法模型去预测相关 信息,而建立这些模型的基础算法有 KNN、SVM 以及 RF 等等。在本文当 中我们主要讨论 RF 算法在生物信息学 当中的应用。 1.一般随机森林算法 由于数据集当中的样本数都比较 大、噪音比较多,导致单一的分类器构 建的预测模型的预测分类效果不好,因 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 此为了提高预测分类结果,现在大多数 情况下都采用分类器集成(En-semble) 的方式来构建预测模型。随机森林就是 一种集成的分类器。简单来说,随机森 林就是由多棵 CART(ClassificationAnd Regression Tree)构成的。对于每棵树, 它们使用的训练集是从总的训练集中有 放回采样出来的,这意味着,总的训练 集中的有些样本可能多次出现在一棵树 的训练集中,也可能从未出现在一棵树 的训练集中。在训练每棵树的节点时, 使用的特征是从所有特征中按照一定比 例随机地无放回的抽取的。也就是说, 在 RF 内部就有特征选择的过程,这样 使得我们不必再额外的对众多特征进行 优化处理,简化了建模过程。RF 算法 流程如下: 1)采用 bootstrap 抽样技术从原 始数据集中抽取 ntree 个训练集,每个 训练集的大小为原始训练集的三分之二。 2)为每个 bootstrap 训练集分别 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 建立分类回归树(CART) ,共产生 ntree 棵决策树构成一片“森林”,这些决 策树均不进行剪枝,在每棵树生长过程 中并不是全部选择 M 个属性中最优属 性作为内部节点进行分支,而是从随机 选择的 mM 个属性中选择最优属性进 行分支。 3)集合 ntree 棵决策树的预测结 果,采用投票(voting)的方式决定新 样本的类别。 对于平衡数据集(正负样本的数 量相等)采用 RF 算法能够显著提高模 型的预测准确率,但对于非平衡数据集 (负样本的数量要远远大于正样本的数 量) ,由于负样本的数量过多,导致学 习过程中对于大类样本的偏向性比较明 显,这样建立的模型预测的结果就不尽 如人意。而在的物信息学当中我们接触 到的数据集大多数是非平衡的,因此对 于非平衡数据的预测就显得尤为重要, 在文章的下面部分将讨论两种改进的随 机森林算法。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 2.随机森林集成算法 2.1 多个 RF 串联 该方法的核心思想是通过多重 RF 串联的方式,来对一个样本数据进 行多次预测,只有前面一层的 RF 预测 值符合要求,才会进入到下一次的 RF 预测,当所有的 RF 预测结果一致通过, 我们才认为是符合要求的,并将其归类 为少数类。若在某一层的 RF 预测结果 不符合要求,则立即停止,并醚 本归类为多数类。算法详细经过如图 1 所示。 根据以上分析,我们可以得知串 联随机森林算法的核心思想就是通过一 层层深入的训练模式能够极大的提高对 少数类样本的预测精度,使得算法的准 确率得到较大的提高。能很好地克服非 平衡数据带来的模型偏向性问题。 算法流程: 1)判定多数类样本数与少数类 样本数的比值是否大于等于设定的非平 衡系数值(该系数值有程序设计者设定) -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 ,若满足要求,则从多数类中随机抽取 与少数类样本数相同的样本,与少数类 组成一个平衡的样本子集,用于下一层 的 RF 训练,并转第二步。注意被抽取 的多数类样本将被从多数类样本集中剔 除掉。 2.2 多个 RF 并联 在生物信息学的学习过程当中, 我们经常会对一条核酸序列或蛋白质序 列提取相关的特征信息,若特征维数较 多,彼此之间的组合可能会降低模型的 预测准确率。因此,我们可以将每一维 特征都作为一个特征向量,用一个单独 的 RF 进行训练。这样,我们可以得到 与特征维数相等的 RF 训练模型,再通 过对这些 RF 模型的输出结果进行投票, 得到最终的预测结果。该算法的流程图 如图 2 所示。 算法步骤: 1)将待处理的序列用特征向量 表示,并且将 n 维特征向量分解成若干 个特征向量子集,每个子集可以是一维 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 也可以是多维(n 为奇数) 。 2)对于每一个特征子集(一级) , 我们都训练一个 RF 模型。因此,若有 n 级就会训练 n 个 RF 模型,最后得到 n 个标签(类别) 。 3)对 n 个标签进行投票统计, 确定最终的类别标签。 这种 RF 集成模式称为并联模式。 通过这种模式可以最大限度地发挥每一 个特征子集对于模型构建起到的决定性 作用,确保整个算法更加公平。避免了 由于特征之间的互相影响而使得模型预 测准确率不高的问题。 3.三种 RF 算法优缺点分析 11_一般 RF 优点:对于平衡类数据能够起到 较好的分类作用,由于其只有一层的原 因,算法的耗时相对较短,模型的建立 相对简单。 缺点:不适合对非平衡数据进行 分类。 2)串联 RF -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 优点:能很好地克服非平衡数据 带来的偏向性问题。由于预测结果是层 层递进的,所以提高了模型最后的预测 效果。 缺点:由于其往往由多层 RF 串 联构成,对于每一层的阀值的设定是一 个难题。并且,多层结构提高了模型构 建的复杂度,算法的运算耗时较长。 3)并联 RF 优点:与串联 RF 相似,能很好 地克服非平衡数据带来的偏向性问题。 其将特征维数分解的方式能极大地提高 各维特征对于最后类别认定起到的贡献 程度。避免了多种特征混在一起互相冲 突,降低了预测结果的问题。 缺点:要训练多个 RF 模型,程 序复杂度较高。投票方式看似公平,实 则有可能降低了某些强势特征对最后分 类结果的贡献程度。 4.结束语 本文通过对三种 RF 算法在生物 信息学当中的应用研究,在阐述了一般 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 RF 算法对平衡数据进行处理的过程后, 针对其处理非平衡数据时容易产生对多 类的偏向性的弊端,提出了两种集成 RF 算法,通过对这两种集成算法的描 述,使我们了解到这两种集成算法很好 地克服了非

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论