版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种基于结构序列一种基于结构序列藕合模块辨别人类藕合模块辨别人类miRNA前体的新方法前体的新方法刘秀芹刘秀芹2009.11.15 miRNA的产生的产生内容提要内容提要 miRNA概述概述Mirident方法流程结果方法流程结果与已有的方法的比较与已有的方法的比较讨论讨论miRNA的产生的产生中心法则中心法则Protein GenemRNAProteinmiRNA gene蛋白基因蛋白基因1miRNA基因基因DNA序列转录翻译转录pri-miRNAmiRNA的产生的产生行使功能miRNA的产生的产生miRNA概述概述长约2025碱基的单链RNA功能:在对mRNA进行转录后调控 mRNA 降解
2、 阻止mRNA翻译成蛋白 通过影响mRNA从而对生物体的生长、发育起到重要作用,与肿瘤的形成有很大关系。miRNA的发现:的发现: 试验的方法 计算方法(分类算法)1.各种机器学习方法用于预测miRNA. SVM, 随机树,线性规划,隐马氏模型等。2. 机器学习的方法的关键之一是选取合适的特征。常用的特征: 序列特征(如,保守性,G C含量,) 结构特征(臂的长度,loop长度)本文想法:充分挖掘序列和结构耦合的特征。用耦合特征辨别miRNA和假pre-miRNA.已有方法的局限性:受对miRNA认识的限制一般分别考虑序列和结构的性质,大部分没有充分考虑序列和结构之间的相互关系Mirident
3、方法流程方法流程准备序列结构(sequence-structure)寻找耦合特征用线性SVM对特征进行排序用支持向量机训练分类器,进行预测1. 阳性集合准备阳性集合准备(1) hsa.fa是是human的的678条条pre-miRNA序列序列(hairpin.fa 是所有物种的是所有物种的pre-miRNAs,用用hsa.py取出人的取出人的)。(2) 去重复率高于去重复率高于90%的序列,剩的序列,剩638条条(quxiangsilian.py)。(3) 计算二级结构,去多环,剩计算二级结构,去多环,剩608条。条。 算法步骤算法步骤(5)用软件用软件 teiresias找找457条公共特征
4、条公共特征(457/608=75%)。(4)把每个位点的二级结构放在相应的位点后面,形成把每个位点的二级结构放在相应的位点后面,形成sequence-structure. (.(.(.(.).).).).hsa-mi-320-1 MI0008190 Homo sapiens mi-320-1 stem-oopUUCUCGUCCCAGUUCUUCCCAAAGUUGAGAAAAGCUGGGUUGAGAGGAU(U(C(U(C(G(U.C(C(C(A(G(U(U(C.U(U(C(C.C(A(A.A.G.U.U)G)A.G)A)A)A.A)G)C)U)G)G)G)U.U)G)A)G)A)G)G.A.U
5、LULCLULCLGLUDCLCLCLALGLULULCDULULCLCDCLALADADGDUDURGRADGRARARADARGRCRURGRGRGRUdURGRARGRARGRGDADL代表(R代表)D表示.2. 阴性集合准备阴性集合准备(1)、在、在ucsc下载下载refseq.fa(2)、过滤剩、过滤剩11426条条(3)、去重复序列,只剩、去重复序列,只剩7898条条(6)、用、用teiresias找找457条(条(457/608=75%)共有的)共有的motifs(L=4,W=12,K=457)(5)、把每个位点的二级结构放在相应的位点后面,形成、把每个位点的二级结构放在相应的位
6、点后面,形成sequence-structure. (4)、随机抽取、随机抽取608条,计算二级结构。条,计算二级结构。3. Libsvm分类:分类:(1) 把阴性和阳性集合中得到的特征放到一起形成把阴性和阳性集合中得到的特征放到一起形成head.txt. 在阳性阴性集合中提取特征向量。在阳性阴性集合中提取特征向量。(.(.(.(.).).).).hsa-mi-320-1 MI0008190 Homo sapiens mi-320-1 stem-oopUUCUCGUCCCAGUUCUUCCCAAAGUUGAGAAAAGCUGGGUUGAGAGGAU(U(C(U(C(G(U.C(C(C(A(G(
7、U(U(C.U(U(C(C.C(A(A.A.G.U.U)G)A.G)A)A)A.A)G)C)U)G)G)G)U.U)G)A)G)A)G)G.A.ULULCLULCLGLUdCLCLCLALGLULULCdULULCLCdCLALAdAdGdUdURGRAdGRARARAdARGRCRURGRGRGRUdURGRARGRARGRGdAdL代表(R代表)D表示.抽取特征向量的过程:抽取特征向量的过程:特征特征 LUL.C在序列在序列hsa-mi-320-1 中的特征向量的分量为2.它的特征向量为:(2,2,4,2,2,1,1,3,2,4,0,3,2,2,2,2,1,3,2,3,2,2,0,0,1,
8、4,3,2,0,0,2,1,2,1,2,3,2,4,2,2,1,0,1,4,3,4,3,1,2,4,1,1,2,3,3,0,2,0,3,0,1,2,2,7,1,1,1,2,2,1,6,2,0,1,1,3,3,0,2,2,2,1,2,1,1,1,2,3,2,1,2,6,3,3,2,1,2,0,2,3,4,0,0,0,1,1,1,1,0,2,3,1,3,1,1,3,2,4,1,0,3,1,3,3,0,3,3,2,2,3,3,2,1,3,0,0,5,1,2,2,2,1,1,0,1,2,2,1,3,1,1,1,2,2,1,1,1,2,3,3,2,0,2,4,4,1,2,1,3,6,3,2,3,1,1,
9、1,0,3,1,0,3,2,2,3,4,1,0,3,1,1,3,4,0,1,0,1,1,2,1,3,2,0,1,2,2,0,1,2,2,1,1,0,1,1,3,3,1,0,2,3,0,1,3,0,1,0,0,1,1,2,1,1,1,1,2,3,3,1,2,0,3,2,1,1,0,1,0,2,2,1,2,0,1,1,0,0,2,4,1,0,3,1,1,2,1,1,1,1,0,0,4,3,0,0,1,0,0,3,3,2,3,2,1,1,2,3,2,1,3,2,1,2,2,4,2,3,1,0,2,0,2,1,1,3,1,0,2,1,2,0,0,2,1,2,2,4,2,0,1,0,1,0,2,0,3,
10、1,0,1,4,4,3,2,5,2,3,2,2,1,2,5,0,4,1,2,1,1,1,2,2,3,2,5,2,0,0,0,2,0,2,2,2,2,2,1,1,2,3,1,2,1,0,4,2,0,0,1,3,2,0,0,0,1,2,2,2,1,1,1,2,3,1,1,2,1,2,3,0,0,1,3,2,0,2,0,2,2,5,0,1,3,0,2,3,1,0,1,5,0,1,4,2,0,0,2,3,1,4,1,2,0,2,0,1,2,2,1,2,1,1,3,0,3,2,3,2,1,0,1,2,1,3,2,2,0,1,1,2,1,2,1,0,1,5,3,0,0,1,2,1,0,0,0,2,3,3,
11、2,1,1,2,1,2,2,2,3,2,1,0,1,0,2,2,1,1,1,0,1,2,1,0,2,1,2,1,0,1,0,1,4,0,1,0,1,0,3,2,1,0,1,2,4,0,3,2,5,0,2,3,1,1,0,0,1,0,1,1,2,1,3,2,1,1,1,1,3,3,0,1,1,2,1,0,1,1,2,1,2,0,3,1,2,1,3,0,4,2,1,2,3,1,1,2,3,0,0,0,2,3,1,1,2,2,2,4,1,2,1,2,0,1,0,0,2,0,0,3,0,2,1,1,1,0,0,1,1,0,0,0,2,2,2,1,0,2,2,1,2,1,1,4,5,2,1,0,1,1,
12、2,1,3,1,0,1,3,0,0,2,0,2,1,1,4,2,0,4,0,0,1,0,1,1,2,2,0,1,0,2,3,2,0,3,4,1,1,1,1,2,0,0,1,0,2,0,1,0,4,3,0,3,1,1,3,2,0,1,0,1,0,1,1,1,2,1,0,0,0,0,0,2,0,2,1,1,2,1,1,2,0,1,3,2,0,3,0,1,2,0,3,1,2,0,0,2,3,2,0,1,1,3,0,5,2,0,1,3,4,1,1,1,2,2,1,1,0,1,0,2,3,5,3,2,0,2,1,4,2,0,0,1,1,2,1,0,1,4,3,4,0,0,1,0,1,0,0,0,2,0,
13、3,2,1,2,4,1,2,5,1,2,0,1,0,2,2,3,0,0,1,2,4,3,2,2,1,6,0,3,1,1,3,3,1,1,0,0,2,2,0,0,1,1,0,1,0,2,0,0,3,1,1,1,2,1,0,1,1,1,1,1,2,2,0,0,1,0,4,0,0,4,0,2,3,1,0,2,1,1,0,2,0,1,3,1,4,0,1,1,2,3,1,2,1,1,1,2,1,0,0,2,1,3,1,2,1,1,1,2,0,1,0,2,0,3,3,0,3,1,3,0,4,1,1,1,0,2,2,0,0,0,0,0,1,2,2,1,2,2,3,0,4,0,0,3,1,2,2,1,1,0,
14、2,0,0,3,1,0,0,3,3,1,0,0,3,3,1,1,1,0,2,0,1,1,0,1,1,0,2,1,0,2,0,2,0,0,1,2,0,3,2,2,1,0,1,1,0,3,1,0,0,0,3,2,0,0,1,0,2,3,4,1,2,0,3,2,0,1,0,1,1,1,0,0,0,1,2,1,1,2,3,3,0,4,2,1,2,1,5,1,1,0,1,0,2,1,2,1,1,4,0,0,0,1,2,3,1,1,1,1,0,1,2,2,1,1,0,0,1,2,0,1,0,0,2,0,0,0,0,2,5,3,2,1,0,1,0,3,4,3,0,0,1,2,1,3,2,0,3,1,2,0,
15、1,3,0,1,2,0,3,1,1,1,0,0,0,0,0,1,2,1,1,2,3,3,1,1,1,1,3,1,2,0,4,1,4,0,1,1,1,3,1,1,1,2,0,2,3,1,1,3,0,4,2,1,1,1,1,1,1,0,2,2,2,1,1,1,0,2,1,0,2,1,0,2,2,1,0,0,0,1,2,1,2,1,0,0,2,0,2,4,0,0,1,0,3,0,0,1,3,1,3,1,5,2,2,2,2,0,0,0,1,1,3,0,0,1,2,1,2,3,2,0,1,3,1,3,2,5,0,3,2,3,1,0,2,2,0,2,4,3,1,2,2)(2).用特征矩阵作线性libsvm
16、,按 绝对值大小经行排序。(3).在608个阳性集合中随机选取4/5,在608个阴性集合中随机选取4 /5放在一起作为训练集,剩余的作为测试集。(4).选取前面的1300特征做高斯核libsvm.(试了选取不同个数的特征个数)。(5). 结果,ACC=97.9839%, sp=99.1935%, se=96.774% , AUC=0.9929%与已有的方法的较:与已有的方法的较:ACCSPSEAUCMirident98.39%99.1935% 97.58%99.11%3SVM83.87%89.516%78.226%3SVM(sametrainingdata)80.24%84.67%75.8%M
17、ir-albraThreshold=080.242% 160.48387%Threshold=-189.5%95.968%83.645%Threshold=-281.45%69.354%93.55%PriMirScore=779.84% 100%54.84%92%Score=084.68%87.2%82.26%特征的位置分布:-120-100-80-60-40-2002040608002468101214161820LUL.C40608010012014016018020022024002468101214161820R.R.G.U-120-100-80-60-40-2002040608005
18、10152025LGLA讨论:讨论:1.本文的新意在于把序列和序列的二级结构耦合在一起,用软本文的新意在于把序列和序列的二级结构耦合在一起,用软件件Teiresias找到了一些找到了一些miRNAs的特征。有序列和结构耦合在的特征。有序列和结构耦合在一起的特征(以往的特征序列结构都是分开的)。一起的特征(以往的特征序列结构都是分开的)。4.用线性用线性libSVM对特征进行排序。选取适当的特征数用高斯核对特征进行排序。选取适当的特征数用高斯核训练分类器。对测试集进行预测,得到很高的训练分类器。对测试集进行预测,得到很高的SP和和SE,比目,比目前已有的方法预测效果都要好。前已有的方法预测效果都要好。2.以往的特征都是很简单的容易察觉的或者来源于生物知识的特征,特以往的特征都是很简单的容易察觉的或者来源于生物知识的特征,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 慢性阻塞性肺疾病急性加重期护理培训规范
- 感染科医院感染防控规范培训手册
- 心肺复苏的生存率分析
- 血液疾病输血管理培训指南
- 设备进退场协调计划实施方案
- 评标方法指南解读
- 物业公司文员工作汇报
- 地下车库降水施工组织方案
- 屋面防水卷材施工工艺交底方案
- 急诊护理跨学科合作与交流
- 2026陕西有色冶金矿业集团有限公司社会招聘48人笔试备考题库及答案解析
- 接种疫苗保障健康成长课件
- 2026年中国邮政集团有限公司上海市分公司校园招聘笔试备考题库及答案解析
- 国开2026年春季《形势与政策》大作业答案
- 2026年新版保密员考试题库含完整答案(名师系列)
- 无人机武器防范安全预案
- (2026年)血流动力学监测与液体管理课件
- DB4201T670-2023武汉地区矩形顶管施工技术规程
- GB/T 5132.5-2009电气用热固性树脂工业硬质圆形层压管和棒第5部分:圆形层压模制棒
- GB/T 3323.2-2019焊缝无损检测射线检测第2部分:使用数字化探测器的X和伽玛射线技术
- 骨折病人的院前急救课件
评论
0/150
提交评论