版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
TheIntroductionof
ComputationalSystemsBiology
计算系统生物学导论WangDongAssociateProfessor
Life’sComplexityPyramid
GenomeGeneexpressionProteinexpressionProteininteractionPathwayApyramidofcomponents,fromthespecificatthebottomtotheuniversalatthetop.高通量生物信息检测与“omics”Genomics(基因组)Geneidentification&charaterisation
Static,butcompletelyspecifiedTranscriptomics(表达组)ExpressionprofilesofmRNADynamic,context-dependentProteomics(蛋白质组)functions&interactionsofproteinsDynamic,context-dependentStructuralGenomics(结构组)LargescalestructuredeterminationCellinomics(细胞组:代谢组,互作组)MetabolicPathwaysCell-cellinteractionsPharmacogenomics(药物基因组)Genome-baseddrugdesignproteinRNADNAtranscriptiontranslationreplicationTheCentralDogmaofMolecularBiology
DNAistranscribedintoRNAwhichisthentranslatedintoprotein
MeasuredbyMicroarraycDNAchipcDNAMicroArraysDNAMicroArraysusehybridizationtechnologytoexaminegeneexpressionAttachdifferentDNAsontoaslideasagridofsmallspots,oneforeachgene-upto50,000perslideHybridizeamixtureoffluorescentlylabeledcDNAsextractedfromcellsafterdifferenttreatments-controlisgreenandexperimentalisredExamineexpressionpatternsbylookingatlevelsoffluorescenceforallgenesinarrayExtractmRNAACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...G????????????????????????????????????????????????????????????????????????????????????????????????????Sample1Sample2ConverttocDNAandLabelwithFluorescentDyesACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????Sample1Sample2MixLabeledcDNAACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2????????????????????????????????????????????????????????????????????????????????????????????????????ACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2HybridizecDNAtotheSlide????????????????????????????????????????????????????????????????????????????????????????????????????ACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2ExciteDyeswithLaser????????????????????????????????????????????????????????????????????????????????????????????????????ACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2Scan????????????????????????????????????????????????????????????????????????????????????????????????????QuantifySignalsACCTG...G7652138TTCTG...A57084388GGCTT...C8566765ATCTA...A120813442ACGGG...T67849762CGATA...G67239Sample1Sample2AffymetrixGeneChiptechnology(Summary)Short(25mer)Oligonucleotides
40-60kDNAoligoson~2.5cm2glasssurface.Technologycombinesoligonucleotidesynthesiswithphotolithographiccomputerchiptechnology.
Theoligonucleotidesaresynthesizedontheslide.AffymetrixGeneChipsprobepairMismatchprobecells(12-20/gene)Eachgeneisrepresentedbya“probeset”consistingof12-20probesof25nteach.Eachprobehasacorresponding“mismatch”probewithasinglebasedifferenceatthe13thnucleotide.LabeledRNAishybridizedtothearray,andameasureofabundanceiscalculatedbasedontheamountofhybridizationseenfortheentireprobeset,correctingforhybridizationtothemismatchprobes,whichindicatespossiblenon-specificeffects.Aprobeset=11-20PM,MMpairsTheremaybe5,000-100,000probesetsperchipSpottedvs.Affymetrixarrays
SpottedcDNAarrays|AffymetrixarraysOneprobe/gene(EST)11-20probepairs/geneProbesofvaryinglengthProbesare25-mers2targetsamples/array1targetsample/arrayEachbeadiscoveredwithhundredsofthousandsofcopiesofaspecificoligonucleotidethatactasthecapturesequencesConsistencyofcDNAmicroarraydataevaluatedbymultipleclones
representingthesameunigeneFlowchartBackgroundDatasetsResults
BackgroundForcDNAmicrarrays,multipleclonesarealsomeasuredforatranscripttoevaluatetheconsistencyofmicroarraydata.Ideally,suchmultipleclones,especiallythereplicateones,shouldhavesimilarmeasurements.ForAffymetrixoligonucleotidemicroarrays,byanalyzingthecorrelationofmeasurementsformultipleprobesetsrepresentingthesametranscript,manystudieshaveinvestigatedthedataqualityinfluencedbyprobedesignsandannotations.BackgroundThissketchpicture(map,diagram)canhelpusunderstandthemultipleclonedesignationincDNAmicroarray.Foreachgene,specificcDNAclonesaredesignedandspottedoncDNAmicroarray.Sometime,toevaluatetheconsistencyofmicroarraydata,multipleclonesarealsomeasuredforthesameunigene.
基因芯片设计时,对于每一个基因,一般取其特异性部位进行点样。有时为了评价检测数据的一致性,采用多次clone来测量同一Unigene。这种多次clone包括两类:
这些clone对应同一个基因,但属不同序列片段,即DC。从本质上看,DC设计主要针对具有特异性克隆的探针。DifferentClones(DC)
第一种clone的设计针对的是同一Unigene的不同特异性片段。
即在芯片上进行简单多次重复点样。由于这些clone彼此相同,因此称为RC。这种设计的目的是想控制系统的随机性(噪音)。replicateclones(RC)
第二种clone的设计针对的是同一Unigene的相同特异性片段。Themultipleclonescanbeclassifiedintotwotypes:differentsequencesegmentsforatranscript(DC)replicatesequencesegmentforatranscript(RC)Background对应基因不同片段的多个探针检测(DC)对同一个片段完全相同探针的多次检测(RC)对应同一个基因的重复检测包括:ThreecDNAmicroarraydatasetsandcloneannotation
Gastric
Liver
Prostate
Totalnumberofclone439172309346205Numberofthereduplicativeclone27777942783NumberofclonewithUniGeneannotation
357593792118383195303766939966TotalnumberofUniGene253992075714519129322626721341NumberofDCswithUniGene1468522731613798721641224741NumberofRCswithUniGene1554164857561113941472
*ThefirstandsecondlinesrepresenttheannotationresultsusingSOURCEdatabaseinApr.2008andOct.2006respectively.Gastric
Liver
Prostate
Totalnumberofclone439172309346205Numberofthereduplicativeclone27777942783NumberofclonewithUniGeneannotation
357593792118383195303766939966TotalnumberofUniGene253992075714519129322626721341NumberofDCswithUniGene1468522731613798721641224741NumberofRCswithUniGene1554164857561113941472ThefirstandsecondlinesrepresenttheannotationresultsusingSOURCEdatabaseinApr.2008andOct.2006respectively.三套cDNA数据集及其注释结果现象显示:更新后的数据库注释的可靠性的确有所提高。ThedashlinesandsolidlinesrepresenttheresultsusingtheannotationdatainApr.2008andOct.2006respectively.ThedistributionsofthecorrelationsfortheDCparis
Although,theaveragePCCsoftheDCsincreasedgreatlywhenusingtheupdatedannotationdatain2008,therearestillquitalotDCsshowingthenegativeandlowercorrelationbetweenthem.Result三套癌数据集中DCs的相关性分布结果:2008年注释更新后的DC平均PCC较2006年注释的有所提高,说明更新后删除了一部分注释错误的探针。但仍存在大量的负相关和低相关。08注释06注释08注释06注释08注释06注释ThelinesrepresentthedistributionsofthePearsoncorrelationcoefficients(PCCs)forDCsexcludedinApr.2008ThedistributionsofthecorrelationforDCsexcludedinApr.2008Thisresultpartiallydemonstratesthattheexcludedclonesmightbewronglyannotatedin2006.previousworkThesolidlinesanddashdotlinesrepresenttheresultsusingtheannotationdatainOct.2006andApr.2008respectively.ThedashedlinesrepresenttheresultsfortheDCpairsexcludedaccordingtotheannotationdatainApr.2008DistributionsofthecorrelationsfortheDCpairsinthecancerdatasetsThedashdotlinesandsolidlinesrepresenttheresultsusingtheannotationdatainOct.2006andinApr.2008respectively.DistributionsofthecorrelationsfortheRCpairsinthecancerdatasetsThedashlinesandsolidlinesrepresenttheresultsusingtheannotationdatainApr.2008andOct.2006respectively.三套癌数据集中RCs的相关性分布尽管2008年注释更新后的DC平均PCC有很大提高,但仍存在大量的负相关和低相关。DistributionsofmeasurementcorrelationsfortheDCandRCpairswithindifferentsignalintensityrangestheaveragePCCsforboththeDCandRCpairsdecreasedasthesignalintensitydecreased三套癌数据集中intensity对相关性的影响随着Intensity的提高探针的相关性也随之提高,探针对于低表达检测能力值得继续研究。通过差异基因(DEG)中相关性系数的分布,研究DEG对重复clone负相关的筛选能力DEG筛选方法能有效的过滤表达谱中的系统误差和噪音显示筛选出的差异基因中DC和RC出现较少的负相关现象
不论是DC还是RC,都是对应同一unigene,像这样的重复clone,尤其是RC,本应有十分相近的表达值,它们之间应该有很高的相关性。探究这种重复clone之间存在的负相关和低相关产生的原因必然会对基因表达数据的可靠性分析有着重要的影响。结论基因芯片数据处理对基于基因表达谱的疾病分类的影响
DepartmentofBioinformatics,HarbinMedicalUniversity,HarbincDNA芯片
缺失值估计方法分类算法和分类效果实验数据集和数据预处理结果结论cDNA芯片可以进行整个基因组范围的基因表达平行分析,快速有效地获得大量基因的表达信息。基因表达谱分析的一个主要应用领域是结合各种机器学习方法进行无监督疾病亚型发现与有监督疾病预测。
但由于很多原因,比如芯片擦伤、灰尘或者杂交失败以及图象污染等,使我们得到的大量基因芯片数据中有不合格的检测点。从而使得我们得到的芯片数据中具有大量的缺失值。
SamplesGenesSampleannotationsGeneannotationsGeneexpressionlevelsbackMissingvalue缺失值估计方法现在采用的许多机器学习算法需要我们输入一个完整的数据矩阵,不允许矩阵中存在缺失值。因此,针对此问题,已有许多研究提出了补缺失值的方法:
—
补零
—K近邻
—
贝叶斯主成分
—
最小二乘法等通过各种补缺失值的方法,可以避免分类器处理含有缺失值的数据。
back
数据集五套数据有缺失值基因的比率(GMV)和总缺失率(OMV)以及各个梯度下的基因数目
MR:某一个基因在数据中所有的样本中缺失的数据点
例如,一个基因在59张芯片中表达值有10个是缺失的,则该基因的缺失率为:10/59=0.17(17%)back
数据预处理为了减少系统误差影响,以使不同芯片的数据相互之间可以进行比较,必须进行标准化。对值取以2为底的对数转换后,再对每张基因芯片进行片内标准化处理,使每张芯片上的表达值的中值为0。我们采用BRBArrayTools中提供的减中值(Median)的标准化方法,即针对每一张基因芯片进行片内标准化,每一个基因的表达值为未标准化之前的表达值减去该张基因芯片所有基因表达值的中值。back
分类算法我们分析各种补缺失值的方法对支持向量机、K近邻、决策树3种最常用的有监督疾病分类算法的影响。-K近邻分类器(KNN):取11近邻进行分析。-支持向量机(SVM):采用一元多项式核函数-决策树(CART):选用CART算法。back
分类效果实验本文采用留一法LOOV(Leave-One-OutValidation)评价分类器的性能。在LOOV证实过程中,我们每次抽取一个样本为检验样本,以剩余的样本构成训练集,利用训练集训练分类器,然后对检验样本进行检验。我们用分类准确率(正确分类样本数占样本总数的比率)来评价分类器性能:
真阳性数(TP),真阴性数(TN),假阳性数(FP),假阴性数(FN)back
结果-采用表达谱上基因所有基因分类
-采用差异基因分类-采用功能表达谱分类back
采用表达谱上基因所有基因分类back采用差异基因分类基因芯片分析的一个主要的目标就是寻找差异表达基因(differentiallyexpressedgene,DEG)。目前,已有多种方法用来寻找差异表达基因。如t检验,ANOVA,SAM等。我们这里采用SAM(Significanceanalysisofmicroarrays)的方法,并且控制错误发现率(FalseDiscoveryRate,FDR)小于10%。back采用功能表达谱分类基于广泛使用的geneontology(GO)的注释体系,采用超几何分布方法检验差异表达基因注释到每个功能结点的非随机性,选择显著富集差异表达基因的功能结点(或称功能模块)(p<0.05),进一步处理后建立功能表达谱。我们规定只对每个功能类内的基因的个数不少于5个的进行分析,差异功能类的选择标准为,在具有显著性的功能单元中,如果某概念其某一个子概念同样是具有显著性的功能单元时,则只保留其相应的子概念。功能表达谱的构建
本文讨论算术均值和中位数两种指标,并将显著富集差异表达基因的功能节点的基因分为上调和下调基因,分别建立功能表达指标。对每个待分类样本计算每个功能类的功能表达指标,即得到该样本的功能表达谱K近邻方法补缺失值的功能表达谱分类准确率
结论建议保留缺失率(MR)<=5%的基因补缺失值。当保留缺失率(MR)>5%的基因时,因为较大缺失率基因的加入使得分类效果降低SVM分类器最稳健;CART分类器最不稳定;KNN分类器在采用差异基因分类时稳健采用K近邻、最小二乘、贝叶斯主成分三种缺失值估计方法对SVM和KNN分类器的分类结果影响不大,而采用补零的方法的结果较差基于功能表达谱的分类结果与差异基因的分类结果相似。但功能表达谱本质上是具有知识性、层次性、模块性的特征空间,具有特征可解释性,特征空间稳健性,特征噪音稳健性,特征降维,降低特征冗余、相关性等特点back
Oligo基因芯片的异常值处理
对有监督疾病分类的影响问题的提出芯片中异常值的处理方法数据集和数据预处理分类算法和分类效果实验实验结果实验结论问题的提出基因芯片检测信息的预处理对基于基因表达数据的各项后续分析的影响是基因表达谱研究的重要问题之一。
预处理层面:探针集水平和表达水平。(1)在探针集水平层面,已设计各种预处理技术如dChip,GCRMA,RMA和MAS等。(2)在表达水平层面,数据中存在异常值,但还没有合理的异常值的限定方法。本文主要分析基因在表达水平上,不同异常值的限定方法处理对疾病样本分类的影响。异常值处理方法采用Dudoit等提出的数据预处理流程,限定检测值的最大值为16000和最小值为100,低于最小值的检测值按最小值处理,高于最大值的检测值按最大值处理。采用限定最小值为10。设定最大值为10000、16000
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建省福州第二医院心理综合楼暖通空调工程设计
- 2022年水暖工高级证考试历年真题+模拟题附全答案
- 2026年关于林业安全生产测试题及答案
- 2024年电工电子专业自考本科统考核心题库及答案
- 2026年安永网申测试题及答案
- 2021年云南本土大数据企业招聘笔试题及标准答案
- 带编入伍协议书版本
- 上市公司资产出售协议书
- 狼性文化与团队精神
- 骨折康复训练流程培训
- 2026年教案合集2026年春人教版八年级下册英语Unit 1~Unit 8全册教案新版
- 学堂在线 雨课堂 学堂云 网球技术动作入门 章节测试答案
- 2026广东惠州市自然资源局招聘编外人员4人笔试参考题库及答案解析
- 养生食膳行业分析报告
- 2026中国中原对外工程有限公司校园招聘笔试历年难易错考点试卷带答案解析
- DB42∕T 2523-2026 党政机关办公用房面积核定工作规范
- 2026南京六合科技创业投资发展有限公司招聘9人笔试备考试题及答案解析
- 2026济南市第七人民医院公开招聘派遣制工作人员(2名)考试参考试题及答案解析
- 2026年安徽师范大学专职辅导员招聘30人考试参考试题及答案解析
- 成都合资公司管理手册模板
- 二类医疗器械零售经营备案质量管理制度
评论
0/150
提交评论