学科教育论文-将生物信息学知识带进医学统计学课堂教学.doc_第1页
学科教育论文-将生物信息学知识带进医学统计学课堂教学.doc_第2页
学科教育论文-将生物信息学知识带进医学统计学课堂教学.doc_第3页
学科教育论文-将生物信息学知识带进医学统计学课堂教学.doc_第4页
学科教育论文-将生物信息学知识带进医学统计学课堂教学.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学科教育论文-将生物信息学知识带进医学统计学课堂教学摘要:生物信息学的蓬勃发展已使医学研究由宏观逐步探索到微观。医学统计学作为一门医学院校的基础课程,其理论和方法在医学研究的新要求下其理论和方法也有了新的发展与应用。将生物信息学知识带入医学统计学课堂教学,介绍医学统计学的新发展,不但能使学员了解到本学科的前沿研究内容,有效地激发学员的学习兴趣,还能使他们掌握生物信息学研究的工具,提高今后从事医学科研工作的能力。关键词:生物信息学医学统计学课堂教学生物信息学融合了生物技术、计算机技术、数学和统计学的大量方法,已逐渐成为发现生命过程中所蕴涵知识的一门重要学科。其基本问题主要包括:DNA分析、蛋白质结构分析、分子进化。医学统计学作为医科院校的基础课程之一,长期以来其理论和方法就广泛应用于临床医学、基础医学的各类研究中。随着生物新技术的诞生,在推动生物信息学发展的同时,医学研究对象也由宏观的病人、生物组织拓展到微观的基因领域,所面对的实验数据在性质和结构上也都有所不同,这对医学统计学的应用提出了新的更高的要求。目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:一、概率分布概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、Possion分布、正态分布、t分布、F分布等。借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)t)可以依据Poisson分布的性质计算得到。二、假设检验假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。三、一些高级统计方法在基因研究中的应用(一)聚类分析聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。(二)判别分析判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论