




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学在医学数据分析中的应用1.前言随着信息技术的飞速发展,医疗数据以爆炸般的速度积累增长,特别是临床医疗数据的大量积累,但是如何有效的整合和利用这些数据进行科学研究,这就对有效数据的管理和挖掘提出了更高的要求。近年来,数据挖掘得到迅速发展,并逐渐应用到现实生活中,在分类分析方面表现相当出色,因此,已有专家将数据挖掘技术与基因表达数据分类问题相结合,发掘基因之间的关联联系,基因表达正常与非正常的活动范围,由此来理解基因表达的内在规律1,给疾病的诊断和预测、新特药的设计提供新的思路和方法。但目前医学数据的整合还存在以下问题: 一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中,有的甚至存在于医生手写的随访记录本当中,这样分散存在的数据不利于收集、整合与分析。二是以往的临床科学研究都是以手工的方式去收集和整合数据,数据的可靠性和准确性得不到保证,而且容易产生数据丢失。与此同时,人工收集数据工作量大,数据采集速度慢、试验周期长的状况,这对临床科研数据的统计和分析结果的准确性提出来质疑。 三是 在对手工搜集到的分散的数据资源进行统计分析和查询的过程中,效率滞后,容易影响科研进度。针对上述几个问题,为确保收集数据的准确性、有效性和完整性,以便进行统计分析,基于临床科研的数据管理系统应运而生。2. 支持向量机在医疗数据中的应用 在疾病检测中,单一的生理信息不足以反映人体的健康状况,因此对多种生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种,甚至几十种理化指标。医生综合这些检测的数据,根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。显然,这种诊断是主观性的,对同一个人,有时不同的医生甚至会做出截然相反的判别。多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型,并将这种模型在计算机上实现,利用这一模型可以帮助医生对待测人体做出更客观、准确和及时的诊断2。用于建立模型的方法很多,其中支持向量机是近年来发展迅速的一种理论统计方法。 支持向量机是在该情况下产生的一种新的、非常有力的机器学习新方法,是贝尔实验室研究人员Vapnik等人在统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法,也使统计学习理论第一次对实际应用产生了重大影响3,4。支持向量机是基于统计学习理论的结构风险最小化原则的,它将最大分界面分类器思想和基于核的方法结合在一起,在模式识别、信号处理、函数逼近等领域得到了应用5,6,表现出了很好的泛化能力。目前,支持向量机作为小样本学习的最佳理论,越来越多的应用于智能医学数据分析领域,成为当前智能医疗诊断研究的热点。其基本原理如下:支持向量机通过对待分类数据进行用核函数定义的非线性特征影射(x): RnZ,将其映射到某一更高维特征空间Z中,从而能够线性可分,然后在新的特征空间Z中构造最优分类超平面,形成样本分类的决策规则(图1)。最优分类平面不仅要保证将两类样本错分个数最少,还要求分类间隔最大。错分个数最少保证了经验风险最小,从而使真实风险最小。但在一般情况下,这种低维向高维的变换,可能会比较复杂,不容易实现。考虑最优分类函数只涉及样本之间的内积运算,这样在高维空间也只需内积运算:而这种高维运算是可以用原空间中的函数实现的,我们甚至没有必要知道变换的形式。根据泛函的有关理论,只要一种核函数K(x,y)满足Mercer条件7,它就对应某一变换空间中的内积。因此在最优分类面中采用适当的核函数就可以实现某非线性变换后的线性分类,而计算的复杂度却没有增加。 图1 支持向量机原理7应用支持向量机进行分类研究克服了传统分类方法中存在的过学习、维数灾难、产生局部极小点及高维特征等问题,而且在小样本条件下仍然具有良好的推广能力,因而成为智能技术研究的新的热点9。SVM在模式识别、回归分析、和概率密度估计等机器学习方面获得了较好的效果,并且已经应用于文本识别、非线性回归建模、生物信息学领域等实际问题中10,11,12。2.1支持向量机在心脏病中的应用利用SVM等对多生理样本信息进行融合处理,从而形成一种判断模型,根据 模型可以对新加的数据做出某种判别。这种判别的能力好坏不仅取决于原始样本数据数量、完整性等,还和建立模型的工具方法有直接的关系。SVM具有良好的泛化性能、结构简单,因此是建立医疗诊断模型的有效方法。如今SVM广泛应用于癌症、高血压、心脏病等诸多的医疗诊断领域。可以相信以SVM建立的医疗模型将会成为辅助医疗诊断的重要工具,应当引起相关领域研究人员的高度重视。 但在诊断中由于病人存在个体的差异和诊断数据本身的噪声和非线性等,所以要准确的诊断是困难的。而改进的支持向量机,能够去除噪声和孤立点,提高了分类的准确率,其优良特性表明本算法在医疗诊断中具有很大的应用潜力。在对心脏病数据进行分类时,支持向量机算法相对于其他算法的优势主要表现在以下两个方面: (1)支持向量机分类器通过求解一个凸二次规划得到,二次规划所得的解是唯一的且为全局最优解,这样不存在局部极值问题; (2)支持向量机分类器只由少数支持向量确定,且将非线性问题的求解转化为计算确定的核函数。 徐义田13等通过运用结构风险最小化原理和聚类原理,将支持向量机中有监督的分类算法与统计中无监督的聚类算法有机结合起来,对线性可分与线性不可分两种情况分别建立了无监督的分类模型。模型的求解转化为一个二次规划问题,同时此模型也适合于多分类情况。在应用到心脏病的医疗诊断中,准确率为88.5%,明显优于其他诊断方法。有文献14报道,利用心电图特征,如各个波形的问期、幅值等信息作为分类依据,采用支持向量机和高阶统计量的方法对心律异常的心拍进行分类。苏枫15等通过采用支持向量机 SVM 和 Adaboost 分类算法,设计高精度的分类模型和分期模型,发现结合 Adaboost 和 SVM 两种机器学习模型,能为心力衰竭的诊断及分期提供较准确的模型。费胜巍16针对SVM参数选取困难的难题,提出基于PSO的SVM参数优化方法,提出了基于PSO-SVM的心律失常诊断方法,通过PSO优化的SVM分类器具有较高的分类精度,并通过诊断实例证明了其可行性和正确性。本研究通过检测80例先天性心脏病患者与80例健康对照者的cTnI、hs-CRP、BNP、Lp(a)水平,结果表明病例组的cTnI、hs-CRP、BNP、Lp(a)水平显著高于对照组,差异具有统计学意义。以cTnI、hs-CRP、BNP、Lp(a)四个血清指标建立的支持向量机先天性心脏病诊断模型,经测试结果准确率为85%,同徐义田13等报道研究一致。 2.2 支持向量机在结直肠癌中的应用 针对当前医疗领域数据挖掘中分类方法效率低以及分类准确率低等问题,以特征基因选择为主要研究内容,以有效提高基因表达谱分类方法准确性为目标,研究基因表达数据的数据挖掘方法,为肿瘤识别及基因表达数据特征分类提供技术支持,对致病基因与癌症关系的正确理解、肿瘤特征基因的选择和分类,具有重要的理论意义和临床应用价值。大肠癌是发病率最高的恶性肿瘤之一,早期大肠癌手术后的5年存活率超过90%,晚期癌手术后则低于10%,建立有效的大肠癌筛查与早期诊断方法,以实现早期治疗成为提高患者生存率的关键17。Furey等18以结肠癌为研究对象,通过计算信噪比提取特征基因,应用支持向量机的方法分析特征基因表达数据,建立肿瘤预测模型。对结肠癌数据提取了2000个特征基因,在62个样本中预测模型正确分类了56个样本,分类的正确率为90.3%。 Ramaswamy等18分析了涵盖14种肿瘤的144个样本的基因表达数据,使用支持向量机方法提取特征基因,并用此方法建立肿瘤预测模型。Zhang等20在统一处理中把基因选择和癌的分类、获取高准确率同时实现。采用的算法为SCAD SVM(smoothly clipped absolute deviation)。在国外,从20世纪90年代末开始,包括Science在内的国际著名期刊陆续发表的论文中公布了许多有价值的研究成果。支持向量机针对基因表达数据的研究,各方面涉及较多,如基因分类、基因功能分类及特征提取等,表明支持向量机技术在信息学中的应用日趋成熟。K-ras基因野生型大肠癌患者的抗表皮生长因子受体对结直肠癌(epidermal grow th factor receptor,EGFR) 治疗效果好,因此 K-ras 基因检测有利于筛选出抗EGFR药物治疗有效的大肠癌患者,从而实现大肠癌患者的个体化治疗,延长患者的生存期,并大大降低治疗的毒性和不必要的费用21,因此建立了一种基于最小二乘支持向量机数学模型的大肠癌K-ras基因突变预测方法就显得至关重要。将LS-SVM应用大肠癌K-ras基因突变的预测,模型针对训练集的预测正确率达到100%,说明模型的内推能力很强,对检验集的预测正确率达到79.40%, 虽没有测试集的效果好,但是其方差较小,说明模型的稳定性还是很高的。造成测试集效果没有训练集高的原因可能是模型的参数选取和样本 K-ras突变量较少,应用LS-SVM 预测模型预测大肠癌K-ras基因突变是可行的,如果再与测序的结果相印证,就大大提高对突变能检测的信度22。目前,已有的血清肿瘤标志物对结直肠癌诊断过程中大都特异性低、灵敏性差,但非特异性的血清肿瘤标记物对结直肠癌早期癌诊断以及预后监测仍具有一定的临床价值【23】。在统计学中,用来作为衡量某特征特异性的方法有很多,目前用的最多的是距离度量。距离度量也可称作“离散度准则”、“类别可分离判据”。距离作为统计模式识别中的一个重要概念,主要包括巴氏距离、欧氏距离和马氏距离,而巴氏距离往往用于基因表达谱特征的分析,不管是维数高还是维数低的数据都较为适用,其应用范围较广。本研究结果表明,当采用12个指标联合建立SVM模型时,模型分类的准确度为73.33%,不够理想。联合CEA、NSE、CYFRA21-、AFP、CA724等7项指标建立SVM模型,判别准确率可达86.67%。这表明,选用过多的指标联合鉴别结直肠肿瘤的良恶性,可能会由于指标冗余而干扰其中有用指标判别的效果,造成判别准确率的降低。本研究采用巴氏距离判别法可以有效筛选出特异性较高的指标,联合特异性较高的指标可以建立准确率较高的SVM诊断模型。当采用巴氏距离最高的4个指标:CEA、NSE、CA724、AFP建立SVM模型时,模型的判别准确度为80%,反低于联合7个指标建立的模型准确度。这表明,选用的指标并不是越少越好,指标过少可能会导致判别结果不稳定,出现一定的偶然性。3. BP神经网络在医疗数据中的应用 BP(Back Propagation)神经网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各个神经元,最后传递到输出层神经元,经处理后完成正向传播处理过程,由输出层向外界输出信息处理结果。实际输出与期望输出不符时,进入误差的反向传播阶段。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,一直进行到网络输出的误差减少到可以接受的程度。BP神经网络结构如图224所示:图2 BP神经网络结构BP神经网络主要包括输入层,隐含层和输出层三个组成部分。输入层和输出层各为一层,根据所研究问题的复杂程度和样本量的大小,隐含层可以是单层也可以是多层。上图所示为隐含层包含二层的BP神经网络模型。神经网络是一个具有高度非线性的超大规模连续时间动力系统。是由大量的处理单元(神经元)广泛互连而形成的网络。它是在现代神经科学研究成果的基础上提出的,反映了脑功能的基本特征。但它并不是人脑的真实描写,而只是它的某种抽象、简化与模拟。网络的信息处理由神经元之间的相互作用来实现;知识与信息的存储表现为网络元件互连问分布式的物理联系;网络的学习和计算决定于各神经元连接权的动态演化过程。因此神经元构成了网络的基本运算单元。每个神经元的输入信号是所有与其相连的神经元的输出信号加权后的和,而输 出信号是其净输入信号的非线性函数。根据网络拓扑结构和学习规则,可将人工神经网络分为多种类型,如不含反馈的前向神经网络、层内有相互结合的前向网络、反馈网络、相互结合型网络等。BP神经网络不需要精确的数学模型,对自变量和因变量没有任何假设要求,自变量和变量可以是连续也可以是离散,而且BP神经网络具有很强的容错性和联想记忆功能25。理论上讲,一个训练好的BP神经网络能逼近任何自变量和因变量之间的函数关系,BP经网络通过模拟人的智能行为可以处理一些复杂、不确定、非线性的问题,所以说BP神经网络为解决没有先验知识、模糊的、复杂的、非线性的问题提供了一个全新而且有效的途径。由于人工神经网络是基于对人脑组织结构、活动机制的初步认识而提出的一种新型信息处理体系,因此它可以呈现出人脑的许多特征,并且具有人脑的一些基本功能。 (1)并行分布处理:人工神经网络是由大量简单处理元件相互连接构成的高度并行的非线性系统,具有大规模并行性处理特征。虽然每个处理单元的功能十分简单,但大量简单处理单元的并行活动使网络呈现出丰富的功能并具有较快的速度。一个神经网络可存储多种信息,其中每个神经元的连接权中存储的是多种信息的一部份。当需要获得已存储的知识时,神经网络在输入信息激励下采用“联想”的办法进行记忆,因而具有联想记忆功能。神经网络内在的并行性与分布性表现在其信息的存储与处理都是空间上分布、时间上并行的。(2) 自学习、自组织与自适应性:当外界环境发生变化时,神经网络能在外部刺激下按一定规则调整神经元之间的突触连接,调整结构参数,逐渐建立起新的神经网络。 (3)鲁棒性:神经网络有很好的鲁棒性,一方面,由于信息的分布式存储,当网络中部分神经元损坏时不会对系统的整体性能造成影响,这一点就象人脑中每天都有神经细胞正常死亡而不会影响大脑的功能一样:另一方面,当输入模糊、残缺或变形的信息时,神经网络能通过联想恢复完整的记忆,从而实现对不完整输入信息的正确识别。 (4)分类与识别:人工神经网络对外界输入样本具有很强的识别与分类能力。对输入样本的分类实际上是在样本空间找出符合分类要求的分割区域,由于神经网络可以很好地解决对非线性曲面的逼近,因此比传统的分类器具有更好的分类与识别能力26。3.1 BP神经网络在心脏病中的应用 心脏病(heartdisease)位居世界卫生组织列出的人类健康“十大杀手”之榜首,全世界每年有数百万人死于心脏病。在我国,每年有几十万人死于心脏病。由于心脏病的病理形态、功能改变和临床表现等方面可涉及多系统、多脏器,往往又有各种并发症和伴发症存在,而且疾病表征还具有模糊性、不确定性和游走性等特点,因此心脏病的准确诊断一直是医学临床上的一个重点和难点,用人工智能方法建立心脏病决策支持系统就具有重要的临床意义。在我国,心脏病以高血压性心脏病、冠状动脉粥样硬化性心脏病、风湿性心脏病、慢性肺原性心脏病和先天性心脏病这五种心脏病最为常见,对人们健康危害也最大。因此,本章采用人工神经网络方法,构建了一个基于人工神经网络的诊断决策支持系统来鉴别诊断这五种常见的心脏病。 根据遗传算法的基本原理和方法,对基本遗传算法进行了改进,并将遗传算法与神经网络BP算法相结合,构建了一个基于混合遗传算法医学诊断决策支持系统,将该系统用于心脏病的辅助诊断中,实验结果表明,本章构建的混合遗传算法医学诊断决策支持系统不仅能对五种常见心脏病有较好的分类识别能力,表现出良好的心脏病临床决策支持能力。根据遗传算法可以挖掘属性对象内部关系的特性,我们还探索了疾病的重要诊断参量的提取方法。全国总体手术构成:先心病居首位( 60-65),瓣膜病次之( 2O-25), 冠心病外科第3位 (10-2O),我国每年超过150,000病人进行心脏手术,有8,000,000心脏病人需要进行心脏手术治疗。针对中国心胸外科发展趋势和现状,如果能不断提高诊断水平、增强风险意识,将会造福更多的心胸疾病患者。 传统心脏病诊断方法医生根据患者病史、病状、检查结果,并用所学病理知识和经验进行综合分析得出诊断结果。随着人工智能技术的发展,为避免人为和主观 因素,得到更为准确和客观的心脏诊断结果。本文拟采用神经网络技术,使用克利夫兰诊所基金会提供的疾病数据,分别建立BP、RBF和LVQ神经网络三种诊断方案,应用于心脏病诊断。文献27利用室性早搏心拍和室上性早搏心拍的小波特征形态和RR间期参数作为BP神经网络的输入,实现了正常、室性早搏和室上性早搏的识别。文献28利用心电波形的四阶回归模型系数作为BP网络的输入层,可用来识别正常心拍、房性早搏以及室性期前收缩。文献29利用BP神经网络进行心拍分类。但BP神经网络存在两个重要问题:收敛速度慢和目标函数存在局部最小点。文献30,31中采用了遗传算法(genetic algorithm,GA)来优化BP网络, 实现了正常心拍、左束支阻滞、室性早搏等心律失常的分类,取得了一定的效果。李刚32等人在BP网络训练之前引入LADT压缩算法对心电数据进行处理,与传统的BP神经网络相比,其训练、测试速度与分类精度有很大的提高。而本研究纳入所有4个参数,建立BP神经网络,对训练好的网络分两步进行测试,首先对训练样本进行测试,先天性心脏病病例的正确检出率为100%,误诊率为0,进一步对于测试集样本正确检出率为100%。3.2 BP神经网络在结直肠癌中的应用 结直肠癌是世界上最常见的恶性肿瘤之一,其发病率分别居男、女性恶性肿 瘤的第3和第2位,死亡率居世界恶性肿瘤的第4位33。近年来,随着我国经济的发展,居民饮食结构和生活方式发生了明显改变,结直肠癌发病率在快速上升,有研究表明20世纪90年代与70年达相比,我国城市结直肠癌发病率上升了31.95%,农村增加了8.51%,2005年因结直肠癌死亡人数较1991年增加 70.7%,平均每年增长4.7%34。有研究发现,结直肠癌发病率在我国天津、上海等大城市已居于男性第3位,女性第2位35。结直肠癌是一种预后较差的恶性肿瘤,尽管临床诊治水平在不断提高,但结 直肠癌患者的预后状况仍然不乐观,5年生存率徘徊在50%左右36,37。在临床实践中,临床医生经常需要根据某些危险因素判断患某种疾病的可能性以及判断患者的生存时间或者预后等,传统统计学方法在预后研究中有一定的局限性,而BP神经网络可以用于预后研究,在大肠癌预后研究中,BP神经网路在模型拟合和预测方面都取得较好效果,且BP神经网络与Logistic回归模型性能比较显示:在大肠癌预后研究中,BP神经网络不论是在模型拟合还是前瞻性预测方面都优于传统统计学方法Logistic回归模型38。BP神经网络对资料不作任何假设,输出变量可以是分类型变量也可以是连续型变量,因而可以用于肿瘤患者术后生存期的预测。贺佳等39采用BP神经网络方法预测肝癌患者的术后无瘤生存期,结果显示,网络的回代贡献率83.94%,网络对检验集的贡献率为71.11%,经检验,预测值与实际值相符(P=0.692)。赵振40的研究结果显示BP神经网络预测肝转移患者术后生存期与实际结果相比没有显著性差异。陈权41通过用BP神经网络训练,效果虽不太理想,但依然能够进行有效预测,预测结果与实际结果间没有显著性差异(t=0.576,P0.574),研究结果表明BP神经网络能有效应用于结直肠癌患者术后生存期的预测。姚尧之42研究表明,在对大肠癌早期荧光光谱数据进行处理后,通过BP神经网络进行癌组织与非癌组织识别,识别准确率较高,这对推动大肠早癌诊断进入临床运用具有较好的作用。本研究中,纳入12个血清指标建立的BP神经网络,对训练好的网络进行测试,测试分两部分进行。首先对训练样本进行测试,结直肠癌病例的正确检出率为100%,误诊率为0,进一步对于50例测试集样本正确检出率为100%。纳入AUC面积在0.8以上的9个指标:CEA、CA50、HSP60、CYFRA21-1、TPA、CA242、CA724、CA125、UGT1A8,建立的BP神经网络,对训练好的网络分2部分进行测试,首先对训练样本进行测试,结直肠癌病例的正确检出率为100%,误诊率为0,进一步对于50例测试集样本正确检出率为100%。纳入AUC面积在0.9以上的指标CEA、CA50、HSP60、CYFRA21-1、TPA、CA242、UGT1A8,建立的BP神经网络,对训练好的网络分两部分进行测试,首先对训练样本进行测试,结直肠癌病例的正确检出率为100%,误诊率为0,进一步对于50例测试集样本,有48例预测正确,2例预测失败,正确检出率为98%,误诊率为2%。结果表明,BP神经网络建立的诊断模型在结直肠癌的诊断中准确率高,具有很好的应用前景。4. Logistic回归分析在医疗数据中的应用Logistic 回归分析是Cox于1970年最早提出的一种概率模型,属于概率型非线性回归,主要用于处理因变量是分类型变量的资料,它巧妙的避开了分类型变量的分布问题,转化为研究因变量取某一值时的概率,因变量取某一值时相应概率的取值范围为0-1,弥补了线性回归和广义线性回归分析不能处理因变量为分类型变量的缺陷,使得近年来Logistic回归模型被广泛应用于医学研究的各个领域,如流行病学、病因学研究、病例对照研究、临床诊断的判别模型以及治疗效果的评价等。Logistic回归分析在单独面对医学领域日益庞大和复杂多变的数据信息时,往往受到一定的限制,无法使数据信息得到充分利用,应用不当还会得出错误结论。因此,随着统计学方法的不断发展,Logistic回归分析在医学研究的文献资料中常常不再单独出出现,而是与其它方法相互结合,充分利用资料中的信息,进而得出相对准确的结论。 Logistic回归分析因变量最常见的类型为二值变量,如阳性与阴性,生存与死亡,有效与无效等;此外,Logistic回归分析还常用于处理因变量为多分类变量或有序变量的资料。Logistic回归分析对自变量类型没有要求,自变量可以为连续变量,也可以为分类变量或有序变量。Logistic回归模型用公式表示如下:式中0为常数项,又称为截距,i为回归系数,X为回归方程的自变量,P表示在m个自变量的作用下,因变量取某一值时的概率,范围为0-1。回归系数i表示在其他自变量不变,Xi 每改变一个单位时LogitP 的改变量,标准化偏回归系数是评价影响因素作用大小的指标,与相对危险度(RR)或比值比(OR)呈对应关系,OR=exp(i),当发病率很低时,ORRR。发病率较低的疾病,如恶性肿瘤,比值比可以作为相对危险度的估计值。Logistic回归模型是一种概率模型,适合于病例-对照组研究、随访研究和横断面研究,且结果发生的变量必须是二分的或多项分类。Logistic回归分析的特点之一是参数意义清楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研究。4.1 Logistic回归分析在先天性心脏病中的应用 先天性心脏病(congenital heart disease,CHD) 即指先天性心血管疾病, 是由于心脏、血管在胚胎发育过程中的障碍所至的心脏、血管形态结构、功能、 代谢上的异常。研究表明,71%的CHD患儿可存活到生育年龄以后。可见CHD已成为影响我国儿童身心健康及人口生存质量的重大公共卫生问题,给社会和个人带来了沉重的经济和精神负担。对于CHD的病因,目前较普遍的观点认为CHD 的发生绝大多数是遗传因素和环境因素相互作用的结果,即多因子遗传疾病或多基因遗传疾病,强调在内在多基因遗传基础上,胚胎在心管、血管形成过程中遇到各种外界环境致畸原所触发而引起的,约占CHD的80% -90%43,44。同时,CHD 危险因素、统计分布存在国家和地域性差异。利用单因素条件Logistic回归可对可能的影响因素进行初选、数据结构分析和适当的变量函数转换。然后对初选的可疑危险因素进行共线性诊断,改进变量间的共线性关系后用多因素条件 Logistic逐步回归作进一步筛选,建立并评价先天性心脏病影响因素的最优回归模型。本研究通过Logistic回归分析表明cTnI、BNP、Lp(a)等血清指标均与先天性心脏病具有显著的相关关系,联合诊断时cTnI、BNP、Lp(a)三者两两结合与先天性心脏病相关,联合检测ROC曲线结果表明cTnI、BNP、Lp(a)三者两两结合的AUC均大于0.9,具有较高的诊断价值。4.2 Logistic回归分析在结直肠癌中的应用结直肠癌是常见的消化道恶性肿瘤,其发病率和病死率均较高,充分了解结 直肠癌的预警症状、掌握结直肠癌的发病特点和临床特征是及时诊断并制定有 效治疗方案的基础,因此可采用Logistic回归分析对结直肠癌各临床特征与诊断关系进行预测。梁君林等45通过应用单因素和多因素Logistic回归分析,对结直肠癌根治术后患者的临床病例资料进行回归分析,淋巴结转移(数目或部位)和肿瘤分化程度是影响Dukes C期结直肠癌术后复发转移最重要的独立因素,对于判断预后、指导术后治疗及随访方案的制订具有重要作用。李增军等46研究报道,Logistic回归分析显示,淋巴结转移、肠壁浸润深度是影响结直肠癌术后复发转移重要的预后因素。屠世良47通过Logistic分析得出的与直肠癌淋巴结转移相关因素按密切程度依次递减为:浸润深度、大体类型、分化程度、肿瘤大小,这对术后复发的防治提供了理论依据。本研究第二章利用Logistic回归分析和ROC曲线分析两种方法,从CEA、HSP60、CYFRA21-1、TPA、AFP、CA199、CA242、CA50、CA724、CA125、CA153和UGT1A8等12个结直肠癌肿瘤标志物指标中,筛选出CEA、CA199和HSP60三个指标,纳入Logistic回归模型,该模型的AUC为0.906,明显高于三种肿瘤标志物任一指标的AUC,但该诊断模型的准确率(82.67%)低于联合CEA、NSE、CYFRA21-、AFP、CA724等7项指标建立的SVM模型(86.67%)。顾平等【48】应用Logistic回归分析筛选出诊断价值较高的结直肠癌肿瘤标志物,然后采用ROC曲线探讨了CEA、CA199及CA50在结直肠癌中的诊断价值,结果发现:结直肠癌-良性结直肠病中,CA50的曲线下面积(AUC)要高于CA199的AUC,而CEA、CA50两项联合诊断结直肠癌的 AUC(0.875)均高于单项检测及CEA、CA199、CA50三项联合诊断的AUC(0.604),由结果可知Logistic回归分析作为一种统计学方法手段,可以提高诊断的特异性和灵敏度,这与国外研究报道一致49。近年来 ,快速发展的信息技术与现代医学越来越紧密地结合在一起 ,产生的生物医学信息处理技术特别是计算机辅助诊断模型的建立在疾病的诊断及预后评估中得到了很好的应用。 目前,生物医学信息处理主要包括 医学 图像及数据处理与分析、计算机辅助诊断与治疗系统、医学信号的检测与处理和基于基因技术 的生物信息学。本文中以相关血清标记物为参数基于SVM、BP神经网络及Logistic回归分析建立的诊断模型,在先天性心脏病和结直肠癌的诊断中均表现出了较好的应用效果,与先前的研究表现出了一致性。表明生物信息学作为一门崭新的综合性学科,在医学应用上有着广阔的空间和前景。 1 Chen R, Jiang Q, Yuan H,et al. Mining Association Rules in Analysis of Transcription Factors Essential to Gene ExpressionsJ. Atlantic Symposium on Computational Biology and Genome Information System & Technology, March 2001.2 李新胜.等. 生理信息融合技术的研究进展J. 生物医学工程学杂志,2000:17 ( 4 ):464-468.3 左森,郭晓松.基于支持向量机的实时路面检测算法J.计算机工程,2007,33(4):225-227.4 Xue Wang,Daowei Bi,8heng Wang.Fault Recognition with Labeled Multicategory Support Vector MachineJ.IEEE Transaction on Neural Computation,2007,24(27):567-5715 Vapnik VN. An overview of statistical learning theoryJ. IEEET rans Neural Netw ork,1999,10 (5):988-999.6 Vapnik VN. The Nature of Statistical earning theory M. New York: Springer- Verlag, 1999.7 Vapnik V. The nature of statistical learn in g theory. New York: Springer-V erlag, 1995.8 范子雄,向平等.支持向量机在心脏病诊断中的应用J.科学技术与工程,2006,6(1):56-63.9 Nello C, John ST. 李国正等译.支持向量机导论M. 第1版.北京:电子工业出版社, 2004, 24-45.10 刘阳.基于SVM的蛋白质相互作用位点的预测研究D. 上海:上海大学硕士学位论文,2006.11 杨铁建. 基于支持向量机的数据挖掘技术研究D. 西安:西安电子科技大学, 2006.12.12 Joachims T. Text categorization with support vector machines: learning with many relevant featuresC. The 10th European Conference on Machine Learning, Chemists, DE, 1998, Vol.1398, 137-142.13 徐义田, 王来生等.基于SVM的分类算法与聚类分析J. 烟台大学学报(自然科学与工程版, 2004, 17(1):10-13.14 BesrourR, Lachiri Z. ECG beat classifier using support vector machine. IEEE Inform Commun Technol. 2008; 3: 1-5.15 苏枫,张少衡等.基于机器学习分类判断算法构建心力衰竭疾病分期模型J.中国组织工程研究, 2014,18(49): 7938-7942.16 费胜巍. 基于ECG信号的健康监测与诊断系统研究D. 上海: 上海交通大学, 2009. 1117 Weinberg DS. In the clinic:colorectal cancer screening. Ann Intern Med, 2008, 148( 3): ITC2-1-I TC2-16.18 Terrence S, Nello C, Nigel D, et al. Support Vector Machine Classification and Validation of Cancer Tissue Samples Using Microarray Expression DataJ.Bioinformatics, 2000, Vol. 16 No.10: 906-914.19 Sridhar Ramaswamy, Pablo Tamayo,Ryan Rifkin, et al.Multiclass cancer diagnosis using tumor gene expression signaturesJ. PNAs. 2001,Vol.98,No. 26: 15149-15154.20 Z Hao.A Jeongyoun. L Xiaodong. Gene selection using support vector machines with non-convex penaltyJ. Bioinformatics.Vol.00 No.00 2005 Page1-8.21 Ma W W, Adjei AA . Novel agents on the horizon for cancer therapy. CA Cancer J Clin, 2009, 59( 2): 111-137.22 单连峰, 李新等. 基于最小二乘支持向量机的大肠癌K-ras基因突变预测J.山西医药杂志.2011,40(4):339-340.2324 陈权.BP神经网络在结直肠癌预后研究中的应用D.武汉:华中科技大学.2011.12.25 邓伟, 金丕焕. 人工神经网络及其在预防医学中的应用J. 中国公共卫生, 2002, 18(10): 1265-1267.26 R.O.Duda,P.E.Hart and D.G.Strok.Pattern Classification(second edition).Wiley.2001.27 Ince T ,Kiranyaz S, Gabbouj M. A generic and robust system for automated patient-specific classification of ECG signals. IEEE Trans Biomed Eng 2009; 56(5):1415-1426.28 Srinivasan N. Autoregressive modeling and classification of cardiac arrhyth mias Proc EMBS/BMES. 2002; 2: 1405-1406.28 张泾周, 李陈, 李婷, 等. 基于神经网络的心电信号分类方法研究J.中国医疗器械杂志, 2008, 32(3): 183-186.30 Osowski S, Siroic R. Genetic Algorithm of Integration of Ensemble of Classifiers in Arrhythmia Recognition. International Instrumentation and Measurement Technology Conference. Singapore. 2009.31 Gacek A, Pedrycz W. A genetic segmentation of ECG signals. IEEE Biomed Eng. 2003; 10(5O): 1203-1208.32 李刚, 叶文宇, 何峰等. 基于LADT-BP算法的心电图快速分析J.中国生物医学工程学报, 2001,20(2): 127-131.33 Ferlay J, Shin HR, Bray F, et al. Estimates of worldwide burden of cancer in 2008: GLOBOCAN 2008. J. International Journal Of Cancer, 2010, 127(12): 2893-2917.34 Richie JP, Catalona WJ, Ahmann FR, et al. Effect of patient age on early dete
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 伞的秘密教学课件
- 邮箱指引文件管理办法
- 配电反违章管理办法
- 2025年住房拆迁面试题及答案
- 澄海民间资金管理办法
- 电网现场违章管理办法
- 甘肃地区礼金管理办法
- 国家公务员基础知识题库大全(附答案)
- 智能楼宇协同策略-洞察及研究
- 中药炮制工高级试题库与参考答案
- 万科物业管理服务方案
- 中国糖尿病行为与生活方式干预指南(2024版)解读课件
- 《对外汉语比字句》课件
- 《中华人民共和国职业分类大典》(2022年版)各行业职业表格统计版(含数字职业)
- 养老院消防应急演练的不足与改进措施
- 七年级上册劳动与技术教案
- 高级职称答辩模板
- 小学数学苏教版三年级上册第一单元《两三位数乘一位数混合运算》试题
- 2024年秋季新北师大版七年级上册数学全册教案
- 河南省第二届职业技能大赛健康和社会照护项(世赛)项目技术工作文件
- 中国农业发展史
评论
0/150
提交评论