(计算机软件与理论专业论文)生物信息数据挖掘若干关键问题研究与应用.pdf_第1页
(计算机软件与理论专业论文)生物信息数据挖掘若干关键问题研究与应用.pdf_第2页
(计算机软件与理论专业论文)生物信息数据挖掘若干关键问题研究与应用.pdf_第3页
(计算机软件与理论专业论文)生物信息数据挖掘若干关键问题研究与应用.pdf_第4页
(计算机软件与理论专业论文)生物信息数据挖掘若干关键问题研究与应用.pdf_第5页
已阅读5页,还剩98页未读 继续免费阅读

(计算机软件与理论专业论文)生物信息数据挖掘若干关键问题研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据挖掘研究经过十余年的发展,涌现了众多的挖掘算法。这些算法各具特 色,涉及了统计、人工智能、机器学习、 挖掘以其强大的分析能力向各行业渗透, 合应用领域的特色而得到发展。 数字信号处理等研究领域。近几年数据 研究方向也逐步转向应用。数据挖掘结 生命科学近年来获得突破性进展,随着信息技术在生物学研究中得到广泛应 用,现代生物学的研究方法也而发生了深刻的变化,强有力的数据分析技术与工 具成为现代生物学研究发展的关键。数据挖掘技术因其在大规模数据处理方面的 卓越能力而在其中占据越来越重要的地位。但是生物信息学中的数据挖掘研究仍 然处于起步阶段,有很多问题需要解决。 本文针对生物信息数据挖掘目前需要解决的若干关键问题进行研究,具体研 究成果如下: 1 1 采用数据挖掘技术进行大规模基因表达谱分析,总结了基因表达谱芯片数 据分析的主要分析需求,提出了基因表达相似性解释分析、特殊表达基因分析、 基因表达副路径分析等六个分析模型,并对每个分析模型设计了具体的数据挖掘 分析方法。实际应用表明,这些分析满足了表达谱分析的主要需求,分析结果具 有指导意义。 2 1 针对生物信息数据挖掘软件统一架构问题,提出一个适于生物信息分析的 数据挖掘应用平台四层架构b d m a p a 。这四层包括:数据层、数据挖掘算法工具 层、分析逻辑层和应用系统层。此构架实现了数据挖掘算法、分析模型、应用系 统三者在逻辑上的隔离分层,使得数据挖掘算法和分析模型均成为可重用的单位, 降低了数据挖掘系统设计与使用难度,实际的应用情况表明此构架十分适合生物 信息分析。 3 1 研究生物信息集成与标准化存在的问题,提出了基因表达谱芯片数据库的 设计框架,遵循最小信息内容要求的m i a m e 原则。在此基础上提供了灵活的与 数据库模式无关的数据转换工具,设计了芯片数据库c b i o d b 及其管理系统。 4 1 设计并实现了基因表达谱芯片数据挖掘系统c b i o m i n e r ,该系统具有良好 的伸缩性和实体独立性,使用方便,易于定制。提供了基因表达谱分析的完整流 程和结果可视化,满足主要分析需要。 关键词:数据挖掘,生物信息学,基因芯片,基因表达,分析模型,路径分析 复旦大学博士学位论文 a b s l t i l a b s t r a c t d a t am i n i n gh a sb e e na na c t i v ef i e l do fs t u d yf o rm o r et h a nad e c a d e ,a n da n u m b e ro fa l g o r i t h m sa r ed e v e l o p e dt od e a lw i t l l a l ls o r t so fd a t am i i l i n gp r o b l e m s t h e s ea l g o r i t h m se m p l o yav a r i e t yo fm e t h o d o l o g i e s ,i n c l u d i n gs t a t i s t i c s ,a r t i f i c i a l i n t e l l i g e n c e ,m a c h i n el e a r n i n g ,a n dd i g i t a ls i g n a lp r o c e s s i n ga n ds oo n i nr e c e n ty e a r s , d a t am i n i n g t e c h n o l o g i e s a r es u c c e s s f u l l ya p p l i e dt ov a r i o u si n d u s t r i e sa n dh a v e d e m o n s t r a t e di t sk n o w l e d g ed i s c o v e r yp o w e r t h ef o c u si sn o wo nt a i l o r i n gt h ed a t a m i n i n gt e c h n i q u e st os p e c i f i ca p p l i c a t i o n s as e r i e so f b r e a k t h r o u g h sh a sb e e nm a d ei nl i f es c i e n c er e c e n t l y a sa r e s u l to ft h e s u c c e s s f u le x e c u t i o no ft h eh u m a ng e n o m ep r o j e c tr h g p ) a n dr e l a t e da d v a n c e m e n ti n m o d e mb i o l o g y , ah u g ea m o u n to fd a t ah a sb e e na c c u m u l a t e d ,p r o v i d i n gas t r o n gd a t a b a s ef o r u n c o v e r i n g t h es e c r e to fl i f e b i o l o g i c a ld a t ai sr i c hi nv a r i e t y , a n d h i g h t h r o u g h p u tw i mh i g hd i m e n s i o n s i ne s s e n c e i th a sh e t e r o g e n e i t ya n dn e t w o r k c h a r a c t e r st h a ta r ef a rb e y o n dt h ep o w e ro ft r a d i t i o n a la n a l y t i c a lm e a n s t h ea n a l y s i so f t h e s eb i o d a t ab e c o m e st h eb o t t l e n e c ko fb i o l o g i c a lr e s e a r c h a p p l y i n gi n f o r m a t i o n t e c h n o l o g yt om o l e c u l a rb i o l o g yg i v e sa r i s eab r a n dn e wf i e l d ,b i o i n f o r m a t i c s a sa l l e f f e c t i v ew a yo ff i n d i n gt h en e e d l e ( b i o l o g i c a lk n o w l e d g e ) f r o mah a y s t a c k ( r a wd a t a ) , d a t am i n i n gh a sa l s ob e c o m ei n c r e a s i n g l yi m p o r t a n ti nb i o i n f o r m a t i c ss t u d y a sar e s u l to ft h ep r o g r e s so ft h eg e n o m er e s e a r c ha n dt h ea d v e n to fm a n yh i g h t h r o u g h p u tt e c h n o l o g i e s ,p r o f o u n dc h a n g e s a r e t a k i n gp l a c e i nt h er e s e a r c h m e t h o d o l o g yo f m o d e mb i o s c i e n c e s e v e nt r a d i t i o n a l l ye x p e r i m e n t - b a s e ds u b j e c t sm o r e a n dm o r eu t i l i z eb i o i n f o r m a t i c st o o l st oi n t e r p r e te x p e r i m e n t a ld a t aa n dt og a t h e rf r u i t f i d h i n t so ne x p e r i m e n t a ld e s i g n t h e r e f o r e ,f i n d i n ge f f e c t i v ea n a l y s i st o o l sb e c o m ea p r e s s i n gi s s u ef o rt h ea d v a n c e m e n to f m o d e mb i o l o g i c a ls c i e n c e s c o m p u t e rs c i e n t i s t sh a v eal o to fi n t e r e s t si ng e t t i n gi n v o l v e di nb i o i n f o r m a t i c s d a t aa n a l y s i s a sam a j o rm e t h o d o l o g y , d a t am i n i n gh a sap r o m i s i n gr o l et op l a yi nt h i s e n d e a v o r h o w e v e r , r e s e a r c h e so nd a t am i n i n gi nb i o l o g ya r es t i l li nap r e l i m i n a r yp h a s e a n da r ef a c i n gal o to fc h a l l e n g e s h o wt o a p p l yv a r i o u sd a t am i n i n gt e c h n i q u e s e f f e c t i v e l yt ob i o l o g i c a li n f o r m a t i o na n a l y s i si sah o ts u b j e c tt o d a y t l l i si n c l u d e s f i n d i n gd a t am i n i n gs y s t e ma r c h i t e c t u r e ,n e wa l g o r i t h m s ,a n dn e wm e t h o d o l o g y , e t c t h a ta r es u i t a b l ef o rb i o i n f o r m a t i c sd a t aa n a l y s i s t l l i sd i s s e r t a t i o nf o c u s e so nd a t am i n i n ga p p l i c a t i o ni nb i o i n f o r m a t i c s n 地m a i n r e s u l t so f t h i ss t u d ya r es u m m a r i z e da sf o l l o w s : 1 g e n ee x p r e s s i o nd a t aa n a l y s i s a f t e rr e v i e w i n gt h ee x i s t i n gg e n ee x p r e s s i o nd a t a m i n i n g ,a n a l y s i sm o d e l so ng e n ee x p r e s s i o ns i m i l a r i t ye x p l a i n ,p e c u l i a re x p r e s s i o n g e n ea n a l y s i s ,a n db y p a t ha n a l y s i sm o d e le t c h a v eb e e np r o p o s e d e a c hm o d e li s m a p p e dt og i v e na n a l y s i sf l o wa n dd a t am i n i n ga l g o r i t h m s t h e s em o d e l sa r e p r a c t i c a lf o rb i n - d a t aa n a l y s i s 2 b i o i n f o r m a t i c sd a t am i n i n gs y s t e ma r c h i t e c t u r e t ob u i l dab e t t e rd a t am i n i n g a p p l i c a t i o nf r a m e w o r kf o rb i o i n f o r m a t i c sd a t aa n a l y s i s ,w ed e v e l o p e da4 - t i e rd a t a m i n i n ga r c h i t e c t u r e ,b d m a p a ,c o n s i s t so fd a t at i e r , d a t am i n i n ga l g o r i t h mt i e r , 复旦大学博士学位论文a b s l a c ti i i 3 4 a n a l y t i c a ll o g i ct i e r , a n da p p l i c a t i o nt i e r i nt h i sa r c h i t e c t u r e ,t h ed a t am i n i n g a l g o r i t h m ,a n a l y t i c a lf u n c t i o n ,a n da p p l i c a t i o na r el a y e r e dl o g i c a l l y ;a n dt h ed a t a m i n i n ga l g o r i t h m sa n d 也ea n a l y t i c a lm o d e i sa r ei n d e p e n d e n ta n dr e u s a b l eu n i t s t h eb e n e f i t si n c l u d e ab i o - d a t am i n i n gs y s t e mc a nb e e a s i l yc u s t o m i z e db y s e l e c t i n gas e to fa n a l y t i c a lu n i t s ;a n du s e r sc a nu n d e r s t a n dt h es y s t e ma tt h e a l g o r i t h ml e v e la sw e l la sa tt h ea p p l i c a t i o nl e v e l i n t e g r a t i o na n dn o r m a l i z a t i o no fb i o l o g i c a li n f o r m a t i o n g e n ee x p r e s s i o nd a t a a n a l y s i sm e a n st ot a k ei n t oa c c o u n to ft h ee n t i r ee x p e r i m e n t a lp r o c e s s ,i n c i u d i n g a r r a yd e s i g n ,s a m p l ep r e p a r a t i o n ,e x p e r i m e n td e s i g n ,h y b r i d i z a t i o np r o t o c o l ,a r r a y s c a n n i n ga n di m a g ep r o c e s s i n g i nt h i sd i s s e r t a t i o n ,id e s c r i b e dan e w m i a m e - c o m p l i a n tm i c r o a r r a yd a t a b a s e ,c b i o d b a ss h o w ni no u rp r a c t i c eo f b i o l o g i c a ld a t am i n i n g ,t h i sd a t a b a s es e r v e sw e l lf o rm i c r o a r r a ya n a l y s i s ag e n e r a ld e s i g nf o rb i o i n f o r m a t i c ss o f t w a r e b i o i n f o r m a t i c s s o f t w a r ed e s i g ni s i m p o r t a n tp a r to fb i o i n f o r m a t i c sr e s e a r c h ia l s od e s i g n e da n di m p l e m e n t e dag e n e e x p r e s s i o nd a t am i n i n gs y s t e m c b i o m i n e r t h i ss y s t e mi sc o n s t r u c t e db a s e do n b d m a p a a n di n c l u d e sd a t am i n i n ga n a l y s i sm o d e l sr e q u i r e df o rg e n ee x p r e s s i o n a n a l y s i s i tc a np r o v i d ew h o l ea n a l y t i c a lf l o wa n dr e s u l tv i s u a l i z a t i o nt os a t i s f yt h e m a i nr e q u e s t sb yg e n ee x p r e s s i o na n a l y s i s i ti ss h o w nt ob es e a l a b l ea n dw i t h e n t i t yi n d e p e n d e n c e k e yw o r d s :d a t am i n i n g ,b i o i n f o r m a t i c s ,m i c r o a r r a y , g e n ee x p r e s s i o n ,a n a l y s i sm o d e l , p a t h w a ya n a l y s i s 第一章绪论 第一章绪论 随着基因组研究的进展与现代生物技术的发展,由高通量技术产生的巨量数 据,提供了揭开生命奥秘的数据基础。为获得新的知识和预见,需要将这些数据 转换为一定层次上的汇总、抽象才能够进行创造性的研究。生物数据种类丰富, 高通量,维数高,本质上具有异质性与网络性,远远超出传统的分析方法的能力 和速度,生物数据的分析成为生物研究的瓶颈,其处理、挖掘、分析和理解的要 求日益迫切。分子生物学结合信息技术产生了生物信息学这一崭新领域。数据挖 掘技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位。 现代生物学研究方法也伴随着基因组研究和信息技术的发展及其在生物研究 中越来越广泛深入的应用而发生了深刻的变化。现代生物研究更多地依赖信息技 术的分析结果提供进一步研究的线索和依据,强有力的数据处理分析工具成为现 代生物科学研究发展的关键,软件开发是生物信息学的重要内容和主要的成果形 式。 1 1 数据挖掘研究的发展 1 1 1 数据挖掘的概念 数据挖掘( d a t am i n i n g ) ,也称为数据库中知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ,k d d ) 或知识提取、数据采掘等,用于发现那些蕴涵于大量的、未经 深加工的数据中的,必须通过某种方法才能得到的有意义、有潜在价值、新颖的 信息与规律等知识【9 9 8 + 9 6 】 b ”7 1 。这些知识称为模式或模型。数据挖掘可以用于发现 概念类描述、分类、关联规则分析、聚类、异常检测及结果的可视化等,帮助决 策支持、规划等。 1 1 2 数据挖掘的历史与现状 数据挖掘技术的形成是信息技术与应用发展的要求和结果。 现代企业积累了大量企业运营、客户、市场等资料,企业的决策需要从这些 资料中获得综合分析结果,但是传统的分析技术并不能从这些丰富的数据中提供 高层决策所需要的信息,强烈地要求使用新的大规模数据处理技术提供更高层次 的数据分析功能,从巨量的数据中,挖掘出隐藏在其中的有价值的信息与知识, 第一章绪论 作为决策支持之用。 同时,各种信息处理技术的发展和硬件性能的大幅度提高和普及,为数据挖 掘的使用提供了深厚的基础。 在数据基础、硬件性能都大大提高的情况下,“数据丰富,知识贫乏”的问题 愈益突出。如何在大量的数据中挖掘出有用的知识成为研究的热点。在1 9 8 9 年8 月举行的第1 1 届国际联合人工智能学术会议( i j c a i 8 9 ) 上,g p s h a p i r o 首先提 出数据库中知识发现一词【8 h a 8 9 】,并很快吸引了大量的人工智能和机器学习研究 者。 数据挖掘所使用的数据基础不仅可以是数据库( 包括关系数据库、数据仓库、 事务数据库及高级数据库系统等) ,原则上可以是任何类型的数据存储。在不同的 数据存储上进行数据挖掘,具有不同的特剧“0 3 1 。 数据库技术在经过了8 0 年代的辉煌之后,数据库迅速普及,作为信息化的基 本支持技术,用数据库作为知识源具有坚实的基础:用数据库技术将其形式化并 组织起来,提高知识获取起点,为从中发现知识提供数据规范化和数据基础。因 此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究。 数据挖掘研究经过十余年的发展,算法研究日趋成熟,开发了大量的算法。 这些算法各具特色,涉及了统计、人工智能、机器学习、数字信号处理等各领域 的研究。近几年,数据挖掘以其丰富、灵活的分析功能和强大的分析能力向各行 业渗透,逐步转向应用研究8 h a 0 0 1 ,并结合应用领域的特色得到进一步发展。 2 0 世纪9 0 年代中期以来,数据挖掘的功能不断丰富和强大,应用领域也越来 越广泛,在许多行业得到了应用。各大软件厂商纷纷投入巨资进行数据挖掘工具 软件的开发,如s p s s 在1 9 9 0 年即开始提供基于数据挖掘的服务,1 9 9 4 年提供了 数据挖掘工具c l e m e n t i n e 。数据挖掘解决方案迅速广泛、深入地进入各行业的决 策支持中,如c r m ( c u s t o m e rr e l a t i o nm a n a g e m e n t ,客户关系管理) 、零售业、 银行、邮电、保险、医疗保健、运输业、行政司法、生物信息学等,并取得了良 好的效果【r u d 0 0 】。同时,数据挖掘工具也扩展到其他一些潜在的应用领域,如在社 会部门以及科学和工程研究单位都具有广阔的应用前景【h g g o ”。 自1 9 8 9 年至今,由美国人工智能协会主办的k d d 国际研讨会已经召开了多 次,由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,研 究重点逐渐转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科 第一章绪论 3 之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一, 成为当前计算机科学界的一大热点。 1 1 3 数据挖掘的任务和方法 数据挖掘不是数据库的检索查询 r g 0 2 ,而是对这些数据进行微观、中观乃至 宏观的分析、综合和推理,以指导实际问题的求解,发现事件间的相互关联,利 用已有的数据对未来的活动进行预测。 整个数据库系统或数据仓库系统的工具层大致可以分为三类:以m i s 为代表 的查询报表类工具,以o l a p 为代表的验证型工具,以及以数据挖掘为代表的开 采型工具。用户可以利用m i s 进行日常事务性操作,例如增、删、改、报表生成 等;利用o l a p 工具深入了解事务做出总结性分析;利用数据挖掘做出预测性分 析。虽然各有侧重,但同时它们又是相辅相成的,o l a p 、数据挖掘数据来源于 m i s ,是m i s 的汇总和提炼;o l a p 除了通过对当前数据进行深入分析验证工作人 员提出的假设和问题外,也可以验证数据挖掘得出的预测性结论,防止偏差。因 此,一个决策分析系统可以利用报表查询类工具处理日常事务,利用数据挖掘发 现潜藏的模式,预测未来趋势,利用o l a p 验证数据挖掘的结果。目前的趋势是 将o l a p 与数据挖掘综合,如在r d b m s 中增加数据挖掘分析功能,m i c r o s o f t 公 司的s q l s e r v e r 2 0 0 0 ( s e l 0 1 是其中的一个例子。 数据挖掘将数据应用从低层次的末端查询操作提高到为各级经营决策者提供 决策支持,提供比数据库查询更为强大、灵活分析能力。同时需要指出的是,数 据挖掘所发现的知识是相对的,有特定前提和约束条件、面向特定领域的,并且 基于所应用的数据之上的,数据的完备性、对数据的了解、数据的质量都决定了 数据挖掘的质量。 数据挖掘应用了许多统计学的方法,但其与统计学有根本的区别:数据挖掘 是数据驱动的,自动地在数据中发现潜在的知识,而统计学需要以假设为前提, 通过统计分析来验证或者否定这个假设,在分析过程中往往需要分析者的参与。 数据挖掘涉及的学科领域和方法很多,有多种分类法。按照挖掘结果的模式 可以将数据挖掘任务分为两大类:描述性数据挖掘和预测性数据挖掘。描述性数 据挖掘对数据的一般特性进行描述。预测性数据挖掘通过对现有数据进行分析推 理,对未来的行为进行预测。具体来说数据挖掘方法可以分为概念描述、关联分 第一章绪论 析、分类、聚类分析、异常检测h k 0 1 等。 i 2 生物信息学的发展 1 2 1 生物信息学的兴起与意义 人类基因组计划( h u m a ng e n o m ep r o j e c t ,h g p ) 在1 9 8 5 年由美国科学家提 出,于1 9 9 0 年正式启动,有多国参加合作。其目的在于获得人类基因组序列,破 译遗传信息。随着h g p 产生的数据爆炸,为解决由此而产生的各种生物数据的存 储、理解等问题,一门新兴学科一生物信息学( b i o i n f o r m a t i c s ) 应运而生。 2 0 0 0 年r a s h i d i 等人给出了生物信息学的定义:“生物信息学是指生命科学与 数学、计算机科学和信息科学等交汇融合所形成的- - f - 交叉学科。它应用先进的 数据管理技术、数学分析模型和计算机软件对各种生物信息( 特别是分子生物学 信息) 进行提取、储存、处理和分析,旨在掌握复杂生命现象的形成模式与演化 规律r b 0 0 1 。”生物信息学以计算机为主要工具,开发各种软件,其内容包含着基因 组相关信息的获取、处理、存储、分配、分析和解释,同时建立理论模型,指导 实验研究的所有方面 n p a 9 9 1 。它由数据库、计算机网络和应用软件三大部分构成, 在生命科学研究中发挥着不可替代的作用。 1 2 2 生物信息学的现状与发展趋势 生命科学的重点和潜在的突破点已经由二十世纪的实验分析和数据积累转移 到数据分析及其指导下的实验验证上来。生物信息学作为一种大规模数据处理的 技术手段,将对推动生命科学研究发挥重要的作用【9 e n o ”。 人类基因组计划的完成及基因芯片、大规模测序技术工业化的发展、各种新 技术的应用,为现代生物学研究奠定了坚实的数据基础,如何分析、理解人类目 前获得的大规模数据成为人类基因组计划后的最大难题。生物信息学为解决这个 问题提供了条切实可行的方法。 计算机信息技术和互联网i n t e r n e t 的发展使大规模数据的收集、存储和分析成 为可能,并促进了生物信息学的发展。生物信息学的出现使计算与实验生物学的 关系紧密 v a l 0 2 1 ,生物学的研究方法发生了革命性的变化,由实验科学转变为信息 科学。 生物信息学的发展开始于欧美国家,并得到重视。1 9 8 8 年生物信息学一词提 第一章绪论 5 出后,各种相关公司或研究机构大量涌现,许多大学和研究机构相继成立了生物 信息学部门或中心。1 9 8 8 年,美国国家生物技术信息中心( n c b i ) 在美国国会的 支持下成立;1 9 9 3 年3 月,欧洲生物信息学研究所( e b i ) 获准成立:1 9 9 5 年4 月,日本信息生物学中心( c i b ) 成立。这就是世界三大生物信息学中心。 我国对生物信息学的认识相对稍晚,但已取得一定的成绩,建立了若干研究 中心,例如:1 9 9 7 年3 月,中国北京大学生物信息学中心成立;1 9 9 8 年,中国人 类基因组研究南方中心( 上海) 成立;2 0 0 1 年8 月,正式组建了上海生物信息技 术研究中心,并已初步建成国内首个生物信息数据仓库b i o d w 【曹幸“”。 综合生物信息学的研究现状与进展,生物信息学研究呈现以下趋势: 1 、由以序列分析为代表的组成分析转向功能分析 随着人类基因组计划完成,人们的注意力已从基因组测序转向对基因组表达 的分析、对蛋白质组结构与功能的预测。生物信息学发展初期的主要工作是对测 序所获得的d n a 序列数据及蛋白质序列数据进行序列结构分析、比对、模式发现 等工作,而近年来重点转向对基因功能的研究,主要是对基于芯片技术获得的基 因表达谱数据进行深入研究,获取生物大分子功能的差异以及生物大分子在时间、 环境等条件下的变化。 2 、由对单个生物分子的研究转向基因调控网络等动态信息的研究 生物系统的复杂性,不仅表现在各组成成分之间的相互作用中,更体现在它 们所展示出的复杂的动态性上啦w 0 2 1 。揭示生命奥秘,需要进一步了解各种生物大 分子的代谢途径、基因调控的过程等动态特征i r a x + 9 8 1 ,而不是仅对单个的生物大 分子的研究。代谢网络和基因调控网络的研究是人类保健、疾病治疗的基础。 3 、完整基因组数据分析 随着测序获得的完整的物种基因组数据的增加,在完整基因组水平上的数据 分析被提到议事日程,这也是获得较高级别生物知识的方法。 4 、综合分析 任何生物数据都是生物体在生命过程中的体现,要全面了解生命过程,就必 须全面理解这些数据。数据之间本质上相互关联、相互作用的网络特性,决定了 第一章绪论 6 生物信息分析必然是各种生物数据的综合分析,这样才能够获得对生命过程整体 的知识。另方面,多种分析技术的综合应用才能够满足高通量的数据特性以及 不断深化的分析需求。如基因表达数据分析与序列数据分析结合,提高分析的等 级,获得更接近生物意义的结果【8 v o o l ;基因表达数据与g e n eo n t o l o g y ( 基因本体) 的综合分析“。0 3 】等。 5 、成为生物学研究的常规方法 生物信息学在过去的十几年中得到了飞速发展,迅速渗透到生物学中的各个 领域,极大地推动了现代生物学发展,给生物学研究方法以革命性的改变,将生 物学由实验科学转变为信息科学。生物信息学将成为生物学研究的常规方法。 1 3 生物信息数据分析 1 3 1 生物信息数据特点 生物信息不仅包括基因组信息,如基因的d n a 序列、染色体定位,也包括基 因产物( 蛋白质或r n a ) 的结构和功能及各物种间的进化关系等其他信息资源。 针对数据分析而言,生物信息数据的特点有: 1 3 1 1高通量与大数据量 h g p 产生了很多高通量技术,如一次基因表达谱芯片实验可以获得数万个基 因表达数据,一次大规模基因组测序可以获得数亿个序列数据。人类基因组有3 x 1 0 9 b p ( b a s ep a i r ,碱基对) 组成,各种模式生物基因组序列、蛋白质序列等源源 不断地产生,在此数据基础上还可以产生数倍的二次数据;基因组的基因表达数 据因时间、环境不同而不同,基因表达数据的数据量将很快超过基因序列的数据 量。生物信息以指数级大量积累,远远超出传统分析方法的处理能力,并且目前 只有小部分数据被分析。 1 3 1 2 种类繁多,形式多样 生物信息数据包括了d n a 序列、蛋白质序列、蛋白质各级空间结构数据、基 因表达、代谢途径、文献等多种数据,各种数据的特性不同,存储方式不同,这 给数据集成、共享、分析都带来很多困难,例如目前的数据库管理系统并不适合 生物信息中数量最大的生物序列数据的存储和检索。 第一章绪论 1 3 1 3 异构性 生物信息数据的异构性包括结构上的异构、语义上的异构和系统实现上的异 构三大类。结构上的异构指同一个数据采用不同的数据模型或不同的数据结构来 表示;语义上的异构指同一个术语( t e r m ) 在不同的地方代表不同的含义,或同一个 含义用不同的术语来表示;系统实现上的异构指生物数据有的是以文本形式组织 的,有的是以关系表的形式组织的等等。生物数据以各种形式,如纯文本、不同 模式的数据库等各种形式存储于网络上的数据源中,即使同一数据,也有不同的 存储形式和存储内容,难以满足共享、交流与集成、综合分析的要求。 1 3 1 4 网络性与动态性 生物信息数据的网络性一方面是指生物数据大部分存在于i n t e m e t 中,数据库 分散在不同的研究机构、不同的地理区域、不同的服务器系统上,具有自治的特 点。这些数据库通过网络实现互连,进行数据的存取。如三大核酸序列数据库访 问以及目前序列常规分析b l a s t 比对均需通过互联网完成。生物信息数据的网络 性另一方面是指数据之间本身就相互作用、相互关联,如基因调控网络、代谢网 络以及不同种类数据之间的相互作用网络。动态性一方面是指数据随研究的深入 而不断被更新,如s w i s s p r o t 有日更新文件,一段时间后会有更新汇总文件和新的 版本发布,方面指数据之间相互作用、相互关联的动态关系。 1 3 1 5 高维 在一个平面的或关系数据库中,记录中的每一个字段代表一维( d i m e n s i o n ) 。 很多生物信息数据具有高维特征,如表达谱数据因所分析的情形( c o n d i t i o n ) 的个 数,可以有几十维;而序列数据分析中,往往将一个单位( 如碱基、氨基酸) 当 作一个维,这样数据就会有几十维、上百维。 1 3 1 6 序列数据 序列数据是目前生物数据中数据量最大的基础数据,其特点有:所用符号集 合很小,例如d n a 序列仅由a c t g 四个字符构成;序列长短差别很大,有的只有 几十个字符,而有的会达到l 兆的长度;总量巨大且增加迅速。序列数据的存储、 分析都不同于典型的数据类型的处理。 第一章绪论 8 1 3 2 生物信息数据分析的内容 目前生物信息分析的热点内容有: 1 ) 序列比对和结构比对 生物序列数据是现代生物学研究的基础数据,是生物数据的核心部分。生物 信息分析的很大一部分工作是序列数据的分析,因此必须对生物序列的存储、提 取和使用提供足够的支持。 序列比对和结构比对是生物信息学中研究生物大分子相似性、并利用相似性 进行同源性分析,作出有关预测的基本方法。目前两序列的比对已比较成熟,免 费软件包b l a s t 和f a s t a 基本成为序列比对的标准。多序列的对比方面目前还 缺乏快速有效的算法。结构比对使用分子结构数据库比对生物大分子空间结构的 相似性,目前已有一些算法,但还不够成熟。 2 ) 大规模基因组测序中的模式分析 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密 相关。随着分析由简单的字符串比较发展到复杂的模式分析,数据挖掘技术在其 中得到了应用。如在各种序列重复模式的发现算法中,往往寄希望于关联规则技 术中的置信度支持度框架,并已开发出多种算法【c a l o o 】【r f 9 引。 3 ) 新基因和新s n p s ( 单核苷酸多态性) 的发现与鉴定 获得序列数据后,发现新基因成为当务之急。使用基因组信息学的方法进行 超大规模计算是发现新基因的重要手段,大部分新基因是靠理论方法预测出来的。 当人类基因找到之后,要解决的问题包括不同人种间基因的差别;正常人和病人 基因的差别等,这就是单核苷酸多态性( s i n g l en u c l e o t i d ep o l y m o r p h i s m ,s n p ) 。 构建s n p 及其相关数据库是基因组研究走向应用的重要步骤。 4 ) 完整基因组的比较研究 不断增长的完整基因组数据,使一些重大生物学问题,如生命起源、生命进 化等问题能够进行基因水平上的研究。人种间基因组的差别约为o 1 ;人猿间差 别约为1 ,但其表型间的差异十分显著。因此其表型差异不仅应从基因、d n a 序列找原因,也应考虑到整个研究组、染色体组织上的差异。由完整基因组研究 第一章绪论 9 所导致的比较基因组学将为基因组研究开辟新的领域。 5 ) 大规模基因表达谱分析 生物信息学研究初期主要以序列数据的分析处理为中心。近年来已从基于序 列的研究领域,转向以基因芯片的基因表达谱分析、全基因组关联分析【o e w 0 2 1 、基 因调控网络的反向工程研究等为主流【。a l 0 1 】【9 刚o ”。基因表达分析是基因功能研究 最重要的组成部分,生命活动中基因表达的改变是生物学研究的核心问题。 大规模基因表达谱分析是目前基因组研究的核心内容,其分析由于需求复杂, 功能多样灵活,除传统的统计分析外,主要依赖于数据挖掘技术。基因表达谱分 析是数据挖掘在生物信息学中最具有应用潜力的领域,也是生物信息数据挖掘的 典型代表。 6 ) 生物大分子的结构模拟与药物设计 目前制药工业已将生物信息学作为药物靶点发现和药物筛选的重要方法,n i h 提出了万亿次计算机时代的生物医药研究计划,将生物信息学和高性能生物计算 技术应用于疾病发病机制、新靶标的发现和新药设计。 1 3 _ 3 生物信息数据挖掘现状 生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又 涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、 蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质 的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外, 新药研制、生物进化也是生物信息学研究的热点,这些都离不开数据挖掘技术的 支持。 生物信息分析是数据密集、计算密集的,数据挖掘适合完成这样的分析任务, 但是数据挖掘的应用和实施本身也是一个复杂的过程。这两方面的结合已经有一 些成果,在相应技术与软件的发展过程中,生物数据处理的方法论研究问题逐渐 显现出来。 生物信息学研究在很多方面还处于初期阶段,分析需求多种多样,数据挖掘 在其中的应用也才起步,处于探索之中,分析功能的确定、提取、合适的数据挖 掘体系架构、算法的确定都仍处于研究之中。 第一章绪论 1 0 信息技术中一些成熟的理论与方法未能与生物问题结合而应用于生物信息学 研究中,计算机研究人员不能敏锐地发现生物问题的本质,从而无法在生物与计 算机技术的交叉上有所突破。 缺乏统一的、可扩充的开发平台支持是目前生物信息分析面临的重要问题。 现存生物信息分析软件大多缺乏技术细节的描述,没有统一的输入输出格式,相 互之间不通用,造成软件的重复性开发。生物分析模式不断革新,如果没有一个 统一的可扩充开发平台支持,势必造成新的分析软件层出不穷、相互交叉、互不 兼容的混乱局面,生物软件的发展受到一定的影响。 数据挖掘实施的基础是对数据本质的认识。而我们对生物数据本身特性( 数 据的本质) 的认识还远远不够。如基因芯片数据质量【y m + 0 2 w b t 0 2 】、基因表达的正 常波动规律g u t o o 等。这也给数据挖掘的应用、评估以及深化带来了一定的困难。 数据挖掘现阶段对生物信息分析的支持主要有如下一些内容 n a n 0 2 1 : 1 ) 异质、分布式生物数据的语义综合,数据清理,数据集成 由于高分布且迅速扩张的生物信息的产生和使用,对异质、高分布基因组数 据库的语义综合成为一项重要任务。这个需要促进了数据仓库整合和分布式联邦 数据库的发展。数据挖掘技术中的数据清洗和数据整合可以为整合基因数据和构 造数据仓库来分析生物信息提供有力的帮助。 2 ) 开发生物信息数据挖掘工具 生物信息分析所用的数据挖掘工具可以分为2 种:通用数据挖掘工具和生物 信息分析专用数据挖掘工具。通用数据挖掘工具有很多成熟的产品,如s a s e n t e r p r i s em i n e r ,s p s s 等,近年来在d b m s 中也有数据挖掘功能的嵌入。生物信 息分析专用数据挖掘工具有g e n e s p r i n g ,c o m p a s s ,s m a 等。这些工具中的一 些分析功能已经成为生物信息分析中的常规内容。如何更好的利用这些现有的工 具并开发新的工具进行生物信息分析是生物信息学的重要内容。 3 ) 序列的相似性查找和比较 生物序列的相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论