(控制科学与工程专业论文)基因芯片表达数据分析相关问题研究.pdf_第1页
(控制科学与工程专业论文)基因芯片表达数据分析相关问题研究.pdf_第2页
(控制科学与工程专业论文)基因芯片表达数据分析相关问题研究.pdf_第3页
(控制科学与工程专业论文)基因芯片表达数据分析相关问题研究.pdf_第4页
(控制科学与工程专业论文)基因芯片表达数据分析相关问题研究.pdf_第5页
已阅读5页,还剩119页未读 继续免费阅读

(控制科学与工程专业论文)基因芯片表达数据分析相关问题研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院博士学位论文 摘要 论文以基因芯片表达数据分析技术为研究课题,围绕基因芯片表达数据预处 理技术,基因芯片在肿瘤研究中的相关问题以及基因表达调控网络建模技术三方 面问题进行了深入分析和研究,其主要内容和创新之处包括: 1 1 寡核苷酸芯片系统偏移的校正方法研究 基因芯片实验涉及多个芯片,因此有必要排除非生物因素引起的芯片间的变 异,使得来自不同芯片的数据具有可比性。在对比分析中,通过系统校正能够减 少芯片间的系统偏差,使得芯片检测的结果能真实反映生物功能的差别。论文对 寡核苷酸芯片系统偏移的校正进行了研究。提出了一种迭代的鲁棒基准芯片校正 方法。通过对各芯片上的探针进行排序,选择一个秩差异最小的探针子集,然后 利用t u k e yb i w e i g h t 算法计算一个伪基准芯片,最后基于伪基准芯片对目标芯片 采用m a 非线性校正。对上述过程进行迭代,当达到最大迭代数或者探针杂交强 度校正前后的差值低于某个阈值时停止。以a f f y m e t r i x 公司提供的标准检验数据 集h gu 1 3 3 as p i k e i nd a t a s e t 作为测试数据,与多种现有的方法进行了对比分析, 显示新方法具有更好的性能。 2 1 基因芯片表达数据缺失估计算法研究 在基因芯片实验中,经常存在数据缺失现象,这会影响芯片数据后续分析结 果的准确性。缺失值估计是在不增加实验次数的情况下降低缺失数据对后续分析 影响的有效方法。通过利用相似性信息的核加权函数实现缺失值回归估计的局部 化,给出了基于加权回归估计的基因表达缺失值估计方法。在两种不同类型的基 因芯片表达数据上,将新算法与几种已知的算法进行了比较分析。实验结果表明, 新的估计算法具有较传统缺失值估计算法更好的稳定性和估计准确度。 3 ) 肿瘤基因芯片表达数据的分类诊断算法研究 肿瘤基因芯片表达数据分类是一个典型的高维小样本分类问题。当前已经提 出了很多有效的分类算法。提出了基于两步策略的肿瘤基因芯片表达数据分类算 法。在测试的基因中存在大量的非差异表达冗余基因,为了有效减少其对分类效 果的影响,首先利用r e l i e f f 方法对基因进行预选择,得到一个较小的分类基因子 集;然后分别建立了基于相关向量机和基于免疫优化支持向量机的分类预测模型。 在四个真实的肿瘤基因芯片表达数据上,与几种不同的算法进行了比较,结果显 示新算法可以得到更好的分类精度,同时表现出很好的稳定性。 4 ) 肿瘤基因芯片表达数据的分型识别算法研究 肿瘤是高度异质性的疾病,不同的发病原因会导致相同的表型。基于临床病 理检测很难对肿瘤进行准确的分型诊断。基因芯片技术提供了一种高通量的在分 第i 页 国防科学技术大学研究生院博士学位论文 子水平观察肿瘤发生和演变的手段,利用基因表达数据可以对肿瘤组织样本进行 准确的分型识别。支持向量聚类是一种基于边缘检测的聚类方法,对非规则的类 分布有很好的聚类性能,能够发现样本真实的类分布。给出了基于支持向量聚类 的肿瘤分型识别算法。对两个肿瘤基因芯片表达数据进行了分型识别分析,利用 自动生成的参数序列,对样本进行不同程度的精细划分,结果显示,基于支持向 量聚类的方法能够更准确地对样本进行分型识别,而且能够自动发现肿瘤样本真 实的类分布。 5 ) 基于反向技术的基因表达调控网络建模技术研究 基因表达调控网络的机制不仅仅是基因间的相互作用,还包含各种调控因子的 相互作用,诸如,相关的调控蛋白质,s i l w a 等等。而这些调控因子不易直接测 量。状态空间模型能够很好地描述基因表达调控网络复杂的调控机制。基因表达 调控网络具有典型的稀疏特性,即基因的表达只被极少数的基因和调控因子所调 控,同时,具有相互调控作用的基因间,在其连续表达水平上表现出较强的相关 性。针对基因调控的稀疏子模块特点,先利用相关性聚类对基因进行分解,得到 多个基因簇,然后利用状态空间方程对每个簇的基因间相互调控关系进行建模分 析。通过在不同聚类数量水平上的建模结果进行综合分析,可以得到具有保守特 性的基因间相互作用关系,从而得到一个稀疏的调控网络。对人类t 细胞周期基 因表达数据进行了分析,结果显示,随着聚类数量的增加,通过分解建模,可以 更好地对网络进行重构。同时,建立了不同保守程度的稀疏调控网络模型。 主题词:基因芯片、基因表达、偏移校正、缺失值估计、聚类、基因调控网 络 第i i 页 国防科学技术大学研究生院博士学位论文 a bs t r a c t t h i sd i s s e r t a t i o nr e f e r st os t u d i e so nd n am i c r o a r r a y e x p r e s s i o n d a t a p r e p r o c e s s i n gt e c h n i q u e s ,c l a s s i f i c a t i o na n dc l a s sd i s c o v e r ya l g o r i t h m s i nc a n c e r r e s e a r c ha n dt h eg e n er e g u l a t i o nn e t w o r km o d e l i n gm e t h o d t h em a i nc o n t e n t sa n d c o n t r i b u t i o n so ft h ed i s s e r t a t i o na r es u m m a r i z e da sf o l l o w s : 1 ) ,n l er e s e a r c ho nm e t h o dt on o r m a l i z es y s t e mb i a sf o rh i g h - d e n s i t y o l i g o n u c l e o t i d ea r r a yg e n ee x p r e s s i o n i nm u l t i a r r a ye x p e r i m e n t s ,t h e r ei ss o m es y s t e mb i a s ,w h i c hb ec o n t a m i n a t e db y e x p e r i m e n t a lf a c t o r ss u c ha ss p o tl o c a t i o n ( o f t e nr e f e r r e dt oa sap r i n t - t i pe f f e c t ) ,a r r a y s , d y e s ,a n dv a r i o u si n t e r a c t i o n so ft h e s ee f f e c t s f o rc o m p a r a b l ee a c ho t h e r , i tn e e dt o n o r m a l i z et h er a we x p r e s s i o np r o f i l ed a t a n o r m a l i z a t i o ni st h ek e ys t e pi nl o wl e v e l p r o c e s s i n g i nf a c t , m a n yn o r m a l i z a t i o nm e t h o d sh a v eb e e nd e v e l o p e d ,i e s c a l i n g n o r m a l i z a t i o n , n o n l i n e a rn o r m a l i z a t i o n , q u a n t i l en o r m a l i z a t i o na n ds oo n n e wb a s e l i n e n o r m a l i z a t i o ni sp r e s e n t e d f i r s t ,s e l e c tt h es u b s e to fp r o b e s ,w h i c hh a v et h em i l lr a n k r a n g e ;s e c o n d l y , c o m p u t ep s e u d o b a s e l i n eb yt u k e yb i w e i g h ta l g o r i t h m ;f i n a l l y , d o n o n l i n e a rn o r m a l i z a t i o no np s e u d o - b a s e l i n e i t e r a t i v es t r a t e g yw e a k e n st h es e n s i t i v i t yo f t h eb a s e l i n em e t h o dt os e l e c tb a s e l i n e w i t ht h es t a n d a r dt e s td a t a s e t , c o m p a r ei t 、 ,i t l l o t h e rm e t h o d s t h er e s u l t ss h o wt h a tt h en o v e lm e t h o dh a sb e t t e rp e r f o r m a n c e st h a n o t h e r si ns e v e r a lw a y s 2 ) t h er e s e a r c ho na l g o r i t h m sf o rm i s s i n gv a l u ee s t i m a t i o no fm i c r o a r r a y e x p r e s s i o nd a t a i nm i c r o a r r a ye x p e r i m e n t s ,t h em i s s i n gv a l u ed o e se x i s ta n ds o m e w h a ta f f e c t st h e s t a b i l i t ya n dp r e c i s i o no ft h ee x p r e s s i o nd a t aa n a l y s i s c o m p a r e d 、 ,i t hi n c r e a s i n g e x p e r i m e n t s ,m i s s i n gv a l u ee s t i m a t i o ni sp r e f e r r e di nr e d u c i n gt h ei n f l u e n c eo fm i s s i n g v a l u e so nt h ep o s t - p r o c e s s i n g w i t ht h ek e r n e lw e i g h tb a s e do ns i m i l a r l yb e t w e e nt a r g e t g e n ea n ds a m p l eg e n e s ,w h i c hl o c a l i z em i s s i n gv a l u ee s t i m a t i o n , an e wm e t h o db a s e d o nw e i g h t e dr e g r e s s i o ni sp r e s e n t e d o nt h et w or e a lm i c r o a r r a ye x p r e s s i o nd a t a s e t s ,t h e n o v e lm e t h o di sc o m p a r e dw i t hs e v e r a le x i s t i n gm e t h o d s e x p e r i m e n t a lr e s u l t ss h o w t h a tt h en o v e lm e t h o dh a sb e t t e rs t a b i l i t ya n dp r e c i s i o nt h a nt h ee x i s t i n gm e t h o d st h a t h a v eb e e ne m p l o y e d 3 ) t h er e s e a r c ho na l g o r i t h m sf o rc a n c e rm i c r o a r r a ye x p r e s s i o nc l a s s i f i c a t i o n d n a m i c r o a r r a yt e c h n o l o g yc a nm e a s u r et h ee x p r e s s i o nl e v e l so ft h o u s a n d so f g e n e ss i m u l t a n e o u s l y i t h a sb e c o m ea ni m p o r t a n tt o o li nc a n c e r b i o l o g i c a l i n v e s t i g a t i o n s i nc o m b i n a t i o n 、7 i ,i t l lc l a s s i f i c a t i o nm e t h o d s ,m i c r o a r r a yt e c h n o l o g yc a n b eu s e f u lt os u p p o r tc l i n i c a lm a n a g e m e n td e c i s i o n sf o ri n d i v i d u a lp a t i e n t s c a n c e r m i c r o a r r a ye x p r e s s i o nc l a s s i f i c a t i o ni sat y p i c a lc a s et h a th a sh i g hd i m e n s i o n sa n ds m a l l s a m p l e s i ng e n ee x p r e s s i o nd a t a s e t , t h e r ea 陀m a n yg e n e st h a ta r er e d u n d a n tf o rc a n c e r 第i i i 页 国防科学技术大学研究生院博士学位论文 m i c r o a r r a ye x p r e s s i o nc l a s s i f i c a t i o n t h em o s tr e l e v a n tg e n es e l e c t i o ni sa ni m p o r t a n t i s s u e ar o b u s t t w o s t e pa p p r o a c h i s p r e s e n t e d f o rr e d u c i n g t h e c o m p u t a t i o n c o m p l e x i t y , ag e n ep r e s e l e c t i o np r o c e d u r eb yr e l i e f fi sa d o p t e dt or e d u c et h eh u g e n u m b e ro fg e n e sb e i n gc o n s i d e r e d s e c o n d l y , t h er e l e v a n c ev e c t o rm a c h i n ea n dt h e s u p p o r tv e c t o rm a c h i n eo p t i m i z e db yi m m u n ec l o n a la l g o r i t h ma g ed i f f e r e n t l yu s e do n t h eg e n es u b s e tf o rc a n c e rm i c r o a r r a ye x p r e s s i o nc l a s s i f i c a t i o n o nf o u rr e a lc a n c e r m i c r o a r r a yd a t a s e t s ,t h en e wa p p r o a c hi sc o m p a r e dt ot h es e v e r a le x i s t i n gm e t h o d s t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e da p p r o a c hc a na c h i e v eh i g l lc l a s s i f i c a t i o n a c c u r a c ya n di sm o r e r o b u s t 4 ) t h e r e s e a r c ho nm e t h o d sf o rc l a s sd i s c o v e r yo fc a n c e rm i c r o a r r a ye x p r e s s i o n c a n c e ri sah i g h l yh e t e r o g e n e o u sd i s e a s e ,a n dt h ed i f f e r e n tc a u s e sw i l ll e a dt ot h e s a m ep h e n o t y p e b a s e do nc l i n i c a lp a t h o l o g y , i ti sv e r yd i f f i c u l tt of i n dd i f f e r e n tc l a s s e s o ft h ec a n c e l d n am i c r o a r r a y t e c h n o l o g yp r o v i d e sah i g h t h r o u g h p u tt o o lt h a t p e n e t r a t e st h eo c c u r r e n c ea n de v o l u t i o no ft h ec a n c e l o nt h em o l e c u l a rl e v e l t h e d i f f e r e n tc l a s s e so ft h ec a n c e rc a nb ea c c u r a t ed i s c o v e r e do nm i c r o a r r a ye x p r e s s i o n p r o f i l i n g m a n yc l u s t e r i n gm e t h o d sh a v eb e e nw i d e l yu s e di nt h es t u d yt od i s c o v e r c l a s s e so ft h ec a n c e r 1 1 1 es u p p o r tv e c t o rc l u s t e r i n gi sab o u n d - b a s e dc l u s t e r i n gm e t h o d t h a td o e sw e l lf o ri r r e g u l a rc l a s s e sa n dc a na u t o m a t i c a l l yf i n dt r u ec l a s s e s a na l g o r i t h m t od i s c o v e rc l a s s e so ft h et u m o ri sp r e s e n t e d ,w h i c hi sb a s e do nt h es u p p o r tv e c t o r c l u s t e r i n g t h e r ea r eal o to fr e d u n d a n c yg e n ee x p r e s s i o np r o f i l e sf o rc l a s sd i s c o v e r yo f c a n c e lt h e r e f o r e ,t h ev a r i a n c ef i l t e r i n gs e l e c t sal i a l eo fg e n e sw i t ht h el a r g e s tv a r i a n c e a sc h a r a c t e r sf o rc l a s sd i s c o v e r yo fc a n c e ls e c o n d l y ,t h es u p p o r tv e c t o rc l u s t e r i n gi s u s e dt od i s c o v e rc l a s s e so fc a n c e lo nt h et w oc a n c e rm i c r o a r r a yd a t a s e t s ,、v i mt h e p a r a m e t e rs e q u e n c ep r o d u c e da u t o m a t i c a l l y , t h ep r e s e n t e dm e t h o dp a r t i t i o n st h ec a n c e r s a m p l e so nd i f f e r e n tf i n el e v e l t h er e s u l ts h o w st h a tt h i sm e t h o dc a nm o r ea c c u r a t e l y d i s c o v e rc l a s s e so fc a n c e rs a m p l e sa n da u t o m a t i c a l l yf i n dt r u ec l a s sn u m b e ro fc a n c e r s a m p l e s 5 ) t h er e s e a r c ho nm o d e l i n gm e t h o d sf o rt h eg e n er e g u l a t o r yn e t w o r k s t h eg e n er e g u l a t o r yn e t w o r k si sn o to n l yam e c h a n i s mo ft h ei n t e r a c t i o nb e t w e e n g e n e s ,a n da l s oi n c l u d e st h ei n t e r a c t i o no fv a r i o u sr e g u l a t o r yf a c t o r s ,s u c ha s t h e r e g u l a t i o np r o t e i n , s i r n aa n ds oo n , w h i c hr e g u l a t o r yf a c t o r sc a l ln o tb em e a s u r e d d i r e c t l y t h es t a t e - s p a c em o d e li sas p e c i a lt y p eo fd y n a m i cb a y e s i a nn e t w o r k s 。o nt h e a s s u m p t i o nt h a tt h eo b s e r v e d v a r i a b l e sa r ed e p e n d e n to nt h es t a t ev a r i a b l e st h a th a v et h e m a r k o vd y n a m i cc h a r a c t e r i s t i c s t h e r e f o r et h es t a t e s p a c em o d e lc a na c c u r a t e l y d e s c r i b et h ec o m p l e xm e c h a n i s mo ft h eg e n er e g u l a t o r yn e t w o r k s d u et ot h e c o m p l e x i t yo fc o m p u t a t i o n , m o d e l - b a s e dm o d e l i n gm e t h o d so fg e n er e g u l a t o r y n e t w o r k sa r ed i f f i c u l tt od i r e c t l ym o d e lg r e a t e rg e n er e g u l a t o r yn e t w o r k s i ti st h e t y p i c a ls p a r s ec h a r a c t e r i s t i c so fg e n er e g u l a t o r yn e t w o r k st h a to n eg e n ee x p r e s s i o nw a s o n l yc o n t r o l l e db yav e r ys m a l ln u m b e ro fg e n e sa n dr e g u l a t o r yf a c t o r s ,a n di t s 第i v 页 国防科学技术大学研究生院博士学位论文 c o n t m 2 u o i i s e x p r e s s i o np r o f i l e s s h o was t r o n gc o r r e l a t i o n i nv i e wo ft h el i g h t c h a r a c t e r i s t i c so fg e n er e g u l a t i o n , c l u s t e rg e n e sb yu s eo fc o r r e l a t i o nc l u s t e r i n g a n d t h e nm o d e lt h em u t u a lr e g u l a t i o no fg e n e si no n ec l u s t e rw i t ht h es t a t e s p a c em o d e l i n o r d e rt og e tas p a r s en e t w o r k , i n t e g r a t e 、析mt h ec o n s e r v a t i v ei n t e r a c t i o nb e t w e e ng e n e s o nt h ev a r i o u sl e v e l so fc l u s t e rn u m b e r o nt h eh u m a nt - c e l lc y c l ee x p r e s s i o nd a t a , t h e d i s s e r t a t i o na n a l y z e st h er e c o n s t r u c t i o np e r f o r m a n c eo ft h em o d e l sd y n a m i cb e h a v i o r 1 1 l e r e s u l ts h o w st h a tw i t ht h ei n c r e a s eo ft h en u m b e ro fc l u s t e r s d e c o m p o s i t i o n - m o d e l i n gc a nb e t t e rr e s p o n dt on e t w o r kr e c o n s t r u c t i o n m e a n w h i l e ,t h e d i s s e r t a t i o ne s t a b l i s h e ss e v e r a ls p a r s er e g u l a t o r yn e t w o r k sw i t hd i f f e r e n tl e v e l so fl i g h t k e yw o r d s m i c r o a r r a y ,g e n ee x p r e s s i o n , s y s t e mb i a sc o r r e c t i o n ,m i s s i n g v a l u ee s t i m a t i o n , c l u s t e r i n g ,g e n er e g u l a t o r yn e t w o r k s 第v 页 国防科学技术大学研究生院博士学位论文 图目录 图2 1d n a 的双螺旋结构1 2 图2 2 分子生物学的中心法则1 2 图2 3 原位合成法1 3 图2 4 合成点样法1 4 图2 5 基因芯片实验流程。1 5 图3 1 寡核苷酸芯片原理图2 1 图3 2 寡核苷酸芯片数据预处理的一般步骤2 3 图3 3h gu 1 3 3 as p i k e d - i n 芯片数据未校正时部分不同浓度设计芯片间的m a 散 点图2 5 图3 4h gu 1 3 3 as p i k e d i n 芯片数据在i r b 校正后部分不同浓度设计芯片表达值 两两比较的m a 散点图3 0 图4 1 基因芯片实验中存在污染的检测图像3 5 图4 2 缺失比为1 的两个表达数据上,几种算法在选取不同相似性基因数量时的 r 硒冱4 6 图4 3 缺失比为5 的两个表达数据上,几种算法在选取不同相似性基因数量时的 r 舔e 4 6 图4 4 在取不同缺失百分比的情况下,四种缺失估计算法的n r m s e 性能比较4 7 图5 1 最优分类面5 l 图5 2 支持向量机的结构5 4 图5 3 克隆选择流程图5 7 图5 4 在结肠癌和肺癌数据上,选择不同数量相关基因时相关向量机算法检验准 确率( a c c ) 的盒图和均值变化曲线一6 0 图6 1 支持向量聚类特征空间到数据空间的映射7 1 图6 2 ( a ) 么 d ( v ,) ) = 护= 么 ( v ,) ) :( b ) 五与单位球面的交点为n ;( c ) 叫l 的长 度等于( a ( v ,) ) ;( d ) ( 似v ,) a ) = l 一尺2 = 7 2 图6 3 一个例子,表明支持向量聚类随高斯核宽度参数逐步增大聚类越来越精细 1 0 2 7 5 图6 4r 2 随g 变化的近似曲线7 6 图6 5 在基因表达水平上表现出的亚型病人在两种情况下的生存曲线估计和生存 曲线的对数秩检验水平8 0 图7 1 反向技术建模8 6 第v i i 页 国防科学技术大学研究生院博士学位论文 图7 2 布尔网络模型8 7 图7 3 具有输入项的s s m 9 0 图7 4 基因表达模型的贝叶斯网络表示9 3 图7 55 8 个基因校正后的表达水平9 4 图7 6 在不同基因数量规模情况下,状态变量的维数对模型检验误差的影响9 7 图7 7 在取不同训练样本容量时,不同聚类数量分解状态空间建模的训练误差和 检验误差9 9 图7 8 训练样本容量取不同值时,不同聚类数量分解建模的训练误差和检验误差 10 0 图7 9 ( a ) 单一状态空间建模网络模型;( b ) 基因间相互作用关系出现频率不少于3 次的网络模型;( c ) 基因间相互作用关系出现频率不少于5 次的网络模型1 0 2 第v i i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:基固芷崖盍达数量金堑扫苤间塑丑究 学位论文作者签名:绰龌:迎 日期: 歹o o t # 午月f 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阋;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:基因芷牲塞达熬握金堑担差闻塑盈窥 学位论文作者签名: 鲤蕴2 史 日期: ,0 0 3 # 斗月午日 作者指导教师签名:玉j 血 日期:x 1 年年月i 午日 国防科学技术大学研究生院博士学位论文 第一章绪言 1 1 引言 2 0 0 1 年六月公布的人类基因组测序工作草图,2 0 0 2 年初发表的较高精确度和 经过详细注解的人类基因组研究结果,2 0 0 4 年l o 月发表的填补基因组中许多g a p 片断的更精确的人类全基因序列,这标志人类基因组计划( h u m a ng e n o m i cp r o j e c t , h g p ) 的完成和新时代的开始【l , 2 1 。人类基因组研究的重心逐渐进入后基因组时代。 功能基因组学是后基因组研究的核心内容,强调发展和使用整体( 基因组水平或系 统水平) 的实验方法分析基因组序列信息和阐明基因功能,通过对个体在不同生长 发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内 的功能,阐明不同层次多基因协同作用的机理,进而在人类重大疾病的发病机理、 诊断治疗、药物开发等方面的研究发挥重要作用【3 以训。获得基因表达的信息是比 d n a 序列测定更为艰巨的任务,因为基因表达是依赖于许多因素的动态过程。如 何从海量的基因表达信息数据中发掘成千上万基因的功能,研究其在生命过程中 所担负的角色,成为基因组时代特别是后基因组时代面临的重要课题。在这样的 背景下,2 0 世纪9 0 年代初产生了一项新的以基因芯片为先导的生物信息技术即生 物芯片技术【1 1 , 1 2 】。1 9 9 8 年s c i e n c e 杂志把生物芯片技术列为年度十大科技突破之一。 目前,生物芯片技术在科学研究上已被广泛应用,并逐步发展成为实验室中的常 规分子生物学技术。 基因芯片能够检测不同条件下的大量基因的转录变化,即能够显示反映特征 组织类型、发育阶段、环境条件应答、遗传改变的基因表达水平。随着基因芯片 表达数据的大量出现,自然希望求解以下问题:如何利用基因芯片表达数据将未 知功能的新基因归类到已知功能分类中? 如何将基因表达与基因功能联系起来? 如何发现在基因表达水平上的共调控基因? 如何从基因芯片表达数据中得出完整 的基因表达调控网络? 大规模基因芯片表达数据使得我们直接面对生物系统和基 因组水平的复杂性,因此,需要从生物系统单个成分的定性研究发展到整体生物 系统行为的定量研究。生物信息学的最终目的是理解各种生物数据,获得隐藏在 数据背后的知识,以加深人们对生命现象的理解【_ 7 讲】。目前,这一旨在理解生物数 据的研究主要集中在基因的功能分析、基因表达与调控、d n a 蛋白质的相互作用 上,目前都还处于一个比较初级的研究阶段。这些研究需要一系列算法的支持, 包括对基因芯片原始表达数据的提取和处理算法、对基因表达数据和时序数据的 分析算法( 数据挖掘) 、以及基因调控网络模型的构造算法等等1 2 4 。 第l 页 国防科学技术大学研究生院博士学位论文 1 2 研究背景 1 2 1 基因芯片表达数据预处理技术的相关研究 在分析基因芯片表达数据之前,必须清楚无论是用多么有力的统计方法,分 析仍然主要依赖于数据的“干净程度 和数据的分布特性【3 弼引。因为在制作、杂 交、扫描和量化的过程中产生的基因芯片变异会污染数据。在一次典型的基因芯 片实验中,许多不同的变量和参数都可能变化,包括玻片质量、探针质量、点样 d n a 的量、点样仪器的准确度、染料特性、扫描仪质量和定量软件的性质等,它 们都可能影响测量的表达水平。需要对原始提取信号进行均衡和修正处理,消除 实验设备的系统误差,去除表达水平是负值的数据、或者明显的野值数据,处理 缺失数据,才能被用于进一步分析。所以,数据预处理是数据分析前必须进行的 一项工作。预处理分析的重要性并不亚于基因芯片表达数据的后续分析,预处理 工作的好坏直接影响后续分析是否能得到预期的结果【1 3 1 。由于基因芯片表达数据 的高噪声特点,有效的预处理方法也是当前大规模基因表达数据分析的一个关键 性基础问题l j 5 。 1 - 2 - 2 基因芯片在肿瘤诊断和分类分型研究中的相关问题 肿瘤的成功治疗依赖于可靠而准确的肿瘤诊断与分类。肿瘤临床表现复杂多 样而且具有极强的隐蔽性和高复发率,这些特点导致较低的临床诊断成功率。传 统的肿瘤诊断通过观察病人的组织切片外观形态和特定的抗体实验来进行,这种 诊断方法往往带有较大的主观性。基因芯片能够在分子水平观察肿瘤的发生和演 变,因此,基于肿瘤基因芯片表达数据的肿瘤诊断更加客观和准确,同时它也能 为医务人员提供制定适合具体病例的治疗方案的有用信息1 6 7 7 2 1 。自1 9 9 9 年g o l u b 等人创建基于s n r 的加权投票肿瘤诊断与分类方法并成功应用于白血病基因芯片 表达数据分析以来,各种各样的基于肿瘤基因芯片表达数据的肿瘤诊断与分类方 法不断地被提出和应用,比如,k h a n 等人使用神经网络技术进行s r b c t 肿瘤的 诊断与分类【6 9 , 7 0 。另外也有文献对各种分类技术在肿瘤诊断与分类中的应用进行 了比较。比如,d u d o i t 等人在三个公开发表的肿瘤基因芯片表达数据上系统比较 了五种常用的分类器【7 l 】。s t a t n i k o v 等人在1 1 个数据集上对各种分类器进行评价, 结果发现支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 技术在对1 1 个数据集的分类 应用中具有最高的分类精度【7 3 1 。其实,基于肿瘤基因芯片表达数据的肿瘤诊断与 分类最大的难点在于高维与小样本之间的不平衡问题,即采集到的不同类型病人 的细胞组织样本数量相对较少,而用于对组织样本进行分类的特征是组织样本的 成千上万个不同基因的表达水平。这种不平衡问题导致了许多模式识别方法不能 第2 页 国防科学技术大学研究生院博士学位论文 直接在肿瘤基因芯片表达数据上应用。比如使用f i s h e r 函数分类器会遇到奇异矩阵 问题等。高维、高噪声、高变异是各种分类器在进行肿瘤基因芯片表达数据分析 时效率与性能不高的主要原因。 肿瘤基因芯片表达数据分析的另一个关键目标是肿瘤的分型识别【1 3 1 。肿瘤在 本质上表现为细胞失去控制的异常繁殖。基因芯片技术为人们提供了高通量、精 确、灵敏、快速的基因表达检测手段。肿瘤是高度异质性的疾病,不同的发病原 因会导致相同的表型,基因芯片的检测结果不仅包含了发病的信息,还包含了个 体的特征信息。从大量病人的基因芯片表达数据中寻找规律,通过对肿瘤临床表 现和病理检测进行综合分析,建立肿瘤分型的诊断标准,不仅可以研究发病机理, 更重要的是可以判断预后,并指导临床用药和选择针对性强的综合治疗手段。通 过对大量病人的组织样本的肿瘤基因芯片表达数据进行聚类分析,可以发现潜在 的肿

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论