已阅读5页,还剩57页未读, 继续免费阅读
(生物化学与分子生物学专业论文)实验室snp数据中心及数据处理平台.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕士学位论文 摘要 针对研究s n p ( 单核苷酸多态性) 分子生物实验的特点和需求,利用j a v a 技 术开发了一套基于s n p 实验流程的,并且集成了t a q m a n 、s e q u e n c i n g 、i l l u m i n a 三个实验平台数据的实验室信息管理系统。系统为b s 体系,采用了基于m v c ( m o d e l v i e w c o n t r o l l e r ) 模式的j 2 e e 架构,层次清晰、界面友好、使用方便、支 持多用户同时在线操作、并且可以跨操作系统平台( w i n d o w s l i n u x u n i x ) 运行。 本文简要介绍了系统的设计思路、体系架构、实现过程和主要功能。本系统实现了 实验室数据的收集、存储、整合、查询,有效地提高了实验室的工作效率和管理水 平,可为今后分子生物学、化学、医学以及其他实验学科的实验室信息管理系统的 建设提供参考。 关键词:实验室信息管理系统;单核苷酸多态性;j a v a v 上海大学硕士学位论文 a b s t r a c t m o d e r nm o l e c u l a rb i o l o g yl a b sd o i n gs n p ( s i n g l en u c l e o t i d ep o l y m o r p h i s m ) r e l a t e d r e s e a r c ha r ec o n f i o n t e dw i t l lt h et a s ko f m a n a g i n ga n di n t e g r a t i n gd a t af r o mm u l t i p l es o u r c e s g e n e r a t e db yv a r i o u se x p e r i m e n tp l a t f o r m s t om e e tt h e i rn e e d s ,w ed e v e l o p e daj a v a - b a s e d l i m s ( l a b o r a t o r yi n f o r m a t i o nm a n a g e m e n ts y s t e m ) t h a tm a n a g e sd a t af r o mt a q m a n 、 i l l u m i n aa n ds e q u e n c i n gp l a t f o r m s i ti sam u l t i - u s e rb ss y s t e mw i t l lj 2 e ea r c h i t e c t u r e b a s e do nm v c ( m o d e l v i e w c o n t r o l l e r ) m o d e lt h a t s u p p o r t sm u l t i p l eo sp l a t f o r m s ( w i n d o w s l i n u x u n i x ) t h i sl i m sp r o v e st oh e l ps n pl a b st oc o l l e c t ,s t o r e ,m a n a g e , i n t e g r a t e ,a n ds e a r c hd a t ae f f e c t i v e l y t h i sa r t i c l ed e s c r i b e st h es o f t w a r ea n di t sd e s i g n , i m p l e m e n t a t i o na n dm a i nr u n i o n s t h e s ed e t a i l sm a yp r o v i d ev a l u a b l ei n f o r m a t i o na n ds h e d l i g h t0 1 1t h ed e v e l o p m e n ta n di m p l e m e n t a t i o no ff u t u r el i m st a r g e t e da to t h e rt y p e so f l a b o r a t o r i e sc o n d u c i n gb i o l o g i c a l c h e m i c a lo rm e d i c a le x p e r i m e n t s k e y w o r d s :l i m s ( l a b o r a t o r yi n f o r m a t i o nm a n a g e m e n ts y s t e m ) ;s n p ( s i n g l e n u c l e o t i d ep o l y m o r p h i s m ) ;j a v a v i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了 文中特另3 ) 3 n 以标注和致谢的地方外,论文中不包含其他人已发表或撰写过 的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示了谢意。 签名: 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有 权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论 文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名: 上海大学硕士学位论文 1 1 课题来源 第一章绪论 本课题来源于国家人类基因组南方研究中心。 1 2s n p 介绍 1 2 1s n p 基本概念 s n p s 是指在基因组水平上由于单个核苷酸位置上存在转换( 即嘧啶和嘧啶之间转 换或嘌呤和嘌呤之间转换) ( c 与t 互换,在其互补链上则为g 与a 互换) 或颠换( 嘌 呤和嘧啶之间转换) ( c 与a ,g 与t ,c 与g ,a 与t 互换) 等变异所引起的d n a 序列 多态性,其中最小一种在种群中的频率不小于1 。s n p 是人类可遗传的变异中最常见的 一种,占所有已知多态性的9 0 以上 ”。s n p 在人类基因组中广泛存在,平均每5 0 0 1 0 0 0 个碱基对中就有1 个,估计其总数可达3 0 0 万个甚至更多【2 】口 通常所说的s n p 都是二等位多态性的,转换的发生率总是明显高于其它几种变异, 具有转换型变异的s n p 约占2 3 ,其它几种变异的发生几率相似。转换的几率之所以高, 可能是因为c p g 二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中 大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。 在基因组d n a 中,任何碱基均有可能发生变异,因此s n p 既有可能在基因序列内, 也有可能在基因以外的非编码序列上。大多数s n p s 位于基因组的非编码区,并且有些 位于基因组编码区的s n p s 所致编码序列的改变并不影响翻译后的氨基酸序列,这种 s n p s 对个体的表现型是无影响的。但是有的s n p s 位于基因启动子中,导致基因转录 活性的上升或下降,造成该蛋白的表达量上升或下降,进一步影响其生物学活性;有些 位于蛋白质编码区的s n p s 可能影响翻译后关键的功能基团的氨基酸序列,从而影响蛋 白质的功能,最终导致对特定环境或病因的反应敏感性。但它在遗传性疾病研究中却具 有重要意义,因此c s n p 的研究更受关注。 从对生物的遗传性状的影响上来看,c s n p 又可分为2 种:一种是同义 c s n p ( s y n o n y m o u sc s n p ) ,即s n p 所致的编码序列的改变并不影响其所翻译的蛋白质的 氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义 上海大学硕士学位论文 c s n p ( n o n - s y n o n y m o u sc s n p ) ,指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发 生改变,从而影响了蛋白质的功能,这种改变常是导致生物性状改变的直接原因。c s n p 中约有一半为非同义c s n p 。 目前很多机构都在检测s n p ,做s n p 图,建立s n p 与各种疾病之间的联系,如果 得出某些s n p 或某些s n p 的特定组合与特定疾病、特定地区发病人群乃至个别患者有 明显相关性,疾病的诊断和治疗将可以更有针对性,甚至做到个体化。近几年来,s n p 筛查在遗传病的研究,药学的应用研究,以及肿瘤研究中都得到应用。 1 2 2s n p 的筛选方法 自从s n p 受到重视以来,人们对s n p 的筛查方法进行了许多探索和改进。传统的 方法有单链构象多态性分析( s i n g l e - s t r a n dc o n f o r m a t i o np o l y m o r p h i s m 。s s c p ) 。比较新兴 的方法包括t a q m a n 探针技术、焦磷酸测序( p y r o s e q u c u c i n g ) 、d n a 芯片( d n ac h i p ) 分析、 变性高效液相色谱( d e l l a t u r i n gh i g hp e r f o r m a n c el i q u i dc h r o m a t o g r a p h y , d h p l c ) 、能量转 移标记的等位特异p c r 、基质辅助激光解吸附电离飞行时间质谱( m a l d i - t o f ) 等。下 面仅介绍几种常用的s n p 筛查方法。 ( 1 ) p c r - r f l p 方法【3 】 利用限制性内切酶的酶切位点的特异性,用两种或两种以上的限制性内切酶作用于 同一d n a 片断,如果存在s n p 位点,酶切片断的长度和数量则会出现差异,根据电泳 的结果就可以判断是否有s n p 位点以及出现的碱基替换的类型。该技术应用的前提是 s n p 的位点必须含有该限制内切酶的识别位点,它是s n p 筛查中最经典的方法之一。 ( 2 ) 分子信标( m o l e c u l a r b e a c o n s ) 法1 4 】 分子信标( m o l e c u l a r b e a c o n s ) 法由t y a g i e ta l 于1 9 9 8 年建立,作者构建了4 种 分子u 型探针,其核苷酸序列除中央位点处分别为t 、c 、a 、g 外完全相同,探针的 5 ,端分别用四种荧光物质标记:香豆素( c o u m a r i n ,发蓝光) - t ,荧光素( f l u o r e s c e i n , 发绿光) c ,4 甲基蕊香红( t c t r a m et h y l r h o d a m i n e ,发桔红色光) a ,德州红( t e x a sr e d , 发红光) - g ,探针的3 端均结合4 - 4 - - - - q 9 基胺基苯基氮1 安息香酸( d a b c y l ,可淬灭 很多荧光物质发出的荧光,可作为一种常用的淬灭物质) ,将这4 种探针分别与四种模 板链( 中央位点处分别为a 、g 、t 、c ) 互补配对结合。未结合时探针均不发荧光( 通 过荧光共振能量传递作用) ,只有探针与模板链完全互补配对时构象才会由u 型变为直 2 上海大学硕士学位论文 线型,从而发出大量荧光,即便只存在一个碱基的错配也不会发出荧光。可以通过荧光 的颜色不同,识别出该位点的碱基种类。 ( 3 ) t a q m a n 荧光探针法【5 卅 t a q m a n 荧光探针法的原理是在p c r 反应中,将一对荧光染料和荧光淬灭物质的染 料对分别结合到t a q m a n 探针的两端。探针未与目标序列结合时,通过荧光共振能量传 递作用使荧光染料不发荧光;完全互补配对后,由于t a q m a nd n a 聚合酶具有5 ,核酸 酶活性,可将荧光染料从探针上切下来,其发出的荧光可用荧光计检测。如果探针与目 标序列中存在错配碱基,就会减少探针与且标序列结合的紧密程度及t a q m a nd n a 聚 合酶切割荧光染料的活性,也就影响了荧光释放量,从而使碱基突变链与正常链得以区 分。 ( 4 ) d h p l c 法 d h p l c 即变性高效液相色谱技术是近年来新发展的一种s n p 筛查方法,一种自动、 快速、高通量的基因突变筛查技术,在与疾病相关的基因突变检测s n p 筛查方面得到 了推广应用。 其突变检测的基本原理是:含有突变位点的p c r 扩增产物经变性、逐步降温退火 后,将形成同源和异源双链( 即一条为突变链,另一条为正常链) 两种d n a 分子。在 部分变性条件下,发生错配的异源双链d n a 更易于解链为单链d n a ,与d n a s e p 柱结 合力降低,比同源双链d n a 分子更易于被乙腈洗脱下来,从而与同源双链d n a 分离。 一般来说,含变异成分的p c r 产物将在d h p l c 图谱上比p c r 非变异产物多1 - 2 个峰 型,因而两者可以被鉴别。 该方法有赖于d n a 同源双链与异源双链之间物理性质的差异,根据异源双链和同 源双链在变性反向高压液相离子柱层析过程中滞留时间不一致而分离。 ( 5 ) p c r 和测序结合法( s e q u e n c i n g ) 将可能的s n p 位点进行特异性p c r 扩增,为了增加其特异性和准确性可采用巢式 p c r ,然后结合d n a 测序( 直接测序或克隆载体测序) 找到s n p 存在位点并确定其碱 基替换类型。 该方法原理简单,容易掌握,适合对短基因片断的s n p 筛查,因此,仍然被许多 科研工作者应用,最新发表的科研文献中有很多是用该方法进行s n p 筛查的。 ( 6 ) p c r m a l d i m s 法1 7 - 9 1 3 上海大学硕士学位论文 生命科学的发展总是与分析技术的进步相关联,基质辅助激光解吸附电离( m a t r i x a s s i s t a n tl a s e rd e s o r p t i o ni o n i z a t i o n ,m a l d i ) 是由两位德国的科学家f r a n z h i i l e n k a m p 和m i c h a dk a r a s 于1 9 8 8 年发明的,并且因此获得了美国质谱协会( a s m s ) 1 9 9 7 年度 杰出贡献奖。这种技术所具有的高灵敏度和高质量检测范围,使得能在p m o l 乃至f m o l 水平检测分子量高达几十万的生物大分子,从而开拓了质谱学一个崭新的领域一生物 质谱,促使质谱技术在生命科学领域获得广泛应用和发展。 其基本原理是将分析物分散在基质分子( 尼古丁酸及其同系物) 中并形成晶体。当 用激光( 3 3 7i l r f l 的氮激光) 照射晶体时,由于基质分子吸收辐照光能量,导致能量蓄 积并迅速产热,从而使基质晶体升华,导致基质和分析物膨胀并进入气相。由于m a l d i 常与t o f 连在一起,称为基质辅助激光解吸附飞行时间质谱仪( m a l d i - t o f m s ) ,俗 称飞行质谱。自发明以来,m a l d i - t o f m s 常被应用于蛋白质序列分析,制作肽指纹 图谱,测量化合物分子量等,在基因领域的研究有d n a 序列测定、d n a 点突变、遗传 病诊断等。在s n p 筛查中,p c r 和质谱技术结合,具有精确,灵敏,高通量的特点。 该方法的缺点是受仪器的限制,费用较高,质谱操作前的纯化技术要求高,否则容易引 起误差。 ( 7 ) 基因芯片( d n a c h i p ) 基因芯片又称d n a 芯片( d n a c h i p ) ,d n a 微集阵列( d n a m i c r o a r r a y ) 等,指 采用寡核苷酸原位合成或显微打印手段将大量的d n a 片段有序地固定排列在固相支持 物如尼龙膜,玻片等表面形成探针阵列,然后与标记的样品进行杂交,通过对杂交信号 的检测实现快速、高效、并行的多态信息分析。利用基因芯片技术筛查s n p 是随着近 几年芯片技术的快速发展、应用、普及而建立的一种高度并行性、高通量、微型化和自 动化的检测手段,应用该方法可以寻找新的s n p 位点,并实现s n p 位点在基因组中的 精确定位。 , ( 8 ) 荧光磁珠技术( l u m i n e x 。l l l u m i n a , q d o t ) 0 0 该方法依靠寡核苷酸对s n p 位点的等位基因特异性延伸和p c r 扩增,其特点是通 量大,能同时检测约1 5 3 6 个s n p 位点。该方法的原理是根据s n p 两侧已知d n a 序列 设计上下游探针,检测每个s n p 需要三条寡核苷酸引物:两条上游探针( a s s a yo l i g o s ) p l ,x p 2 ,覆盖同一位点,是等位基因专一性探针( a l l e l e - s p e c i f i cp r o b e s ) ,分别代表二 态s n p 中的一种等位基因型;一条下游探针p 3 ,具有位点特异性( 1 0 c u s s p e c i f i c 4 上海大学硕士学位论文 p r o b e ) 。这三条寡核苷酸引物都包括与基因组d n a 互补的区域和与通用p c r 引物配对 的序列。下游探针还包含一段特异性“标志”序列( a d d r e s ss e q u e n c e ) ,恰好能与b e a d a r r a y 中每个小珠上附着的寡核苷酸探针互补结合。由此,这三条寡核苷酸引物组成了一个 s n p 位点的一套检测探针;高达1 5 3 6 个s n p 位点的这样一套检测探针被汇集在同一检 测试管里制成了一个o p a 。在o p a 与少量的基因组d n a 样品杂交时,通过延伸、连 接和扩增反应获得带荧光标记的单链,通过特异性“标志”序列( a d d r e s ss e q u e n c e ) ,与 b e a d a r r a y 中每个小珠上附着的寡核苷酸探针互补结合。最后经过激光激发、扫描仪采 集荧光、数据收集整理和处理分析,最终产生1 5 3 6 个s n p 的分型结果。每次每块芯片 能同时检测9 6 份样品,即理论上可一次获得1 4 7 4 5 6 ( 9 6 x 1 5 3 6 ) 个s n p 基因分型结果。 近几年来s n p 的筛查方法取得了很大的进展,但大都以p c r 方法为基础,结合电 泳技术,或结合荧光、质谱、酶联免疫等方法。除了上述的几种方法外,还有以分子杂 交为基础的寡核苷酸连接分析( o l i g o n u c l e o t i d el 噜a f i o na s s a y ,o l a ) 】,等位基因特异 性寡核苷酸探针杂交法( a l l e l e - s p e c i f i co l i g o n u c l e o t i d eh y b r i d i z a t i o n ,a s o ) 【1 2 】,动态等 位基因特异性杂交( d y n a m i ca l l e l e - - s p e c i f i ch y b r i d i z a t i o n ,d a s h ) 【1 3 】法,单个碱基延 伸标记( s i n g l e b a s e e x t e n s i o n - t a g ,s b e - t a g ) 法等,此外目前许多生物技术公司发展出 高通量检测s n p 的技术系统,如荧光微阵列系统( a f f y m e t r i x ) 、自动酶联免疫( e l i s a ) 试验( o r c h i db i o c o m p u t e r ) 、焦磷酸的荧光检测( p y r o s e q u e n e i n g ) 【1 4 l 、荧光共振能量 转移( f r e t ) ( t h i r dw a v et e c h n o l o # e s ) 以及质谱检测技术( r a p i g e n e ,s e q u e n o m ) 。各 种方法的应用使检测s n p 越来越快速,准确,并且高通量,极大地丰富了现有的s n p 库,激发了科学家们寻找s n p 的热情。 1 2 3s n p 的医学意义及应用 ( 1 ) 基因定位 s n p 可以用于疾病的未知致病基因的定位。s n p 数量大和分布广,在任何已知或 未知致病基因附近都可能找到众多的s n p ,并用于遗传病的单倍型诊断。在有适当的家 系资料时,s n p 又可用作遗传标记来定位未知基因。与目前广泛使用的微卫星小卫星基 因图比较,未来s n p 图的标记更多,分辨率更高,定位基因也更加准确。有7 0 0 9 0 0 个s n p 的基因图与目前用于基因组扫描的3 0 0 4 0 0 个微卫星位点的基因图的分析能力 相当,但制作前者要容易得多。而如果采用l5 0 0 30 0 0 个s n p 作扫描,结果明显优 于目前使用的微卫星扫描。 5 上海大学硕士学位论文 ( 2 ) 疾病关联分析 如果说连锁分析是基于家系中一种疾病或表型与某个等位基因的同时在 ( c o e x i s t e n c e ) 或相联系的话,那么关联分析则是基于群体中某种疾病与某个特定等位基 因的频率相关。经典的连锁分析常苦于家系中患病成员的不足和d n a 标本的不易取得, 而关联分析无需家系资料,只需研究一个群体中的患者与非患者。当一个遗传标记的频 率在患者明显超过非患者时,即表明该标记与疾病关联。通过比较分析两者的单倍型和 发现连锁不平衡,关联分析也可将基因组中任何未知的致病基因定位。但要做到这一点, 估计需要有3 万3 0 万个s n p 。 ( 3 ) 复杂疾病及发生过程的基因定位 迄今为止,在复杂疾病和复杂生理过程相关基因的识别和定位方面取得的成绩仍十 分有限。这是因为它们涉及的基因众多,而一个基因怎样影响另一个基因的表达,即基 因间的相互作用还不清楚,众多环境因素所起的作用也难以确定。结果是多数致病等位 基因的外显率低,只有少数等位基因的携带者才有明显的表型或症状。这就使传统的家 系连锁分析方法无能为力。近些年在复杂疾病基因定位方面比较成功的例子,如乳腺癌、 遗传性非息肉性结肠癌和i i 型糖尿病的某些亚型,都属涉及的基因相对不多和致病基因 外显率高的肿瘤或疾病。 然而,如果有基于s n p s 的高分辨率的基因图作为全基因组连锁分析或关联分析的 基础,则可能同时筛查到复杂疾病或性状的众多相关基因。许多作者都希望s n p 的大 量发现和第3 代的基因图的制成与应用能给复杂疾病的基因定位带来重大突破。最近有 作者声称已通过s n p 关联分析发现了两个前列腺癌相关基因。又有作者以s n p 为标记, 用半参数法作连锁连锁不平衡综合分析和模拟基因组扫描试验以定位复杂性状的基 因,并表明综合分析可以获得比单纯连锁分析或单纯连锁不平衡分析更好的结果。 ( 4 ) 了解疾病发病的分子遗传机理 遗传病研究中已经积累了大量碱基置换引起基因功能或表型异常的病例。近年来还 建立了p 5 3 、h p r t 、p a h 等基因的突变数据库。如果能系统地鉴定和记录基因的e s n p 和基因调控区的s n i ,那么通过病例对照的突变分析,就有可能阐明这类s n p 与异常 表型之间的关系,从而对疾病遗传机理的阐明作出重要贡献。 另一个诱人的前景是,由于d n a 芯片及其它技术的发展,已存在大规模自动化检 测s n p 的可能。未来有可能检测许多个体的所有的多态位点,包括一切有功能意义的 6 上海大学硕士学位论文 多态位点,这种全基因组多态性扫描或基因型分析如果能在大群体、或至少在许多个体 中进行,那么通过表型与全基因组s n p 图谱的相关研究,理论上可将人类的任何表型、 功能、对任何疾病的易感性加以定位。除此以外,利用微阵列技术将来还可以同时检测 某一疾病时所有相关基因的表达。在未来,一张个体的基因组结构图谱( s n p 图谱) 和一 张个体的基因组表达图谱将能全面地描绘出个体的遗传物质及其功能状态,而归纳众多 个体的这种结构和功能图谱将把疾病的发病机理研究推向一个崭新的水平。大群体中的 全基因组多态位点检查由于工作量巨大,目前还难以想象,但在特定患病人群或对照人 群中测定某些相关基因或候选基因的s n p ,以阐明疾病发生的遗传基础则已有可能。 ( 5 ) 检测环境因子易感基因 在疾病发生的过程中,个体或群体对环境致病因子的易感性起着重要作用。这种易 感性的遗传基础是基因组的结构差异或和表达差异。s n p s 有助于阐明这些差异。绝 大多数s n p s 本身虽不是易感性的原因,但在全基因组范围内比较易感和非易感人群之 间的s n p 图谱,则可显示易感人群基因组的结构特点,并通过关联分析或连锁不平衡 分析指导寻找易感基因。 当然,个体或群体的易感性并不完全由其基因型决定。在环境致病因子作用下的基 因表达往往起着更重要的作用。因为即使基因型一致,基因表达还会受到甲基化、体细 胞突变、x 染色体的随机失活等影响。随着d n a 微阵列芯片在基因表达研究中的应用, 如果能够确定易感基因的关键组织或细胞,那么理论上只需有限的个体或标本就可确定 环境因子对基因组表达的影响并找出易感基因。 ( 6 ) 指导用药和药物设计 同一药物在不同个体产生的效果不是完全相同的。这种不同是由于药物本身在不同 个体体内活化、代谢、清除方面的差异所决定的,而这种差异首先是遗传差异。 基因组的多态性,尤其是s n p 多态性能充分地反映个体间的遗传差异。通过研究 遗传多态性与个体对药物敏感性或耐受性的相关性,可以阐明遗传因素对药物效用的影 响,从而对医生针对性的用药和药物的开发提供指导和依据。 单个基因对药物作用的影响已有不少研究。例如,已知一些参与药物代谢的酶的基 因和受体基因可以改变药物在体内的代谢和个体对药物的敏感性。但对于常见的复杂疾 病来说,了解单个基因对药物作用的影响是远远不够的,因为这些疾病的发病有众多基 因和环境因素的参与,而单个基因或因素的贡献甚微,并认为一般不会超过5 。因此, 7 上海大学硕士学位论文 有必要在整体水平上全面认识多个基因的作用,而这只有基因组水平上才有可能做到。 s n p 以其数量众多和易于批量检测,正好为此提供了条件。 e l 前,正在兴起的药物基因组学( p h a r r n a c o g e n o m i c s ) 研究遗传因素对药物作用的影 响和不同基因型个体对药物反应的差异,从而为临床有针对性地合理用药和根据不同基 因型群体对药物的反应来改进药物设计提供了理论依据。这是当前制药行业对s n p s 制 图和发展大量检出s n p s 方法表现出空前兴趣的原因。 可以理解,药物基因组学首先选择研究的对象将是与药物活化、代谢或靶分子有关 的基因及其多态性,以便用最少的投入发展对不同人群或个体更加安全有效的药物和诊 断试剂。 1 2 4s n p 的网上资源 目前,可供利用的公开s n p 网上资源主要包括: i 由美国国立卫生研究院( n a t i o n a li n s t i t u t e so f h e a l t h 。n i h ) 提供的主要是与癌症 和肿瘤相关的候选s h i p 数据库:h t t p :c g a p n c i n i h , g o v g a i i i 由n i h 开辟的适于生物医学研究的d b s n p 多态数据斟博一6 1 : h t t p :w w w n c b i n l m n i h g o v s n p i i i 由人类基因组组织机构( h u m a ng e n o m eo r g a n i z a t i o n , h u g o ) 维持的突变数据 库:h t t p :a r i e l , u c s u n i m e l b e d u a u :8 0 e o t t o n m d i h t m i v 由美国白头研究所( w k t e h e a di n s t i t u t ef o rb i o m e d i c a lr e s e a r c hg e n o m ei n s t i t u t e ) 建立的人类s n p 数据库:h t t p :w w w - g e n o m e w i m i t e d u s n p h u m a n i n d e x h t m l v 由华盛顿大学( w a s h i n g t o nu n i v e r s i t y ) 支助的按染色体位置组织的s n p 数据库: h t t p :w w w i b c w u s t l e d u s n p 由瑞典卡尔林斯卡研究院( k a r o l i n s k ai n s t i t u t eo f s w e d e n ) 建立的h g b 硒e 数据 库:h t t o :h 2 b a s e c g r k i s e v i i 由国际医药与信息加工公司联合组成的s n p 研究联盟( t h es n pc o n s o r t i u m , t s c ) 建立的s n p 数据库:h t t p :s n p c s h l o r g d b s n p m a p v i i i 由美国国立环境健康科学研究院( n a t i o n a li n s t i t u t eo fe n v i r o n m e n t a lh e a l t h s c i e n c e ) 资助的犹他州大学s n p 数据库:h t t p :w w w , g e n o m e u t a h e d u , , e n e s n t ) s 1 3 课题研究的目的和意义 ( 一) 研究目的 8 上海大学硕士学位论文 随着人类基因组研究计划 1 7 ( h u m a no e n o m ep r o j e c t , h g p ) d n a 序列测定工作的 快速发展,研究人类基因组变异的重要性日益突出。将人类d n a 变异的数据收集整理, 并存储在数据库中,不仅可以用于研究人类的起源、进化以及现代人群遗传变异的发展 机理,而且将在检测与疾病治疗方面发挥重要作用。基因组变异最常见的一种形式就是 s n p 。然而作为s n p 数据产生地的实验室却缺少有效的手段对数据进行采集、整合、存 储、查询、统计。我们的研究目的就是根据国家人类基因组南方研究中心多年s n p 研究 实践中科研积累和最新研究需求,结合最新的生物信息数据存储和处理方法而开发的一 套集数据采集、标准化、存储、归类、统计分析和导入导出为一体的综合数据中心系统。 该系统能够能够对零散、格式多样的s n p 实验数据进行存储,能够整个多个s n p 实验平 台的数据,能够为实验室提供一个数据中转平台,并且能够有效地处理历史数据、分配 人员权限、产生详尽快捷准确的统计信息从而优化实验室的管理。 ( 二) 研究意义 实验室s n p 数据中心及数据处理平台是在全球分子生物学研究突飞猛进大量实验 数据产生的背景下,在国家人类基因组南方研究中心工作人员深感分散操作管理数据不 方便不安全效率较低的条件下提上日程的。实验室中各种数据分散保存,流程权限不清, 数据分析查询不易,要把实验室建成大规模信息化规范化的实验室,提高管理水平和科 研效率,构建一个信息化的平台是十分必要的。当今国内,s n p 相关的实验室管理系统 还没有看到,国际上也很不成熟,没有形成一定的标准和体系。我们上海大学生物信息 中心跟南方中心合作开发的这样一个信息平台,对于提高我国s n p 实验的管理水平, 制定一套s n p 数据相关标准都很有裨益。我们是根据s n p 实验的具体情况,在实地考 察和频繁交流的基础上,有针对性地设计了整套信息平台,鉴于南方中心在s n p 领域 的地位,我们对这个平台的设计和管理模式对其他做s n p 实验的机构信息化建设也可 以起到推动和借鉴的作用。本平台是着眼于数据管理和实验室管理相统一,自有数据和 国际共享数据相结合,跟随时代发展与国际接轨的目标设计的,未来还有更多更长的路 要走。此外,很少有数据库实现了把工作流程和用户信息作为实验数据管理,因此研究 这样一个课题不但具有及其重要的现实意义,也在构思和实践上有所创新,是一个很值 得付出精力进行研究的课题。 1 4l i m s 介绍 l i m s 是以实验室数据管理为核心,采用先进的计算机网络技术,基于数据库将实 9 上海大学硕士学位论文 验室中的样品、设备、人员、实验数据等多方位信息管理软件【1 8 】,其目的在于强化实 验室的管理,提高实验室的工作效率,并加强实验室的数据安全。自1 9 世纪7 0 年代提出 l i m s 这个术语以来,l i m s 得到了越来越多有识之士的重视,也逐步迈进商业化和专业 化的轨道。l i m s 在2 0 世纪8 0 年代出现雏形,并在随后十几年中随着微型计算机的迅速 普及以及k i t e t n e t i n t r a n c t 和w e b 网络技术的迅速发展而日趋成熟,在发达国家应用日趋广 泛。我国l i m s 系统的开发及应用始于2 0 世纪9 0 年代中期,目前已积累了一定的经验。但 是,由于实验室管理体系、任务和性质等差异,目前,在国内真正构建和全面应用l i m s 的 实验室还不多,开发和应用的l i m s 大多偏重于管理,其功能与真正的l i m s 还有较大的差 距,系统的通用性和专业性也较差,尚不能满足实验室信息管理的需型1 蛇3 1 。1 9 8 7 年第一 次国际性的l i m s 会议在匹斯堡成功举行,此后每年都举行一届供大家交流1 2 4 。l i m s 已经在诸如生物实验【2 孓2 6 1 、煤炭、化工、检验、食品等诸多领域取得了长足发展, 给众多的实验工作人员带来了极大方便,大大提高了工作效率。 1 5 国内外研究概况 1 5 1 国内研究概况 国内有一些单位开发了一些s n p 方面的工具软件,比如湖南师范大学生命科学学 院开发了一套名为s n pp r o c e s s o r 2 剐的软件,能够帮助进行实验室进行一些数据处理和 格式的转换,但是缺少对实验流型2 9 】和实验资源的管理,而且也只能单机运行。目前 能够对s n p 实验室的实验流程、实验资源、样品数据、实验结果等全方位信息进行管 理的网络化的l i m s ,国内还未曾见到。 1 5 2 国外研究概况 l i m s 作为一项有效的实验室管理手段【划,在许多领域发挥了重要的作用,但是s n p 实验方面的l i m s 还不成熟。s t e p h a n i em o n n i c r , d a v i dgc o x 等人制作了一个用来处理 t a q m a n 平台数据的t i m s e ”l 这个软件是用来帮助实验人员进行拼板操作的,是一个只 能应用于t a q m a n 实验平台的单机版软件;m a x i mb a r c n b o i m ,y o n g j i a ng u o 等人也制作 了一个单s e q u e n c i n g 平台在u n i x 下运行的l i m s 3 2 1 ,这个l i m s 也是单机版单平台的 软件。总得说来,现存的一些s n p 相关的l i m s 都是单个实验平台的l i m s ,不能整合 多个实验平台数据,并且都是集服务端与客户端为一体的单机操作平台,不能形成网络 操作环境,不允许多用户同时操作。还有一些l i m s 只是单纯地帮助工作人员把实验中 某个步骤的操作变得简便,并不能从管理的角度对实验室进行全方位的管理。此外这些 1 0 上海大学硕士学位论文 类型的l i m s 均不是根据实验流程设计的功能强大成体系的系统,难以满足实验人员的 实际需求。 1 6 论文的主要研究内容 研究内容主要包括以下几方面: 1 ) 在了解实验室分析s n p 的方法、过程和意义后系统地研究整个系统的需求,并 按照软件工程的要求对系统进行整体架构设计,具体功能设计、界面设计、数 据库设计、权限设计、使用方法设计。 2 ) 着重研究用系统的、流程化的方式管理实验数据的可行性和实现方法。 3 ) 按照系统的详细设计进行软件开发,运用当今流行的j 2 e e 架构等先进的网络 编程技术实现l i m s 的各项功能。 上海大学硕士学位论文 第二章系统数据结构 2 1 结构设计 近年来,扫描和检测s n p 的技术不断发展和提高。有基于荧光技术的、也有基于质 谱技术的;有基于电泳方法的、也有基于芯片方法的。h p l c 、a s o 、s s c p 、r f l p 等 比较老的技术在实验室的分型中使用得越来越少,类似于i l l u m i n a 等通量较大, s e q u e n c i n g 等可靠性较高,s n a p s h o t 、b e c k m a n 等较为灵活的实验方法正在被越来越多 地使用【3 3 1 。在表l 中对较为流行的检测方法分别按实验目的、实验方法、通量大小进行 了分类,这些不同的实验方法有不同的实验流程,也产生形式各异的实验结果数据。但 这些数据最终都统一于“性状样品位点分型结果”这样一个固定的对应形式,即对不同 样品中不同位点的s n p 分型结果与性状进行关联。如何方便地把不同实验平台看似千差 万别但存在内在联系的数据统一起来,实现归一化的存储、查询、统计、分析是需要我 们解决的一个问题。 实验目的实验方法通量 筛查分型电泳芯片高通量低通量 s e q u e n c i n gs e q u e n c i n gs e q u e n c i n g l l l u m i n a n l u m i n a t a q m a n h p l c t a q m a ns n a p s h o ta f f 3 a n c t r i xa f f y m e t r i x r f l r a s o s n a p s h o t s n p l c x p e r l c g e nw a f e wp c d c g e nw a f e r s s s c p s s c ps n p l c xs s c ps n p s t r e a n哪l c r f l p l l l u m i n ar f l p s e q u e n c i n g s n p 曲r e ms n p s t r e n m a f f y m e t r i xs n a p s h o t 表2 1 不同s n p 平台的分类比较 因此,我们列出了现在常用的s n p 检测平台,并将不同的平台进行了分类比较( 如 表2 1 ) 。将所有s n p 实验平台都纳入系统的管理是不太现实的,可以选择编写几个典 型的平台。选择平台应该考虑的因素主要有:1 、稳定性和功能的完整,平台本身已经 得到比较广泛的应用,较为成熟,分型准确率较高;2 、数据格式较为固定,能够将平 台中所有有用的数据都保存起来,实现简易而完整地导入和导出;3 、兼容性和易扩展 性。 s n p l i m s 选择了具有代表性的t a q m a n 、s e q u e n c i n g 、i l l u m i n a 三种实验平台。从表 上海大学硕士学位论文 2 2 中可以看出,这三个平台涵盖了筛查和分型两种实验目,包括电泳、芯片两种实验 方法,并且分属于低和高两种通量的实验。我们的系统中包含了这三个平台,也大致包 括了s n p 实验的三大类数据形式。其他平台都可以方便地在此基础上进行扩展。 实验目的 实验方法 通量大小 筛查分型电泳芯片高通量低通量 s e q u e n c i n 、, t a q m a n i l l u m i n a 表2 2 三种实验平台的特性 2 2 数据导入 现实中,实验室中存在着各种类型格式各异的数据并分散在众多工作人员的手中, 为了更方便有效地对数据进行集中管理,我们把实验过程中产生的各式数据,整合分成 如表2 3 所示的五大类共十三种标准样式,并制作成模板放在系统中供用户下载。用户 把手中的数据整理成与模板一致的样式才能实现数据导入。系统的导入程序会对用户填 好的表格进行格式检查,如果发现错误会友好地在导入页面中提示,指导用户修改后再 上传。 m o d u l en a m e r e m a l a t e sn a m e s a m p l e s a m p l ei n f o r m a t i o n r e m o l a t e e x t r a c t i o nt e m o l a t e t a q m a n 9 6 - w e l lp l a t et e n m l a t ei nt a a m a ne x l a e r i m e n t r e s u rt e m o l a t eo f t a a m a ne x t ) e r i m e n t s e q u e n c i n g 9 6 - w e l lp l a t et e m d l a t ei ns e o u e n c i l i e x o e r i m e n t g e n o t v o i l l 2t e r t m l a t e s n pi n f o r m a t i o nt e m p l a t e i l l u m i n a 9 6 一w e l lp l a t et e n m l a t ei nl l l u m i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水果供货货款合同范本
- 正规租赁汽车合同范本
- 榆次下乡支教协议书
- 青少年科技创新创业大赛试题及答案
- 临汾新华中学协议书
- 校园系统集成合同协议
- 2026-2031年中国生命科学行业研究分析及市场前景预测报告
- 基于柔顺板簧的平面微动平台大行程运动特性与控制策略研究
- 基于极限学习机的超短期光伏功率在线预测:理论、实践与创新
- 基于机器视觉的端子高低针检测系统:技术创新与应用实践
- 2025外研版新教材英语七年级上册单词表(复习必背)
- 四级手术术前多学科讨论制度(2025年)
- 艺术设计专业英语李洪春教学课件全套
- 小学科学项目式学习教学设计案例
- 压铸模具基础知识培训课件
- 风电厂冬季安全培训课件
- 2024年华北电力大学公开招聘辅导员笔试题含答案
- 2025云南昆明元朔建设发展有限公司第一批收费员招聘20人备考考试题库附答案解析
- 高危药品外渗预防及处理
- 钢结构焊接工艺评定
- 转炉维修安全培训课件
评论
0/150
提交评论