(生物医学工程专业论文)基于drsnp系统的snp筛选策略的研究和实现.pdf_第1页
(生物医学工程专业论文)基于drsnp系统的snp筛选策略的研究和实现.pdf_第2页
(生物医学工程专业论文)基于drsnp系统的snp筛选策略的研究和实现.pdf_第3页
(生物医学工程专业论文)基于drsnp系统的snp筛选策略的研究和实现.pdf_第4页
(生物医学工程专业论文)基于drsnp系统的snp筛选策略的研究和实现.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t a b s t r a c t t h e s j s1 1 t ,e :e x p l o r a t j o na n dr e a l i z a t i o no fs n ps c l c c t j o ns t r a t e g yb a s c do nd r s n ps y s t e m g r a d u a t es t u d e n tn a m e :w a n gq i s u p e r v i s o rn a m e : l uz u h o n g ( p r o f c s s o r ) u i l i v e r s i t yn a m e : s o u t h e a s tu n i v e r s i t y w i t ht h ec o m p l e t i o no fh u f m ng e n o m ep r o j e c t ( h g p ) ,i t sb c c o m i n gp o s s b l et oi n v e s t i g a t e t h ed i f f e r e n c ea m o n gi n d i v i d u a l si ng e n o l n es c a l e t h em o s ta b u n d a n ts o u r c eo fg e n e t i cv a “a t i o n i nt h eh u m a ng e n o m e sj ss j n 9 1 en u c l e o t i d ep 0 1 y m o r p h i s m s ( s n p s ) s o r n eo ft h e s ev a “a t i o n sm a y b c 【h cc a u s eo ft h ei n d i v i d u a ld i r f e r e n c e si nb o t hs u s c e p t _ b i l i t yt od j s e a s ea n dr e s p o n s et o m e d i c i n es oj d e n t j l _ i c a t i o no rt h es n p sa s s o c j a t e dw i t hh u r t l a nd i s e a s ep h e n o t y p e sh a sg r e a t p 。t c n t i a lf o rd i r e c lc l i n i c a 】a p p l i c a l i o nb yp r o v i d i “gn e wa n dm o r ea c c u r a t eg e n e t i cn l a r k e r sf o r d i a g n o s t i ca n dn o v e lt h e r a p e u t i ct a 哩e t s u n d c rt h i sb a c k g r o u n d ,o u r l a bd e v e l o p e dam i c r o a r r a y p l a t f o r mf o rp a r a l l e ld e t e c t i o no fo n eo rm o r es n p so rm u t a t i o ni t l a r k e r si nan u m b 盯o fg e n 。m i c d n as a m p l e s a sap a r to ft h i sp l a t f o r m ,i nt h i sp a p c r ,w ec o n s l r u c lad r s n p ( d i s e a s e r e l a 刚 s n p s ) d a t a b a s es y s t e ma n di n v e s t i g a t et h es n ps e l e c t i o ns t r a t c g i c s d u r i n gt h er e s e a r c ho fs n p sa s s o c j a t e dw j t hd i s e a s e s ,t h e r ei sal a 曜ea m o u n to fd a t at od e a l w i 【h ,i n c l ud l n gs n pi n t o r r n a t i o n ,e x p e r i m e n t si n f o r m a t j o na n ds a m p l e s i n f o r m a t i o n i no r d e rt o e h c t i v c l ys t o r e ,s e a r c ha n da n a l y s i st h e s ed a t a ,w ed e s i g nad r s n ps y s t e mi 【c o n t a i n st h r e e d a t a b a s e sf o rs t o r i n gt h ed a t ao fs n 只s a r n p l ei n f o r 眦l i o n ,a n de x p e r i m e n t a lr e s u l t s w j t ht h eh e l p o f 【h i ss y s t e 叽r e s e a r c h e r sc a ns e 】e c tp r o p e rs n ps j t e sa n ds a m p l ec o l l e c t i o nf o re x p e r i m e n ta s w e j ja so b t a j nt h es t a t i s t j c a lr e su j f so rm c r o a m yc x p c r j m e n t sa u t o m a l l c a j j * t bs e l e c taf e wp r o p e rc a n d i d a t es n ps j t e sf r o mo v e r9 ,0 0 0 ,0 0 0h u m a ns n ps i t e s f o ra 1 1 1 i c r o a r r a ye x p e r i m e n tj se x t r e m e l yj m p o r t a n tf o ra l lt h es n pr c s c a r c h c r sf r o mt h eg e n o m e s t r u c t u r e ,w ep r o v i d es e v e r a ls e l e c t i o nm c 1 0 d s a f t c rt h a t ,w er a n kl h e s em e t h o d sw i t h 【h e d i 仟i c u l t yo ft h e i rr e a l j z a t i o n s t h e s er a n k i n gs y s t c mh e i p su sl ob u i l d “pan o r m a ls n ps e l e c t i o n s t r a t e g y o u rs e l e c t j o ns 【r a t c g yi sb a s e d0 nl h ei n 【e g r a t i o no fg e n o i n es e q u e n c e sd a t aa n dt h e i r a n n o t a 【i o nj n f o r m a t o n w cd o w n l o a dd a c af r o md i f k r e n ti n 【e r n a l i o n a ls o u r c e s s u c ha sn c b i g e n e b a n k ,u c s cg c n o m c ,d b s n p d b t s s ,i ) c s c u d o g e n ea n dt r a n s f d c n ei n t o r m a t i o nw en e e d t oc o n d u c ts n ps e l e c t i o n st r a n s f o r m e df r o mt h o s ep r i m a r yd a l aw i t hd i r f e r e n tb i o i n f o r m a n c s i i a b s t r a c t m e t h o d s i na d d i t i o n ,w ew r i t es o r n ep e r ls c r p t st ou p d a t cl h cs n pd a 【ea u l o 哪t i c a l l y u s i n gj s pt e c h n o l o g y ,w er e a l j z et h es e l e c t i o ns t r a t e g yo nw e b t h es e l e c t i o np a g ei sd e s i g n e dt o s h o wb o t hg e n em o d e l6 9 u r ea n ds n pi n f 研咖t i o nt a b l e sl o g e 【h e r i le n ab l e su st os e l e c 【s n p s f m m g e n e ,g e n ef a m i l yo rw h o l ec h r o r t l o s o m el c v e l m c a n w h i l c ,i tc a ns c r v ea s af r a i 惟w o r kf o r t h ef u t u r er e a l j z a t j o no fo t h e rs e l e c t i o ns t r a t e g i e s k e y w o r d s :h 啪a ng e n o m e ,s i n g l en u c l e o t i d ep o i y m o r p h i s m ( s n p ) ,d a t a b a s e ,s e 】e c t i 帅 s t r a t e 野,b i o i n f o r m a t i c s ,g e n es t r u c t u r e ,p e r l i i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人存导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在沦文中作了明确的说明并表示了谢意。 研究生虢扯口期:缉f | l 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名: 黜嗽乏 j 彳) ,5 q 第一章绪硷 _,_-_-_-_-_-_一 第一章绪论 1 1 疾病相关的s n p 研究 开始与1 9 9 0 年的人类基因组计划近年来取得_ 厂一系列里程碑式的成果,2 0 0 1 年国际 人类基因组测序联盟( j n t c m a t i o n a i h u m a ng e n o i n es e q u e n c i n gc o n s o r t i u mm g s c ) 宣布完成 了人类基因组序列草图。这份人类基因组汁划草图覆盖了人类全基冈组的9 4 的区域,其 中覆盖了常染色质的9 6 ,同时预测人的编码基因有3 0 0 0 0 4 0 0 ( ) o 个。2 0 0 4 年m g s c 公布 了人类基因组常染色质的完成图圆。这份完成图覆盖了人类基因组常染色质的9 9 并且只留 有3 4 1 个g a p ,同时预测人的编码基因只有2 0 0 0 0 2 5 0 0 0 个。这些突飞猛进的发展使我们可 以从信息学的角度理解人类的遗传物质。 在2 0 0 1 年公布人类基因组草图的时候,研究者就已经发现人类基因组上的1 4 2 万个 s n p 。s n p 是单核苷酸多态性的缩写( s i n g l cn u c l e o t i d cp o i y m o p h i s m ) ,它是一种最主要的 人类基因序列的变异。在基因绸中,不同个体的d n a 序列上的单个碱基的差异被称作单核 苷酸多态性( s n p s ) 。例如,某些人的染色体上某个位置的碱基是a ,而另一些人的染色体 的相l 司位置上的碱基则是g 。同一位置上的每个碱基类型叫做一个等位基冈位点( a l l e l e ) 。 :王垦垦垦= : t b g c 这种多态性的单位点遍布整个基因组,平均不到1 0 0 0 b p 就有一个【3 j ,并且由于这些单 碱基多态性位点是人与人之间d n a 序列的丰要差异,所以很多人与人的差异最终都可能由 s n p 所体现。人类的很多疾病的易感性更是如此,这也就成为我们研究疾病相关的s n p 的 一个重要前提。 同日j 山丁人类基因组单核苷酸多态性研究可以揭示山人种、人群和个体之间d n a 序列 的差异,这种差异对于疾病的诊断和治疗都有着重要的意义。首先进行疾病和s n p 的相关 性分析可以有助于了解复杂的多基因疾病致病基因,同时在确认了疾病相关基因的基础上可 以利用最新的分子诊断技术对疾病进行早期诊断。除此以外,在药物基因组学 ( p h a r l l l a c o g e n o m i c s ) 研究中,可通过检测s n p s 的遗传多态性标记揭示人群中不同个体对不 唰药物的敏感性差异的根本原因h 。 1 2 生物芯片技术在s n p 研究中的应用 s n p 检测技术有变性高效液相色谱法( d h p l c ) 、生物芯片( m j c r 0a r r a y ) 等等,其中 基因芯片方法作为一种新型高效的基因序列变异检测技术得到越来越多的重视。基因芯片的 第一章绪论 工作原理与经典的核酸分子杂交方法( s o u 山e m 、n o r 山e r n ) 是一致的,都是应用己知核酸 序列作为探针与互补的靶核苷酸序列杂交,通过随后的信号检测进行定性与定量分析,基因 芯片在一个微小的基片( 硅片、玻片、塑料片等) 表面集成了大量的分子识别探针,能够在 同一时间内平行分析人量的基因,进行大信息量的筛选与检测分析。基n 芯片目前的应用范 围主要包括基因表达和转录图谱分析及靶序列中单碱基多态位点( s n p ) 或突变点的检测。 表达型:芯片的目的是在杂交实验中对多个不同状态样品( 不同组织或不同发育阶段、不同药 物刺激) 巾数千基因的表达差异进行定量检测,探针序列一般来自于已知基因的c d n a 或 e s t 库,设计时序列的特异性应放在首要位置,以保汪与待测目的基因的特异结合,对于同 一目的基因可设计多个序列不相重复的探针,使最终的数据更为可靠。基因单碱基多态 ( s n p ) 榆测的芯片一般采用等长移位设计法,即按靶序列从头到尾依;久取一定长度的互补 的核苷酸序列形成个探针组合,这组探针是与靶序列完全匹配的野生犁探针,然后对于每 一野生型探针,将其中间位置的某一碱基分别用其它三种碱基替换,形成三种不同的单碱基 变化的核营酸探针,这种设计可以对某一段核酸序列所有可能的s n p s 位点进行扫描。 高密度芯片的分析一般采用荧光素标记靶基因,近年来运用的多色荧光标记技术可更亩 观地比较不同来源样品的基因表达差异,常用的双色荧光试剂有c y 3 一d n t p 和c y 5 一d n t p 。 对多态性和突变检测型基冈芯片采用多色荧光技术可以大大提高芯片的准确性和检测范围, 例如用不同的荧光紊分别标i a 靶序列及单碱基失配的参考序列,使它们刊时l j 芯片杂交,通 过不同荧光强弱的比较得出靶序列中碱基失配的信息“1 。 在利用生物芯片检测s n p 的基因型的过程中会遇到大量的问题,这其中包括: ( 1 ) 从人类巨量的s n p 位点中筛选出可能的候选位点进行s n p 实验,d b s n p 最新的版 本b 1 2 4 中已经记录了超过1 0 ,0 0 0 ,0 0 0 个人类r s s n p 。要从如此大数量的s n p 数据中筛选 出少数儿个s n p 位点进行芯片实验是一个很大的挑战。 ( 2 ) 实验相关的大量样本数据的科学化的保存和处理。 ( 3 ) j 占片实验结果的分析,这里涉及到很多统计学的专业知识,同时也有比较大的运 算量。 这些问题都涉及到大量的信息的筛选、管理和分析,因而生物信息学的方法和手段可以 在这个过程中发挥重要的作用。 1 3 本课题的任务和主要研究成果 本实验室结合生物信息学和生物芯片方面的技术优势开发了一整套利用生物芯片技术 进行疾病相关的s n p 研究的流程。这套流程如图1 1 : 2 第一章绪论 图1 1s n p 研究流程 这个流程是这样的,首先利用生物信息学的方法从人类超过9 0 0 万个s n p 位点中找山几个 可能会和某种疾病相关的s n p 位点作为实验候选位点,然后把这几个位点提交给疾病相关 的s n p 管理系统,系统自动从病人样本数据库中找出一次实验所需的病人样本,实验者根 据系统给出的信息进行生物芯片实验,实验完成后将实验结果提交给自动分析系统,最后由 自动分析系统给出这次生物芯片实验的统计结果。 这个流程的特点在于计算机信息管理平台与生物芯片试验的紧密结合。计算机平台充分 的参与到生物芯片试验的设计、管理和分析的过程中。 本课题的任务就是建立这样一个研究疾病相关的s n p 的计算机平台,包括构建三个数 据库( 病人样本数据库,实验信息数据库s n p 数据库) ,以及基于这三个数据库的两个主 要工作:s n p 位点筛选、实验结果分析,分别由我和董献军来承担。 本课题的重点:利用生物信息学的方法提出可能的s n p 筛选策略,并对这些策略的可 行性进行评价,最后用友好的人机交互界面实现可行性高的筛选策略。 本课题的意义:从超过9 0 0 万个s n p 位点中找出少数几个可能的s n p 位点提供给s n p 芯片实验,这个过程是一个复杂的多层次的筛选过程,其中要用到多种生物信息学方法。筛 选结果的好坏商接决定了s n p 芯片实验的结果,如果筛选的结果不好将导致长时间高投入 的生物芯片实验失败。所以s n p 的筛选可以说是研究s n p 与疾病相关性的前提和基础。 本课题的主要内容: ( 1 )建立d r s n p 数据库平台,这个平台包括病人样本数据库,芯片结果数据库,和 s n p 数据库,它作为系统化的s n p 芯片实验的辅助设计和管理平台 ( 2 ) 系统地研究s n p 的筛选方法,开发多种s n p 筛选策略,并对它们进行综台评价 ( 3 ) r 载,处理,整合了多种s n p 筛选所需的数据,并建立了s n p 筛选数据库 ( 4 ) 建立了基于w c b 的s n p 筛选系统 第章绪论 参考文献 【1 1 c a n t o r c o r c h e s t r a t i n g t h e h u m a ng e n o l 代p r o j e c t s c i e n c e ,1 9 9 02 4 8 ( 4 9 5 1 ) :4 9 5 1 2 1i n t e r n a t i o n a lh u m a ng e n o m es e q u e n c i n gc o n s o r t i u m i n i t j a ls e q u e n c i n ga n da n a l y s i so ft h e h u m a ng e n o m e n a t u r e ,2 0 0j v o l 4 0 9 ( 8 6 0 9 2 1 ) 3 i n t e m a t i o n a lh u m a ng e n o i n es e q u e n c i n gc o n s o 而u m f l n i s h i n gt h ee u c h r o m a t i cs e q u e n c eo f l h eh u m a ng e n o m e n a l u r e ,2 0 0 4 v o l 4 3 l ( 9 3 l 一9 4 5 ) 4 1 基因有限公司专家组单核苷酸多态性研究前沿及主要技术方法生物学教学 2 0 【) 4 :2 9 :3 4 5 马立人主编生物芯片,北京:化学工业出版社,2 0 0 3 6 j ! ! 乜;型坐型:些堕:! ! 婴:卫j h :g q ! 堡丛生卫乜业婆垫垒! 监! 垂 4 第二章疾病相关的s n p 数据库平台 第二章疾病相关的s n p 数据库平台 2 1 d r s n p 介绍 d r s n p ( d i s e a s e - r e l a 【e ( 】s n p ) 项目致力于探究人类s n p 位点羽常见复杂疾病之间的相 关性。我们旨在通过生物信息学方法和基因芯片的技术,将位点筛选、芯片实验、实验结果 分析以及数据管理结台起来,建立一个集研究和应用丁一体的网络化平台。总体说来,这个 项目主要由两部分工作组成: a 、实验部分 实验部分主要是利用l m b e 实验室在基冈芯片方面的优势,建立快速、准确、高通量、 低成本的基因分型( g e n o t y p i n g ) 的硬件平台。 b 、生物信息学部分 生物信息学部分是根据实验部分的需要,旨在建立一套资源管理的数据库系统,包括样 本数据、实验数据、以及s n p 数据在内的相关数据,并且在此基础上建立实验前的s n p 筛 选平台,以及芯片实验结果的数据分析平台。 在本章中,我们将着重阐述d r s n p 生物信息部分的内容 2 2d r s n p 系统数据管理 d r s n p 系统的数据主要有三个部分 验数据库,以及s n p 相关信息的数据库 2 2 1 样本数据 样本( 包括病人和止常人) 信息数据库芯片实 下而逐一介绍这三个数据库的内容以及功能。 a 、概述: 负责收集、存储、管理病人的资料信息,并为以后的病理统计分析提供接口。 b 、存储内容: 相对于芯片数据库及s n p 数据库而言,样本数据库比较简单,只需存储病人样本相关的一 系列信息,包括: 米源【医院名,病例号】 病人基本信息【姓名,性别,年龄,民族,婚姻状况家族病史不良生活习惯】 病人病理信息【疾病类型,原发继发,入院诊断,出院诊断,血型,既往病史,病理指 标数据等】 5 第二章疾病相关的s n p 数据库平台 同时,本数据库中还保留有和芯片库的链接。如果某个样本所做过的相关试验,对应的芯片 信息都保存有相应的链接。 c 、功能 样本数据录入 通过w e b 方式将病人样本的信息( 包括病人的基本信息【年龄,性别,婚否,职业,不 良嗜好等】,病理信息【肿瘤类型,分型,既往病史合病史,血型等】) ,录入到样本数据库 中。 进一步的开发将提供数据的批量导入、导出功能。 样本数据编辑 为了保证样本数据库的准确性,实时性,提供了样本信息的更新,修改,删除,查看等 编辑功能。 样本数据库w e b 服务 此功能主要面向各类科研实验人员。 提供针对不同科研目的多种查询方式( 包括用户可自定义建立各种符合自己研究的数据 获取方式,这样可以有多种检索方式) ; 样本更新历史记录:查看某一段时间内,样本更新情况。可以采用m a 一,s m s ( 手机短 消息) 的方式通知科研人员。 尤其当某类样本的数量达到芯片所要求的个数,采用一定方式( 系统公告、m a i l 等) 通 知试验人员( 后台监控程序实现) 。 2 2 2 实验数据 a 、概述: 负责保存、管理实验资源,记录每块芯片的信息【样本来源、相关疾病、相关s n p 以 及实验中芯片杂交结果】以及实验过程相关的数据。 b 、存储内容: 芯片数据的基本信息,芯片相关的s n p 位点,样本的疾病属性,以每张芯片1 0 0 0 个人 为例,本数据库还保存有这1 ( ) 0 0 个样本在样本数据库中的主关键字,以便于随时调阅样本 病人的详细资料,以供后续的计算所用,具体字段包括: 芯片实验数据,主要是实验所得到的三张幽表,以及供比较所川的止常人的对应芯片杂 交结果图。同时,实验条件,日期,所用试剂,杂交温度,实验者等相关资源也存储于:卷片 数据库中。 实验结果数据,这是由芯片的实验数据,通过程序计算自动填充芯片数据库部分,包括 某种疾病与检测的s n p 位点,以及病人一系列属性的相关性。 c 、基本功能 芯片数据登录:芯片数据的登录,更新,删除,奁询。 6 第二章疾病相关的s n p 数据库平台 实验方法管理:包括实验方法的登录,更新,删除。规格化管理实验方法有助于更好的 探索更好的实验条件,同时也是为了使实验过程具有操作可重复性。 芯片数据的结果查询:可以按照实验按芯片实验日期,芯片实验人员,s n p 编号,居住 地,性别,检测年龄( a 2 e ) ,疾病类型,样本属性( 正常人还是病人) 进行试验结果查 询。这一步实际是为后面的结果分析做准备的。 在与试验人员的交流中,我们了解到,目酊实验人员通过芯片做出的结果,只是作为一 个中间步骤,最终的结果还需要借助计算人员和一些统计软件( 如s p s s ) 的帮助,而 且在实验人员的芯片处理中,还存在手动计算的方式。这样的处理一定程度上危害了实 验数据的准确性,同时,数据的安全性也得不到很好的保障,我们希望能最终将相关的 处理程序整合到数据库的相应辅助功能中,只需要实验:卷片的图像结果,就可以通过我 们的程序直接得到晟终结果,这也将作为该数据库的一个重要组成部分。 芯片数据库w e b 服务 跟样本数据库这方面的功能一样,当某类芯片达到一定数量,或者数据库中有新的芯片 加入时,用m a s m s ( 手机短消息) 的方式通知科研人员( 后台监控程序实现) 。 2 2 3s n p 数据 a 、概述: 收集、管理目前已经公布的人类所有s n p 信息,并且试图在此基础上补充“s n p 位点与疾 病的相关性”信息。 b 、存储内容 表名描述肉粼 s 墨率信恩 翩$ 叩位点的分类以及在国际数撵犀编号等 s 坤序列 s 坤相应的序到信息 相荧赞科 s 姊 e 荚棚强 a ,图表等信息 s 坤楣关蘸揍l 曲巍e 上相关资源莲按 s n p 躞射定位相关 舱傩,c o 埘g 定位 可变誊 通过数据麾蹩新可以改饔的字段以殛熨验结累 掩“d a l i o n 方法,参考s 坪位点等 c 、基本功能 s n p 数据库管理维护 我们主要从国际现有的儿个权威的s n p 数据库( 包括n c b i 的d b s n 1 t s c 2 1 等) 上 下载数据,本地化之后导入到我们自己的s n p 数据库的数据表中。这就要求实现与国际上 的s n p 数据库的同步更新。 更新方法:采j = | jf f p 下载的方式,定期从n c b i 等国际数据库网站上下载最新的数据包,解 压后用本地化程序读取并导入到我们白己的数据库中。本地化的程序用p e r l 开发。 第二章疾病相关的s n p 数据库平台 通过数据库查询设汁实验 事实上,这是整个数据库最重要的步骤,也是难点所在。要求按照染色体( 疾病、启动子区、 编码区、非编码区等) 对s n p 位点进行分类,通过多种搜索查询方式,筛选出合适的位点 ( 数量尽可能少,关联性尽可能大) 设计实验。其中,如何设计相关的查询算法,从而使实 验目的性更为明确,减少不必要的兀余实验过程,需要我们投入更多的精力。 这一部分的工作已经单独剥离出来,即是后面要讨论的s n p 筛选。 功能性s n p 数据库的完善 根据实验分析结果,将得到的分析结论( 倒表,数字形式) 补充( 添加) 数据库中“s n p 位点与疾病相关性”的字段。这是这个平台,也是这个项目最终的目的所在。当然,结论的 描述形式,存贮方式以及结沦的准确性,这些问题都是需要我们进一步探讨摸索的。 2 2 4 三个数据库之间的关系 这三个数据库之问彼此相关。 从数据的对应关系看,样本库的每一个记录( 指一个病人或正常人) 对应着芯片库中一 张芯片上的一个点;也就是说,如果按一张芯片1 0 0 0 个样本算的话,一张芯片就对应样本 库中的1 0 0 0 条记录;同样地,s n p 库中的一条记录( 1 个s n p 位点) 对应着芯片库中的一 张( 或多张) 芯片。如下图( 图2 1 ) 所示。 图2 - 1 三个数据库之间的关系 从数据流的角度看,根据不同的用户需要,数据库之间存在着多个检索方向。一方面可 以从s n p 库的某个位点索引到这个位点所进行的芯片试验,再进一步索引到这次芯片试验 所用到的病人的详细信息;另一方面可以从病人样本库检索某个病人所进行的芯片试验,并 进一步检索到这个病人的某个s n p 位点的详细信息。这三个数据库包含了3 0 多张表的信息。 这些表之间通过各种主键、外键关系联系起来,检索的时候就是通过这些关联完成的。 8 第二章疾病相关的s n p 数据库平台 2 3s n p 的筛选 在进行芯片实验之前要从浩如烟海的s n p 数据库中选取最有可能和某种疾病相关的 s n p 位点作为实验候选位点,扩增其附近序列做成探针i 刊定在芯片上,以往这种筛选s n p 位点过程是通过试验者阅读大量文献并归纳总结得到,但是这种传统方法耗时较长并且随 着实验者和实验疾病的不同而有很大随意性再者要从不同的网络资源里找出台式的信息进 行筛选对于没有生物信息学背景的实验者来说也是一个很大的负担。在d r s n p 系统中,我 们企图利用生物信息学方法为这种s n p 位点的筛选开发出计算机辅助工具,并且把这种筛 选过稃流程化。 我们的目标为开发出一套s n p 位点筛选t 具,并把它罄台在d r s n p 数据库中。这种筛 选t 具要达到几个基本目标友好的界面,综合运用各种方法从凋控区、可变剪切位点、氨基 酸性质改变以及蛋白空间结构变化等多角度分析,并可以根据实验的结果对筛选系统进行修 改和扩展最终希望形成一个方便实验者使用的在生物信息学方面有刨新性的综合筛选平台。 s n p 的筛选是我课题的核心部分,这部分内容在后儿章中详尽叙述。 2 4 芯片结果分析 做完实验,我们得到位点的基因型频率( g e n o t y p ef ”q u e n c y ) 和等位基因频率( a l l e l e f r e q u e n c y ) ,还有各个样本本身的数据( 包括年龄、性别、职业、地域以及各种病理指标) 。 要研究位点和疾病的相关性,就需要对病人样本的实验结果作统计分析,包括和讵常人的同 类数据作方差分析,病人等位基因频率利病理指标的相关性分析,各个位点之间的连锁性研 究等等。 整合各种统计分析方法的数学模型,并利用开源统计软件r 【3 1 建立基于d r s n p 数据库 的实验结果的在线分析平台。 这部分内容是由董献军同学负责,详见他的论文。 2 5d r s n p 平台的运作流程 在本章我们介绍了d r s n p 平台的生物信息学部分,这部分由三个数据库和s n p 筛选系 统以及芯片结果的再现分析系统构成。d r s n p 平台的工作流程如图2 2 。首先从医院获得病 人的病历信息导入病人样本数据库,同时从国际s n p 数据库中获得s n p 的信息进入s n p 数据库,然后从s n p 数据库中通过筛选策略找出候选位点) 1 :从样本数据库中得到相应实验 9 第二章疾病相关的s n p 数据库平台 图2 2 d r s n p 工作流程 所需要的病人样本集,接下来进行生物芯片实验,实验的结果存入芯片库,最后通过在线分 析系统得f | ls n p 和疾病的相关性结果并提供给_ i = i j 户。 作为一个面向服务的系统,我们提供了多种内部和外部访问系统得模式。这其中有跟内 部数据库的通讯,有跟外部的数据沟通,有各种w e b 服务,有自动的信息发布( 如图2 3 ) 。 当然,这只是系统目前的状态。我们正在跟训算机系合作,试图把g r i d ( 网格计算) 的技 术应用到这个系统中来,将来这个系统的布局应该呈现网状结构,无论是数据来源,还是提 供服务的网点,都是g r i d 中的一个格点。 图2 3d r s n p 外围服务框架 o 第二章疾病相荧的s n p 数据库平台 参考文献 【】 d b s n p :! 垡乜;型型型坠d 也i 旦l 啦趔也g q ! 曼卫! 鳗z 四u 曼y :盘幽! 鱼鱼三苎丛三 2 】t s c 【t h es n p c o n s 。n i u m ) :b l ! p ;丛墨盟丛:堕世 3 】r :! ! 垃;型型生生乜! q i 星! ! :q ! 型 4 】g r i d ;b ! ! = 卫;丛型型型:g 西旦:壁醒 第三章s n p 筛选思路 第三章s n p 的筛选思路 2 0 0 5 年1 月d b s n p 已经收录了超过9 0 0 万个s n p 位点,从这9 0 0 万个s n p 位点中为一 次生物芯片试验找出可数的几个s n p 位点,这对于s n p 研究人员来说是一个巨大的挑战。 本章将针对这个问题殴计出详细的s n p 的筛选思路。 在人类的全基因组上存在各种可能的影响生物功能的区域,每一个功能区域影响生命活 动的方式都不尽相同,所以我们在筛选s n p 的时候要有针对性的对不同的功能区域给出不 同的筛选策略。 在本章中我们将根据这些区域把s n p 分类,然后提出每一类s n p 的筛选思路,并在本 章的结尾分析比较这些筛选策略的可行性,并提出筛选s n p 的一般顺序。 3 1 按基因功能区对s n p 的分类 随着2 0 0 1 年人类基因绸草图的完成,科学家发现人类基因组上一共有3 0 0 0 0 4 0 0 0 0 个基因。在本课题中,通过对当前的主要人类基因组数据库n c b i 1 和u c s c p o 中的最新人 类基因组拼接版本( n c b lb u i l d3 52 0 0 47 ,u c s ch 9 1 72 0 0 4 7 ) 的分析,我们得到当前人类 基因组数据库中已经收录了2 5 6 2 9 个蛋白编码基因。其中有1 7 6 2 4 个基因已经在基因组序列 上注释出米,它们对应r e f s e q 【4 1 数据库里有完好注释的2 2 5 2 7 个1 1 1 r n a 。司时现在的研究 发现,在人类基因组上还存在着相当数量的假基因,这些假基因不能编码功能蛋白质。它们 根据米源可分成两类,一类是原有基冈通过反转录过程迁移到其它位置后失去活性的基因; 另一类是原有基因在进化过程中由于突变,插入,缺失从而失去活性的基因。这两类假基因 在人类基闻组上约有2 0 0 0 0 个。由于我们研究的目的是找出可能影响到基因功能的s n p , 所以我们的研究对象主要是编码蛋白的真基因,在目前也就是上面提到的1 7 6 2 4 个已经注释 在基冈组上的基因。 人类基因是典型的真核生物基因,它的编码区域被很氏的不编码的内含子所分隔,同时 在编码区的两端还含有怍翻译区。图2 一l 是人的m m p 7 基因的模型,它的各个区域的长度 比例恰当的表现出人类基因各区域的情况。图片中间的圆卡 t 体区域是基因区,其中两端的绿 色区域是非翻译区,这个区域在基因的转录翻译过稗中发生转录成为成熟m r m a 中的一部 分,但是不被翻泽成蛋白质,这个区域的生物功能还不是非常清楚,但通常被认为含有一些 转录后渊控的识别位点,并可以作为一些1 f 翻译小r n a 和微r n a 的结合区0 1 ;中间浅蓝色 比较短的部分是外显f 再,这个区域是直接编码蛋白质的部分;隔开外显子的浅灰色的部分 是内含子这个部分通常较少含有和】转录调控相关的功能元件:整个基因区两端的部分被h q 做r e 2 i o n1 0 c u s 区域,通常在基因上游区靠近转录起始位点的部分被叫做启动子区,这个区 2 第三章s n p 筛选思路 域含有大量的转录因子识别位点。 除了上面提到的j l 个区域,还有一些包含在上述区域中的小的功能区。比如人类很多基 因在启动子区都有一个跨转录起始位点的c p g 岛,这个区域c g 含量丰寓并且c p g 二联核 苷酸的突变率远小于其他区域。同日_ j ,每个内含予两端的2 b p 被叫做内含子剪切位点这里 是内含子剪切酶的识别位点。 图3 一】真核生物的基因模型 根据s n p 所处基因的功能区,我们把s n p 分类。现在有两种分类方法: ( 1 ) 我们根据s n p 处于基因的各个物理区域把s n p 分类,首先s n p 按照编码区和1 r 编码区分成两类,然后再绌分 编码区s n p : 非同义密码子s n p 导致编码氨基酸的变化的s n p 同义密码子s n p 不导致编码氨基酸变化的s n p 非编码区s n p : 非转录区s n p 在基因两端紧邻基因转录起始点和转录终i r 点的n a n k r c g i o n 非翻译区s n p 处于非翻译区的s n p 位点 内含于区s n p 处于内含子区的s n p 位点 ( 2 ) 我们根据s n p 处于基因的各个功能区把s n p 分类 启动子区s n p 处十基因假定启动子区域( p u t a t v cp r o m o t c rr e 画o np p r ) , 这个区域一般没有精确的定义,我们取以转录起始位点为 中心上下游各2 0 0 0 b p 的区域为启动子区,这种取法和 x i a o l l u ix i e 等人”1 的取法一致,我们把这个区域的所有 s n p 选取出来,然后排除落在编码区的s n p ,就得到启动 子区s n p 同义密码子s n p 编码区不导致编码氨基酸变化的s n p 1 f 同义密码子s n p 编码区导致编码氨基酸的变化的s n p 剪切位点s n p 在每个内含子的起始和终i r 的2 b 口上的s n p 内含子s n p 在内含子区除了剪切位点以外的s n p 3 非翻译区s n p 处在3 1 f 翻译区的s n p ,由于这个区域有特殊的转录后调控 第三章s n p 筛选思路 机制,本课题把这个区域单独列出来 基因下游区s n p 在转录终i t 点下游i 临近转录终j e 点的区域里的s n p 位点 这两种分类方法各有优劣。单纯从对基因区域的划分来说,第一种分类方法在划分基因 区域的时候比较清晰,容易操作,同时也既没有遗漏又没有重叠的覆盖了基因的各个区域; 第二种分类方法中有些区域相对比较模糊,不易操作,且司能在5 非翻译区有所遗漏。但 是筛选s n p 这个工作的核心是找出影响到基因表达调控和蛋白产物功能的s n p ,所以我们 在划分基因区域的时候要尽量把在基因表达过程中扮演相同功能的区域划分在一起,从这个 意义上看,第二种划分显然比第一种划分好。在实际: 作中,本课题采用了第二种划分方法。 3 2 各类s n p 的筛选思路 3 2 1 启动子区s n p 真核生物有三类启动子,它们分别对应三类r n a 聚合酶,由于我们主要研究的是编码 蛋白的人的基因,所以这里关注的启动子都是真核生物第二类启动子。这个区域是转录因子 结合位点的富集区幽3 2 a 是我削t r a n s p l o e r 软件画的,坐标为2 0 的点是人金属基质蛋白 m m p l 3 的转录起始位点,坐标下那些蓝色的短线就是可能的转录因子结合位点。这些转录 因子结合位点符合特定的模式( m o l i f ) ,这些模式是一种每个位置上对4 种碱基有特异频率 的短序歹i j 图3 2 中b 年c 分别是t a t a b o x 利g a a t b o x 的模式“1 。 b 1234567b9 i o 1 i 1 2 i 3 i 4 i 5123456789i o i l 1 2 d i t l d 0 s l c l o n 图3 2 启动予区的t f b s 和常见b 【n d i n gs i t c 的i o g o 1 4 第三章s n p 筛选思路 当s n p 落在这些转录网子结合位点的时候,s n p 导致的碱基的变化可能影响到m o t i f 的改变,进而影响到转录因子的结合性,更进一步的影响到基冈的转录凋控,这种猜想近年 米已经得到国内外研究者的确认【9 】【叫。所以找出处于转录因子结合位点上的s n p 是启动子 区s n p 筛选的一个策略。 人类基网组上大量的基冈启动子区都有一个g c 含量、c p g 出现率很高的区域,叫做c p g 岛。在本课题中我们发现人类基因组上在2 2 5 2 7 个注释在基闪组上的r e f e r e n c em r n a 中 有1 3 1 1 2 个有横越转录起始为点的c p g 岛。c p g 岛上的c p g 的甲基化会影响到基因的表达, 有实验表明,这些c i ) g 位点的异常甲基化和癌症有相关性”。这提示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论