(生物医学工程专业论文)基于序列统计特征的水平转移基因搜索.pdf_第1页
(生物医学工程专业论文)基于序列统计特征的水平转移基因搜索.pdf_第2页
(生物医学工程专业论文)基于序列统计特征的水平转移基因搜索.pdf_第3页
(生物医学工程专业论文)基于序列统计特征的水平转移基因搜索.pdf_第4页
(生物医学工程专业论文)基于序列统计特征的水平转移基因搜索.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(生物医学工程专业论文)基于序列统计特征的水平转移基因搜索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t a b s t r a c t t h e s i st i t l e :t h ed e t e c t i o no fh o r i z o n t a lg e r et r a n s f e rb a s e do nt 1 1 es t a t i s t i c a lf e a t u r eo f g e n o m es e q u e n c e g r a d u a t es t u d e n tn a m e :g um i n s u p e r v i s o rn a m e :s u nx i a o ( p r o f e s s 0 0 s c h o o ln a m e :s o u t h e a s tu n i v e r s i t y h o r i z o n t a lg e n et r a n s f e r ( h o t ) ,o rl a t e r a lg e n et r a n s f e r , i sr e f e r e dt ot h et r a n s f e ro fg e n e t i c m a t e r i a l sa m o n gb i o l o g i ci n d i v i d u a l s ,o rb a t w g c nt h e b i o l o g i ci n d i v i d u a la n di t so u t s i d e e n v i r o n m e n to rh a p p e n sa m o n gt h eo r g a n e l l e si nas i n g l ec e l l h o r i z o n t a lg e n et r a n s f e ri sa l l i m p o r t a n tf a c t o ro fe v o l u t i o na n dp a r t i c i p a t e si nb i o l o g i c a ld i v e r s i t y t h e r eh a v ea l r e a d yb e e n f o u n de x t e n s i v eh o r i z o n t a lg e n et r a n s f e rp h e n o m e n aa m o n gt h eb a c t e r i a so rb e t w e e nt h eb a c t e r i a a n do t h e rb i o l o g y t h e s ep h e n o m e n aa r o u s ep e o p l et h ec o m p r e h e n s i v ea n dp r o f o u n dt h o u g h to f b a s i cb i o l o g yp r o b l e m ss u c h t h ee v o l u t i o no f b i o l o g ya n df o r m a t i o no f s p e c i e s a n dp e o p l eh a v e b e g u nt ot h i n ka b o u tt h ei m p a c to f h o r i z o n t a lg a n et r a n s f e ro no u rt r u e - l i f e w eu t i l i z e dt h em o o h e d sa n dt e c h n o l o g i e so fb i o i n f o r m a t i c st oe x t r a c tt h es e q u e n c ef e a t u r e s f r o mn u c l e o t i d es e q u e n c e ,a n du s e dt h e s ef e a t u r e sa sg e n o m i cs i g n a t u r e st oc o m a p a r et h ed e g r e e o fs i m i l a r i t ya m o n gs e q u e n c e s t h e nw ec a nf i n dt h ea t y p i c a lr e g i o n si nt h en u c l a t i d es e q u e n c e a n dp u tt h e s er e g i o n sa sp u t a t i v eh o r i z o n t a lg e n et r a n s f e r s f o l l o w i n gt h i ss t r a t e g yo f t h ed e t e c t i o n o fh o r i z o n t a lg e n et r a n s f e r , w ed e s i g n e dt h et o o lf o rt h ed e t e c t i o no fh o r i z o n t a lg e n et r a n s f e ri n t h i sw a ya n di n t e g r a t e dt h i sf u n c t i o nw i t i lt h eg e n o m i cs e q u e n c ef e a t u r ed a t a b a s e ( g s f d ) w ea n a l y z e dt h es t a b i l i t yo fb b c ( b a s e - b a s ec o r r e l a t i o n ) a n df o u n dt h a tt h eb b ch a dt h e g o o ds t a b i l i t yi nt h eg e n o m ee x c e p tf o rf e ww e i g h t so f b b cf e a t u r ev e c t o r w ec a r r i e do u tal o to f a r t i f i c i a le x p e d m e n t st os i m u l a t et h eh o r i z o n t a lg e n et r a n s f e re v e n t s u s i n gt h eb b c ,d r a ( d i n u c l e o t i d er e l a t i v ea b u n d a n c e ) , w f 3 ( 3 - w o r df r e q u e n c y ) a n dr s c u ( r e l a t i v es y n o n y m o u s c e d o nu s a g e ) t or e p r e s e n tt h et e s t e ds e q u e n c er e s p e c t i v e l y w ef o u n dt h eb b ch a dt h ep r e f e r a b l e s p e c i e s - s p e c i f i c i t yi nc o n t r a s te x p e r i m e n t s , a n dg o t9 5 o fs p e c i e ss p e c i f i c i t yi na l l3t e s t e d s p e c i e s d u et ot h ea b o v er e a s o n s ,w es e l e c t e dt h eb b ca st h er e p r e s e n t a t i o no f s e q u e n c et od e t e c t t h eh o r i z o n t a lg e n et r a n s f e r i a b s t r a e t u s i n gb b c a st h eg e n o m i ef e a t u r e ,2 5g e n o m e si nb a e t e d aw e r ea n a l y z e di ns l i d i n gw i n d o w a l g o r i t h mt h r o u g ht h eg s f dp l a t f o r m f u r t h e r m o r e ,w ed e e p l ya n a l y z e dt h ep r e d i c t a b l eh g t r e s u l t so fh i n f l u e n z s eg e n o m e w ef o u n dt h a tt h e r ee x i s t e ds u b s t a n t i v eg e n e t i cs u b s t a n c e e x c h a n g eb e t w e e nh i n f l u e n z a ea n dp a s t e u r e l l am u l t o c i d ai n c l u d i n gv i b d of l u v i a l i s t h e r e 仃u l y e x i s t e dt h eh o r i z o n t a lt r a n s f e r r e dg e n e sf r o mv a n e o m y e i n - r e s i s t a n c er e l a t e dg e n e st oe n t e r o c o c e u s f a e c a l i sg e n o m e ,a n dw eu s e dt h eb b ct oi d e n t i f ym o s to ft h e s eg e n e si ne n t e r o e o e e u sf a n c a l i s g e n o m e s ow eg a l lc o n c l u d et h a tt h ep r e d i e t a l b eh g tr e s u l t su s i n gt h eb b c a st h eg e n o m i e f e a t u r ei sv a l u a b l ea n dc a nb e 他f e r e n e e d k e yw o r d s :h o r i z o n t a lg e n et r a n s f e r , s e q u e n c ef e a t u r e ,s i m i l a r i t ym e a s u r e m e n t , s p e c i e ss p e c i f i c i t y , s l i d i n gw i n d o wa l g o r i t h m n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学 位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。 本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外, 允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文 的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:导师签名:日期:d 名 g i3 7 5 4 7 1 5 7r e fn t _ 0 3 4 4 0 1 5h s l _ 3 4 5 6 3h o m os a p i e n sc h r o m o s o m e1 g e n o m i ec o n t i g ,接下来的部分才是正式的序列部分,程序会将这两部分分别进行提取并保 存到两个变量中;而对于直接提交的人工序列,程序直接进行保存到相应的变量中。 ( 3 ) 对于提交序列中出现的换行符、制表符或空格,程序要进行剔除使序列字母保持 连续性,并统一将序列字母转换为大写字母以便于程序进行处理。 ( 4 ) 用户提交的序列文件有可能是包含几条不同物种的文件,这时程序要予以区分并 分别按单条序列方式进行处理,并将不同的序列保存到不同的变量中。 ( 5 ) 序列处理一些实用小功能的实现,如序列长度统计,各个单核苷酸发生频率统计 和二联核苷酸发生频率统计。 1 9 东南大学硕士学位论文 图3 1 序列处理流程图 3 3 2 序列特征计算和序列特征距离的度量 该模块包括d r a 、b b c 、i l s c 【i 、w f 3 等9 个序列特征的计算,程序提供一个公共的序列特 征计算入口,根据用户提交的序列特征选择合适的序列的特征计算函数,并赋予相应的特征 向量维数以便进行特征相似性度量。 目前得到广泛应用的相似性度量是在空间中定义的某种距离。给定一个样本集合0 , 我们用d 维空间中的一个点表示某个样本,两个样本x t 和x j 之间的相似性度量5 ( x 。,x ,) 应 满足以下要求: 2 0 第三章水平转移基因搜索方法的研究和工具的设计 ( 1 ) 相似性度量应为非负值,即6 ( x hx 。) 却; ( 2 ) 样本本身之间相似性度量应为最大; ( 3 ) 相似性度量应满足对称性,即6 ( x bx j ) = 6 ( x j ,x k ) ; ( 4 ) 在模式类满足紧致性条件下,相似性应是点间距离的单调函数。 特征提取的目的在于把高维特征空间变换为低维空间,以便在低维空间中更好的进行分 类。在各种空间中,只要定义一种距离度量,就可以用这种距离度量的非增函数作为相似性 度量。常见的距离度量有欧氏距离、马氏距离、二次距离、海明距离、切比雪夫距离等,以 上的各种距离度量在实际应用中,在计算的复杂性方面,在是否便于进行解析分析以及用它 进行特征提取的效果方面各不相同。由于欧式距离在很多情况下便于分析和计算,因此这里 主要采用欧式距离度量的特征提取方法。 本文所采用的距离公式是欧几里德距离( e u c l i d e a nd i s t a n c e ) ,公式如( 3 1 ) 所示: d = 公式里的x 。和w ,分别表示两条序列的特征值,n 就是该特征向量的维数。 3 3 3 序列的扫描功能模块 ( 3 1 ) 在前面已经介绍了搜索水平转移基因的一般策略,在具体程序实现中对其进行具体细 化,对提交的序列进行扫描分为以下几个步骤: ( 1 ) 首先计算提交的整条序列的序列特征值; ( 2 ) 定义一个扫描窗口,以一定的步骤从序列起始处对序列进行扫描,记录下每个窗 口的序列特征值,同时计算每个窗口与整条序列特征的背离值( 即对序列特征相似性进行度 量) ,并对的到的各个窗口的背离值进行数理统计分析,计算出特征异常区域的一个阈值; ( 3 ) 定义一个用来定位特征异常区域的窗口,以一定的步骤对序列进行第二次扫描, 用以对特征异常区域进行定位,确定特征异常区域的起始位置和结束位置。 3 3 4 特征异常区域阈值的确定 在数量资料统计分析理论中,对数值变量进行统计分析得到数量资料离散程度描述的方 法有: ( 1 ) 极差,即最大和最小观察值之间的间距,但它不能反映观察值的整个变异度, 2 l 东南大学硕士学位论文 样本的例数越多,极差越大,不够稳定。 ( 2 ) 四分位数间距,四分位数( q u a r t i l e ) 是特定的百分位数,其中p 2 5 为下四分 位数q i ,p 7 5 为上四分位数q 1 1 ,四分位数间距即q u - q i ,四分位数间距比极差 稳定,但仍未考虑每个观察值的变异度。 ( 3 ) 方差( v a r i a n c e ,v a r ) ,离均差的绝对值之和或离均差平方和的均数,其计算 公式如下,其中e 表示样本均值,v 表示方差: 睁! n 窆l = l 五 v 一号喜c 知咽2 ( 4 ) 标准差( s t a n d a r dd e v i a t i o n ) ,方差的算术平方根。 ( 3 2 ) ( 3 3 ) ( 5 ) 变异系数( c o e f f i c i e n to fv a r i a n c e ,c v ) ,当比较多组资料的变异度,而这 几组资料的单位不同或均数相差悬殊的时候,用标准差就不合适了。此时需要 用到的变异系数又称离散系数( c o e f f i c i e n to fd i s p e r s i o n ) 来比较,它实际 上是标准差占据均数的百分比例。其计算公式如下: 0 = 矿i e i ( 3 4 ) 除了这些离散程度分析之外,还要进行数据之间相关性分析。相关性分析是测量2 个 或多个变量之间关系的一种方法。量表至少必须为间隔型,但也可得到处理其他类型数据的 相关系数。相关系数范围在一l 1 之间,一1 表示完全负相关,1 表示完全正相关,0 表示不 相关,( - 1 ,0 ) 表示负相关;( o 。1 ) 表示正相关。最常用的相关系数类型是p e a r s o n 相关 系数( p e a r s o nc o r r e l a t i o nc o e f f i c i e n t ) ,也称为线性或时间一产出相关。p e a r s o n 系数 法计算公式为: ,:;圣! 三二兰竺二丝 ,o i ) 2 压0 r 一- ) 2 ( 3 5 ) 在这里通过扫描窗口对基因组序列扫描后,会得到各个窗口相应的距离值。对这些数值 可以进行数理统计分析,可以得到各个窗口距离值的均值d m ,同时可以得到这些数值的标 准方差8 ,在本系统中将默认阙值设定为 第三章水平转移基因搜索方法的研究和工具的设计 d c 兰d m + 1 _ 5 6( 3 6 ) 也就是说某个窗口中的序列的特征距离值大于d c 的话,就将这段序列认为是特征异常 的区域。 3 3 5 基因组水平转移搜索工具用户界面 运行基因组水平转移基因搜索工具,显示如图3 2 ( a ) 所示的用户界面。用户首先提交 要进行水平转移基因搜索的序列,然后点击“基因组序列特征异常区域搜索”按钮,进入搜 索水平转移基因搜索参数设置界面,如图3 2 ( b ) 和3 3 ( c ) 所示。 图3 2 ( a )凰3 2 ( b ) 图3 2 ( c ) 图3 2 基因组水平转移基因搜索工具用户界砸 ( a ) 用户主界面( b ) 提交序列文件( c ) 参数设置对话框 点击参数设置对话框o k 按钮之后,就会显示基因组序列特征异常区域搜索输出结果, 输出结果首先显示搜索到特征异常区域的条数、序列文件名、各个扫描窗口的平均背离值、 各个扫描窗口背离值的标准方差、分离特征异常区域的阚值、特征异常区域的平均长度、特 征异常区域占据整条序列的比例等结果,接着以表格的形式显示每条特征异常区域的起始位 置、终止位置和长度,如图3 3 。 2 3 东南大学硕士学位论文 圈3 3 搜索结果显示 在这里可以选择要提取的序列的序号,并点击“提取序列”,将搜索到的特征异常的区 域分别提取出来并保存到文件中,以备研究之用( 如可以提交到基因组序列特征数据库中进 行序列比对或进行相似序列搜索) ;也可以点击“s a v ed a t a ”按钮将记录下的各个扫描窗口 的数据保存下来,再通过s p s s 或m a t l a b 等统计分析软件对这些数据进行分析,如图3 4 ( a ) 和( b ) 。 图3 4 ( a )图3 4 ( b ) 图3 4 输出结果数据保存 ( a ) 保存序列( b ) 保存各个扫描窗口的数据 第四章g s f d 系统的设计 第四章g s f d 系统的设计 在本章中,我们将详细介绍基因组序列特征数据库系统( g s f d ) 。首先将简要介绍g s f d 的整体框架和构成,接下来介绍g s f d 的数据来源和后台数据库管理,然后说明对g s f d 的w e b 访问功能做具体介绍。g s f d 的w e b 访问功能主要包括基于序列特征的相似序列搜索,基于序 列比对的b l a s t 搜索,以及将前一章介绍的水平基因转移搜索工具整合到g s f d 系统中,这样 就可以将整1 g t 搜索的过程一一序列特征异常区域的识别和对其宿主物种的搜索,通过w e b 来实现。 4 1 整体框架图 本系统的总体结构主要分为三大部分,如图4 1 所示。一部分是后台的o r a c l e 数据库, 运行于服务器端;另一部分是j s p 网页搜索系统,运行于客户端。第三部分是一个接口,作 为桥梁把前面两块连接起来,并控制计算特征量的小程序的运行。o r a c l e 是关系数据库的倡 导者和先驱,在数据库管理、安全性等方面都有强大的功能,因此被选择用来搭建本系统的 数据库。j s p 主要用于创建支持跨平台及跨w e b 服务器的动态网页,具有开发简单,便于维护 可移植性好,安全性强等特点。 团母互琴釜 。g e n b a i i k 一船妇n a g “e 弛讪8 8 8 p r o g r 姐 i 亘亘亘三 f e a t u r ec o m p u t i n gs u b p r o g r a m s 图4 1c s f d 系统的框架图。包括基因组特征数据库,客户搜索界面和控制接口程序 器哆 雷 嘶一州夕 暑 孕m l 盯0 黜 东南大学硕士学位论文 4 2g s f d 后台数据库 4 2 1 序列来源 我们数据库的数据来源是公共的生物大分子数据库,主要是g e n b a n k 数据库。n c b i 网站的m a pv i e w e r ( h t t d :w w w n c b i n l m n i h u o v m a p v i e w ) 提供了完全测序的物种基因组序 列下载,包括脊椎类、非脊椎类、植物类、真菌类和原核生物这五个大类的包括人、小鼠、 大鼠、蚊子、小麦、酵母等十几个物种。如图4 2 所示。 图4 2l - i c b i 上全基因组测序物种分类图 或者我们也可以通过纽;,也:n 鲢n ! 里:n 血g 业g d q 坦型来下载序列数据。 4 2 2 数据库结构和数据库管理 数据库由两张表组成,一张是序列信息表,包括这样几个数据项:序列登录号,序列所 属物种的分类,序列所属的物种名称,序列所在的染色体号,序列原始数据,序列的各特征 值等,其中序列特征可以有多个,每个特征占一个数据项,动态添加。另一张表是特征信息 表,包括两个数据项:特征量名称和维数,如图4 3 所示。对于序列信息表里的特征量根据 特征信息表中该特征的维数建立相应大小的数组,以存放计算好的特征值。数据库序列数据 来源于公共数据库,通过程序从公共数据库服务器获取原始序列,读入并提取其登录号、物 种名和染色体号的等基本信息,然后调用每一个特征计算的小程序,计算序列的特征值后, 加入数据库中。 第四章g s f d 系统的设计 叠录号 生物种鹂 牺种名称 她俸导 捌唰 i j 血呲雠t 【2 1特锰t n l特征i 【4 1特征t 压1i 特征1 船1 i 征2 【l 】特征2 嘲特让0 】特征2 【钔袍 5 】 袍 6 】 i 征3 【1 】特 正3 z 特征3 1 3 1l ,征3 h 】特征3 5 】特链3 【6 】 特征名称 特征维数 1 寺征i特征l 的维数 特征2特征2 的维数 图4 3 数据库表结构关系图。( a ) 序列信息表;( b ) 特征信息表 数据库管理程序运行于服务器端,它需要完成从公共数据库下载基因组序列原始数据、 提取序列基本信息、调用特征计算模块计算序列特征、录入数据库等任务。接下去的工作。 也就是数据录入、特征计算和数据库管理,将由后台数据库管理程序来完成。数据库管理程 序为管理g s f d 数据库提供了一个很好的平台,管理者可以在这个平台上方便的完成数据 录入,特征计算和数据库维护等工作。该程序的界面如图4 4 所示。 圈4 4 数据库后台管理程序运行界面 我们的后台数据库管理程序的主要工作就是对本地数据库进行数据输入,特征计算和管 理维护等。由于我们的数据库有特定的存储结构,所以下载的序列文件不能马上就存入库里, 后台管理程序首先要对文件进行预处理,变成能够被本数据库接纳的形式,然后再分字段存 储。从g e n b a n i ( 数据库下载的原始序列文件主要是f a s t a 格式的,这是一种比较简单的核酸 序列存储格式,拿人基因组的第一号染色体上登录号为n t _ 0 0 4 3 2 1 的序列文件进行简单说 明,文件内容如图4 5 所示。文件第一行是这个c o n t i g 的基本信息,包括序列在g e n b a n k 2 7 东南大学硕士学位论文 数据库的登陆号。就是。n t _ 0 0 4 3 2 1 ”,物种名称是“h o m os a p i e n s ”,关键字“c h r o m o s o m e ” 后面的“1 ”表示此条序列所在的位置是人的第一号染色体。从第二行开始的余下部分一直 到文件的结束都是原始序列。 由于f a s t a 格式是固定的,按照以上规律对文件解析后,就能把序列信息分割后存储到 数据库s e q _ i n f o 表的相应的字段里去。 图4 5f a s t a 格式的核酸序列文件 数据库有了序列之后,我们还需要对数据库中所有序列的序列特征值进行计算。如第二 章所提到的,我们选取了包括b b c ,d r a ,w f 在内的一共九个统计特征,根据特征的计 算公式,用c + + 语言编制了九个独立的特征计算的小程序。后台数据库管理程序在遍历数据 库里序列记录的时候,对特征计算子程序进行调用,计算出每条序列的各个特征后,按照特 征向量的长度存储到数据库里。数据库后台管理程序还能对特征进行扩充。当发现新的反映 序列特征的算法后,可以把这个新的特征的名称和它的向量维数添加到数据库的f e a t u r ei n f o 表中,以便作为s e qi n f o 表的参考和引用。 目前为止,本数据库中已经收录了全基因组完全测序的包括人、小鼠、大鼠、酵母、果 蝇、水稻、拟南芥等十几个物种的基因组序列数据,以及每条序列的b b c 、d r a 、w f 、r s c u 等9 个特征量的值,一共1 0 0 0 多条记录,总的数据容量达到将近1 0 ( 3 。随着更多物种基因 组的完全测序和新的特征量的发现,将来可以随时对本系统进行更新。 4 3g s f d 系统的w e b 访问 客户端运行的是网页形式的搜索界面,在浏览器地址栏中输入 第四章g s f d 系统的设计 鲢! q ; z ! 塑! 暖i :q ! g :b g 曼4 h q 女:i 酗打开的g s f d 的主页如图4 6 所示 图4 6g s f d 主页的w e b 界面 g s f d 系统提供了以下功能:( 1 ) 基于序列的统计特征在数据库中进行相似序列的搜索 ( 2 ) 进行水平转移基因的搜索;( 3 ) 通过b l a s t 在数据库中进行相似序列的搜索。 4 3 i 基于序列特征进行相似序列的搜索 我们有两种方式可以进行基于序列统计特征来进行相似序列搜索。一种是简单搜索方式 ( s i 船l es e a r c h ) ,另一种是高级搜索方式( e x p a n ds e a r c h ) 。 4 3 1 1 简单查询方式 简单查询方式可以按照三种关键字g e n b a n k 登录号( g e n b a n ki d ) 、生物物种属名 ( s p e c i e st y p e ) 和物种名称( s p e c i e sn a m e ) 杀查询基因序列。工作流程是根据用户 在操作页面提出的请求,通过s o l 语句对后台的o r a c l e 数据库实行查询,找到相匹配的所 有记录,根据用户的要求给出记录相应的具体信息,并且按照一定的格式输出到w e b 页面上, 以便用户阅读。用户查询的界面如图4 7 所示,通过三种关键字的查询得到符合条件的序列 列表,如果用户点击选中一条序列后,就可以查看其详细信息,包括登录号、种属名称、物 东南大学硕士学位论文 种名称、染色体号和序列长度等等。 ( c ) 点击s p e c i e sn a m e ,在下拉列表中选择物种名称 图4 7 按关键字查询序列。通过三种关键字进行查询,( a ) 、( b ) 、( c ) 分别表示三种查询方式 下面以图4 7 ( c ) 为例来进行说明,点击“s p e c i e sn a m e ”,在下拉列表中选择h o m o s a p i e n s ( 人类基因组) ,点击“s u b m i t ”按钮,查询结果如下图4 8 所示。 3 0 第四章g s f d 系统的设计 图4 8 查询h o m os a p i e n s 结果 在查询结果列表中,我们可以选择其中一条序列,查询其详细的信息,例如我们在这里点击 n t _ 0 0 4 5 7 这条序列,其详细信息如图4 9 所示,点击“d o 1 0 a d ”按钮,可以把n t _ 0 0 4 5 4 7 这条序列下载到客户的本地机上。 图4 9 序列n t0 0 4 5 7 详细信息查询结果 同时,也可以对这条序列在数据库中进行相似序列的搜索。首先在“f e a t u r e ”下拉列 表选择要进行序列比较的序列特征,现数据库中共有9 种特征可选。再在“s h o w ”下拉列表 中选择要显示的最相似的序列的条数,在“g e n o m e ”下拉列表中选择搜索范围,点击“s u b m i t ” 按钮即可进行基于特征的相似序列搜索。客户提交序列后,计算其特征,设置搜索参数后, 在数据库中根据该特征按照欧几里德公式( 见公式3 3 ) 搜索与此序列特征距离最短的那些 序列,距离越小,说明序列相似性越高。我们把欧几里德距离公式用j a v a 语言编制成一个 类,在j s p 网页代码中对其进行调用,依次计算提交的序列和数据库里每条序列的特征间的 欧几里德距离,距离值越小,表明两条序列越相近。搜索的结果就对序列按照欧氏距离值从 小到大依次排列。 例如,查询n t _ 0 0 4 5 4 7 的相似序列,在“f e a t u r e ”下拉列表中选择b b c 特征,显示结 果条数选择l o 条,搜索范围选择h o m os a p i e n s ,查询到的相似序列如下图4 1 0 ,表格的最 右边一列s c o r e 是每条序列和源序列特征问的欧几里德距离的值。 东南大学硕士学位论文 图4 1 0 相似序列搜索结果 同样,我们在相似序列搜索结果中选择其中任何一条序列,查看其详细信息并下载到本 地机,与图1 1 所展示的类似,这里不再说明。 4 3 1 2 高级查询方式 高级搜索方式其功能是对用户提交的序列在数据库内搜索与其特征相近的序列。下面以 一个实例来对高级搜索进行介绍,用户界面如图4 1 1 所示。 图4 “高级搜索的w e b 界面 例如,我们在这里提交序列文件n t _ 0 7 7 9 1 1 1 ,然后设置搜索参数,选择特征为b b c 特 第四章g s f d 系统的设计 征,结果显示选择1 0 条序列,搜索的范围选择数据库里所有的基因组( a l l6 e n o m e s ) 。点 击“s u b m i t ”按钮就得到了搜索结果,如图4 1 2 所示。 4 3 2 水平转移基因搜索 图4 1 2 高级搜索的执行结果 在这里,我们可以通过两种方式来进行水平转移基因的搜索,我们可以直接向数据库中 提交一个序列进行水平转移基因的搜索,也可以直接对数据库中的一条序列进行水平转移基 因的搜索。在浏览器地址栏中输入h t t p :m g r i o r g c n g s f d h g t j s p ,就可以提交一 条序列进行水平转移基因的搜索,如图4 1 3 。 东南大学硕士学位论文 图4 1 3 提交序列进行水平转移基因搜索 在图4 1 3 的页面中我们可以直接提交一个序列文件,也可以直接在剪贴板上直接粘贴 一段序列,在提交序列后,就进行搜索水平转移基因的参数设置,如图4 1 4 。 图4 1 4 水平转移基因搜索参数设置 第四章g s f d 系统的设计 参数设置方法与第三章中水平转移基因搜索工具的参数设置方法相同( 见3 3 5 ) ,搜 索结果如图4 - 1 5 ,对于搜索出来的结果( 点击搜索结果中“n u m b e r ”项下面数字对应的超 链接) 可以直接提交到数据库进行基于特征的相似序列的搜索,以寻找可能的宿主物种。 图4 1 5 水平转移基因搜索结果 我们也可以直接对数据库中的一条序列进行水平转移基因的搜索,如图4 1 6 。 图4 1 6 对g s f d 数据库中的序列进行水平转移基因搜索 3 5 东南大学硕士学位论文 4 3 3g s f d 系统中实现b l a s t 的本地化 本文中进行序列比较的主要方式是通过比较序列的特征,而序列比较的另一个基本操作 是进行序列比对( s e q u e n c ea l i g n m e n t ) 。序列比对的原理“1 是,在一个或者多个序列的某些 位置上插入一个或者几个空位,使得序列能更好的对齐,得到最大的相似性。b l a s t 是目前 最流行的核酸序列比对程序,可以在数据库中实现相似序列的快速搜索。基于特征的相似序 列搜索方法,只需对每条序列的特征计算一次,以后就可以用一个简单的向量来代替整条序 列了,搜索的时候只需计算两条序列特征间的距离,而不用扫描整条序列了;虽然用特征来 标识序列给计算带来了很大的便利,但从第二章的分析中我们可以看到如果序列过短,其特 征是不稳定的。而b l a s t 算法对数据库里的每一条序列,都需要从头到脚扫描两条序列,然 后对序列排列的相似程度进行打分;虽然在序列较长时( 如几百k b 以上时) 计算时间很长, 但对短序列而言用b l a s t 搜索更为合适。因此两种方法各有侧重,在6 s f d 系统中引入b l a s t , 对于g s f d 原有的基于序列特征的同源序列搜索方法是一个补充。 4 3 3 ib l a s t 简介 b l a s t 是b a s i cl o c a la l i g n m e n ts e a r c ht o o l 的缩写,是由n c b i ( n a t i o n a lc e n t r e f o rb i o t e c h n o l o g yi n f o r m a t i o n ) 研制的一个生物基因数据库系统,是现在应用最广泛的 基于序列相似性的数据库搜索引擎工具,相比f a s t a 有更多改进,速度更快。并建立在严格 的统计学基础之上。b l a s t 提供两种类型的数据库,即核酸序列数据库和蛋白质序列数据库, 这两种数据库的结构一样,所用的数据检索方法也一样,所不同的是核酸数据库和蛋白质数 据库的序列数据编码单位不一样。 b l a s t 结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果 可以获得一些有用的信息:查询序列可能具有某种功能;查询序列可能是来源于某个物种; 查询序列可能是某种功能基因的同源基因等等。通过将b l a s t 功能添加到g s f d 系统中,实 现b l a s t 本地化,我们可以丰富g s f d 系统搜索相似性序列的手段( 既可以通过序列特征,也 可以通过b l a s t 比对) ,同时通过序列特征搜索出来的水平转移基因可以通过b l a s t 来进行 同源序列的搜索,找到发生水平基因转移的宿主基因。 4 3 3 2 在g s v d 系统中b l a s t 本地化实现 建立b l a s t 本地服务平台,本地用户就可以通过以w e b 的形式提交序列搜索任务,服务 器执行搜索任务后将结果通过w e b 页面返回给用户。建立本地的b l a s t 服务,就可以在本地 数据库中进行序列的搜索比对,极大的减少工作量,同时也可以与通过序列统计特征的搜索 第四章g s f d 系统的设计 结果进行比较。在浏览器地址栏中输入鲢羔卫; ! 型:照i :q ! n g 4 ! ! :i b 。即可在 g s f d 中进行b l a s t 搜索。 图4 1 7b l a s t 界面 在本系统中,可以有三种数据库可以选择,n t 表示所有核酸序列数据库,h u m a n _ g e n o m i c 是指人类核酸序列数据库,o t h e r g e n o m i c 是指除了人类之外其它核酸序列数据库。如图 4 1 8 所示: c h o o s ed a t a b a s e :掰阐圈焉焉墨 臣五豆量口o r :璧塑墅1 2 | 圈4 1 8 选择b l a s t 核酸序列数据库 在提交序列并选择b l a s t 数据库之后,就可以进行b l a s t 搜索了,如图4 1 9 所示。 3 7 东南大学硕士学位论文 圈4 1 9b l a s t 结果 第五章基于序列统计特征的水平转移基因的预测 第五章基于序列统计特征的水平转移基因的预测 现在被广泛承认的理论认为所有基因组实际上拥有一个共同祖先,是进化导致了基因组 之间的多样性。在这些进化事件中,有的只是发生在核苷酸的层次( 如点突变p o i n t m u t a t i o n ) ,其它如链倒转、复制、传输和水平基因转移在基因组的进化中非常重要的因素。 有文献认为水平基因转移在生物进化的初级阶段大量频繁的发生,并且是原核生物进化非常 重要的因素“1 。因此,水平基因的检测对于理解进化过程和对不同物种之间遗传物质交 换进行定性分析和定量估计具有非常重要豹意义。水平基因转移的概念起初被用来分柝不相 关物种之间的同源性”。序列比对的方法也因此被考虑用来探测水平转移基因”“1 。虽 然使用这种方法只需要了解基因组的一部分知识,但是同时这种方法需要己知不同物种的同 源基因的序列,由于这种局限性因此不能使用序列比对的方法对序列进行扫描来探测水平转 移基因。 对大量物种的基因组的测序的完成,使得对物种中的水平转移基因的搜索称为可能,特 别是在原核生物基因组中水平基因转移发生的概率更高”。已有报道指出在细菌 ( b a c t e r i a ) 中水平转移基因占据了整个基因组的2 5 ”;古细菌( a r c h a e b a c t e r i a ) 和非致病性细菌( n o n - p a t h o g e n i cb a c t e r i a ) 比致病性细菌更容易发生水平基因转移”1 ; 操作基因( o p e r a t i o n a lg e n e s ) 比信息管理基因( g e n e sd e a l i n gw i t hi n f o r m a t i o n m a n a g e m e n t ) 更易于发生水平转移基因”_ 7 ”。在物种研究中,一些原核生物基因组如 b a c i l l u ss u b t i l i s ,h a e m o p h i l u si n f l u e n z a e 和e s c h e r i c h i ac o l i a r e 已经被国际上许多 学者所研究,这也可以把本课题的基于序列统计特征来探测水平转移基因的方法与其它主要 的生物信息学方法进行比较。 5 1 序列特征特异性的评价 5 1 1 水平基因转移仿真实验 为了对用,芦列特征预测基因组中水平基因转移的性能进行评价,我们在这里用人工模拟 实验对水平基因转移的过程进行仿真,实验主要通过基于支持向量机的分类器来进行( 关于 该分类器的实现,详见附录) 。利用这个分类器,我们对各个序列特征预测水平基因转移的 性能进行了量化的研究。实验的过程按如下进行:先创建一个宿主基因库,用来作为水平转 东南大学硕士学位论文 移基因的给体,模拟程序从宿主基因库中随机挑选若干基因加到细菌基因组中,以此来模拟 人工模拟水平基因转移。模拟实验的目的是通过提取的序列特征从基因组中找到插入的基 因。一般的基于基因组的序列模拟实验都是根据一定的原则( 如设定寡核苷酸分布频率, g + c 含量等) 人为地创造一些随机序列,然而在构造这些人造基因序列时,总不可避免地 加入了更多的人为因素,人们不可能构造出完全符合自然界规则的序列来。我们采用了 t s i r i g o s 等人提出来的方法m 】,挑选的给体基因都是现实存在的基因,以尽可能的模拟自然 界中水平基因转移现象,在这里选用2 7 个p h a g e ( 噬菌体) 基因组中的1 4 8 5 条基因来作为 宿主基因库,如表5 1 所示。 表5 1 构建宿主基因库的噬菌体 p h a g ea c c e s s i o nn u m b e r s t r e p t o c o c c u st h e r m a p h d u ab o c t e r t o p h a g es f i 2 1 n c0 0 0 8 7 25 0 c o h p h a g ea l p h a 3 n c0 0 1 3 3 0 l o m y c o h a c t e r m m p h a g el 5 n c0 0 1 3 3 58 5 h a e m o p h d u s p h a g eh p l n c0 0 1 6 9 74 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论