已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 d n a 电子鉴别过程的通信信道化建模和数据分析 硕士研究生陈司导师王桥 东南大学信息科学与工程学院 单分子检测的生物及固态纳米孔传感器是潜在的快速d n a 测序的重要课题和 生命科学领域的研究热点,目前该技术可以辨别d n a 分子的长度、均聚合序列等 信息,但还远远没有达到单核苷的检测水平。本文从通信信号处理的角度进行研 究,将d n a 分子穿越纳米孔时产生的离子阻塞电流理解为通信中接收机端的接收 信号,而将不同碱基产生的相异的理想离子阻塞电流理解为需要进行译码的信源 消息,希望通过建立信道噪声模型和设计信道译码算法进行d n a 穿孔电流数据处 理,为实现快速d n a 测序做好算法准备。本文的贡献在于运用假设检验和连续小 波变换相结合的算法提取穿孔事件,并通过聚类分析研究d n a 穿孔行为以及算法 性能;以及在对随机走动模型的研究基础上提出信道噪声模型的构造设想。 关键词:纳米孔统计假设检验连续小波变换聚类分析随机走动 东南大学硕士学位论文 a b s t r a c t c o m m u n i c a t i o nc h a n n e lm o d e u n ga n dd 气:i a a n a l y s i si ne l 】巳c t r i c a ld n as e q u e n c i n g c a n d i d a t e :c h e nk e ,s u p e r v i s o r :p r o f w a n gq i a o c o u e g co f1 n f o 珊a t i o ns c i e n c e a n de n g i n e e f i n g ,s o u l h e a s lu n j v e r s i t y ,c h i n a b i 0 1 0 西c a la n ds o l i d s t a t en a n o p o r es e n s o 稿f o rs i n 舀em o l e c u l a rd e t e c t i o nh a v e b e e nap m m i s i n gs u b j e c tf o rf a s td n a s e q u e n c i n ga n dah o t s p o to fa c a d e m i c e s e a r c h e s i nl i f es c i e n c e a tp r e s c n t ,t l l i st e c l l n i q u eh a sb e e na b l et od i s c r i m i n a t el e n 舀ha n d h o m 叩o l y n u c l e o t i d e s o fd n am o l e c u l e s ,b u ti ti ss t i l lf a t 加ma c h i e v i i l gs i n 醇e n u d e o t i d er e s o l u t i o n t h i sp 印e ih 0 1 d sac o m m u l l i c a t i o ns i g n a lp m c e s s i l l g ss t a n d p o i n t , i tv i e w sl h ej o n i cb l o c k a d ec u 玎n t p r o d u c c db ys s d n a 飞t r a n s l o c a t i o nt h m u 曲 n a n o p o r e 髂r e c e i v e dw a v e f o 加a tt h et e c e i v e r 锄da n dt h ei d e a lw a v e f o m sc o r r e s p o n d t od i f f e r e n tr e s i d u e sa ss o u r c es y m b o l sw h i c h e e dd e c o d i n g t h e r e f o r e ,i t sh e l p f u l t o c o n s m l c tc o m m u n j c a t i o nc h a i l l l e l o i s em o d e la n dd e v e l o pc h a 皿e ld e c o d i 】喈a l g o d t h i n f o rt h ep r e p a r a t i o n0 ff a s td n as e q u e n c i n g t h ec o n t i i b u t i o no ft h i sp 印e “i e sj nu s j n g a na l g o d t l l l i lw h i c hc o m b i n e sh y p o t h e s i st e s t i n ga n dc o n t i n u o u sw a v e l e tt i 矾s f b 劢t o e x t r a c td n at r a n s l o c a t i o ne v c n t s 丘o mt h ei o n i cb l o c k a d ec u r r e n ts i 印a l 蛐ds t u d yt h e b e h a v i o ro fd n at r 孤s l o c a t i o na n dt h ep e r f o 肿a i l c eo ft l l ea 1 9 0 t i 岫w i md u s t e r i n g m e t h o d ;p m p o s eaw a yt oc o n s n 】c tc h a 加e 1n o i s em o d e lb a s e d 0 nt l l er e s e a r c ho nt h e t a n d o mw a l k 1 【e yw m d s :n a n o p o r e ,s t a t i s t i c a lh y p o t h e s i st e s t i n g ,( b n t i n u o u sw a v e l e tt r a n s f o 加, c l u s t c r i n 昌r a n d o mw a l k i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 研究生签名:日 期: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电 子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文 被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:导师签名: 日期: 第一章绪论 1 - 1 研究背景 第一章绪论 在征服了几乎所有自然科学的难题之后,科学家的目光开始转向人类自身。我们迫切地希望了 解人类这个世界上最复杂的“机器”是如何工作的,希望知道我们从哪里来,将向哪儿去。现有的 知识几乎只是简单地向我们描述各种生物现象,却很难深入地揭示其物理的或化学的本质,对很多 问题我们甚至不知道是否可以用我们现有的任何一门科学来解释这些现象。这是新的挑战! 基因一 直被认为是人体组装和工作的指令集,对它的研究自然成为一个热点。 人类基因组计划( h u m a ng c m cp r o j e c t ,简称h g p ) 的实施和完成为解答这些问题提供了大量的 信息,但我们仍需要更多信息的支撑才能够更好地利用现有的测序结果【1 l o 例如,要对基因进行功 能分析,就需要对许多在进化关系上与人类远近不同的物种的d n a 进行测序。其中,每一种哺乳动 物的基因都和人类基因规模相当,用标准的s a n g e r 测序方法要花费3 , 0 0 0 ,0 0 0 美元和大量的人力以 及时间吲。同时,d n a 测序技术在遗传学、临床诊断、分子生物学、人类学、考古学等众多学科有 着广泛的应用例。所以,我们需要更加快速和廉价的测序方法。 科学家们从未停止尝试,有一些方法也能够使得测序的价格下降几个数量级,例如焦测序( 检 测d n a 聚合反应过程中放出的焦磷酸酯) 以及用固定的低聚核苷酸探针阵列进行杂交测序。但如果 直接使用单分子分析,就可以避免这些方法中繁重乏味的诸如标定和纯化d n a 分子等实验准备工 作。另外,单分子分析还可以提供独特的基因表达信息,因为它可以直接研究单细胞中的核酸,而 不是对所有细胞进行平均。其中,光钳、原子力显微镜( a f m ) 、荧光共振能量转移( f 髓t ) 探针 等被用来研究生物大分子的机械特性;流式细胞术、毛细管电泳分离技术等试图直接测定单个核酸 片断的大小和组成。但到现在为止,这些单分子方法都还无法在单个d n a 分子上对大量核酸进行测 序。 1 9 9 6 年,k a s i a n o w i c ze ta l 的论文【4 l 使得生物纳米孔技术进入了单分子研究的视野。灵感来自于 颗粒计数器:悬浮在电解液中的颗粒在外力作用下通过连接两个容器的狭窄通道时增加了通道的电 阻,只要在通道两端施加恒定电压,颗粒的通过就可以由电流的下降检测出。生物纳米孔适用于单 分子研究的关键在于孔的尺寸与要研究的分子尺寸相当,它通过将单个分子固定在孔内,并与之发 生作用来得到单分子的组成信息。虽然纳米孔技术还没有成熟到能够精确并且高通量地读出正在穿 过纳米孔的生物大分子的信息,但显然已经成为现在最有希望实现快速廉价的d n a 测序的技术之 一 生物纳米孔测序的技术在十年间得到了极大的发展,但是生物纳米孔受到尺寸、稳定性、变异 等因素的影响;并且孔洞制作的一致性较差,很难大量生产;另外生物孔洞容易和d n a 发生化学反应, 导致孔洞空闲时产生大段离子电流阻碍,所以它的应用也受到限制。现在生物和纳米技术的发展使得 科学家可以制造出更加稳定,尺寸任意的固体纳米孔( 多为硅的化合物) 。当然,无论用哪一种纳米 孔,基本原理是一致的。我们的工作主要是建立在生物纳米孔的基础上,下面将简要介绍该技术的 发展。 1 2 纳米孔技术的发展 1 1 1a 溶血素( a - h e m o l y s i n ) 纳米孔实验系统 a 溶血素( a - h e m o l y s i n ) 是一个可溶于水的蛋白质单体,由人类病原体金黄色葡萄球菌 1 东南大学硕上学位论文 ( s t a p h y l o c o c c u sa u r e u s ) 分泌,在细胞膜以及合成的磷脂双分子层中它可以自组装成七聚物,从而 形成一个直径约1 s n m 的水通道( 如图1 - 1 所示) p j 。它的作用是吸附并通过使血小板细胞膜溶解于 水、离子和低分子最的分子吞噬血小板细胞。d h e m o l y s i n 能够被应用于单分子检测的关键在于它所 形成的孔洞人小。由图1 - 1 知,这个天然形成的纳米孔洞由两部分组成,上部较宽的部分最宽处达 到4 6 n m ,这部分通常被称作前庭( v e s t i b u l e ) ;卜部跨过磷脂双分子层,尺j r 较小,开u 处1 5 n m , 平均直径约2 n m ,这正好町以容纳单条d n a 分子链,这部分才是真正意义上实现单分子检测的“纳 米孔洞”。通常把上部叫做c s 端,r 半部分叫做t r ( 1 1 1 $ 端,而孔洞被称为离子通道。以后我们会注意 到,穿孔分子在这两部分中的行为是不同的。 图卜1 ( a ) q h e m o l y s i n 的顶视图;( b ) h e m o l y s i n 的侧视| 茎 ;( c ) 由x 射线衍射实验确定的h e m o l y s i n 三维结构图 a h e m o l y s i n 在电解液中的电特性符合欧姆定律,传导率线性正比于电解液中离子的浓度,电流 线性正比于加于该蛋白质上的电压( 同时也受到对阴离子的选择性的微小修止) 。在i m k c l 溶液中, t r a n s 端为正的1 2 0 m y 电压得到1 2 0 p a 离子电流;电压反向得到9 0 p a 离子电流。这个电流值通常 被称为开孔电流( o p e n p o r ec u r r e n t ) 。 i 生i1 - 2d n a 分子穿过纳米孔洞器件的示意| 皇i 。 将d n a 分子放入c 括端容器中,在外加电场驱使r 带有负电荷的d n a 分子将穿过纳米孔洞( 如 2 第一章绪论 图1 2 所示) 。由于分子占据孔洞,使得原奉畅通的离子电流受到阻碍,电流值下降,检测到电流值 的下降,就能够确定分子穿孔事件的发生:同时由于直径的限制,孔洞只能容纳一条d n a 或r n a 链,所以核苷必须一个接一个有顺序地穿过,如果不同核苷所产生的电流阻碍特征不同,就可以通 过提取离子电流特征确定正在穿过孔洞的是何种核苷,从而进行测序。生物和物理学家构造各种纳 米孔洞进行实验,虽然现在还无法实现测序,但可以获得许多有关穿孔分子的信息,这些都将为快 速d n a 测序提供理论指导。 1 1 2 研究进展 1 1 2 1 区分单链d n a 分子( s s d n a ) 和双链d n a 分子( d s d n a ) a - h e m o l y s i n 的内部结构对于区分1 5 0 个核酸的单链d n a 分子和1 0 0 个碱基对的双链d n a 分子 十分理想。事实上,只有单链d n a 分子真正穿过了a - h e m o l y s i n 形成的纳米孔,故可以通过观察离 子电流的下降获得分子信息。这在k a s i a n o w i c z 等人的实验中也得到了验证,他们的论文证实了 a - h e m o l y s i n 作为生物纳米孔具备根据分子的大小区别不同d n a 分子的能力,当然根据不同的应用, 需要仔细地选择纳米孔的尺寸1 4 j 。 最近,h e n g 等人证明合成氮化硅纳米孔也可以选择性地从s s d n a 和d s d n a 混合物中离析出 s s d n a 州。他们用凝胶电泳确认了d s d n a 无法穿过直径为l n m 的孔洞。5 0 个碱基对的d s d n a 分子 和5 0 个核酸的s s d n a 分子物理长度相当( 一1 7 n m ) ,但是它们的穿孔时间分布明显不同。对d s d n a 来说,持续时间较长的穿孔事件较s s d n a 要少得多,说明大多数d s d n a 都没有成功地穿过孔洞。 1 1 2 2 辨别穿孔d n a 分子的长度 纳米孔还可以用来辨别d n a 分子的长度1 6 - s 。k a s i a n o w i c z 等人在实验中观察到,单位时间内, 由短链d n a 分子穿孔造成的电流阻碍数量明显大于同样浓度长链d n a 分子穿孔造成的电流阻碍数 州。m e l l e r 等人的实验侧重于理解支配d n a 穿孔运动的物理机制,他们测量了不同长度的s s d n a 分子穿孔的速度,得到结论:长度小于纳米孔长度的分子穿孔速度强烈依赖于分子长度;而长度大 于纳米孔长度的分子穿孔速度则独立于分子长度。“等人的实验说明氮化硅纳米孔也可用来辨别 d n a 分子长度p j :在同样的外电压下,l o k bd s d n a 要用3 倍于3 - k b pd s d n a 的时间才能通过纳米 孔。h e n g 等人还分别给出了1 0 0 ,6 0 0 b p 和1 5 0 0 b pd s d n a 穿过直径2 4 n m 氮化硅纳米孔的时间分布 嘲。 s t o r m 进一步设计了以下实验:分别用1 1 5 k bd n a 和4 8 k bd n a 以及1 0 r i m 的氧化硅纳米孔进 行实验,验证以上事实。对于长链d n a ,典型的穿孔时间约为1 - 2 m s ,这大约是短链d n a 穿孔时 间( 约1 5 0 - 3 5 0 ) 的7 倍。穿孔时间的区别可能是由两个d n a 分子链伸直长度的不同造成的,但 是他们的伸直长度大概只相差3 倍,所以长链d n a 穿孔的平均速度更小。总的来说,这些事实在很 大程度上说明了在电泳作用下,单个d n a 分子可以线性地穿过纳米孔。 1 1 2 3 辨别均聚合r n a 和,或d n a 分子 用单通道实验记录均聚合r n a 和d n a 分子穿i l 的时间和电流数据,并将得到的数据画在散点 图( s c a t t e rp l o t ) 上( 如图1 3 左列图,每一个点代表一个分子穿孔事件,其横纵座标分别是该事件 的穿7 l 时间和电流值) ,可以看出每一种实验分子都显示出其独特的图案,从而揭示了辨别各种不同 均聚合r n a 或d n a 分子的可能性。a k e s o n 等人1 1 1 】选择了三种不同的r n a 分子做a h e m o l y s i n 穿 孔实验,因为这些分子不容易形成二级结构而阻塞通道。他们比较了由聚胞嘧啶核苷酸( p o l yc ) , 聚腺嘌呤核苷酸( p o l y a ) 以及聚尿嘧啶核茁酸( p o l yu ) 的均聚合物穿孔事件的时间与电流数据画 3 东南大学碗上学位论文 出的散点图,可以用图案中的统计信息来辨别不同分子( 见图1 - 3 ,该图只说明了p o l ya 与p o l yc 的可区分性) 。 接下来的研究中,m e l l e r 等人又将上述结论推广到了s s d n a l l 2 1 。他们将上述对于不同分子的不 同“图案”由三个统计参数定量地刻画:晟可能的电流值;最可能的穿孔时间;穿孔时间的特征 离差。每一种不同的分子,这三个统计量都各不相同( 见表1 - 1 ) ,所以通过统计计算口,以从混 合样本中分离出不同的多聚核苷酸。另外,他们还研究了温度与穿孔事件的关系,发现穿孔时 间大约和温度的平方成反比:t t 一。这就为控制分子穿孔速度从而增强各种不同分子之间的 差别提供了可能。这些研究都说明在某些情况下,纳米孔a j 以用于区分长度相同组成相同仅仅 是序列不同的分子。 8 1 0 d t n 山o t n t j 口n ( m ) 1 1 7 如 0 2 - - ! 一鲐f a 一p 一1 1 7 t a 一,p a 1 2 6 p a 一5 ip a 一2 0 口 一5 p 图卜3 右图表示产生左列散点图的典型穿扎事件的电流数据并指示f ;它们的典型值。( a ) 一( c ) 分别是p o l ya 、 p o l yc 和p o l ya + p o l yc 穿扎事件的散点图。实验过程中由于受到蒸发的影响,溶液中的离子浓度增加,故实际电 流值有所变动,例如开孔电流在前两种情况下是1 1 7 p h ,蕞后则变成1 2 6 p a “。 表卜12 5 ( 2 时6 种不同聚合体的穿孔统计信息总结” w a n g 等人的实验说明a h e m o l y s i n 纳米孔叮以川】。区分混合样品中不同长度的多綮核苷酸。 4 。五)警,p 第一章绪论 用散点图画出每一个多聚核苷酸与纳米孔作用事件( 不一定成功穿孔) 的归一化平均电流( z z o , 其中厶为开孔电流) 与穿孔时间的关系。大多数这样的多聚核苷酸穿孔散点图中,数据点自然地聚 集为两类d o - 1 2 。他们认为通常数据点较密的一类表示d n a 的5 端先进入纳米孔的事件,而数据点 较稀疏的一类表示d n a 的3 端先进入纳米孔的事件。由表l l 知分子的序列排列会影响穿孔时间, 所以那些在目标类别范围之外的数据点往往就说明了样本的不同成分:如图l - 4 右图箭头所指部分 就是不同于其他样本( d a ) m 的( t i c ) i 。m e l l e r 等人给出的样本( d a ) l 和( t i c ) 1 0 0 穿孔电流和时间的 分布i l ”( 如图i - 5 ) 也是量化地区分不同分子的依据。w a n g 的实验还进一步说明分子长度和温度等 因素只能改变平均电流值和平均穿孔时间,而不会改变两类之间的相对关系;但可以通过其他化学 方法,如磷酸化作用改变两个类别的相对分布。这些方法可能解决传统的d n a 或r n a 样品纯度和 化学完整性评估方法,如电泳、色层分析、质谱分析等在相对大小以及污染核酸置上的存在精度限 制。 图卜4 左图为( d a ) l 样本的散点图,可见它自然地聚集为两类,疏密不i 司;右图,( d a ) l 样本中掺有3 的( t i c ) l 其中( d c ) l 数据在图中的位置( 黑色箭头所指) 范围明显不同于( d a ) 啪,易于区分f 1 们。 图1 - 5 左图:( d a ) 啪( 蓝色) 和( d o l ( 红色) 电流值分布,可以用两个高斯分布的混合分布拟合;右图:( d a ) l 和( d c ) 啪的穿孔时间分布。 1 3 存在问题及发展方向 上一节总结了纳米孔作为单分子探测的一项关键技术的发展,我们看到利用d n a 或r n a 分子穿 过纳米孔过程中产生的电流信号,可以得到一些关于分子的类型、长度、序列和穿孔行为信息。这 些都充分说明了纳米孔这一技术有极大的潜力实现d n a 测序,但它现在仍处在“随机传感器”的阶 段,离实现测序的目标还有很大的距离。限制该技术达到单核苷精度一个主要因素是没有足够的时 5 东南大学硕士学位论文 间让我们探测到单个核苷经过孔洞引起的电流下降“”。据估计,在一个核苷通过孔洞的空隙中,不 同碱基之间的电流差别只来自于大约1 0 0 个离子的变动,这样小的差别很容易被淹没在噪声当中。 至少需要上千个离子的变动产生的电流差别才足以区分嘌呤和嘧啶。 现在科学家们的工作集中在通过各种实验方法更细致地观察d n a 分子穿孔过程中所发生的现象 和行为特性,研究其物理机制,并利用各种物理、化学和生物的手段,控制实验条件,从而减慢d n a 分子穿孔的速度,增加单个核苷穿孔时间或直接实现核苷辨别。例如,用发夹状d n a 的向后折叠减 慢d n a 的穿孔速度“;或者利用d n a 低聚核苷酸的共价拴缚性质,选择吸附与置于a h e m o l y s i n 洞口 的已知低聚物互补的d n a 分子1 1 5 i 。 为了能够识别不同核苷穿孔产生的电流“签名”,除了从物理的角度理解调控大分子穿孔的因素, 还包括另外两个方面:1 ,制作一种更精密的纳米孔,使之能够产生更容易识别的电信号:2 ,需要 一个能够在未来的纳米孔测序器件中做到实时辨别的可升级计算方法。对于前者,许多研究都在着 力制作各种固体纳米孔,以适应测序的不同要求。而能够实现实时测序的计算方法却很少在文献中 提及。不少研究使用a x o n 公司提供的电生物学数据获取软件c l a m p e x ,它可以实现同步仿真、 事件检测和在线分析等功能。软件的5 个模式中,固定长度事件检测( f i x e d 1 e n g t he v e n td e t e c t i o n ) 和可变长度事件检测( v a r i a b l e - l e n g t he v e n td e t e c t i o n ) 可用丁二d n a 穿孔事什的提取。但该软件的针 对性不强,主要根据用户的要求设定参数获取数据,例如m e h e r 等人在获取实验数据时就将穿孔事 件定义为“电流值下降超过开孔电流的3 0 ” 1 2 1 w a n g 等人则先1 l i jd a u b e c h i e s 小波平滑电流信号, 然后设定一个上门限一个下门限,跟踪_ 甲滑后的电流信号走向,他们对穿孔事件的定义为:1 , 电流信号降低到并保持在上门限以下,直至下降到下门限以下:2 ,然后又接连上升到下门限和 上门限以上【l “,这些定义都比较粗略,且因人而异,很难适用于单核苷辨别的普遍要求。 本文的主要内容之一就是试图给出一个能够用于提取d n a 穿孔事件,无需人工干预的通用计算 方法,并且讨论该方法实现“实时辨别单核苷”的可能性。 1 4 分子动力学仿真 分子动力学仿真在纳米孔d n a 测序近年来的研究中扮演着越来越重要的角色。首先,上一节也 提到要达到单核苷的检测精度,就必须对大分子穿孔过程的物理机制进行研究,而分子动力学正是 从最基础的物质之间的互相作用力开始构建模型进行计算。其次,纳米尺度的生物和化学实验犹如 一个“黑箱”,输入实验条件得到输出的实验结果,我们可以通过实验结果和现象进行分析和推测, 但现在还没有合适的仪器让我们“看到”实验过程中到底发生了什么,分子动力学仿真作为一种可 视化方法,通过程序设计让我们真真切切地“看见”d n a 分子是如何穿过纳米孔的。最后,分子动 力学仿真能够在纳米级别预测许多我们不熟悉的生物和有机材料组合之间的相互作用,从而评估生 物化学实验策略并且为实验设计提供理论指导【。这就是我们为什么要用分子动力学仿真来研究 d n a 纳米孔测序问题的原冈。 分子动力学方法从物理系统的确定微观描述出发,建立一组分子的牛顿运动方程,并通过直接 对系统中的分子运动方程进行数值求解,得到每个时刻各个分子的坐标与动量,即在相空间的运动 轨迹,再利用统计计算方法得到多体系统的静态和动态特性,从而得到系统的宏观性质。1 天f 此,分 子动力学模拟方法可以看作是体系在一段时间肉的发展过程的模拟。 在d n a 穿过纳米7 l 的系统中,通常考虑以f 粒子之间的相互作用: 一1 粒子之间的弹性势能:u s ,= y :去t ( f 一) b o n d sz i ,f 6 第一章绪论 带电粒子之间的静电势能:虬。= 墨 i ) 分别为窗口中前 一1 个数据点组成的序列以及第_ 1 个 数据点以后的所有数据组成的序列。瓦和五的值则分别是假设窗口没有跃变点和有一个跃变点情况 下的方差。注意到五的计算包括了关于可能存在的跃变点的位置信息,判断信号跃变点位置就确定 为以下假设检验问题:若瓦 五,h 1 成立,其中: 凰。:窗i = l 中没有跃变点; 凰:窗口中有且仅有一个跃变点 且该跃变点到窗口始端的距离为 搬2 哪叩【莓k n 1 2 + 若k p 1 2 j 以上方法用于实际电流数据时,由于噪声较大,这样的处理使得结果出现许多多余的跃变点, 这些跃变点两端信号均值差别很小。所以根据实际数据的特点加上附加条件p 一纠 瓦,即窗口中 有一个跃变点时,跃变点两端均值大于一个阈值以保证该信号提供有意义信息。故假设检验问题的 解调整为:若瓦 五并且l a p i 瓦,h 1 成立, 程序所需要的参数主要包括窗口长度和门限值五。在计算的过程中还将加入窗口移动的重叠, 这是为了避免跃变点出现在相邻窗口边界的情况。这些参数给假设检验方法带来一些主观性和实际 操作难度,但同时也使得程序更加鲁棒、灵活并且能够适_ i j 于更加广泛的应用。取一段电流数据用 该方法进行处理,可得到图2 2 结果,红色方波是经过处理提取出的信号。从图上看处理效果基本 令人满意,以下进行细致的性能分析:说明可能出现的假设检验第1 类错误和第1 i 类错误与程序参 数的关系;其他可能出现的错误分析;以及该方法的优缺点。 东南大学硕上学位论文 图2 - 2 经过处理的电流数据片断,蓝色足含有噪声的信号,红色是绛过假设检验处理提取出的理想方波信号。 2 1 3 性能分析 2 1 3 1 窗l j 长度选取 以上所描述的方法在实际操作中,性能将受到参数设定以及信号本身和噪声性质的影响。窗 j 长度在假设检验方法中是一个最基本的重要参数,但是它的设定并不是非常严格,对系统的性能影 响自i 限,这里我们先研究窗口长度的设定需要满足什么条件,在以后的分析中就崮定的窗u 长度进 行计算,不再考虑它的影响。 显然,窗口长度的设定受到信号长度的影响,如果设定的窗u 过长,会显著增加一个窗u 中存 在多个跃变点的町能性,从而造成系统错判;另一方面,如果窗l l 长度过小,窗口中的数据则自可 能不能真实地反映数据的统计信息。另外,当然还受到噪卢强度的影响,我们用一个简单的小实验 米反映这种影响:固定信号长度为1 5 0 ,信号强度为1 0 0 ( 这里信号强度是指高电平与低电平的差 值,由于该方法与信号的能量没自| 真接关系,信号直流星大小任意,不考虑信号能量) ,在不同的窗 口长度卜分别对添加了标准差o - = 1 0 ,1 5 ,2 0 的高斯噪卢的信号进行处理( 最大噪t r j 强度已经超过实 验数据的噪卢强度) ,用以上方法判断得到的平均跃变点个数如图2 - 3 所示( 实际跃变点只有1 个) 。 见判断得到的跃变点个数随着窗u 长度的增加收敛于止确值,噪声越大收敛越慢,窗u 长度达到 8 0 以后,各个噪卢强度f 都收敛到正确值。信号的实际长度为1 5 0 ,也就是说大于8 0 而小于1 5 0 的 所冉的窗u 长度都是合适的,所以它的设置并不会显著的影响系统的性能。减小信号强度到5 0 个单 位,在高斯噪声标准差为2 0 个单位时,对跃变点的个数判断没有误差;具体到每个跃娈点的位置, 跃变点倚置误差控制在信号实际长度2 范围内的正确率町达9 8 3 以上。这个准确度足够我们进一 步寻找信号的细微左别。 假设信号长度符合高斯分布且方差很小,则按照上述条件:当窗l j 长度人于信号实际长度的一 半町以保证得到上e 确的判断。那么在信号长度变化的情况r ,我们认为选取信号长度的均值为窗e l 长度是比较合适的。因为南此产生的错误概率为: 4 第二章纳米孔高速d n a 测序中电流信号提取算法设计 i r j u e n c e o f t h e “n d o w s i z e o n t h e s y s t e md 自t 耵n a n c 葛 w i n d o ws i z e 图2 - 3 窗口大小的选择对系统的影响 p r ( 1 2 w ) = w ( t 2 e ( 1 ) ) p p r 1 2 = e 去e 昔d l 。= l ”, o 去e 了d 2 j :,;而82 而8 = 1 一圣,仃) 其中f 是实际信号长度,乙是窗口长度a 当( 3 - 较小的时候,错误概率很小。盯增加时需要适当地增 大窗口长度参数。 一般来说委f s o z 时能够得到跃变点位置的正确判断;窗口长度大于信号长度的情况将在下 面的分析中讨论。 2 1 3 2 错误概率分析 系统发生的错判包括三种情况:1 丢失方波波形,错误概率只l ;2 对方波跃变点位置的判断存 在偏移,错误概率2 ;3 添加方波波形,错误概率3 。其中只,相当于参数假设检验中的第1 i 类错 误概率( 原假设j l 不成立,即窗口中存在跃变点,但未被否定,即被判断为无跃变点的概率) ,只, 相当于参数假设检验中的第1 类错误概率( 原假设日。成立,即窗口中无跃变点,但被否定,即判断 为存在跃变点的概率) 。只:是根据特定应用需要分析的错误概率。下面分别对这三种错误概率进行 分析。 考虑对方波信号进行时间k 度定位,暂且忽略方波幅度对系统性能的影响。假设一串方波的幅 度相同,时间长度符合高斯分布。依据以上的分析,设定窗口长度为时间长度的均值,在此基础之 1s gr耄芒0d9lji_joj9ql 东南大学硕士学位论文 上分析窗口重叠、时间长度分布的标准差以及噪声标准差对系统错误概率的影响。 第一种错误产生于窗口长度大于信号长度的情况,是由于方波的长度小于某个值,使得它在相 邻的三个窗口中要么没有跃变点,要么有两个跃变点,从而造成丢失。如图2 - 4 所示。当信号长度 符合高斯分布时,这种错误概率可以计算如下: 己= 只( 信号长度窗口长度一2 窗口重叠长度) p ( 该信号位于相邻窗口非重叠区域内) 舡丘去e 丢d f l 半 = 扣“铡丁1 w - - 2 0 其中町( ) 是高斯分布的误差函数,z 。为窗口长度,f d 为窗口重叠长度。! 丘 型2 是对“信号 位于相邻窗口非重叠区域”概率的最大估计。故以上计算给出的是一个较松的错误概率上限。选取 s 叼n a l o v e r l a p 、r 图2 - 4 产生方波丢失错误的示意图 从( a ) 式中可以看出窗口长度固定为信号长度均值时,只,仅受窗口重叠长度f d 和信号长度分 布标准差的影响。图2 - 5 分别绘出了这两个量与丢失波形错误概率的关系。正如( a ) 式所示,第一 种错误概率随着信号长度标准差的增加而增加,随着窗口重叠长度的增加而f 降。同时,噪声的强 度对丢失波形错误概率的影响不大。噪声强度主要影响第二和第三种错误概率。另外,当信号本身 的时间长度标准差较大的时候,错误概率的上升很快;由于受到窗口长度的限制,窗口重叠长度不 可能无限制地随之增长来控制错误概率。这是方法本身的固有问题,因为固定的窗口长度难于分析 信号不同尺度上的结构。 固定窗口重叠长度时,仿真实验得到的第一种错误概率与理论上界比较接近,而固定信号时间 长度标准芹时,仿真实验得到的第种错误概率还远远小j :理论预测的值,还可以得到更加精确的 上界。可见,为了减小错谡概率应该尽量使用大的窗口重叠k 度,但是蕾叠长度的增加,也造成计 算量帛i 计算日 j - i 。司的增加。实际远川时,可以根据信号的性质以及错误容限,选择合适的窗口重替k 度。 第一种错误不在传统假设检验问题的讨论范围内,但它的存在会对计算电流均值产生影响,尽 量准确可以保证检测剑微小的电流值差别。根据小同的错误容限,有第二种错误与信号及噪卢强度 第二章纳米孔高速d n a 测序中电流信号提取算法设计 的关系,如图2 _ 6 所示。定义信号与噪声强度的比值s n 为信号强度与噪声标准差的比,则有第二 种错误概率与信号噪声强度比大致成负指数关系,如图2 7 。 t d 硎 图2 - 5 左图为固定窗口重叠长度时。第一种错误概率与信号时间长度标准差的关系;右图为周定信号时问长度 标准差时,第一种错误概率与窗口重叠长度的关系。两图中实线均为根据c a ) 式计算的理论曲线,加号,星号和叉 号分别是不同噪声标准差情况下仿真实验得到的第一种错误概率值 r 曲es t a n d a r dd 喇l n u e n e e d s i 口r 叫e t t e n 劬o f t t h es b t 即巾m 蚺协 图2 - 6 上图:不同错误容限下,信号强度1 0 0 时噪声标准差与第二种错误概率的关系;下图:不同噪声强度下, 错误容限为0 时信号强度与第二种错误概率的关系 第三种错误的产生如图2 8 所示,出现在信号边缘。当信号长度大于窗口长度,且窗口边缘噪 声出现连续大于均值或者连续小于均值的时候,产生这种错误。由于窗口中不存在信号的跃变点, 故错误产生主要由噪声引起,与当前信号强度的绝对值没有直接关系。由以上分析可以看出第三种 1 7 昌五置暮-2一鲁一五置j巨-2暑 东南大学硕士学位论文 错误主要与噪卢分布以及信号时间长度分布有关。 图27 第种错误概串i 信号噪卢强度比的关系。星号是仿真实验结果,曲线是对上述结粜进 r 的拟台得到的。 此时错误容限为0 。 图2 - 8 产生方波添加错误的示意图 如图2 9 ,错误概率随着噪卢强度的增加而增加,这是显而易见的。比较i 条曲线,中间一段几 乎是等闸隔等斜率上升的,町知对于不同的信号强度,噪声对错误概率产生的影响是一致的,只是 随着信号强度增加错误概率整体地减少,这与以上分析是一致的。噪卢对第一种错误概牢的影响不 依赖于信号的强度,这与第一种错误概率( 信号能苗本身对错误概率的大小有影响) 不同。 另一方面,第i 种错误概率随信号时问长度分布的标准差增加而增加,但随着噪卢的减小,时 间长度标准差对错误概率的影响也逐渐减小,如幽2 一l o 。噪声标准差为2 0 的时候,不同信号长度 标准差f 错误概率的差值人于0 0 2 5 ,而噪卢标准差为l o 时,错误概率的差值不到0 0 0 6 。町以说噪 卢是影响第i 种错误最主要的冈素。曲线末端的异常f 降,是南于此时的第种锚误人幅度增加, 影响了第= 种错误出现的概率。 波形添加错误足在信号平稳k 域 柯噪卢行为产生的,特点是幅度较小,一般而言长度也很小, 所以通过给系统添加后续处理过科容易识别并剔除这螳错误。这里考虑前述假设检验办法计算完毕 后检查恢复信号,如果出现长度和幅度小于fj 限值的办波,即将其剔除。这种办法简单且有效,在 加入两个j 限后,第i 种错误的概牵将极人地减小。例如,选取以上实验中第j 种锚误概半最人的 1 8 第二章纳米孔高速d n a 测序中电流信号提取算法设计 参数:信号强度8 0 ,信号时间长度标准差2 0 ,噪声标准差2 0 ;加入两个门限:时间长度门限1 0 。 幅度门限1 0 ;此时第三种错误概率由原来的接近0 0 5 下降到0 0 0 2 。两个门限都增加到1 5 时,就 基本可以消除第三种错误概率了。 图2 _ 9 不同信号强度下,方波添加错误的错误概率与噪声标准差之间的关系。信号强度分别为8 0 ,1 0 0 ,1 2 0 。 综上所述,第一种错误概率与窗口重叠长度以及信号本身时间长度的标准差相关;第二种错误 与信号与噪声强度的比值相关;第三种错误与多个系统参数有关,主要受到噪声的影响。可以认为 三种错误概率相互独立,故有系统错误概率为= 。+ 2 + 毛。其中第一种错误和第三种错误 可以通过参数的调整使之接近于零,所以系统的主要误差来自于第二种错误。事实上,在实际的电 流数据处理过程中,我们真正关心的是得到有意义的电流幅值,希望这个幅值能够提供更多有关穿 孔d n a 链或其他大分子的结构和行为信息,如果认为一两个点对均值的影响很小,则系统对第二种 错误有较大的容限。故将假设检验方法应用于d n a 穿孔电流数据的处理,系统总的错误概率可以由 系统参数控制。 s i a n s m 鲫i h l8 0 s t a n d a r d d e q 越i o no f s 均旧i l e n g t h 图2 1 0 不同噪声标准差下,方波添加错误的错误概率与信号时问长度标准差之间的关系。信号强度为8 0 。 1 9 iii主l 东南大学硕士学位论文 2 1 4 处理效果及存在问题 窗口长度、窗l j 重叠长度以及判断日,成立条件中的j 限值瓦这三个参数町以通过简单的机器 学习在数据处理的过程中进行调整。当然好的初值将缩短学习的过程。2 1 3 1 节叙述了窗u 长度 选择的基本原则,根据信号的平均长度确定窗u 长度,若噪声强度人则适当增加窗l j 长度;同时窗 口也不能过长,否则会增加因窗口中跃变点数人于1 而发生误判的概率。窗u 重叠长度根据同时控 制第一类错误概率和计算量的原则进行选择。| j 限值则受到信号幅度的影响,选择过大会丢失波形, 过小会添加波形。对于真实d n a 穿孔实验的数据,信号长度集中在1 4 0 左有,我们选取窗l l 长度为 8 8 ,窗口重叠长度5 4 ;信号幅度主要集中在4 0 5 0 0 a 以及8 0 p a 附近,选取初始fj 限值2 5 p a ,并在 处理过程中随着i o 一剧实际值的变化做适当调整。处理效果如图2 - 1 1 所示。 可以看出真实验数据中号种基本形状的波形,有两种( 圈2 - 1 1 中分别标以i 角符号和实线剪头) 町以令人满意地被检测出,但在处理第i 种( 如图21 1 中虚线箭头所指) 类似于通讯信号中的毛刺信 号时发生了问题。这个问题的产乍源于所做的假设,由于毛刺信号的宽度很小,通常存在于个窗 u 之中,敛使窝u 中跃变点多于一个。假设中不包含这种情况,自然无法检出。即使考虑减小窗 来使跃变点分别位卡不同的窗l 之中也无法解决这个问题。原因在于人噪卢背景f ,窗l 】太小将导 敛搜集到的方差信息不能代表实际情况,从而无法进行止确的假设检验。所以需要用其他的办法来 解决这个问题。 图2 - 1 l 实验数据( 蓝色) 和假设检验方法处理结粜( 红色) 。黑色三角标记和黑色实线箭头、黑色虚线箭头分 别指示了实验数据的t 种摹本波形。其中黑色三角标记所指基本方波表示成功的穿孔事件。 2 2 连续小波变换 假设检验的问题在于人小固定的窗l j 难于分析信号不同尺度上的结构,我们也考虑过采用自适 应的窝u 长度米解决这个问题。但止如前面的分析,该办法对窗u 长度的选取是有限制的,过长会 增加错误概率,过短则尤法搜集到町靠的统计信息。所以必须改用其它办法解决这个问题。在我们 2 0 第二章纳米孔高速d n a 测序中电流信号提取算法设计 所熟悉的方法中,容易想到连续小波变换,它自然地运用时频原子将信号分解到不同的时间支撑集 上“ 2 2 1 连续小波变换简介 r ( r ) 上的信号s 在尺度a 和时刻6 的小波变换系数为: = 肛) 旁譬弦 也可以写成卷积形式: e 一= 正s 旁( 字渺= s + 玩 其中 吼) = 击妒 连续小波变换中,复小波变换通常运用于区分幅度和相位信息,而实小波变换常用于检测强烈 的信号跃变。这就是我们选择实小波变换的原因。 根据信号的局部l i p s c h i t z 正则性,定义小波系数极大值点为时间尺度平面上任意满足在 4 = a o 使c 乙达到局部极大值的点慨,4 0 ) 小波系数极大值点对应于信号的奇异点所以要寻找 信号奇异点,可以沿着横轴寻找小波系数的极大值收敛的位置。为了能够更好的理解这些极大值的 作用,将小波交换写成一个多尺度微分算子:若砂拥有以阶消失矩和紧支集,那么存在满足 f s o ( t ) d t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 未来五年未锻造铑市场需求变化趋势与商业创新机遇分析研究报告
- 2025年特岗教师招聘考试真题及答案
- PEP四年级英语教学课件制作指南
- 2025至2030中国塑料破碎机行业项目调研及市场前景预测评估报告
- 2025至2030中国维生素行业项目调研及市场前景预测评估报告
- 2025至2030中国聚氧乙烯(6EO)脂肪醇行业项目调研及市场前景预测评估报告
- 毒品预防安全测试题及答案解析
- 2025年玉门市公益性岗位招聘真题
- 2025年淮安市清江浦区事业单位考试真题
- 工业互联安全竞赛题库及答案解析
- 施工现场各工种安全技术操作规程
- 2025年全国高校辅导员职业技能大赛笔试测试卷及参考答案(国赛版)(共3套)
- 2025年河北美术学院行政科员、辅导员招聘16人考试笔试参考题库附答案解析
- 研究企业数字责任在推动突破性创新中的作用机制
- 2025年浙江省采购合同范本
- 2025江苏苏州市健康养老产业发展集团有限公司下属子企业招聘4人(第五批)笔试历年备考题库附带答案详解试卷2套
- 全国大学生职业规划大赛《测控技术与仪器》专业生涯发展展示【曾获省级一等奖】
- 人教版小学二年级上册数学期中测试题共6套
- 香港雇佣劳务合同(标准版)
- 辽宁省县域重点高中2025-2026学年高三上学期期中考试语文试卷
- 麻醉应急预案资料
评论
0/150
提交评论