




已阅读5页,还剩57页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于半监督聚类的锋电位信号分类方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 神经科学的研究是揭示大脑工作机制和规律的一门前沿学科,它对于人工 智能的发展、人类健康、社会进步都有极大的幅射力。锋电位信号分类( s p i k e s o n i n g ) 把从脑区获得的放电信号分离为一个个神经元的放电模式,是深入研究 神经细胞对信息的编码解码规律的先决条件,其研究结果对建立有效的人工神 经网络模型以解决实际问题有重要的推动作用。 本文阐述了锋电位信号分类的发展概况与处理流程,结合该问题的技术难 点及现存分类方法的不足,提出为该问题建立一个半监督的锋电位信号分类框 架的解决思路。即以半监督聚类的思想为指导,综合运用神经网络、流形学习、 仿射传播聚类等高效的机器学习方法,在框架当中融合人的先验知识与机器的 计算效率,使问题获得较好的解决。 鉴于数据可视化技术有助于获得更为可靠的先验知识,而自组织特征映射 网络( s o m ) 不但能对高维数据进行学习、降约,而且能保存原数据中的分布与 拓扑信息,在经过一些信息抽取技术的处理之后,原空间的聚簇结构可为人眼 所观察,从而方便人的监督指导。为实践这项高效的技术,作者从事了对气溶胶 数据的聚类工作。其中,针对具体数据的特异性而使用了特殊的预处理方法,如 通过t f ,d f 变换对特征的赋权。最后,在s o m 训练结果基础上进行二次聚类 以得到最后的分类结果,虽然比较合理,但仍存在同一类别神经元分散的问题。 针对前人及作者本人在应用s o m 得到的结果中所存在的问题,本文提 出s o m 训练后的网格存在着二维的流形结构,直接通过传统的聚类方式进行后 续处理会出现扭曲网格信息的问题。并进而提出结合多种机器学习方法的优点 来进行聚类分析的半监督锋电位信号分类框架。在该框架中,s o m 、测地距离、 仿射传播聚类方法相互依赖、互为补充而成为一个无缝的整体。 处理真实锋电位数据的实验结果表明,本文提出的半监督分类框架无论在 处理高信噪比的数据还是低信噪比的数据,均可取得合理的分类结果,而且分 类过程受人的先验知识指导,分类后也可受人的监督进行优化。在与传统较为 流行的a u t o c l a s s 包的分类结果比较后发现,本框架的分类结果也更为合理和具有 可扩展性。 i 摘要 最后根据得到的单细胞放电模式及场电位信号,进行了一些初步的神经放 电编码方面的研究,主要是信号的仿真建模与时延预测。文中说明锋电位信号 分类工作的完善,对于后续的深入分析与研究有着较大的推动作用,对推动计 算神经科学的发展也有着重要的现实价值。 关键词:锋电位信号分类,自组织特征映射网络,流形学习,半监督学习,聚类 分析 a b s t r a c t a b s t r a c t n e u r o s c i e n c ei saf i e l dt h a ti sd e v o t e dt ot h es c l e n t i f i cs t u d yo ft h en e r v o u ss y s t e m s u c hs t u d yh a si n f l u e n c e dt h ed e v e l o p m e n to fa r t i f i c i a li n t e u i g e n c e ,h u m a nh e a l t h ya s w e l la ss o c i a ls c i e n c e i no r d e rt or e v e a lt 1 1 er e l a t i o n s h i pb e t w e e nh u m a ni n t e l l i g e n c e a n du n d e 订y i n gn e u r a lm e c h a n i s m ,af e a s i b l ew a yi st or e c o r dm ee v e n tp o t e n t i a lo ft h e l a r g e - s c a l en e u r o n a le n s e m b l e sf o l l o w e db ya n a l y z i n g t 量l ep a t t e mw i t h i nt 1 1 ep o t e n t i a l s e r i a l s n o wm et e c h n i q u eo fm u l t i c h a n n e le l e c t r o d e sa 1 1 0 w sf o rm es i m u l t a n e o u s r e c o r d i n go fm a n yn e u r o n s ,a n dm a k e si tp o s s i b l et oa 1 1 a l y z e 血es p i l p a t t e mo fe a c h r e c o r d e dn e u r o n b e c a u s em ea c t i o np o c e n t i a lr e c o r d e db yas i n 酉! em i c r o e l e c t r o d e m a yc o n t a i ns e v e r a in e u r o n s a c t i v i t i e s ,o b v i o u s l yt h ei s o l a t i o na n di d e n t i c a t i o no fa s i n g l en e u r o n ss i g n a lf 幻mm e m i x e do n e s ,山ep r o c e s st l l a ti sr e f e r r e d oa ss p i k es o n - i n g ( o rs p i k ec l a s s i f i c a t i o n ) ,i st h ep r e r e q u i s i t eo fi n v e s t i g a t i n gi n f b n n a t i o np r o c e s s i n g m e c h a l l i s m sw i 曲nm en e r v o u ss y s t e m t h i sm e s i sr e v i e w e dt h ed e v e l o p m e n to fs p i k e s o i t i n gt e c h n i q u e ,s u b s e q u e n 衄 p r o p o s e dan o v e ls o l u t i o nt oa d d r e s s 衄sp r o b l e m t h es o l u t i o np r o p o s e di 1 1 缸st h e s i si sas e m i s u p e r v i s e ds p 墩e - s o n i n gf r a m e w o r k ,w h i c hi sc o n s i s t e do fn e u r a ln e t _ w o r k ,m a n i f o l dl e a m i n g ,a 施n i t yp r o p a g a t i o nc l u s t e r i n g w h a t sm o r e ,m i sf - r a m e w o r k c o m m n e dm ea d v a n t a g eo fh u m a np r i o r ik n o w l e d g ea n dm a c h i n el e a m i n ga l g o r i m m , w h e r e i n 血em a c h i n ea l g o r i t h mi sg u i d e db yp r i o r ii n f o m l a t i o n ,s om a tam o r er e l i a b l e r e s n l tw o u l db eo b t a i n e d b e c a u s em ev i s u a l i z a t i o nt e c h n i q u ec a nb em ep o t e n t i a lp r i o r ii n f o m a t i o nm a t m a yb er e f e r r e db yo p e r a t o r s ,吐1 ea u t l l o rh a sm a d es o m ep r a c t i c a le x p 丽m e n t sw i 出 s e l f o 玛a n i z i n gm a p ( s o m ) ,a ne x c e l l e n tc o m p e t i t i v en e u r a ln e c w o r km o d e l i nt 王l e s e c x p e r i m e n t s ,出es o m h a sb e e nc a r r i e d u p o nm ea e r o s 0 1p a n i c l ed a t a a 1 m o u g h c h er e s u l t sc l a s s i f i e db ys o ma r er e a s o n a b l et os o m ee x t e n ,t h e r ew e r es t i l ls o m ed r a w b a c k s l e f tt ob ea d d r e s s e d b a s eo nt t l ep r o b l e m se x i s t i n gi n 出ew o r k so fo 血e rn e u r o s c i e n c er e s e a r c h e r sa s w e na sm ee x p e r i m e n t sd e s c r j b e da b o v e ,吐1 i st 1 1 e s i sp r o p o s e d 出a tm es t n l c c u r eu n d e r - h i a b s t r a c t l y i i l gm es o mg r i db em a n i f o l d t h e r e f o r e ,t i l e 缸a d i c i o n a lp o s c - p r o c e s s i n gt e c h n i q u e m a yb i a st h et m ei n f o m a t i o nu n d e r l i et t l es o m 鲥d ,s u c hm a t t 1 1 eu n r e a s o n a b l ec l u s 。 c e r i n gr e s u l t sm a y b eg o t t h u s ,h e r eas e m i - s u p e r v i s e ds p i k es o r t i n gf 妇m e w o r kw a s p r o p o s e d ,i nw h i c ht h es o m ,m a n i f o l di e a r n i n ga n da f 矗n i t yp r o p a g a t i o nc l u s c e r i n g w e r ec o m b i n e ds e a m l e s s l ys oa st oe m p l o y 吐l eh u m a np r i o r ii n f o r n l a t i o n t h ee x p e r i m e n t su p o nt h er e a ls p i k es i g n a li n d i c a t e d 山a cm i ss e m i 。s u p e r v i s e d s p i k es o r t i n gf r a m e w o r kc a ng i v et 1 1 er e l i a b i er e s u l t sn om a t c e re i 出e rh 培hs n r d a t a o rl o ws n rd a t aw a se n c o u n t e r e d f u r t l l e 珊o r e ,t 1 1 eh u m a ni n t e r v e n t i o nm i 曲tb e e m b e d d e db e f o r eo ra f t e rc l u s t e r i n g i nm ec o m p 撕s o nw i 也m ep o p u l a rc l u s t 丽n g p a c k a g er e f e m dt oa sa u t o c l a s s ,m ep r o p o s e df r 锄e w o r ko u t p e 哟n 1 1 e d 血ec r a d i t i o n a l o n ei nt e m lo fr e a s o n a b i l i t ya n de x t e n s i b i l i t y f i n a l l y ,f b rt h ep u 叩o s eo fi n d i c a t i n gt h es i g n i f i c a n c eo fs p i k e 。s o r t i n g ,s o m ep r i m a r yw o r k sb a s e do nm es p i k ep a t t e mo fp a r t i t i o n e dn e u r o n sw e r ep e 渤m l e d ,w h i c h i n c i u d e 吐1 es i m u l a t i o na n dt i m ed e l a y e dp r e d i c t i o no fi n t e r s p i k ei n t e r v a la n dp o t e n t i a l s i 星皿a 1 k 叼w o r d s :s p i k e s o r t i n g ,s e l f o 唱a n i z i n gm a p ,m a n i f 0 1 dl e a m i n g ,s e m i 。s u p e r v i s e d l e a m i n g ,c 1 u s t e r i n ga n a l y s i s 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工 作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含 任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本 研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 枷g 年6 月l1 日 第1 章绪论 第1 章绪论 1 1 研究背景 随着人类基因组测序计划的完成,生物信息学正获得了突飞猛进的发展,这 反过来又推动了人们对人体奥秘认识的深入。人类秘密的最后堡垒,将是人的 大脑,对人脑的研究将使我们对人的智能与意识本质的认识进一步深化。在健 康方面,将对各种精神病症、脑损伤疾病的治疗给出更多的科学依据;在工业方 面,将对人工智能的广泛应用有着极大的促进作用。由于神经科学的研究对社 会的进步有着根本的推动作用,世界各国对神经科学的研究都给予了极大的重 视。美国率先推出了“脑的十年”计划,欧洲和日本也相继出台了“欧洲脑十年 及“脑科学十年时代计划”。然而由于脑组织本身的复杂性,脑功能与底层的组 织存在着难以摸清的千丝万缕的关系。有研究表明,大脑是由数亿个神经元组 成的神经网络。宏观上的感觉、记忆、行为在微观上是怎样由这些大量的神经细 胞协同编码? 底层的神经信号传递怎样被解码为上层的感受与决策? 在神经科 学领域还有太多的这类悬而未决的难题,有待实验手段的发展和科研人员的不 断探索。 目前神经科学的研究技术和手段有了较大的进步,其中包括两大类互补的 研究方法:( 1 ) 无创性脑功能( 认知) 成像技术,它可分为脑代谢功能成像和生 理功能成像两种,如脑电图( e e g ) 、脑事件相关电位( e r p s ) 、正电子发射断层扫 描口e t ) 、功能磁共振成像( f m 砒) 等;( 2 ) 清醒动物认知生理心理学研究方法,它 包括单与多细胞电极记录法和其它生理心理学方法( 手术法、冷却法、药物法 等) ,近年来特别是中枢神经系统在体多通道同步记录等新技术的发明和应用, 标志着对大脑的认识和研究进入了一个崭新的阶段。与本文作者所在的智能计 算实验室有项目合作关系的华东师范大学脑功能基因组学研究所( 教育部重点 实验室) 使用的是第( 2 ) 种研究手段,即从微观的层面研究活体动物大脑的放电 模式与编码规律,研究对象为小鼠,主要通过在体多电极记录技术采集小鼠海 马区神经元的放电信号并加以分析研究。因为生物体的各种外在智能表现最终 都要归结为神经细胞层面的放电模式及神经网络中的互相作用,就如分析人体 构造的根本原理要归结到d n a 序列的研究一样,要摸清生物体智能的编码、存 1 第l 章绪论 长期以来的研究表明复杂的脑功能可以通过大量的神经元集群放电表现出 来,如果只对单神经元作分析则只能得到有限的信息 3 - 4 j 。所以,神经科学的进 步依赖于对大量集群细胞活动的同步记录技术。为实现这个目的,优秀的锋电 位信号分类算法的实现是关键性的一步,因为该技术可以分析来自于同一个记 录电极的多个相邻神经元的放电模式。这项技术的发展开拓了计算神经科学研 究的广阔前景,例如,我们可以分析相邻神经元的连接模式 4 5 1 ,或者研究某个 特定区域的拓扑组织方式,也可以对邻近细胞的放电响应进行分类【6 1 。迸一步来 说,高精度分类技术的发展可以获得一些放电较为稀疏的细胞的放电模式,在 通常的情况下这些细胞的放电被那些放电频率高的细胞放电所屏蔽,精度不足 的分类技术会把它们误分。 锋电位信号的处理流程主要分为滤波、信号检测、特征提取和聚类等几个 步骤,每一步的具体内容在下一节有比较详尽的叙述。为得到一个在分类质量上 可以为研究人员所使用的方法,很多研究人员作出了不懈的努力,在不同时期所 采用的技术与方法在文献【7 圳中有很详细的回顾。总的来说,研究工作主要集中 在分类特征的提取与聚类方法的使用上。其中特征提取从最早期单一的信号幅 值特征到后来的波形能量、峰一谷距离、主成分分析( p c a ) 系数等等,再到近 些年来被引入的小波系数 1 0 】,现在的分类方法中能使用的信号特征已经十分多。 现今锋电位信号分类的主要工作已经集中于聚类算法的研究上,从最初的阈值 分割、模式匹配到贝叶斯聚类、神经网络聚类、超顺礅陛聚类,也已经有不少较 为成熟的分类工具包【1 1 _ 1 5 】。尽管已经有不少的研究成果,但很多的工作都是对 人造数据进行实验,当应用到实际的信号时,由于现实情况的复杂性,大部分的 算法无法得到令人满意的分类结果。以在实际中被普遍使用的基于贝叶斯理论 模型的聚类方法为例,它假设所分析的数据服从正态分布,或是分布【1 6 j ,然而, 这样的先验假设往往不能反映数据的实际统计特点,特别是当信噪比( s n r ) 低,数据受噪声干扰较大的时候,这些算法得到的结果就变得不可信。所以很多 研究人员还是倾向于用人工分类的方法,以求利用人类的知识,即便使用较长 的时间,也要得到适合于分析的结果。鉴于人工处理的耗时与主观性,也有研究 人员提倡在机器聚类算法处理之后再使用人工干预的手段来实现对结果的进一 步处理【1 7 t 1 8 】,这种方法通常是对机器分类结果进行人工评估后,把相似类别合 并或把不合理的类别再度分割等。然而这样操作的合理性仍有待检验。 二电极、四电极技术是一种把两个或四个电极捆绑在一起迸行信号采集的 3 第1 章绪论 技术,它的出现大大提高了分类的准确率 1 7 ,i9 1 。它的有效性在于它得到的特征 比单电极所得到的特征更多,更具有可区分性。因为对于单电极来说,不同细胞 距离电极可能是相近的,记录的信号相差无几,因而难以分类。而当采集的电极 为二电极或四电极时,没有两个细胞与到几个电极的距离是完全一致的,所以 上面所述的情况基本不可能出现。在实际中,不同细胞因与各电极的距离不同, 在电极记录的信号就发生了差异,这样更有利于信号分类。但这种技术的出现 只是解决了可区分性特征的获取问题,要得到更为可靠的信号分类结果,仍然 需要对聚类算法做更多的研究。 1 3 本文主要内容 在本论文中,作者的主要工作为构建一个半j 监督学习的方法来解决神经科 学中的锋电位信号分类难题,全文的内容组织如下: 第一章为绪论。简要介绍了神经科学与锋电位信号的研究概况,并说明锋 电位信号分类在神经科学研究中的重要意义。 第二章详细叙述了锋电位信号分类的处理流程及其工作难点所在。 第三章重点阐述了将在作者的半监督分类框架中使用的数据可视化、数据 聚类等机器学习方法,并给出作者使用这些技术所得到的一些实验结果。 第四章在前面章节的基础上,提出了一种半监督锋电位信号分类的框架,说 明其用于锋电位信号分类的优势,并结合实验结果给出详细的讨论。 第五章对分离出来的单细胞放电信号做了一些初步的研究,并指明在放电 信号分类后的一些工作展望。 4 第1 章绪论 技术,它的出现大大提高了分类的准确率 1 7 ,i9 1 。它的有效性在于它得到的特征 比单电极所得到的特征更多,更具有可区分性。因为对于单电极来说,不同细胞 距离电极可能是相近的,记录的信号相差无几,因而难以分类。而当采集的电极 为二电极或四电极时,没有两个细胞与到几个电极的距离是完全一致的,所以 上面所述的情况基本不可能出现。在实际中,不同细胞因与各电极的距离不同, 在电极记录的信号就发生了差异,这样更有利于信号分类。但这种技术的出现 只是解决了可区分性特征的获取问题,要得到更为可靠的信号分类结果,仍然 需要对聚类算法做更多的研究。 1 3 本文主要内容 在本论文中,作者的主要工作为构建一个半j 监督学习的方法来解决神经科 学中的锋电位信号分类难题,全文的内容组织如下: 第一章为绪论。简要介绍了神经科学与锋电位信号的研究概况,并说明锋 电位信号分类在神经科学研究中的重要意义。 第二章详细叙述了锋电位信号分类的处理流程及其工作难点所在。 第三章重点阐述了将在作者的半监督分类框架中使用的数据可视化、数据 聚类等机器学习方法,并给出作者使用这些技术所得到的一些实验结果。 第四章在前面章节的基础上,提出了一种半监督锋电位信号分类的框架,说 明其用于锋电位信号分类的优势,并结合实验结果给出详细的讨论。 第五章对分离出来的单细胞放电信号做了一些初步的研究,并指明在放电 信号分类后的一些工作展望。 4 第2 章 锋电位信号分类 第2 章锋电位信号分类 2 1基本概念 神经元有胞体和突触两部分,突触又分轴突和树突两种。每个神经元在大 部分的时间里保持不放电状态,当受到来自外部的输入信号越过某个临界阈值 时,就会发生放电,其放电呈现出一种脉冲峰的形状,故而名为锋电位( s p i k e ) 。 本文讨论的数据采集方式为胞外多电极记录技术,参见图示2 1 ,电极插入到神 经细胞的中间,当邻近的神经元发生放电时,细胞膜内外的电势差就会被电极 记录到,一个电极可同时记录到多个神经元的放电信号。由于发生了多个细胞 信号在电极上的混合,所以才有了锋电位信号分类的难题。锋电位信号分类通 常基于这么一个假设:不同神经元的放电形状被同一电极记录到会有一定的差 异,这种差异要么来自于细胞内部性质的不同,要么来自于细胞与电极间距离 或方向的不同。所以当从电极中分离得到不同形状的信号团簇,即认为每个团 簇代表了一个潜在的细胞的发电。锋电位信号分类的任务即是从时间序列信号 中分离得到不同形状的锋电位信号团簇,从而得到各个神经元的放电序列,作 为对单细胞放电模式、多细胞协同放电规律深入分析的基础。传统使用的单电 极记录技术,分类精确率低,分类可靠性差。近十年来发展起来的多电极技术已 经被证实可有效提高分类质量【3 ,4 1 9 1 。 2 2 处理流程 通常意义上的s p 妇s o n i n g 包括四个前后承接的步骤,即:滤波、锋电位信号 检测、特征提取、聚类,见图2 2 所示。针对不同的处理步骤,相应的有不同的应 用技术。 2 2 1滤波 电极采集的电信号包括各个来源、各个频段,如低频场电位、口波、p 波、锋 电位信号、背景噪声等。本文研究的锋电位信号主要集中在3 0 0 一3 0 0 0 h z ,所以 要把低频的场电位及高频的部分背景噪声去掉。这一要求通过硬件带通滤波器 即可实现,或者把原信号导入计算机中用软件滤波来实现。本步骤的输出为锋 5 第2 章锋电位信号分类 “”。“。“、4 4 。州”“。气 蔓:。- _ 釜0 _ ;。每- i 掣 i 也一 霉滞l 酶疆。:; 8 一,删如l “吃。墨, l 图2 1 :电极胞外数据采集的示意图 电位与背景噪声的混合信号。 2 2 2 锋电位信号检测 要把有用的锋电位从背景噪声中提取出来,需要进行信号检测。由于锋电 位信号的波形为一个脉冲,且幅值通常比噪声大,所以最简单的处理方法是在采 集过程巾设置一个幅度阈值,当信号点高于该阈值时即视为检测到锋电位,以 该点为基准前后移动一定距离的窗口范围中的波形被提取出来作为一个锋电位 信号。阈值的设定至关重要,如果设定过低,则会把噪声也作为信号检测出来, 给后面的处理带来麻烦;如果设定过高,则会遗漏部分有用的信号。对于这个值 的设置,最初是人为地根据经验给定一个值,这种统一的标准在处理不同波动 程度的序列时会出现问题。现在采取的多是自适应的阈值设定,比较常用的是 取时间序列的标准差作为阈值。文献( 2 0 】手旨出这种阂值设置方式在放电较多、幅 度较大的时问序列中会出现阈值设定过大的问题,并提出另一种设置方式,即: 丁m = 5 盯。 = 删咖( 摭) 其中z 为滤波后的时序信号,是对背景噪声离差的估计,阈值t b 取5 倍的盯。 这一步骤的输出为锋电位信号的集合,集合中每一个元素为表征一个锋电 位的波形,波形的点数为仃,n 的大小取决于信号的采样频率及人为设定的一个 波形延伸范围,通常取值在3 2 到1 0 0 之间。 6 第2 章锋电位信号分类 2 2 3特征提取 _ 、舟h f h 缸r ;:“- 一j “v 。 口:j :;:j ;。i j i :i :o 娜d m c 卜。弗i “ ,、,n - 一, ”哆譬“。 “5 )篓觏j :。 l, 。c b m 椭i | i v ) 。:豢黪 一;0 慧:1 1 _ , 篝凌然鬻 謦鼍彰i ! 赣 图2 2 :锋电位信号分类的操作流程图 特征提取是从几个数据点组成的波形信号中计算对不同类别具有区分性的 特征,这可视作一个特征降维同时去噪的过程。如原有礼个维度表征一个信号, 提取特征后可能用一两个特征来表征信号,同时去除了对分类没有贡献反而是 造成反面影响的数据维度。特征的提取与选择对于后续的聚类分析至关重要,好 的特征能有效地区分不向类别,使聚类分析很容易地进行,反之,对类别没有区 分作用的特征则使得聚类的结果难如人意。 最简单也是最初采用的特征是锋信号的幅值特征,因为这种特征计算简单 快速,可以在线地通过硬件实现。但它表征的特点过于单一,仅仅采用了部分的 信号强度信息,放弃了信号形状上的不同,所以效果难尽人意。现在采用的特征 丰富多样,包括:峰一谷距离、信号能量、主成分分析( p c a ) 【2 1 】系数、小波系 数【1 0 】等等。其中p c a 应用得比较广泛,对于信嗓比高的信号,往往头两三个主分 量就已经包含了原信号的8 0 以上的方差,对于信噪比低的信号,为保留更多 原信号的信息,选择的主分量数目要更多一些。 2 2 4 聚类 锋电位信号分类最后的一步是对所选择的特征进行聚类,这里隐含着这么 一个假设,即不同神经元放电波形的不同可以通过对类别的分割而识别出来。 在上述提及的信息特征中,幅值特征之所以被最初选为锋信号分类的特征,在 7 第2 章 锋电位信号分类 于它的在线分类性能非常好,可以直接用硬件实现在线聚类。这里也包含了这 么一个基本假设:不同神经元因其距离电极的距离不同,放电信号被电极所记 录的幅值也会有差异,因而可以通过不同的幅值来区分不同的神经元。这种方 法的优势在于可进行在线处理,而且因为是通过硬件实现的,分类速度也很快。 不足之处在于实际情况往往比假设的要复杂,而不考虑信号的波形特征,单靠 幅值特征很难得到满意的结果。 在离线处理的情况下,很多的特征与聚类方法都可以应用其中。比较直观 的方法是手工分类,即选择两个特征组成二维平面,然后凭人眼作出判断,画出 各类别的边界。然而这种工作方式受限于人眼的可视能力,只能应用于二维的 特征空间中,即便三维空间已经很难操作,因而大量的特征都无法使用,只能有 选择性地挑选特征的两两组合进行处理。同时,处理过程中存在的时间过长、主 观性强的缺点也是无法克服的。 相对于人工处理而言,机器聚类能处理高维空间的数据,因而能使用更多 的特征来进行计算。基于机器的处理方法有很多,如模板匹配、k - m e a l l s 、层次聚 类、贝叶斯聚类等等。模板匹配即人为地选择一些类别模板点,它们可能是某些 典型的信号,也可能是某些信号集的均值,然后把其它的信号根据最近邻或忌最 近邻的关系划分到各个模板的类别。k m e a n s 是一种应用非常广泛的分割式聚类 方法,在给定初始的类别数七后,算法迭代运行,直至达到一个使类内矢量量化 方差最小的平稳状态,算法返回尼个类别的组成。层次聚类则是通过不断聚合相 似的聚簇,直到所有的聚簇归为一类,再由人来判断从哪个聚合处进行分割以 得至0 各个分割类别,这种方法时间复杂度比较高,不适合于大数据量的处理。在 锋电位信号处理中应用得最为广泛的是基于贝叶斯理论的聚类【9 1 。该算法通过 计算期望最大化( e m ) 的一个迭代过程来寻求从贝叶斯角度而言最大可能的类 别数目与类别的分割方式。由于在数学上有着很严密的理论基础,而且有一个 很优秀的开源包a u t o c l a s s 的支持 2 2 1 ,该方法在各领域的应用都非常广泛,也被引 入到锋电位信号分类中广为使用。 2 3技术难点 虽然锋电位信号分类对于后续的时序分析具有举足轻重的作用,但由于采 集技术的限制及数据本身存在各种各样难以预料的情况,致使分类的质量一直 难以提高。一般来说,妨碍分类效果的各种因素中主要包括下面几种。 8 第2 章锋电位信号分类 2 3 1背景噪声 信号采集过程就难免会受到噪声的污染。噪声带来的危害首先体现在信号 检测阶段,无论是基于阂值或是基于能量的s p i k e 检测,都是假定信号的强度要 大于噪声,如果噪声太大,信噪比太低,以致于有用的信息被掩盖,就有可能会 检测出大量的无用噪声或是遗漏了很多的有用信号。所以在信噪比太低的情况 下,所采集的信号只能放弃。现在随着采集设备的不断发展,人们已经可以得到 大量信噪比可以用于后续处理的信号序列。 尽管已经有很多信号质量不错的时间序列可用于进一步的处理,但背景噪 声带来的危害还在于它的不可预测性,主要体现在它常常不能用高斯分布模型 来描述,而很多的基于模型的分类方法正是基于这样的噪声模型假设,实际与 模型的不符合也是这些基于模型的方法出现偏差的主要原因。 2 3 2 高维度数据 从处理流程的第3 步特征提取可以看到,对于同一个s p i k e 波形信号,为得到 较好的分类效果,我们可以提取多个特征尝试对它进行描述。在多电极记录技 术中,多个电极同时记录到同一个信号,每个电极提取同样的特征集合时,一个 信号就被映射到高维度的空间中。相对于二到三维的特征空间描述,高维空间 在去除大部分原有噪声影响的前提下,保存了原信号的更多特征,更加有利于 不同类别的分割。缺点在于其聚类结构的不可视性,人眼无法直接进行聚类操 作及对结果的评估。近年来,得益于信息技术的发展,我们已经拥有很多的工具 来处理这类高维度大样本的复杂性数据。然而在引入这些技术到神经科学领域 以迎接这些全新的挑战时,还有不少的问题有待解决。 2 3 3 信号混叠 在一个电极同时记录多个细胞放电的前提下,信号的混叠会不可避免地发 生,特别是当两个或多个细胞放电模式比较相似、放电时间间隔很接近的情况 下。信号混叠的多少取决于细胞放电频率的高低,文献【9 】给出了一个大致的预测 公式。毫无疑问,混叠的信号会影响分类的判断,因为很多混叠信号即便是人眼 也很难分辨出来到底是哪几类波形的混合,而机器算法则常常会把它们当作噪 声信号来处理,或者错误地把它们划分为某一类。尽管已经有不少的解混叠算 法被提出来,但这个问题一直难以被解决。 9 第3 章 数据可视化与聚类 第3 章数据可视化与聚类 由上节的叙述可知,为发展一种比传统更为有效的聚类算法,结合人类先 验知识与机器算法的处理是一条可行的路径。为使人的干预更为可靠,通常需 要给操作人员提供一些关于数据的感性认识,这一要求,就依赖于数据可视化 技术的实现。作者工作中所涉及的自组织特征映射网络技术,不单可实现数据 可视化,还是一种天然的数据降约和数据聚类的工具。 3 1技术概要 在数据的预处理阶段,数据可视化与数据降约常常是需要的。数据降约有 助于减少后续处理的数据规模,使后续分析算法在时间与空间上更有效率。数 据可视化常常被应用于提供感性认识为进一步分析处理服务,以及展现分析结 束后的结果。 数据降约通常上可通过矢量量化及降维来实现,同时降维技术也可用于数 据可视化。所谓矢量量化也即将表示在矢量空间内的原数据进行压缩,以达到 减少数据规模的目的。常用的矢量量化技术如k m e a n s 【2 3 】( 它通常是一种聚类算 法,但可达到矢量量化的目的) ,m a x i m u me n 舡d p y 【2 4 1 ,n e u r a lg a s 【2 5 】等,通过把相 似的样本数据聚类,用少量的模板点来表示原来的全体数据,以达到数据降约 的目的。 另一方面,降维技术可同时满足数据降约与可视化的要求。相应的数据降 维技术也有很多,如最为经典的主成分分析( p c a ) ,因其数学原理与计算上的 简单可行而被广泛应用于各个领域。p c a 是一种线性降维技术,通过对原数据 各维度的线性组合产生一组主分量,并选取特征值较大的几个主分量,即可获 得保存了原数据大部分信息,维度又大大减少的数据集。此外还有非线性降维 技术,比较有代表性是多维尺度分析 2 6 1 ( m d s ) 。该技术把高维空间的数据映射 到低维空间,并力图保持数据“点对”距离矩阵的信息不变,也就是使得降维后 的成对距离矩阵与降维前的成对距离矩阵尽可能地保持不变。尽管这样的目标 通常是难以达到的,但通过优化技术,可以在一定程度上达到要求,使差异尽可 能小。该方法的优势在于只需把成对距离矩阵作为输入,即便数据点并没有被 1 3 第3 章数据可视化与聚类 1 0 ( a ) 六边形删格 i 、 ,。1 0 , 、 j 一7 , , ( b ) 矩形网格 图3 1 :网格形式与神经元邻接关系。( a ) 六边形网格,连接数最多的神经元有六 个邻居。( b ) 矩形网格,连接数最多的神经元有四个邻居。 初始化神经元权值向量的值; 2 从输入数据中随机挑选一个作为输入; 3 计算每一个神经元到输入样本的距离( 权值向量与输入向量的距离) ,最近 的一个称为获胜神经元,或b m u ( b e s tm a t c hu n i t ) ; 4 修改b m u 及其邻近神经元( 在连接距离上的接近) 的权值,使其更为接近 输入点,权值修改的规则如方程3 1 ; 5 回到2 ,直到神经元的移动趋于稳定。 m t ( t + 1 ) = m t ( t ) + a ( ) 危。( 茹) ,i ( t ) j i z ( t ) 一m i ( t ) i | ( 3 1 ) 式3 1 中t 表示学习的步数,q ( ) 为自适应学习因子,随珀勺增加而逐渐减小,表 示学习渐趋稳定。 。( z ) ,t ( t ) 为近邻核函数,通常被选为以获胜神经元( 此处假定 为c 0 ) ,则c ( 。) = a r g m i n j 圳z 一盼) 为中心向四周递减的函数,如高斯函数。 自组织学习是一个目标优化过程,优化的目标为使得数据点到神经元的矢量方 差最小,见方程3 2 e = 吲k 一删2 , ( 3 2 ) j 3 2 2 基于s o m 的数据可视化 如上文所述,通过s o m 的自组织学习,高维空间数据的分布与拓扑信息被 保存在s o m 网格中,此时蕴含于网格内的信息还不能被人眼直接观察到,必须 1 s 第3 章数据可视化与聚类 要通过一定的技术把其中的信息提取出来并加以展示。对此,有相应的一些基 于s o m 的数据可视化技术,比较有代表性的有如下几种: 3 2 2 1h j l m a l r i x 文献【3 0 】提出的h i c - m a t r i x 用一个矩阵存储从s o m 网格中提取得到的信息,矩 阵的每一个单元代表相应位置的一个神经元,所以矩阵的行列数与s o m 网格的 行列数一致。h i t m a t r i x 提取的是神经元捕获的数据点数目,即根据距离的远近 关系,有多少个数据点离某一个神经元最近。矩阵元素的数学定义为: 日( 仃) = 1 z i c ( z ) = n ) l 死代表神经元号,c ( z ) 同上文定义为数据点z 的b m u ,绝对值号为取集合的长度。 注意这里的h i t m a t r i x 并没有定义为矩阵的形式,而是向量形式,但只要按照神 经元号在网格中的位置作相应编排即可得到其矩阵形式,然后用黑白色对不同 的值着以不同的灰度值即可得到可视化的效果。这种方法利用的是s o m 神经元 的分布趋向特点,即学习过程中神经元趋向于在密度大的区域分布较多的神经 元,每个神经元都能捕获部分数据点,反之在密度小或聚簇中间的区域分布较 少的神经元,每个神经元捕获到的数据点较少。h i t m a t r i x 提取了这种信息,利 用这种差异而实现数据可视化。当数据聚簇比较容易区分时,这种方法能得到 较好的效果。 3 2 2 2u m a l r i x u m a t r i x 是得到广泛使用的基于s o m 的可视化技术。它同样以矩阵的形式 来存储从s o m 网格得到的信息,与h i t m a t r i x 不同,它利用的是神经元权值向 量的距离信息,并且由于既表示了节点自身又表示了节点之间的信息,它的 行列比网格的行列要多。u m a t r i x 的单元元素v ( t ,歹) 包含两种类型,当t 与j 都 是偶数,u ( t ,歹) 记录的是神经元与它直接邻居的距离的均值( 或中值) ,其它 的情况u ( t 歹) 记录的是两个连接的神经元的距离。如果网格是m 行n 列,则u m a t 出是2 m 一1 行2 n 一1 列。同样给不同的值用不同的灰度值或颜色表示即可 直观地观察到原数据的聚簇结构。关于u m a t r i x 更详细的定义与信息可参考文 献【3 1 3 2 1 。u m a t r i x 虽然有比较好的可视化效果,但由于其单元与s o m 网格的节 点没有一一对应的关系,在后续聚类处理会产生一定麻烦。对此,一种折衷的较 好的方法是u d m a t r i x 【3 1 3 2 1 ,它的元素是u m a t r i x 元素的子集,它的矩阵中只保 1 6 笫3 章 数据可视化与聚类 其中d 为全部文档的数目,d 毗为出现关键字i 的文档数目( 即以0 的文档数 目) 。 气溶胶颗粒数据与文档的向量表示形式在结构上具有相似性。首先,它们 都是以特征集当中每一特征出现的次数来刻画样本,其值为非负整数:其次,样 本矩阵是稀疏的,每一样本中都存在大量的分量取值为0 ,正因为这样,计算各 分量的统计量如均值、方差等是没有太大意义的,用通常的规格化方法( 如零均 值规格化) 进行变换会得到一些意想不到的结果:而且,在这两个问题中,不同 特征在确定样本间相似度时的贡献是不同的,在全部样本中出现得越少的特征 应当具有更大的贡献率。基于这种相似性,我们引入t f ,d f 方法来确定气溶 胶颗粒数据分量的权重,这是进行数据聚类前十分重要的一步。 引入丁可,d f 变换后,气溶胶数据每个样本x ( z l ,z 2 ,) 可通过下式进 行变换: 兢= t r ,d r 0si 礼 即每一分量在该样本出现的频率乘以该分量的重要程度,t f 变换削弱了向量幅 值( m a g n i t i l d e ) 在计算距离时的影响,d f 加权则赋予不同的分量以不同的权 重。 3 。3 3 数据聚类 由于在对气溶胶数据处理中c i t y b l o c k 距离度量表现出比欧氏距离更好的效 果,故而此处c i t y b l o c k 距离被用于度量气溶胶数据间的差异,因此此处s o m 的 训练与可视化与经典的算法有一些差异。主要在选择样本的b m u 时,不再是 与样本的欧氏距离最小的那个神经元,而是c i t y b l o c k 距离最小的那个。在基于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 节后营销方案
- 成立国有咨询公司方案
- 多功能建筑施工方案范本
- 完善土地管理体系研究-洞察及研究
- 疫情下的生活活动策划方案
- 垃圾分类日活动的策划方案
- 公共关系危机应对案例-洞察及研究
- 姚基金从业考试及答案解析
- 感知记忆与大脑结构的关系研究-洞察及研究
- 新职工安全培训试题及答案解析
- 贵州省遵义市多校2024-2025学年九年级上学期第一次月考数学试题(无答案)
- 人教版六年级上册道德与法治教案(5篇)
- 生涯拍卖会课件高一上学期主题班会
- 中医形神兼养
- GB/T 44241-2024虚拟电厂管理规范
- SYT 6680-2021 石油天然气钻采设备 钻机和修井机出厂验收规范-PDF解密
- 实用美术基础中职全套教学课件
- 子宫内膜癌的预防和早期发现
- 债权债务法律知识讲座
- 个人停车位租赁合同模板
- 食品保质期检测记录表
评论
0/150
提交评论