语音信号的盲分离要点.doc_第1页
语音信号的盲分离要点.doc_第2页
语音信号的盲分离要点.doc_第3页
语音信号的盲分离要点.doc_第4页
语音信号的盲分离要点.doc_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

可编辑修改 目录 摘要摘要 I I ABSTRACTABSTRACT IIII 第一章第一章 前言前言 2 2 1 1 语音特性分析 2 1 2 语音信号的基本特征 2 1 3 语音信号处理的理论基础 2 第二章第二章 盲分离的基本概念盲分离的基本概念 2 2 2 1 盲分离的数学模型 2 2 2 盲源分离的基本方法 2 2 3 盲分离的目标准则 2 2 4 盲分离的研究领域 2 2 5 盲分离的研究内容 2 第三章第三章 独立分量分析的基本算法独立分量分析的基本算法 2 2 3 1 ICA 的线性模型 2 3 2 ICA 研究中的主要问题及限制条件 2 3 3 ICA 的基本算法 2 3 4 FASTICA 算法原理 2 第四章第四章 语音信号盲分离仿真及分析语音信号盲分离仿真及分析 2 2 4 1 ICA 算法实现 2 4 2 频谱分析 2 第五章第五章 总结总结 2 2 参考文献参考文献 2 2 可编辑修改 摘要 盲源分离 BSS 是一种多维信号处理方法 它指在未知源信号以及混合模型也未 知的情况下 仅从观测信号中恢复出源信号各个独立分量的过程 盲源分离已近成为 现代信号处理领域研究的热点问题 在通信 语音处理 图像处理等领域具有非常重 要的理论意义和广泛的应用价值 本文主要内容如下 首先 介绍了语音信号的产生机理 特性 基本特征及语音信号处理的理论基础 为后文语音信号盲分离奠定了基础 其次 从盲源分离的理论出发 研究了盲分离的数学模型以及基本方法 并对盲 分离的目标准则 研究领域以及研究内容进行了探讨 然后 引出了独立分量分析 ICA 并对其的概念以及相关的知识进行了研究 探讨了 ICA 研究中的主要问题 列出了 ICA 的 3 种基本算法 信息极大化 负熵最大 化和最大似然估计法 最后 用 FastICA 对三路语音信号进行了盲分离的仿真并求出了混合矩阵和分解 矩阵 再接着进行了频谱 幅度 相位的分析 找出了 FastICA 的特点 关键词 盲源分离 独立分量分析 频谱分析 可编辑修改 Abstract Blind source separation BSS is a multidimensional signal processing method it refers to the unknown source signal and mixed model also unknown cases only from observation signal in recovering the source signal each independent component of the process Blind source separation has nearly become modern signal processing to the research of problems in communication speech processing image processing area is very important theoretical significance and broad application value This paper mainly content as follows First of all introduced the speech signal generation mechanism characteristics basic characteristics and the speech signal processing theory foundation for the blind source separation after the speech signal to lay the foundation Second the blind source separation from the theory the mathematical model of the blind source separation and basic methods and separation goal standards research field and the research content are discussed Then leads to a independent component analysis ICA and the concept and the related knowledge this paper analyses the main problems in the study of ICA lists the three basic ICA algorithm information maximization negative entropy maximization and maximum likelihood estimate Finally by the use of FastICA three road voice signal the separation of the simulation and get the mixing matrix and decomposing matrix and then the spectrum amplitude phase analysis find out the FastICA characteristic Key words the blind source separation Independent component analysis Spectrum analysis 可编辑修改 可编辑修改 第一章 语音信号概述 1 1 忙语音信号分离技术的背景及意义 近些年来 混合语音信号分离成为信号处理领域的一个研究热点 在信号处理中我们经 常遇到这样的问题 如何从一组未知的随机信号经过一组混合系统得到的观测信号中恢复出这些 原始信号 如果重构过程中没有混合系统和原始信号的先验知识 我们就城该过程为盲分离 其 理论也不断运用到图像 通讯 医学等领域 1 1 1 语音产生机理 发声器官分为三部分 肺 喉 声门 和声道 肺的作用相当于一个动力源 将气 流输送到喉部 喉将来自肺部的气流调制为周期脉冲或类似随机噪声的激励声源 并 送入声道 喉在发声中的作用是控制声带的开启和闭合 使得气流形成一系列脉冲 声带振动的频率决定了声音频率的高低 由声带振动产生的音统称为浊音 而不由声 带振动产生的音统称为清音 声道包括口腔 鼻腔和咽腔 它们对声源的频谱进行整形而产生不同音色的声音 声道的谐振频率称为共振峰频率 它与声道的形状和大小有关 每种形状都有一套共 振峰频率作为其特征 改变声道的形状就产生不同的语音 因而 当声道形状改变时 语音信号的频谱特性就随之改变 声源经过声道润色频谱后 最后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来 形 成可传播的声波 被人感知为语音 综上所述 语音由空气流经过声门激励 经由声道调制 经过嘴辐射出去 完整 的语音信号产生的数学模型可以用三个子模型 激励模型 声道模型和辐射模型的串 连来表示 可编辑修改 图 1 1 语音信号产生模型 1 1 2 语音的特性 1 短时平稳性 根据对语音信号的研究 语音是一种时变的 非平稳的随机过程 但另一方面 由于人类发声系统的生理结构的变化速度是有一定限度的 在一段短时间内 10 30ms 人 的声带和声道形状基本稳定 并且大部分情况下 激励源参数也是如此 因此可认为 短时间内语音特征是不变的 语音的短时性特点是对语音信号进行分析和处理的基础 2 浊音和清音 语音分为浊音和清音两大类 二者从语音产生的机理上有明显的差异 前者由周 期性脉冲产生 后者由随机噪声产生 因而在特征上也有明显的区别 浊音在时域上 呈现出明显的周期性 在频域上具有共振峰结构而且能量大部分集中在较低频段内 清音则完全不同 它没有明显的时域和频域特征 类似于白噪声 浊音在频谱上有共振峰结构 能量重要集中在低频区 1000Hz 1 2 语音信号的基本特征 1 语音信号的时域特征 由于说话人在不同时刻的说话内容千变万化 而且没有确定的规律性 因此语音 信号是时变的 但由于人类的发声器官的变化速率有限 声道在短时间内 5 500ms 可编辑修改 处于平稳状态 因此语音信号具有短时平稳性 而这种短时平稳性 也是语音处理中 许多理论和算法的必要前提 由于人们在说话时 各个音节或单词之间总会存在着时 间上的间隔 因此语音信号在时域上存在着有音段和无音段 通过有音段和无音段的检测 可 用去除带噪语音中平稳的噪声 此外 无音段所占比例越大 语音的稀疏性越好 利 用这一特点 产生了许多基于语音稀疏性的增强算法 2 语音信号的频域特征 语音信号的频谱能量主要集中在 300 3400Hz 范围内 语音本身由浊音和清音组成 浊音含有语音信号的大部分能量 其频谱分布主要集中在低频段中的基 音频率及其各次谐波上 呈现出明显的周期性 清音则表现出随机性 在频谱上类似 于白噪声 3 语音信号的统计特征 语音信号可以看作是一个遍历性随机过程的样本函数 其统计特性可用其幅度的 概率密度函数来描述 对语音信号的统计特性的研究表明 其幅度分布的概率密度函数可以用两种近似 的表达式来较好地描述 其中一种是伽马 Gamma 分布 1 1 2 k x ke p x xx 式中 k 是一个常数 与标准差仃 有下列关系 3 2 x k 1 2 另一种是拉普拉斯分布 Laplacian 分布 0 5 x p xe 1 3 式中 口是一个由标准差仃 决定的常数 即 可编辑修改 2 x 1 4 相对说来 伽马分布对语音信号的幅度分布描述更为精确一点 而拉普拉斯分布 的函数形式则更加简洁 1 3 语音信号处理的理论基础 进行频谱分析时 在时域数据进行短时 FFT 处理之前都要进行加窗处理 在 FFT 处理之后 普通频谱分析可以进行频域上的滤波处理 从而使频谱更加平滑 为了得 到各种音频信号的特技效果 也需要对各种变声算法进行研究 1 窗的选择 一般来讲 一个好的窗函数的标准是 在时域因为是语音波形乘以窗函数 所以 要减小时间窗两端的坡度 使窗口边缘两端不引起急剧变化而平滑过渡到零 这样可 以使截出的语音波形缓慢降为零 减小语音帧的阶段效应 在频域要有较宽的 3dB 带 宽以及较小的边带最大值 另外一方面 不同人的基音周期变化很大 主要集中在 70Hz 1000Hz 所以窗一般选择在 10ms 20ms 之间 此外 为了避免在加窗时加入多 余的高频信号 应该使用平滑窗 例如汉明窗 2 变声算法的讨论 语声可以分为声带振动的浊音部分 声带不振动的清音部分以及静音部分 在这 里 我们主要是改变原始话音的基音频率 以达到变声的目的 第一种方法是不修改采样数据 仅改变 Fs 这种方法操作非常简便 第二种方法是直接乘以一个余弦函数 把语音信号频段搬移到较高频段 以达到 变声的目的 第三种方法是插值以后重新抽样 基本过程是这样的 已知当前帧帧长 FL 采样 可编辑修改 点 采样频率 Fs 目标变换帧频率 Fs 则目标变换帧帧长 FL FL Fs Fs 记 Rate Fs Fs 那么 FL FL Rate 其中 Rate 为基频变化率 变换开始时 先 求得 FL 和 FL 的最小公倍数 AL 再将原音频帧插值为 AL 点 最后将插值后的语音 段重新抽样 得到长 FL 点的变声后的数据 三种方法操作起来都还比较简单 但为了便于分析时域 频域特效 本设计选择 了通信中常用的调制方法 即方案二 3 Matlab 基础 MATLAB 是 Matrix Laboratory 的缩写 由 MathWorks 公司于 1984 年正式推出 内核采用 C 语言编写 MATLAB 是一个包括数值计算 高级图形和可视化的集成科技计 算环境 也是一种高级程序设计语言 灵活的 MATLAB 语言可使工程师和科学家简练地 表达他们的思想 其强有力的数值计算方法和图形便于测试和探索新的思想 而集成 的计算环境便于产生快速的实时结果 MATLAB 得到了各个领域专家学者的广泛关注 其强大的扩展功能为用户提供了强有力的支持 它集数学计算 图形计算 语言设计 和神经网络等 30 多个工具箱于一体 具有极高的编程效率 极大地方便了科学研究和 工程应用 语音处理中往往把数字化的语音信号表示为一维或二维 对应于双声道立体声数 据 矩阵 因此基于矩阵运算的 MATLAB 就很自然地应用到语音处理领域 MATLAB 提 供了语音文件的读写函数以及录音和放音功能 如表 1 所示 使用时只需按照函数的 语法规则正确输入参数即可 通过这些函数可以得到语音的采样频率 量化精度和通 道数等参数 同时 MATLAB 提供了语音的和 差等线性运算 以及卷积 相关等非 线性运算 对于语音处理中常用到的各种窗函数 MATLAB 也都提供了相应的函数 比如 hamming n 即长度为 n 点的汉明窗 MATLAB 一个重要的特点是易扩展性 近几年 来 有许多科学家 数学家 工程师等开发了一些新的 有价值的应用程序 这 些应用程序都可以被纳入 MATLAB 工具箱 比如 voicebox 工具箱 其中包含了很多与 语音信号处理相关的函数 可以在有关网站上下载 将其加入到 MATLAB 的搜索路径 就可以作为 MATLAB 的库函数来方便地调用了 表 1 与语音输入输出相关的函数 可编辑修改 函数名 功能描述 wavread auread 读语音文件 wavwrite auwrite 写语音文件 sound wavplay 放音 soundsc 归一化放音 soundview 可视化语音输出 wavrecord 录音 第二章 盲分离的基本概念 2 1 盲分离的数学模型 盲源分离原理可用如下图所示的数学模型来描述 图 2 1 盲源分离原理图 BBS 的数学模型如图 2 1 所示 其中是 n 维未知源信号向量 T n tststs 1 A 为未知混合系统 是 m 维的观测信号矢量 它们均是源信号矢 T m txtxtx 1 量的组合 并受到噪声矢量的干扰 T m tntntn 1 盲源分离的目的就是在源信号 s 和混合系统 A 均未知的情况下 仅由观测数据向 量 x 通过调整分离系统 W 使得输出 y 是源信号 s 的估计 即 2 1 sxWy x t n t 混合系统 A y t s t 分离系统 w 可编辑修改 2 2 盲源分离的基本方法 盲源分离包含了线性瞬时混合和卷积混合两种盲源分离问题 解决盲源分离问题 的重要方法一独立分量分析 Independent ComponentAnalysis ICA 通常以线性瞬时 混合为模型 而盲解卷积则是一种更为实际的盲源分离问题 其混合模型是一种卷积 混合 线性卷积混合模型比较接近实际 这是因为 1 实际中每一个源信号不会同时 到达所有的传感器 每一个传感器对不同的源延时不同 延时值的大小取决于传感器 与源信号间的相对位置以及信号的传播速度 2 源信号到达传感器是经过多途传播的 即多径效应 假设信号是线性组合的 则从传感器观测到的信号是源信号各种延时值 的线性组合 解决此类问题的盲信号处理方法就是盲解卷积 特别地 ICA 方法也可 被用于盲解卷积或盲均衡 此外 盲信号处理还包括许多重要内容 例如非线性 BSS 或非线性 ICA 问题 盲多用户检测以及盲波束形成等等 尽管有许多不同的盲源分离算法可用 但它们的原理却都可以归纳为以下四个方 法如图 2 2 1 最普遍的方法就是使用代价函数来衡量信号独立性和非高斯性或者稀疏性 当 假信号具有统计独立性 且没有时间结构时 高阶统计量方法是求解盲源分离问题的 基段 间接或直接的 这种方法对多于一个高斯分布的源信号不适用 相互独立 非 高斯 ICA 时序结构 线 性可预测 时频 谱和空 间多样性 非稳态 时变 方差 图 2 2 盲源分离算法种类 可编辑修改 2 如果源信号具有时序结构 则其有非零的时序相关数 从而可以降低对统计独 立性的限制条件 用二阶统计量方法 SOS 就足以估计混合矩阵和源信号 这种 SOS 方法不允许分离功率谱形状相同或 i id 独立同分布 的源信号 3 第三种方法即采用非平稳性 Ns 和二阶统计量 SOS 由于源信号主要随时间 有不同的变化 就可以考虑利用二阶非平稳性 Matsuoka 等人首先考虑了非平稳性 并证 明在盲源分离中可以应用简单的解相关技术 与其他方法相比 基于非平稳性 信息的方法能够分离具有相同功率谱形状的有色高斯源 然而 却不能够分离具有相 同非平稳特性的源信号 4 第四种方法运用了信号的不同多样性 典型的是时域多样性 频域多样性 谱 或时间相干性 或者时频域多样性 更一般的 即联合空间一时间一频率 STF 多样 性 自从 BSS 和 ICA 的概念产生以来 人们几乎是不加区分地使用这两个概念 但是 如果深入研究 BSS 和 ICA 的基本原理和作用对象 两者之间的区别和联系是显而易见 的 Comon 对 ICA 给出了较严格的定义 对于观测信号矢量 存在一个线性变换 使 得观测信号在线性变换下各分量的统计独立性最大化 这一过程称之为 ICA 过程 与此对应 可以给出 BSS 的如下定义 对于观测信号矢量 存在线性变换 w 使 得全局矩阵 G 的各行及各列中只有一个非零元素 不妨称之为广义对角矩阵 即 G PD 其中 P 为置换阵 D 为对角阵 从而实现信号分离 ICA 的目的是通过线性变换使得观测信号的各个分量的统计独立性最大化 通常 用输出信号的互信息 熵等作为统计独立性的量度 如基于信息论的 Informax 算法 Amari 的自然梯度算法等 如果源信号之间具有统计独立性 那么可以通过 ICA 实现 信号的分离 BSS 考察的是在什么条件下可以使全局矩阵实现广义对角化 而不去衡量输出信 号的统计独立性是否达到最大化 因此 BSS 并不一定要求源信号是统计独立的 例如 AMUSE GED 算法只要求源信号具有统计不相关性 如果源信号是统计独立的 那么 BSS 的输出信号也一定是统计独立的 这时 BSS 和 ICA 等价 从作用对象看 ICA 除了可以用于多源信号的分离外 还可以用于其它多维数据 可编辑修改 的分析 例如图像的特征提取 经济数据分析等 而 BSS 不仅仅局限于瞬时混合信号 的分离 还包括实际应用中更重要的卷积混合信号的分离 可以说 ICA 是实现 BSS 的一种方法 而 BSS 是 ICA 的一个具体的应用 2 3 盲分离的目标准则 根据源信号不同的特征 盲源分离的实现方法有很多 但它们的原理可以归纳为 以下四种准则 1 独立分量分析 Independent Component Analysis ICA 当假设源信号各分量 间彼此统计独立 且没有时间结构时 在某一分离准则下通过对神经网络权值的反馈 调整 使得变换后信号的不同分量之间的相依性最小 也即输出达到尽可能的独立 这种方法对多于一个高斯分布的源信号不适用 因为高斯信号的线性叠加仍是高斯信号 这是近年来盲源分离的主要解决方法 2 主分量分析 Principal Component Analysis PCA 的方法 在尽可能保持原始 变量更多信息的前提下 导出一组零均值随机变量相对少的不相关线性组合 主分量 并由此恢复出对源信号的估计 3 二阶非平稳性 即采用非平稳性和二阶统计量 由于源信号随时间有不同的变 化 所以可以考虑利用二阶非平稳性 应用简单的解相关技术实现盲源分离 与其他 方法相比 它能够分离具有相同功率谱形状的有色高斯源 然而却不能分离具有相同 非平稳特性的源信号 4 运用信号的不同多样性 典型的是时域多样性 频域多样性或时频域多样性 更一般的 即联合空间 时间 频率多样性 如果源信号具有不同的时频域多样性 信 号的时频域特征不完全重叠 那么可以通过屏蔽时频域的单个源信号或干扰信号 并 从一个 或多个 传感器信号中提取源信号 然后再在时频域中合成 然而这些情况下 通常需要一些源信号的先验知识 所以这种分离只能是一种半盲分离 可编辑修改 2 4 盲分离的研究领域 在 BSS 问题的研究和发展过程中 基于其不同的应用环境 进行了不同角度的扩 展 形成了不同的研究领域 可以对 BSS 的研究领域做如下的分类 依据信号混合方式不同 盲信号的混合方式有瞬态线性混合 卷积混合 非线性 混合等方式 针对不同的混合方式需要采用不同的分离方法 在瞬态线性混合方式下 观测信号是原始信号在相同时刻的线性叠加 即不同信号到达各个传感器的时间差别 可以忽略不计 此时混合矩阵是实矩阵 盲分离过程等价于寻找混合矩阵的逆矩阵过 程 如果信道的传输延迟等对观测信号的影响较大 观测信号是原始信号在过去不同 时刻的线性叠加 则属于卷积混合方式 此时的传递通道矩阵可以用有限长冲激响应 滤波器模型来构造 盲解卷过程就需要利用相应的解卷滤波器实现 如果信号所处的 环境是动态变化的且具有非线性特征 则需要利用非线性特征函数实现盲分离 对信号的处理角度不同 BSS 可在时域 频域或时频域进行研究 时域盲分离比 较直观 但不能利用信号的频谱特征 在瞬态线性混合情况下应用较多 频域盲分离 可以将时域上的卷积运算转化为频域上的直接乘积形式 从而可以利用时域盲分离算 法解决盲解卷 盲均衡问题 但频域上的尺度与交互不确定性问题以及较大的计算量是 阻碍信号进行频域盲分离的主要障碍 利用信号的时频特性进行盲分离 可以充分利 用时域和频域分析的优点 其主要困难在于时频点的合理选择 信号本身的属性有平稳信号与非平稳信号之分 窄带信号与宽带信号的差别 平 稳信号的盲分离 常需要利用信号的高阶统计量信息 而对于非平稳信号 如语音信 号 则利用信号的二阶时间相关属性实现盲分离 宽带信号通常要先分解为多个窄带 信号 逐个进行盲分离 根据源信号数目与观测信号数目的关系 可分为适定盲分离 超定盲分离 欠定 盲分离 当前很多算法都是在适定条件下推导得到的 它是指源信号数目和观测信号 数目相等的情况 当观测信号数目大于源信号数目时 称为超定盲分离 超定盲分离 通常采用降低观测信号维数 进而进行适定条件下盲分离的方法 欠定盲分离 又称 超完备盲分离 是近年来的研究热点和重点 它是源信号数目大于观测信号数目的情 况 这相当于信源在经过混合信道后 发生了有损压缩 因此采用传统的 ICA 通过对 可编辑修改 混合系统求伪逆的过程已无法恢复出源信号 这些丢失的信息只能通过一些先验 假 设或限制条件 如 独立性 稀疏性等 进行弥补 根据对算法的性能要求 盲分离可以分为离线批处理和自适应在线处理等方式 离线批处理方式可以利用信号的各阶统计量信息 通过特征值分解等运算获得盲信号 的分离矩阵 其优点是可以充分利用观测信号的样本数据 能够获得较为精确的解 缺点是计算量大 分离时间长 且对信息的存储空间要求高 而自适应的在线处理方 式是基于单次观测样本进行盲分离系统的更新迭代 计算量低 适用于实时性要求较 高的场合 如在线故障诊断等 2 5 盲分离的研究内容 盲源分离的基本框架是根据某种优化准则 先选出合适的目标函数 然后通过某 种优化算法来搜索目标函数的极值点 其中优化准则保证了算法实现的可能性和实现 途径 具体的目标函数决定了算法的统计性能 优化算法则决定了算法的搜索性能 因此 BSS 的研究内容涉及优化准则及目标函数的确定 信源概率密度函数 Probability density function pdf 的估计 各种优化算法 算法的性能评价指标 等多个方面 1 优化准则 独立分量分析 ICA 是目前解决 BSS 问题的主要方法 而 ICA 的目的在于确定一非 线性变换使得输出各分量间尽可能的相互独立 因此一般采用输出各分量间的最大化 独立性作为算法的优化准则 信号分量间的独立性程度可以采用非高斯性 高阶统计 量 熵 互信息 概率密度函数 pdf 以及两种 pdf 距离的 Kullback Leibler 散度等 函数进行度量 2 信源概率密度函数的估计 目标函数最优解的迭代计算通常需要知道信源 s 的概率分布 这显然不切实际 所以需要对输出矢量的概率密度函数进行估计 常用的方法有采用级数展开的方法对 概率密度函数进行逼近 或通过估计概率模型中未知参数的方法估计概率密度函数 核函数法等方法 以及正在兴起的结合神经网络和机器学习理论的支持向量机 SVM 可编辑修改 回归估计方法等 本文正是在这个理论的基础上对原有算法提出了新的改进 并取得 而来良好的效果 3 优化算法及其性能分析 根据算法的迭代和搜索最优点的过程是基于单次观测样本还是全部样本 可以将 算法分为在线自适应算法和离线批处理算法 评价算法性能的指标一般有收敛速度 分离精度 局部 全局 稳定性 算法的复杂性以及适用范围等 常用的具体函数有系 统矩阵的串音误差 与对角阵的距离 范数误差等 可编辑修改 第三章 独立分量分析的基本算法 3 1 ICA 的线性模型 Y3 Y2 Y1 X3 X2 X1 Sn S2 S1 AW 图 3 1 ICA 的线性模型 如图 3 1 设 x1 x2 xn为 t 为 n 维随机观测混合信号 由 m 个未知源信 号 或称独立源 s1 s2 sm线性组合而成 忽略时间下标 t 并假设每个混合信 号 xi都是一个随机变量 而不是时间信号 每个观测值 xi t 为该随机变量的 一次抽样 不失一般性 设混合的随机变量和独立源都具有零均值 下面用矩 阵形式来定义 ICA 模型 令 X x1 x2 xn T为 n 维随机向量 S s1 s2 sm T 是 m 维未知源信号 则 ICA 的线性模型可表示为 i 1 2 m m i iis aASX 1 3 1 式中 si称为独立分量 A a1 a2 am 是一满秩的 n m 矩阵 称为混合矩 阵 ai是混合矩阵的基向量 由方程可知 各观测数据 xi是由独立源 si经过不 同的 aij线性加权得到的 独立源 si是隐含变量 不能被直接测量 混合矩阵 A 也是未知矩阵 唯一可利用的信息只剩观测的随机矢量 X 若没有任何限制条 件 要仅由 X 估计出 S 和 A 方程的解必为多解 而 ICA 正是在某些限制条件 下 根据 X 的统计特性 给出方程唯一解 实现独立分量的提取 如上所述 ICA 的一个重要基本假设就是对未知源信号独立性的要求 针对 ICA 具体模型 未知源信号间相互独立即要求 可编辑修改 3 i m i i spsp 1 2 在 ICA 模型中 除了要求源信号相互独立外 还必须满足非高斯分布的特 性 此外为简化模型 假设未知混合矩阵 A 是方阵 即 m n 那么 ICA 的目的 就是寻找一个变换矩阵 对 X 进行线性变换 得 n 维输出向量 3 3 WASWXY 当允许存在比例不定性和顺序不定性的前提下 Y 成为对独立分量 si的一 个估计 SY 以上 从盲源分离观点阐述了 ICA 的模型 下面给出从多维信号的线性描 述观点论述的 ICA 模型 设 X x1 x2 xn T为 n 维观测数据 ICA 的目的即寻找一个坐标系统 使得当 X 中各分量 x1 x2 xn在该坐标系下投影时 n 21 i 1 2 n 3 nni sssx 2211 4 投影系数 s1 s2 sn相互独立 若令 Y WX 在 ICA 实现算法中 系统目标是寻找一最优矩阵 W 使使出 yi相 互统计独立 即 Y 互信息为零 可以证明 此时为 ICA 线性 n W 21 1 描述模型中的坐标系统 3 2 ICA 研究中的主要问题及限制条件 1 对 ICA 问题的研究有许多方面 但归纳起来主要有以下九个方面 1 关于源信号不同 pdf 如高斯 次高斯 pdf 的特性描述 给出不同特性 可编辑修改 pdf 随机变量的特征参数 矩 moment 累积矩 cumulant 和峰起度 kurtosis 研究解的等价性 去除二阶相关及去除高阶相关等问题 2 ICA 的目标函数 3 ICA 的学习算法 与其他神经网络学习算法相同 学习可取批处理方式 针对平稳环境 或在线自适应方式 针对在线或平稳环境 为了求得使目标函 数达到极值的 W 所用的算法一般为迭代算法 应尽量简单 收敛快 4 ICA 算法的稳定性 稳定性是指 ICA 迭代计算中达到正确源信号分离的 解可能是一个平衡点而不是稳定点 5 ICA 算法实现的源信号分离精度 即相邻源信号的干扰问题 6 ICA 中源信号 pdf 的确定 如果关于源信号 pdf 的先验知识很少甚至完 全没有时 必须在学习过程中加以确定 否则将进行反复尝试 可能会浪费大 量时间而且使分离效果不佳 7 ICA 的各种模拟实验和具体应用研究 8 盲解卷 均衡和多道盲解卷 均衡问题 9 有噪声和 M N 的情况下 ICA 的问题求解 2 ICA 的任务是根据观测记录 X AS 在矩阵 A 未知且对 S 除独立性外无其 它先验知识的情况下 求解混合矩阵 W 使得变换结果 Y WX 中各分量尽可能相 互独立 且逼近 S 从数学角度说 该方程的解并不是唯一的 至少会存在以 下一些问题 1 分离结果的幅度存在不确定性 由于在 X AS 中 A 和 S 均未知 如果将 S 中任一分量 Si扩大 a 倍 只需将 A 中相应的混合系数乘以 1 a 上式仍成立 在观测信号幅度不变的前提下 源 信号的幅度存在不确定性 因此 在求解独立分量时 往往事先假设 S 具有单 位方差 且各分量均值为零 1 2 i sE 2 分离结果的排列存在不确定性 由于 A 和 S 的未知 公式中独立分量的顺序很容易调换 m i iis aASX 1 在 X AS 中插入一个置换矩阵 P 和它的逆矩阵 P 1 得到 X AP P 1S 将 AP 1看成 新的混合矩阵 则 PS 中的各分量便成为新的已调换顺序的独立源 si 这表明 可编辑修改 ICA 分离结果存在排序上的不确定性 但是幅度和排序的不确定性不会对 ICA 算法的分离过程产生影响 3 3 ICA 的基本算法 ICA 是在某一判据意义下进行的寻优算法 所以问题实际包含两个部分 首先是采用什么判据作为一组信号是否接近互相独立的准则 即目标函数 其 次是用怎样的算法来达到这个目标 即优化算法 ICA 算法 目标函数 优化算法 一般来说 不同的目标函数是由不同的估计准则得到得 然后通过恰当的 优化方法来实现独立分量分析 也就是求出混合矩阵 A 和独立分量 S 其中这 些优化方法大多是基于梯度的方法 为了更清楚的描述实现独立分量分析的方 法 假设由不同的估计准则得到的目标函数表示为 F W 且 W 的第 n 行表示为 wn 则这个优化问题就是 以极大化为例 极小化是与其等价的 3 5 Nnwts WF n W 1 1 max 实际独立分量分析的算法主要就是利用最优化的思想和技术 主要包括信 息极大化 非高斯性极大化 极大似然估计和互信息极小化等 3 3 1 信息极大化 Nadal 和 Parga 发现在低噪声的情况下 对神经网络的输入和输出信号之 间的互信息化暗含了输出分布是可因式化的 即 非线性神经网络中的最大化 信息变换可以将输出信号之间的互信息最小化 Roth Baram Bell 以及 Seinowski 分别独立的导出了这种最大化方法的随机梯度学习规则 并将该规 则分别运用到预测 时间序列分析和盲源分析中 Bell 和 Sqnowslki 提出了一 种简单的前馈神经网络算法 如下图所示 可编辑修改 能使用信息最大化法对相互独立的源信号 S 的线性混合信号 X 进行分离 他们指出将神经处理器输出信号的联合熵最大化可以将输出分量 yi g ui 之间 的互信息几乎降至最小 这里 g ui 是一个可逆的单调非线性函数 且 U WX 神经网络输出信号的联合熵是 3 NNN yyIyHyHyyyH 1121 6 这里 H y1 是输出信号的边缘熵 I y1 yN 是输出信号之间的互信息 将 H y1 yN 最大化等于将边缘熵的和 H y1 H yN 最大化并同时使 I y1 yN 降至最小 输出信号 Y 是振幅有界的随机变量 因此 当输出信号 yi服从均匀分布时 H y1 H yN 最大 当 I y1 yN 0 时 联合熵等于边缘 熵的和 即 3 7 NN yHyHyyyH 121 当有界随机变量的互信息等于 0 且他们的边缘分布为均匀分布 N yy 1 时 可取得最大值 这时具有源信号分布的累计密度函数 N yyH 1 i ug i s 形式 Bell 和 Sejnowski 选择了一个非线性函数作为固定逻辑函数 等于假定 所有的源信号都服从超高斯分布 通过调整权矩阵 W 使联合熵最大化 使联合 熵取得最大值的权矩阵 W 就是我们所要求得的 上式两端对 W 求导得 3 8 1 H y D pyp y WW A 其中 是多元均匀分布与其估计值之间的 KL 散度 1 D pyp yA yp1 yp 可编辑修改 当变换函数和权矩阵 W 取得最优值时 联合熵取得最大值 且 i ug yH 如果是从到的可逆映射 则因为 KL 散度在可 0 1 yIypyp i ug i u i y 逆变换的情况下是不变的 所以 KL 散度等于源信号估计分布 1 D pyp yA 与源信号分布之间的 KL 散度 即 Up Sp 3 9 1 D pyp yA D p Sp UA 如果输出信号之间的互信息 则在非线性变换之前的互信 0 1 N yyI 息 因为非线性变换不产生任何相关性 与有如下关系 0 1 N uuI i y i u 3 i i i i u ug up yp 10 如果服从均匀分布 则有 i y 3 i i i u ug up 11 这表示是一个独立的随机变量 它的分布近似于一个非线性函数的导数 i u Bell 和 Sejnowski 用信息最大化法分离了几个音乐信号和语音信号的混合 信号 不过如果源信号的概率密度函数与非线性函数的斜率不相等 联合熵取 得最大值时 互信息 在这样的情况下 信息最大化法不能将 0 1 N yyI 互信息最小化 不过这样的情况只有在非线性函数与真实源信号的累计密度函 数很不相同时才会发生 非线性函数是将互信息最小化的关键 与之间有如下关系 i ug Xp Yp 3 XJ Xp Yp det 可编辑修改 12 则 XpEXJEXpEYHlogdetloglog 两边对 W 求导得 3 N i i i u y W W WW YH 1 logdetlog 13 上式第一部分 第二部分 T WW W detlog T N i i i XU u y W 1 log 这里是对数似然的梯度 U 3 14 T N N N up u up up u up Up U Up U 1 1 1 所以 通用学习规则即 TT XUW W YH 1 Amari 等人提出了一个高效的学习规则使负熵最大化 3 15 WUUIWW W YH W TT 这里 改变了梯度比例 简化了学习规则并大大的提高了收敛速度 WW T 3 3 2 负熵最大化 另一种使之间的互信息最笑话的方法是负熵最大化法 由负熵定义可得 i u 负熵的概率密度和高斯分布之间的 KL 散度 且与有相 Up UpG Up UpG 同的数学期望和协方差 即 log G G p u J uD p upup udu pu A 3 16 这里 U 是由参数 W 给出的源信号的估计值 输出的参数形式可 WXU 因式化的 且只有当输出信号之间相互独立 才有 这时输 i u N i i upUp 1 可编辑修改 出信号之间的互信息 且假设之间取出了相关性 可因式化 但 0 UI i u i u N i i uJUJ 1 则有 11 1 11 1 1 1 1 1 1 loglog log log loglog NN iiGi ii N NN GGN N i i N Gi i N i i G N i i G N i i J uD p upu p up u p udup udu pupu p u p UdU pu p u p UdU pU p u p U p UdUp UdU p UpU Dp Up uJ U I UJ U A A 3 17 上式还可进一步展开成 3 18 T N G N i i UUeWXHUI duUpUpUHUIuJ det2log 2 1 detlog log 1 因为我们假设 WXHUHdetlog WXU XJ Xp Yp det 之间是去相关性的 所以它们的协方差矩阵相同 因而行列式等于 1 i u 上式可进一步简化为 3 19 N N i i eXHUIuJ 2log 2 1 1 可以使用随机梯度搜索使负熵最大化 可编辑修改 3 20 UI W eXHUI W uJ W N N i i 2log 2 1 1 这实际上导出了与信息最大化相同的学习规则 TT N N i i N N i i N i i X Up U Up W eWupE W edUupUp W uJ W 2log 2 1 detloglog 2log 2 1 log 1 11 3 21 3 3 3 最大似然估计法 最大似然估计 MaxilIlum Likelihood Estimation MLE 是将观测信号 模式化 在低噪声情况下 我们使用参数化概率密度估计找 ASXX aXp 到参数向量 a 使生成模式与观测分布 p x 之间的差别最小 这种差别 aXp 可以用 KL 散度来度量 loglog p X D p Xp X ap XdXH Xp Xp X a dX p X a A 3 22 这里 是观测信号 X 的概率密度函数 是的参数估计 Xp aXp Xp 只有当估计与相等时 D p Xp X aA才等于 0 信息最大化法 aXp Xp 与 MLE 从 ICA 的角度来看是相同的 简要推导如下 对似然估计取对数并归一化得 可编辑修改 3 23 N i aXp N aL 1 log 1 这里 N 是 X 样本的个数 根据大数定理 对数似然概率收敛于它的数学 期望 L aH XD p Xp X a A 3 24 因为与 W 无关 所以最大化对数似然可将与 Xp的 KL 散度 XH aXp 最小化 即 L a D p Xp X a WW A 3 25 因为 A 是可逆矩阵 且 KL 散度在可逆变换下是不变的 所以最小化式中的 KL 散度等价与最小化源估计信号与真实源信号之间的散度 Up Sp L a D p Sp U WW A 3 26 3 4 FastICA 算法原理 独立分量分析 ICA 的过程如下图所示 在信源 s t 中各分量相互独立的假设下 由 观察 x t 通过解混系统B把他们分离开来 使输出 y t 逼近 s t 图 3 3 ICA 的一般过程 ICA 算法的研究可分为基于信息论准则的迭代估计方法和基于统计学的代数方法两大类 从原理上来说 它们都是利用了源信号的独立性和非高斯性 基于信息论的方法研究中 各国学者从最大熵 最小互信息 最大似然和负熵最大化等角度提出了一系列估计算法 如 FastICA 算法 Infomax 算法 最大似然估计算法等 基于统计学的方法主要有二阶累积 量 四阶累积量等高阶累积量方法 本次课设主要讨论 FastICA 算法 可编辑修改 3 4 1 数据的预处理 一般情况下 所获得的数据都具有相关性 所以通常都要求对数据进行初步的白化或 球化处理 因为白化处理可去除各观测信号之间的相关性 从而简化了后续独立分量的提 取过程 而且 通常情况下 数据进行白化处理与不对数据进行白化处理相比 算法的收 敛性较好 若一零均值的随机向量满足 其中 为单位矩阵 T M ZZZ 1 IZZE T I 我们称这个向量为白化向量 白化的本质在于去相关 这同主分量分析的目标是一样的 在 ICA 中 对于为零均值的独立源信号 有 T N tStStS 1 且协方差矩阵是单位阵 因此 源信号 jiSESESSE jiji 当 0 IS cov 是白色的 对观测信号 我们应该寻找一个线性变换 使投影到新的子空 tS tX tX 间后变成白化向量 即 3 tXWtZ 0 27 其中 为白化矩阵 为白化向量 0 WZ 利用主分量分析 我们通过计算样本向量得到一个变换 T UW 2 1 0 其中和分别代表协方差矩阵的特征向量矩阵和特征值矩阵 可以证明 线性变换U X C 满足白化变换的要求 通过正交变换 可以保证 因此 协方差矩阵 0 WIUUUU TT 3 IUXXEUUXXUEZZE TTTTT 2 12 12 12 12 12 1 28 再将式代入 且令 有 tAStX tXWtZ 0 AAW 0 3 tSAtASWtZ 0 29 可编辑修改 由于线性变换连接的是两个白色随机矢量和 可以得出一定是一个正A tZ tSA 交变换 如果把上式中的看作新的观测信号 那么可以说 白化使原来的混合矩阵 tZ 简化成一个新的正交矩阵 证明也是简单的 AA 3 IAAASSEAASSAEZZE TTTTTT 30 其实正交变换相当于对多维矢量所在的坐标系进行一个旋转 在多维情况下 混合矩阵是的 白化后新的混合矩阵由于是正交矩阵 其ANN A 自由度降为 所以说白化使得 ICA 问题的工作量几乎减少了一半 2 1 NN 白化这种常规的方法作为 ICA 的预处理可以有效地降低问题的复杂度 而且算法简单 用传统的 PCA 就可完成 用 PCA 对观测信号进行白化的预处理使得原来所求的解混合矩阵 退化成一个正交阵 减少了 ICA 的工作量 此外 PCA 本身具有降维功能 当观测信号的 个数大于源信号个数时 经过白化可以自动将观测信号数目降到与源信号维数相同 3 4 2 FastICA 算法 FastICA 算法 又称固定点 Fixed Point 算法 是由芬兰赫尔辛基大学 Hyv rinen 等人提出来的 是一种快速寻优迭代算法 与普通的神经网络算法不同的是这种算法采用 了批处理的方式 即在每一步迭代中有大量的样本数据参与运算 但是从分布式并行处理 的观点看该算法仍可称之为是一种神经网络算法 FastICA 算法有基于峭度 基于似然最 大 基于负熵最大等形式 这里 我们介绍基于负熵最大的 FastICA 算法 它以负熵最大 作为一个搜寻方向 可以实现顺序地提取独立源 充分体现了投影追踪 Projection Pursuit 这种传统线性变换的思想 此外 该算法采用了定点迭代的优化算法 使得收敛 更加快速 稳健 因为 FastICA 算法以负熵最大作为一个搜寻方向 因此先讨论一下负熵判决准则 由 信息论理论可知 在所有等方差的随机变量中 高斯变量的熵最大 因而我们可以利用熵 来度量非高斯性 常用熵的修正形式 即负熵 根据中心极限定理 若一随机变量由许X 多相互独立的随机变量之和组成 只要具有有限的均值和方差 则不 NiSi 3 2 1 i S 可编辑修改 论其为何种分布 随机变量较更接近高斯分布 换言之 较的非高斯性更强 X i S i SX 因此 在分离过程中 可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论