已阅读5页,还剩70页未读, 继续免费阅读
(信号与信息处理专业论文)基于constant+q+变换的音符起始点检测算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
music onset detection based on constant q transform thesis submitted to nanjing university of posts and telecommunications for the degree of master of engineering by han yahuan supervisor: prof. shaoxi march 2013 i 摘要摘要 音符起始点检测问题是音乐信号分析与处理的基本问题,是基于内容的音乐检索系统的 关键环节,尤其是哼唱检索系统,每个音符起始点的检测精准度在很大程度上影响了基于内 容的音乐检索系统的准确性。现在音符起始点检测方法大都是在语音端点检测方法的基础上 加以改进的。本文首先对音乐起始点检测的研究背景及意义进行了全面的介绍,总结出国内 外研究人员的对该课题研究的四个重要步骤:预处理、特征提取、选取特征方程、峰值提取。 然后对每一步骤做了详细的说明,介绍了几种经典的检测算法,并分析了利弊。最后,提出 了更有效的全新的音符起始点检测算法基于 constant q 变换的检测算法。该方法在 constant q 变换的基础上,将频谱能量与子带谱熵相结合,提出了一种新的计算距离的方法, 再通过分层次归一的方法优化检测函数。 在音频信号处理中,为了观察高频现象发生的时间位置,应该使用窄时域窗;为了了解 低频现象,应该使用宽时域窗;短时傅里叶变换总是使用相同长度的窗,而 constant q 变换 可以自动调节窗口长度,且频率点分布符合音乐的音阶分布。本文就是从 constant q 变换的 角度出发,频谱能量能很好的反应音乐信号的变化,但是对于“软”音符,其频谱能量变化 并不明显,而谱熵与音乐信号的随机性有关,与信号的幅度无关,对于“软”音符,它的谱 熵不一定小,正好弥补了基于频谱能量方法的缺点,子带谱熵不仅继承了谱熵的优点,又有 一定的抗噪性能。本文将频谱能量与子带谱熵这两个特征参数相乘,用一种新的计算距离的 方法建立联合检测系统,得出的音符起始点时间更加精准。最后提出了一种新的优化检测函 数的方法分层次归一,使得峰值更加明显,有利于通过固定阈值的方法提取局部最大值。 在仿真阶段,对不同类型的音乐片段进行仿真,分别用基于短时傅里叶变换的频谱差异 的方法,基于 constant q 变换的频谱能量、子带谱熵、频谱能量与子带谱熵之积的方法对音 乐片段进行仿真,分析仿真结果。实验分析结果表明本文提出的算法检测效果更加明显,有 一定的优越性。 关键词关键词: constant q 变换,子带谱熵,分层次归一,音符起始点检测 ii abstract note onset detection is the basic problem of music signal analysis and processing .it is the key of content-based audio information retrieval ,especially for query by humming. the accuracy of the onset detection for each note affect the accuracy of content-based audio information retrieval system in largely. note onset detection techniques mostly learn speech end-point detection technology. firstly, it introduces the research background and significance of note onset detection comprehensively, summarizes four steps of this detection system: pre-processing, feature extraction, selection feature equation, peak-picking. secondly, it introduces several classical algorithms, and analyzes their advantages and disadvantages. lastly, it puts forward a more effective ,new note detection algorithmnote onset detection based on constant q transform. on the basic of constant q transform, using the spectral energy and sub-band spectral entropy to detect the note, calculation the distance of notes, last using hierarchical method to optimize the detection function. in audio signal processing, in order to observe the time position of the high frequency phenomenon, we should use the narrow time-domain window; in order to understand the low frequency phenomenon, we should use the wide time-domain window; short time fourier transform always use the same length of the window ,the constant q transform is able to automatically adjust the window length. this paper is on basic of constant q transform, its spectral energy can reaction the changes well, but for the soft notes of music signal, its spectral energy dont have significantly changes, spectral entropy is related to the randomness of the music signal, it is regardless of the amplitude of the signal, the soft notes spectral entropy is not necessarily small, just to make up for the drawback of the method of spectral energy. sub-band spectral entropy is not only inherited the advantages of spectral entropy, but also have certain resist-noise performance. in this paper, the two characteristic parameters of the spectral energy and sub-band spectral entropy are multiplied, the notes onset detection of time is more accurate. finally, a new optimization detection function-hierarchical method, to optimize the detection function, this can make the peaks more obvious, we can use fixed threshold method to extract local maxima. in the simulation phase, for different types of music signal ,using method of the difference of spectrum based on the short time fourier transform, spectral energy, the sub-band spectral entropy , integrated of spectral energy and sub-band spectral entropy based on the constant q transform to simulation, analysis the simulation result. the experiment results show that the method proposed in iii this paper has higher accuracy rate. key words: constant q transform, sub-band spectral entropy , hierarchical normalize, note onset detection. iv 目录 第一章 绪论 . 1 1.1 研究背景及意义 . 1 1.1.1 研究背景 . 1 1.1.2 音符起始点定义及意义 . 3 1.2 音符起始点检测研究现状 . 4 1.3 课题研究工作及结构安排 . 5 第二章 音乐学基础及人类听觉感知特性 . 7 2.1 音乐学基础 . 8 2.2 人耳听觉特性 . 10 2.2.1 响度 .11 2.2.2 音调 . 12 2.2.3 音色 . 13 2.2.4 掩蔽效应 . 13 2.3 本章小结 . 14 第三章 音符起始点检测的基础理论 . 15 3.1 预处理 . 16 3.1.1 子带分解 . 18 3.1.2 暂稳态分离 . 19 3.2 特征提取 . 20 3.2.1 音乐信号的时域特征参量分析. 20 3.2.2 音乐信号的频域特征参量分析. 24 3.3 选取检测方程 . 28 3.4 峰值提取 . 31 3.5 音符起始点检测的常见方法 . 32 3.5.1 基于频谱能量的方法 . 32 3.5.2 基于相位特征的方法 . 32 3.5.3 基于复频域特征的方法 . 33 3.5.4 基于模式识别的检测方法 . 35 3.6 本章小结 . 37 第四章 基于 constant q 变换的音符起始点检测方法 . 38 4.1 constant q 变换(cqt) . 38 4.1.1 constant q 变换的定义 . 38 4.1.2 cqt 的快速计算算法 . 41 4.2 基于熵的音符起始点检测系统 . 45 4.2.1 熵的概念及计算 . 45 4.2.2 子带谱熵 . 46 4.3 后处理 . 48 4.3.1 分层次归一 . 48 4.3.2 峰值提取 . 49 4.4 本章小结 . 49 第五章 音符起始点检测系统及分析 . 50 5.1 实验准备 . 50 5.2 常见音符起始点算法实验与分析 . 51 5.3 实验步骤具体描述 . 55 v 5.4 性能评价指标 . 57 5.5 结果分析 . 58 5.6 本章小结 . 60 第六章 总结与展望 . 61 6.1 总结 . 61 6.2 展望 . 62 参考文献 . 63 附录 1 攻读硕士学位期间撰写的论文 . 66 附录 2 攻读硕士学位期间参加的科研项目 . 67 致谢 . 68 南京邮电大学硕士研究生学位论文 第一章 绪论 1 第一章第一章 绪论绪论 1.1 研究背景及意义研究背景及意义 1.1.1 研究背景 音乐是由不同的乐音通过有组织、有规律的组合所创造的艺术,以演唱或演奏的形式来 表达创作人的思想感情,是现实生活的反映,同时音乐的内容又充满情感和意志 1,在人们的 日常生活中时离不开音乐的。随着互联网的发展,人们所接触到得音乐越来越多,同时音乐 数据库中的音乐也是与日俱增。相信大家都有这样的感觉,就是明明一首歌曲就在舌尖,但 是我们怎么都想不起来它的歌曲名或歌词,我们希望能通过哼唱这首歌找到相应的歌曲,满 足我们的检索要求。那如何从巨大的音乐库中检索出自己需要的音乐已经成为我们的迫切需 求,基于内容的音乐检索技术就应运而生了。 音乐检索技术是多媒体检索技术的一种。由于多媒体信息数据库的与日俱增,人们不满 足于只通过一般的信息属性来进行信息检索,基于内容的多媒体信息检索就引起了人们的兴 趣。基于内容的多媒体检索打破了传统的基于文本检索技术的限制,它可以直接对图像、视 频、音频内容进行分析,抽取特征和语义(如图像中颜色、纹理、形状,视频中的镜头、场 景、镜头运动,声音中的音调、响度、音色 2) 。基于内容的音乐信息检索已经成为多媒体检 索技术与模式识别领域的研究热点。基于内容的音乐信息检索就是通过分析音乐内容的特征 和上下文联系,从音乐数据库中找到满足用户需要的音乐。音乐表示主要有声波、乐谱和结 构化符号三种形式。结构化符号形式的音乐就是以 midi 形式体现出的音乐,如图 1.1(a), 这种形式的音乐包含了丰富的信息,如音乐的音符、音长、旋律、节奏、节拍、演奏乐器等, 而且这些信息非常容易提取,因此非常适合于检索处理。在检索方式上,人们先后提出采用 哼唱检索(query by humming) ,示例查询、节拍拍打、演奏输入、乐谱输入等多种手段提 交查询请求进行检索 3。演奏输入检索和乐谱录入检索可以基于文本检索技术进行检索,这 种检索方法是比较简单的,但是对于用户来说,他们就需要很高的音乐知识与技能,而这种 要求就限制了大多数用户。哼唱检索由于对用户要求低,使用方便,能比较准确的表达检索 要求,但是 midi 格式音乐本身不是实际的音乐文件,是音乐控制文件,在实际音乐数据库 中比较少见,基于采样格式的 wav 文件和压缩后的 mp3,rm 的音乐比较常见,midi 和 wav 包含的内容如 1.1 图所示: 南京邮电大学硕士研究生学位论文 第一章 绪论 2 (a)midi格式音乐文件内容 (b)wav格式音乐文件内容 图 1.1 midi 与 wav 格式音乐内容对比 检索 wav 或 mp3 等格式的音乐信号最主要的困难就在于没有像 midi 音乐那样有直接 利用的音乐内容信息,如果能从音乐中提取出音符、节拍、旋律等信息,则 wav 格式音乐的 检索将简化为 midi 音乐检索类似的情况,许多困难将迎刃而解。音频音乐的自动标注系统 就是从 wav,mp3 等格式的音乐中提取出音符的数量, 音高等信息 3, 它的基本流程如图 1.2 所示: 音符起点检测多基频估计 重复音符检测时值、响度估计 音频乐曲 标注结果 图 1.2 音乐自动标注系统流程图 本文所研究的课题就是如何从 wav 格式音乐中标注音符的起始点。 音乐检索是音频检索研究范围内最热门,最具有成果的领域。从上个世纪 90 年代,出现 了不少基于内容的音频信息检索(content-based audio information retrieval,cbair)的相关 研究。自从 2000 年,每年都会举行专门的音乐检索方面的国际会议。在 1995 年,ghias 就 对单声道 midi 形式音乐的哼唱检索做出了研究工作。微软亚洲研究院、台湾新竹的清华大 学, 浙江大学、 上海交通大学、 美国的卡耐基梅龙大学、 新加坡国立大学等研究机构都对 midi 音乐检索做了很多研究。当前,研究机构在研究过程中大多采用 10000 首歌左右的数据库, 主要在单声道且比较简单的音乐。台湾新竹的清华大学的 jyh-shing roger jang 用节拍信息进 行音乐检索。它通过麦克风记录拍打信息,并记录每个音符的时长。g.eisenberg 利用将 midi 键盘或拍打歌曲的节奏转化成和 mpeg7 对应的形式,利用通过动态规划算法计算输入信息 与 mpeg7 中相应数值的相似度进行检索。 jeremy pickens 和 crawford 将多声道 midi 音乐作 南京邮电大学硕士研究生学位论文 第一章 绪论 3 为查询输入,通过马尔科夫模型检索出数据库中一首歌的不同版本 3。 对音频音乐检索的研究工作主要是对音频音乐的特征参量进行研究。j.foote 利用 dwt 技术比较不同音乐的能量或子带能量在时间分布上的相似性,可以检索出同一首歌的不同演 奏版本。c.yang 用能量峰值处的时间位置和峰值后的一段音乐的频谱分布表示音乐,通过计 算不同音乐的相似度进行检索,他还在最后利用线性滤波准则去除时间间距不合理的点。 所有对音乐检索的研究工作的第一步都是对音乐进行音符起始点的检测,只有在音符起 点确定的情况下,才能进行下面的研究,比如在音符识别系统中,在确定音符起始点后,对 音符进行划分,然后才能根据提取的音高对音符进行识别。因此,在整个音乐信号处理与分 析的研究领域中,音符起始点检测占有很重要的位置。 1.1.2 音符起始点定义及意义 音符起始点就是寻找每个音符的起始时间即音符跳变的瞬间点。对音符起始点的检测就 是提取每个音符的开始时间。音符大体上可以分为两个阶段:瞬态阶段和稳态阶段,具体上 可以分成:起点(onset),延时(delay),保持(sustain),消失(release)4。如图 1.3 所示。起点就处于 音乐信号的瞬态阶段。起始点检测就是瞬态阶段开始时刻的检测,所以音符起始点检测可以 看作为突变位置检测。一种常见的对突变位置检测的方法是根据观察确定信号变化趋势对信 号进行预测,并以预测误差作为检测函数,再将门限方案应用于检测方程,突变位置也就明 了化,即可得到起始点位置。特定的信号特征和预测技术的多样性也造就方法的多样性。在 音符起始点检测方法中,我们可以根据音乐信号的能量,相位,频率或音高等多种信号特征 进行分析。 起点延时保持消失 图 1.3 音符的阶段组成 音符是音乐的基本组成单元,对音乐进行分析首先就要对单个音符进行分析。那么音符 起始点检测就成为音乐分析的首要任务。音符起始点检测问题是音乐信号处理的基本问题, 也已经被广泛的学者学习研究,希望通过各种检测函数提取更有效的音符特征。随着现代信 南京邮电大学硕士研究生学位论文 第一章 绪论 4 息技术的发展,各式各样的音乐数据急剧增多,为了从浩瀚的音乐库中提取有用的音乐片段, 必须有精准的音符划分系统,这就需要精准的音符起始点时间。许多音乐信号的分析应用都 需要有准确的音符起始点检测过程,音符起始点检测在音乐信号处理和应用上起着关键作用 4。例如,准确的起始点检测对于先进的节奏分析和转录是不可或缺的,最近一项研究表明, 音符起始点检测可以为声音定位提供线索。在音乐信息检索技术中,首要因素就是提取音符, 那么我们首先就要做关于音符起始点检测的研究。在处理一些和声及复调音乐时,如果能提 取出单个音符,那么我们就会挖掘出更多的节奏信息,减少了噪声的干扰,提高了基于内容 的音乐信号分析及检测。所以音符起始点检测的精确度在很大程度上影响了音乐检测的准确 性,也影响了音乐信号的完整性。 音符起点检测在概念上和语音端点检测类似,理解也比较简单,但是在实际应用方面存 在很多的困难,音乐不同于语音,它是很复杂的声音,它可以是平缓的,也可以是欢快的; 可以是钢琴演奏曲,也可以是小提琴演奏曲,更常见的是各种乐器共同演奏的。所以音符起 始点检测问题需要进一步讨论和研究。 1.2 音符起始点检测研究现状音符起始点检测研究现状 在现实生活中,我们所听到的音乐大都是和声及复调音乐,而且有些带有噪声,各种乐 器的声音混叠在一起,使音符边界变得模糊,几乎不可能只通过原始信号的时域特征来完成 准确的音符起始点的检测。在这种情况下,我们就要结合音乐信号的多种特征来完成音符起 始点的检测,进而提取出单个音符。 在音符起始点检测的经典方法中,大都可以分为三个步骤: (1)预处理,在这个过程中, 我们对信号进行预加重,分帧(音乐信号是短时平稳信号) (2)检测方程,一个好的检测方 程在起始点处应该有尖锐的峰值,而且有尽量少的伪峰。检测方程的鲁棒性可以明显减少峰 值检测的复杂性。 (3)峰值检测,就是起始点提取的过程,即从检测方程中提取音符起始点。 经典的起始点检测方法里用到的特征参数基本上是从两方面考虑:时域特征,计算信号的 能量或过零率。频域特征,通过把音符的时域波形相应的转化为频域特征,在这个过程中, 我们可以用经典的短时傅里叶变换,也可以用小波变换计算出信号的频谱特征。基于时域的 方法能够准确计算出时间,这种方法比较适用于语音端点检测系统,但是音乐不同于语音, 只对能量变化鲜明的打击音乐检测效果比较好,难以检测出软音乐和快音乐。基于频域的方 法相对计算量比较大,检测效果相对时域上的比较好,常用的方法是傅里叶变换,但是傅里 叶变换的时域解析度有限,造成时间误差比较大,比如基于相位或者功率谱的方法只对音调 南京邮电大学硕士研究生学位论文 第一章 绪论 5 明显的音乐检测效果好。 goto 将频带分成几个子带,通过能量的突变来检测起始点5。scheier 利用六级椭圆滤波 器组划分子带,通过幅度包络检测起始点6。klapuri 利用基于感性的起始点检测模型,在预 处理阶段,用滤波器组将信号分为八个不重叠的子带信号,该滤波器是仿真人耳听觉效应的 7。 duxbury用constant q共轭正交滤波器组将频带划分为5个频带 (0-1.1khz, 1.2khz-2.5khz, 2.6khz-5.3khz,5.4khz-11khz,11khz-22khz) ,用时-频法捕捉子带信号的能量变化和频率变 化,不同的子带采用不同的方法8。juan pablo bello 提出了基于相位的音符起始点检测方法9。 因为一些“软”音乐的起始点很难通过幅度的变化进行精确的定位,他又将相位差异与能量 信息结合到复频域上进行起始点检测10。小波域上的方法可以准确的确定起始点时间,但是 它的计算量比较大1112。文献14将音高也做为判别音符起始点的特征。文献15将全相位与 频域上的相位特征结合从而进行音符起始点检测。文献16用熵进行起始点检测。文献18 用自适应模型自动对起始点进行检测。文献39在小波域根据频率变换特征进行检测。统计 学的方法可以得到不错的检测效果,但是需要较大的检测数据库和训练集20。同时还有高 斯混合模型(gaussian mixture model,gmm)、贝叶斯模型(bayes model,bm)、隐马尔科夫模型 (hidden markov model,hmm)、人工神经网络模型22(artificial neural networks,ann)等也可 用于音乐起始点检测系统中,但是计算量和复杂度都很高。 1.3 课题研究工作及结构安排课题研究工作及结构安排 本文提出了用 constant q 变换(cqt)对音乐信号进行分析,与离散傅里叶变换相比, 它有自动调节时频窗口的能力,一般对快变信号,希望它有较高的时间分辨率以观察快变信 号。而其快变信号对应的是高频信号,所以我们就需要较高的时域分辨率,较低的频域分辨 率;对于慢变信号,我们就需要较低的时间分辨率,较高的频率分辨率;这就体现了傅里叶 变换中在时间和频率分辨率方面固有的矛盾。constant q 变换解决了这一矛盾,体现了其优 越性。西方音乐的基音频率是对数分布的,离散傅里叶变换虽然能够用 fft 快速算法,但是 计算出来的频率点是呈线性分布的,与音乐中音符的频率不对应,但是通过 constant q 变换 后的频率分布与西方音乐中常用到的十二平均率相匹配。所以用 constant q 变换对音乐信号 进行分析有很大的优势。 通过计算 constant q 变换,我们可以得出信号的频谱能量,频谱能量可以很好的反应信 号波形的变化。子带谱熵反应了音符的分布的随机情况,与信号幅度无关。为了防止“软” 音符的漏检,我们将子带谱熵与频谱能量结合。通过提出了一种新的计算“距离”算法,可 南京邮电大学硕士研究生学位论文 第一章 绪论 6 以有效地优化检测函数。在后处理过程中,我们采取分层次归一化,防止一些“软”音符漏 检。 本文包括六章,论文的组织结构和具体内容安排如下: 第一章“绪论” :首先阐述了音乐信息检索的发展及研究的必要性,在这个研究领域中, 有一个非常重要的且急需解决的问题即音符起始点检测问题,音符起始点检测的准确性将直 接影响到音乐信息检索系统的准确性。然后介绍了音符起始点检测的定义及研究意义,阐述 了音符起始点检测的重要性。研究学习了这一课题的研究现状,进而可以从这些方法中找到 研究出口。最后简要的说明了本文的研究方法及大纲。 第二章“音乐学基础及人类听觉感知特性” :本章详细介绍了音乐信号的基础知识及人耳 对音乐的感知属性。首先介绍了声音的产生及频率范围,并且可以通过划分频率对声音进行 归类。接着给出了音乐的定义,罗列了音乐信号的客观物理量及主观物理量。最后描述了人 类的听觉系统。 第三章 “音符起始点检测的基础理论” :主要介绍了音符起始点检测系统中的大体研究 框架及常用到的方法。首先,介绍了在音符起始点检测体统中每一过程的常见处理方法,每 一步骤都是缺一不可的,对每一步骤处理的好坏都直接影响到检测系统的准确性。然后,详 细介绍了国内外研究人员提出的各种检测函数。 第四章 “基于 constant q 变换的音符起始点检测方法” :这一章主要介绍了基于 con- stant q 变换下的音符起始点检测系统,主要介绍了短时 constant q 变换的定义,分析和研究 了 constant q 变换的优势和简要计算方法及在此变换下的特征参量,如频谱能量。然后描述 了熵的概念,并进一步研究分析了子带谱熵的概念及其仿真图,本文在起始点检测系统的后 处理阶段,提出了分层次归一的概念,这一过程会使得音乐波形在音符的起始点处更加明显。 第五章 “音符起始点检测系统及分析” :这一章首先说明了本文对实验数据的要求。然 后重点介绍了本文的实验步骤,我们主要把基于 constant q 变换下的能量特征参量、子带谱 熵相结合,以此检测音符的起始点,这一联合检测方法使得检测到的时间更加准确。提出了 一种新的计算距离的方法。最后通过 matlab 平台对该
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年产xxx家用洗碗机项目可行性分析报告
- 冷冻设备建设项目可行性分析报告(总投资9000万元)
- 高中生物备课组组长工作计划范文
- 高密度区域给水管网建设方案
- 消防安全演习与应急响应方案
- 城市综合管廊建设及智能化提升改造项目社会稳定风险评估报告
- 助学贷款答题试题及答案
- 农机配件建设项目可行性分析报告(总投资7000万元)
- 城市污水管网巡检与探测作业流程方案
- 中央供料系统建设项目可行性分析报告(总投资11000万元)
- 浙江省杭州市杭州市萧山区高桥初级中学2024-2025学年下学期初三期中语文试题卷(简答)含解析
- 酒厂生产安全管理制度
- 充装站气瓶充装质量保证体系手册
- 老年人才价值开发路径-深度研究
- (完整版)人教版小学英语单词表(带音标)
- 2024秋新人教版英语七年级上册教学课件 Unit5 Fun Clubs Section A
- 《低压电工实操及考证》全套教学课件
- DBJ04-T 312-2024 湿陷性黄土场地勘察及地基处理技术标准
- 设计阶段成本管理培训
- 2025年北京市公开选拔领导干部工作历年高频重点提升(共500题)附带答案详解
- 新人教版一年级上册数学期末测试卷及参考答案(精练)
评论
0/150
提交评论