(信号与信息处理专业论文)rbf神经网络和hmm用于音乐识别的算法研究.pdf_第1页
(信号与信息处理专业论文)rbf神经网络和hmm用于音乐识别的算法研究.pdf_第2页
(信号与信息处理专业论文)rbf神经网络和hmm用于音乐识别的算法研究.pdf_第3页
(信号与信息处理专业论文)rbf神经网络和hmm用于音乐识别的算法研究.pdf_第4页
(信号与信息处理专业论文)rbf神经网络和hmm用于音乐识别的算法研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(信号与信息处理专业论文)rbf神经网络和hmm用于音乐识别的算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ii rbf 神经网络和 hmm 用于音乐识别的算法研究 摘 要 音乐信号处理是信号处理领域中的重要组成部分。为了能让计算机 与人类能够用音乐自由的沟通,有关计算机音乐处理的研究,意义日益 凸显。音乐的计算机自动识别是新兴的交叉学科,其研究涉及物理学、 信号处理、人机交互、音乐理论等诸多学科知识。本文研究的音乐识别 正是将计算机多媒体技术、信号处理与模式识别的相关知识和技术同音 乐理论相结合,用计算机模拟人对音乐认知和分析的过程。 论文首先介绍了计算机音乐的发展,并对基本乐理及音乐信号的特 性进行了简单的描述。围绕音乐相关理论,论文对比了音乐信号与语音 信号的特性,选取 mfcc(mel-frequency cepstral coefficients)作为单音 信号的特征,并对特征矢量维数的选择进行了讨论,利用 rbf 神经网络 对钢琴 88 个单音进行识别,实验取得了 100%的识别结果。实验结果表 明所选特征对识别钢琴单音信号是有效的。 其次论文研究了在西方音乐和弦识别中使用频率较高的音级轮廓 (pitch class profile 简称 pcp)特征及其计算方法,给出了具体的计算公 式。论文基于 hmm 构建了音乐和弦识别系统,定义了 36 个状态,每个 状态代表一类和弦; 通过一个 12 维的多元高斯函数拟合观察向量的概率 分布, 该模型分别由高斯函数的均值向量和和协方差向量来定义。论文 iii 借助 chris harte 制作的标签文件训练得到有监督的 hmm。识别过程通 过 viterbi 算法,对输入信号依照极大似然法来寻找最佳路径,即最佳的 和弦序列。为了克服系统处理快节奏音乐时出现的如下问题:识别空和 弦时系统常发生混淆,论文采用了得到很多学者认可的节拍同步分析算 法。实验以帧为单位对三首不同音乐的和弦进行了识别,平均识别率达 到 76.81%。最后论文对实验过程及结果进行了细致的分析和讨论。 关键词:音乐识别, 钢琴单音识别, 和弦识别, rbf 神经网络, 隐马尔 可夫模型 iv study of music recognition algorithm based on rbf neural network and hmm abstract music signal processing is an important part of signal processing. in order to communicate with computer freely, the research on computer music signals processing has been taking a more and more important role. music recognition is a rising interdisciplinary researeh field, which involves physics, signal processing, human-computer interaction, music theory and music psychics. to describe music characters by computer, this dissertation combines the technique of multimedia, signal proeessing and pattern reeognition with music theory to make the computer to imitate the course of music cognitive and analysis of human. first of all,the paper describe about the development of computer music, then describe briefly about the basic music theory and characteristic of music signal. based on music theory, the features between music and the speech signal are compared. we select mel frequency cepstrum coefficient as the characteristic of monophonic music signal.we also discussed the selection of dimensions of feature vector. we recognize the eighty eight tones of piano with the method of rbf neural network. the final recognition rate is 100%, which show that the feature we selected is effective for monophonic music recognition. v secondly, the paper studied the pitch class profile features and the calculation method which is often the choice of the feature in automatic chord recognition in western mucic, calculation formula is list out. we construct the music chord recognition system based on hmm, define 36-state for the hmm, each state represents a single chord. the observation distribution is modeled by a single multivariate gaussian in 12 dimensions defined by its mean vector and covariance matrix. we get the supervised hmm by virtue of the label files made by chris harte. in the course of recognition, viterbi algorithm is applied to the model to find the optimal path, i.e., chord sequence, in a maximum likelihood sense given an input signal. when the system processes the fast-paced music, in order to overcome the following problem: confusion in distinguishing non-chord tones, we adopte the algorithm of beat-synchronous which is approved by many scholars. the experimental recognize the chord type of three different music in frame-level, final average recognition accuracy is 76.81%. the paper discussed the experimental process and results in detail at last. key words: music recognition, piano monophonic recognition, chord recognition, rbf neural network, hidden markov model 1 第一章 绪 论 1.1 研究背景 1.1.1 计算机音乐的发展 计算机科学是直接基于电子技术而发展的, 计算机音乐也由电子音乐孕育发 展。十九世纪中叶已经有了电子音乐。1904 年,美国制造出了波形发声器,可 以产生不同音色的乐音,建立了第一个电子音乐实验室。 在一个相当长的时间里,计算机音乐家们要手工编制程序,输入计算机,根 据音乐的各种参量,找出相应的计算机参量,把计算机作为一个音乐发生器来使 用。 近年来,计算机音乐迅速发展,一方面是各种合成器日新月异,物美价廉。 80 年代初发明了乐器数字接口极大促进了合成器音乐的繁荣,从而与合成器配 套生产了各种音序器、音源器、效果器等,大大发展了音响器材的生产。 另一方面是利用个人计算机发展其音乐功能及开发为音乐研究服务的各种 个人计算机软件和硬件设备。近年来,随着计算机的不断升级换代,以计算机音 乐为先导,计算机多媒体信息处理方兴未艾。 1.1.2 选题背景及其意义 随着计算机网络、数字娱乐的不断发展,计算机音乐成为智能多媒体的重要 组成部分。构建自然和谐的人机交互技术,需要对计算机视听觉信息处理做细致 而深入的研究。计算机音乐在人机交互领域扮演着重要的角色。即让计算机能够 “听懂”音乐,并做出某种自然的响应,达到人机互动的目的。 计算机音乐信号处理是现代信号处理、模式识别、人工智能和音乐艺术交叉 融合的学科。音乐信号作为一种特殊的准周期信号,相比语音信号而言,音色内 容更加丰富,频率构成更加复杂,频谱范围更加宽广,时域节奏特征更加明显, 这就决定了音乐信号处理不能完全沿用语音信号处理的固有方法和模式。 目前计 算机音乐的研究在计算机音乐识别、音乐合成方面都有较大进展。 基于计算机、电子技术的音乐识别、分类、特征提取等一系列问题,被越 2 来越多研究人员关注。如果能将电子学的发展灵活运用到音乐欣赏创作的领域, 无疑一方面会减轻音乐工作者的劳动强度,辅助他们工作;另一方面将促进实现 音乐处理、 识别、 创作的智能化。 因此, 寻找一个合理而又有实践价值的结合点, 对推动此交叉学科的发展有深远意义。 1.2 研究现状综述 1.2 研究现状综述 1.2.1 节奏识别 在乐曲中,只有当音的时值进行是按照音乐的律动组织起来时,它们的相互 关系的固定性,如节拍、节奏型、固定节奏等才有意义。因此,节奏这一概念从 狭义上说就是音值序列的重复, 而节奏识别的主要目的正是找到这种脱离音高关 系而相对稳定的节奏型。由于节奏型与音高无关,因此在对节奏的研究中,往往 使用数字记录音符的时值。这种方法虽然简单,但没有体现出音符的强弱。有的 研究中采用一种以时间为横轴,以速度和力度为纵轴的图表来表示。 节奏识别,首先要建立固定节拍下的一组典型节奏模型。节奏模型与节拍 模型是相互依赖的,它们共同体现了时间组织的规律性。在西方音乐中这种规律 往往是多层次的,因此节奏模型也应该是多层次的。在节奏识别中,往往使用的 方法是将被识别的乐曲与一组典型节奏模型进行比较, 它的难点在于音乐的速度 也会经常改变。 因此目前节奏识别主要是针对节奏型比较固定且特点鲜明的音乐 作品,特别是舞曲 1。 masoud alghonicmy 的节奏和周期性预测系统,将待分析的音频文件通过低 通滤波器后将其信息用依据音乐信号停顿构造的二叉树或网格结构分析, 可检测 出指定音乐的周期性节奏。 有的学者提出基于谱分析的音乐节奏识别算法 2,由于人对音乐节奏的感受 原则上是一段音乐能量起伏的生理感受。 对一段人声清唱的音乐的节奏作出正确 的判断,主要依赖于信号能量的强弱变化的周期性,这样就可以在频率域中分析 能量信号,在整首歌曲中判断出能量信号的周期成分,这个周期也就是音乐信号 的节奏。为了能够获得音乐节奏信息,在信号能量分析,确定信号能量的起伏之 后,采用信号整倍数抽值的方法减少有待分析的数据量,对抽值后的信号数据进 行ar模型(自回归模型)功率谱估计。从而在频率域寻找出音乐信号的能量起伏 3 周期,确定乐音信号的节奏。还有的学者引入贝叶斯节奏模型,然后用基于贝叶 斯理论的序列蒙特卡罗方法,推断音乐片段的小节和节拍的位置。对不同乐器演 奏的、不同音乐速度的、不同节奏模式的音乐,此方法均能有效地提取节奏特征。 1.2.2 风格识别 音乐中有各种不同的风格流派,每一种风格的音乐都有其独特之处。对音乐 风格的分析必须全面的考察旋律、节奏、和声、曲式、配器等特征。有的学者利 用语音研究的一些成果, 总结出了音乐风格识别的一些基本参数, 包括音色纹理、 韵律和基频内容。具体有以下一些参数 3 4: (1) 质谱心: 11 / nn ttt nn cm nnm n = = (1-1) 其中 t m n 表示傅里叶变换在二进制n和帧时t的幅值。 高的质谱心表明声音 在高频段表现得比较明亮。 (2) 谱滚降: 11 0.85 t r n tt nn m nm n = = (1-2) 表示低于频率 t r 85%的谱分布情况,也是反映谱形状的参数。 (3) 谱波动: 2 1 1 ( ) n ttt n fn nnn = = (1-3) 表示正则化谱序列分布差的模。其中 t n n , 1 t nn 分别表示第t帧和第1t 帧的正则化频谱。谱波动给出了局部谱变化数量上的度量。 (4) 过零率: 1 1/ 2|( )( 1)| n t n zsin x nsin x n = = (1-4) 这是语音信号处理中常用的参数,用于区分清、浊音段或噪声段。 4 (5) mfcc(mel 倒谱系数): mfcc 参数比 lpc 倒谱系数更符合人耳的听觉特性, 在有信道噪声和频谱 失真情况下,能产生更高的识别精度。研究者由心理学实验得到了类似耳蜗作用 的一组滤波器组,即 mel 频率滤波器组。 它将信号的傅立叶变换频谱通过 mel 频率滤波器组进行滤波。 由于每一个频 带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加。 通过上述参数,可以从谱分析的角度大致刻画音乐作品的风格,并根据不同 乐曲类型进行风格识别。还有的学者提出利用挖掘技术 5的音乐风格识别系统。 系统以 midi 乐曲为数据源提取出乐曲的旋律,对不同风格乐曲的旋律进行了频繁 模式的挖掘和对测试乐曲的风格识别。 1.2.3 乐器识别 乐器识别是音频检索的一个重要领域,它既涉及声源的声学属性,也涉及到 人耳对音品的感知心理。它是深入研究音频检索的基础,乐器识别在科学研究和 实际运用中有重要的意义。目前人们对于音品有不同认识,还没有一种成熟的理 论用于研究人类如何识别声源。 然而声源识别理论在实际应用中却有着重要的意 义,例如可以用计算机标注多媒体数据或者转录音乐的演奏信号,形成用于编码 或者理论研究的乐谱。在声源识别的基础之上,可以进一步发展理论和模型理解 音乐的语义行为。 乐器识别主要是根据不同乐器特点,进行分类识别。传统的乐器识别方法采 用的是树型分类方法 46,这种方法分类过程比较繁琐。而且精度不高。很多学 者提出了一些方法,主要是两类特征:一是乐器音调特征,二是音乐暂态特征, 通过自相关对数谱提取基频、谱包络、谱强度、异步初始点和非协调性并由此推 断一系列参数,如:基频变化,基频变化比,谱质心,谱质心变化比,颤音频率, 颤音强度,振动频,振动强度,振动长度,谐波变化,谐波变化比,谐波奇、偶 率比,谐波斜率并由此区分各种乐器。 还有的学者采用模式识别的方法实现对乐器的识别 78。采用 mfcc 系数和 它的一级导数作为音品的声学特征,分别对许多管弦乐器建立高斯混合模型。在 识别过程中,首先假设各乐器的先验概率相同。根据高斯混合模型得出的后验概 率确定待识别乐器所属的种类。 支持向量机是专门针对有限样本情况下的一种分 5 类方法,在小样本的情况下,它的准确率一般优于传统的模式识别方法。它是建 立在统计学习理论的 vc 维理论和结构风险最小原理基础上的, 根据有限的样本 信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识 别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。另外一些学 者利用乐器的 mfcc 系数和它的一级导数为声学特征,建立一个自底向上的二 叉树的支持向量机 9模型。结果表明这种识别方法是一种有效的识别方法,且它 的准确率高于 gmm 方法。 1.2.4 和弦识别 和声分析需要有全面的和声方面的知识, 而音乐特征识别系统中所谓的和声 识别严格来说,无非是和弦识别 101112。tokumaru 成功的设计了自动分析和弦 的模糊系统。但是由于音乐中个性化的成分太多,很难完全用已有的音乐理论来 解释,因此对和弦的分析也只是局限在某一中风格或某一个时代的音乐作品范 畴。在“弦乐和弦声信号时频特征的小波包分析”一文中给出采用 hilbert 变换 对小波分析系数时域重构信号进行包络线检波, 得到不变和弦声信号幅值的时频 等高线相平面图。该图同时反映和弦声信号的构成频率成分及其时域特征。国外 对和弦识别的研究主要集中在通过研究和弦的特征 131415, 利用模式识别的方式 来识别和弦。 模式识别的目标是把一组称作测试集的模式分成两类或者更多的类 别,这种分类方法是通过比较被测试数据和已知类别的相似性完成的。被测试数 据称作测试集;已知类别的分类数据称作训练集,它作为一个基础来判断未知类 别的数据和哪一类别相似。 这种方法和人们对音频数据的主观分类行为非常类似。 人们首先对不同声源 发出的声音建立一个主观描述,当听到一个新的、未知类别的声音时,大脑会自 动把未知声音同主观描述相比较,看看和哪一类别的数据最为接近,从而形成一 个判断。而在计算机识别声音的过程中,提取未知声音的特征向量作为相似性比 较的对象, 用未知数据和已知类别之间的相似度作为分类依据。 采用的分类器有: svms、神经网络、hmm 等。 1.3 论文内容安排 1.在绪论中,主要介绍了计算机音乐的发展、选题的背景及意义并对现阶段 6 音乐识别的研究方面以及研究状况做了简单的介绍。 2.第二章介绍了音乐的基本特性, 并对一些重要的基本乐理给出了解释和说 明。最后对被众多的音乐家们誉为“乐器之王”的钢琴从音乐和物理角度做了初 步的介绍。这章为第三章 3.6 小节的预备知识。 3.第三章将系统介绍 rbf 神经网络,给出了单音识别技术中常见的方法。 提取钢琴单音信号的 mfcc 特征,利用 rbf 神经网络,笔者用 c+语言实现了 rbf 神经网络构建的钢琴单音识别系统。实验取得了 100%的识别结果。实验结 果表明采用上述方法能够有效地识别钢琴单音。 4.第四章研究了隐马尔可夫模型算法应用于音乐和弦的识别。 重点研究了在 西方和弦识别中比较流行的音级轮廓(pitch class profile)特征,笔者使用含有 36 个状态的 hmm 来识别和弦,通过一个多变量的 12 维高斯函数拟合观察向量 的概率分布。通过训练,每类和弦都生成一套模型参数。对于给定的模型参数, 应用 viterbi 算法以最大的可能输出状态(和弦标签)的路径。笔者在最后对实 验的过程以及结果进行了细致的分析和研究。 7 第二章 基本乐理及音乐特性 2.1 音乐基本特征概述 音 (sound)是由于物体振动(vibration)而产生的。在自然界中能为人的听觉 所感受的音是非常多的,然而并不是所有的音都可以作为音乐的基本材料。在音 乐中所使用的音,是能够表达人类的生活和思想感情的;这些音被组成为一个固 定的体系,用来表现音乐思想和塑造音乐形象。 乐音是由单音按照时间先后规律构成的, 一段连续的乐音中包含诸多的单音 音符。从物理学角度看,单音音符主要包含三个要素:基频、振幅及倍频构成。 乐器发出的音通过人耳的听觉系统反映到听觉神经中枢,引起听者的主观感觉。 这种感觉形成心理学上的单音音符的三要素:音调、响度、音色,这三个特性分 别和三个客观上易于确定的物理量密切相关。 音乐的这种特性使其能够用物理的 方法进行分析和测量,具体地讲,单音音符的音调(即音高)是由这个音符的基频 决定的;一个单音的响度(即音强)是这个单音的空气振动到达人耳处的能流;音 色的形成比较复杂,由单音音符频谱(即各谐波成份比例)构成决定 16。 乐音产生根据类型分有以下几种:歌声是由歌唱者声带振动,口腔形成谐振 腔,产生声波;乐音虽然都源自振动,但振源和谐振腔各不相同:弦乐的振源是 拨弦或拉弦,琴箱构成谐振腔;管乐的振源为簧片和音孔(主要是形成谐波,改 变振动频率),谐振腔为音管;鼓乐或其他打击乐振源就是打击面或敲击面,同 时鼓体或敲击体的物理材料也构成谐振腔。 音有音高、音长、强弱(intensity)和音色(timbre)四种特征,它们分别与振 动的频率、持续时间、振幅和频谱分布等物理量相对应:音的高低是由于物体在 一定时间内的振动次数(即频率)决定的,振动次数多,音则高;振动次数少,音 则低。音的长短是由振动的延续时间的不同而决定的。振动的延续时间长,音则 长; 振动的延续时间短, 音则短。 音的强弱是由于振幅的大小而决定的。 振幅大, 音则强;振幅小,音则弱。音色则由于发音体的性质、形状及其泛音的多少等不 同而不同。音的以上四种性质,在乐音表现中都是非常重要的,但音的高低和长 短则具有更为重大的意义。即使改变音乐的音色和强弱,我们仍可以依稀辨认出 乐曲;但若改变乐音的音高和时值,音乐形象将受到破坏。 8 作曲在乐音中使用的、有固定音高的音的总和,叫做乐音体系。作曲乐音体 系中的音,按照上行或下行次序排列起来,叫做音列。 作曲在钢琴上可以明显 地看出乐音体系中所使用的音和音列。乐音体系中的各音叫做音级(step)。音级 有基本音级和变化音级两种。乐音体系中,七个具有独立名称的音级叫做基本音 级。在钢琴上五十二个白键循环重复地使用七个基本音级名称。两个相邻的具有 同样名称的音之间的跨度叫做八度(octave)。升高或降低基本音级而得来的音, 叫做变化音级。这样一个八度内包含12个音级(c,#c,d,#d,e,f,#f,g, #g, a,#a,b)。 音乐中使用的音总是按照一定的关系连结在一起,表达一定的音乐思想。组 成一首乐曲的三个基本要素为旋律、节奏和和声。而在这三种要素中,旋律和节 奏是不可缺少的,因此对一首乐曲的旋律和节奏的认知是必要且必须准确的。同 时乐曲的调式调性也很好的表征了乐曲的特点, 如果能很好的提取出音乐的调式 特性,在一定程度上可以辅助演奏者对乐曲特征的感知与表现 17。 2.2 基本乐理 2.2.1 音高与音色 乐音听起来有的高,有的低,这就叫音高。音高是由发音物体振动频率的高 低决定的, 频率高声音就高, 频率低声音就低。 比如女人唱歌时声带振动频率高, 男人唱歌时声带振动频率低,所以男声比女声低。 中央 c 上之 a 音符发出的频率为 440hz(表示成a=440hz, 或是a440), 通常被当作标准音高。但历史上并非一开始就是以 a440 做为标准音高。而音高 通常是人类对音乐最基本的观点。 音色(musical quality)指音的感觉特性。频率的高低决定声音的音调,振 幅的大小决定声音的响度。 发生体的材料、 结构不同, 发出声音的音色也就不同。 音色是声音的特色, 根据不同的音色, 即使在同一音高和同一声音强度的情况下, 也能区分出是不同乐器或人声发出的。 音色的不同取决于不同的泛音,每一种乐器、不同的人以及所有能发声的物 体发出的声音,除了一个基音外,还有许多不同频率的泛音伴随,正是这些泛音 决定了其不同的音色,使人能辨别出是不同的乐器甚至不同的人发出的声音 18。 9 2.2.2 音律及十二音平均律 音律是在长期的音乐实践发展中形成的,音律有多类,而人们熟知的主要音 律有纯律、五度相生律和十二平均律 三种。其中十二平均律目前被世 界各国广泛采用 19。 在 1939 年,英国伦敦国际会议决定 1 a=440 的高度,为第一国际高度。另外 有一种标准高度,常用于物理学的计算中,即 1 c=256(依照音乐中的五度相生律 或者纯律),令 1 a=426.66 得来。这种高度称为“物理学高度”或“理论标准高 度” 。 “十二平均律”(twelve-tone equal temperament)简称平均律。这种律制,就 是把一组(即一个八度)分成频率比相等的十二个半音,所以亦称“十二等比律” 。 要注意的是, 十二平均律是各个相邻律(即半音)之间其频率比都相均等的一种律 制。一般的键盘乐器,都使用十二平均律。也就是说在钢琴上,每个相邻的琴键 所发出的音的频率比值均相等,其基音频率之比为 2 的 1/12 次方(1.05946) , 用数学公式表示即为: 1/12 21 /2ff = (2-1) 以钢琴为例,其音符频率关系如图 2-1 所示。 十二音平均律为乐音音符的定量刻画提供了可靠的科学手段, 一般的乐器都 是按照十二音平均律来定音的, 至于不同的乐器的发音有高低之分是由于一般的 管乐 器、弦乐器的音程有限,并且音程处于不同的音域导致其基音的高低差别;乐器 发音的甜润、刚劲之别则在于所使用的发音材质不同,常见的振动发音材质有钢 弦、簧片、膜片等,这些材质发音的泛音比例构成不同导致了其音色(即听觉上 感觉到的 10 图 2-1.钢琴音符频率关系 figure 2-1. note frequency relation of piano 明亮、低沉等特点)不同。但是一个音的高低(音高)是遵循十二音平均律的,这 为诸多乐器发音的研究提供了一个统一的度量 17。 2.2.3 节奏与节拍 节奏是我们在乐理和其它音乐理论中常用到的基本概念。 它是特指音与音之 间的长短关系,严格地说:节奏就是用强弱组织起来的音的长短关系。这就说明 节奏不但有长短关系、而且是有一定强弱关系的,但节奏的概念中是以长短关系 为主的,虽然强弱关系是不能缺少的关键因素(因为根据定义可知,没有强弱就 无法组织起音的长短) ,正是有了强弱才能表现出节奏的律动。在整个乐曲或部 分乐曲中,具有典型意义的节奏叫做节奏型(rhythm pattem)。节奏型在音乐表 现中具有重大的意义,但是节奏型本身就可以说明音乐的某种类别,如进行曲、 圆舞曲、玛祖卡舞曲等。当然,在创造音乐形象时单是一个节奏型是不够的,它 还必须和其他音乐要素组合起来使用才行。 音乐中的节奏模式有两个很基本的概 念,一个称为拍(beat),另一个称为小节(measure)。不同时值的音符组成一定的 拍节,一个小节中按规定包含一定数量的拍数;小节也构成乐段的节奏基础;拍 内或拍间的音符的时值关系组成了音乐上的节奏型。 在音乐中, 节拍就是有强有弱的相同的时间片段, 按照一定的顺序循环重复, 就形成了节拍。通过定义我们可以知道,在节拍中,强弱的关系也是不可缺少的 因素,但它与节奏不同的是,节拍偏重的是时间片段、而且是相同的、并且要循 环重复的。如一强一弱的循环重复(两拍子) 、一强两弱的循环重复(三拍子) abcdefga 440.00880.00 12 半 音 12 半 音 466.16 *2 1/12 493.88 523.25 554.37 587.33 622.25 659.26 698.46 739.99 783.99 830.61 11 等,可见在这种循环重复中起主要作用的是强弱关系的顺序。在节拍中,这种相 同的时间片段就叫做“单位拍” ,也就是我们平时所说的“一拍” 。处于强关系的 单位拍就是强拍、处于弱关系的单位拍就是弱拍。 音乐的拍子,是根据乐曲的要求而定的,比如当乐曲寻求规定的速度是每分 钟 60 拍,那么每拍占的时间是每分钟的 60 分之一,也就是一秒, (半拍为二分 之一秒) ,如果规定的速度为每分钟 120 拍的时候,那么每一拍占的时间是半秒 钟(半拍是 1/4 秒) ,现在是半秒钟打一拍,前面是一秒钟打一拍,显然后者要 比前者快,以此类推。这也就是拍子的时值,当拍子的时值定下来之后,比如四 分音符为一拍时,八分音符就相当于半拍,全音符相当于 4 拍,二分音符相当于 二拍。而十六分音符则是 1/4 拍,换句话说,也就是一拍里有一个四分音符,有 两个八分音符,有 4 个 16 分音符。再比如以八分音符为一拍,四分音符就是两 拍,二分音符是四拍,全音符是八拍,而十六分音符即半拍,这样,当拍子的时 值确定后,各种时值的音符就与拍子连在一起。 节奏与节拍永远是同时存在的,是不可分割的有机组成部分。节奏必然存在 于某种节拍之中,而节拍中也必然含有一定的节奏。 2.2.4 音程与和弦 音程指两个音级在音高上的相互关系,就是指两个音在音高上的距离。在我 们日常生活当中,有很多的计量单位。比如说量长度的有公里、米、厘米、尺、 寸,重量单位有斤、两等等。音程同样也有一个度量单位,这就是“度” ,也叫 做“度数” 。其中还包含着“音”也叫做“音数” 。音程的大小名称都是由“度数” 和“音数”决定的。五线谱上的每一条线和每一个间都是一度。两个音同在一条 线上,或者同在一个间里的时候,这两个音的音程关系叫做“一度” ,或者叫做: “同度” 。如果两个音,一个在线上,另一个音在紧挨这个音的间里,那末这两 个音之间的音程关系叫做: “二度” 。如果两个音都在线上,而且是最近的两条线 上, 或者是两个音同样在两条最近的间里, 这两个音之间的音程关系就叫做: “三 度” 。音程的度数,也就是两个音中间相距有多少个音级,两个音符之间相差几 个自然音音名的数量单位,几度就是把起始音算在内,沿着音级数有几个音名。 钢琴上相邻两个键(包括黑键)之间差半音,两个半音等于一个全音。 和弦是乐理上的一个重要概念,指的是一定音程关系的一组声音。将三个和 12 三个以上的音,按三度叠置的关系,在纵向上加以结合,就成为和弦。通常有三 和弦(三个音的和弦) 、七和弦(四个音的和弦) 、十三和弦等,但并不存在 32 和弦、40 和弦乃至 64 和弦的说法。严格地说, “和弦铃声”是商业上的概念, 并不符合乐理。不过,在音频器材的工业设计方面,和弦也叫复音,指的是多个 音源同时发音。如一首弦乐是四重奏的话,至少需要十六个音源才有可能完美地 表现出来;八重奏就得三十二个音源,也就是说多和弦手机是可以模拟出多重奏 的演奏效果的,所以,讲“和弦铃声”并不是完全没有道理。和弦铃声远比叮叮 咚咚的单音铃声好听,它的声音更加饱满、圆润,在听觉上能给人以美的享受。 和弦按音程分为以下三大类: 1、三和弦:由三个音组成,各音之间是三度关系。又可分为大三和弦,其 第一、三音之间是大三度,三、五音之间是小三度,如 c 和弦:1、3、5;小三 和弦,三个音之间均为小三度,如 am。 2、七和弦:由四个音组成,各音之间也是三度关系。如 c7:1、3、5、7。 还可细分为大七和弦、小七和弦等。 3、九和弦:在七和弦基础上再叠加一个三度音。此类和弦很少使用。 和弦按功能主要分为以下两大类: 1、主和弦 三和弦的一种,在和弦体系中起主导作用的和弦。它是和曲子的主干音紧密 相关的,确定整个曲子的基调。如以 c 大调为例,其主和弦即 c 和弦 1、3、5; 而 a 小调的主和弦为 am 和弦。 2、属和弦 和弦的一种,从其功能来看,对主和弦起附属作用,故名属和弦。其根音是 主和弦根音的上行纯四度(四度音中只有一个半音程,这样的音程称为纯四度, 因其音响效果是最和谐的,如 1 到 4,在其 1、2、3、4 四度音程中,只有 3、4 间是半音) 。如以 c 调而言,主音是 1,其上行纯四度是 5,即 g,则属和弦为 g 和弦。属和弦有倾向主和弦的特性。 2.3 钢琴的音乐特性 2.3 钢琴的音乐特性 钢琴是一种键盘乐器,用键拉动琴槌以敲打琴弦。从十八世纪末以来,在欧 13 洲及美国,钢琴一直是最主要的家庭键盘乐器。钢琴发源于欧洲,十七世纪末, 意大利人克里斯多佛利(bartolommo cristofori)发明的一种类似现代钢琴的键盘 式乐器。 音域(range)是乐器的属性之一,是音乐艺术使用的音调高低的范围。钢琴 上的 88 个琴键几乎包括了整个乐音体系的音列,它的音域为 a2-c5,最低频率 为 27.5hz,最高频率为 4186hz。以中央 c 为标准,向左为小字组、大字组、大 字一组;向右为小字一组、小字二组、小字三组、小字四组、小字五组。钢琴音 量相对宏大,力度变化层次更明显更多变。乐器发出的音品不同则音色不同。乐 器音质的差别同发音体形状、构造、材料的质量、成分、弹性以及激发振动的方 式等有关。总的来说,钢琴低音浑厚浓郁,中音自然流畅,高音明亮华丽。钢琴 及其音乐发展与十二平均律密不可分。十二平均律有着与纯律、五度相生律这两 种律制不可替代的优点,虽然它较自然泛音音列略有出入,然而其均整性(即一 个八度内十二等份的平均划分的半音律制)可以使音乐家灵活地转调。总之,现 代钢琴作为己定型地乐器中最高级的代表,是用途最为广泛的乐器。 14 第三章 神经网络应用于钢琴单音识别 3.1 常见的单音识别方法 3.1 常见的单音识别方法 3.1.1 并行处理基音检测器 音乐信号是由基音和它的谐波组成的。对于特定的音乐信号,其基音和谐 波的相位关系是确定的。这些信号周期性有规律的叠加的结果,必然是整个波形 在时间轴上以基音呈周期性,这是时域识别算法的基础。在算法中,信号首先经 过高通滤波器以滤去 50hz 的交流声,然后进行并行处理 20,整个处理结构如图 3-1 所示。 图 3-1 并行处理基音检测器处理结构图 figure 3-1 structure diagram of pitch detector by parallel processing 在图 3-1 中,控制单元将基音预测值和数据交给并行处理单元处理,并行 单元分别得出自己的基音估值,交由控制单元以“服从多数”的原则进行基音最 终判决并作为下一次预测值。 3.1.2 谐波峰值法 由于音高与频率的对应关系,在频域识别显得更加直截了当,因此出现了许 多基于快速傅里叶变换(fft)的识别算法。这类算法均将信号进行 fft,然后根 据谐波和基音的关系来确定基音。一般地,这种识别对音乐信号进行 fft 得到 频域数据,提取出其中局部最大值(峰值)序列,原则上把序列频率的最大的公因 a b 数据 控制单元 预测周期 峰值序列 并行处理器 基音估计 15 子作为音高。但是,由于音乐信号的频宽较大,对于音高跨度较大的乐曲,如果 乐器的谐波比较丰富,就可能使识别出现错误。 3.1.3 小波变换 很久以来,人们在信号处理领域陷入了误区。 在时域和频域探索的算法,不管 它们多么有效,一个难以接受的事实越来越明显:在时域时,频域的详情难以知 道;在频域时,时域的详情也难以得知。然而,大量的情况下,需要同时知道信号 的局部时域(位置)和频域的细节,如在图形边缘检测中,需要知道信号突变的位 置;在语音/音乐识别中,需要知道在什么时候出现什么样的音节/音符。为了了 解信号的局部特性,人们使用gabor窗口傅里叶变换,它能对信号的局部特性作一 定分析,但是选定窗口后时频分辨率也就固定不变了,这是它的最大弱点。 由于小波变换 21的恒q性质,因此在不同尺度下,时频分析窗的面积保持不 变。众所周知,信号中的高频成份往往对应时域中的快变成份,对这一类信号分 析时则要求时域分辨率要好,与此相反,低频信号往往是信号中的慢变成份,对 这类信号分析时一般希望频率的分辨率要好,显然,小波变换的特点可以自动满 足实际的需要。 综土所述,由于小波变换具有恒q性质及自动调节对信号分析的时宽或带宽 等一系列突出优点,因此被人们称为信号分析的“数学显微镜” 。 小波变换的定义为:平方可积函数( ) t满足条件: 21 | ( )| |d + + (3-1) 称之为一个基本小波或小波母函数。令 , 1 | a b tb aa = ,;0a br a (3-2) 其中a为伸缩因子,b为平移因子。对于离散的情况,小波序列为: /2 , ( )2(2) jj j k ttk = , j kz (3-3) 对于任意的函数 2 ( )( )f tl r的连续小波变换为 16 1/2 , ( , ),|( ) () fa b r tb wa bfaf tdt a = (3-4) 小波变换的时频窗口特性与短时傅里叶的时频窗口不一样。 其窗口形状为两 个 矩 形 00 , ()/ ,()/ babaaa + +,窗 口 中 心 为 0 ( ,/ )ba,时窗和频窗宽分别为a和/a。其中,b仅仅影响窗口在相平 面时间轴上的位置,而不仅影响窗口在频率轴上的位置,也影响窗口的形状。这 样小波变换对不同的频率在时域上的取样步长是调节性的。其逆变换为 2 11 ( )( , ) () f r r tb f twa bdadb caa = (3-5) 下面是一种较简单的基音检测算法 22: (1)构造一个小波函数,其脉冲响应函数为( , )h t j,中心频率为 0 f ,带宽为 0 f,使其覆盖信号频带, j 为压扩因子,初值为 0。 (2)在压扩因子 j 下,计算小波变换。 (3)计算小波变换后的局部最大值的间距为基音估值。 (4)如果前后两次基音估值相等,即取此值为基音。否则1jj=+回到(2)。 这里小波变换用作一个中心频率和带宽可调的滤波器,压扩因子 j 每增加一 次,小波函数的中心频率和带宽便缩小一半,每经一次变换,高频谐波部分被滤 去一半,而基音部分被保存下来,变换后的波形也越来越纯,更接近基音本身的 波形,当前后两次的估值一致时,说明己无谐波可滤。这时用(3)这样的简单的 算法即可确定基音。 3.1.4 几种单音识别算法比较 根据学者顾亦然的研究与分析,有以下四点结论: (1)录音质量好,波形完整,谐波不太丰富时,三种算法都有效。 (2)录音质量较差,波形残缺失,并行处理法出错率显著上升,某些条件下 甚至完全失效,谐波峰值法和简单小波算法则基本不受干扰。 (3)对于有简单和声伴奏的乐曲,并行处理法和简单小波算法无效,而谐波 峰值法仍有较强的识别能力。 17 (4)对于基频分量特别小,偶次谐波特别丰富的场合,谐波峰值法误判可能 性增大,但这对简单小波算法影响不大。 3.2 人工神经网络基础 3.2 人工神经网络基础 神经网络(neural network)是大量处理单元(神经元、处理器件、光电器件 等)广泛互连而成的网络。它是在现代神经科学研究成果的基础上提出来的,反 映了人脑功能的基本特性。 然而, 它不是人脑的真实描写, 而只是它的某种抽象、 简化及模拟。从这个意义上说,把它叫做人工神经网络为(artificial neural network)更为恰当。 神经网络是一个具有高度非线性的超大规模连续时间的动力系统, 其最主要 特征有:连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度 的稳健性和学习联想能力。同时它又具有一般非线性动力系统的共性,即不可预 测性、吸引性、非平衡性、不可逆性、耗散性、高难性、广泛联结性与自适应性 等。 因此, 神经网络实际上是一个超大规模非线性连续时间自适应信息处理系统。 人工神经网络(artificial neural network), 是模拟人类大脑处理信息的一般模 型,是一种与传统模式识别完全不同的分布式并行信息处理系统,它吸取了生物 神经网络的部分优点, 致力于按照生物神经系统的类似方式处理真实世界的各种 信息。 3.2.1 人工神经网络的基本特点 人工神经网络是一个多维非线性的自适应并行分布处理信息系统, 其信息处 理由神经元之间的相互作用来实现。信息存储表现为神经元之间的物理连接。网 络的学习取决于神经元之间的连接权值的动态变化。神经网络具有如下的特点: (1) 高度的并行性 人工神经网络是由许多相同的简单处理单元并联组合而成, 虽然每个单元的 功能简单,但是大量简单处理单元的并行活动,使其对信息的处理能力与效果惊 人。 (2) 高度的非线性全局作用 人工神经网络每个神经元接受大量其他神经元的输入, 并通过并行网络产生 输出,影响其他神经元,网络之间的这种相互制约和相互影响,实现了从输入状 18 态到输出状态的非线性影射。从全局的观点来看,网络整体性能不是网络局部性 能的简单迭加,而是表现出某种集体性的行为。 (3) 良好的容错性与联想记忆功能 人工神经网络通过自身的网络结构能够实现对信息的记忆。 而所记忆的信息 是存储在神经元之间的权值中。从单个权值中看不出来所存储的信息内容,因而 是分布式的存储方式。这使得网络具有良好的容错性,并能进行聚类分析、特征 提取、缺损模式复原等模式信息处理工作;又易于做模式分类、模式联想等模式 识别工作。 (4) 极强的自适应、自学习功能 人工神经网络可以通过训练和学习来获得网络的权值与结构, 呈现出很强的 自学习能力和对环境的自适应能力。 3.2.2 人工神经网络的组成及结构 神经元是神经网络的基本处理单元,它是多输入多输出的非线性器件,其结 构如图3-2 所示。其中 i x 为需要传输的输入信号, i 为阈值, ij w为权值, i s 为 外部信号,也即偏置信号, i y 为该神经元节点输出信号, i 为神经元节点的输入 信号,f 称为神经元的作用函数,也常称为传输函数。该神经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论