




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录一、问题重述2二、问题提出2三、问题分析2四、模型假设2五、主要符号说明3六、模型建立与求解36.1探究影响流行音乐风格分类的主要因素36.1.1旋律对音乐风格的影响36.1.2音高对音乐风格的影响66.1.3和声对音乐风格的影响76.1.4音色对音乐风格的影响76.1.5复调对音乐风格的影响76.1.6节拍对音乐风格的影响76.2对各影响因素进行主成分分析86.2.1模型的建立86.2.2模型的求解106.3用matlab进行音乐特征提取116.3.1利用FFT进行频谱分析116.3.2特征提取分析126.3.3特征提取结果126.4基于BP神经网络的分类算法136.4.1 BP神经网络
2、介绍136.4.2 BP神经网络训练步骤146.4.3 BP神经网络语音特征信号分类156.4.4 归一化处理166.4.5 结果分析16七、模型的优缺点187.1层次分析法的优缺点187.2主成分分析法的优缺点187.3 BP神经网络的优缺点18八、参考文献19一、问题重述随着互联网的发展,流行音乐的主要传播媒介从传统的电台和唱片逐渐过渡到网络下载和网络电台等。网络电台需要根据收听者的已知喜好,自动推荐并播放其它音乐。由于每个人喜好的音乐可能横跨若干种风格,区别甚大,需要分别对待。这就需要探讨如何区分音乐风格的问题。在流行音乐中,传统的风格概念包括Pop(流行)、Country(乡村)、Ja
3、zz(爵士)、Rock(摇滚)、R&B(节奏布鲁斯)、New Age(新世纪)等若干大类,它们分别可以细分成许多小类,有些小类甚至可以做更进一步的细分。而每首歌曲只能靠人工赋予风格标签。这样的做法有许多不足:有的类别之间关系不清楚,造成混乱;有的类别过度粗略或精细;有的类别标签没有得到公认;有的音乐归属则存在争议或者难以划归。二、问题提出建立合理的数学模型,对流行音乐的风格给出一个自然、合理的分类方法,以便给网络电台的推荐功能和其它可能的用途提供支持。三、问题分析对于流行音乐风格的分类,要从以下三个方面进行考虑:(1)探究影响流行音乐风格分类的主要因素。目前,旋律、音高、和声、音色、复
4、调和节拍等都是体现音乐风格的因素。通过建立递阶层次结构,构造判断矩阵并赋值、层次单排序(计算权向量)与检验、主成分分析的数学模型等方法,确定影响流行音乐风格的主要因素;(2)音乐特征提取。通过FFT进行频谱分析,利用不同类别音乐的统计规律提取特征向量;(3)进行归一化处理;(4)利用BP神经网络分类算法进行分类。四、模型假设4.1忽略主观因素对流行音乐风格分类的影响4.2假设每个音乐分类是明确的4.3假设流行音乐市场处于稳定状态4.4其他所发生的偶然因素对模型无影响五、主要符号说明神经网络的输入值神经网络的预测值、神经网络权值a隐含层阈值b输出层阈值数据序列最小数数据序列均值学习速率六、模型建
5、立与求解6.1探究影响流行音乐风格分类的主要因素6.1.1旋律对音乐风格的影响6.1.1.1分析旋律亦称曲调,是经过艺术构思而形成的若干乐音的有组织、有节奏的和谐运动。它建立在一定的调式和节拍的基础上,按一定的音高、时值和音量构成的、具有逻辑因素的单声部进行的。在音乐作品中,旋律是表情达意的主要手段,也是一种反映人们内心感受的艺术语言。对于流行音乐风格分类来说,每个风格各异,歌曲旋律也不尽相同。如rap舞曲它以人声的吟唱加上鼓的清晰浓郁节奏,歌词通俗,朗朗上口;乡村音乐在唱法上多用民间本嗓演唱,形式多为独唱或小合唱,用吉他、班卓琴、口琴、小提琴伴奏。6.1.1.2模型的建立因为影响旋律的因素有
6、很多,我们采用层次分析法来解决这一问题。所谓层次分析法,是指将一个复杂的多目标决策问题作为一个系统,将目标分解为多个目标或准则,进而分解为多指标(或准则、约束)的若干层次,通过定性指标模糊量化方法算出层次单排序(权数)和总排序,以作为目标(多指标)、多方案优化决策的系统方法。6.1.1.2.1建立递阶层次结构 AHP递阶层次结构三个层次组成:目标层、准则层、指标层,如图所示:6.1.1.2.2构造判断矩阵并赋值构造判断矩阵时用到1-9标度,对重要性程度按1-9赋值(重要性标度值见下表)重要性标度含 义1表示两个元素相比,具有同等重要性3表示两个元素相比,前者比后者稍重要5表示两个元素相比,前者
7、比后者明显重要7表示两个元素相比,前者比后者强烈重要9表示两个元素相比,前者比后者极端重要2,4,6,8表示上述判断的中间值倒数若元素I与元素j的重要性之比为aij, 则元素j与元素I的重要性之比为aji=1/aij6.1.1.2.3 层次单排序(计算权向量)与检验层次单排序是指每一个判断矩阵各因素针对其准则的相对权重,所以本质上是计算权向量。计算权向量有特征根法、和法、根法、幂法等,这里简要介绍和法。和法的原理是,对于一致性判断矩阵,每一列归一化后就是相应的权重。对于非一致性判断矩阵,每一列归一化后近似其相应的权重,在对这n个列向量求取算术平均值作为最后的权重。具体的公式是:需要注意的是,在
8、层层排序中,要对判断矩阵进行一致性检验。在特殊情况下,判断矩阵可以具有传递性和一致性。一般情况下,并不要求判断矩阵严格满足这一性质。但从人类认识规律看,一个正确的判断矩阵重要性排序是有一定逻辑规律的,例如若A比B重要,B又比C重要,则从逻辑上讲,A应该比C明显重要,若两两比较时出现A比C重要的结果,则该判断矩阵违反了一致性准则,在逻辑上是不合理的。因此在实际中要求判断矩阵满足大体上的一致性,需进行一致性检验。只有通过检验,才能说明判断矩阵在逻辑上是合理的,才能继续对结果进行分析。一致性检验的步骤如下:第一步,计算一致性指标C.I.(consistency index)第二步,查表确定相应的平均
9、随机一致性指标R.I.(random index)据判断矩阵不同阶数查下表,得到平均随机一致性指标R.I.。平均随机一致性指标R.I.表(1000次正互反矩阵计算结果)矩阵阶数12345678R.I.000.520.891.121.261.361.41矩阵阶数9101112131415R.I.1.461.491.521.541.561.581.59第三步,计算一致性比例C.R.(consistency ratio)并进行判断当C.R.<0.1时,认为判断矩阵的一致性是可以接受的,C.R.>0.1时,认为判断矩阵不符合一致性要求,需要对该判断矩阵进行重新修正。6.1.1.2.4.层次
10、总排序与检验总排序是指每一个判断矩阵各因素针对目标层(最上层)的相对权重。这一权重的计算采用从上而下的方法,逐层合成。很明显,第二层的单排序结果就是总排序结果。假定已经算出第k-1层m个元素相对于总目标的权重w(k-1)=(w1(k-1),w2(k-1),wm(k-1)T,第k层n个元素对于上一层(第k层)第j个元素的单排序权重是pj(k)=(p1j(k),p2j(k),pnj(k)T,其中不受j支配的元素的权重为零。令P(k)=(p1(k),p2(k),pn(k),表示第k层元素对第k-1层个元素的排序,则第k层元素对于总目标的总排序为:w(k)=(w1(k),w2(k),wn(k)T= p
11、(k) w(k-1) 或 I=1,2,n同样,也需要对总排序结果进行一致性检验。假定已经算出针对第k-1层第j个元素为准则的C.I.j(k)、R.I.j(k)和C.R.j(k), j=1,2,m,则第k层的综合检验指标C.I.j(k)=(C.I.1(k) ,C.I.2(k) , C.I.m(k))w(k-1)R.I.j(k)=(R.I.1(k) ,R.I.2(k) , R.I.m(k))w(k-1)当C.R.(k)<0.1时,认为判断矩阵的整体一致性是可以接受的。6.1.1.2.5 结果分析通过对排序结果的分析,得出最后的决策方案。6.1.1.3模型的求解通过使用AHP软件,我们得到了以
12、下数据:旋律曲调主题节奏曲调11/21/3主题211/2节奏321单层权重0.16340.29700.5396注:lmax=3.0092; CI=0.0046; RI=0.58; CR=0.0079曲调因素声音腔调声音高低语势轻重缓急声音腔调132声音高低1/311/2语势轻重缓急1/221单层权重0.53960.16340.2970注:lmax=3.0092; CI=0.0046; RI=0.58; CR=0.0079主题因素歌词作者情感背景音歌词11/21/3作者情感211/2背景音321单层权重0.16340.29700.5396注:lmax=3.0092; CI=0.0046; RI=
13、0.58; CR=0.0079节奏因素乐器特点节拍快慢乐器特点12节拍快慢1/21单层权重0.66670.3333注:lmax=2; CI=0; RI=1E-6; CR=0通过上述分析,我们可以得到节奏在旋律因素中起到主要的影响,其次是主题因素和曲调因素。在曲调因素中,声音腔调对其影响很大;在主题因素中,背景音到很大的影响;在节奏因素中,乐器特点对其影响占有很大的比例。综上所述,旋律因素对音乐风格分类有很大的影响。6.1.2音高对音乐风格的影响音高即音的高低。音乐如语言,孤立的音是构不成乐句的,有了乐句才能构成乐段,从而表达完整的乐思。由一组高低不同的音按照一定的调式关系和节奏关系组织起来,并
14、体现着相对稳定的乐思,便形成了旋律。由于音高之间的次第变化,使旋律进行形成上行、下行、平行、波浪等多种进行方向。6.1.3和声对音乐风格的影响两个以上不同的音按一定的法则同时发声而构成的音响组合称为和声。和声有明显的浓,淡,厚,薄的色彩作用;还有构成分句,分乐段和终止乐曲的作用。在调性音乐中,和声同时具有功能性与色彩性的意义。和声的功能,是指各和弦在调性内所具有的稳定或不稳定的作用、它们的运动与倾向特性、彼此之间的逻辑联系等。和声的功能与调性密切相关,离开了调性或取消了调性,和声也就失去了它的功能意义。和声的色彩,是指各种和弦结构、和声位置、织体写法与和声进行等所具有的音响效果。和声的色彩是和
15、声表现作用的主要因素,无论在调性音乐或非调性音乐中,它都具有重要意义。6.1.4音色对音乐风格的影响音色是指声音的感觉特性。我们可以通过音色的不同去分辨不同的发声体。音色是声音的特色,根据不同的音色,即使在同一音高和同一声音强度的情况下,也能区分出是不同乐器或人发出的。音色的不同取决于不同的泛音,每一种乐器、不同的人以及所有能发声的物体发出的声音,除了一个基音外,还有许多不同频率的泛音伴随。正是这些泛音决定了其不同的音色,使人能辨别出是不同的乐器甚至不同的人发出的声音。6.1.5复调对音乐风格的影响复调是若干旋律的同时结合。音乐从声部的组合方式上分为单音音乐,主调音乐,复调音乐三类。复调是音乐
16、的重要手段之一。它通过旋律与旋律的结合,既能现时刻划两个或几个具有鲜明性格的音乐形象和表达一个音乐形象的不同侧面。又能促进乐思形成连续不断的发展,还能够加强乐曲结构上的统一性。6.1.6节拍对音乐风格的影响当音乐的节奏按照某种时值长度和轻重关系进行有序的组织时,就形成了节拍。所以,节拍即数列对音乐时值、节奏的逻辑组织。现代音乐中的各种变节拍,也常反映为另外一些数列控制。如斯特拉文斯基的春之祭中就有等差数列节拍等,被西方视为现代手法。特定的节奏、节拍可能具备特定的体裁特征,如圆舞曲、马祖卡、波罗奈兹都是三拍子,但圆舞曲的强拍在小节第一拍,马祖卡的节拍重音在第二拍,而波罗奈兹的特定节奏更给人一些进
17、行曲似的感受。从而也使三种舞曲获得了完全不同的风格特点和气质。6.2对各影响因素进行主成分分析6.2.1模型的建立6.2.1.1主成分分析基本思想 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如p个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原有
18、信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)0。称F2为第二主成分,依此类推可以构造出第三、第四、第p个主成分。6.2.1.2 主成分分析的数学模型 设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,X2,Xp,得到原始数据资料阵:其中Xi = (x1i,x2i,xni)',i = 1,2,p。用数据矩阵X的p个列向量(即p个指标向量)X1,X2,Xp作线性组合,得综合指标向量:简写成:Fi = a1iX1 + a2iX2 +apiXp i = 1,2,p为了加以限制,对组合系数ai' = (a1i,a2i,api)作如下
19、要求:即:ai为单位向量:ai'ai = 1,且由下列原则决定: 1) Fi与Fj(ij, i, j = 1, , p)互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=ai'ai,其中为X的协方差阵2) F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即,其中c = (c1,c2,cp)' F2是与F1不相关的X1,X2,Xp一切线性组合中方差最大的,Fp是与F1,F2,Fp-1都不相关的X1,X2,Xp的一切线性组合中方差最大的。满足上述要求的综合指标向量F1,F2,Fp就是主成分,这p个主成分从原始指标所提供的信息总量中所提取的信
20、息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值li,每一个主成分的组合系数ai' = (a1i,a2i,api)就是相应特征值li所对应的单位特征向量ti。方差的贡献率为,ai越大,说明相应的主成分反映综合信息的能力越强。6.2.1.3主成分分析的步骤(1) 计算协方差矩阵计算样品数据的协方差矩阵: = (sij)p´p,其中 i,j = 1,2,p(2) 求出的特征值及相应的特征向量 求出协方差矩阵的特征值l1³l2³lp>0及相应的正交化单位特征向量:则X的第i个主成分为Fi = ai&
21、#39;X i = 1,2,p。(3) 选择主成分 在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定以累计贡献率达到足够大(一般在85%以上)为原则。(4) 计算主成分得分计算n个样品在m个主成分上的得分:, i = 1,2,m(5) 标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:其中,j = 1,2,p。标准化后的数据阵记为X*,其中每个列向量(标准化变量)的均值为0,标准差为1,数据无量纲。标准化后变量的协方差矩阵(
22、Covariance Matrix) = (sij)p´p,即原变量的相关系数矩阵(Correlation Matrix)R= (rij)p´p:i,j = 1,2,p此时n个样品在m个主成分上的得分应为:Fj = a1jX1* + a2jX2* +.+ apjXp* j = 1,2,m6.2.2模型的求解利用spss软件,我们进行分析:从碎石图可以看出,与特定乐曲联系最为密切的是旋律和音高。当旋律和音高确定了,无论演奏的音色如何,速度快慢,音量大小,听者都能辨认出乐曲,所以旋律和音高是比较适当的音乐特征。需要注意的是,绝对的音高不能作为音乐特征,因为同一乐曲是可以移调演奏
23、的;同样地,节奏速度的改变也不能作为音乐特征,因为同样的乐曲演奏的速度也会有变化。6.3用matlab进行音乐特征提取6.3.1利用FFT进行频谱分析若信号本身是有限长的序列,计算序列的频谱就是直接对序列进行FFT运算求得,就代表了序列在之间的频谱值。幅度谱 相位谱 若信号是模拟信号,用FFT进行谱分析时,首先必须对信号进行采样,使之变成离散信号,然后就可按照前面的方法用FFT来对连续信号进行谱分析。按采样定理,采样频率应大于2倍信号的最高频率,为了满足采样定理,一般在采样之前要设置一个抗混叠低通滤波器。用FFT对模拟信号进行谱分析的方框图如下所示。抗混叠低通滤波器采样T=1/fsN点FFT截
24、取20秒时长的乡村音乐,得到波形和频谱图如下:6.3.2特征提取分析上文中我们知道了与特定乐曲联系最为密切的是旋律和音高。根据旋律的不同,可将音乐分为平缓部分、高潮等部分,决定音乐风格的基本是高潮部分,如高潮出现的时间、次数,以及强度等。特征的提取的工作就实际上就可以是一个分类的过程:将每一个帧分类,将高潮部分和相对激烈的帧提取出来作为特征向量。首先,将音乐划分为一系列的帧,对每一个帧用下式计算FE:根据,计算得到静音阈值,并依次阈值对FE进行过滤,剩下的片段认为是非背景声。6.3.3特征提取结果我们选取了15个音乐片段进行实验,每段音乐截取20秒时长进行分析,依据以上算法得到的结果画出分布图
25、如下:图中,红色圆点表示Piano样本;绿色方块表示Rock样本;蓝色星号表示Pop样本。可以看到,由于Piano风格的音乐相对比较舒缓,“高潮”部分就比较稀疏,而且距离的方差较大;而与其风格截然不同的Rock风格的音乐节奏比较紧快,“高潮”迭起,表现为高潮段落之间相隔较短,距离方差也相对较小。上图的结果正好符合这样的分析。 从图中还可以看到,各种不同风格类型的音乐其特征向量虽然差别较大,但有明显的聚簇。从而证明了这样提取出来的特征向量是有效的。6.4基于BP神经网络的分类算法6.4.1 BP神经网络介绍BP神经网络是一种多层前馈神经网络,该网络的主要特点是信号前向传递,误差反向传播。在前向传
26、递中,输入信号从输入层经隐含层逐层处理,直至输出层。每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP神经网络预测输出不断逼近期望输出。BP神经网络的拓扑结构如图所示。,是BP神经网络的输入值,是BP神经网络的预测值,和为BP神经网络权值。从图可以看出,BP神经网络可以看成一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量。当输入节点数为n,输出节点数为m时,BP神经网络就表达了从n个自变量到m个因变量的函数映射关系。6.4.2 BP神经网络训练步骤BP神经网络预测前首先要训练网络,通过训练使网络具有联想记
27、忆和预测能力。BP神经网络的训练过程包括以下几个步骤。步骤1:网络初始化。根据系统输入输出序列(X,Y)确定网络输入层节点数n、隐含层节点数l,输出层节点数m,初始化输入层、隐含层和输出层神经元之间的连接权值,初始化隐含层阈值a,输出层阈值b,给定学习速率和神经元激励函数。步骤2:隐含层输出计算。根据输入向量X,输入层和隐含层间连接权值以及隐含层阈值a,计算隐含层输出H。 式中,l为隐含层节点数;f为隐含层激励函数,该函数有多种表达形式,本文所选函数为:步骤3:输出层输出计算。根据隐含层输出H,连接权值和阈值b,计算BP神经网络预测输出O。 步骤4:误差计算。根据网络预测输出O和期望输出Y,计
28、算网络预测误差e。 步骤5:权值更新。根据网络预测误差e更新网络连接权值和。 式中,为学习速率。步骤6:阈值更新。根据网络预测误差e更新网络节点阈值a,b。 步骤7:判断算法迭代是否结束,若没有结束,返回步骤2。6.4.3 BP神经网络语音特征信号分类下面我们选取了民歌、古筝、摇滚和流行四类,用BP神经网络进行分类。基于BP神经网络的语音特征信号分类算法建模包括BP神经网络构建、BP神经网络训练和BP神经网络分类三步,算法流程如图所示。BP神经网络构建根据系统输入输出数据特点确定BP神经网络的结构,由于语音特征输入信号有24维,待分类的语音信号共有4类,所以BP神经网络的结构24-25 4,即
29、输入层有24个节点,隐含层有25个节点,输出层有4个节点。BP神经网络训练用训练数据训练BP神经网络。共有2000组语音特征信号,从中随机选择1500组数据作为训练数据训练网络,500组数据作为测试数据测试网络分类能力。BP神经网络分类用训练好的神经网络对测试数据所属语音类别进行分类。6.4.4 归一化处理数据归一化方法是神经网络预测前对数据常做的一种处理方法。数据归一化处理把所有数据都转化为0,1之间的数,其目的是取消各维数数据间数量级差别,避免因为输入输出数据数量级差别较大而造成网络预测误差较大。数据归一化的方法主要有以下两种。(1)最大最小法。函数形式如下:式中,为数据序列中的最小数;为
30、序列中的最大数。(2)平均数方差法。函数形式如下:式中,为数据序列的均值;为数据的方差。本文采用第一种数据归一化方法。 6.4.5 结果分析用训练好的BP神经网络分类语音特征信号测试数据,BP神经网络分类误差和神经网络分类正确率如图所示。可以看出,BP神经网络的语音信号分类算法具有较高的准确性,能够准确识别出语音信号所属的类别,说明了BP神经网络在音乐分类上的有效性。七、模型的优缺点7.1层次分析法的优缺点优点:1.系统性的分析方法;2.简洁实用的决策方法;3.所需定量数据信息较少。缺点:1.不能为决策提供新方案;2.定量数据较少,定性成分多,不易令人信服;3.指标过多时数据统计量大,且权重难以确定。7.2主成分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 丰眼窝的临床护理
- 热带痉挛性轻截瘫的临床护理
- 小儿肾静脉血栓形成的临床护理
- 2025年中级银行从业资格之中级公司信贷真题练习试卷B卷附答案
- 2025年初级银行从业资格之初级风险管理每日一练试卷A卷含答案
- 手机上网综合征的临床护理
- 心肌梗死后心包炎的临床护理
- 点燃新质生产力新引擎
- 新生儿窦性心律失常的临床护理
- 什么是全期末考试卷及答案
- 《大国浮沉500年:经济和地理背后的世界史》记录
- 水工维护初级工技能鉴定理论考试题库(含答案)
- 运维项目进度计划
- 商场中央空调租赁协议模板
- 十八项核心制度
- 浙江省杭州市2023-2024学年六年级下学期期中模拟测试数学试卷(人教版)
- 国家开放大学《Python语言基础》实验4:条件分支结构基本应用参考答案
- OTA代运营协议文档
- 内分泌科常见急危重症抢救流程
- 污染源权重分析报告
- 后勤人员保密知识讲座
评论
0/150
提交评论