




已阅读5页,还剩111页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于内容的音频与音乐分析 听觉是一个非常重要的信息来源 如何能让计算机具有人类的听觉能力是一个十分有趣的问题 有着广阔的应用前景由于实际应用的需要 同时也为了研究方便 学者们将机器听觉分为三大领域语音信号处理与识别一般音频信号分析基于内容的音乐分析 2 在这三个研究领域当中 有关语音识别的研究最为深入 每年都有大量的相关研究工作被报道 所谓一般音频信号是指除了语音信号以外的各种音频信号 其中也包括音乐 而音乐也是一般音频信号中最重要的一个类别 我们知道音乐是一种复杂的非自然的声音现象 它是人类智慧与感性思维的体现许多无法用语言准确描述的思想感情可以通过音乐表达出来 优秀的音乐作品往往会使人产生情感上的共鸣 3 因此 音乐被认为是全人类的共同语言 是人类几千年文化发展的成果 对它的研究无疑具有非常重要的价值 由于音乐本身包含着大量不同层次的信息 对音乐信号进行自动分析是十分困难的此外 人类社会已经进入数字化时代 娱乐业与信息产业愈来愈紧密地结合在一起 如何快速有效地搜索 管理和分析多媒体数据已经成为一个非常重要的问题 而基于内容的音频和音乐信号分析则有助于这一难题的解决 4 和语音信号处理与识别相比 有关基于内容的音乐和一般音频信号分析的研究工作相对较少但进入20世纪90年代以后 这个领域的研究工作取得了很大进展 国际上发表的有关论文数量大幅增长 5 重要的期刊和会议 IEEETransactiononSpeechandAudioProcessingIEEETransactiononPatternAnalysisandMachineIntelligenceIEEE Transactionon MultimediaIEEETransactiononSignalProcessingIEEEInternationalConferenceonAcoustics Speech andSignalProcessing ICASSP IEEEInternationalConferenceonMultimediaandExpo ICME InternationalSymposiumonMusicInformationRetrieval ISMIR 6 大纲 1引言2基于内容的音频和音乐分类与识别3基于内容的音频流分割4基于内容的音频数据自动检索5基于内容的音乐分析6其它相关工作7总结与展望 7 2基于内容的音频和音乐分类与识别 基于内容的音频数据自动分类是一个十分重要的研究方向 它可成为其他许多应用研究的基础 如基于内容的分割 检索等依据研究对象的不同 我们可以将这个领域的研究工作分为以下三个部分 针对音乐类数据的自动分类与识别包含音乐类数据的一般音频分类不包含音乐类数据的一般音频分类 9 2 1针对音乐类数据的自动分类与识别 由于音乐类数据具有高度的复杂性 根据研究对象的不同我们可以将这部分工作进一步细分为如下几个问题 针对不同音乐类型的自动分类基于内容的乐器 音色 自动分类与识别歌手自动识别 10 2 1 1针对不同音乐类型的自动分类 1 两类分类问题 2 多类分类问题 3 非监督分类 聚类 11 1 两类分类问题 两类分类问题是指 研究对象中仅仅包含有两种不同的混合音乐类型的数据由于应用需求的不同 学者们所感兴趣的具体研究对象也是不同的如Bickerstaffe等人研究了如何利用最小消息长度准则 MML 对摇滚乐和古典音乐进行自动分类 12 在他们的工作中比较了一种称为 Snob 的非监督学习方法和三种监督分类方法 决策树 决策图和人工神经网络 结果表明在这个问题中监督分类方法要明显优于非监督分类方法为了方便进行歌词自动识别 Berenzweig等人研究了如何区分流行歌曲中的演唱部分和纯伴奏部分 他们利用一个在说话人识别领域中常用的分类器对类似语音的声音信号进行检测 13 由于具有背景伴奏音乐的歌手演唱信号与一般的语音信号有着很大的不同 对于那些无法直接通过 说话人识别分类器 来确定类别的声音片段 作者将进一步采用一个基于HMM框架的方法来最终判断其类别 14 2 多类分类问题 在针对不同音乐类型的自动分类问题中 多类分类问题是比较常见的由于研究兴趣与具体应用需求的差异 学者们所关心的音乐类别往往不尽相同 但基本上都是采用基于样本训练的分类方法总的来说 研究所涉及的音乐类别越多则研究难度越大 15 Tzanetakis等人设计了一个以音乐类数据为主的三层音频分类树 见图 其内容覆盖了大部分西方现代音乐和一部分古典音乐其中在具有十种音乐类别的分类层次上可以达到61 的平均分类正确率 在他们的工作中使用了三种分别代表音色纹理 旋律内容和音高内容的特征集 并对这些特征的性能做了比较性研究 16 17 Lambrou等人利用小波系数作为特征 对摇滚乐 爵士乐和钢琴曲这三类音乐信号进行自动分类 同时比较了不同的小波构造方法和分类器对于这个三类问题的区分能力 18 3 非监督分类 聚类 前面所讨论的两类与多类音乐分类问题都属于监督分类问题 也就是说分类问题的类别是已知的 并且研究者可以获得类别已知的样本数据 这类情况比较常见与此相对应的则被称为非监督分类问题 此时研究者可能无法获得足够的类别已知的样本数据 有时甚至连类别数都无法知道 19 非监督分类问题又称为聚类分析 关于针对音乐数据进行聚类分析的研究报导较少 因为聚类结果强烈依赖于所定义的相似性度量 并且所产生的聚类结果很难满足某种具体的应用需要 20 2 1 2基于内容的乐器 音色 自动分类与识别 如何从一段给定的音乐信号中识别出参加演奏的乐器是一个非常有趣的问题这样的任务对于人类来说也许是非常轻松的 但对于机器来说却十分困难 21 识别或区分某种乐器主要依靠它特有的音色 从物理学上看音色则是由物体的振动状态所决定的 不同物体的振动状态决定了它的泛音及波形的不同 一个固定音高的音由于其中所含各阶谐频成分的比例不同 其音色也不同对于某种具体的乐器来说 这种频谱的变化又是十分复杂的 同一种乐器由于演奏技法的不同其音色也会发生显著的变化 22 因此 如何方便而准确地描述音色是一个难题有关乐器识别或音色识别方面的研究工作比较少 它们可以分为以下两种情况 1 独立演奏情况下的乐器识别 2 混合情况下的乐器识别 23 1 独立演奏情况下的乐器识别 大多数关于乐器自动识别的工作都是在独立演奏的假设下完成的 这使得工作变得相对容易了一些例如Kermit等人研究了如何对吉他 键盘乐器和鼓这三种乐器进行自动识别 他们首先采用Haar小波变换对音频信号进行预处理以提取特征 然后通过一个神经网络对测试数据进行分类他们的方法也可以用来对一些语音数据进行自动分类 如一些元音和字词 24 2 混合情况下的乐器识别 在实际演奏的情况下 尤其是在多乐器混响的情况下进行乐器自动识别是非常困难的 相关的研究报道非常少Josephson等人研究了模糊专家系统在混响情况下乐器识别问题中的有效性 并列举了几个应用实例他们建议采用定量的物理分析与模糊专家系统相结合的方法对音色进行识别 25 其中专家系统的知识库是这样建立的 专家的知识 从音乐信号中直接提取出的音质特性 如基频 谐波泛音强度 谐波相位偏移量等但是该文并没有详细给出系统的实现方法 26 2 1 3歌手自动识别 如何让计算机分辨出一首歌曲是哪位歌手所演唱的是一个十分有趣的问题由于人们在日常生活中所欣赏的音乐大多都是歌曲 解决该问题会十分有助于歌曲类多媒体数据的自动管理和检索这个问题与语音识别领域中的说话人识别非常类似 解决的思路也基本类似 27 但是由于人在演唱时嗓音的动态范围比说话时要大的多 再加上往往会有伴奏音乐 所以歌手识别问题要比说话人识别更加困难有关该问题的文献不多 它们可以分为以下两种情况 1 无伴奏情况下的歌手识别 2 有伴奏情况下的歌手识别 28 1 无伴奏情况下的歌手识别 在文献 6 中 作者对12位美声唱法歌手的清唱歌声做了自动识别研究他们采用频谱包络的主成分作为特征 并用一个二次分类器对来自不同歌手的歌声做自动识别通过交叉验证实验 对歌手的平均正确识别率为95 29 2 有伴奏情况下的歌手识别 Liu等提出了一种方法用于在MP3格式下做歌手识别他们首先通过一系列多项滤波器将训练集中的MP3音乐信号进行分解得到一系列音符 或音素 然后从每个音符中提取特征训练分类器对测试集中的歌曲进行歌手识别 30 Maddage等也提出了一种歌手自动识别方法 他们首先采用SVM分类器来检测歌曲中的演唱片断 然后通过高斯混合模型来对歌手的嗓音进行建模和识别在一个包含了100首独唱歌曲的数据库中 他们的方法可以达到87 的平均正确率 31 2 2包含音乐类数据的一般音频分类 包含音乐类数据的一般音频自动分类是指在分类对象中至少包含一种属于音乐类别的数据或者音乐与其他类别音频信号 如语音 的混和数据 32 2 2 1语音与音乐类数据的区分 由于语音和音乐是非常重要的两类音频数据 如何有效地区分语音和音乐就显得非常重要关于这方面研究的文献资料比较多 他们通常也被当作复杂情况下语音识别所必需的预处理工作 33 2 2 2其他多类分类问题 在包含音乐类数据的一般音频自动分类问题中 多类分类问题也是比较常见的由于研究者的兴趣和实际应用需求的不同 他们所关心的音频类别数和具体的音频类别往往不尽相同 但又十分相似 34 Lu和Zhang等首先通过K近邻结合线性谱对向量量化法 LSP VQ 将音频信号分为语音和非语音两大类 然后利用基于规则的分类方法将非语音类音频信号进一步分为音乐 环境声音和静音为此 他们还提出了自己定义的一些特征 如 噪音帧数比和频带周期 35 2 3不包含音乐类数据的一般音频分类 有关这方面研究工作的报道比较少Wold等提出了一种基于内容的声音文件的分类方法作者对一小段声音的WAV文件提取各种特征 持续时间 音高 振幅 带宽 明亮度 并计算它们的均值 方差 自相关等统计量 将这些特征及其统计量组成特征向量 用这个特征向量来表示这段声音 36 在此基础上 作者定义了声音文件之间的相似性度量 欧几里的距离 使得基于内容的相似性成为可计算的量随后作者用带标签的一组样本来定义一个特定的类 并计算其均值特征向量和协方差矩阵作为该类的数学模型最后用近邻法来做进一步的分类和检索工作 37 2 4小结 从前面的介绍中不难发现 有关基于内容的一般音频和音乐数据自动分类是一个十分开放的研究领域由于研究对象的复杂性和开放性 使得这个领域中拥有层出不穷的新问题有待学者们去探索和研究 这也是其能够成为近年来的一个研究热点的重要原因 38 另一方面 与一些传统的研究领域 如语音识别 人脸识别 指纹识别等 相比 这个新兴的研究领域也存在一些问题 比如缺乏一个可以被学者们所广泛接受的数据库目前的情况是几乎每个学者都在使用不同的数据 研究不同的问题这使得我们很难对不同的算法在性能上有一个直观的比较 这在一定程度上制约了有效的学术交流从研究方法上看 几乎所有的算法都是采用基于数据的机器学习框架 39 这一方面得益于近年来机器学习领域的迅速发展 而另一方面也反映出我们在研究事物本质特征方面的滞后 模式识别问题的核心是特征的提取与选择目前在有关音乐数据自动分类研究领域中被广泛使用的仍然是一些低层次的音频特征 如MFCC 线性预测系数以及各种时域 频域特征及统计量 这些特征显然不足以反映音乐现象的本质如何提取出更有效的可以揭示音乐现象本质的特征是一个亟待解决的难题 40 3基于内容的音频流分割 基于内容的音频流分割是指将一段音频流数据按其内容自动地分为若干片段 使得每个片段在内容类别上具有一致性它是基于内容的音频和多媒体数据分析领域中的一个十分重要的问题例如 一段电台或电视台的音频信号 其中可能包含古典音乐 流行歌曲 传统戏曲以及广告 语音等内容 42 如果能将其按这些内容属性合理地分割开来 就能够方便听众和观众选择收听 收视 也能够方便多媒体数据的分类保存和进一步的剪辑加工等面对海量多媒体数据 如果能开发出一种自动的 基于内容的音频流分割方法 无疑会大大地提高工作效率 43 3 1说话人分割 说话人分割是指根据说话人嗓音特性的不同 将音频流中属于不同说话者的声音片断分割出来Kim等比较了声谱投影和MFCC这两种特征在说话人分割问题中的有效性他们从不同说话人的声音片段中分别提取这两种特征并训练HMM模型用于说话人分割 实验结果表明MFCC的效果要好于ASP 44 3 2语音 音乐数据流分割 有不少研究工作都是专门针对语音和音乐类音频数据流的分割问题的事实上 在2 2 1节中讨论过的关于语音与音乐区分的许多算法都可以用于语音和音乐数据流分割此外 Ajmera等提出了一种针对广播信号的语音 音乐数据自动分割算法 它可以作为广播新闻自动翻译工作的预处理 45 他们首先用纯语音信号训练出一个神经网络 并将其作为信道模型然后在这个神经网络的输出端计算熵和信号的动态特性最后通过一个两状态的各态历经HMM模型对音频流信号进行分割 46 3 3其它多类音频流分割问题 关于这类音频分割问题的研究报道比较多 从研究方法上看这些工作可以大致分为两类 一类属于非监督的音频流分割方法 它们主要通过检测音频特征值的突变点或对音频信号做局部相似性分析而对音频流进行分割另一类则属于有监督的音频流分割方法 依据具体应用要求的不同 利用各种样本数据学习训练得到的音频流分割方法往往能够得到比较理想的分割性能 47 3 4利用音频分析技术的视听多媒体数据分割 在当今社会中 数字技术越来越多地应用于多媒体数据的管理 如电视制作 节目检索等方面如 对于类似电视 电影等既有图像又有声音的多媒体数据 如何快速有效地从大量数据中找出自己关心的片断是一个十分有趣的问题 48 传统的方法一般从视频数据入手去寻找线索 对视听数据进行分割 音频数据中所包含的信息没有被利用上但是在许多情况下 仅仅利用视频信息进行分割是非常困难的 如果能将音频信息利用起来无疑可以大大提高分割效率和正确率 49 3 5小结 总的来说 基于内容的音频流分割算法可以分为两大类 一类算法是基于特征值突变检测或音频流局部相似性分析的原则上说 这类算法可用于分割任意音频流数据但是在实际应用中 由于分割对象往往过于复杂并且算法不具有针对性 因而很难取得理想的效果 50 另一类算法是基于对音频片段的监督分类的由于这类音频流分割算法具有较强的针对性 因而当应用环境比较稳定时这类算法可以取得较好的效果但是当应用环境发生较大变化或应用于新的分割问题时 这类算法都需要重新收集样本数据训练并更新相应的分类器 甚至需要重新设计分类器因而这类音频流分割算法的应用灵活性相对较差 51 对于一个特定的分割算法 我们认为其分割精度 真实分割点检测率和虚假分割率都是非常重要的指标但令人遗憾的是到目前为止 几乎所有文献都只给出有关分割精度和正确分割率的报道 而没有对分割算法的虚假分割性能做出分析在许多应用中 人们不仅会在意分割点的精度 而且会更加关心虚假分割的比例 面对原本属于同一内容却被分割的支离破碎的音频片段 即使其真实端点的定位精度再高也已经失去了应用价值 52 例如 当用户从音频流中选听自己感兴趣的内容或跳过不感兴趣的内容 如广告等 时 如果频繁的错误出现自己并不感兴趣的段落或将自己感兴趣的段落错误跳过时 会严重影响他们对算法的使用热情但是在保证一定分割精度的前提下 提高真实分割点检测率和降低虚假分割率是相互矛盾的如何在设计算法时根据实际需要合理地平衡这些指标是一个值得认真考虑的问题 53 4基于内容的音频数据自动检索 基于内容的音频数据自动检索是一个十分重要的应用问题 事实上前面所介绍的关于音频数据自动分类和音频流分割的工作都可用于检索目的 55 4 1针对音乐类数据的自动检索 目前互联网上已有的音乐曲目的数量非常巨大 面对浩如烟海的音乐数据库 传统的检索方法主要依据曲名 演唱者 出版商等附属文字信息 但仅依靠这些检索手段往往不能满足用户快速有效地查找音乐作品的需要如果通过某种技术可以直接查找音乐文件的内容将会大大提高检索结果的有效性和准确性 56 基于内容的音乐类数据自动检索目前已经成为一个研究热点 相关文献报道比较多 其中一半以上都是最近三四年内的最新研究成果 57 4 1 1基于原曲局部相似性匹配检索 这类音乐检索工作的特点是允许用户提供希望查找的音乐的某一片断 系统经过对这一片断进行处理 提取特征 在音乐库中自动寻找到该音乐的完整文件或与之内容相似的作品 58 Mo等提出了一种针对MIDI格式的音乐文件的检索方法 并给出了一种基于主旋律的音乐文件之间相似性程度的计算方法他们认为音乐的基本曲调 主旋律 可以看成是一系列具有一定的音高和音长的音符集合可以将经过分解和规范化后的两段音乐的对应乐句作为基本比对单元 通过计算对应乐句中对应音符的相对音高的相似性和两音符之间关系的相似性来得到对应乐句的相似性值 从而最终得到两个音乐MIDI文件之间的相似性值 59 4 1 2歌曲 哼唱 检索 哼唱 检索是一种十分理想的基于内容的音乐检索方式 它是将用户哼唱的一段旋律作为查询内容从数据库中找出与之对应的或旋律相似的原曲 哼唱 检索方式通常用于歌曲检索 60 从技术实现上看 哼唱 检索是非常困难的 因为用户所哼唱的旋律往往与希望被检索到的歌曲相差很大 另外被检索的音乐作品往往具有伴奏音乐而通过哼唱所输入的查询旋律通常只能是清唱有关 哼唱 检索的研究报道比较少 且一般都是基于MIDI格式的 61 李扬等提出了一种近似旋律匹配方法 线性对齐匹配法 并在此基础上实现了一个哼唱检索系统原型 其算法流程见图该算法并非基于近似符号串匹配 统计模型或者特征空间 而是根据相近旋律的音高轮廓在几何上的相似性 将音高和节奏特征一并考虑所设计而成的新算法实验结果表明在含有3864首乐曲的搜索空间中 检索62段人声哼唱 线性对齐匹配法取得了90 3 的前3位命中率 62 63 4 1 3基于 情感 的音乐检索 有时候我们并不关心一首歌曲是谁唱的 也不在乎它具体的旋律 仅仅希望能够找到符合当时心情的歌曲就可以了 这就是所谓基于 情感 的音乐检索有关基于 情感 的音乐检索的研究工作非常少 64 Feng等通过检测音乐的演奏速度和 清晰度 来分析音乐中所蕴含的情感他们首先通过multipleagent方法检测出音乐演奏的速度 再将其转换为相对速度在 清晰度 计算的基础上求出所谓 平均寂静率 的均值和标准差 最后通过一个BP神经网络将音乐分为快乐 悲伤 愤怒和恐惧四类 用户将在一个三维可视化的特征空间中去检索感兴趣的音乐 65 4 2针对一般音频对象的自动检索 针对一般音频对象进行自动检索的研究工作比较少在2 3节中所介绍的研究工作均可用于一般音频对象检索此外 Zhang和JayKuo提出了一种分级的多类音频分类与检索方法 66 他们的方法分为三个阶段 首先通过对音频信号的短时特征曲线作统计和形态分析将音频信号进行粗分类 语音 音乐 环境声音和静音 然后对环境声音进一步提取时频特征并利用HMM将其细分为诸如掌声 雨声 鸟叫声等等 最后允许用户提供样本音频片段 数据库中与其相似的音频片段将被检索出来 67 4 3小结 基于内容检索是一个非常重要同时也非常困难的问题 其核心在于如何进行特征提取并有效地定义相似性度量应用需求不同 特征提取与相似性度量便会不同对于音乐数据而言 用户可以输入同一段信息 但希望得到的检索结果却可能大不相同 68 比如 对于同一首输入的流行歌曲用户可能希望按照歌手去检索 也可能希望按照配器 旋律 音乐风格甚至情感等其它信息进行检索如何有效地为音乐类数据定义相似性度量就显得更加困难 这其实也是一个知识表达方面的难题对于一个实用的基于内容的音乐检索系统 它可能面对的是海量的待检索数据 大类别数甚至不特定类别数 不同类别的数据量不平衡 用户需求多样性等困难 69 此外计算量也是一个不可忽视的问题总之 我们认为目前的基于内容音频及音乐检索算法与系统尚处于实验研究阶段 其性能距离真正实用化还有很大差距 70 5基于内容的音乐分析 这里所说的音乐分析是指针对某个完整的音乐作品所进行的分析和识别工作 有关这个领域的研究报导在最近几年增长较快 72 5 1音乐作品结构分析 音乐是一种十分复杂的 有层次的声音信号 一些学者致力于通过计算机来分析音乐本身的这种层次结构他们所定义的这种层次结构不一定和音乐学本身相关 但是可能会更适合于音乐信号的自动处理 73 由于MIDI格式本身已经包含了大量音乐信息 所以基于MIDI格式的音乐分析工作相对较多Hsu等定义了音乐信号中的 非平凡重复模式 所谓重复模式是指在一首音乐作品中重复出现的那些音符序列 非平凡重复模式则要求重复出现的音符序列对于这首音乐来说具有特殊性和代表性 比如 这首音乐的主旋律或主旋律的一部分 74 通常非平凡重复模式应该是具有一定长度的音符序列他们同时提出了两种基于MIDI格式的 非平凡重复模式 提取方法 相关矩阵法和PR树法 75 5 2音乐自动摘要 所谓音乐自动摘要是指对一段音乐信号生成一个高度简约又能反映出该音乐特点的摘要信息 如何对音乐数据进行摘要描述是一个重要的问题由于音乐所具有的高度复杂性 结构化 非语义性以及人们对音乐理解的主观性 为音乐数据自动生成摘要已经成为一项具有特殊挑战性的工作 76 另一方面 随着娱乐业的快速发展大量流行歌曲被不断创作出来据统计 仅在西方国家每个月就新产出大约4000张音乐CD 其中流行歌曲占据了很大的比例对于普通消费者来说 如何在浩如烟海的流行歌当中找到真正想听的歌曲 对于商家来说 如何快速有效地管理他们的海量音乐数据 77 这些都已成为紧迫的问题从总体上看有关音乐自动摘要的文献报导不算很多 其中大部分都是有关流行音乐的有迹象表明它正在成为一个新的研究热点 78 5 3音乐建模 对音乐进行建模分析是十分困难的 也是十分必要的关于音乐建模的研究很少 但近两年来也可以看到一些报道例如Wang等提出了一种音乐数据模型和相应的代数操作规则 并将其应用于数字音乐图书馆中的数据检索和查询 79 5 4乐谱自动识别与分析 乐谱自动识别是指将音乐演奏的声学信号所对应的乐谱信息自动翻译出来 它是音乐分析领域中的一项十分重要同时也是十分困难的工作我们知道一首音乐的乐谱记录着该音乐的全部信息 音乐家通过阅读乐谱就可以了解音乐的全貌 并不需要将它实际演奏出来 80 现有的许多音乐分析方面的工作都是基于MIDI格式的 因为MIDI格式本身包含着大量的乐谱信息 所以基于MIDI格式的音乐分析工作可以做的比较深入但是它们一个共同的缺点就是其对MIDI音乐文件格式的强烈依赖性 这制约了这些方法的应用价值 而大量的音乐数据大多采用一般音频格式存储 如果能将其所对应的乐谱自动识别出来 那么基于MIDI格式的音乐分析算法的应用价值就可以得到极大的拓展 81 当然乐谱自动识别的应用价值还远不止于此 在信号处理方面其本身所具有的研究价值也非常巨大乐谱自动识别是计算机音乐分析与理解中的一个传统研究领域 相关文献报道比较多 82 5 4 1音高估计与音符识别 音高估计或音符识别是乐谱自动识别工作的基础由于音高作为一个重要的音频特征 在语音识别以及一般音频分类 分析等工作中都有广泛应用 所以有关音高估计的文献比较多 也存在一些经典的方法 如自相关法等 83 目前对于单乐器在实验室环境下所演奏的单个音符的音高估计是比较准确的 但是对实际的音乐作品或复杂条件下做音高估计则相当困难 84 5 4 2节拍或节奏识别 关于节拍或节奏识别方面的文章近年来有所增加Goto等提出了一种针对不含有打击乐器 如鼓 的音乐节拍跟踪算法该方法不仅能够对间隔不超过四分之一音符的节拍信息进行检测 还能够在较大的时间尺度内对音乐节拍的结构进行分析 从而找到 和旋 等高级音乐结构的改变点 85 5 4 3旋律或和声提取 音乐作品中的旋律与和声是一种非常重要的高级信息 但是如何从基于一般音频信号的音乐记录中将其提取出来是十分困难的 有关的文献报道并不多Su等提出了一种基于小波变换和自组织神经网络的多音色和声自动识别方法 他们的方法可以直接对和声音频片段进行分类而不需要知道具体的乐器音色和音符序列 86 5 4 4复调音乐乐谱识别 多乐器 包括演唱者 混响下的乐谱识别与分析是非常困难的 然而在实际的音乐作品中往往存在着大量的复调成分 这也是为什么乐谱自动识别技术始终无法真正实用化的重要原因之一有关复调音乐乐谱识别的文献不多 但是最近两年该领域的研究成果有所增加 87 5 5自动伴奏 自动伴奏是一个十分有趣的问题 一般情况下研究者们会给计算机提供机器可读的乐谱 这个乐谱既包括了乐队将要演奏的部分也包括了计算机将要演奏的部分研究者们需要计算机解决的任务是一边 聆听 演奏者的演出 一边同步地为之伴奏 88 这个任务之所以困难是因为计算机的伴奏必需要与演员的演奏保持一致 而演奏者可能会根据演出的具体情况 比如听众的反应 而做出一些改变 此外演奏者本身也可能会犯错误 这就使得现实的演出经常会和曲谱之间产生差异另一方面 要想及时 准确地知道演奏者的演奏进度是非常困难的 这需要一个十分可靠的 实时的乐谱自动识别与分析系统 89 5 6音乐情感分析 音乐是一种复杂的声音现象 许多无法用语言准确描述的思想感情 如喜 怒 哀 乐等 可以通过音乐表达出来 优秀的音乐作品往往会使人产生情感上的共鸣 但是如何描述音乐对人的情感的影响是非常困难的 90 早在1988年 Katayose等人就提出了一个有关音乐情感分析的研究框架在他们的研究计划中 音乐情感分析可以分为三个步骤 第一步为乐谱自动识别 在这一步中音乐演奏的音频信号被翻译为音符序列 第二步为音乐粗分析 在得到音符序列的基础上 结合乐理知识从音符序列中提取出诸如节奏 和声 旋律等音乐高级结构 91 最后 在此基础上通过设计一系列启发式规则来实现音乐信号中的情感提取 实际上由于种种技术困难无法突破 这个计划中的任何一步到目前为止都无法很好地实现 92 5 7小结 与语音信号处理与识别相比 计算机音乐分析与识别是一个新兴的研究领域 其中包含了大量的问题有待于学者们去进一步探索和研究面对音乐这样一种复杂的 非自然的声音现象 我们该如何对其进行分析和研究呢 93 这本身就是一个有趣的课题从大量的研究成果来看 基本可以分为两种思路 一种是自底向上的研究方法 即分析法 例如乐谱自动识别等这类方法首先着眼于识别比较微观的音乐元素 并希望在此基础上进一步对宏观的音乐现象进行分析 94 但是由于音乐信号的高度复杂性 即便是对一些微观的音乐元素在复杂情况下也很难达到较为理想的识别率 如复调下的音符识别等另一方面由于实际应用的需要 我们又希望能够对一些涉及到音乐理解层面的问题进行分析和研究 如音乐情感分析等这时采用基于数据驱动的机器学习方法就成为了一种比较自然的选择 但是单纯采用这类方法很难触及到问题的实质 95 如何提取本质特征便成为了解决问题的关键由于计算机音乐分析与识别本身具有多学科交叉性 模式识别 信号处理等只是我们的研究工具和手段 所以如何更好地利用音乐理论自身提供的知识将会成为该研究领域的一个发展方向 96 6其它相关工作 6 1计算机音乐合成 所谓计算机音乐合成是指利用计算机自动生成音乐演奏或演唱中的一些特殊的效果 音色甚至具有某种风格的音乐作品 98 6 1 1音效合成 音效合成是指利用计算机自动生成音乐演奏或演唱中的一些特殊的效果和音色例如Meron等研究了如何通过计算机手段自动生成美声唱法中的颤音效果他们把所谓的颤音效果建模为对某个演唱音高的调制 但是简单的串联调制合成法不能产生出自然的颤音效果 99 在他们的方法中 通过确保调制前的原始音高与调制后的颤音的相位一致 可以最小化所需的调制量从而得到更为自然的颤音效果 100 6 1 2自动作曲 我们经常可以发现某个作曲家的作品会具有某种特殊的风格那么有没有可能通过分析这个作曲家的大量作品 从而利用计算机来自动创作出类似的音乐作品呢 101 或者通过分析具有不同风格的大量音乐作品 从而利用计算机来生成全新风格的音乐作品呢 这显然又是一个十分有趣和困难的问题 这样的研究工作被称为计算机自动作曲或自动创作20世纪90年代以后 随着遗传算法和进化计算技术的迅速发展 许多学者将其应用到计算机自动作曲领域中来 102 6 2其它工作 还有一些其他的有关计算机音乐分析与理解方面的工作列举如下Rothman等研究了如何通过一个人的语音特性分辨此人是不是职业歌手Fragoulis等研究了高质量的CD音乐与其它相应的低质量的 严重变形的音乐 如广播音乐 之间的匹配与识别问题 103 Politis等则通过心理学的方法将不同的音乐现象与不同的色彩联系起来并绘制出 音乐图像 他们试图通过这种方法来揭示一维音乐信号中的 隐藏维数 Iwahama等提出了一种基于MIDI音乐的网上自动推荐系统 104 7总结与展望 从研究对象上看 由于音乐在人类社会中所占有的特殊地位 它必将成为音频处理领域中继语音之后的又一个研究热点由于音乐是一种十分复杂的声音对象 这种复杂性无论是在形式上还是内涵上都得以充分的体现和语音信号相比音乐还具有非语义符号性和很强的模糊性 这使得它比语音信号更具挑战性 106 从目前的研究状况和应用需求来看 在可预见的将来 基于内容的音乐自动分类和检索以及乐谱自动识别等仍将是计算机音乐分析与识别领域的主要研究方向 有关音乐理解方面的研究 比如音乐自动摘要 音乐情感分析等 也会成为重要的研究热点此外 音频处理技术与视频处理技术相结合的视听多媒体数据分析是另一个很有前途的研究方向 107 传统的方法一般从视频信息入手去寻找线索 对视听数据进行分割 音频数据中所包含的信息没有被利用上但是在许多情况下单纯使用视频分割方法是非常困难的 如果能将音频信息利用起来无疑可以大大提高分割效率由于音乐在多媒体中的音频部分占有很大的比重 如果可以将音乐分析和识别的技术与视频分析技术相结合的话 那将为多媒体数据的分割 检索带来极大的便利 108 目前这个研究方向已经成为了一个研究热点 相关的文献报道也比较多但令人遗憾的是 大多数研究成果往往只是将音频分析技术简单地用于视频分析 而没有做到和视频分析技术有机地结合起来 实现算法上的优势互补如何将音频分析技术与视频分析技术更加完美地结合起来已经成为这个研究方向所面临的主要难题之一 109 谢谢 参考文献 1 ChibelushiCC DeraviF MasonJSD Areviewofspeech basedbimodalrecognition IEEETransactionsonMultimedia 2002 4 1 23 37 2 BickerstaffeAC MakalicE MMLclassificationofmusicgenres ProceedingsoftheAustralianConferenceonArtificialIntelligence Perth Australia 2003 1063 1071 3 LambrouT KudumakisP SpellerR SandlerM LinneyA Classificationofaudiosignalsusingstatisticalfeaturesontimeandwavelettransformdomains ProceedingsoftheIEEEICASSP 98 Seattle USA 1998 6 3621 3624 111 4 KermitM EideJ Audiosignalidentificationviapatterncaptureandtemplatematching PatternRecognitionLetters 2000 21 3 269 275 5 JosephsonS SchneiderM TamirD Afuzzyexpertsystemtoolusedfortheanalysisofmusicaltimbres ProceedingsoftheNAFIPS IFIS NASA 94 SanAntonio 1994 434 435 6 BartschMA WakefieldGH Singingvoiceidentificationusingspectralenvelopeestimation IEEETransactionsonSpeechandAudioProcessing 2004 12 2 100 109 7 LiuC C HuangC S Asingeridentificationtechniqueforcontent basedclassificationofMP3musicobjects ProceedingsoftheInternationalConferenceonInformationandKnowledgeManagement McLean USA 2002 438 445 112 8 MaddageNC XuCS WangY Singeridentificationbasedonvocalandinstrumentalmodels ProceedingsoftheICPR 04 Cambridge UK 2004 2 375 378 9 LuL ZhangHJ JiangH Contentanalysisforaudioclassificationandsegmentation IEEETransactionsonSpeechandAudioProcessing 2002 10 7 504 516 10 WoldE BlumT KeislarD WheatenJ Content basedclassification search andretrievalofaudio IEEEMultimedia 1996 3 3 27 36 11 KimH G SikoraT ComparisonofMPEG 7audiospectrumprojectionfeaturesandMFCCappliedtospeakerrecognition soundclassificationandaudiosegmentation ProceedingsoftheIEEEICASSP 04 Montr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司月度生日会策划方案
- 公司春节返工活动方案
- 公司晚上团建活动方案
- 公司相互送福字活动方案
- 公司组织种菜活动方案
- 公司短视频运营策划方案
- 公司文娱团建活动方案
- 公司管理层旅游策划方案
- 2025年自动化控制技术人员招聘考试试题及答案
- 拓展任务-避难场所
- 2025-2030年中国楼宇对讲系统行业市场深度调研及竞争格局与投资研究报告
- 暑假提升部编版小学语文四升五暑假阅读提升之概括文章中心思想 课件
- 2025年甘肃省陇南市事业单位招聘247人笔试参考题库及参考答案详解1套
- 2025聊城市辅警考试试卷真题
- 2025广西专业技术人员公需科目培训考试答案
- 人工智能概论课件完整版
- 国际学校六年级数学测(英文)
- 标识标牌的制作与安装
- 动力站柴油储罐施工方案
- 注塑车间机台日报表
- 空气站质量控制措施之运行维护
评论
0/150
提交评论