音乐结构分析(MusicStructureAnalysis).pptx_第1页
音乐结构分析(MusicStructureAnalysis).pptx_第2页
音乐结构分析(MusicStructureAnalysis).pptx_第3页
音乐结构分析(MusicStructureAnalysis).pptx_第4页
音乐结构分析(MusicStructureAnalysis).pptx_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于异常点监测和相似度计算的 音乐结构分析算法研究 Music Structure Analysis by using Novelty Detection and Similarity Calculation 顾旻玮 07300720293 指导老师:凌力 Contents Conclusion Evaluation Demo Realization Algorithm Design Abstract Contents Conclusion Evaluation Demo Realization Algorithm Design Abstract 课题背景和选题意义 研究工作内容 课题背景和选题意义 课题背景 Computer Music - MIR 音乐结构分析的定义: 将一段音频内容分成时序上的一些音乐片段,并把它们归类到音乐上 有意义的结构分类中去 (intro,verse,chorus,bridge,outro) 选题意义 Publishers listeners researchers 应用开发 试听功能,互动交流 前处理,研究样本前处理,研究样本 Composers版权保护 研究工作内容 1 算法流程设计 类似研究总结 结合两类典型流程 提出改良想法 2 系统架构实现 MATLAB算法实现 VC界面编程 COM控件调用 3 语义级分析 小规模比较测试 大规模验证测试 结果分析 Contents Conclusion Evaluation Demo Realization Algorithm Design Abstract 研究现状 算法流程概述 节拍线分割 特征提取 结构划分 片段语义标注 研究现状 三类典型算法 Novelty(异常点) 寻找音乐四要素变化和对比较大的点 Repetition(相似度) 寻找音乐四要素的重复片段 Homogeneity(聚类) 将相同的语义结构组进行聚类 国内相关研究概述 音色单元分布-非监督聚类 (homogeneity) PCP特征+余弦距离-相似度计算(repetition) 旋律,节奏 歌词,编曲 算法流程概述 输入 音频 输出 副歌段落 输出结构 分析结果 分帧: 节拍线分割 特征提取: Chroma & MFCC 结构划分: 基于自相似度计 算和异常点检测 维度转换: 自距离矩阵计算 候选副歌打分: 基于能量,位置 ,平均距离 片段语义标注: 最佳路由算法 测试歌曲:风雨十载 节拍线分割 Onset Detection 音符开端检测(Onset detection) Onset, Attack, Transient的区别 节拍线分割 Onset Detection 音符开端检测(Onset detection) 考虑要素 Amplitude(幅度)& Phase(相位); 某一段音频中第m帧的 第k维信息表示如下: 计算某点实际和期望的 欧氏距离 帧内求和,取阈值, 得onset点 节拍线分割 动态规划 节拍线分割动态规划 两个先验原则: 流行歌曲的节拍局部恒定; 节拍的开端通常是音符的开端 目标函数:寻找基于onset点重合且基本节拍恒定的路径 特征提取MFCC MFCC简介 基于心理声学中的人耳听觉特性 语音识别的基础特征 在音乐信息中通常作为音色描述子(descriptor) MFCC的提取关键步骤 frame blocking-windowing-FFT-filtering-IDCT 输出后与节拍同步,取对数能量+12阶系数 特征提取MFCC MFCC的提取步骤 Start 预加重 分帧 加窗 快速傅里叶变换 三角带通滤波反离散余弦变换 求对数能量output 求差分参数 特征提取Chroma Chroma简介 基于十二平均律的音高向量特征 反映音乐信息中的音高和声分布(权重) 倍频部分(高低八度)映射到同音名不同音高的基频频率带 一般采取基准:A4=440Hz Chroma的提取关键步骤 Resampleling-frame blocking-DFT-mapping-post- processing 输出后与节拍同步,取12阶系数 特征提取Chroma Start Chroma output 重采样 离散傅里叶变换(DFT) 在频域上映射到一个12维频率带中 修正后处理 分帧 特征提取特征时序图 结构划分自距离矩阵 SDM简介 计算向量之间的距离 常用于比较局部相似性 MFCCChroma 结构划分异常点检测 定位novelty点 选择距离最大的30个中心点作 为novelty点 距离计算 将测试矩阵沿着主对角线进行 节拍前后的相关运算 测试核矩阵 Kernel Matrix 结构划分相似度计算 对角线二值化 设定阈值,大于为1,小于为0 距离计算 从SDM的主对角线向左下方平 移计算每条子对角线的平均值 设定提取目标 大于4秒小于60秒的重复片段 片段语义标注副歌提取 候选片段打分 取最高分输出,将输出点延展或压缩至最近的Novelty点上 Chorus 出现在整首歌的3/4处 重复出现3次以上 出现在整首歌的1/4处 平均能量较高 平均距离较小 包含人声 片段语义标注其他段落划分 基于重复片段的粗略划分 Verse 采用与副歌提取相似的方法,打分权值稍做更改 Intro 定位主歌后,取verse1前面的无人声部分作为intro Outro 定位副歌后,取verse2/3后面开始的无人声部分作为outro 缺陷 (1)人声检测本身的正确率 (2)后者定位极度依赖前者的准确程度 片段语义标注其他段落划分 异常点最佳路由算法 Onset-Beat-Novelty Segmentation-Group-Labeling 对于之前提取的重复片段,在它们之间的Novelty点可以去掉 , 对于其它的novelty点,距离少于16个beat的点可以去掉 对于剩下的点(应当远远小于30)再进行测量,计算复杂度将 大大降低 Contents Conclusion Evaluation Demo Realization Algorithm Design Abstract 算法实现 需求分析 界面演示 算法实现 Researcher Toolbox的使用 底层的节拍线分割和特征提取采用各工具箱函数 之前工作的结合 编写了部分验证特征和模型的测试程序 COM控件调用 打包函数, 需求分析 传递参数设定 输入参数:readDir,writeDir,wavname, minnum,debug ,method,output_opt 输出参数:iTime,cTime,vTime。oTime 界面设计 界面演示 Contents Conclusion Evaluation Demo Realization Algorithm Design Abstract 实验测试 结果分析 实验测试 标准设定 评价体系 不同特征运用和后处理过程比较设定 不同的特征:chroma,MFCC,chroma+MFCC 不同的后处理过程:打分输出的标准采用 计算时间比较 数据库选择 52首不同风格的华语流行歌曲 实验室数据库中2000首G字母开头的歌曲 提取片段与实际实际 划分的关系得分情况 包含1 被包含1 重叠有不相关0.5 完全不相关0 实验测试 I 性能比较 采用特征平均测试时间 (s)提取的副歌时间 (s) 得分率 (总得分/测试 数) Chroma35.99.176.9 MFCC27.69.275 Chroma+MFCC52.910.173.2 性能比 较 打分 衡量标准 得分率 (总得分/测试 数) 所有标准76.9 不考虑重复次 数 73.5 不考虑平均距 离 71.2 不考虑能量51.9 不考虑片段位 置 59.6 性能比较 风格(all) Chroma下的得分率 (总得分/测试 数) MFCC下的得分率 (总得分/测试 数) Pop(17)15/1714.5/17 R&B(9)7.5/98/9 Rock(10)6.5/107/10 Folk(10)9/106/10 Rap(6)2/63.5/6 实验测试 II 参考文献编号样本数量评分标准准确率 6 B. Logan S. Chu 50首做训练,18首 做测试,都是 Beatles的歌曲 1.9/3 (未测试到 得1分,测试有交 集得2分,真子集 得3分) 63.3% 23 Masataka Goto 100 首歌的公开数 据集上进行测试 根据假设不同一共 有四种结果,准确 率在68%到80%之间 68%-80% 24 Antti Eronen 206首歌曲测试不限时长86%, 30秒固定长度提取 79% 79%-86% 本系统实验结果2000首不同种类歌 曲 按照特定计算方式 打分,得分累加为 1500分 75% 结果分析 主要结论 验证了算法的有效性 比较了不同的特征,后处理方法对于性能的影响 不同类型歌曲的提取建议 测试方面的后续工作 增加语义标注测试和F-Measure的准确评估 统一数据库 Contents Conclusion Evaluation Demo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论