




已阅读5页,还剩67页未读, 继续免费阅读
(信号与信息处理专业论文)基于感知哈希的音乐声纹检.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
music fingerprinting retrieval system based on perceptual hashing thesis submitted to nanjing university of posts and telecommunications for the degree of master of engineering by liu dalong supervisor: prof. shao xi february 2013 i 摘要摘要 近年来,基于内容的音乐声纹检索成为研究的热点。它的主要优点在于从音乐信号自身 的特征出发,能够在不知道音乐信号的文本信息的情况下,快速找到音乐相关信息,有着巨 大的应用空间。 基于内容的音乐信息检索系统主要分为两部分: 音乐特征提取(即声纹的提取) 和音乐检索。感知哈希在声纹提取上有着广泛的应用,运用此方法提取的声纹有着很好的鲁 棒性。 本文对基于感知哈希的音乐声纹检索的背景知识和研究现状进行介绍,重点介绍改进了 的声纹提取算法和检索算法,并对实验结果做出分析。本文主要的工作集中表现在以下几个 方面: (1) 提出了基于感知哈希的音乐声纹提取的方法。 感知哈希作为声纹具有很好的鲁棒性, 能够提高系统的鲁棒性。感知哈希的提取主要是结合人耳听觉系统。根据人耳听觉特性设置 阈值,将声压级低于听觉阈值的声音信号过滤掉,提高系统的鲁棒性。这个算法当中,阈值 的确定是至关重要的,本文以人耳听觉掩蔽效应来确定阈值的大小。 (2)提出了给子声纹设置优先级,按照优先级作为索引检索匹配。在利用能量提取声纹 时,能量差的分布符合高斯分布,根据较大的能量差计算的比特位具有更好的抗噪性能,用 于检索能够提高系统的准确性。通过设置阈值,统计落入区间之外的个数,作为优先级的大 小,优先级大的优先作为索引。 (3)利用本文提出的算法,通过对比实验,证实了该算法的有效性。 关键词:关键词:感知哈希,听觉特性,听觉阈值,相似匹配,感知优先级 ii abstract recently, contented-based music information retrieval has became a research hotspot. its main advantage is that it can find the music metadata from the own characteristic of the music signal, without any music text information. it has great applications. contented-based music information retrieval system can be divided into two parts: music feature extraction (audio fingerprinting extraction) and music retrieval. perceptual hashing method is largely used in audio fingerprinting extraction. the experiment shows that it can get robust fingerprinting using this method. this thesis introduces the background knowledge and the state of the contented-based music information retrieval. it mainly introduces the improved fingerprint extraction and search algorithm and analyses the experiment result. the main works are as follows: (1) music information retrieval using perceptual hashing method is described. perceptual hash used as fingerprinting is more robust. perceptual hashes are extracted in consider of human audition system. according human audition system, a series of threshold is calculated. the point that is lower than the threshold is filtered. (2) in the process of retrieval, the priority of the sub-fingerprinting is set. the higher the priority is, the higher the possibility that the sub-fingerprinting will be user as index is. in the process of audio fingerprinting extraction based on energy difference, the distribution of energy difference is gaussian. a pair of threshold will be calculated. the number of the points outside the two thresholds will be the priority. (3) a series of experiment is done according to the improved audio fingerprint extraction and retrieval algorithm presented in this thesis. those experiments show that those improved algorithms are efficient. keywords: perceptual hash, auditory property, auditory threshold, approximate match, perceptual priority iii 目录目录 专用术语注释表 . 1 第一章 绪论 . 2 1.1 研究背景及意义 . 2 1.2 国内外研究现状 . 4 1.3 研究总论及内容安排 . 5 第二章 基于内容的音乐声纹检索综述 . 7 2.1 基于内容的音乐声纹检索系统框架 . 7 2.2 声纹提取算法综述 . 8 2.2.1 基本的音乐乐理 . 8 2.2.2 音乐信号的常用特征 . 9 2.2.3 声纹提取主要步骤 .11 2.3 音乐搜索算法综述 . 14 2.4 基于内容的音乐检索系统的评价标准 . 17 2.5 本章小结 . 18 第三章 声纹提取的感知哈希算法 . 19 3.1 感知哈希简介 . 19 3.1.1 感知哈希的定义 . 19 3.1.2 感知哈希的特征 . 20 3.2 人耳听觉特性 . 22 3.2.1 衡量声音强弱的基本概念 . 22 3.2.2 人耳听觉的主要特性 . 23 3.3 声纹提取 . 26 3.3.1 听觉阈值的计算 . 26 3.3.2 声纹提取步骤 . 28 3.4 相似性判断标准 . 32 3.5 实验结果及分析 . 34 3.5.1 感知鲁棒性 . 34 3.5.2 抗噪性能测试 . 36 3.5.3 其他形式的抗失真测试 . 38 3.5.4 区别能力测试 . 39 3.6 本章小结 . 40 第四章 基于感知优先级的音乐声纹检索算法. 41 4.1 声纹检索框综述 . 41 4.2 基于索引的声纹检索算法 . 42 4.2.1 哈希表的基本原理 . 43 4.2.2 声纹哈希表的建立 . 45 4.3 声纹检索 . 47 4.3.1 声纹检索综述 . 47 4.3.2 子声纹感知优先级设定 . 48 4.3.3 声纹检索的详细过程 . 51 4.4 实验结果与分析 . 54 4.4.1 可行性测试 . 54 4.4.2 性能分析 . 56 4.5 本章小结 . 58 iv 第五章 总结与展望 . 59 本文工作总结 . 59 未来工作展望 . 59 参考文献 . 61 附录 1 攻读硕士学位期间撰写的论文 . 64 附录 2 攻读硕士学位期间参加的科研项目 . 65 致谢 . 66 南京邮电大学硕士研究生学位论文 专用术语注释表 1 专用专用术语注释表术语注释表 缩略缩略词词说明:说明: cbid content based information detective 基于内容的信息检测 mfcc mel-frequency cepstrum coefficients 梅尔倒谱系数 lpc linear prediction coefficients 线性预测系数 sfm spectral flatness measure 谱平滑度 scf spectral crest factor 谱波峰因素 gsm global system for mobile communications 全球移动通信系统 pcm pulse code modulation 脉冲编码调制 dft discrete fourier transform 离散傅里叶变换 fft fast fourier transform 快速傅里叶变换 ber bit error rate 误比特率 snr signal to noise rate 信噪比 hmm hidden markov model 隐马尔科夫模型 dct discrete cosine transform 离散余弦变换 南京邮电大学硕士研究生学位论文 第一章 绪论 2 第一章第一章 绪论绪论 1.11.1 研究背景及意义研究背景及意义 随着多媒体技术的不断发展,音频数据的规模与种类越来越大,音频的使用也越来越广 泛,如何从大规模的数据中获得感兴趣的信息,成为研究热点。音乐是音频信号的重要组成 部分,在音频信号中占有很大比例。在日常生活中,音乐发挥着重要的作用,人们用音乐表 达情感,描述生活,缓解压力等。音乐已经成为人们日常生活中不可缺少的元素了。但对于 如此巨大数量的音乐,人们感兴趣的内容各有不同。如何在海量数据的音乐库中找到感兴趣 的内容越来越成为人们关注的焦点,同时人们也更加渴望随时随地都能够很方便的获得相关 的音乐信息。 显然,以往基于文本的音乐信息检索已经不能满足人们的这种需求,这种检索方式要求 用户输入音乐的关键字,如歌曲名,歌手名等,才能得到所需的音乐。这种搜索方式尤其无 法克服的缺陷:首先搜索必须是基于用户对音乐信息有所了解的情况下才能进行,对于未知 音乐信息是无法完成搜索的;其次,搜索的准确性不能得到保证,如关键字表达不清楚会导 致搜索的结果出现很大偏差,也就是说这种方式的搜索依赖于用户的主观因素,而这点往往 会对结果造成很大的影响。设想以下场景,用户偶然听到一段美妙的未知名称的音乐,怎样 得到此音乐的相关信息并快速的获取它?而基于内容的音乐信息检索(cbid)能够满足这种要 求,具有十分巨大的应用空间。 基于内容的音乐信息检索是从一段音乐信息出发,得到能够代表该段音乐的特征值,从 特征值中提取出紧凑的摘要,然后把该摘要作为关键字用于检索1。在所有的基于内容的音 乐信息检索方法中,基于声纹的音乐信息检索在这方面得到应用的最为广泛。声纹是由音频 的特征提取而得,能够代表该段音频的压缩摘要,能够将文本信息(演唱者,专辑等)与音 频相连接2,3。在理想的情况下能够提取出唯一代表该段音频的声纹用于检索与匹配。从这 个意义上来说,声纹之于音乐就如同指纹之于人类,它能够区别音乐信号,给音乐信号的检 索带来了理论上的可行性。基于内容的音乐信息检索因其巨大的应用空间及其带来的便利性 吸引了越来越多的研究人员的注意,包括数据库技术、数字信号处理技术、模式识别等众多 领域的专家,成为各学科共同研究的课题之一,该课题成为音频信号处理领域发展迅速的重 要的研究课题之一。 利用音乐声纹技术对音乐进行检索具有以下多方面优点4: 南京邮电大学硕士研究生学位论文 第一章 绪论 3 (1) 可以减少存储空间。与原始音乐信号相比,声纹更加紧凑,占有更小的存储空间。 例如在文献5中,作者提出的声纹提取算法,可以从大小约为 260kb 的 3 秒钟的音乐片段中 提取出大小为 8192 比特的声纹块,两者之间相差 260 倍。因此,存储声纹就大大的节约了存 储空间。 (2) 有效的对比。声纹将音乐信号中的感知无关的特征去掉,能更加有效的做出声纹匹 配。声纹简洁而具有区分能力,不同的音乐信号有不同的声纹,在匹配的过程中,可以有效 的区别音乐信号片段是否来自同一首歌曲。 (3) 高效的搜索。声纹相比于原始信号很小,搜索的速度会很快。音乐信号中含有大量 的冗余信息,直接将原始信号用于检索,会使搜索费时费力。声纹具有紧凑性,在用于检索 时,可以减少比较的时间。 由上可以得出,基于内容的音乐信息检索主要研究方向可以分为两个6:一个是声纹提取 算法,一个是高效的检索算法。前者主要考虑提取出有效而具有鲁棒性的声纹,后者主要考 虑搜索的速度与准度的问题。两者密切配合,构成声纹检索系统。基于声纹的音乐信息检索 技术在实际生活中有着巨大的应用空间7: (1)音乐连接。可以满足用户随时随地快速获得所需信息的需求,这也是其最主要的用 途。用户输入相关未知的音乐片段,经过该系统的处理,输出相应的音乐信息,在版权允许 的情况下,还可以为用户提供相关的下载途径等。例如用户在听到感兴趣的音乐时,可以用 手机等设备录下来,发到后台服务器,服务器计算出该段音频的相关信息,如演唱者、歌曲 名等,返还给用户。 (2)广播监控。可以对音乐广播进行有效的监控,即自动生成一个播放列表,可以用于 市场调查、网络管理、信息安全等诸多领域。基于声纹的广播监控系统,包括若干监控点和 一个声纹服务器,由监控点收集本地广播的声纹,声纹服务器负责根据监控点提交的声纹生 成播放列表。 (3)版权保护。通过声纹检索出来的歌曲,只有得到出品方的授权才允许下载。证明音 频所有者,同一首歌曲,不同的演唱者演唱,声纹也会有很大的不同。在这方面,水印是嵌 入到音乐信号当中的,会对音乐信号造成影响,与之相比,声纹不对原始音频做任何改动, 保证了音乐的品质,具有更大的优势。 (4)系统完整性验证。当音频被修改时,其声纹会有很大的不同,可以通过验证声纹是 否被修改过,从而确定音乐信息是否被修改过。 南京邮电大学硕士研究生学位论文 第一章 绪论 4 1.21.2 国内外研究现状国内外研究现状 从上个世纪 90 年代中后期至今,国内外有很多关于基于内容的音乐信息检索技术的研究 成果8,9。很多公司也积极参与该课题的研究,以便推出成功的商用软件,获得经济效益, 例如 shazam 公司和 philips 公司。 在声纹提取方面,研究的主要目的是在通过降维以减少存储空间和计算复杂度的同时, 提取出具有鲁棒性的声纹。普遍的做法是将音乐片段通过各种变换(如小波变换、短时傅里 叶变换等)变换到其他域中,如小波域或者频域中,在这些变换域中选取适当的特征值,然 后对这些特征值做些处理如量化等,使其变成易于计算机比较的字符0 1串,这些字符 串即为声纹。在较为早期的研究中,人们通常把音乐信号简单的当成语音信号处理,使用语 音信号的特征参数作为特征值。 例如, mckinny 提出使用梅尔倒谱系数 mfcc (mel-frequency cepstral coefficients)作为音乐信号的特征值10;也有人提出用线性预测系数 lpc(linear prediction coefficients)作为特征值;在文献11中提出用短时平均能量,sfm、scf 三者作 为特征值。然而音乐信号与语音信号还是有很大区别的,如音乐信号有很强的背景音乐等, 所以这些特征值并不太适合于音乐信号的分析。2002 年,荷兰 philips 公司提出的基于能量差 的声纹提取技术5,对音乐片段进行分帧,将每帧信号划分为 33 个子带,在帧间及子带间进 行能量差的计算,从而得出声纹序列,这种方法的抗噪性能不是很理想,由于噪声的存在, 能量较低的子带容易发生改变,许多研究者基于此提出了一些改进,如文献12中,提出了 解决时间漂移带来的问题,文献13中提出了通过设置滤波器组提高系统鲁棒性的方法。之 后英国 shazam 公司提出基于特征点对的方法14 ,这种方法是从音乐信号的语谱图中寻找若 干峰值点,将它们组成特征点对,将这些特征点对的序列作为声纹,这种方法的特点是抗噪 性能好,不用保存整个频谱的全局信息。2006 年,徐英达等人提出了一种优化选取谱峰值点 的算法。philips 和 shazam 公司提出的这两种方法是现在研究声纹提取的两类比较经典的方 法。文献155657介绍了几种基于熵的声纹提取算法。感知哈希技术用于声纹提取能够提 高系统的鲁棒性,本文将根据 philips 研究的方法,从音乐信号的能量出发,结合人耳听觉特 性以提高系统的抗噪性能,提出用感知哈希串作为声纹,主要做法是通过设置阈值,滤除易 受噪声干扰的点,从而提高系统的抗噪性能。 在声纹检索方面,研究的主要目的是提高检索的速度和准确度。在声纹库建好之后,随 着声纹数量的不断提高,查准率和效率是必须解决的问题。相似度匹配是关键环节,匹配算 法的好坏直接关系到检索结果的准确率和系统的性能。使用广泛的匹配算法有编辑距离的动 态算法16和欧氏距离及其各种改进的算法。前者具有很高的容错功能,但计算比较复杂;后 南京邮电大学硕士研究生学位论文 第一章 绪论 5 者计算简单,但容错性较差。在进行检索时,文献17提出了一种基于树的检索方法,叫做 最近邻居搜索算法。在计算误比特时采用的是一种累计的算法,即每次递归时误比特数是相 加的。首先定义一个变量叫最佳误比特率,表示到目前为止最好的误比特率,一个阈值代表 最大容错率(maximum tolerable error rate) ,建立 256 叉树。从根节点开始匹配每个子结点时 都计算一个累积的误比特数,当最佳误比特率小于最大误比特率时,将不用访问它的叶子节 点,如大于则再从其叶子节点找起。这种算法在提高了检索的精度,但在维度较大的情况下, 检索较为费时,计算复杂度较高。在文献5中,作者 haitsmat 采用建立索引的方法,即为所 有可能的指纹建立一个快速查询表,在建声纹库时,将所有歌曲与该快速查询表相关联。这 种方法在查询指纹不是失真的情况下,有很高的效率,但是如果查询的指纹发生错误,此方 法的性能将会受到较为明显的影响。本文将采用建立哈希表的索引的方法,在查询时,将选 取抗噪性能最好的子声纹作为索引值,以提高系统的性能。 总的来说,基于内容的音乐检索处于稳步发展的阶段。各种新的方法不断提出,但该领 域技术尚未成熟,存在许多亟待解决的问题,例如,如何在海量数据的情况下提高检索的速 度和准确度等。 1.31.3 研究总论研究总论及内容安排及内容安排 本文研究工作主要针对音乐声纹检索系统的两个关键问题即音乐声纹提取和检索展开 的。这两个方面关系到音乐检索系统查找准确度和系统的响应时间。本文将结合国内外的研 究成果,针对这些理论成果当中存在的一些问题,提出了一种结合人耳听觉特性的感知哈希 算法,用于提取声纹。该算法具有很好的鲁棒性,提高系统的可靠性。并且提出一种优化了 的检索算法,提高系统检索的速度,使其能够快速、准确的找到匹配歌曲。通过实验,发现 基于该方法的声纹检索系统是有效的,具有一定的使用价值。 围绕以上内容,本篇文章主要包括五个部分,分为五个章节,论文的组织结构和具体内 容安排如下: 第一章,绪论。简要论述基于内容的音乐信息检索的选题背景、研究意义及音乐声纹检 索的国内外研究现状,同时,指出当前该研究领域所存在的问题,并给出本文的主要研究内 容和论文的整体结构。 第二章,基于内容的音乐声纹检索系统综述。系统介绍音乐声纹检索系统的一般框架, 对现阶段常用的声纹的提取算法和检索算法进行总体介绍。 第三章,声纹提取的感知哈希算法。主要介绍本文声纹提取的算法,首先详细介绍感知 南京邮电大学硕士研究生学位论文 第一章 绪论 6 哈希的概念及人耳的听觉特性的理论知识。然后结合以上两点提出本文的算法,并对其做出 详细的阐述。在本节最后将给出利用该算法提取声纹的实验,并与 philips 公司的算法做出比 较。 第四章,基于感知优先级的音乐声纹检索算法。主要介绍本文提出的一种优化了的检索 算法。在分析现有的几类检索算法的基础上,提出了一种基于感知优先级的检索算法。首先 对提取出子声纹建立优先级,按照优先级大小作为索引的优先次序。本章将设计检索实验, 用于验证该算法的性能。 第五章,结论与展望。总结本文所做的研究工作,并对未来基于内容的音乐信息检索的 研究工作进行了展望。 南京邮电大学硕士研究生学位论文 第二章 基于内容的音乐声纹检索综述 7 第二章第二章 基于内容的音乐基于内容的音乐声纹声纹检索综述检索综述 音乐信息检索有着巨大的应用空间,而音乐声纹检索是音乐信息检索的重要内容之一, 有着很大的研究空间。 2.12.1 基于内容的音乐基于内容的音乐声纹声纹检索检索系统系统框架框架 基于内容的音乐声纹检索可以用不同的方法实现,这些方法都有相同的框架,如图 2-1 所示。一般来说,基于内容的音乐声纹检索系统由两部分组成2,5,14。第一部分是声纹提取, 这一部分主要是从待查询的音乐片段中提取出相关的感知特征,并最终形成声纹。声纹是从 音乐信息的自身特征出发提取而得,能够代表该段音乐片段的压缩摘要,能够将音乐的文本 信息(如演唱者,专辑等)与之相连接。好的声纹要有足够大的区别能力,即不同歌曲的声 纹要有明显的区别;要具有鲁棒性,能够抵抗一定的失真;要紧凑,去除音乐中的冗余信息, 尽可能占用少的存储空间;要计算简单。满足以上要求必须在减少歌曲维数和信息丢失之间 做个权衡。基于内容的音乐信息检索的第二部分是声纹检索,即利用第一部分的声纹提取算 法对待检测的音乐片段提取声纹,并和声纹库中的声纹匹配,按照一定的匹配算法找到满足 要求的声纹,将与此声纹相关的音乐信息返还给用户。在这个过程中,要进行大量的声纹对 比,要计算很多次声纹距离,检索算法要做到尽可能的快。 声纹提取 声纹检索 声纹模型 前端处理 数据库查询 搜索 距离 音乐片段音乐信息 声纹与歌 曲信息数 据库 图 2.1 基于内容的音乐声纹检索整体框架 南京邮电大学硕士研究生学位论文 第二章 基于内容的音乐声纹检索综述 8 由图 2.1 可以看出,在声纹提取的过程中主要包括两个部分:前端处理和声纹建模。前 端处理对音乐信号进行处理,声纹模型决定了声纹最终的表现形式,常采用的声纹模型有量 化等。第二步要完成声纹检索,这其中较为关键的一步是声纹匹配,这关系到搜索结果的准 确性。常用的方法是对所得声纹进行距离的比较。采用相对简单的距离能够快速的丢弃候选 者,采用相对复杂的距离计算能够使结果更加准确。随着音乐数据规模的不断增加,声纹库 中的声纹规模也将越来越大,这就对声纹检索算法提出了挑战。好的检索方法应该快速,能 够快速的匹配声纹;准确,即可以返回正确的结果,具有较低的误判率;内存有效性,即在 计算时需要较小的内存空间;易于更新,能够允许做些插入、删除和更新的工作。 下面将分别对音乐检索系统的两个部分做出具体介绍。 2.22.2 声纹提取算法综述声纹提取算法综述 2.2.1 基本的音乐乐理 音乐是音频信号当中的最重要的一个类别,是一个复杂的非自然的声音现象,凭借声波 震动而存在,通过人类的听觉器官而引起听众的情绪反应和情感共鸣的艺术形式。音是一种 普遍存在物理现象,它由发声体发出的一系列振幅、频率各不相同的正弦波复合而成的。其 中,各个频率的最大公约数称为基音频率,相应的声波称为基音。频率相当于基音频率整数 倍的正弦波成为谐音(或泛音) 。并非所有的音都可称为乐音,只有震动有规律、单纯,并有 准确高度的音才可成为“乐音” ,反之,称之为噪音。音乐便是由这些乐音有组织的结合到一 起形成的。乐音体系是指在音乐中使用的、具有固定音高的音的总和。 事实上,人耳的听觉范围为 2020000hz,能够被人耳感知的声音很多,然而,并不是所 有的声音都可以用来构成音乐,音乐并不是声音的简单组合。在音乐创造过程中,所采用的 音是人们在长期生活中为了表达情感而特意挑选出来的。频率范围一般在 274100 赫兹这个 范围内。这些音被有规律的组织到一起,用以传递创作者的创作意图。 乐音体系中的各个音称为音级。音级包括基本音级和变化的音级两种。其中,基本音级 是指具有独立名称的七个音级。各音级在音高上的相互关系叫做音程。为方便记录表示,这 些基本音级的音名用拉丁字母分别计为:c、d、e、f、g、a、b。演唱为:do、re、mi、fa、 sol、la、si,在简谱中记做:1 2 3 4 5 6 7。变化音级是指由基本音级降低或升高而得来的音。 音列是指按照上升或下降的规律排列的音的序列。音域是指音列的范围,即从最低音到最高 音的范围。 南京邮电大学硕士研究生学位论文 第二章 基于内容的音乐声纹检索综述 9 构成音乐的基本单元是音符,音乐由一系列的音符序列有规律的组合而成。音符是有音 调的声觉,即乐谱中以形状表示音长,以位置表示音高的记号。音符有三个主要特征,即音 高,音强和音长。音高能够代表音符的高低,它由声波的频率决定,频率越高,音高越高。 音强即音符的响度,代表音符的强弱,它与声波的振动幅度密切相关,幅度越大,响度越高, 音强越强。音长指的是音符的长短,即一个音从发音开始到结束所持续的时间,它与声波振 动的时间有关。音长不同的音结合起来就产生了音乐的节拍、节奏,继而构成音乐旋律的骨 架。 2.2.2 音乐信号的常用特征 声纹是从音乐信号的特征当中提取而来的。 特征的选取关系到音乐声纹的鲁棒性的好坏。 音乐信号的特征是能够代表原始音乐信号的数据。声纹系统首先要解决的问题即是选择什么 样的特征最合适。通常将这些相关特征分为两类,即语义学特征和非语义学特征。语义学特 征主要包括类型、节拍和情感。这些特征通常能被人直观的感觉得到,用于音乐分类,生成 播放列表等。非语义学特征不能让用户直观的感觉出来,要通过一系列的计算才能得到。非 语义学比语义学特点有明显的优势。首先,语义学特征通常没有清楚的含义,具有二义性, 甚至主观意识会导致结果的不同,这就导致了语义特征数学分析困难,例如情感的划分,在 平静与悲伤之间会有不同的感觉。其次,语义学特征计算复杂度高。最后,语义学特征不能 广泛的被应用,例如,对于古典音乐采用每分钟打击次数就不适合。综上所述,音乐信号的 非语义学特征有着更加广泛的应用。因此,本文主要从音乐信号的非语义学特征出发研究, 常用的音乐信号的非语义特征如下19。 (1) 短时平均能量 音乐信号的短时平均能量是度量语音信号幅度值变化的函数,可用于区分清音音段和音 段,因为浊音的短时能量高于清音。还可用于静音检测。对于一段音乐信号( )x l,加窗分帧后 得到第 n的帧的音乐信号为 ( )n i x,其短时能量定义为: 1 2 ( )( ) 1 () ,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谁的反应快课件
- 2025版科技研发合同委托管理协议
- 2025年度叉车安全检测与认证服务合同
- 2025年度高科技项目投资担保合同-高科技产业发展保障
- 2025年度智慧城市建设收购合同
- 2025版文化创意产业外包员工服务合同示范文本
- 2025版全新一致行动人协议-人工智能研发合作协议下载
- 2025版企业数字化转型与数字化转型咨询合同
- 2025版商业地产租赁合同租赁物使用限制合同
- 2025版大型钢铁企业高效铁矿粉直销服务合同
- 2025年中学生守则及中学生日常行为规范
- 注册安全工程师考试建筑施工(初级)安全生产实务试题及解答
- 2025年城镇燃气条例竞赛题库
- 展厅预算装修方案(3篇)
- 供电公司保密培训课件
- 供电外协人员管理办法
- STC15单片机驱动的智能小车实时监测系统设计与应用
- DBJT 13-318-2025建筑施工盘扣式钢管脚手架安全技术标准
- 2025武汉辅警考试真题
- 文化传媒公司经理岗位职责
- 批量创伤伤员急救程序
评论
0/150
提交评论