




已阅读5页,还剩89页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章数字音频处理 本章主要内容 模拟音频与数字音频的概念数字音频的获取音频信号压缩编码 cd三十一年 1979年的3月8日 荷兰飞利浦在eindhoven演示了首个基于激光光盘的数字音乐播放系统cd代表小型镭射盘 是一个用于所有cd媒体格式的一般术语 现在市场上有的cd格式包括音频cd cd rom cd romxa 照片cd cd i和视频cd等等cd数字声频信号 cdda 是由sony和philip在1980年期间作为音乐传播的一个形式来介绍的数据轨道是由一连串的凹坑组成 轨间距是1 6微米 这对光盘的压制和光头的伺服都提出了挑战 由于使用了交错编码 瑞德所罗门纠错码和插值技术使cd的抗错能力达到了前所未有的高度 光盘上3毫米的钻孔不会对听觉有任何影响 第2章数字音频处理 2 1概述2 2数字音频的获取2 3音频信号压缩编码2 4音乐合成和midi 2 1概述 声音是携带信息的重要媒体 研究表明 人类从外部世界获取的信息中 10 是通过听觉获得的 因此声音是数字媒体技术研究中的一个重要内容 声音是由物体振动产生的 这种振动引起周围空气压强的振荡 从而使耳朵产生听觉的印象 声音的种类繁多 人的语音是最重要的声音 此外 还有动物 乐器等发出的声音 风声 雨声 雷声等自然声音 以及机器合成产生的声音等 2 1概述 幅值 t 一个周期 空气压强 图2 1空气压强振荡的波形示意图 0 人耳能识别的声音频率范围大约在20 20khz 通常称为音频 audio 信号 2 1概述 音频信号所携带的信息大体上可分为语音 音乐和音效三类 语音 指具有语言内涵和人类约定俗成的特殊媒体 音乐 指规范的符号化了的声音 音效 指人类熟悉的其他声音 在数字媒体系统中 处理的信号主要是音频信号 2 1概述 声音包含三个要素 音调 音强和音色 基频与音调 一个声源每秒钟可产生成百上千个波 通常把每秒钟波峰所产生的数目称之为信号的频率 单位用赫兹 hz 或千赫兹 khz 表示 人对声音频率的感觉表现为音调的高低 在音乐中称为音高 音调正是由频率 所决定的 2 1概述 音乐中音阶的划分是在频率的对数坐标 20 log 上取等分而得的 如表所示 20 log261 48 3 20 log293 49 3等 2 1概述 谐波与音色 n o称为基波 o的n次谐波分量 n就是高次谐波的方次 n o就是基波 o的n次谐波 也称为泛音 音色是由混入基音的泛音所决定的 幅度与音强 信号的幅度是从信号的基线到当前波峰的距离 幅度决定了信号音量的强弱程度 幅度越大 声音越强 一般用动态范围定义相对强度 动态范围 20 log 信号的最大强度 信号的最小强度 db 2 1概述 音宽与频带 频带宽度 也称为带宽 它是描述组成复合信号的频率范围 客观上 通常用频带宽度 动态范围 信噪比等指标衡量音频信号的质量 音频信号的频带越宽 所包含的音频信号分量越丰富 音质越好 动态范围越大 信号强度的相对变化范围越大 音响效果越好 cd da数字音乐 fm广播 am广播和电话的带宽 2 1概述 声音的质量可以通过信噪比来度量 信噪比 snr signaltonoiseratio 是有用信号与噪声之比的简称 定义为 信噪比越大 声音质量越好 2 2数字音频的获取 2 2 1采样2 2 2量化2 2 3数字音频的技术指标2 2 4数字音频的文件格式 音频信息处理结构框图 2 2 1采样 图2 5模拟信号的采样 所谓采样就是在某些特定的时刻对模拟信号进行取值 如上图所示 采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅值 把时间上的连续信号变成时间上的离散信号 2 2 1采样 采样时间间隔称为采样周期t 其倒数为采样频率fs 1 t 一般来讲 采样频率越高 则在单位时间内计算机得到的声音样本数据就越多 对声音波形的表示也越精确 声音失真越小 但用于存储音频的数据量越大 根据奈奎斯特定理 只有采样频率高于声音信号最高频率的两倍时 才能把数字信号表示的声音还原为原来的声音 2 2 2量化 每个采样值在幅度上进行离散化处理的过程称为量化 量化可分为均匀量化和非均匀量化 均匀量化是把将采样后的信号按整个声波的幅度等间隔分成有限个区段 把落入某个区段内的样值归为一类 并赋于相同的量化值 以8bit或16bit的方式来划分纵轴为例 其纵轴将会被划分为28个和216个量化等级 用以记录其幅度大小 均匀量化 2 2 2量化 非均匀量化是根据信号的不同区间来确定量化间隔 对于信号值小的区间 其量化间隔也小 反之 量化间隔就大 量化会引入失真 并且量化失真是一种不可逆失真 这就是通常所说的量化噪声 2 2 3数字音频的技术指标 衡量数字音频的主要指标包括 采样频率量化位数通道 声道 个数数据传输率是计算机处理音频时的基本参数 未经压缩的数字音频数据传输率可按下式计算 数据传输率 采样频率 量化位数 声道数 2 2 3数字音频的技术指标 例 假定语音信号的带宽是50hz 10khz 而音乐信号的是15hz 20khz 采用奈奎斯特频率 并用12bit表示语音信号样值 用16bit表示音乐信号样值 计算这两种信号数字化以后的比特率以及存储一段10分钟的立体声音乐所需要的存储器容量 解 语音信号 取样频率 2 10khz 20khz 比特率 20k 12 240kbit s音乐信号 取样频率 2 20khz 40khz 比特率 40k l6kbit s 2 1280kbit s 立体声 所需存储空间 1280k 600 8 96mb 一个汉字在计算机里占2个字节 前面例题里处理语音的比特率是240k s 240k空间可以存储240k 2 12 0000个汉字1秒钟的语音数据量与12万汉字 一部中篇小说 的数据量相当 2 2 4数字音频的文件格式 wav文件格式简介wav是microsoftwindows提供的音频格式 这个格式是目前通用音频格式 它通常用来保存一些没有压缩的音频 目前所有的音频播放软件和编辑软件都支持这一格式 wav文件由三部分组成 文件头 标明是wav文件 文件结构和数据的总字节数 数字化参数 如采样频率 声道数 编码算法等 最后是实际波形数据 一般来说 声音质量与其wav格式的文件大小成正比 wave waveformaudiofileformat 文件是多媒体中使用的声音文件格式之一 它以riff格式为基础 每个wave文件的头四个字节为 riff wave文件的扩展名为 wav wave文件格式 wave文件格式 format块 sound数据块 riffwavechunk wave文件由文件头和数据两部分组成 最小的wave文件结构 riffwavechunk groupid riff rifftype wave formatchunk ckid fmt sounddatachunk ckid data riffwave块头 块标志 riff 块大小 32 bits wave类型标志 wave riff resourceinterchangefileformat的缩写 theformat fmt chunk格式块 fmt 是wave文件必选项 描述波形文件的基本参数 如采样率 位分辨率以及通道数等 defineformatid fmt chunkidforformatchunk typedefstruct idchunkid longchunksize shortwformattag currentlypcm unsignedshortwchannels numofchannels unsignedlongdwsamplespersec samplerateinhz unsignedlongdwavgbytespersec xxxbytes s unsignedshortwblockalign 1 2 4 8 16mono stereo unsignedshortwbitspersample bitsinasample 根据wformattag不同 可以有附加字段 formatchunk datachunk数据块包含实际的波形数据 definedataid data chunkidfordatachunk typedefstruct idchunkid longchunksize unsignedcharwaveformdata datachunk offsetdescription offsetcontents 0 x00chunkid riff 0 x04chunksize 32 bits 0 x08wavechunkid wave 0 x0cformatchunkid fmt 0 x10formatchunksize 32 bits 0 x14formattag currentlypcm 0 x16numberofchannels1 mono 2 stereo0 x18samplerateinhz0 x1caveragebytespersecond offsetcontents 0 x20numberofbytespersample1 8 bitmono2 8 bitstereoor16 bitmono4 16 bitstereo0 x22numberofbitsinasample0 x24datachunkid data 0 x28lengthofdatachunk 32 bits 0 x2csampledata 2 2 4数字音频的文件格式 mp3文件格式简介mp3是第一个实用的有损音频压缩编码技术 在mp3出现之前 一般的音频编码即使以有损方式进行压缩 能达到4 1的压缩比例已经非常不错了 但是 mp3可以实现12 1的压缩比例 衡量mp3文件的压缩比例通常使用比特率来表示 通常比特率越高 压缩文件就越大 但音乐中获得保留的成分就越多 音质就越好 2 2 4数字音频的文件格式 midi文件格式简介midi最初应用在电子乐器上用来记录乐手的弹奏 以便以后重播 随着在电脑里面引入了支持midi合成的声音卡之后 midi才正式地成为了一种音频格式 midi的内容除了乐谱之外还记录了每个音符的弹奏方法 2 2 4数字音频的文件格式 各种文件格式与wav格式之间可以进行转换 最简单的方法就是使用winamp 只要winamp能播放某种格式的音乐 就可以通过它的outputplugin中的diskwriterplugin来输出为wav文件 目前winamp支持的格式包括 voc wav mid mp3 mp2 mp1 cd it xm s3m stm mod dsm far ult mtm 669 as wma mjf 2 3音频信号压缩编码 2 3 1概述2 3 2编码方法2 3 3音频数据的标准 2 3 1概述 为什么要进行语音编码 为什么能进行语音编码 音频编码基础 为什么要进行语音编码 随着对音质要求的增加 信号频率范围逐渐增加 要求描述信号的数据量也就随之增加 从而带来处理这些数据的时间和传输 存储这些数据的容量增加 因此音频压缩技术是数字媒体技术实用化的关键之一 语音信号中存在多种冗余度1 时域信息的冗余度2 频域信息的冗余度3 人的听觉感知机理 为什么能进行语音编码 语音信号中存在多种冗余度 时域信息的冗余度 1 幅度的非均匀分布 2 样本间的相关 3 周期之间的相关 4 基音之间的相关 5 静止系数 6 长时自相关函数 幅度的非均匀分布 即语音中的小幅度样本出现的概率比大幅度样本出现的概率高 信息主要集中在低功率上 又由于通话必然会有间隙 更出现了大量的低电平样本 此外 实际语音信号的功率电平也趋向于出现在编码范围的较低电平端 因此 语音信号的幅值分布是非均匀的 采样数据间的相关 相邻的语音信号间有很强的相关性 研究表明 当采样率为8khz时 相邻样值之间的相关系数大于0 85 甚至在相距十个样本之间 相关系数还有0 3左右的数级 如果采样率提高 样本间的相关性将更强 周期间的相关 虽然电话语音信号的频率分布在300 3400hz的频带内 但在特定的瞬间 某一声音却往往只是该频带内的少数频率分别起作用 当声音中只存在少数几个基本频率时 就会像某些振荡波形一样 在周期与周期之间存在着一定的相关性 浊音语音段的准周期性 反映在波形上出现图形的重复 即信息冗余 基音之间的相关性 语音可以分为清音和浊音两种基本类型 浊音是由声带振动产生 每一次振动使一股空气从肺部流进声道 激励声道的各股空气之间的间隔称为基音周期 浊音的波形对应于基音周期的长期重复波形 因此 对语音浊音部分编码的有效方法之一是对一个基音周期波形进行编码 并以它作为其它基音段的模板 语音间隙 实际语音通信中 存在通话间隙 通话分析表明 全双工话路的典型效率约为通话时间的40 即静止系数为0 6 这本身也是一种冗余 长时自相关 除了样本间 同期间的相关外 在较长的时间间隔上 语音信号也存在相关 统计表明 8khz采样时的平均相关系数高达0 9 1 2 例 语音的时域信息的冗余度 基音周期 音调周期 一个单音 1 1 非均匀的长时功率谱密度 2 语音特有的短时功率谱密度人的听觉感知机理 1 人的听觉具有掩蔽效应 2 人耳对不同频段的声音的敏感程度不同 3 人耳对语音信号的相位变化不敏感 2 频域信息的冗余度 非均匀的长时功率谱密度 从相当长的时间内统计平均 语音信号的功率谱呈现强烈的非平坦性 这说明语音信号对给定的频段利用的不充分 存在固定的冗余度 语音特有的短时功率谱密度 语音信号的短时功率潜在某些频率上出现峰值 而在另一些频率上出现谷值 这些峰值频率是能量较大的频率 称为共振峰语音特征主要由前3个共振峰频率决定 随着频率的增高 对整个功率谱的影响会快速递减 语音编码系统性能评价 在给定的编码速率下获得尽可能好的高质量语音主观评价可懂度评价音质评价 平均意见得分 判断满意度测量客观评价建立在原始语音和合成语音的数学对比之上信噪比 谱失真测度等特点是计算简单 结果客观 不受个人主观因素的影响但其缺陷也很明显 就是不能完全反应人类对语音的听觉效果 音频编码方法 根据解压后数据是否有失真可以将音频压缩分为无损压缩 无失真压缩 和有损压缩 有失真压缩 无损压缩的压缩效率低 但是可以无失真地重现原始数据 无损压缩的压缩效率较高 但有数据丢失 2 3 1概述 音频信息编码技术主要可分为三类 波形编码 这种方法主要基于语音波形预测 它力图使重建的语音波形保持原有的波形状态 常用的波形编码技术有增量调制 dm 自适应差分脉冲编码调制 adpcm 子带编码 sbc 和矢量量化编码 vq 等等 2 3 1概述 波形编码的特点是在高码率的条件下获得高质量的音频信号 适用于高保真度语音和音乐信号的压缩技术 它的优点是编码方法简单 易于实现 适应能力强 语音质量好等 缺点是压缩比相对来说较低 需要较高的编码速率 2 3 1概述 参数编码 参数编码的方法是将音频信号以某种模型表示 再抽出合适的模型参数和参考激励信号进行编码 声音重放时 再根据这些参数重建即可 显然参数编码压缩比很高 但计算量大 它主要用于在窄带信道上提供4 8kb s以下的低速语音通信和一些对延时要求较宽的应用场合 如卫星通信等 最常用的参数编码法为线性预测 lpc 编码 2 3 1概述 混合编码 这种方法克服了原有波形编码与参数编码的弱点 并且结合了波形编码的高质量和参数编码的低数据率 取得了比较好的效果 混合编码是指同时使用两种或两种以上的编码方法进行编码的过程 由于每种编码方法都有自己的优势和不足 若是用两种或两种以上的编码方法进行编码 可以优势互补 克服各自的不足 从而达到高效数据压缩的目的 2 3 2编码方法 常用的音频编码压缩算法有以下几种 增量调制增量调制 dm 是一种比较简单且有数据压缩功能的波形编码方法 在编码端 由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值 输入的模拟音频信号与预测值在比较器上相减 从而得到差值 差值的极性可以是正也可以是负 若为正 则编码输出为 若为负 则编码输出为0 这样 在增量调制的输出端可以得到一串1位编码的dm码 2 3 2编码方法 增量调制的系统结构图 增量调制编码过程示意图 问题1 斜率过载 当语音信号大幅度发生变化时 阶梯波形的上升或下降有可能跟不上信号的变化 因而产生滞后 这种失真称为 过载失真 在斜率过载期间的码字将是一连串的0或者一连串的1 为避免斜率过载 要求阶梯波的上升或下降的斜率必须大于或等于语音信号的最大变化斜率 当话音信号不发生变化或者变化很缓慢时 预测误差信号将等于零或具有很小的绝对值 在这种情况下 编码为0和1交替出现的序列 这样 在解码器中所得到的是等幅脉冲序列 这样形成的噪声称为颗粒噪声 问题2 颗粒噪声 为了减少颗粒噪声 希望使输出编码1位所表示的量化阶距小一些 但是 减少量化阶距会使在固定采样速度下产生更严重的斜率过载 为了解决这些矛盾 促使人们研究出了自适应增量调制 adm 方法 分析 2 3 2编码方法 自适应增量调制 adm 在adm中 常用的规则有两种 一种是控制可变因子m 使量化阶距在一定范围内变化 对于每一个新的采样 其量化阶距为其前面数值的m倍 而 的值则由输入信号的变化率来决定 如果出现连续相同的编码 则说明有发生过载的危险 这时就要加大 当0 1信号交替出现时 说明信号变化很慢 会产生颗粒噪声 这时就要减少m值 2 3 2编码方法 其典型的规则为 另一类使用较多的自适应增量调制称为可变斜率增量调制 其工作原理如下 如果调制器连续输出三个相同的码 则量化阶距加上一个大的增量 也就是说 三个连续相同的码表示有过载发生 反之 则量化阶距增加一个小的增量 2 3 2编码方法 可变斜率增量的自适应规则为 式中 可在0 1之间取值 可以看到 的大小可以通过调节增量调制来适应输入信号变化所需时间的长短 和 为增量 而且 要大于等于 2 3 2编码方法 脉冲编码调制pcmpcm编码是对连续语音信号进行空间采样 幅度量化及用适当码字将其编码的总称 pcm是一种最通用的无损压缩编码 其特点是保真度高 解码速度快 但编码后的数据量大 cd da就是采用的这种编码方式 pcm方法可以按量化方式的不同 分为均匀量化pcm 非均匀量化pcm和自适应量化pcm等几种 2 3 2编码方法 差分脉冲编码调制dpcm差分脉冲编码调制的中心思想是对信号的差值而不是对信号本身进行编码 这个差值是指信号值与预测值的差值 预测值可以由过去的采样值进行预测 其计算公式如下所示 2 3 2编码方法 式中为预测系数 因此 利用若干个前面的采样值可以预测当前值 当前值与预测值的差为 差分脉冲编码调制就是将上述每个样点的差值量化编码 而后用于存储或传递 2 3 2编码方法 自适应差分脉冲编码调制adpcm将自适应量化器和自适应预测器结合在一起用于dpcm之中 从而实现了自适应差分脉冲编码 adpcm是一种有损压缩编码 记录的量化值不是每个采样点的幅值 而是该点的幅值与前一个采样点幅值之差 2 3 2编码方法 其简化框图如下图所示 图2 10adpcm框图 预测pcm样本 pcm样本 差分量化器 adpc 差值 量化阶调整 逆量化器 预测器 adpc 差值 2 3 2编码方法 子带编码首先用一组带通滤波器 将输入的音频信号分成若干个连续的频段 并将这些频段称为子带 然后 再分别对这些子带中的音频分量进行采样和编码 最后 再将各子带的编码信号组织到一起进行存储或送到信道上传送 在信道的接收端得到各子带编码的混合信号 将各子带的编码取出来 对它们分别进行解码 产生各子带的音频分量 再将各子带的音频分量组合在一起 恢复原始的音频信号 2 3 2编码方法 子带编码的原理框如下图 2 3 2编码方法 变换域编码在子带编码中 划分子带的方法是通过带通滤波器来完成的 而另外一种方法就是通过变换域编码方法 将输入信号直接转换到频域 然后在频域划分各频段 根据不同的频段能量大小分配码字然后编码 接收端解码后再用相应的反变换转换成时域信号 2 3 3音频数据的标准 从数据通信的角度 音频编码标准主要有三种 在电话传输系统中应用的电话质量的音频压缩编码技术标准 如pcm itug 711 等 在窄带综合服务数据网传送中应用的调幅广播质量的音频压缩编码技术标准 如g 722等 在电视传输系统 视频点播系统中应用的音频编码标准 如mpeg音频标准等 2 3 3音频数据的标准 电话质量的音频压缩编码技术标准 1 g 711g 711标准是1972年ccitt 现称为itu t 制定的pcm语音标准 采样频率为8khz 每个样本值用8位二进制编码 因此输出的数据率64kb s 采用非线性量化 律或a律 将样本精度为13位的pcm按a律压扩编码 14位的pcm按 律压扩编码转换为8位编码 其质量相当于12bit线性量化的音质 g 711 a律 13 8 它是将13位的pcm按a律转化成8位二进制编码 主要用在欧洲和中国大陆等地区的数字电话通信中 按下面的式子确定量化输入和输出的关系 式中 x为输入信号幅度 规格化成 1 x 1 sgn x 为x的极性 a为确定压缩量的参数 它反映最大量化间隔和最小量化间隔之比 a律压扩的前一部分是线性的 其余部分与 律压扩相同 具体计算时 a 87 56 为简化计算 同样把对数曲线部分变成折线 g 711 律 14 8 它是将14位的pcm按 律转化成8位二进制编码 主要用在北美和日本等地区的数字电话通信中 按下面的式子确定量化输入和输出的关系 其中 x为输入信号的归一化值 y为压扩后的信号 对话音信号编码 常采用 255 这样适量化信噪比改善约24db 2 3 3音频数据的标准 2 g 721g 721标准是1984年itu t制定的 主要目的是用于64kbit s的a律和 律pcm与32kbit s的adpcm之间的转换 它基于adpcm技术 采样频率为8khz 每个样本与预测值的差值用4位编码 其编码速率为32kbit s 2 3 3音频数据的标准 3 g 728g 728标准是一个追求低比特率的标准 其速率为16kbit s 其质量与32kbit s的g 721标准基本相当 它使用了ld celp 低延时码本激励线性预测 算法 2 3 3音频数据的标准 调幅广播质量的音频压缩编码技术标准调幅广播质量音频信号的频率在50hz 7khz范围 ccitt在1988年制定了g 722标准 g 722标准是采用16khz采样 14bit量化 信号数据速率为224kbit s 采用子带编码方法 将输入音频信号经滤波器分成高子带和低子带两个部分 分别进行adpcm编码 再混合形成输出码流 224kbit s可以被压缩成64kbit s 最后进行数据插入 最高插入速率达16kbit s 2 3 3音频数据的标准 高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50hz 20khz 采用44 1khz采样频率 16bit量化进行数字化转换 其数据速率每声道705kbit s 2 4音乐合成和midi 2 4 1概述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东玉米钢板仓施工方案
- 延寿咨询延寿方案公示
- 嘉兴建筑方案设计招聘
- 小市政施工方案归档吗
- 建筑劳务外包服务方案设计
- 咨询方案创新
- 2025年教师资格证考试初中生物教学知识与能力押题试卷解析
- 情人节浪漫宣言范本
- 文化产业园区合作协议
- 2025交警网校笔试试题及答案
- 地面铺装室外施工合同
- 人员分级管理
- 2024-2025年江苏专转本英语历年真题(含答案)
- 《铁路轨道维护》课件-钢轨母材探伤
- 餐饮服务工作培训
- 高中学习主题班会
- GB/T 44808.1-2024人类工效学无障碍设计第1部分:消费品中的语音提示
- 国家电网有限公司新一代电子商务平台(ECP20)操作手册-省公司合同管理-供应商操作分册
- 带电作业施工方案
- 《钢渣集料冷铺抗滑磨耗层施工技术规范》(编制说明编写要求)
- 2024年食品安全抽检监测技能大比武理论考试题库(含答案)
评论
0/150
提交评论