视频会议中的各种音频技术

上传人：m*** IP属地：天津上传时间：2022-10-04 格式：DOCX 页数：6 大小：15.75KB 积分：15 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、视频系统术语音频技术音频技术视频通讯过程是视频和音频的实时双向完整通讯过程。在这个过程中我们为了获得高清晰视频图像，有时却忽略了另外一个重要的过程一一音频通讯过程。如果我们在观看高清晰视频图像的时候，不能得到一个更清晰、连续的音频效果。那么这个过程实际上就没有任何意义，所以其重要性甚至超过视频。在传统的视频会议系统中音频技术发展极其缓慢，原因在于目前应用于视频通讯的音频编解码压缩标准都是为了保持传输时的低带宽占用和较高的编解码效率，从而将音频信号的采样频率、采样精度和采样范围指标做了极大的降低，使得所能提供的音频清晰度和还原性都有很大程度上的衰减。与用于存储和回放非实时压缩协议的标

2、准（如OGG、MP3等）相比，音频的保真度非常低。这样就在某种程度上对现场声音的还原达不到要求。目前传统视频通讯过程中主要采用的是G.711、G.722、G.721、G.728等音频标准，音频宽度仅有 50Hz-7KHz单声道，而人耳所能感知的自然界的频响能力可以达到20Hz 20KHz，因此，在对现场环境音的还原过程中过多的音频信息的丢失造成了无法真实表现现场情况。所以在高清晰视频通讯过程中我们势必要有一种相辅助的音频处理方式解决此问题。使整个高清晰通讯过程更去近于完美。目前国际上对音频处理技术上标准较多，在对下一代实时交互音频处理上可以采用MPEG-1 Layer 2或AAC 系列音

3、频，对选用标准的原则是，音频频响范围要达到22KHz，这样就几乎可以覆盖了人耳听觉的全部范围，甚至在高频方面还有所超越，能够使现场音频得到真实自然的还原，并且在还原时可以采用双声道立体声回放，使整个视频通讯的声音有更强的临近感，达到CD级音质。同时在对链路带宽的适应和编解码效率上达到最佳。下面是各种音频编码标准的说明：G.711类型：Audio制定者：ITU-T所需频宽：64Kbps特性：算法复杂度小，音质一般优点：算法复杂度低，压缩比小（CD音质400kbps），编解码延时最短（相对其它技术）缺点：占用的带宽较高备注：70年代CCITT公布的G.711 64kb/s脉冲编码调制PCM

4、。G.721制定者：ITU-T所需带宽：32Kbps音频频宽：3.4KHZ特性：相对于PCMA和PCMU，其压缩比较高，可以提供2： 1的压缩比。优点：压缩比大缺点：声音质量一般备注：子带ADPCMCSB-ADPCM）技术。G.721标准是一个代码转换系统。它使用ADPCM转换技术，实现64 kb/s A律或n律PCM速率和32 kb/s速率之间的相互转换。G.722制定者：ITU-T所需带宽：64Kbps音频宽度：7KHZ特性：G722能提供高保真的语音质量优点：音质好缺点：带宽要求高备注：子带ADPCM（SB-ADPCM）技术G.721制定者：ITU-T所需带宽：32Kbps/24Kbps

5、音频宽度：7KHZ特性:可实现比G.722编解码器更低的比特率以及更大的压缩。目标是以大约一半的比特率实现G.722大致相当的质量。优点：音质好缺点：带宽要求高备注：目前大多用于电视会议系统。G.721 附录 C制定者：ITU-T所需带宽：48Kbps/32Kbps/4Kbps音频宽度：14KHZ特性：采用自Polycom的Siren14专利算法，与早先的宽频带音频技术相比具有突破性的优势，提供了低时延的14 kHz超宽频带音频，而码率不到MPEG4 AAC-LD替代编解码器的一半，同时要求的运算能力仅为十分之一到二十分之一，这样就留出了更多的处理器周期来提高视频质量或者运行因特网应用程

6、序，并且移动设备上的电池续航时间也可延长。优点：音质更为清晰，几乎可与CD音质媲美，在视频会议等应用中可以降低听者的疲劳程度。缺点：是Polycom的专利技术。备注：目前大多用于电视会议系统G.723（低码率语音编码算法）制定者：ITU-T所需带宽：5.3Kbps/6.3Kbps音频宽度：3.4KHZ特性：语音质量接近良，带宽要求低，高效实现，便于多路扩展，可利用C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量，性能稳定。可用于IP电话语音信源编码或高效语音压缩存储。优点：码率低，带宽要求较小。并达到ITU-TG723要求的语音质量，性能稳定。缺点：声音质

7、量一般备注:G.723语音编码器是一种用于多媒体通信，编码速率为5.3kbits/s和6.3kbit/s的双码率编码方案。 G.723标准是国际电信联盟（ITU）制定的多媒体通信标准中的一个组成部分，可以应用于IP电话等系统中。其中，5.3kbits/s码率编码器采用多脉冲最大似然量化技术（MP-MLQ），6.3kbits/s码率编码器采用代数码激励线性预测技术。G.723.1（双速率语音编码算法）制定者：ITU-T所需带宽：5.3Kbps（29）音频宽度：3.4KHZ特性：能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号来说是最优的。G.723.1采用了执行不连续传输的静音压缩

8、，这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外，这种技术使发信机的调制解调器保持连续工作，并且避免了载波信号的时通时断。优点：码率低，带宽要求较小。并达到ITU-TG723要求的语音质量，性能稳定，避免了载波信号的时通时断。缺点：语音质量一般备注：G.723.1算法是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法，其目标应用系统包括H.323、H.324等多媒体通信系统。目前该算法已成为IP电话系统中的必选算法之一。G.728制定者：ITU-T所需带宽：16Kbps/8Kbps音频宽度：3.4KHZ特性：用于IP电话、卫星通信、语音存储等多个领域

9、。G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析*.728还采用了自适应后置滤波器来提高其性能。优点：后向自适应，采用自适应后置滤波器来提高其性能缺点：比其它的编码器都复杂备注：G.728 16kb/s短延时码本激励线性预测编码（LD-CELP）。1996年ITU公布了 G.728 8kb/s的CS- ACELP算法，可以用于IP电话、卫星通信、语音存储等多个领域16kbpsG.728低时延码激励线性预测。G.728是低比特线性预测合成分析编码器（G.729和G.723.1）和后向ADPCM编码器的混合体。G.728 是LD-CELP

10、编码器，它一次只处理5个样点。对于低速率（56128 kbps）的综合业务数字网（ISDN）可视电话，G.728是一种建议采用的语音编码器。由于其后向自适应特性，因此G.728是一种低时延编码器，但它比其它的编码器都复杂，这是因为在编码器中必须重复做50阶LPC分析。G.728还采用了自适应后置滤波器来提高其性能。G.729制定者：ITU-T所需带宽：8Kbps音频宽度：3.4KHZ特性：在良好的信道条件下要达到长话质量，在有随机比特误码、发生帧丢失和多次转接等情况下要有很好的稳健性等。这种语音压缩算法可以应用在很广泛的领域中，包括IP电话、无线通信、数字卫星系统和数字专用线路。G.

11、729算法采用“共轭结构代数码本激励线性预测编码方案”（CS-ACELP）算法。这种算法综合了波形编码和参数编码的优点，以自适应预测编码技术为基础，采用了矢量量化、合成分析和感觉加权等技术。G.729编码器是为低时延应用设计的，它的帧长只有10ms，处理时延也是10ms，再加上5ms的前视，这就使得G.729产生的点到点的时延为25ms，比特率为8 kbps。优点：语音质量良，应用领域很广泛，采用了矢量量化、合成分析和感觉加权，提供了对帧丢失和分组丢失的隐藏处理机制。缺点：在处理随机比特错误方面性能不好。备注：国际电信联盟（ITU-T ）于1995年11月正式通过了 G.729。ITU

12、-T建议G.729也被称作“共轭结构代数码本激励线性预测编码方案”（CS-ACELP），它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。10G.729A制定者：ITU-T所需带宽：8Kbps（34.4）音频宽度：3.4KHZ 特性：复杂性较G.729低，性能较G.729差。优点：语音质量良，降低了计算的复杂度以便于实时实现，提供了对帧丢失和分组丢失的隐藏处理机制缺点：性能较G.729差备注：96年ITU-T又制定了 G.729的简化方案G.729A，主要降低了计算的复杂度以便于实时实现，因此目前使用的都是G.729A。11 MPEG

13、-1 audio layer 1制定者：MPEG所需带宽：384kbps (压缩4倍)音频宽度：特性：编码简单，用于数字盒式录音磁带，2声道，VCD中使用的音频压缩方案就是MPEG-1层I。优点：压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)缺点：频宽要求较高备注：MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准，它分为三个层次：-层1(Layer 1):编码简单，用于数字盒式录音磁带层2(Layer 2)：算法复杂度中等，用于数字音频广播(DAB)和VCD等层3(Layer 3)：

14、编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍12MPEG-1 audio layer 2,即 MP2制定者：MPEG所需带宽：256192kbps (压缩68倍)音频宽度：特性：算法复杂度中等，用于数字音频广播(DAB)和VCD等，2声道，而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。优点：压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)缺点：备注：同 MPEG-1 audio layer 113

15、MPEG-1 audio layer 3(MP3)制定者：MPEG所需带宽：128112kbps (压缩1012倍)音频宽度：特性：编码复杂，用于互联网上的高质量声音的传输，如MP3音乐压缩10倍，2声道。MP3是在综合MUSICAM 和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。优点：压缩比高，适合用于互联网上的传播缺点：MP3在128KBitrate及以下时，会出现明显的高频丢失备注：同 MPEG-1 audio layer 114MPEG-2 audio layer制定者：MPEG所需带宽：与MPEG-1层1，层2，层3相同音频宽度：特性：MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1,层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。优点：支持5.1声道和7.1声道的环绕立体声缺点：备注：MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器，层1,层2和层3的结构也相同，但它能支持5.1声道和7.1声道的环绕立体声。15AAC-LD （dvanced Audio Coding，先进音频编码）制定者：MPEG所需带宽：48-64 kbps音频宽度：22K

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

视频会议中的各种音频技术

文档简介

温馨提示

最新文档

评论

视频会议中的各种音频技术

文档简介

温馨提示

最新文档

评论

相关文档