一种新的多媒体会议实时混音方案.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-22 格式：PDF 页数：4 大小：189.30KB 积分：6 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1994 2010 china academic journal electronic publishing house all rights reserved 收稿日期 2007208222 作者简介周敬利女 1946年生教授博士生导师研究方向为高性能网络存储技术及多媒体计算技术马志龙男 1977年生博士研究生研究方向为多媒体网络传输和嵌入式系统范晔斌男 1976年生讲师研究方向为网络结构及安全技术陈小平男 1979年生博士研究生研究方向为多媒体存储和网络传输一种新的多媒体会议实时混音方案周敬利马志龙范晔斌陈小平华中科技大学计算机科学与技术学院湖北武汉430074 e2mail zlma w twh com cn 摘要多媒体会议中多点控制单元 multi2point controlling unit 简称m cu 在多点会议中提供音频视频和数据等的集中处理能力其中音频处理能力是最基本的也是实时性要求最高的要素针对多点多媒体会议的实际应用需求归类并分析了多种自适应多点语音混合处理方案提出了采用自动门限和通道压缩处理的高性能混音方案该方案主要针对人耳听觉的特点首先去除掉会议中人耳无法分辨的通道提高混音信噪比然后对剩下的通道进行语音能量压缩在保证混音结果不溢出的同时使得输出的语音能量比较稳定具有良好的听觉主观舒适感同时这套方案具有较低的算法复杂度使用dsp等硬件较易实现可以广泛应用在多媒体会议系统的实现中关键词多媒体会议多点控制单元实时混音自动门限语音压缩中图分类号 tp393 文献标识码 a 文章编号 100021220 2009 0120169204 real ti me audiom ixing arithmetic in m ultipoint conferencing zhou jing2li ma zhi2long fan ye2bin chen xiao2ping d epartm ent of computer s cience and t echnology h uazhong u niversity w uhan430074 china abstract in multi media conferencing multi2point controlling unit m cu provides the capabilities to process audio video and data stream formulti2point conference the capability of audio processing is basic and requiresmore for real2ti me criteria this paper categorizes and analyzes the schemes and a new multi2point speech audio m ixing scheme using auto2gate2m ixing and au2 dio2compressing algorithm is provided to meet the demand of the practical need ofmulti2point speech processing by getting rid of the noice channel and compressing the audio data and they have low complexity and good hearing perceptibility in themean ti me theschemes are designed for parallel processing so they can be easily i mplemented w ith hardware such as dsps and w idely applied in multi media conferencing system s key words multi media conferencing m cu multi2point controlling unit real 2ti me audio m ixing auto2gating audio2com2 pressing 1 引言随着信号处理算法硬件处理能力网络结构优化方面的不断进步多媒体通信产品已经迅速普及其典型的代表是视频会议系统在视频会议系统中多点间的语音交互是最基本也是最重要的模块作为有多个终端参与的视频会议传统方法采取令牌控制或者轮询控制下的互斥模式即只有拥有发言权的那个与会者才可以讲话这样每个与会者某一时刻只能听到一路音频信号但这种半双工情况是不方便和不实际的更多的时候我们需要采用自由参与的讨论方式仿真多个与会者在一个会议室进行对话的情形考虑到每个终端通常只有一套音频输出设备而且网络传输的带宽有限必须采用多路音频流混合的方案该方案使用多点控制单元m cu 对语音信号进行实时混音这样每个终端只需要接收一个信道的混合音频流降低了网络传输的负担对每个端点的处理能力需求也大大降低 1 在常见的处理算法中一般会因为多路语音信号采样量化数据叠加后超出量化上限而导致不得不采用饱和运算将其变更为量化上限 2 这样就引入了新的噪声特别是当参与混音通道数量比较多的时候则混音溢出的可能性大大增加从而严重影响通话效果因此必须采用合适的混音算法来消除溢出失真本文首先分析了常见混音算法的优缺点主要针对用户的听觉感受提出了一种自动门限混音方案该方案首先通过自动门限混音算法限制了参与混音通道的数量提高混音输出的信噪比然后对参与混音的通道进行能量压缩使每个混音通道的输出能量比较稳定人耳听起来比较舒适实验证明该方案能够实现更好的混音质量满足高质量多媒体会议的需求 2 常见的混音算法分析语音的有声段是一种连续平滑的信号两个连续平滑小型微型记算机系统 journal of chinese computer system s 2009年1月第1期 vol130 no 12009 1994 2010 china academic journal electronic publishing house all rights reserved 波形叠加的结果仍然是连续平滑的溢出现象只是由于受到语音数据表示精度 16bit 或8bit 的限制而产生的而精度是由相应编码器的要求所决定的 3 对语音波形进行平滑滤波处理不会改变语音的音质和内容因为语音信号具有短时 10m s 30m s 相关性在我们的视频会议系统中音频部分中所有语音包的大小均在此范围之内通过平滑处理即一个语音包的数据按照比例缩小不会改变语音的特征参数如共振峰及基音周期等的大小也不会改变语音信号的波形 3 基于上述语音信号的特性在实际应用中通常采用时域叠加作为基本的混音处理手段即采用下式进行运算 m ixd ata i m21 j 0inputd ata j i i 0 1 2 n21 1 其中 m 为输入音频流的个数 n 为音频流一帧的采样数目 inputdata j i 为j路音频流中的第i个样本 m ixdata i 为混音数据帧中第i个样本由于数字音频信号存在量化上限和下限的问题叠加运算可能会造成结果溢出通常的处理手段是进行溢出检测然后再进行饱和运算即超过上限的结果被置为上限值超过下限的值置为下限值这种运算本身破坏了语音信号原有的时域特征从而引入了噪声这就是在系统中会出现爆破声和语音不连续现象的原因同时随着参与混音的人数增加该算法出现溢出的频率也不断上升一般4路及4路以上参与混音时其结果就有很多噪音和断续无法分辨语流了一种常用的方法是平均调整权重法 align2to2average weighted 简称aaw 该算法在混音完以后使用平均值来降低其振幅使其分布在系统所能表示的范围之内这种方法叫做归一化 normalize 处理其数学描述见公式 2 这种方法计算简单而且不会引入噪声但是由于该算法对各个分量都进行了衰减 5 所以在与会数量上升时混音合成的输出音量也随之下降如果在参与合成的输入中有某一路或者几路音量特别小那么整个混音结果的音量会被拉低一般来说在4点以上的多点会议中使用这种方法很多语音细节不能分辨 m ixd ata i 1 m m21 j 0inputd ata j i i 0 1 2 n21 2 在实际应用中还有强对齐权重法 align2to2biggest weighted 简称abw 和弱对齐权重法 align2to2weakest weighted 简称aww 可以使用其思想是按照参与混音的输入信号幅度值为依据来决定它们在合成后的输出中所占的比重其区别是abw是幅度越大则比重越大其特点是放大了原先每个通道之间的能量关系使得关键通道通常都是能量大的通道更加容易被分辨但能量小的通道混音输出后的声音更加小甚至很难分辨而aww则是按照幅度越大则比重越小的原则进行混音将原先能量低的通道相对放大能量高的通道相对减小最终的输出结果使得每个通道能量尽量接近论文还给出了自对齐权重法 align2to2self weighted 简称a sw 4 自对齐权重法则是考虑参与混音的多路音频信号自身的特点以它们自身的比例作为权重从而决定它们在合成后的输出中所占的比重其数学描述见公式 3 从原理上说 a sw更像是abw的改进算法它们都是根据音频信号自身特点计算权重只不过a sw使用了短时能量来计算混音比重相对abw的幅度值能够更准确地描述信号之间的能量关系 m ixd ata i m21 j 0 inputd ata j i 23 sgn inputd ata j i m21 j 0 inputd ata j i i 0 1 2 n21 3 从前面算法分析和人耳实际的听觉效果来看我们发现这些混音算法都存在一些问题 aaw虽然不会造成混音溢出不过它对每个通道的衰减太大在超过4点以上的多点会议中使用这种方法很多语音细节不能分辨 abw放大了原先每个通道之间的能量关系能量小的通道混音输出后的声音更加小几乎很难分辨 aww使得输出中每个通道能量尽量接近损失了语音信号自身抑扬顿挫的特点听起来非常平淡 a sw也存在abw同样的问题只不过它用短时能量计算权重相对abw更加平滑一些而且abw和a sw由于在混音时候会根据语音信号特点动态调整权重往往会造成输出的声音时大时小这在高质量会议系统中是不能忍受的 3 自动门限混音方案针对常见混音算法中存在的问题针对用户的听觉感受提出了一种自动门限混音方案其主要的思想首先通过自动门限混音算法限制了参与混音通道的数量提高混音输出的有效音频的信噪比然后对参与混音的通道进行能量压缩当音频能量超过某一个门限值以后必须进行衰减使每个混音通道的输出能量比较稳定人耳听起来比较舒适最后对混音后的数据进行压限处理保证混音后的数据不会溢出 3 1 自动门限混音在实际的多媒体会议应用中 4点以上的会议系统已经非常常见虽然会议系统支持的终端数量增多但是在实际会议过程中通常也只会有一个或者几个终端在同时发言大部分终端都处在无发言状态如果我们将这些无发言状态的通道去除掉能够降低混音溢出的概率提高混音质量过去论文通常采用平均过零律来做语音信号的检测依据但是大型会议系统通常由由高灵敏话筒和扩声系统做输入输出现场的反馈声和噪声经常会使系统检测出错本文主要还是根据短时能量用来做语音信号的检测根据所有通道的语音短时能量动态计算门限值超过门限值的才认为是有语音输入当通道连续一段时间没有超过门限值则认为该通道没有语音输入定义会议系统中终端数量为 m 每次采样数据样本数为 n 输入数据为inputdata 输出数据为m ixdata 定义通道当前状态变量为state 发言状态为1 无发言状态为0 具体自动门限混音算法如下 071 小型微型计算机系统 2009年 1994 2010 china academic journal electronic publishing house all rights reserved 1 计算每个通道音频数据的短时能量e i e i n21 j 0inputd ata i j 2 i 1 2 m 4 2 找到当前的通道能量计算当前时刻的混音门限值 gate gate max e i 212db i 1 2 m 5 3 对会议系统中m个通道执行通道开关算法这里增加一个通道关闭计数器是考虑到语音本身抑扬顿挫的特点避免通道频繁的切换增加的一个保持时间只有在这个保持时间内一直都没有有效的信号才认为该通道被关闭 if e i gate and state i 0 state i 1 通道关闭计数器 0 else if e i 设定门限值 state i 0 4 对会议系统中m个通道执行混音算法 m ixdata i j inputdata i j 3state i j 1 2 n 3 2 通道能量压缩常见混音算法实际上也是将每个通道能量进行压缩其中的权重实际上就是通道能量压缩的比例因子由于它们需要根据相互关系来动态决定权重所以可能会造成语音输出不稳定或者有些低能量通道无法识别本文根据音频数据的自身短时能量大小来计算衰减因子当音频短时能量超过某一个门限值可以以一定的比例进行衰减而低于这个门限值则不需要进行衰减用图一来表示其中横轴表示语音的输入能量值竖轴表示语音的输出能量值图1 通道压缩示意图 fig 1 a udio compressor 这种压缩算法对低能量的音频不进行任何衰减这样避免了低能量音频衰减无法辨识的问题对能量高的音频按照一定的比例进行衰减还是保持了语音抑扬顿挫的特性只不过是变化的幅度被降低了每个通道的压缩参数可以事先配置好这样在会议过程中每个通道的语音变化只是根据自身的输入情况进行变化不会受到别的通道变化影响就不会出现合成声音乎大乎小的现象了 4 试验结果和结论对于不同类型的会议我们可以选取不同的参数来实现最好的效果例如主席制的会议系统通常只会有一个通道在发言只有在切换通道的时候才可能会有2个通道同时发言这样我们可以用自动门限算法将同时打开的通道数限制为2 个将每个通道能量压缩6个 db 这样就可以保证混音结果不会溢出而在通常的会议中我们可以将同时打开的通道数限制为4个将每个通道能量压缩12个 db 因为在会议中有4个以上的通道同时说话的情况本来就会使人觉得无法分辨各自语音了为了验证算法的性能和实际效果我们使用了ad i公司 dsp的评估板来做实验 dsp芯片采用的sharc系列的 21262 该芯片的主频为200 m 处理能力达到1200fm ips 硬件最大支持8个通道48000采样的话筒输入 2个声道输出实验结果如下在实际会议终端环境中测得如下数据系统中无人发言时的通道能量大约为50db 某通道按照正常音量发言时该通道的能量值大约为210db 其它通道的能量值大约为230db 用本文提出自动门限混音算法能够及时准确的打开或者关闭语音通道没有造成语音信号的丢失表1 混音算法效率试验数据表 table 1 a rithmetic compare result aawabwawwasw自动门限算法 2点混音0 81 1 02 1 03 1 72 1 07 4点混音1 59 2 01 2 02 3 33 2 10 8点混音2 98 3 99 4 01 6 51 4 18 根据实际参与测试的测试人员的主观评价在4点以下的会议中本文提出的自动门限混音算法和a sw合成后的音频流连续自然没有跳音和断续的感觉也没有爆破噪声 aaw的输出音量很小 abw和aww和成后音频流有少许爆破音而且在开始和停止说话的时候会产生突然性的音量大小变化在4点以上的会议中由于噪声通道数量的增加 aaw abw aww a sw都会感觉到非常明显的噪声而自动门限混音算法由于能够自动去除掉这些噪声则能够继续保持优秀的混音质量在多点混音情况下每个混音算法在评估板上的处理时间可以通过dsp工具获得用dsp芯片时间占用率表示占用率越低表示算法性能越高结果如下表所示 aaw最低 abw aww和自动门限混音算法比较接近 a sw占用处理时间最多性能最差综上所述自动门限混音算法能够满足多媒体会议应用的需求它不仅能够保证参与混音各路输入的时域细节特性 1711期周敬利等一种新的多媒体会议实时混音方案 1994 2010 china academic journal electronic publishing house all rights reserved 具有很好的听觉主观舒适感和连续感同时能够保证多点混音的高性能相对于近年来提出的一些语音混合算法 325 算法性能和输出效果都有明显改善 references 1 venkat r p harrickm v srinivasr communication architectures and algorithm s for media m ixing in multi media conferences j ieee acm trans on networking 1993 1 1 20230 2 agust n j g hussein a w audio m ixing for interactivemulti2 media communications c w ang p ed proc of the jc is 98 nc research triangle 1998 2172220 3 yang s t yu s s zhou j l a multipoint real2time speech m ixing and scheduling algorithm based on packet networks j journal of software 2001 12 9 141321419 4 fax x gu w k ye x q fastreal2time adaptive audio m ixing schemes in multimedia conferenceing j journal of software 2005 16 1 1082115 5 tu w p hu r m a i h j et al audio m p in video conference j geomatics and information of w uhan u niversity 2002 27 1 982101 附中文参考文献 3 杨叔堂余胜生周敬利基于分组网络的多点实时语音混合及调度算法 j 软件学报 2001 12 9 141321419 4 樊星顾伟康叶秀清多媒体会议中的快速实时自适应混音方案的研究 j 软件学报 2005 16 1 1082115 5 涂卫平胡瑞敏艾浩军谢兄视频会议中多点处理的研究 j 武汉大学学报信息科学版 2002 27 1 982101 第二届全国智能信息处理学术会议征文通知 the 2nd national conference on intelligent information processing nciip2009 call for papers 主办中国人工智能学会知识工程与分布智能专业委员会中国计算机学会人工智能与模式识别专业委员会承办中国矿业大学中国科学院智能信息处理重点实验室由中国人工智能学会知识工程与分布式智能专业委员会与中国计算机学会人工智能与模式识别专业委员会联合主办中国矿业大学与中国科学院智能信息处理重点实验室联合

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

一种新的多媒体会议实时混音方案.pdf

文档简介

温馨提示

最新文档

评论

一种新的多媒体会议实时混音方案.pdf

文档简介

温馨提示

最新文档

评论

相关文档