一种新的多媒体会议实时混音方案.pdf_第1页
一种新的多媒体会议实时混音方案.pdf_第2页
一种新的多媒体会议实时混音方案.pdf_第3页
一种新的多媒体会议实时混音方案.pdf_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1994 2010 china academic journal electronic publishing house all rights reserved 收稿日期 2007208222 作者简介 周敬利 女 1946年生 教授 博士生导师 研究方向为高性能网络存储技术及多媒体计算技术 马志龙 男 1977年生 博士研究生 研究方向为多媒体网络传输和嵌入式系统 范晔斌 男 1976年生 讲师 研究方向为网络结构及安全技术 陈小平 男 1979年生 博士研究生 研究方向为多媒体存储和网络传输 一种新的多媒体会议实时混音方案 周敬利 马志龙 范晔斌 陈小平 华中科技大学 计算机科学与技术学院 湖北 武汉430074 e2mail zlma w twh com cn 摘 要 多媒体会议中多点控制单元 multi2point controlling unit 简称m cu 在多点会议中提供音频 视频和数据等的集中处 理能力 其中音频处理能力是最基本的 也是实时性要求最高的要素 针对多点多媒体会议的实际应用需求 归类并分析了多种 自适应多点语音混合处理方案 提出了采用自动门限和通道压缩处理的高性能混音方案 该方案主要针对人耳听觉的特点 首 先去除掉会议中人耳无法分辨的通道 提高混音信噪比 然后对剩下的通道进行语音能量压缩 在保证混音结果不溢出的同时 使得输出的语音能量比较稳定 具有良好的听觉主观舒适感 同时 这套方案具有较低的算法复杂度 使用dsp等硬件较易实 现 可以广泛应用在多媒体会议系统的实现中 关 键 词 多媒体会议 多点控制单元 实时 混音 自动门限 语音压缩 中图分类号 tp393 文献标识码 a 文 章 编 号 100021220 2009 0120169204 real ti me audiom ixing arithmetic in m ultipoint conferencing zhou jing2li ma zhi2long fan ye2bin chen xiao2ping d epartm ent of computer s cience and t echnology h uazhong u niversity w uhan430074 china abstract in multi media conferencing multi2point controlling unit m cu provides the capabilities to process audio video and data stream formulti2point conference the capability of audio processing is basic and requiresmore for real2ti me criteria this paper categorizes and analyzes the schemes and a new multi2point speech audio m ixing scheme using auto2gate2m ixing and au2 dio2compressing algorithm is provided to meet the demand of the practical need ofmulti2point speech processing by getting rid of the noice channel and compressing the audio data and they have low complexity and good hearing perceptibility in themean ti me theschemes are designed for parallel processing so they can be easily i mplemented w ith hardware such as dsps and w idely applied in multi media conferencing system s key words multi media conferencing m cu multi2point controlling unit real 2ti me audio m ixing auto2gating audio2com2 pressing 1 引 言 随着信号处理算法 硬件处理能力 网络结构优化方面的 不断进步 多媒体通信产品已经迅速普及 其典型的代表是视 频会议系统 在视频会议系统中 多点间的语音交互是最基本 也是最重要的模块 作为有多个终端参与的视频会议 传统方 法采取令牌控制或者轮询控制下的互斥模式 即只有拥有发 言权的那个与会者才可以讲话 这样每个与会者某一时刻只 能听到一路音频信号 但这种半双工情况是不方便和不实际 的 更多的时候 我们需要采用自由参与的讨论方式 仿真多 个与会者在一个会议室进行对话的情形 考虑到每个终端通 常只有一套音频输出设备 而且网络传输的带宽有限 必须采 用多路音频流混合的方案 该方案使用多点控制单元m cu 对语音信号进行实时混音 这样每个终端只需要接收一个信 道的混合音频流 降低了网络传输的负担 对每个端点的处理 能力需求也大大降低 1 在常见的处理算法中 一般会因为多路语音信号采样量 化数据叠加后超出量化上限 而导致不得不采用饱和运算将 其变更为量化上限 2 这样就引入了新的噪声 特别是当参与 混音通道数量比较多的时候 则混音溢出的可能性大大增加 从而严重影响通话效果 因此必须采用合适的混音算法来消 除溢出失真 本文首先分析了常见混音算法的优缺点 主要针 对用户的听觉感受提出了一种自动门限混音方案 该方案首 先通过自动门限混音算法限制了参与混音通道的数量 提高 混音输出的信噪比 然后对参与混音的通道进行能量压缩 使 每个混音通道的输出能量比较稳定 人耳听起来比较舒适 实 验证明 该方案能够实现更好的混音质量 满足高质量多媒体 会议的需求 2 常见的混音算法分析 语音的有声段是一种连续 平滑的信号 两个连续 平滑 小型微型记算机系统 journal of chinese computer system s 2009年1月 第1期 vol130 no 12009 1994 2010 china academic journal electronic publishing house all rights reserved 波形叠加的结果仍然是连续 平滑的 溢出现象只是由于受到 语音数据表示精度 16bit 或8bit 的限制而产生的 而精度是 由相应编码器的要求所决定的 3 对语音波形进行平滑滤波处理不会改变语音的音质和内 容 因为语音信号具有短时 10m s 30m s 相关性 在我们的 视频会议系统中 音频部分中所有语音包的大小均在此范围 之内 通过平滑处理 即一个语音包的数据按照比例缩小 不 会改变语音的特征参数 如共振峰及基音周期等 的大小 也 不会改变语音信号的波形 3 基于上述语音信号的特性 在实际应用中 通常采用时域 叠加作为基本的混音处理手段 即采用下式进行运算 m ixd ata i m21 j 0inputd ata j i i 0 1 2 n21 1 其中 m 为输入音频流的个数 n 为音频流一帧的采样 数目 inputdata j i 为j路音频流中的第i个样本 m ixdata i 为混音数据帧中第i个样本 由于数字音频信号存在量化上限和下限的问题 叠加运 算可能会造成结果溢出 通常的处理手段是进行溢出检测 然 后再进行饱和运算 即超过上限的结果被置为上限值 超过下 限的值置为下限值 这种运算本身破坏了语音信号原有的时 域特征 从而引入了噪声 这就是在系统中会出现爆破声和语 音不连续现象的原因 同时 随着参与混音的人数增加 该算 法出现溢出的频率也不断上升 一般4路及4路以上参与混音 时其结果就有很多噪音和断续 无法分辨语流了 一种常用的方法是 平均调整权重法 align2to2average weighted 简称aaw 该算法在混音完以后 使用平均值来 降低其振幅 使其分布在系统所能表示的范围之内 这种方法 叫做归一化 normalize 处理 其数学描述见公式 2 这种方 法计算简单 而且不会引入噪声 但是由于该算法对各个分量 都进行了衰减 5 所以在与会数量上升时 混音合成的输出音 量也随之下降 如果在参与合成的输入中有某一路或者几路 音量特别小 那么整个混音结果的音量会被拉低 一般来说 在4点以上的多点会议中使用这种方法 很多语音细节不能 分辨 m ixd ata i 1 m m21 j 0inputd ata j i i 0 1 2 n21 2 在实际应用中 还有强对齐权重法 align2to2biggest weighted 简称abw 和弱对齐权重法 align2to2weakest weighted 简称aww 可以使用 其思想是按照参与混音的输 入信号幅度值为依据来决定它们在合成后的输出中所占的比 重 其区别是abw是幅度越大则比重越大 其特点是放大了 原先每个通道之间的能量关系 使得关键通道 通常都是能量 大的通道 更加容易被分辨 但能量小的通道混音输出后的声 音更加小 甚至很难分辨 而aww则是按照幅度越大则比重 越小的原则进行混音 将原先能量低的通道相对放大 能量高 的通道相对减小 最终的输出结果使得每个通道能量尽量接 近 论文还给出了 自对齐权重法 align2to2self weighted 简 称a sw 4 自对齐权重法则是考虑参与混音的多路音频 信号自身的特点 以它们自身的比例作为权重 从而决定它们 在合成后的输出中所占的比重 其数学描述见公式 3 从原 理上说 a sw更像是abw的改进算法 它们都是根据音频 信号自身特点计算权重 只不过a sw使用了短时能量来计算 混音比重 相对abw的幅度值能够更准确地描述信号之间 的能量关系 m ixd ata i m21 j 0 inputd ata j i 23 sgn inputd ata j i m21 j 0 inputd ata j i i 0 1 2 n21 3 从前面算法分析和人耳实际的听觉效果来看 我们发现 这些混音算法都存在一些问题 aaw虽然不会造成混音溢 出 不过它对每个通道的衰减太大 在超过4点以上的多点会 议中使用这种方法 很多语音细节不能分辨 abw放大了原 先每个通道之间的能量关系 能量小的通道混音输出后的声 音更加小 几乎很难分辨 aww使得输出中每个通道能量尽 量接近 损失了语音信号自身抑扬顿挫的特点 听起来非常平 淡 a sw也存在abw同样的问题 只不过它用短时能量计 算权重相对abw更加平滑一些 而且abw和a sw由于在 混音时候会根据语音信号特点动态调整权重 往往会造成输 出的声音时大时小 这在高质量会议系统中是不能忍受的 3 自动门限混音方案 针对常见混音算法中存在的问题 针对用户的听觉感受 提出了一种自动门限混音方案 其主要的思想首先通过自动 门限混音算法限制了参与混音通道的数量 提高混音输出的 有效音频的信噪比 然后对参与混音的通道进行能量压缩 当 音频能量超过某一个门限值以后必须进行衰减 使每个混音 通道的输出能量比较稳定 人耳听起来比较舒适 最后对混音 后的数据进行压限处理 保证混音后的数据不会溢出 3 1 自动门限混音 在实际的多媒体会议应用中 4点以上的会议系统已经 非常常见 虽然会议系统支持的终端数量增多 但是在实际会 议过程中 通常也只会有一个或者几个终端在同时发言 大部 分终端都处在 无发言状态 如果我们将这些 无发言状态 的通道去除掉 能够降低混音溢出的概率 提高混音质量 过去论文通常采用平均过零律来做语音信号的检测依 据 但是大型会议系统通常由由高灵敏话筒和扩声系统做输 入输出 现场的反馈声和噪声经常会使系统检测出错 本文主 要还是根据短时能量用来做语音信号的检测 根据所有通道 的语音短时能量动态计算门限值 超过门限值的才认为是有 语音输入 当通道连续一段时间没有超过门限值 则认为该通 道没有语音输入 定义会议系统中终端数量为 m 每次采样数据样本数为 n 输入数据为inputdata 输出数据为m ixdata 定义通道当 前状态变量为state 发言状态 为1 无发言状态 为0 具体 自动门限混音算法如下 071 小 型 微 型 计 算 机 系 统 2009年 1994 2010 china academic journal electronic publishing house all rights reserved 1 计算每个通道音频数据的短时能量e i e i n21 j 0inputd ata i j 2 i 1 2 m 4 2 找到当前的通道能量 计算当前时刻的混音门限值 gate gate max e i 212db i 1 2 m 5 3 对会议系统中m个通道 执行通道开关算法 这里增 加一个通道关闭计数器是考虑到语音本身抑扬顿挫的特点 避免通道频繁的切换 增加的一个保持时间 只有在这个保持 时间内一直都没有有效的信号 才认为该通道被关闭 if e i gate and state i 0 state i 1 通道关闭计数器 0 else if e i 设定门限值 state i 0 4 对会议系统中m个通道 执行混音算法 m ixdata i j inputdata i j 3state i j 1 2 n 3 2 通道能量压缩 常见混音算法实际上也是将每个通道能量进行压缩 其 中的权重实际上就是通道能量压缩的比例因子 由于它们需 要根据相互关系来动态决定权重 所以可能会造成语音输出 不稳定 或者有些低能量通道无法识别 本文根据音频数据的 自身短时能量大小来计算衰减因子 当音频短时能量超过某 一个门限值可以以一定的比例进行衰减 而低于这个门限值 则不需要进行衰减 用图一来表示 其中横轴表示语音的输入 能量值 竖轴表示语音的输出能量值 图1 通道压缩示意图 fig 1 a udio compressor 这种压缩算法对低能量的音频不进行任何衰减 这样避 免了低能量音频衰减无法辨识的问题 对能量高的音频按照 一定的比例进行衰减 还是保持了语音抑扬顿挫的特性 只不 过是变化的幅度被降低了 每个通道的压缩参数可以事先配 置好 这样在会议过程中每个通道的语音变化只是根据自身 的输入情况进行变化 不会受到别的通道变化影响 就不会出 现合成声音乎大乎小的现象了 4 试验结果和结论 对于不同类型的会议 我们可以选取不同的参数来实现 最好的效果 例如主席制的会议系统 通常只会有一个通道在 发言 只有在切换通道的时候才可能会有2个通道同时发言 这样我们可以用自动门限算法将同时打开的通道数限制为2 个 将每个通道能量压缩6个 db 这样就可以保证混音结果不 会溢出 而在通常的会议中 我们可以将同时打开的通道数限 制为4个 将每个通道能量压缩12个 db 因为在会议中有4个 以上的通道同时说话的情况本来就会使人觉得无法分辨各自 语音了 为了验证算法的性能和实际效果 我们使用了ad i公司 dsp的评估板来做实验 dsp芯片采用的sharc系列的 21262 该芯片的主频为200 m 处理能力达到1200fm ips 硬件 最大支持8个通道48000采样的话筒输入 2个声道输出 实 验结果如下 在实际会议终端环境中 测得如下数据 系统中无人发言 时的通道能量大约为50db 某通道按照正常音量发言时 该 通道的能量值大约为210db 其它通道的能量值大约为230db 用本文提出自动门限混音算法能够及时 准确的打开或者关 闭语音通道 没有造成语音信号的丢失 表1 混音算法效率试验数据表 table 1 a rithmetic compare result aawabwawwasw自动门限算法 2点混音0 81 1 02 1 03 1 72 1 07 4点混音1 59 2 01 2 02 3 33 2 10 8点混音2 98 3 99 4 01 6 51 4 18 根据实际参与测试的测试人员的主观评价 在4点以下 的会议中 本文提出的自动门限混音算法和a sw合成后的音 频流连续 自然 没有跳音和断续的感觉 也没有爆破噪声 aaw的输出音量很小 abw和aww和成后音频流有少许 爆破音 而且在开始和停止说话的时候会产生突然性的音量 大小变化 在4点以上的会议中 由于噪声通道数量的增加 aaw abw aww a sw都会感觉到非常明显的噪声 而自 动门限混音算法由于能够自动去除掉这些噪声 则能够继续 保持优秀的混音质量 在多点混音情况下 每个混音算法在评估板上的处理时 间可以通过dsp工具获得 用dsp芯片时间占用率表示 占 用率越低 表示算法性能越高 结果如下表所示 aaw最低 abw aww和自动门限混音算法比较接近 a sw占用处理 时间最多 性能最差 综上所述 自动门限混音算法能够满足多媒体会议应用 的需求 它不仅能够保证参与混音各路输入的时域细节特性 1711期 周敬利 等 一种新的多媒体会议实时混音方案 1994 2010 china academic journal electronic publishing house all rights reserved 具有很好的听觉主观舒适感和连续感 同时能够保证多点混 音的高性能 相对于近年来提出的一些语音混合算法 325 算 法性能和输出效果都有明显改善 references 1 venkat r p harrickm v srinivasr communication architectures and algorithm s for media m ixing in multi media conferences j ieee acm trans on networking 1993 1 1 20230 2 agust n j g hussein a w audio m ixing for interactivemulti2 media communications c w ang p ed proc of the jc is 98 nc research triangle 1998 2172220 3 yang s t yu s s zhou j l a multipoint real2time speech m ixing and scheduling algorithm based on packet networks j journal of software 2001 12 9 141321419 4 fax x gu w k ye x q fastreal2time adaptive audio m ixing schemes in multimedia conferenceing j journal of software 2005 16 1 1082115 5 tu w p hu r m a i h j et al audio m p in video conference j geomatics and information of w uhan u niversity 2002 27 1 982101 附中文参考文献 3 杨叔堂 余胜生 周敬利 基于分组网络的多点实时语音混合及 调度算法 j 软件学报 2001 12 9 141321419 4 樊 星 顾伟康 叶秀清 多媒体会议中的快速实时自适应混音 方案的研究 j 软件学报 2005 16 1 1082115 5 涂卫平 胡瑞敏 艾浩军 谢 兄 视频会议中多点处理的研究 j 武汉大学学报 信息科学版 2002 27 1 982101 第二届全国智能信息处理学术会议征文通知 the 2nd national conference on intelligent information processing nciip2009 call for papers 主办 中国人工智能学会知识工程与分布智能专业委员会 中国计算机学会人工智能与模式识别专业委员会 承办 中国矿业大学 中国科学院智能信息处理重点实验室 由中国人工智能学会知识工程与分布式智能专业委员会与中国计算机学会人工智能与模式识别专业委员会联合主办 中国矿业大学与中 国科学院智能信息处理重点实验室联合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论