




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于音频的声音监测监控系统C.克莱维尔,T.阿赫瑞特,G.理查德法国泰利斯研究技术中心,.法国巴黎市奥赛德斯地区,邮政编码75634 巴拉尔特街46号13号信箱. 科博维尔科技园摘要:目前声音监测监控系统研究涉及多媒体监控应用在嘈杂环境中的音频事件检测。为监视或国土安全的系统。以自动检测异常情况下,在基于视觉线索的同时,异常事件将被检测到,比如枪声,但它可能是更容易检测到一个给定的事件使用的音频信息。自动音频检测系统是基于一个新奇的检测方法,它提供了一个解决方案来检测异常(异常音频事件)在公共场所连续录音。我们特别集中于对变量和不稳定的条件下检测鲁棒性和降低的错误拒绝率,这是特别在监控应用中的重要。另外,我们利用潜在的不同类型的武器,通过建立分层分类系统的声学信号之间的相似性。1.简介:音频事件分类/检测是科学界的兴趣日益增长的热点。尤其是在音频检索和索引应用的上下文中,而且在多媒体事件检测的音频可以被用来作为一种补充的信息源,如下文中的情况下。在监视或国土安全(安全的公共场所,如地铁,机场,银行,.)大多数系统仅基于视觉线索来检测异常的情况。典型的异常情况,包括自然的损害,如火灾,地震,洪水等,身体或心理威胁和侵略人类(绑架人质等)。在一些情况下,音频比视频传达了一个更重要的信息。然后,我们的目标是使用声学线索作为补充信息,自动检测并分析异常情况。完成多媒体自动监控系统,然后由不同的模块,提供了从不同的方式,将合并信息融合系统形势分析。音频模块,在这种有针对性的系统将使用声乐和非声乐表现异常的情况下,双方感情的内容,并将处理2典型的事件,如哭声,枪声或爆炸。在本文中,我们提出了一个方法来开发音频键事件检测系统。虽然我们目前仅限事件检测系统音频检测的方法和遵循的方法,这个系统可以扩展到其他类别特征的声音异常的情况下,在一个给定的环境中。音频检测系统的主要困难之一,往往是环境噪声的非平稳性,这可能是响亮的音频事件来检测相比。本文提出的音频检测系统基于一个新奇的检测方法6。事实上,新型音频检测提供了解决方案,以检测异常异常声音事件,即当给定的距离超过预定义的阈值的正常位置的模型。本文的重点是自动处理的音频事件检测系统的两个主要问题,即鲁棒性检测对变量和不利条件和减少错误拒绝率,这是特别重要的监控应用。特别是,我们充分利用潜在的不同类型的武器,通过建立分层分类系统的声学信号之间的相似性。本文的组织如下。首先,我们的音频检测系统是在第2部分。然后,数据库和测试协议,用于对系统进行评估在第3部分中给出。不同的实验结果在第4部分。最后,我们建议在第5部分的一些结论和未来的工作。2音频检测系统我们的音频检测系统的目标是分类,输入音频流为连续段,并根据这些细分集的两个主要类(代表环境的声学特性的射门类和正常类)的标签。我们的音频架构事件检测系统包括特征提取模块,培训模块,用于建立模型的两个类(使用高斯混合模型或GMM)和分类模块,基于以前的机型,标签的连续音频段。如图2所描述的,所输入的音频是第一分段的短帧(20毫秒),但以0.5秒的段(具有50的重叠)。2.1 音频特征提取特征提取,分析每帧20毫秒与50的重叠。计算功能选择时下最流行的音频处理算法,并更容易适合我们的分类问题。短时能量描述的信号能量,在一个给定的时间内,将可选地称为响度或体积。 1.13向量梅尔频率倒谱系数。前两个频谱统计矩,即是平均的功率谱,对于一个给定的时间和频谱扩展的频谱重心。 2.叙述上述各功能。特征向量维主成分分析程序,然后降低。我们维持13维向量第一部分为显著。每个分析帧的输入音频。2.2训练步骤对于每个类高斯混合模型(GMM)建立。为每个类高斯适当数量的估计要归功于贝叶斯信息标准3。模型的参数估计采用传统的期望最大化算法7,初始化一个基本的二元分裂矢量量化算法。2.3检测步骤检测采用最大后验(MAP)的决策规则:获得每个分析时间短帧的概率乘以每类模型计算平均后的LOG概率是0.5秒的决定窗口。“决定”窗口,然后分类,它具有最大后验得分。沉默窗户都没有考虑,并且将自动删除。3.数据库和协议3.1数据库语料库生态条件,如监控应用,典型的音频事件不是因为异常情况主要是因为数据的机密性,但也很少被记录。为了尽可能接近真正的条件,我们为我们的应用程序已建成的人工数据从听起来满心欢喜国家法国公共广播提取一组多个公共场所和枪声的CD录音5。所录用的事件数据库:共134杆(296秒)组成的手枪,步枪(R),(S)冲锋枪,手榴弹(G)和炮火(C)被提取。说明武器重新分区射击类数据列在表1中。武器冲锋枪手榴弹手枪加农炮气枪文件数51579827长度5s24s134s28s105s表一环境数据库:CD提供各种公共场所录音(主线站,机场,证券交易所,展览馆,体育场,市场,.),被称为周围序列。最具代表性的类型的地方(市场)总计797秒四个不同类型的市场。对于每四个记录的最后75秒的录音,保持正常类培训。其余的环境数据库用于测试数据库建设。3.2协议测试数据库的音频和周边序列之间的混合结果。一个音频发生在随机时刻与各地方信号噪声比(SNR)为每个序列。SNR的计算方法的注射插入和数据预先标准化beforemixing的周边序列的部分。每个测试序列的长度为30秒,是随机选取的测试部分市场周边之间序列。对于每一个的SNR(从20到5 dB)134共计约67分钟的序列产生相应的测试提供134张。这种混合测试序列提供了一个模拟的异常情况公共场所尽可能接近现实(在枪发生的情况下)。尽管他们的人工自然,这些序列使我们能够控制的信噪比,因此测试系统的噪声鲁棒性,但也有地面的真相测试文件的注释(即所有的枪杀事件在周围序列的精确定位)。注解:计算错误拒绝比(FR)和误检测(FD)的比值被定义为如下的总体结果由下式给出:FR=故障检测的事件数数进行检测,FD=虚假检测窗口数我们使用留下一杆交叉验证法的射门类培训:在每个测试序列的训练步骤,在测试数据库中被检测到每一个音频从训练数据库中删除。4.实验4.1实验一:训练数据库这第一个实验的目的是更好地理解拍摄的训练数据库中的噪声电平的效果。对于射击类,一个数据库的与周边序列片段拍摄混合产生从最初134拍摄。从20日至5分贝的信噪比,按5DB/S的速度提取。图3提供的拍摄检测到的结果,为每个SNR水平的测试序列的一组具有不同的训练数据库的SNR水平。正如所预期的结果迅速降解的SNR条件下的测试序列时减小,或者换句话说,当拍摄的能量减小比周边序列能量。特别是在清洁音频(培训)数据库提供虚假排斥在最嘈杂的测试序列的不足的结果。然而,它也可以可以看出,太嘈杂射门训练数据库的使用引发了相当多的误检率,在最坏的情况下,达到43(5分贝的信噪比训练数据库和5分贝的信噪比的测试序列条件。这个实验说明了虚假排斥和虚假检测时,选择适当的信噪比水平拍摄及周边序列训练数据库之间需要权衡。对于监控应用中,特别重要的是保持错误拒绝率尽可能地低,它似乎具有20分贝的信噪比训练数据库(低于11,错误拒绝虚假词义小于15),在所有测试条件下得到可接受的结果。4.2:实验二在以前的实验中,只有两个因素已考虑:开枪情况和正常情况。可是开枪类被定义记录在表1由不同种类的武器。他们有一个特定的声学特征,这意味着更多不同的签名是最糟糕的拍摄模式应该是由于声波混乱。为了减少混乱,并最终提高我们的检测系统性能,在合理情况下,认为可以建立更具体型号。其基本思想是,拍摄数据分割成子类声学密切的培训项目,聚集了足够大的数字。由于我们的数据库规模有限,不可能建立一个具体型号为每种武器类,因此,我们打算合并对于一个给定的距离是接近类。一个方便的方式来表示每一种武器的子类之间的距离是层次分类(10)。为配合我们的问题,并带来相关的子类,我们选择了反相关系数聚集距离。每个音频的代表出席了由他们的每个分析窗口的平均值和标准偏差。结果列于图4。我们的问题,并把相关的子类接近,我们选择反相关系数(1-R皮尔逊)聚集距离。声学措施,每次拍摄时作出假设上每个分析窗口分类的平均值和标准偏差列于图4。两个子类之间的拓扑距离相当于反相关值(1-R)。我们可以观察到,手枪(P)和步枪(R)是非常封闭的,就像手榴弹(G)和大炮(C)。这意味着,手枪和步枪声值更多相关例如比手枪和手榴弹的。一个单一的子类,似乎是更加孤立:冲锋枪枪(S),尽管它更接近设定的(P + R)。该三个子类(P+ R,S和G+ C)代表了最好的权衡之间的独立性(即:距离的其他子类)和未知声音的类别(即:足够数量的训练每个子类和最大号码子类)。我们的第二个实验中,然后由使用4类(3个武器类和正常类)的分类系统,并评估这种分层方法的性能相比以前的二元分类。为每个决定窗口的后验概率得分相对应的三个武器类普通类的后验概率得分的计算和比较。使用下面的决策规则在每个分类,然后进行分类拍/正常对P+ R /正常,S/正常G+ C /正常:音频分类决定的那一刻起决定窗口是没有分类的三个分类对正常。其他三个分类对如多数票决定规则,也可以选择,但导致错误拒绝率较高。图5显示了很大的提高,提供了由分层的方法。错误拒绝率从18下降到10左右时使用的子类。在同一时间误检率相对增加,但保持足够低,小于5甚至嘈杂的测试条件。5. 总结和展望在本文中,一个强大的基于音频的音频检测系统进行了介绍。这个理论体系,一个完整的多媒体监控系统的一个重要组成部分。它是基于二元分类(打击/正常的分类),并进行了一些实验,以减少虚假排斥和误检率。实验表明,训练数据库中的噪声电平上的系统,该系统允许选择最合适的噪声电平的有针对性的错误拒绝率的训练数据库的性能具有显着的影响。系统的性能也显着改善,考虑分层的方法。未来的工作将致力于扩展当前系统的不同类型的声学事件发生在异常情况下,如恐惧的叫喊声,哭泣或表现。6.参考1蔡,吕立,H.-J.张和林丽华蔡,“突出音效音频流检测”。IEEE国际多媒体会议继续世博会,2003年。2 C.克拉韦尔一瓦西列斯库,L. Devillers,T. Ehrette的的的,情绪检测“的小说数据库中出现异常情况,”语音和语言处理,2004年的国际会议上。3 C. Fraley说,A.E拉夫特里“,多少个群?聚类方法?通过基于模型的聚类分析的答案,“329技术报告,华盛顿大学,统计系,1998年。4 O.吉莱和G.理查德,“鼓序列使用视听功能自动转录,”Proceddings声学,语音和信号处理,2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班组长现场安全管理题库及答案解析
- 2025年质量知识试题库及参考答案
- 2025年全国保密教育线上培训考试试题库及完整答案附
- 2025年处方授权试题及答案
- 2025年无菌操作测试题及答案
- 2025年查对制度考试试题题库及答案解析
- 2025年怎样讲解中考试题及答案
- 高法业务考试试题及答案
- 2025年临沂中考试题化学及答案
- 2025年海洋能发电与海水淡化技术商业化前景分析报告
- 2025年秋统编版九年级上册道德与法治全册知识点复习提纲
- 2025年秋青岛版三年级数学上册第一二单元学业质量检测试题
- 铝材厂跟单员培训课件
- 硫酸安全培训与防范课件
- BIM概述课件教学课件
- 农作物施肥精准手册
- 医疗机构医疗质量安全专项整治行动自查自纠报告
- 中建土建劳务招标标准清单编制参考
- 待灭菌物品的装载
- 2025年职业病诊断医师考核试题(答案)
- 中学窗帘采购项目方案投标文件(技术文件)
评论
0/150
提交评论