已阅读5页,还剩64页未读, 继续免费阅读
(电工理论与新技术专业论文)广播电视监播系统中音频及语音数据处理技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西北工业大学硕士学位论文abstfact a b s t r a c t w i m b r o a d c 觞妇g 觚dt vp m g r a mb e i l i gr i c ha n dc o l o 删,t l l eb r o a d c a s t i n g 觚d t b i e v i s i d i 百t a li n d l l s 廿yd e v e l o p sr a p i d l y ni sn e s s a r yt om o i l i t o rt h e 毗髓t sa i l d q u a n t yo ft l l e s ep r o 伊a m s t h a tt h eb r o a d c 勰t i n g 觚dt b l e v i s i o nr e p e r t o i 坞埘虹1 1 y s y s t e mi sc r e a t e db yt l l et i i l l e t h i sp a p 盯w i l l a r c ha b o u t f t w a e x p l o i 伽b y i n 仃d u c i n ga b o u tm eb k 差即u n d ,也ep u l p o s e ,t l l ee l 脚印【协,t l l ed e v e l o p i i 冯删锄d e q u 虹腿e mo fl l l i sr e p c n o ns c n m n ys y s t 锄s i n c ei l lp f a c t i c e i ti sh a r dt oo b s e ea n d d e a l 丽ma u d i os i 鄹mi nb r o a d c 鸹血l ga n dt vp r o g r a n l s ,t h i sp 印c r 璐ea d v 锄c e d 鲫n p u t e rc o n t r 0 1a n ds p e e c hr e c o g 【l i t i o nt e 6 h m q u et os o l v et h 髓ep f 曲l 锄si 1 1o i d e r t o c o n s u m m a t et l l ew h 0 1 es ”t e mf i l i l c t i ,i l i l p r o v e 枷t o m a t i cw o r ke 蚯c i e i l c y 锄ds a t i s 母 c 惦t o m 哪n e e d t b ep r i m a r ) ,弱s i 印m c n t so f t l l i sp a p e ri l l c l u d es u c hp a n s : ( 1 ) c o l l c c td o m 髓t i c 孤df o r e i 盟d o c 啪e r l 协o fn 坨p r o d u c t si l lt l l i sf i l c d ,d c s c r i b e t h ed c v e l o p m e n t o f m t i n ys y s t e m ;i i l 仃c d l l c et h ef i l i l c t i o m ,c o i l f i g u r a t i o n t l l e o r y ,w o r k n o w 觚dc q u i p m e n t so ft l l i ss y s t 锄;诵t hc l l 玳m t l yd e v e l o p e ds p c hr o g n m o n t e c h i l i q u e ,p r o s p e c tl h ed e v e l o p i l l g 删o f t l l i si n d u s 仃y ( 2 ) u v c hc o m p u t e rl a n g l l a g et 0d e s i 印觚印p l i c a t i w h i c hc 姐o b s e e ,e d “ 舭dd i s p o s e 卸d i os i 鄹i a li i lb r o a d c a s t i n ga i l dt vp m g r a m s 1 1 l i sa p p l i c a t i c 孤p l a y 肌d i os i 印a li n 血n e ,m l de 船yt ou s e b 龉i d e s ,t h i sa p p l i c 砒i o nc 觚b ei l l s 酿e de 船i l yt o m ew h o l es y s t 锄s o 矗w a r e ( 3 ) i no r d c rt or e a l i z et l l es p d lr e c o 鲥t i o nf i l n c t i o ft l l i ss y s t 锄,t l l i sp a p c r 黝l y s e st h ec h a m c 硎s t i co fs p e c c hr c c o 嘶t i o nt e c l l l l i q i l c b 硒e do na ne x i s t c d 印e h r c c o g l l i t i o nf t 、v a r 岛b y8 t i l d y i n g i t s d e s i 孕l i n gf e a t l l r e ,c o n f i 删i o i l ,w o f k i n g p 1 _ o c c d u r ea n ds m 眦i i l gu pi t sr e c o g i l i t i o ne f 五c i e n c y ,w ei n s e f t “i i l t om ew h o l es y s t 锄 s o f t w a r et of e c o g i l i z ea u 面of i l ,e s p c c i a l l yt oi m p r o v et h ek w o r d sr e c o g n i t i o n h e m et oi n c r e 船er e c o g i l i t i o nr a t c ( 4 ) i fm es p e e c hs i g n a lm i xw i t hb a c k g r o u n d i ,t l l er e c o g 【l i t i o n 豫t ew i l lm m d o w nh e a v i l y ,s oi l lt h j sp 印e rw ew i l ir c s e a r c hs p e e c hp r o c e s s e d t e c h n i q u e ,d i s t i n g u i s h m ed i 虢r e i l c eb e 帆e c ns p e e c h s i 印a l a n dn o i s es i 弘a 1 t l l i sp a p e ra d o p ts p e c a l s u b 仃a c t i o n 印p r o a c ht op r o c 髑ss p e e c hs i g n a l ,a n di m p r o v ei tt om a k cn e ws p e e c h s n 蜘孚h 锄s c h e m e t 1 1 er e a l i z a t i o no ft h e s es p e e c hs 仃e n g t h e i la p p a c h e sa 托b 8 s e d 锄 i l 西北工业大学硕士学位论文abs仃act m a t u 姬t h e i lc a l c u l a t et h er e c o 倒t i o nr a t c k e y w o r d s :b r o a d c 嬲t i n g 加dt vs c m t i n ym o n i t o r i n gs y s t e m , s p e e c h r e c o g n i t i o n ;s p t r a is u b t r a c 6 0 na r i 出m e t i c i 西北工业大学业 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作 的知识产权单位属于西北工业大学。学校有权保留并向国家有关部门或机构送交论文的复 印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北工业 大学。 保密论文待解密后适用本声明。 学位论文作者签名 z 涩孝 2 p f 年 黾t z b 指导教师签名:多斟 乙p 哆年月( 棚 西北工业大学 学位论文原创性声明 秉承学校严谨的学风和优良的科学道德,本人郑重声明:所呈交的学位论文,是本 人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容 和致谢的地方外,本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成 果,不包含本人或其他已申请学位或其他用途使用过的成果。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式表明。 本人学位论文与资料若有不实,愿意承担一切相关的法律责任。 学位论文作者签名:至塑鱼 脚口年岁月,2 日 西北工业大学硕士学位论文第一章绪论 第一章绪论 目前随着广播、电视节目频道的增多,内容的丰富,采用现代化的手段监视、 记录、存储、查询广播电台节目内容,监视广告的内容,监测节目的播出时间、 质量,这已经成为广播、电视管理部门加强监管的重要手段。过去采用的通过人 员管理模式无法承担如此沉重的负担,必须采用智能化自动监测系统,由此产生 了广播电视行业内的监播系统。这种监播系统已经被许多广电监管机构所采用, 并且投入到实际应用当中去,取得了令人满意的效果。但同时该系统仍然存在着 一些不足,新的用户也提出了一些新的要求。本篇论文的工作主要针对这些用户 需求,运用最新的计算机控制、语音识别等技术来实现广播电视监播系统的新功 能。 1 1 监播系统主要用途及模式发展 1 1 1 监播系统的用途 广播电视监播系统是用于完成对电视和广播中的声音及图像信号质量、节目 内容、传输过程安全性的自动化监测系统。随着广播电视行业的数字化、网络化 进程加快,必将需要自动化程度高的信号监测系统以实现以下几个方面的用途: 安全监测了解播出网络安全运行情况,对未经批准播出的频道和有害干 扰进行实时监测,应用地理信息系统g i s 技术确定监测区域内事故发生位置: 质量监测对有线广播电视分配网前端播出中的重大停播事故和播出技术 指标等质量进行监测,及时发现前端播出中的声音图像信号故障、汇总、处理、 分析并记录监测数据; 内容监测对前端播出的各套节目内容进行轮巡或锁定频道监测,并通过 硬盘录像、存储两天到三个月左右的时间,节目内容通过数据交换和传输平台实 时上传给相关责任人。可进行事故追忆、节目评审、广告监播、节目检索查询等 操作。 目前,国家大约设立两千多个广播电视播出机构。针对如此多的广播电视播 出机构的管理又成立了相应的各级地方的广电部门,它们是广播电视的行业管理 部门,专门针对在广播电视上播放的节日进行行政管理,主要是从内容、播放时 长等方面进行事后监督。以广告管理为例。日前广电总局颁布一系列针对广大入 硅北工业大学硕士学位论文第一章绪论 民群众提出的广播电视中播出内容的意见而设立的相关管理条令。条令中明确指 出:在午间吃饭时间内严禁播出一些“治脚气”、“治痔疮”等令人厌烦的医疗 用品广告。怎样能够高效、准确的对各级广播电视机构的内容进行监控是各地广 电部门的一项重要工作。 1 1 2 工作模式的发展 过去我国各地的广播电视台播出、发射、检测部门以及有线电视网前端机房 主要是对模拟信号进行监测管理。主要工作方式基本上是采用多台监视器组成电 视墙进行监看,由值班人员用耳听、眼看来观察监测信号是否正常、有无不法信 号的侵入,并以录像带、磁带等工具记录监测数据。这是一种准确性低、自动化 程度低、效率低的工作方式,而且存在着劳动强度大、故障信息获取不及时、故 障定位不准确等弊端。 随着我国电视节目数字化的实现,监播系统从过去的处理模拟信号的方式下 转向对数字信号进行采集、监测、管理的新模式;同时为了满足国内相当庞大的 远程教育和视频会议系统对信号监测的需求,迫切需要利用先进的音视频采集压 缩技术、图像识别技术、音频识别技术以及计算机网络通讯技术,开发出具有处 理数字信号、远程网络监管、智能化工作的高性能广播电视信号自动化监测监播 系统。目前,这方面的技术研究已经取得了很大的突破,生产出一系列满足实际 应用的产品。 1 2 国内外产品的发展和现状 目前国际上广播电视信号监测总的发展趋势是:数字化、网络化、智能化; 简洁灵活,适应小批量多品种;故障分类精细、定位准确;具有更高清晰度,更 高性价比,以满足不同系统的需要。 据报道,相关企业在2 0 0 1 年前后对欧洲诸多电视台的考察中就发现,新型多 路多画显示产品在欧洲已经悄然上市了。所用品牌除了b a r c o 外,还有m i 瑚d a 、 e v e r t z 、z 锄d 盯、a v i t e c h 、l e i t c h 等约有6 7 家。当时欧洲广播中心和戛纳电视台 正在进行多画显示的工程安装,播出2 0 0 套以上包括数字电视在内的节目,工程 智能化程度更高,所表现出指标评价的内容远远大于主观评价的内容。模拟监视 的新型产品纷纷在主观评价基础上附加了一些指标评价的监测内容,主要包括数 字视频流错损监测,进一步强化了监视功能。但是,国外进口产品的价格还是高 居不下,在显示l o 1 2 秒视窗时,系统造价大约为4 0 0 0 5 0 0 0 美元路。 2 西北工业大学硕士学位论文第一章绪论 最近,l e i t c h 公司推出多画面显示系统s u i t v i e w 。它采用前面板热插拔的方 式,这对于使用、维护更加方便,各种控制方式也已经具备。其具有输入信号模 拟、数字自动识别等功能。现在的各种型号多画面系统的输入信号基本上都模块 化,每个模块都有一定数量的不同方式的信号输入,考虑到对各种信号的兼容。 a r i s t e c h 公司的“a v m s 虚拟显示墙系统”通过多讯号输入、可程序化控制, 采用a 1 l - h o b 似、0 n es c 坞鼬方式,模块化视讯控制接口,满足控制中心显示 作业环境的需要。a v m s 系统可以将4 6 0 路视频信号同时显示于同一显示终端 上。a v m s 是模块化的,它的信号输入路数可以达到6 0 路,但它没有冗余系统及 显示的模版编辑,使得操作控制不太灵活。 m i 瑚d a 公司开发出的m 础k a l e i d o g 2 和m i 瑚帕a k a l e i d o k 2 两款产品。 其中m m k a l e i d ok 2 是在m i 跚d a l a l e i d og 2 的基础上开发出来的。它继承了 上一代的灵活性的同时,结构上也有了很大的改变,采用了前插板的结构。增加 了高清信号的输入,音频信号也增加了嵌入音频和数字音频的输入。输出分辨率 可达到1 6 0 0 1 2 0 0 ,最多输入3 2 路,可以两台联机达到“路画面输入。可以通 过网络远程控制,也可以使用模板分做成了可以热插拔的板卡,还可以输出网络 上使用的d 视频流。 国内自2 0 世纪8 0 年代末开始逐步建设监测网点,但发展速度上仍显得步伐 缓慢,大都仅限于省会城市,监测手段主要是以人工观测图像、测量设备、多画 面监看设备为主。其监测准确率不高,监测监控数据不能实时记录,而且各个单 一系统不能形成一个整体的地区性监测网络,无法实现监测数据的信息共享最大 价值。 青岛电视台在进行数字信号监控机房设备改造的工程中,采用了中科大洋1 2 套多画面监看系统( m a 西c - w a l l ) 。与传统电视墙相比,大洋公司研发的m a 画c - w a l l 系统,每套均能监视1 6 路视频信号,在空间的占用上有绝对的优势;m a 画c - w a l l 本身使用的是大屏幕的等离子显示器,具有辐射低,功耗和发热量低等特性,这 不仅能大幅度提高系统的安全性,而且对于保护操作人员的健康也起到了很大作 用。并且它可以解决传统电视墙无法监视音频的问题,在画面中显示节目的声音 信号,免除了额外的音频监视系统。m a 百c w a l l 多画面监视控制系统可以有效地 显示所监看信号的大量相关信息,并在监控信号出现错误( 如出现信号丢失) 时 提供报警功能,进行报警日志的记录。 北京博汇科技公司的r 锄o t e a r e s 有线广播电视信号监测系统可以监测多路 c a t w a v 信号中各频道的载波、图像和伴音信号,每个屏1 6 个画面,是较完备 的模拟信号监测系统。能监测指标:静帧检测、黑场检测,有较宽的监测频段, 3 西北工业大学硕士学位论文第一章绪论 声光报警方式,能记录历史纪录,能实现网络管理功能【2 】。 北京盘古技术公司推出的n s s 智能广告监播系统采用基于高速d s p 的高精 度语音识别算法,实现了电台、有线电视节目中播出广告的自动识别和分析统计。 根据操作员预先确定的广告样本,该系统能从电台、电视的声音信号中准确地识 别出某个广告是否出现、在什么时间出现( 精确到o 1 秒) ,以及该广告播放的时 间长度。识别出的广告的相关信息被自动存入数据库p 】。 我国已经开始实施数字电视规划,在现今数字化网络化的时代监测范围略显 不足。国产同类产品的研发必然不断提高产品的性价比,就像前几年国产字幕机、 非线性编辑系统、虚拟演播室等产品加入市场竞争,极大地提高了该产品的性价 比一样,让我们有望看到新的电视监测系统的普及。 1 3 语音识别技术在监播系统中的应用 目前多数的监播系统都利用节目的音频矢量化特征相同的特点。将所关注的 节目事先制作成样本,提取这些样本的矢量特征,然后再对每天要检测的内容进 行矢量化文件对比得到相似度,以相似度的大小确定节目是否播出过。这样的监 测方法虽然可以保证较高的识别率,但同时也存在一个缺陷:必须要对进行监测 的节目预先进行样本制作和矢量特征提取,样本与监测节目是一一对应的。假如 还是同样的广告,但它的版本、样式发生了变化。如果像这种事情发生时,却没 有对新的广告进行样本制作的话,就不能用上面的方法对其进行监测识别。 随着语音识别技术的日益发展和提高,一部分研究者马上意识到可以运用这 种技术来提高监播系统的功能和效率:利用关键词语音识别技术,能够判断所要 检测的节目中是否有与关键词相匹配的内容。举例来说,假如用户想要知道在某 一时段的新闻栏目当中,是否出现关于西安市的报道。那么利用智能语音关键词 识别技术发现在这段节目当中多次出现了“西安市”这个词,就可以认定这段新 闻栏目里面有可能会有关于西安市的报道。 但同时语音识别技术也还有其局限性。因为在广播电视节目中大多数都伴有 背景噪声,而背景噪声将会破坏信号原有的声学特征及模型参数,使语音质量下 降,导致一般的语音识别软件很难对其进行准确的关键词识别。为了提高语音识 别软件的识别率,必须要研究有关的语音处理技术,采用实用性较强的语音增强 算法,达到降低信号当中的背景噪声的目的。 正 西北工业大学硕+ 学位论文第一章绪论 1 4 本文研究内容及所做工作 本篇论文主要以监播系统中对声音信号进行监测管理技术为对象,以实现监 播系统的软件中对语音信号进行识别、管理的功能为目的。为了解决声音信号不 便于观察和处理的难题,需要设计针对声音文件的音频管理软件。此外,借助近 来比较成熟的语音识别技术,在监播系统中实现语音识别功能。 本篇论文所要完成的主要工作如下: ( 1 ) 在监播系统的软件中设计一套可以对声音信号监听、观察、编辑、管理和 语音处理功能的应用程序软件,以实现用户对监播系统中的音频文件的监控和管 理功能。 ( 2 ) 借助一套比较成熟的语音识别软件进行语音识别,了解其内部结构和功能, 熟悉它的工作流程,可以将其嵌入到监播系统的软件中,最终实现在监播系统中 进行语音识别功能。 ( 3 ) 针对语音识别软件的工作方式加以改进,降低语音识别当中的误报率,从 而提高语音的准确识别率。 ( 4 ) 由于语音识别软件在噪声环境下识别性能较差,需要研究各种具有实际应 用性的语音增强算法对语音信号进行处理。 ( 5 ) 在m a t l a b 环境下对语音增强算法进行仿真。并且利用仿真后的算法对语 音信号进行处理,再利用识别软件对处理后的语音信号进行识别,统计识别率提 高的幅度。 目前,在导师的帮助指导下,上述的工作任务大部分都已经完成,并基本达 到预期的效果。接下来的文章当中将详细介绍本篇论文所做工作的全部内容。 西北工业大学硕七学位论文第二章广播电视节目监播系统 第二章广播电视节目监播系统 2 1 监播系统的功能 广播电视节目监播系统可以对电视台或广播电台播出的内容进行存储、监测 和识别等功能,可以实现对节目内容当中的广告、新闻、电影、电视剧等节目的 智能监播、控制及处理。针对广播或电视伴音中的特殊关键词、电视视频信号中 的特殊图像的监播,达到了自动化识别广播电视播出的内容。其中主要包括以下 几种功能: ( 1 ) 从大量视频节目中检测出伴音中的关键字; ( 2 ) 自动提取和记录特定关注的新闻节日; ( 3 ) 实时辨别和切换视频中的非法信号; ( 4 ) 依据识别检测结果自动生成广告、节目串播单【4 l 。 此外该系统还可以根据不同客户的要求,实现更多的功能。例如,对常规的 播出信号质量实现监测并将多路电视播出图像和声音以多画面的方式简洁形象地 显示;自动、精确、可靠地实时监测数字电视信号d v b 或m p e g 2 、模拟电视信 号r f 或a v 中多个频道电视节目的传输信道指标、传输码流指标、信号图像的内 容和质量指标是否正常;在信号出现故障时能及时判定,并识别出故障类别;建 立故障诊断专家系统实现非法信号和特定内容监测;将故障发生前后的电视信号 自动记录到多媒体数据库;及时通过通信网络以手机短信、电话语音、声光显示 等告知相关负责人员。 2 2 监播系统中传统的识别工作原理 广播电视监播系统的主要功能是为了对广播电视的播出内容进行实时监测和 识别,实现对电视节目中的广告、电影和新闻等栏目的自动监播、控制及处理。 也就是说,如何检测广播电视的节目内容是该系统的关键。 对广播电视的节目进行监播,需要依据电台或电视台中播放的节目内容所具 有的共同特点,对其实施监测。广播电台和电视台所播出的节目普遍具有以下特 征:同一版本的某个广告在播出时间内具有重复性和连续性,时间短的会重复播 放几个星期,长的甚至会达到半年以上;重复播放的广告都具有相同的矢量特征 ( 声纹和频谱等) ;不同版本的广告则具有完全不同的矢量特征【4 1 。 6 西北工业大学硕士学位论文 第二章广播电视节目监播系统 传统的监播系统是根据特定节目的原始音频信息提取随时间变化的语音特征 序列,使用自行建立的识别引擎有效地提取广告、新闻等节目的音频特征,实现 对广播电视播出内容进行实时监测和识别,实现了对电视节日中的广告、新闻的 自动监播、控制及处理。 提取样本的矢量特征利用到一个重要的概念一一矢量量化( v 咖r q l l l a n t i z a t i o n ) ,它在系统的工作原理中占有重要意义。矢量量化是一种极其重要 的信号压缩方法,是自7 0 年代末才发展起来的。矢量量化过程是:将语音信号波 形中的具有k 个样点的每一帧,或有k 个参数的每一个参数帧,构成k 维空间中 的一个矢量,然后对这个矢量进行量化【7 1 。 利用矢量量化原理,可以提取样本的矢量化文件和需要进行监测内容的矢量 化文件。在监测内容的矢量化文件中如果出现了与样本的矢量化文件极其相近的 部分,那么就可以确定所监测内容中包含有样本内容。最后再利用有效的识别算 法将出现的次数和时间等相关参数计算出来。 2 3 监播系统的工作流程 i 视频、音频采集卡 j r i 图像,声音文件 l l矢量化扳卡 工 矢量化文件 j r l 识别、控制算法 土 数据库信息 图2 一l 监播系统工作流程图 广播电视电台节目监播系统的主要工作流程如下:首先从多路广播电视路由 器中将电台的信号通过相应的录制板卡采集到磁盘阵列当中,其中采集下来的电 视台信号将转化成为m p e g 4 等格式文件,而如果是广播电台的声音信号将录制成 w a v 等格式的文件存入磁盘阵列当中;然后通过矢量化板卡对广播电视信号进行 7 西北工业大学硕七学位论文第二章广播电视节目监撩系统 矢量化特征提取,生成相关的矢量化文件;随后由识别控制算法对其进行处理, 这一部分主要是通过软件来完成;将识别后的统计数据信息存入到相关的数据库 里;最后通过对数据库信息的编辑和调用,再产生出相关的监控信息、统计数据 表反映给检测、控制人员,由他们对其进行相应的处理。广播电视监播系统的工 作流程顺序如图2 1 所示。 2 4 监播系统的硬件设备和软件系统 监播系统中为了实现信号采集、数据存储和文件矢量化转换等一系列功能, 必须相对应的采用独立的硬件设备。图2 - 2 是一套针对电视节目监播系统图。该系 统的主要设备、器件都安置在一个坚固的机柜当中。主要的设备包括,显示器、 计算机主机、磁盘阵列、多路电视信号转播器以及相应的数据采集卡和矢量化板 卡等设备。 图2 - 2 监播系统的设备图 监播系统中各项设备的功能作用如下: 电视信号转播器用来接收当天的不同频道的电视节目内容,如果要接受广播 电台的信号的话,需要采用广播电台的转播器。 在显示器中,监管人员可以实时地对节目画面进行监看,同时监听其声音质 量,并且通过采集板卡将这些节目的音频和视频信息录制到磁盘阵列当中去。 西北工业大学硕士学位论文第二章广播电视节目监播系统 磁盘阵列是一种把若干硬磁盘驱动器按照一定要求组成一个整体,是由阵列 控制器管理的系统。它的作用相当于普通计算机当中的硬盘,但存储空间要大得 多,主要是用来存储采集板卡录制下来的广播、电视节目的音、视频文件以及对 其进行处理后的信息文件。因为这些节目的内容很多,所需要的存储空间就必须 要足够大,必须要采用这种大容量的磁盘阵列来存储这些文件。 监播系统的核心控制器是计算机。正是在计算机的主板上,连接着显示器、 音视频采集板卡、磁盘阵列等设备,监测管理人员通过它来向各项设备发出控制、 调整等相关指令,整个系统的工作状态和工作流程都是通过它来实现总体控制。 这些控制指令和操作要凭借系统的软件系统来实现。 监播系统的软件系统功能包括:美观、简洁的人机交互界面,能够让管理人 员能够清楚简洁地控制各个设备;图像和声音信息选择、编辑和管理界面;先进 的图像处理技术和语音识别、处理技术的有效算法;完整的数据库管理系统等软 件应用程序。这套软件系统大部分是运用v i 蛳a lc + + 语言设计、编程实现的。 本篇论文当中介绍了如何运用v c + + 编程设计一套对声音信号实施处理的音 频文件管理软件,并且调用成熟的语音识别软件来实现系统的语音识别功能。下 面的章节当中将详细介绍如何设计和调用这些软件应用程序以及它们的各项功 能。 9 西北工业大学硕七学位论文第三章监播系统中音频文件管理稃序的设计 第三章监播系统中音频文件管理软件的设计 在监播系统的处理对象中,无论是电视节日内容,还是广播电台的内容都包 含着声音信息。在监播系统中的软件中,需要具有能够处理音频文件中的声音信 息的功能。在设计音频文件管理程序时,不仅要具有对声音信号的编辑、处理的 功能,同时为了便于观察,在音频文件管理程序界面中应当可以观察到声音的时 域波形图以及声音的语谱图。为了能够满足这些功能的要求,本篇论文通过调用 “n c t a u d i o 酗i t o r 2a c t i v e x ”的动态链接库,并将其嵌入到监播系统的音频管理 程序当中,实现对音频文件的可视化管理和操作的功能,从而方便了用户对声音 的观察和处理。 3 1 音频文件管理软件的主要功能 剧3 一l 音频文件管理程序界面 音频文件管理软件是运用v c + + 语言设计开发的。该软件应满足用户以下几个 方面的要求: ( 1 ) 可以对多种格式的音频文件进行打开和编辑处理。 ( 2 ) 能够清晰、准确地播放音频文件的各部分内容。具备音频播放软件的各种 功能。 ( 3 ) 对于用户关心的音频文件内容,应具备可以将这部分的内容放大观察和准 确选择的功能。 ( 4 ) 对文件中的特殊内容可以加以修改。 1 0 西北丁业大学硕士学位论文第三章监播系统中音频文件管理程序的设计 ( 5 ) 用户可以对音频文件中的特殊内容进行特殊标记。 ( 6 ) 为了方便用户的使用,以及界面的美观,用户可以根据需要对其中部分界 面的颜色和格式进行控制。 图3 - l 所显示的是音频文件管理软件的主界面。用户可以通过该界面上的菜单 项和工具栏中多项快捷键,对所需要处理的音频文件进行编辑和管理。接下来将 介绍本文所设计的音频文件管理软件的各项功能。 3 1 1 音频文件编辑功能 该音频软件包含了对音频文件的“新建”、“打开”、“保存”和“另存为” 等各项基本功能,并可以对其中的音频内容进行“剪切”、“复制”和“粘贴” 等功能。 在每次打开音频文件时,以及对音频文件迸行编辑处理之后,都应该显示目 前该音频文件的状态信息;音频文件的路径及名称、该文件的属性、播音线标的 位置、总的采样帧数和文件所占用的总时间量等相关信息。如图3 2 所示,在主界 面下方的状态栏中分别显示这些内容信息。 此外,用户在对音频文件做出错误处理之后,可以撤销和恢复到上一步的状 态。这项功能类似于w o r d 里面的“撤销键”与“恢复键”的功能一样,可以对上 一步的操作加以撤销或恢复。 3 。1 。2 音频文件播放功能 用户需要随时听取音频文件的内容,所以音频文件管理软件中包括了对音频 文件的“播放”、“暂停”和“终止”等基本功能。 用户可以在整个音频文件中的任意时间上播放音频文件内容,只需要在相应 的位置上点击插入定位标线,然后开始播放即可。从图3 3 中可以看见,黄颜色( 浅 色) 的标线所指示的是播放的初始端点,后面红颜色( 深色) 的标线是声音播放 的标线在播放时会随着时间不断移动。 西北工业大学硕士学位论文第三章监播系统中音频文件管理程序的设计 图3 3 音频文件播放时的图像 “暂停”功能不仅停止播放声音,而且将目前的状态改为暂停状态,同时将 定位的线标移到暂时的位置;在暂停的状态下,再次点击的该按钮时,继续播放 声音,并将状态改为播放状态。 “停止”的功能除了停止播放声音之外,还可以恢复到播放前的状态。 该软件当中的“录音”功能具备两种方式:一种是在录音之前清除掉原有的 声音;另一种是可以将录制的声音与原有的声音混合在一起。 有时当用户听到自己需要的内容时,播放的时间标线已经过去了。这就需要 将定位线标进行微调。该软件设计了“前微调”和“后微调”两项功能,可以将 选择播放的声音定位标线前移或后移,每次移动的时间幅度大约为o 1 秒。 3 1 3 查看、选择音频文件内容 如图3 4 显示的是音频文件管理软件中“查看” 项目中的各项功能。其中上面一部分表示对动态库界 面显示样式的选择,在主界面中显示的声音文件以“波 形图”方式或者以“波谱图”方式来显示。当用户选 择显示方式之后,被选择的一项的前面将会标出一个 对号。 ,波形圈 波诺图 ,工具拦逭) ,状态栏 图3 - 4 查看项的内容 通常情况下,用户最关心的是音频文件当中某一局部的内容,但在主界面上 又很难观察它的特征,因此需要将这部分的波形放大来观察。利用该软件当中“屏 幕放大”“屏幕缩小”等功能可以调整在主界面上显示的音频文件内容,满足用 户的观看和研究。 “屏幕放大”的具体操作步骤:从全部的音频文件中选出所关心的部分内容, 然后单击屏幕放大按键,被选择的那部分波形将会放大至整个屏幕。如图3 5 的a 和b 图就显示了文件波形图在这段过程中的变化。而且在放大之后的图像上还可 西北工业大学硕士学位论文第三章监播系统中音频文件管理稃序的设计 以继续选择其中的一部分,再多次进行放大观察,直到满足要求为止。 图3 - 5 对波形图像选择( a 图) 及其放大后的图像( b 图) “屏幕缩放”的功能恰好与屏幕放大相反,它是将放大的波形再还原到上一 次操作时的状态。“全屏幕显示文件”的作用是将经过多次缩放过的图像,一次 性恢复到原始状态。 用户还可以利用“纵轴刻度缩放”将屏幕纵坐标的单位长度拉大,使得纵轴 的坐标范围变小,而波形的幅值显得变大了,就像是把波形在纵轴方向上拉长了 一样。如图3 7 的a 、b 图显示的。注意这项功能并不改变音量的大小,只是从图 像显示角度加以改变,这与下面介绍的音量放大功能不同。 图3 - 6 幅值显示拉大处理前图像( a 图) 处理后的图像( b 图) 此外,用户随时要将自己所关心的内容从音频文件当中选取出来,然后对其 进行编辑处理,所以该软件必须具有随意选择音频文件内容和准确定位的功能。 如图3 7 中所示,浅色的部分就是被选择的声音内容。其中被选择声音的开始 图3 7 选择特定的声音内容 1 3 西北工业大学硕士学位论文第三章监播系统中音频文件管理稃序的设计 时间和结束时间两个参量必须准确。用户可以通过“选择开始位置”和“选择结 束位置”两项功能将已知的开始时间、结束时间参数输入到软件当中,由软件控 制所选择声音内容的位置。准确选择好所关注的内容之后,用户就可以按照要求 对其内容进行编辑和修改。 3 1 4 音频文件内容的修改 用户选择了所关心的内容之后,可以利用这套管理软件对其进行“音量放大”、 “音量缩小”等功能,也就是将音频文件中声音幅值增大或缩小。可以从图3 8 中看到放大和缩小前后声音幅值的变化。 a 选择b 放大c 缩小 图3 - 8 声音幅值放大与缩小的变换 除了上述的功能外,该软件还具有“左侧消隐”、“右侧消隐”、“上下颠 倒”、“左右颠倒”等功能,图3 9 显示了经过这四项处理后的音频信号波形。 图3 - 9 程序中其它的处理声音信号功能 3 1 5 特殊标记功能 在音频文件中由于内容不同,可以分成不同的类别,例如:可以在一系列的 广告当中标记出违规广告内容。“标记”的功能就是在界面上对这些特殊部分内 容进行特殊标记,如图3 1 0 所示。标记中记载了所选择的内容的代码页、国籍、 1 4 西北1 = 业大学硕+ 学位论文第三章监播系统中音频文件管理程序的设计 语种、方言、标记、长度、注释、序号、位置和文档等相关信息。 图3 ,l o 文件中的标记 3 1 6 操作界面的编辑功能 为了使界面更加美观,更容易被用户所接受。该软件中还加入了对其界面中 各部分颜色的控制和刻度的变化, 为了便于用户观察和操作,软件设计了对声音波纹、背景、边纹;以及界面 中的中间线、刻度的背景、栅格、位置标、播放标等项目的颜色进行改变的功能。 例如改变背景颜色功能的实施步骤是:首先单击“背景”选项,弹出一个颜色对 话框,如图3 - 1 1 所示;从中选择一个基本颜色项,如果所需要的颜色在基本颜色 中没有的话,单击下面“规定自定义颜色”按钮,从颜色谱图中选择需要的颜色 添加到自定义颜色中;最后点击“确定”,界面的背景将会变成所选择的颜色。 如图3 1 2 显示最后的结果界面。 图3 1 l 颜色对话框图3 1 2 背景颜色改变 用户还可以对界面上的栅格和刻度进行控制:包括决定x 轴、y 轴栅格是否 显示,以及它们的位嚣和单位;用户可以根据需要将y 轴方向的刻度挪到界面的 左侧:可以选择y 轴的刻度单位:第一种是以采样的帧数为单位,第二种是以标 准的幅值为单位( 范围l o o ) ,第三种是以分贝( d b ) 为单位;而x 轴的刻度 有两种单位:一种是以帧数为单位,另一种是以秒为单位的刻度。 西北1 = 业大学硕士学位论文第三章监播系统中音频文件管理程序的设计 利用这套软件用户可以方便、快捷地将所需的音频文件内容进行播放、编辑、 内容修改、选择、剪辑、标记等一系列的处理。从而弥补了普通广播电视监播系 统中无法对于音频文件有效管理的缺陷。 3 2 音频文件管理软件的设计流程 这套音频文件管理软件是基于v c + + 中单文档界面( s d i ) 工程设计而成的。 自上而下分为:菜单条、工具栏、n c t a u d i o e d i t o r 2a c t i v e x 动态链接库界面和状 态栏四个主要部分。 图3 1 3 程序设计流程 。静 整个程序设计的具体流程如上面图3 1 3 所示:首先在v c + + 的“工程”环境 下建立一个单文档应用程序;然后将n c t a u d i o e d i b o r 2a c t i v c x 动态链接库嵌入到 整个程序当中去,并相应地对其进行定义和处理;初始化整个程序,对状态栏的 属性进行设置,安排动态链接库界面的位置等等;接下来在程序中依次添加各项 功能和程序;最后结束整个程序。 3 3n c t a u d i o e d i t o r 2a c t i v e x 动态链接库简介 3 3 1 动态链接库简介 首先需要介绍一下动态链接库( d l l :d ) ,n 锄i cl i l l l ( a b l el i b 删y ) 的概念。d l l 是建立在客户服务器通信的概念上,包含若干函数、类或资源的“库”文件,其 中函数和数据被存储在一个d l l ( 服务器) 上并由一个或多个客户导出而使用, 1 6 西北t 业大学硕十学位论文第三章监播系统中音频文件管理程序的设计 这些客户可以是应用程序或者是其它的d l l 。“d l l 库”不同于静态库,在静态 库的情况下,函数和数据被编译进一个二进制文件( 通常扩展名为l m ) ,v i s u a l c + + 的编译器在处理程序代码时将从静态库中恢复这些函数和数据并把他们和应 用程序中的其他模块组合在一起生成可执行文件。这个过程称为“静态链接”, 此时因为应用程序所需的全部内容都是从库中复制了出来,所以静态库本身并不 需要与可执行文件一起发行。静态链接库与动态链接库都是共享代码的方式,如 果采用静态链接库,则无论你愿不愿意,l i b 中的指令都被直接包含在最终生成的 e 文件中了。但是若使用d l l ,该d u 。不必被包含在最终e 文件中,e 文件执行时可以“动态”地引用和卸载这个与e 独立的d l l 文件。静态链接库 和动态链接库的另外一个区别在于静态链接库中不能再包含其他的动态链接库或 者静态库,而在动态链接库中还可以再包含其他的动态或静态链接库。 微软的v i s u a lc + + 支持三种d l l ,它们分别是n 0 n m f cd u 。( 非m f c 动态 库) 、r e g i l l a rd l l ( 常规d l l ) 、e x t a 幅i d l l ( 扩展d l l ) 。n o n - m f cd l l 指的是不用m f c 的类库结构而直接用c 语言写的d l l ,其导出的函数是标准的c 接口,能被非m f c 或m f c 编写的应用程序所调用:r e g t l l a r d l l 和下面的e x t e m i d l l 一样,是用m f c 类库编写的,它们的一个明显的特点是在源文件里有一个继 承c w i i 娜p 的类( 注意:此类d l l 虽然从c w i i a p p 派生,但没有消息循环) , 被导出的函数是c 函数、c + + 类或者c + + 成员函数( 注意不要把术语c h 类与m f c 的微软基础c 卜十类相混淆) 。调用常规d l l 的应用程序不必是m f c 应用程序, 只要是能调用类c 函数的应用程序就可以,它们可以是在v i s u a lc + + 、v i s l l a lb 硒i c 、 b o r l 卸dc 等编译环境下利用d l l 开发的应用程序。 3 3 2n c t a u d i o e d j t o r 2a c t i v e x 动态链接库的介绍 n c t a u d i o e d i t o 心a c t i v e x 动态链接库是一个可视化音频文件编辑器。它可以 嵌入到应用程序当中,向终端用户提供对音频文件的可视化控制功能。例如:显 示音频文件的波形图,加入滤波器功能,实施多项音频处理能力,测试出频率结 构等诸多音频文件的详细资料,对音频文件特征进行统计,对频率光谱图进行可 视化分析,以及对各种音频文件格式进行相互转化等诸多性能。适用于w i n d o w s 9 8 m e 2 0 0 0 x p 等系统,同时需要配备声卡和麦克风等硬件设备,并可以利用m s v i s u a lb a s i c n e t ,m sv i s u a lb a s i c6 o( s p 5 ) m sv i s u a lc + + 6 o( s p 5 ) m s c n e t 等编程语言将其嵌入到程序当中去。 n c t a u d i o e d i t o r 2a c t i v e x 动态链接库的具体功能如下: 打开、创建和存储音频文件; 1 7 西北工业大学硕七学位论文第三章监播系统中音频文件管理捍序的设计 在特定的界面上显示音频文件的波形图,可以进行全部显示( z 0 0 n l f u l l ) 、 缩小( z o 叫l h l ) 、放大( z 0 0 m o u t ) 以及垂直缩放( z 0 0 恤v c n i c a l ) ; 对音频文件的各个部分进行播放、暂停和停止播放等功能; 可以通过麦克风或其它设备录制音频文件: 获取并设置录音参数( 始端响度、始端时间、激活标记、末端响度、末端 时间、高通,低通带通滤波器被激活的标记、高通低通带通滤波器的频带 范围) : 音频文件可视化编辑( 剪切、复
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中国环保用品设备行业市场前景预测及投资价值评估分析报告
- 2026年中国麻醉盐水架行业市场前景预测及投资价值评估分析报告
- 2026年中国量变送器行业市场前景预测及投资价值评估分析报告
- 2025年建平县面向社会公开招聘城市社区工作者21人考试笔试参考题库附答案解析
- 2025年体育赛事赞助合同终止及权益协议
- 药剂科抗菌药物应用须知
- 2026年浙江纺织服装职业技术学院单招职业适应性测试题库附答案
- 2026年广东水利电力职业技术学院单招职业倾向性测试题库及答案1套
- 2026年太原旅游职业学院单招职业倾向性考试必刷测试卷附答案
- 2026年辽宁省葫芦岛市单招职业适应性测试必刷测试卷必考题
- 纸箱厂质量控制奖惩条例
- 2025年水利系统职称考试水利专业技术人员职称考试题库及答案
- 湖南省湘潭市2024-2025学年九年级上学期1月期末历史试题
- 库蚊环境适应性-深度研究
- 新能源行业人力资源规划与招聘
- 蛇串疮的健康宣教
- DB33 1121-2016 民用建筑电动汽车充电设施配置与设计规范
- 自动化电气元器件介绍与使用
- 【MOOC】温病学-河南中医药大学 中国大学慕课MOOC答案
- 直线和圆的方程 直线与圆的位置关系 教学设计
- 《外科护理学(第七版)》考试复习题库-下(多选题)
评论
0/150
提交评论