(控制理论与控制工程专业论文)基于语音的多媒体场景标记辅助系统.pdf_第1页
(控制理论与控制工程专业论文)基于语音的多媒体场景标记辅助系统.pdf_第2页
(控制理论与控制工程专业论文)基于语音的多媒体场景标记辅助系统.pdf_第3页
(控制理论与控制工程专业论文)基于语音的多媒体场景标记辅助系统.pdf_第4页
(控制理论与控制工程专业论文)基于语音的多媒体场景标记辅助系统.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(控制理论与控制工程专业论文)基于语音的多媒体场景标记辅助系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海大学颂l j 学位论文 摘要 标引的目的是通过给音频一视频数据加入标记,对其内容进行描述,以便 于信息的检索和查询。语音标引在媒体资产管理中扮演了很重要的角色。本文 介绍了一种基于语音识别的多媒体场景标记辅助系统,该系统可自动识别标引 员所说的短语,辅助标引员在视频媒体上实现标引。系统从语句中将这些短语 分割出来,通过e b f 神经网络进行建模。实验结果证明,该系统性能良好且具 有实用性,在媒体资产管理方面有广阔的应用前景。 本文主要内容是基于语音关键词识别技术的语音标引系统的研究与实现, 提供了一个性能优良的语音识别引擎,通过系统测试,标引正确率达到9 1 3 。 并以此引擎为基础,开发了面向广电体育节目编辑系统的语音标引平台。本文 的工作主要集中在以下几个方面: 第一,基于神经网络语言模型的识别网络构建。挑选出体育足球节目常用 的一些关键词语构建一个与该关键词唯一对应的识别网络,在此识 别网络的基础上进行关键词的识别。 第二,将自适应加权融合算法应用于最后标引系统输出决策。对于用不同 特征得到的识别结果,采用自适应加权融合的算法进行融合,经过 此步骤处理的决策系统可以显著提高标引结果的正确率。 第三,语音标引系统的实现。本文从系统设计到实现,提供了一个高扩展 性能的语音识别引擎,它是针对汉语特定人关键词语音检索应用而 开发的,能实现一个面向体育节目的语音检索平台,能够检索包含 指定汉语关键词的w a v e 格式文件,实验证明通过使用以上方法, 系统能够获得良好的性能。 关键词:媒体资产管理;语音标引;e b f 网络;数据融合 v 海人掌顿_ :学位论文 a b s t r a c t t h em a i no b j e c t i v eo f t h ei n d e x i n gp r o c e s si st oa s s i g nl a b e l st ot h ea u d i o v i s u a l d a t ai no r d e rt od e s c r i b ei t sc o n t e n t a u d i oi n d e x i n gp l a y sak e yr o l ei nt h i sp r o c e s s i n t h i s p a p e r , as p e e c h b a s e dm a n - m a c h i n el a b e l a i d e ds y s t e mf o rm e d i aa s s e t m a n a g e m e n ti sp r e s e n t e d t h es y s t e mr e c o g n i z e st h ep h r a s e ss p o k e nb yt h eh u m a n a n n o t a t o ra u t o m a t i c a l l ya n da s s i s t sh i mt om a r ku ps h o t so fs u b j e c t si nv i d e om e d i a , t h o s e p h r a s e sa r es e g m e n t e df r o ms h o r ts e n t e n c e sa n d m o d e l e db yt h ee l l i p t i c a lb a s i s f u n c t i o n ( e b f ) n e t w o r k s e x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h es p e e c h - b a s e dl a b e l a i d e ds y s t e mi sp r a c t i c a la n dh a sg r e a tp r o m i s ef o rm e d i aa s s e tm a n a g e m e n t t h i sp a p e ri sm a i n l yf o c u so nt h es y s t e md e v e l o p m e n ti nk e y w o r ds p o t t i n ga n d i n d e x i n g i tp r o v i d e df i ne x c e l l e n tk e y w o r ds p o t t i n ge n g i n e i td e v e l o p e ds o m en e w m e t h o d sa n da l g o r i t h m si nk e y w o r ds p o t t i n gi nt h ef i e l do fs p o r t sv i d e o st oa c h i e v ea h i g hd e t e c t i o nr a t e t h em a i nw o r ki sa sf o l l o w s : 1 t h ec o n s t r u c t i o no fr e c o g n i t i o nn e t w o r kf o rr e c o g n i t i o ne n g i n eb a s e d o na n nm o d e l w et r a i n e da na n nm o d e lw i t hs o m ek e yw o r d so f t e n 2 k e y w o r d s : u s e di n s p o r t s v i d e o t h ek e y w o r dr e c o g n i t i o ni sb a s e do nt h e r e c o g n i t i o nn e t w o r k w ea c h i e v e dg o o dp e r f o r m a n c ew i t ht h ea p p l i c a t i o no fa d a p t i v e w e i g h t e dd a t af u s i o na l g o r i t h mu s e di nt h eo u t p u td e c i s i o n t h ed e v e l o p m e n to fs p e e c hl a b e ls y s t e m i tc a nf i n dt h ew a v ef i l e s w h i c hc o n t a i nt h ep r o n u n c i a t i o no f s p e c i f i e dk e y w o r d s i ti sa v o c a b u l a r yc h i n e s ek e y w o r ds p o t t i n ga n di n d e x i n gs y s t e m w i 廿1a n a c c e p t a b l ep e r f o r m a n c e m e d i aa s s e tm a n a g e m e n t ;s p e e c h - b a s e dl a b e l ;e b fn e u r a ln e t w o r k ;d a t a f u s i o n 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 本论文使用授权说明 日期:进堕:! 、 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 一婵聊繇缉嗍 i l 海人学碰! l 学位论且: 1 1 课题来源 第一章绪论 课题题目为:“基于语音的多媒体场景标记辅助系统的研究”,来源于上海 市教委项目:“基于多特征判据融合的语音标引技术的研究”。项目编号: 0 4 a b 7 2 。该项目的主要内容是对包含音频信息的媒体资源进行检索和标引,在 无约束的语音中自动检测词或短语,并利用多种音频特征判据进行融合判决, 以标记出长段录音或音轨中用户感兴趣的事件。其核心为语音识别和数据融合 技术。本课题的研究主要是针对其中关键词识别的部分。 1 2 课题研究的目的和意义 12 1 课题研究的目的 本课题以基于语音的多媒体场景标记辅助系统为研究对象,以v c + + 6 0 软 件为平台,研究汉语孤立词的识别率。利用现有的软件平台,分析和研究不同 的语音特征参数和e b f 网络参数对识别率的影响,并进行对比和实验验证。通 过本课题的研究和开发,为“基于多特征判据融合的语音标引技术”的研究, 特别是针对音频信息的检索系统提供一个简便、可行、有效和通用的基础工具, 为媒体资产管理系统提供可靠的技术保障。 1 2 2 课题研究的意义 电视台的体育节目素材库每年都有大量的体育节目播出,经过多年的积累, 存储的体育节目的素材数量是惊人的。它们大都以模拟磁带的方式保存,这样 既占用空问,又因为磁带本身不适合长期存放的特性,如遇潮湿、高温等,将 会导致画面质量的损失,尤其是一些珍贵的历史镜头或重要的节目片段等,因 为保存不力而使素材无法使用的情况很多。随着信息技术的不断发展,电视台 节目制作和播出正在走向数字化和网络化,如何将这些节目素材有效的进行数 j :海人学倾j :学位论文 字化存储管理和充分再利用是各个电视台所急待解决的问题。 存储的问题般通过将各种模拟的节目素材转化成数字信号,并使之能够 支持多种的视频格式( d v 2 5 、m p e g 4 、r e a l 等等) 来解决。而要使节目素材 能够被随时调用和检索,则需要通过标引的方式,对节目内容打上一定的标记。 标引工作目前基本上都是依赖于人工,工作量非常大且容易由于标引员的失误 导致误标引。因此,加入智能化的手段,使人工标引转化为自动标引,是未来 研究和发展的方向。本课题选择电台体育节目中最为常见的足球比赛为研究对 象,使研究更具实用价值:将人工标引与智能化自动标引相结合,以内容为基 础,提供多级智能检索方式,可与硬盘、非线性编辑以及播出系统无缝连接。 基于语音的自动标引系统可以帮助标引员将口述的媒体内容记录下来,比如, 标引员在标引一场足球比赛时会使用一些预先定义好的关键词,如“某人进球”、 “某人越位”、“某人犯规”等,系统将这些关键词自动识别并记录下来,在指 定的画面帧上进行标记。在检索时,用户输入查询进入系统后可以在已经建立 的关键词特征库中找出相关内容的画面帧。本课题的研究有助于提高标引过程 的速度和精度,在媒体资产管理方面有良好的应用前景。 1 3 国内外研究概况 语言是人类最重要的交际工具,语言还是人类思维的工具。语音便是这个 工具的物质外壳。文字是纪录语言的书写符号系统,他克服了口头语言在交际 过程中受到的时间和空间的限制。1 8 7 6 年a g b e l l 发明了电话机,t a e d i s o n 发明了留声机使得言语交际也超越了时间和空间的局限。从而发展到我们今天 可实现随时随地的言语交际。 语音识别的研究工作大约开始于5 0 年代,当时a t & tb e l l 实验室实现了 第一个可识别十个英文数字的语音识别系统a u d r y 系统。6 0 年代,计 算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信号产生模型的问题, 对语音识别的发展产生了深远影响。7 0 年代,语音识别领域取得了突破。 在理论上,l p 技术得到进一步发展,动态时间归正技术( d t w ) 基本成熟, 2 海人学帧1 :学位论文 特别是提出了矢量量化( v q ) 和隐马尔可夫模型( h m m ) 理论。在实践上, 实现了基于线性预测倒谱和d t w 技术的特定人孤立语音识别系统。8 0 年 代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人工神经元网 络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于a t t b e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学模型工程 化,从而为更多研究者了解和认识。a n n 和h m m 模型建立的语音识别系统, 性能相当。但是,在实际应用中,在实验室中“成功”的语音识别系统在鲁棒 性( r o b u s t n e s s ) 、灵活性和自适应能力上还远远不能满足实际的需要,技术上 也显得力不从心。进入9 0 年代,随着多媒体时代的来临,迫切要求语音识 别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、 a t t 、n t t 等著名公司都为语音系统的实用化开发研究投以巨资【1 】。 1 3 1 国外研究概况 9 0 年代末2 0 世纪初基于语音识别的商业产品纷纷推出,其中影响力比 较大的是i b m 公司推出的v i a v o i c e 软件。i b m 公司对语音技术的研究始于2 0 世纪5 0 年代,拥有近5 0 年的语音解决方案的经验,并且拥有1 5 0 多个语音技 术专利,只有少数一些大学的技术实力能与之相当。v i a v o i c e 作为世界上第一 个商业应用的语音识别软件标志的语音识别系统的理论、性能已经到达了一个 全新的高度。从9 8 年推出v i a v o i c e1 0 版本之后不断推出升级版本到目前的 v i a v o i c e9 0 ,识别率达到目前的9 5 ( 2 5 0 旬训练语句) 。它也提供语音开发 工具s d k ,缔造一个全方位的语音平台 2 1 。不过,虽然i b m 的v i av o i c e 语 音识别系统使语言机器更接近实用,但是还没能达到人机之间真正自由友好、 灵活、亲切的交往,更不用说对未来系统提出的能表情达意、说话得体聪明能 干的人与机器完美译释( g r e a tc o m m u n i c a t i o n ) 的要求了 3 1 。 微软公司( m i c r o s o f t ) 作为全球最大的软件开发商,近期开始涉足语音业 务。微软的董事长兼首席软件架构师b i l lg a t e s 于2 0 0 3 年4 月在旧金山s p e e c h s e r v e r2 0 0 4 会议上正式发布了s p e e c hs e r v e r2 0 0 4 企业版,它的发布标志着微软 正式进入服务器的语音识别市场,s p e e c hs e r v e r 在“w i n d o w ss e r v e r2 0 0 3 ”上运 卜海人学砸卜学位论艾 行,基于面向声音处理的扩展标识规格“s p e e c ha p p l i c a t i o nl a n g u a g et a g s ( s a l t ) ”,可同时支持电话和多模式应用。s a s d k 可支援开发人员开发电话 和多模式应用。w e b 和语音及i v r 开发人员可迅速且容易在w e b 应用软件中集 成语音功能【4 】。 由语音识别而衍生出来的语音检索、语音标引正逐渐成为语音研究方面的 重要课题。人们逐渐尝试把它应用于媒体资产管理、数字图书馆等文本检索难以 涉足的领域【5 1 6 1 7 11 8 1 。对语音检索研究的初期,研究人员还是将重点放 在语音识别上:音频信息经过识别后转化为文本信息,此时音频检索就转变成了 在纯文本中的检索形式,这样可以利用现有的已经相当成熟的文本检索技术。但 是采用这种的方法所得到的检索效果极度依赖于语音识别率,而目前语音识别的 正确率并不能满足人们的要求( 单词精度低于7 0 ) 。于是研究者提出很多不完 全依赖识别结果的标引方法。 文献【9 】提出了一种利用人们在讲演或者报告过程中,会自然而然的重复 某些关键词句,这些关键词就可以作为标示符,标注这段语音,利用s c d p ( s h i f t c o n t i n u o u sd p ) 方法可以找到这些关键词句并且在音频文件中定位它们,从而 实现自动标引。 此外,由于单纯的基于图像或基于语音的标引系统效果都不很理想,达不 到实际应用的水平。所以近来国外将研究重点放在了将图像特征和语音特征相 融合甚至加入文本特征再进行判决的工作上【1 0 】:美国大棒球联盟赛中每个赛 季都有几乎海量的多媒体内容,人们所关心的是如何直接获取自己所感兴趣的 内容。以往的标引主要基于抽取的图像特征。但所抽取的图像特征只能停留在 较低的水平上,例如颜色、边缘等等。这些特征在商业运用中不足以区分“奔 跑”和“静止”的画面。但是如果借助于音频( 音乐和欢呼声的检测) 和语音 ( 关键词识别) ,那就可以很容易地达到更好的识别效果。当画面集中在运动员、 观众或者场地上时,我们也可以单纯的借助音频检测或语音中关键词的识别来 达到检索关键帧的目的。考虑到每个场景需要抽取的视频、音频和语音特征数 量是非常多的,逐一分析的工作量很大,所以可以采用基于最大熵的方法来融 合视频、音频和语音的特征。该方法的优势就在于能在学习过程中自动的将区 海大学坝i 学位论文 分度最大的各个特征挑选出来。实验结果表明,采用基于多特征融合识别的结 果较单纯基于图像的识别效果提高很多,表1 1 是棒球比赛中8 类主要的的场 景在采用多特征融合方法后标引的效果统计表。 m u l t i m e d i af e a t u r e i m a g ef e a t u r eo n l y b a s e b a lls c e n e r e c a l lp r e c i s i o n r e c a l i p r e c i s i o n p i t e b jn gs c e n e9 3 1 8 9 7 9 2 3 1 8 89 r u n n i n gs c e n e 5 2 3 6 2 2 5 3 5 6 3 3 3 7 9 c 1 0 s e u ds c e n e6 2 9 2 7 3 8 1 3 8 7 2 5 0 6 0 b a s es c e n e5 3 1 2 6 1 1 9 3 4 2 1 4 2 3 2 a u d i e n c es c e n e6 3 2 0 6 9 2 0 4 0 1 0 4 2 1 2 o u t f i e l do v e r v i e w7 2 7 9 7 3 3 1 7 1 7 8 7 0 1 1 i n f i e l do v e r v i e w9 0 6 4 9 0 4 0 8 4 8 0 8 7 5 3 表1 1 多特征融合标引效果统计 在现有的语音检索系统中,很多都是利用语音识别技术,但是早期的系统 在词汇、语音限制方面比较强,在实际应用中往往有很多限制,下面列举国外 几个有代表性的系统: 1 、e t h zb r o a d c a s tn e w sr e t r i e v a l 【ll 】 h t t p :w w w i n f e t h z c h e t h ( s w i s sf e d e r a li n s t i t u t eo f t e c h n o l o g y ) 该系统通过语音识别的方法,基于h m m 模型,但它只能是特定人的。该系 统可以采取自然语言查询,通过文本口语,系统把这些发音通过词典映射为音 素描述,然后跟每个语音文档计算获取状态值( r e t r i e v a ls t a t u sv a l u e ) 来检 索。也可以通过输入文本关键词进行检索,然后输出一个检索的列表,如文件 名和起止时间。 2 、c a m b d d g ev i d e om a i lr e t r i e v a l ( v m r1 9 9 6 ) 【1 2 剑桥大学工程系 h t t p :h s v r w w w e n g c a m a c u k r e s e a r c h p r o j e c t s v m r 系统用3 5 个预选定的关键词做检索,在一个很好的关键词识别器下,识别 海人学顺l 学位论立 率接近9 0 。该系统也是基于h m m 关键词识别技术,用h t kt o o l 对这1 5 个人 建立特定说话人的整词模型和单音子填充模型,h m m 为3 状态模型。 3 、s p e e c h b o t 搜索引擎【1 3 c o m p a q h pl a b h t t p :f s p e e c h b o t r e s e a r c h c o m p a q t o m h t t p :w w w h p i h p c o l n r e s e a r c h c r l p r o j e c t s l a r g e s c a l e h t m l s p e e c h b o t 是一个基于内容检索的音频一视频搜索引擎,语音识别器是建 立在c m u 的s p h i n x 3 【1 4 】语音识别系统的基础上的,它将音频转为标注 ( t r a n s c r i p t i o n ) ,在这个基础上进行关键词的检索,能够将包含特定主题和内容 的音频一视频文件搜索出来,主要是广播新闻。该系统即使在t r a n s c r i p t i o n 不是 很准确的情况下,仍然能够得到比较好的查询性能( 7 7 5 ) 。 1 3 2 国内研究概况 我国语音识别研究工作起步于五十年代,但近年来发展很快,研究工作一 直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“8 6 3 ”计划。 国家8 6 3 智能计算机专家组为语音识别技术研究专门立项,由中科院声学所、 自动化所及清华大学等单位研究开发,每两年滚动一次。其研究水平已经基本 上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先 进水平。研究水平也从实验室逐步走向实用。从1 9 8 7 年开始执行国家8 6 3 计划 后。其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所 模式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人 汉语数码串连续语音识别系统的识别精度,达到9 4 8 ( 不定长数字串) 和 9 6 8 ( 定长数字串) 。在有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,这是目前国际最好的识别结果 之一,其性能己经接近实用水平。研发的5 0 0 0 词邮包校核非特定人连续语音识 别系统的识别率达到9 8 7 3 ,前三选识别率达9 9 9 6 ;并且可以识别普通话 与四川话两种语言,达到实用要求【1 5 1 。 海人学硕i 。学位论殳 虽然国内语音识别的研究水平已与国际同步,但基于语音识别的标引系统 由于其应用范围比较窄,主要的用户对象是电视台,而国内电视台在管理和运 作上较国外电台都相对落后,所以语音标引在目前国内电视台尚没有成功应用 的先例。就目前国内最新的文献所介绍的情况来看,标引的基本思路也是将音 频和视频特征相融合再进行识别。 文献【1 6 】介绍了将视频分析加入到声音文件处理中,从而有效解决电视 新闻节目的检索问题:电视新闻节目由于其时效性每天都会产生大量的数据信 息,面对海量的新闻信息要找到指定的新闻人工检索几乎是不可能的。一般新闻 都是由新闻主持人在演播室的一段标题开始,随后场景会切换到新闻现场。由于 在演播室无论是图像还是声音的录制效果都要远远优于在现场的录制效果,干扰 较小,所以通常以前者作为语音识别的主要依据。显然首先要做的就是把新闻信 息分成演播室部分和现场部分。由于演播室和新闻现场在图像的区分度很大,所 以借助于图像可以准确的区分这两部分,从而把演播室的声音信息从整个新闻片 断中剥离出来在进行处理。文献【1 7 】介绍了香港中文大学在给香港t v b 电台应 用的语音多媒体检索系统中采用了视频检索和语音检索相结合的方法。其音频部 分采用h m m 模型,特征向量为包含了1 6 维m f c c 和1 6 维高斯混合模型以及其它 信息的3 9 维特征。检索的成功率达到了6 3 1 。 鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、 新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相 当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到 商品的转化。 1 4 论文的主要研究内容 本论文是以作者攻读硕士学位期间承担课题的工作为基础,在第一章中阐 述了课题研究的来源、目的、意义以及国内外研究的现状;第二章阐述了媒体 资产管理的概念,从而引入了语音标引研究的必要性;第三章介绍了基本的语 音处理理论以及本文中所涉及到的语音处理方法,并对各个环节进行了详细的 分析:第四章讨论了神经网络的基本原理及其在语音建模及匹配中的应用,并 海大学坝l 学位论文 对比马尔科夫建模方法提出了a n n 方法的适用性。第五章阐述了采用第四章 介绍的算法后得到的实验结果,并对其进行了评估;第六章总结全文,提出进 一步工作的设想。 海人学顾i 学位论文 第二章媒体资产管理 2 1 媒体发展的阶段 广电行业的数字化发展,必须分阶段进行。发展的目标不仅仅在于改善图 像清晰度、提高图像传输质量、增加节目套数容量,更在于它将达到多媒体综 合信息服务的目的,从而为公众提供更多更好的个性化服务,最终满足大众对 媒体内容的需求。因此,媒体发展的关键问题是对媒体内容资源的管理和利用。 视音频资料在管理上主要有以下的特点: ( 1 ) 数量大,增长速度快 经过长期的积累,一些媒体行业单位已经拥有了较大数量的视音频资料。 而且随着我国新闻、影视业的快速发展,我国的视音频资料正在成倍地增长,这 对视音频的存储、管理是一个巨大的挑战。 ( 2 ) 重复利用需求十分突出 由于视音频资料的制作编辑设备复杂,成本远比文字资料高,许多十分珍 贵的镜头和声音均无法重新制作,因此,视音频资料的重复利用需求较高。对视 音频资料的再利用是建立在高效,完善的编目工作基础之上。另外,一个功能完 善的媒体资产管理系统必须考虑有关媒体资料的版权以及检索、计费的管理。 ( 3 ) 检索要求较高 总体来说,视音频资料的主题内容较为模糊,范围也比较广泛,用户的检 索需求也不同于对书刊资料的检索需求,他们一般不会从一个笼统的角度来查 找,而是需要一些精确的信息( 例如,某个镜头的运用,某种特殊的拍摄手法等) 。 目前国内的视音频资料的编目水平还不高,无法提供精确的检索。 ( 4 ) 数据的交换和共享 在广播电影电视行业内的各单位之间,或者是每一个单位的各部门之间, 数据交换和共享是很普遍的。媒体资产管理系统必须确保各种数据的兼容性,以 及编目标准的统性。 ( 5 ) 后期的编辑制作 9 海人学硕 。学位论文 随着视音频非线性编辑系统以及数字播出系统的普及和推广,对资料的存 储和管理又提出了很多新的需求【1 8 】。 电视台、音像资料馆、互联网等媒体的大量音像资料,是极具价值的宝贵 资源,它的完好保存、全面管理和充分再利用具有极大的社会效益和经济效益, 并且关系到技术提升和多种业务开展的战略性行为。采用先进的管理技术手段, 把大量的视、音频资料变为可视的、可控的、可得的内容,提供给全社会,可 以使电视台等媒体在信息社会中充当更重要的角色【1 9 】。 如同企业信息化发展需要经历从“管理信息系统”( m i s ) 到“企业资源计 划”( e r p ) 的过程一样,媒体的发展同样需要经历从“媒体内容管理”( m c m ) 到“媒体资产管理”( m a m ) 的过程( 图2 1 ) 。 目露圄 图2 1 媒体发展阶段 媒体发展必须分两步走的战略观点,己被证明是行之有效的,并为广大电 视台等媒体所接受:第一,可以保护现有的投资;第二,符合技术发展趋势和 商业运作规律:第三,提供了可升级、可扩展的能力。 2 2 媒体内容管理 媒体内容管理,就是将媒体素材、节目资料等内容的创建、编目、审核、 存储、检索、发布整个业务流程,以先进的管理理念和技术手段加以实现,根 据用户的要求在浩如烟海的资料库中全面、准确、及时地找到所需的内容,并 为他们提供各种丰富的节目服务。 媒体内容管理,包括素材和节目资料两大方面,它构成了节目制作、播出 的支撑平台。 电视台的素材管理长期以来面临巨大困惑。花费大量宝贵时间,巨大设备 投入而拍摄成功的珍贵素材带,尤其是具有很高价值的新闻素材带,本应很好 j i 旃人学顺i :学位论文 地加以保存,并在以后的节目编辑中反复多次使用。但目前的情况是,那些难 以再现的珍贵历史画面,由于没有相应的设备和管理手段加以保护,往往在万 般无奈的情况下,只能删除,造成无法挽回的损失。日后需要用到这些画面时, 却没有素材可用。 另外,电视台总编室保存有大量的播出节目带,这些新闻、体育、文艺等 各类节目带是电视台的价值所在,具有很强的重复使用性,同样需要进行有效 的保存,以备将来之用。对这一类的节目素材,如何管理好、应用好,并对其 内容进行检索、整理、选择、编辑和利用,从而提升其价值,同样是电视台所 急需解决的问题。 媒体内容管理系统,通过对视频素材采、编、存的一体化流程建设,以规 范的数字存储格式与载体、规范的编目标引格式与检索、以及规范的操作流程 管理与运营,可以使视频素材管理活动的各个环节通过信息流的快捷流通和有 效服务,实现视频内容信息流和工作流的整合。这是再造符合中国广电内容管 理、制作应用实际的现代化科学管理流程,达到信息资源的优化配置,提高管 理效率和水平,从而增强电视台核心竞争力的有效途径。 2 3 媒体资产管理 媒体资产管理是一个端到端的对各种类型媒体内容( 如视频、音频资料、 文本文件、图表) ,以及设备和固定资产等进行其寿命期内全面管理的总体解决 方案。它满足了电视台等媒体资产拥有者收集、保存、查找、编辑、发布各种 信息的功能要求,为媒体资产的使用者提供了在线内容和简便的访问方法,实 现了安全、完整的保存媒体资产和高效、低成本地利用媒体资产的目的。 媒体资产管理系统建立在内容管理的基础之上,它更注重于在业务开展和 管理流程方面为电视台等媒体机构提供一个运营平台。媒体资产管理系统不是 一般意义上的资源共享系统,所能解决的问题也不仅仅是使用者能否得到所需 内容,而且还有内容调度、设备调度、同一内容多用途等。也就是说,媒体资 产管理系统建立起了一个使内容( 无论什么类型的) 能被各种应用系统有效利 用的基本平台,媒体资产拥有者可以在这样一个战略平台上将现有的应用紧密 海人学硕l j 学位论文 地结合起来,同时为开展新的应用提供了易于实现的途径。 就目前国内电视台的情况而言,建立媒体资产管理系统,可以实现将已有 的视频一音频资料转变成更有价值的媒体资产:可以与现有的多媒体节目制作 系统连接起来,使新的视频一音频资料直接成为新的资产。也可根据现有条件 的具体情况,逐步开展数字化节目自动播出、节目点播、互联网节目发送、节 目交易、视频、音频资料提供、交互电视等新业务。随着宽带网技术的发展和 网络建设的完善,今后在媒体资产管理系统的基础上可以扩展的新业务还会有 很多。其结构示意图如图2 2 所示。 海人学坝i 学位论立 图2 2 媒体资产管理示意图 海人学顺1 学位论文 2 4 电视台媒体资产数字化管理系统 电视台媒体资产数字化管理系统旨在最小、最节省的存储方式,为电视台 建立低成本的数字声像资料库;用最快捷、最智能的检索方法,方便采编人员 找到任何需要的节目和素材;用最简单、最有效的手段实施电视台媒体资源的 管理,并且保护电视台的媒体资产不会受到来自任何方面的侵害;同时为交互 式电视和媒体的多样性应用创造了理想的条件。 电视台媒体资产数字化管理系统根据电视台节目资料存储、检索和管理的 需求设计。系统以视音频的多级化数字存储、检索和加解密为核心,以节目资 料的录入、检索和管理为主要服务界面,提供了包括视频资料上载及数字化存 储、交互式内容输入、视频分析处理、音视频资料库管理、基于内容的音视频 资料检索输出、注册及目志管理、灾难备份、视频数据版权保护等具体功能, 是面向电视台和其他行业的节目资料管理全面解决方案( 图2 3 ) 。 图2 3 电视台多媒体信息存储检索系统功能 海人学坝卜学位论文 2 5 本章小结 本章引入了媒体资产管理的概念,指出由媒体内容管理转向媒体资产管理 的必然性。音频一视频检索是媒体资产管理的一个非常重要的组成部分。本文 以此方向为突破口,建立一个完整的语音标引系统,并融合到整个媒体资产管 理系统中。 洵人学坝 。学位论文 第三章语音信号理论 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段, 也是人类进行思维的一种依托。人类进入信息时代以后,用现代手段研究语音 处理技术,使人们能更加有效地产生、传输、存储和获取语言信息,这对于促 进社会的发展具有十分重要的意义。数字语音处理包含三方面内容:语音信号 的数字表示方法,语音信号数字处理的各种方法和技术,以及数字语音处理理 论和技术在各领域中的实际应用。这些内容涉及到数字信号处理、计算机科学、 模式识别、语音学、生理学、心理学等学科,还涉及到通信和电子系统、信号 和信息系统等具体应用领域。语音信号的数字表示方法可分两类,一类是波形 表示,另一类是参数表示。波形表示方法主要是采用取样和量化的方法将模拟 语音信号变换成数字语音信号,后者表示了前者的波形。参数表示方法的基础 是把语音信号看成是某个模型在一定激励作用下产生的输出,而激励源和模型 的参数便作为语音信号的表示,而参数是根据语音信号计算出来的。语音信号 的数字处理方法是多种多样的,其方法可以是时域的,也可以是频域的,但都 应考虑到语音信号本身的特点。在时域内,就是各种短时时域分析方法,如短 时能量、短时平均过零率以及短时自相关函数等计算;在频域内,就是短时傅 里叶分析方法。除此之外,倒谱和同态分析、矢量量化和隐马尔科夫模型等也 得到了广泛的应用。数字语音处理有着广泛的应用领域,其最重要的包括语音 压缩、语音合成、语音识别、说话人识别以及语音增强。 构成人类语音的是声音,然而这是一种特殊的声音,是由人讲话所发出的 声音。通过对于语音信号发生过程的研究以及观察记录的各种语音波形,可知 道语音信号的频谱分量主要集中在3 0 0 3 4 0 0 h z 的范围内。如果用一个防混叠 的带通滤波器将此范围内的语音信号频谱分量取出,然后按一定的采样频率对 语音信号进行采样,就可以得到离散时域的语音信号。当然,若为了是语音识 别系统得到更高的识别率将语音频率范围高端扩展到7 9 k h z ,相应的采样率 电提高到1 5 2 0 k h z 。大量研究表明,语音信号的一个重要特点就是它的“短 海火学坝f 一学位论文 时性”,某些时段中它呈现出随机噪声的特性,另一些短时段则呈现出周期信号 的特征,其他一些是二者的混合。这就是说语音信号的特征是随时间而变化的。 由于,人的声道形状及其变化规律具有一定的惯性,因此在一段短时间间隔中, 语音信号保持相对稳定一致的特征,所以,对于语音信号的分析和处理就必须 建立在“短时”的基础上。这段短时间一般可取为5 5 0 m s 。 根据所分析的参数不同,语音信号分析可分为时域、频域方法。时域分析 具有简单、运算量小、物理意义明确等优点;但更多的分析是围绕频域进行的。 因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作 用。 3 1 分帧处理 前面己经说过,贯穿于语音分析全过程的就是“短时分析技术”。对于语 音信号的研究可以发现,其特性是随时间而变化的,是一个非稳态的过程。但 是从另一方面看,虽然语音信号具有时变特性,而在一个短时间范围内其特性 基本保持不变即相对稳定,因而可以将其看作是一个准稳态的过程。语音的重 要特性是它具有“短时性”,所以对语音的分析和处理必须建立在“短时”的基 础上,即将语音信号分为一段一段来分析,其中每一段就称为一“帧”。由于语 音通常在1 0 3 0 m s 之内是保持相对平稳的,所以帧长一般即取为2 0 m s 。如果 采样频率为8 k h z ,每一帧就是8 0 0 0 x 0 0 2 = 1 6 0 个采样信号。 3 2 音频时域分析 连续音频信号x 经过采样后,得到k 个采样点x ( h ) ( 1 匀s ,在音频时域特 征提取中,认为每个采样点x ( n ) ( 1 9 s 包含了这个时刻音频信号的所有信息, 所以直接由x ( n ) o _ n j o 提取音频特征,而不需要对x ( n ) ( 1 却曼做任何处理。 在这种处理方法中,将”) ( 1 9 s 序列看成个二维数轴,横坐标表示时间 ( 其长度为k ) 。纵坐标表示x ( h ) ( 1 9 s 硎挣值。考察音频信号在这个坐标轴上的 能量幅度,可阻提取的时域特征有短时平均能量、过零率和线性预测系数。 海人学预:l 学位论文 3 2 1 短时平均能量 对于采样得到的x ( n ) ( 1 n 0 时,s i g n x ( n ) = 1 ;否则s i g n x ( n ) = 0 。 当人发音时,声音使声门产生振动,发出每秒几十次到百多次的声波脉冲, 然后经过喉管和口腔组成的声道将声波做适当的变形,由口腔送出。在这个过 程中,舌的位置和口腔的张大缩小对声波都有影响,鼻管则起着对声波的旁路 作用。当发出不同声音时,由于这些器官的位置和形状影响,声波会受到不同 的变形,加之声门发出的脉冲周期不同,就会发出不同的声音。 比较而言,语音信号比较规范,一般是由几个单词构成,每个单词又由元 音和辅音交替的音节组成。语音产生模型指出,由于声道阻碍较大,所以辅音 海大学坝i j 学位论文 的能量集中在3 k h z 以下,所带能量较小;相反,由于受声道阻碍较小,元音 所带能量较大。这样,对于语音信号,在波形上表现为较短时间内的低能量辅 音信号总是后继一个较长时间高能量元音信号。相应的,辅音信号的过零率低, 而元音信号的过零率就高。 语音信号开始和结束都大量集中了辅音信号,所以在语音信号中,其开始 和结束的部分的过零率总会有显著升高,所以利用过零率可以去判断语音是否 丌始和结束。 另外,大多数音乐信号集中在低频部分,其过零率不表现出突然升高或降 落的跌宕特性,所以有时候也用过零率来区分语音和音乐两种不同音频信号。 3 2 3 线性预测系数 对于采样后得到的信号序列f 0 ( 1 ) ,必n ) ,x ( 目) ,人们总想用一个模型 来模拟它的产生,好比用正弦函数来模拟形状如正弦曲线的声波。 如果用有限个参数的数学模型来线性近似表示音频序列x ( h ) ( 1 茎n 茎目,这些 参数就成为x ( h ) 的重要特征,叫做线性预测系数。 记模拟音频x ( 疗) ( 1 墨”s 均的数学模型为工( n ) ,则: 工7 ( h ) = 吼x ( n - k ) ( 3 7 ) k = l 其中x ( n - - 固为语音采样信号, 吼) 为模型参数( 又称线性预测系数) ,p 为模型阶数。从上面可以看出,可以用信号前面的一些采样值( 即延时信号采 样值) 加权后叠加作为产生音频序列“n ) ( 1 sn s 国数学模型,也就是用前面的 采样信号点去表示后面的采样信号。 借助模型( 3 7 ) ,只要知道了前面p 个采样点,则所有采样点的值可以计 算( 预测) 出来,由于上面的运算属于线性叠加运算,因此是用线性模型去为 音频信号序列x ( h ) ( 1 1n 兰固建立产生模型,其系数( 吼) 就叫“线性预测系数 ( l i n e a r p r e d i c t i v e c o e f f i c i e n t ,l p c ) ”。由于( 吼) 反映了音频信号的变化形状, 因此可以代表音频特征。 2 0 海人学碗卜学位论文 实际中,不是为音频信号流x 的全部k 个采样点建立一个线性产生模型, 而是为每个音频帧建立一个线性预测模型。每个短时音频帧有p 个系数,将这 矽个系数作为这个短时音频帧的特征。在计算模型系数时,采用如下最小均方 误差解法,即定义音频短时帧的平均预测误差点i 为: p e 。= ( ( ) 一( ”一f ) ) 2 ( 3 8 ) k - 1 其中x 。( ”) = x ( n + m ) 。在式中,令0 e 。a = 0 ,k = l ,2 ,p ,就可以得到 一组线性方程组解之即可得出最佳的模型参数。 线性预测模型最大的优点就是模型求解是个线性的问题,容易计算。缺点 是模型精度不高。只是近似计算,通过模型模拟( 预测) 的信号其与原始信号 存在误差。 3 3 音频频域分析 在音频信号的处理中认为提取的样本点x ) ( 1 9 s 叼表示音频在这个时刻的 全部信息。但音频理论指出:每个音频信号是由不同时刻、不同频率和不同能 量幅度波组成的,人们之所以能感受到音频信号,是因为人耳这个滤波器在不 同时候感受到不同频率带上不同能量信号的结果。与时域特征不同,频域信号 是把原始信号先进行傅立叶变换,将原始信号转换到频域,然后在频域上提取 特征。比如,把连续音频信号流x 采样后的离散音频信号f 0 ( 1 ) ,芦0 ) ,x ( 曲) 分成m 帧,每帧包含( 鲋m 个采样点( 如果帧间有叠加,采样点不是那么多) 。 那么就是对这个 删m ) 个采样点进行傅立叶变换。则傅立叶变换得到的系数 就表示这个短时音频帧在不同频谱上所带的能量大小。 3 3 1 倒谱分析 倒谱能很好地表示语音信号的特征,是语音信号一种较好的时频表示。倒 谱(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论