《音频信息处理概述》PPT课件_第1页
《音频信息处理概述》PPT课件_第2页
《音频信息处理概述》PPT课件_第3页
《音频信息处理概述》PPT课件_第4页
《音频信息处理概述》PPT课件_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章语音信息处理,本章讨论语音、音乐查询密码、语音的处理。 介绍语音的基本概念、一般形式、语音在计算机中的表现形式。 在多媒体系统中,声音主要以音乐和声音的形式出现,所以也着眼于音乐和音乐的乐器数字接口标准和声音的合成、识别、传输技术。 在本章中,简单叙述了内容分类计程仪、2.1多媒体中的声音信息和信息处理2.2声音编码的基础2.3声音编码标准2.4音乐合成和乐器数字接口2.5声音合成2.6声音识别、2003年9月、第2章声音信息处理引言、3、声音信息处理的概要、课程的构想以及声音信息和声音信息处理的概念。 介绍音频信息的应用前景的音频处理工具,2.1,2003年9月,第二章音频信息处理引言

2、,5,音频信号处理在多媒体中的应用和处理技术,从人与计算机的交流角度看音频信号的对应处理如下语音识别与理解计算机与人通讯(计算机输出语音)语音合成:包括音乐合成与语音合成语音定位:包括立体声仿真在内的音频/网络视频同步目的是使计算机产生具有真人真事的语音的人的计算机通讯者通过网际网络, 与异地的人进行声音通讯声音收集、声音编码/解码、声音传输的基于说话者识别内容的检索口头语的翻译,一方面,多媒体中的声音信息、声音信息的分类声音信息的特征音的物理特性,2003年9月,第二章声音信息处理引言,7,多媒体中的Audio声音、UnVoice无声、噪音、Sound非声音、语音浊音、Music音色音乐、S

3、peech声音语言、声音处理技术? 声音是多媒体的重要媒体之一3360,2003年9月,第二章声音信息处理引言,8,声音的物理特征,频率振幅,声音是机械振动。 振动越强声音越大。 2003年9月,第二章声音信息处理引言,9、声音信息的特征,声音具有的信息量大、细致、准确的声音用于传达信息、意向、感情,是人们最熟悉的传达信息的方式。 以某个中国字为例,表3.1表示其表现方式、数据量和信息:二、语音处理基础、语音信号数字化和数字化语音信号采样和特征采样的采样与混合量化以及噪声语音信号分析和处理语音信号分析:时域、频率域、倒频谱分析、线性/非线性预测短时间处理麦克将机器的振动转换成电信号,在模拟计程

4、仪声音中用模拟计程仪电压的幅度来表示声音的强弱。 在数字声音中,数字声音是数据序列。 它是通过对模拟计程仪语音进行采样、量化和编码而获得的。2003年9月,第二章语音信息处理引言、1.2、模拟计程仪电压、量化和编码示例,2003年9月,第二章语音信息处理引言、1.3、语音处理基础、语音数字化将模拟计程仪语音信号转换为有限数字表达的离散序列,实现语音数字化。 这包括对音频进行采样、量化和查询密码。 在数字音效中,当用数字表示音频的幅度时,只能用有限数字表示无穷多种电压幅度。 也就是说,用一个数字表示某个宽度范围内的电压称为量化。 将模拟计程仪声音设为数字声音时,每隔时间间隔对模拟计程仪声音波形取

5、振幅值称为采样。 该时间间隔称为抽样时间(其倒数称为采样频率)。 2003年9月,第二章声音信息处理引言,1.4,采样与量化,采样间距t,量化,2003年9月,第二章声音信息处理引言,1.5,2003年9月,第二章声音信息处理引言,1.6,采样定理,Why? 奈奎斯特采样理论:采样频率并非是声音信号的最大射频波数的两倍以下,而是能够将数字表示的声音恢复为原始声音。例如,电话声音的信号频率约为3.4 kHz,采样频率一般选择8 kHz,或者2003年9月、第二章声音信息处理引言、1.7、2003年9月、第二章声音信息处理引言、1.8、连续/离散周期/非周期、连续非周期、连续周期、离散周期、离散非

6、周期2003年9月第二章声音信息处理引言、1.9、采样和过说唱乐中常用的声音采样频率为8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz和48kHz。2003年9月,第二章声音信息处理引言、2.0、采样和过说唱乐,2003年9月,第二章声音信息处理引言、2.1、采样和过说唱乐,2003年9月,第二章声音信息处理引言、2.2、量化,2003年9月,第二章声音信息处理引言、2.3、定量第二章声音信息处理引言,2.4,量化噪声的特征,2003年9月,第二章声音信息处理引言,2.5,量化性能评价,2003年9月,第二章声音信息处理引言,2.6,量化性能评价,20

7、03年9月,第二章声音信息处理引言,2.7,分析和处理,声音信号的时间结构域分析,2003年第二章语音信息处理引言、2.8、时域分析、语音信号的时域分析是语音信号的时域残奥仪表的分析和提取。 贯穿声音信号解析的全过程的短时间解析技术的声音信号是时变的,但认为在短时间 10 30ms 中,其特性几乎不变或者具有相对的稳定性,对将声音信号的时域波形分割为段的每个段进行分析的时域残奥仪表, 短时间能量(测定声音信号振幅值的变化的函数)、短时间过零率(表示1信息帧的声音信号波形通过横轴(零电平)的次数)、短时间自相关函数和短时间平均振幅差函数等,2003年9月,第2章声音信息处理引言,2.9 )、特征

8、计算、短时间处理, 2003年9月第二章语音信息处理引言、3.0、特征计算、短时间处理加窗处理:假设语音特征在短时间内几乎没有变化,可以利用加窗处理将语音分割为短段。2003年9月,第二章语音信息处理引言、3.1、特征计算、短时处理,2003年9月,第二章语音信息处理引言、3.2、特征计算、短时处理,如何计算平均幅度? 以语音信号的采样频率为10KHz,矩形窗的窗口长度为100点,2003年9月,第二章语音信息处理引言、3.3、频率域分析、语音信号的频率域分析是分析语音信号的频率域特征。 广义地,音频信号的频率域分析包括音频信号的频谱、功率谱、倒频谱、谱包络分析等,但是常用的一些频率域分析方法

9、为带通滤波器面包车法、傅立叶变换法、线材预测法等。 浊音区间的功率的普遍密度的例子,清音区间的功率的密度的例子,高潮的拐点称为共鸣峰值,高潮的拐点称为共鸣峰值,2003年9月,第二章声音信息处理引言,3.4、频谱分析、 声音信号的频谱分析:将与时间序列相关联的傅立叶分析结果所表示的图形称为频谱图(sonography或Spectrogram ),是表示声音频谱的时间变化的三维图形。Spectrogram : time、frequency、amplitude、sonographic、2003年9月、第二章声音信息处理引言、3.5、倒谱分析、倒谱(Cepstrum )、 英语将Spectrum的前

10、四个字符倒频谱日式榻榻米语音的信号(乘积形式声源信号和通道脉冲信号的乘积)的频谱转换为加法形式,在加法形式中与离散傅里叶变换进行逆转换,其结果以复数形式被称为“复倒频谱”,实际上内部形式被称为“倒频谱” 三、语音信息在语音信息各领域的应用实例网络电话和语音(VoIP )的介绍,2003年9月,第二章语音信息处理引言,3.7,语音信息的应用,网络视频视频的配音,音乐。 动画图片解说、环境音乐视频电话、电视会议上的声音等。男同性恋中的音响效果网络电话(IP phone )声音欺诈系统现代“芝麻开门”系统电子书的声音输出声音控制命令:用声音控制Web,读取Web内容用电话控制网际网络上的实时声音,电

11、子邮箱,股票信息智能房间的声音, 2003年9月,通过电话听虚拟仿真的声音仿真,第二章声音信息处理引言,3.8,声音欺骗,复制敌人的声音成为作战技术。 截获敌人的无线电信号,改变内容,用敌人交换员的原音重新发送信号。 声音伪造装置将截获的信号分割成0.25秒的片段,将敌军交换员的声音分成数十个音素。 转换成参考数字大板块,保存在虚拟图书馆中。 情报技术者可以用自各儿的声音说话,不过,启动对方的敌人的电话交换员的音素升降丙二烯大板块而已。 语音欺骗系统需要高语音分析技术和语音合成技术。 声纹识别可以用于解决事件。 2003年9月,第二章语音信息处理引言,3.9,现代的“芝麻开门”系统,阿里巴巴利

12、用“芝麻开门”咒语,防止无关的人进入宝库,而现代的“芝麻开门”系统比童话更能防止伪造。 该进口渠道控制的自动化系统是语音、图片和动作的综合认知系统。 其信息录入部分由麦克风和半透明镜子后面安装的通用相机构成,训练时将人的声音和嘴唇的动作记忆到处理器中。2003年9月,第二章声音信息处理引言、4.0、CD听写(e-Book )数字图书馆、声音翻译、信息咨询服务系统数字声音情报系统”,是通过计算机和专用设备,与CD中存储的电子出版物进行网站数据库,用声音读出的装置。 读者可以通过简单的操作从目录中“听”书的任意页或其中的一部分。 这大大改变了现在盲文的书和录音带给盲人带来的不便。 一张光盘可以容纳

13、十几本书,相当于5.0时间的录音。 电子出版物的声音输出采用录音/播放方式和声音合成技术。 通过语音合成技术,也能够实现语音邮件、语音主页。 2003年9月,第二章语音信息处理引言、4.1、虚拟主持人英国报纸联合新闻社报道了世界第一家虚拟播音主持ananowa (an ANOVA.com)中国“混血儿”虚拟主持人大厦中国第一家虚拟主持人话语东上班,大厦-邓言东,2003年9月, 第二章语音信息处理引言,4.2,英吉利的计算机专门人才杰作,科学家把她的性格和外貌完美地结合了美安娜芳龄2.8岁,未婚,辣妹乐队的成员维多利亚,名模米诺和新闻消息福德曼五感特征,在服装时,有品位,有观众缘报道新闻消息时

14、,她冷静,声调快乐。 和蔼愉快的性格使她的表面显得安静而有智慧。 2003年9月,第二章语音信息处理引言,4.3,其实天线背后有一个非常高速的计算机系统,可以每天更新新闻消息信息,将文字信息快速转换为语音,从她的“口”读,配合面部表情。 计算机实时制作漫动画,配合新闻消息,利用最新的立体影像技术在网际网络播放。 据技术人员介绍,目前大多数人利用电话线接网际网络,影像效果不太理想,但随着宽带技术的迅速发展,这一限制很快就被突破,也可以期待通过大哥大和网络视频手表等数字媒体播放新闻消息。 (袁安) 2000年0.6月0.9日,2003年9月,第二章声音信息处理引言,4.4,电话电子邮箱,收听股票信

15、息,sinohsonic 3360,2003年9月,第二章声音信息处理引言,4.5,2003年9月,第二章声音信息处理引言,4.6,斯玛特房间声音,虚拟实境声音“虚拟实体”能够感知房间的各种状态(跟踪人物、识别身份识别并作出响应),并且“虚拟实体”能够与“人”交互。 关键技术:环境建模(现实世界虚拟化)人体跟踪与活动分析身份验证(面部检测与识别、说话人识别、语音定位)人机对话(语音识别、语音合成),四,语音处理工具,GoldWave Adobe公司的CoolEditor等工具,2003年9月,第二章语音GoldWave,2003年9月,第二章语音信息处理引言,4.9,CoolEditor Pr

16、o,语音编码的基础,本节介绍语音编码的概念和方法。 2.2.1音频编码概述2.2.2音频波形编码2.2.3音频残奥仪表编码2.2.4音频感知编码,2.2,2003年9月,第二章音频信息处理引言,5.1,一,概述,音频压缩编码的需要多媒体音频利用语音编码压缩数据。 2003年9月,第二章语音信息处理引言、5.2、一、概况(cont.)、数据压缩导致语音质量下降、计算量增加。 多领域的专门人才着力研究算法,很多企业着力研究芯片和产品,国际标准化组织也相继提出了一系列的建议。 高品质、高效的语音压缩技术广泛应用于多媒体应用、音像制品、数字广播、数字式电视等领域。 2003年9月,第二章声音信息处理引

17、言,5.3,一,概括(cont.),声音波形的特性,浊音区间的波形,清音区间的波形,清音区间的功率谱密度,2003年9月,第二章声音信息处理引言,5.4,一,概括(cont.),功率谱的概念,2003年9月第二章声音信息处理引言语音编码的分类、基于语音数据的统计特性进行编码的典型技术:波形编码: PCM (Pulse Code Modulation )、DPCM (differentialpulsecodemodulation )、apcm (adaptivepulsecodemodulation ) ADPCM (adaptivedifferentialpulsecodemodulation )的特征:适应性强,声音质量好,但压缩率不大, 基于具有高数据率的语音声学残奥仪表来实现编码目标:重构语音常用于维持原始语音特性的语音残奥仪表具有共振峰、线性预测系数、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论