




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第第5章章 多媒体通信系统中的关键技多媒体通信系统中的关键技术术多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 多媒体通信是信息时代通信的主题,随着多媒体通信是信息时代通信的主题,随着互联网业务的迅速发展,电信公司和电视互联网业务的迅速发展,电信公司和电视公司都在其运营的网络中开放互联网通信公司都在其运营的网络中开放互联网通信业务。多媒体技术的发展离不开相关技术业务。多媒体技术的发展离不开相关技术的支持,如媒体输入输出技术、超媒体技的支持,如媒体输入输出技术、超媒体技术、网络同步技术、数据存储技术等。下术、网络同步技术、数据存储技术等。下面将逐一介绍这些在
2、多媒体技术发展过程面将逐一介绍这些在多媒体技术发展过程中发挥着重大作用的关键技术。中发挥着重大作用的关键技术。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术5.1 多媒体信息输入输出技术多媒体信息输入输出技术 多媒体计算机所涉及的多媒体计算机所涉及的输入输出技术输入输出技术包括视频图包括视频图像技术、音频技术、语音技术、图形技术和文本像技术、音频技术、语音技术、图形技术和文本技术等。技术等。 多媒体系统通过一些具有多媒体系统通过一些具有特定功能的卡特定功能的卡来支持媒来支持媒体数据的输入输出。(如视频卡、声卡、体数据的输入输出。(如视频卡、声卡、VGA与与
3、TV转换卡、图形加速卡、光盘接口卡等)转换卡、图形加速卡、光盘接口卡等) 多媒体计算机多媒体计算机正是通过这些卡,完成与各种外部正是通过这些卡,完成与各种外部设备的连接,从而形成一个设备的连接,从而形成一个制作和播放制作和播放多媒体应多媒体应用的工作环境。用的工作环境。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术5.1.1 视频信息输入输出技术视频信息输入输出技术 视频卡是多媒体计算机用来完成视频信息视频卡是多媒体计算机用来完成视频信息输入输出功能的主要器件。输入输出功能的主要器件。 主要种类主要种类: 电视接收卡电视接收卡 视频转换视频转换/捕获卡捕获
4、卡 视频编码卡视频编码卡 MPEG卡卡实际应用中常把多种功能集成于一块卡中实际应用中常把多种功能集成于一块卡中多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术1. 视频卡的基本工作原理视频卡的基本工作原理选选择择视视频频源源ADCADCVRAMVRAM显示器显示器DACDACVGAVGA卡卡视频视频处理芯片处理芯片PC总线总线视频源视频源0 0视频源视频源1 1视频源视频源2 2录像机录像机影碟机影碟机摄像机摄像机I/O多制式多制式数字解码器数字解码器RGB用于视频信号用于视频信号捕获、播放和捕获、播放和显示的专用控显示的专用控制芯片制芯片可以完成输入信号的
5、裁剪、比例可以完成输入信号的裁剪、比例变化、变化、VGA同步、色键控制、同步、色键控制、PC总线接口和对帧存储器的操作总线接口和对帧存储器的操作视频随机视频随机访问存储器访问存储器数模转换数模转换多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术2. 常用视频卡常用视频卡 视频接收卡(电视接收卡)视频接收卡(电视接收卡) 一般与视频转换一般与视频转换/捕获卡组合在一起捕获卡组合在一起电视电视信号信号高频高频调谐器调谐器模拟模拟视频信号视频信号视频视频数字化数字化帧存储器帧存储器VGA卡卡数字数字视频信号视频信号显示器显示器模拟信号模拟信号VGA RGB数字信号
6、数字信号主要功能:主要功能:接收电视台发送的电视信号;将模拟电视信号数字化后叠加接收电视台发送的电视信号;将模拟电视信号数字化后叠加显示在显示在VGA中并完成最后的显示。中并完成最后的显示。接收电视台发接收电视台发送的电视信号送的电视信号多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 视频转换视频转换/捕获卡捕获卡 视频转换卡视频转换卡完成计算机视频信号和电视视频完成计算机视频信号和电视视频信号间的转换信号间的转换 完成由计算机的完成由计算机的VGA信号到各种标准制式的电视信号到各种标准制式的电视信号的转换并在电视机上播放或进行录像(信号的转换并在电视机上
7、播放或进行录像(PC-TV,VGA-TV) 完成将标准的各种制式电视信号转换成计算机屏完成将标准的各种制式电视信号转换成计算机屏幕上显示的幕上显示的VGA信号(信号(TV-VGA) 该类卡在电视上的显示质量不能与专业视频该类卡在电视上的显示质量不能与专业视频卡相比,且有些转换卡不能在卡相比,且有些转换卡不能在VGA和和TV上同时输上同时输出视频图像。出视频图像。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 视频转换视频转换/捕获卡捕获卡 视频捕获卡视频捕获卡主要功能是从视频图像信息中实主要功能是从视频图像信息中实时或非实时地捕获静态或短时间的动态视频时或
8、非实时地捕获静态或短时间的动态视频图像。图像。视频转换视频转换/捕获卡的基本原理捕获卡的基本原理:A/D转换转换解码解码YUV矩阵变换矩阵变换RGB帧存储器帧存储器VGA卡卡颜色查找表颜色查找表D/A转换器转换器显示器显示器VGA输入输入视频信号视频信号 输入输入多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 MPEG卡卡 压缩卡:对静止和动态图像按照相应的标准进行实时压缩卡:对静止和动态图像按照相应的标准进行实时和非实时的压缩和还原处理。和非实时的压缩和还原处理。 解压缩卡(影碟卡):把解压缩卡(影碟卡):把MPEG文件进行解压缩并恢文件进行解压缩并恢复
9、播放。它可以播放复播放。它可以播放MPEG-1标准压缩的数字影视片标准压缩的数字影视片(如(如VCD)。)。 视频卡发展方向视频卡发展方向 与影视技术的结合:可以在一块高档卡上集成视频输与影视技术的结合:可以在一块高档卡上集成视频输入输出、压缩和解压缩、特技效果及视频编辑功能。入输出、压缩和解压缩、特技效果及视频编辑功能。 与网络通信技术结合:完成多媒体视频会议、可视电与网络通信技术结合:完成多媒体视频会议、可视电话和多媒体通信功能话和多媒体通信功能多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术3. 摄像头摄像头 针对网络视频应用针对网络视频应用 模拟摄像
10、头模拟摄像头:获得的视频信号必须通过计算机的视频卡数获得的视频信号必须通过计算机的视频卡数字化并压缩才能送进计算机进行处理。字化并压缩才能送进计算机进行处理。 数字摄像头数字摄像头:直接捕捉视频图像,然后通过直接捕捉视频图像,然后通过USB或或IEEE1394高速接口输入计算机。高速接口输入计算机。 工作原理工作原理:外界景物通过镜头生成光学图像,再投射到图外界景物通过镜头生成光学图像,再投射到图像传感器表明转换为模拟信号,经像传感器表明转换为模拟信号,经A/D变换转为数字图像信变换转为数字图像信号,送到数字处理芯片号,送到数字处理芯片DSP进行加工,在通过与计算机的接进行加工,在通过与计算机
11、的接口传输到计算机中进行处理,最后通过显示器显示。口传输到计算机中进行处理,最后通过显示器显示。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 主要性能指标主要性能指标 摄像器件:摄像器件:CCD(成像质量高)(成像质量高),CMOS 像素分辨率:像素分辨率:30万、万、130万。万。 颜色深度:颜色深度:24真彩、真彩、30真彩。真彩。 视频捕获速度:帧率,影响流畅度视频捕获速度:帧率,影响流畅度 接口方式:接口方式:USB速度快,连接简单,即插拔速度快,连接简单,即插拔多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术
12、4. 投影仪投影仪 多媒体显示设备多媒体显示设备 分类分类 CRT:实现最早、应用最广、技术成熟、分辨率高实现最早、应用最广、技术成熟、分辨率高亮度较低、机身体积大、对焦汇聚调整复杂亮度较低、机身体积大、对焦汇聚调整复杂 LCD:体积小、重量轻、便携、亮度高、色彩丰富体积小、重量轻、便携、亮度高、色彩丰富 DLP:画面质量稳定、图像显示细腻画面质量稳定、图像显示细腻多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 技术指标技术指标亮度亮度分辨率分辨率灯泡寿命灯泡寿命多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术5.1.2
13、 音频信息输入输出技术音频信息输入输出技术 实现:音频卡(声卡),安装在实现:音频卡(声卡),安装在PC内部使内部使PC发发出各种声音的硬件板卡,是出各种声音的硬件板卡,是PC进行所有与声音进行所有与声音相关处理的硬件设备。相关处理的硬件设备。 音频卡工作原理音频卡工作原理混音器混音器总线接口芯片总线接口芯片A D数字音频数字音频处理芯片处理芯片音乐音乐合成器合成器话筒输入话筒输入线性输入线性输入扬声器输出扬声器输出线性输出线性输出MIDI接口接口CD接口接口计算机总线计算机总线为各个部分与总线间提供握为各个部分与总线间提供握手信号,缓冲(声卡与总线手信号,缓冲(声卡与总线间指令和数据的传送)
14、间指令和数据的传送)记记录录播播放放用软件控制音量用软件控制音量将数字音频的波形数据将数字音频的波形数据和和MIDI信息合成为声音信息合成为声音多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 音频卡的主要功能音频卡的主要功能 录制和播放声音文件录制和播放声音文件 对声音文件进行编辑和合成对声音文件进行编辑和合成 倒播、增加回音、淡入淡出、循环放音、交换声道等倒播、增加回音、淡入淡出、循环放音、交换声道等 对数字声音文件进行压缩和解压缩对数字声音文件进行压缩和解压缩 MIDI音乐录制和合成音乐录制和合成 利用计算机完成对外部电子乐器的操作和控制利用计算机完成
15、对外部电子乐器的操作和控制 文语转换和语音识别文语转换和语音识别 让计算机朗读文本和让计算机听懂声音信息让计算机朗读文本和让计算机听懂声音信息多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 声卡的主要作用声卡的主要作用是对声音信息进行录制和回是对声音信息进行录制和回放放 可支持的采样频率可支持的采样频率 8kHz,11.025kHz针对一般语音质量的要求针对一般语音质量的要求 16kHz,22.05kHz,32kHz针对普通音乐效果针对普通音乐效果 44.10kHz,48kHz针对高保真音乐效果针对高保真音乐效果多媒体通信技术:多媒体通信系统中的关键技术多
16、媒体通信技术:多媒体通信系统中的关键技术5.1.3 语音识别和语音合成技术语音识别和语音合成技术 语音识别技术语音识别技术 狭义语音识别:排除不同人的发音差异,提取代表语音狭义语音识别:排除不同人的发音差异,提取代表语音的共性特征。的共性特征。 说话人语音识别:寻求说话者的个性特征以辨别说话人说话人语音识别:寻求说话者的个性特征以辨别说话人的身份。的身份。 最早的语音识别系统出现在最早的语音识别系统出现在1955年(年(Bell)。随着)。随着识别技术的发展,一些研究机构相继推出语音识别识别技术的发展,一些研究机构相继推出语音识别系统:系统:IBM的的Via Vioce系统;剑桥大学的系统;剑
17、桥大学的HTK系统;系统;微软的微软的Whisper系统等。系统等。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 语音识别技术语音识别技术预处理预处理特征提取特征提取模式匹配模式匹配训练训练模式库模式库语音输入语音输入识别结果识别结果语音信息的采样、反混叠带语音信息的采样、反混叠带通滤波、去除个体发音差异通滤波、去除个体发音差异和去除设备环境引起的噪声和去除设备环境引起的噪声完成语音中反映本完成语音中反映本质特征的声学参数质特征的声学参数从原始语音样本从原始语音样本中去除冗余信息中去除冗余信息聚聚类类按照一定的规则按照一定的规则和专家知识计算和专家知识计
18、算输入特征与库存输入特征与库存模式之间的相似模式之间的相似程度,进而判断程度,进而判断输入的语意信息输入的语意信息多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 语音识别系统的分类语音识别系统的分类 按可识别词汇量的多少:按可识别词汇量的多少:100以下,以下,100-1000,1000以上以上 按语音的输入方式:孤立词、连接词、连续词按语音的输入方式:孤立词、连接词、连续词 按发音者类型:特定人、限定人、非特定人按发音者类型:特定人、限定人、非特定人 按发音者的声纹:根据语音识别说话人身份按发音者的声纹:根据语音识别说话人身份多媒体通信技术:多媒体通信系
19、统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音识别过程语音识别过程 基于模式匹配方法的语音识别基本过程分为两步:基于模式匹配方法的语音识别基本过程分为两步: 第一步,第一步,建立标准语音库建立标准语音库(标准语音模板),系统(标准语音模板),系统首先建立有若干训练语句的标准语音数据库供训练首先建立有若干训练语句的标准语音数据库供训练者使用,即训练;者使用,即训练; 第二步,将输入的语音信号经过处理后与标准语音第二步,将输入的语音信号经过处理后与标准语音模板相模板相匹配匹配,即识别,包括失真估计、识别决策和,即识别,包括失真估计、识别决策和专家知识运用;专家知识运用; 建立语音模板
20、的方法:根据语音识别系统的设计要建立语音模板的方法:根据语音识别系统的设计要求求选择一种识别方法选择一种识别方法;然后从输入的语音信号中提;然后从输入的语音信号中提取这种识别方法要求的取这种识别方法要求的语言特征参数语言特征参数;将这些;将这些特征特征参数存储参数存储起来形成语音模板。起来形成语音模板。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音识别过程语音识别过程 常用的模板匹配方法是常用的模板匹配方法是概率统计概率统计方法。方法。 它将未知语音的它将未知语音的特征参数与模板一一比较特征参数与模板一一比较,根据,根据失真测度最小的原则失真测度最小的
21、原则判断匹配结果。判断匹配结果。 当决策失败,可运用专家知识做出判决。整个训当决策失败,可运用专家知识做出判决。整个训练和识别过程如图练和识别过程如图语音信号输入语音信号输入预处理预处理特征分析特征分析与提取与提取模式匹配模式匹配识别决策识别决策识别输出识别输出标准模板标准模板专家知识专家知识多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音识别过程语音识别过程 语音识别由三个技术模块组成,即语音识别由三个技术模块组成,即特征提特征提取、模式匹配和标准模板库生成取、模式匹配和标准模板库生成。 这三大技术模块涉及的技术包括三个方面:这三大技术模块涉及的技术包
22、括三个方面: 1、语音识别单元的选择、语音识别单元的选择 2、特征数据类型的选择、特征数据类型的选择 3、模式匹配方法与模型训练技术、模式匹配方法与模型训练技术多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音识别技术的发展趋势语音识别技术的发展趋势 语音识别技术经过全球半个多世纪的研究,语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。在实目前已经发展到了接近实用的阶段。在实验室环境下,大词汇验室环境下,大词汇 量的朗读式连续说话量的朗读式连续说话的宽带语音信号的平均识别率可以达到的宽带语音信号的平均识别率可以达到 90%以上。以上。
23、 在这样的水平基础上,在这样的水平基础上, 语音识语音识别技别技 术开始尝试从实验室演示系统走向实术开始尝试从实验室演示系统走向实用化商品。但是语音识别技术要进入成熟用化商品。但是语音识别技术要进入成熟的商业运用还有一段艰难的的商业运用还有一段艰难的 路程,还必须路程,还必须在很多方面取得突破性进展。在很多方面取得突破性进展。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术突破性进展表现为:突破性进展表现为:1.提高可靠性提高可靠性2.增加词汇量增加词汇量3.应用拓展应用拓展4.降低成本减小体积降低成本减小体积多媒体通信技术:多媒体通信系统中的关键技术多媒体
24、通信技术:多媒体通信系统中的关键技术 目前,全球语音技术市场规模超过目前,全球语音技术市场规模超过30亿美元,近年来年亿美元,近年来年增长率保持在增长率保持在25%以上,未来语音识别市场被看好,其中电以上,未来语音识别市场被看好,其中电信行业(信行业(Vo IP等),移动应用领域(手机、学习机、平板等),移动应用领域(手机、学习机、平板电脑、车载系统等移动设备),都会呈现出爆发式增长。下电脑、车载系统等移动设备),都会呈现出爆发式增长。下面列举几个电信及移动应用领域成功的语音产品面列举几个电信及移动应用领域成功的语音产品/软件。软件。1、电信行业:电话银行系统、电信行业:电话银行系统2、移动应
25、用领域:、移动应用领域:Siri3、生活领域:手机、生活领域:手机“导游导游”多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 21 世纪是信息和网络的时代,世纪是信息和网络的时代,Internet、宽带、宽带 IP 网、公用电话网、移动电话网把全球各地连接起网、公用电话网、移动电话网把全球各地连接起来,巨来,巨 大的信息资源能够通过网络在短暂时间内迅大的信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与机器进行信息交速扩散到全球范围,几乎所有人与机器进行信息交互相关的需互相关的需 求和服务,例如自然口语对话、信息索求和服务,例如自然口语对话、
26、信息索取、电子商务、数字图书馆、远程教育、语音翻译取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在等,都可能会在 网络上实现。网络上实现。 语音识别技术研究和应用的重要发展趋势是,语音识别技术研究和应用的重要发展趋势是,让人在任何地方,任何时间,对任何事都能够让人在任何地方,任何时间,对任何事都能够 通过通过语音交互的方式,更加方便地享受到更多的社会信语音交互的方式,更加方便地享受到更多的社会信息资源和现代化服务。人类将越来越多地体验到语息资源和现代化服务。人类将越来越多地体验到语 音识别技术可能的便捷优点。音识别技术可能的便捷优点。多媒体通信技术:多媒体通信系统中的关键技术多媒体通
27、信技术:多媒体通信系统中的关键技术语音合成语音合成 什么是语音合成?什么是语音合成? 语音合成语音合成就是让计算机象人那样讲话。就是让计算机象人那样讲话。 人们用语言进行交流时,用声音来表达自己的意人们用语言进行交流时,用声音来表达自己的意向、情感。例如:向、情感。例如:如某人问你:你愿意和我一起去看电影吗?如某人问你:你愿意和我一起去看电影吗?你的回答可能是:你的回答可能是:“是的,我很高兴和你一起去看电影。是的,我很高兴和你一起去看电影。”(肯定,高兴)(肯定,高兴)“抱歉,我不能和你一起去看电影,因为我要去开会。抱歉,我不能和你一起去看电影,因为我要去开会。”(无可奈何)(无可奈何)“不
28、去,还是你自己去看吧。不去,还是你自己去看吧。”(否定)(否定) 这三句话表达了不同的意向和情感。这三句话表达了不同的意向和情感。计算机也应计算机也应该像人那样来回答该像人那样来回答。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 语音合成的研究目标是:语音合成的研究目标是: 可懂可懂 清晰清晰 自然自然 具有表现力具有表现力 研究意义研究意义 语音合成技术可以大大改善人机交互环境语音合成技术可以大大改善人机交互环境 计算机反馈信息的方式是屏幕显示。这种单调的信息输出计算机反馈信息的方式是屏幕显示。这种单调的信息输出方式给用户带来许多不便,特别是长时间地注
29、视显示屏使方式给用户带来许多不便,特别是长时间地注视显示屏使人疲劳,降低人获取信息和理解信息的能力。人疲劳,降低人获取信息和理解信息的能力。 网络环境的输出设备多种多样:这种枯燥单一的交互方式网络环境的输出设备多种多样:这种枯燥单一的交互方式影响了计算机的应用。影响了计算机的应用。 计算机语音输出能提供声文并茂的信息表示方式,可以改计算机语音输出能提供声文并茂的信息表示方式,可以改变人机交互变人机交互“默默无闻默默无闻”的状况,为计算机的普及应用创的状况,为计算机的普及应用创造更好的条件。造更好的条件。 将将“能看到能看到”、“看不到看不到”的信息变成的信息变成“可听可听”的的信息信息 将将“
30、非即时获得的信息非即时获得的信息”变成变成“即时可听即时可听”的信息的信息多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 语音合成是一门跨学科的前沿技术,涉及语音合成是一门跨学科的前沿技术,涉及到下列相关研究领域:到下列相关研究领域: 它将上述领域的研究成果结合在一起,使它将上述领域的研究成果结合在一起,使计算机具备说话的能力。计算机具备说话的能力。自然语言理自然语言理解解语言学语言学语音学语音学信号处理信号处理心理学心理学声声学学 多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音合成技术语音合成技术 实现的方式实现
31、的方式 录音录音/重放模式重放模式 利用数字信号处理技术,采用参数合成的方式来实现语利用数字信号处理技术,采用参数合成的方式来实现语音合成音合成 语音合成的三个层次语音合成的三个层次 从文本到语音从文本到语音 从概念到语音从概念到语音 从意向到语音从意向到语音多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 有限词汇的计算机语音输出有限词汇的计算机语音输出 语音报时、公共汽车报站、叫号系统语音报时、公共汽车报站、叫号系统 基于语音合成技术的文语转化(基于语音合成技术的文语转化(TTS) 除了完成文字到语音的映射外,还要完成对书面文除了完成文字到语音的映射外,
32、还要完成对书面文字的理解以及对语音韵律的处理字的理解以及对语音韵律的处理多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 文语转换技术文语转换技术 有声电子文档、信息电话查询系统、基于计算机的有声电子文档、信息电话查询系统、基于计算机的办公教学娱乐多媒体软件、嵌入式操作系统。办公教学娱乐多媒体软件、嵌入式操作系统。 包括文本分析、韵律生成、语音合成包括文本分析、韵律生成、语音合成 文本分析:使计算机认识文字、如何发音、用什么发音文本分析:使计算机认识文字、如何发音、用什么发音 韵律生成:生成发声文本的韵律特征(声调、停顿等)韵律生成:生成发声文本的韵律特征(
33、声调、停顿等) 语音合成:语音合成:多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 6.7 专用语音合成硬件专用语音合成硬件多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术一个合成系统一个合成系统多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音合成有着广阔的应用前景语音合成有着广阔的应用前景 它可应用于:它可应用于: 盲人计算机,电话信息查询,文本校对,专盲人计算机,电话信息查询,文本校对,专家系统的有声输出、火车站、飞机场的航班信息家系统的有声输出、火车站、飞机场的航班信息报告等
34、领域。报告等领域。 有限词汇语音合成的应用有限词汇语音合成的应用语音手表(闹钟)、玩具、教具语音手表(闹钟)、玩具、教具仪器仪器/电器(打印机、微波炉)电器(打印机、微波炉) 有声信息发布有声信息发布车站列车、机场航班信息发布车站列车、机场航班信息发布114的电话号码报出的电话号码报出办公系统中的有声信息办公系统中的有声信息多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 6.8语音合成的应用语音合成的应用 基于基于PCPC的办公、教学和娱乐等多媒体软件的办公、教学和娱乐等多媒体软件 声讯服务领域的智能电话查询,包括:股市查询、工商信声讯服务领域的智能电话查
35、询,包括:股市查询、工商信息电话查询、电话银行等。息电话查询、电话银行等。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音合成技术的应用语音合成技术的应用 工商信息电话查询系统本系统的功能是本系统的功能是让用户可以通过电话查询到某一企业在工商局的让用户可以通过电话查询到某一企业在工商局的注册信息。用户主要通过输入注册号、统一代码或者企业电注册信息。用户主要通过输入注册号、统一代码或者企业电话号码等来查询相应的企业信息话号码等来查询相应的企业信息。科大讯飞公司与。科大讯飞公司与IBMIBM公司合公司合作,采用电话语音识别技术来实现语音选择。用户只需口述作,
36、采用电话语音识别技术来实现语音选择。用户只需口述企业名称(包括带一定模糊概念的口述,如企业名称(包括带一定模糊概念的口述,如“科大讯飞科大讯飞”或或“讯飞讯飞”均可识别),即可直接得到该企业的一系列信息。均可识别),即可直接得到该企业的一系列信息。与过去的按键听取相比,不仅方便了用户,还从很大程度上与过去的按键听取相比,不仅方便了用户,还从很大程度上提高了查询效率,节约了用户的宝贵时间。另一方面,查询提高了查询效率,节约了用户的宝贵时间。另一方面,查询结果除了可以通过电话直接听取外,还可通过传真机接收到结果除了可以通过电话直接听取外,还可通过传真机接收到相关企业的详细信息(包括图像信息)。相关
37、企业的详细信息(包括图像信息)。 多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音合成技术的应用语音合成技术的应用 电话银行系统 电话银行是一种金融电话服务,客户只要拨通专线电话,即电话银行是一种金融电话服务,客户只要拨通专线电话,即可在语音提示下,享用查询、转账、挂失和更改密码等多项服务可在语音提示下,享用查询、转账、挂失和更改密码等多项服务。目前,大多数电话银行系统都存在两大不足之处:目前,大多数电话银行系统都存在两大不足之处:(1)(1)各种金额各种金额数目的报读不够流利、自然;数目的报读不够流利、自然;(2)(2)菜单选择通过按键完成,用户菜单选
38、择通过按键完成,用户不便记忆,听语音提示较费时。不便记忆,听语音提示较费时。 中科大讯飞公司开发的电话银行系统,通过采用与中国科大人机中科大讯飞公司开发的电话银行系统,通过采用与中国科大人机语音通信实验室合作研究的语音合成技术,有效地克服了上述第语音通信实验室合作研究的语音合成技术,有效地克服了上述第一个缺点,使金额数目的报读声音清晰、语流自然,避免了用户一个缺点,使金额数目的报读声音清晰、语流自然,避免了用户听错数目的可能,提高了用户的满意度。该公司正在与听错数目的可能,提高了用户的满意度。该公司正在与IBMIBM合作,合作,计划采用最新的电话语音识别技术来实现菜单的语音选择,使用计划采用最
39、新的电话语音识别技术来实现菜单的语音选择,使用户只要口述功能名(如户只要口述功能名(如“转账转账”、“查询余额查询余额”等),即可直接等),即可直接进入系统的服务流程,而不必层层听取语音提示再加按相应的键。进入系统的服务流程,而不必层层听取语音提示再加按相应的键。这将极大地方便用户的使用,提高用户操作的准确度,并节约用这将极大地方便用户的使用,提高用户操作的准确度,并节约用户宝贵的时间。户宝贵的时间。 多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音合成技术的应用语音合成技术的应用 股市查询系统 目前,股民了解股市行情,主要通过以下方式:目前,股民了解股
40、市行情,主要通过以下方式: 电台、电视等媒体电台、电视等媒体不够实时与方便;不够实时与方便; 股票机股票机 电脑等个人终端电脑等个人终端需要硬件投资且有地点限制;需要硬件投资且有地点限制; 股票交易所的大屏幕、查询终端股票交易所的大屏幕、查询终端要求用户亲临现场。要求用户亲临现场。 股市查询系统使用户只要通过普通双音频电话,即可随时得股市查询系统使用户只要通过普通双音频电话,即可随时得到最新的股市行情到最新的股市行情。用户拨通查询台,根据语音提示选择相。用户拨通查询台,根据语音提示选择相应的功能,即可获得所需的各种股市信息。同时应的功能,即可获得所需的各种股市信息。同时, ,如果采用电如果采用
41、电话语音识别技术来实现个股的语音选择,用户只要口述个股话语音识别技术来实现个股的语音选择,用户只要口述个股名称,即可直接得到该股票的最新行情,而不必通过按键输名称,即可直接得到该股票的最新行情,而不必通过按键输入代号,从而方便用户使用入代号,从而方便用户使用, ,并节约用户的时间。并节约用户的时间。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音合成技术的应用语音合成技术的应用 民航保单查询系统 语音合成技术可以起到很好的防伪效果。语音合成技术可以起到很好的防伪效果。例如当旅客拿到例如当旅客拿到一张民航保单时,如何确定它不是伪造的呢?他可以打电一张民航保
42、单时,如何确定它不是伪造的呢?他可以打电话到民航系统向服务小姐询问。语音合成技术完全可以取话到民航系统向服务小姐询问。语音合成技术完全可以取代服务小姐的工作,并提供更加快捷、准确的信息。旅客代服务小姐的工作,并提供更加快捷、准确的信息。旅客可以拨通某一个电话号码,在语音提示下,输入保险单号,可以拨通某一个电话号码,在语音提示下,输入保险单号,则他就能听到用语音合成技术合成的该保单对应的航班号、则他就能听到用语音合成技术合成的该保单对应的航班号、被保险人姓名、乘机日期等语音信息,以验证该民航保单被保险人姓名、乘机日期等语音信息,以验证该民航保单的真实性。根据电话号码的唯一性和语音合成技术的复杂的
43、真实性。根据电话号码的唯一性和语音合成技术的复杂性来确保民性来确保民 航保单查询的可靠性。航保单查询的可靠性。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术语音合成的未来发展方向语音合成的未来发展方向(1)提高合成语音的自然度(2)丰富合成语音的表现力(3)降低语音合成技术的复杂度(4)多语种文语合成多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术1. 扫描仪扫描仪 图形、图像等信息的主要输入设备图形、图像等信息的主要输入设备 分类分类 手动式、平板式、胶片式、滚筒式手动式、平板式、胶片式、滚筒式 SCSI接口、接口、E
44、PP增强型并行接口、通用串行总线增强型并行接口、通用串行总线USB接口接口 基本组件:基本组件: 光源、光学透镜光源、光学透镜 感光元件:感光元件:CCD 模拟数字转换电路模拟数字转换电路5.1.4 其他输入输出技术其他输入输出技术多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 技术指标技术指标扫描精度:光学分辨率,扫描精度:光学分辨率,300*600DPI色彩深度:色彩精度,色彩深度:色彩精度,24bit/pixel,300DPI扫描速度:将一页文稿扫入计算机并完成扫描速度:将一页文稿扫入计算机并完成相应处理总共需要的时间相应处理总共需要的时间多媒体通信
45、技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术2. 触摸屏触摸屏 采用坐标定位方式的输入设备采用坐标定位方式的输入设备 使人可以基于自然的方式与计算机进行交互使人可以基于自然的方式与计算机进行交互而无需键盘而无需键盘 系统组成系统组成 触摸检测装置:检测用户触摸位置触摸检测装置:检测用户触摸位置 触摸屏控制卡:接收检测装置传来的信息并转换触摸屏控制卡:接收检测装置传来的信息并转换成触点信息送给主机成触点信息送给主机 驱动程序驱动程序多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 分类分类红外线触摸屏红外线触摸屏电阻触摸屏电阻触摸
46、屏电容式触摸屏电容式触摸屏表明声波触摸屏表明声波触摸屏近场成像触摸屏近场成像触摸屏多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术5.1.5 多媒体存储技术多媒体存储技术多媒体存储技术主要是指光盘存储技术。大多媒体存储技术主要是指光盘存储技术。大容量的媒体容量的媒体CD-ROM技术标准于技术标准于1985年发布。年发布。 单机多媒体存储的最初形式是人们非常熟单机多媒体存储的最初形式是人们非常熟悉的悉的VCD VCD标准是图像数据压缩标准。采用标准是图像数据压缩标准。采用MPEG-1压缩技术,可以将压缩技术,可以将74分钟视频音频信息同时压分钟视频音频信息同时
47、压缩记录在轨道上。视频质量比家用录像带略高,缩记录在轨道上。视频质量比家用录像带略高,音质与音质与CD相当相当多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 DVD标准于标准于1995年出台,年出台, 专门用于存放以专门用于存放以MPEG-2方式压缩的视频和音方式压缩的视频和音频信息。其画质和音质均优于频信息。其画质和音质均优于VCD。 DVD光盘可以容纳光盘可以容纳133488分钟的影片内容,分钟的影片内容,可以保存可以保存4.710GB的多媒体数据。的多媒体数据。 随着多媒体数据内容的不断增加随着多媒体数据内容的不断增加,以单一,以单一盘片的形式存储数
48、据远不能满足用户的需求,盘片的形式存储数据远不能满足用户的需求,于是出现了光盘库、冗余磁盘阵列和多媒体于是出现了光盘库、冗余磁盘阵列和多媒体数据库的存储方式。数据库的存储方式。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术多媒体信息存储的特点多媒体信息存储的特点 多媒体信息存在和表现的形式多样多媒体信息存在和表现的形式多样 正文正文:包括文字和数据包括文字和数据 向量图形向量图形:图元组成的图形图元组成的图形 位图图象位图图象 数字化声音和高保真音响数字化声音和高保真音响 数字化视频数字化视频 多媒体信息量大多媒体信息量大多媒体通信技术:多媒体通信系统中的
49、关键技术多媒体通信技术:多媒体通信系统中的关键技术 为实现海量数据的存储,对不同的数据应为实现海量数据的存储,对不同的数据应采用不同的存储策略。采用不同的存储策略。 光盘库是一种带有自动换盘装置的光盘存光盘库是一种带有自动换盘装置的光盘存储共享设备。一般由光盘架、自动换盘装储共享设备。一般由光盘架、自动换盘装置、光盘驱动器组成。置、光盘驱动器组成。 一套光盘库可有一套光盘库可有1-121-12台驱动器,台驱动器,2-122-12个盘个盘仓,每个盘仓可容仓,每个盘仓可容50-60050-600片光盘,总容量片光盘,总容量可达几百可达几百GBGB甚至甚至TGBTGB。2. 光盘库光盘库多媒体通信技
50、术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 光盘库通过光盘库通过SCSISCSI接口与网络服务器连接,接口与网络服务器连接,通过自身接口与主机交换数据。通过自身接口与主机交换数据。 光盘库的访问过程:光盘库的访问过程:自动换盘器将驱动器中的光盘取出放至盘架自动换盘器将驱动器中的光盘取出放至盘架然后将需要的光盘送入驱动器(秒级速度)然后将需要的光盘送入驱动器(秒级速度)多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 DVDDVD光盘库主要特点光盘库主要特点高容量高容量检索速度快,支持跨盘存取检索速度快,支持跨盘存取高可靠性,寿命
51、高可靠性,寿命100100年年与各系统无缝连接与各系统无缝连接安装简便,易于管理安装简便,易于管理 应用应用将将DVDDVD光盘库作为在线存储设备直接进行存储光盘库作为在线存储设备直接进行存储将光盘库看作是数据归档的存储设备(数据迁移软件)将光盘库看作是数据归档的存储设备(数据迁移软件)多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术光盘库的应用光盘库的应用客户客户机机客户客户机机客户客户机机服务服务器器服务服务器器服务服务器器DVD光盘光盘库库主机存储主机存储系统系统多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 通过
52、单独的高速光纤网络将存储设备和局域通过单独的高速光纤网络将存储设备和局域网上的服务器群连接起来,数据的存取通过网上的服务器群连接起来,数据的存取通过存储区域网在服务器和海量存储设备间进行存储区域网在服务器和海量存储设备间进行高速传输。高速传输。 SANSAN以光纤通道为基础实现了存储设备的共享;以光纤通道为基础实现了存储设备的共享;服务器通过存储网络直接与存储设备交换数服务器通过存储网络直接与存储设备交换数据,释放了宝贵的局域网资源。据,释放了宝贵的局域网资源。3. 存储区域网络存储区域网络SAN多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 网络结构网络
53、结构:用户终端用户终端用户终端用户终端用户终端用户终端服务器服务器服务器服务器服务器服务器磁盘阵列磁盘阵列光盘库光盘库以太网以太网光纤通道网络光纤通道网络磁带库磁带库多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 实现大容量存储设备的共享和高速数据传输实现大容量存储设备的共享和高速数据传输 连接方便和远距离传输连接方便和远距离传输 实现主机与存储设备分离实现主机与存储设备分离 提供数据的安全性和可靠性提供数据的安全性和可靠性SAN的特点的特点多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术4. 多媒体数据库多媒体数据库M
54、MDB 由若干个多媒体对象所构成的集合,这些对象按某由若干个多媒体对象所构成的集合,这些对象按某种特定的方式组织起来并为其他的具体应用共享。种特定的方式组织起来并为其他的具体应用共享。 多媒体数据管理系统多媒体数据管理系统MMDBMS(Multimedia Database MMDBMS(Multimedia Database Management System)Management System)是以多媒体数据库是以多媒体数据库MMDBMMDB为基础为基础的且能完成对多媒体数据库的且能完成对多媒体数据库MMDBMMDB的各种操作和管理的各种操作和管理功能的多媒体应用系统。功能的多媒体应用系统
55、。 由于多媒体数据自身的特点,如由多种媒体构成且由于多媒体数据自身的特点,如由多种媒体构成且数据量巨大、媒体数据间的不同约束关系、实时性数据量巨大、媒体数据间的不同约束关系、实时性的要求等,使得多媒体数据库系统有别于传统的数的要求等,使得多媒体数据库系统有别于传统的数据库系统。据库系统。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 多媒体数据及其数据关系的复杂性,与传统多媒体数据及其数据关系的复杂性,与传统数据相比,多媒体数据对数据模型提出了更数据相比,多媒体数据对数据模型提出了更严格的要求。严格的要求。多媒体数据模型要能够有效抽象及表示多媒体多媒体数据
56、模型要能够有效抽象及表示多媒体数据库的静态和动态特征,模型的表示要比较简数据库的静态和动态特征,模型的表示要比较简洁灵活,要支持交互性,要能够反映多媒体数据洁灵活,要支持交互性,要能够反映多媒体数据库的一致性约束条件。库的一致性约束条件。层次数据库管理系统和网状数据库管理系统层次数据库管理系统和网状数据库管理系统的的共同缺点是不能支持数据的独立性。共同缺点是不能支持数据的独立性。不能不能用于多用于多媒体数据库。媒体数据库。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 关系模型是目前数据库系统关系模型是目前数据库系统中最常用的数据模型之中最常用的数据模型之
57、一。关系模型是建立在关系代数的基础之上的,有一。关系模型是建立在关系代数的基础之上的,有较为严密的理论基础,其数据结构简洁明了、直观较为严密的理论基础,其数据结构简洁明了、直观清晰、易学易用。目前大多数数据库管理系统产品清晰、易学易用。目前大多数数据库管理系统产品均支持关系模型均支持关系模型. 关系模型要想存储多媒体数据,就关系模型要想存储多媒体数据,就需要进行扩充。需要进行扩充。 非第一范式非第一范式NF2(Non First Normal Form)数据模型数据模型通过对关系模型的扩展来提高关系模型处理多媒体通过对关系模型的扩展来提高关系模型处理多媒体数据的能力。数据的能力。 随着近年来面
58、向对像技术的兴起,面向对像技术在随着近年来面向对像技术的兴起,面向对像技术在数据库中的应用也日益显现出其强大的生命力。这数据库中的应用也日益显现出其强大的生命力。这主要是由于面向对像模型能够很好的描述复杂的事主要是由于面向对像模型能够很好的描述复杂的事物对像,更好的维护复杂对像的语义信息。物对像,更好的维护复杂对像的语义信息。多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术多媒体数据库的体系结构多媒体数据库的体系结构 多媒体数据库管理系统多媒体数据库管理系统MMDBMS的体系结构分的体系结构分为三层,即数据库管理层、多媒体数据合成层和为三层,即数据库管理层、
59、多媒体数据合成层和交互层。如下图所示。交互层。如下图所示。用用 户户 界界 面面超文本导航超文本导航多媒体查询多媒体查询媒体编辑媒体编辑数据结构定义数据结构定义多媒体数据的各种归纳关系多媒体数据的各种归纳关系多媒体对象的合成信息多媒体对象的合成信息成分数据体得特征信息等成分数据体得特征信息等文本文本DBMS图像图像DBMS音频音频DBMS视频视频DBMS文本记录文本记录图像记录图像记录音频记录音频记录视频记录视频记录多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术5.2 超媒体技术超媒体技术超文本的概念超文本的概念 文本文本 逻辑单位:字、词、句子、段落、节
60、、章;逻辑单位:字、词、句子、段落、节、章; 物理单位:字节、行、页、册、卷;物理单位:字节、行、页、册、卷; 线性结构:组织上是线性的、顺序的线性结构:组织上是线性的、顺序的多媒体通信技术:多媒体通信系统中的关键技术多媒体通信技术:多媒体通信系统中的关键技术 人脑的记忆机制人脑的记忆机制 联想式的网状结构;联想式的网状结构; 对联想、记忆的探索形成了人类思维概念化的对联想、记忆的探索形成了人类思维概念化的基础;基础; 冬天结冰河鱼婚礼;冬天结冰河鱼婚礼; 文本无法管理这种互联的网状信息结构;文本无法管理这种互联的网状信息结构; 需要探索新的信息存储和检索机制;需要探索新的信息存储和检索机制;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子宠物智能定位器考核试卷
- 电感器在电力系统动态稳定性分析中的应用考核试卷
- 石材加工过程中的色彩管理考核试卷
- 肉类副产品加工新技术在提升食品安全水平中的应用考核试卷
- 电池制造与医疗救护设备考核试卷
- 粮食仓储管理考核试卷
- 现代农业园区建设与管理考核试卷
- 物联网城市安全与应急响应考核试卷
- 矿山机械信息化建设与数据管理考核试卷
- 新能源汽车动力电池级碳酸锂全球市场销售与推广合同
- 2024年中国人民币收藏品市场调查研究报告
- 小学家长会-做好孩子手机管理主题班会课件
- 2022年焊接技术赛项评分标准
- 03D201-4 10kV及以下变压器室布置及变配电所常用设备构件安装
- DL-T+1860-2018自动电压控制试验技术导则
- 单螺杆泵说明书
- JT-T-1213-2018陆港设施设备配置和运营技术规范
- 五年级劳动课件收纳
- 行政复议法-形考作业2-国开(ZJ)-参考资料
- 2023-2024学年人教版数学八年级下册期中复习卷
- (高清版)TDT 1044-2014 生产项目土地复垦验收规程
评论
0/150
提交评论