已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章多媒体通信系统中的关键技术,5.1多媒体信息输入输出技术,多媒体计算机所涉及的输入输出技术包括视频图像技术、音频技术、语音技术、图形技术和文本技术等。多媒体系统通过一些具有特定功能的卡来支持媒体数据的输入输出。(如视频卡、声卡、vga与tv转换卡、图形加速卡、光盘接口卡等)多媒体计算机正是通过这些卡,完成与各种外部设备的连接,从而形成一个制作和播放多媒体应用的工作环境。,5.1.1视频信息输入输出技术,视频卡是多媒体计算机用来完成视频信息输入输出功能的主要器件。主要种类:电视接收卡视频转换/捕获卡视频编码卡mpeg卡实际应用中常把多种功能集成于一块卡中,1.视频卡的基本工作原理,选择视频源,adc,vram,显示器,dac,vga卡,视频处理芯片,pc总线,录像机,影碟机,摄像机,i/o,多制式数字解码器,rgb,用于视频信号捕获、播放和显示的专用控制芯片,可以完成输入信号的裁剪、比例变化、vga同步、色键控制、pc总线接口和对帧存储器的操作,视频随机访问存储器,数模转换,2.常用视频卡,视频接收卡(电视接收卡)一般与视频转换/捕获卡组合在一起,电视信号,高频调谐器,模拟视频信号,视频数字化,帧存储器,vga卡,数字视频信号,显示器模拟信号,vgargb数字信号,主要功能:接收电视台发送的电视信号;将模拟电视信号数字化后叠加显示在vga中并完成最后的显示。,接收电视台发送的电视信号,视频转换/捕获卡视频转换卡完成计算机视频信号和电视视频信号间的转换完成由计算机的vga信号到各种标准制式的电视信号的转换并在电视机上播放或进行录像(pc-tv,vga-tv)完成将标准的各种制式电视信号转换成计算机屏幕上显示的vga信号(tv-vga),该类卡在电视上的显示质量不能与专业视频卡相比,且有些转换卡不能在vga和tv上同时输出视频图像。,视频转换/捕获卡视频捕获卡主要功能是从视频图像信息中实时或非实时地捕获静态或短时间的动态视频图像。,视频转换/捕获卡的基本原理:,a/d转换,解码yuv,矩阵变换rgb,帧存储器,vga卡颜色查找表,d/a转换器,显示器,vga输入,视频信号输入,mpeg卡压缩卡:对静止和动态图像按照相应的标准进行实时和非实时的压缩和还原处理。解压缩卡(影碟卡):把mpeg文件进行解压缩并恢复播放。它可以播放mpeg-1标准压缩的数字影视片(如vcd)。视频卡发展方向与影视技术的结合:可以在一块高档卡上集成视频输入输出、压缩和解压缩、特技效果及视频编辑功能。与网络通信技术结合:完成多媒体视频会议、可视电话和多媒体通信功能,3.摄像头,针对网络视频应用模拟摄像头:获得的视频信号必须通过计算机的视频卡数字化并压缩才能送进计算机进行处理。数字摄像头:直接捕捉视频图像,然后通过usb或ieee1394高速接口输入计算机。工作原理:外界景物通过镜头生成光学图像,再投射到图像传感器表明转换为模拟信号,经a/d变换转为数字图像信号,送到数字处理芯片dsp进行加工,在通过与计算机的接口传输到计算机中进行处理,最后通过显示器显示。,主要性能指标摄像器件:ccd(成像质量高),cmos像素分辨率:30万、130万。颜色深度:24真彩、30真彩。视频捕获速度:帧率,影响流畅度接口方式:usb速度快,连接简单,即插拔,4.投影仪,多媒体显示设备分类crt:实现最早、应用最广、技术成熟、分辨率高亮度较低、机身体积大、对焦汇聚调整复杂lcd:体积小、重量轻、便携、亮度高、色彩丰富dlp:画面质量稳定、图像显示细腻,技术指标亮度分辨率灯泡寿命,5.1.2音频信息输入输出技术,实现:音频卡(声卡),安装在pc内部使pc发出各种声音的硬件板卡,是pc进行所有与声音相关处理的硬件设备。音频卡工作原理,混音器,总线接口芯片,ad,数字音频处理芯片,音乐合成器,话筒输入,线性输入,扬声器输出,线性输出,midi接口,cd接口,计算机总线,为各个部分与总线间提供握手信号,缓冲(声卡与总线间指令和数据的传送),记录播放,用软件控制音量,将数字音频的波形数据和midi信息合成为声音,音频卡的主要功能录制和播放声音文件对声音文件进行编辑和合成倒播、增加回音、淡入淡出、循环放音、交换声道等对数字声音文件进行压缩和解压缩midi音乐录制和合成利用计算机完成对外部电子乐器的操作和控制文语转换和语音识别让计算机朗读文本和让计算机听懂声音信息,声卡的主要作用是对声音信息进行录制和回放可支持的采样频率8khz,11.025khz针对一般语音质量的要求16khz,22.05khz,32khz针对普通音乐效果44.10khz,48khz针对高保真音乐效果,5.1.3语音识别和语音合成技术,语音识别技术狭义语音识别:排除不同人的发音差异,提取代表语音的共性特征。说话人语音识别:寻求说话者的个性特征以辨别说话人的身份。最早的语音识别系统出现在1955年(bell)。随着识别技术的发展,一些研究机构相继推出语音识别系统:ibm的viavioce系统;剑桥大学的htk系统;微软的whisper系统等。,语音识别技术,预处理,特征提取,模式匹配,训练,模式库,语音输入,识别结果,语音信息的采样、反混叠带通滤波、去除个体发音差异和去除设备环境引起的噪声,完成语音中反映本质特征的声学参数,从原始语音样本中去除冗余信息,聚类,按照一定的规则和专家知识计算输入特征与库存模式之间的相似程度,进而判断输入的语意信息,语音识别系统的分类按可识别词汇量的多少:100以下,100-1000,1000以上按语音的输入方式:孤立词、连接词、连续词按发音者类型:特定人、限定人、非特定人按发音者的声纹:根据语音识别说话人身份,语音合成技术,实现的方式录音/重放模式利用数字信号处理技术,采用参数合成的方式来实现语音合成语音合成的三个层次从文本到语音从概念到语音从意向到语音,有限词汇的计算机语音输出语音报时、公共汽车报站、叫号系统基于语音合成技术的文语转化(tts)除了完成文字到语音的映射外,还要完成对书面文字的理解以及对语音韵律的处理,文语转换技术有声电子文档、信息电话查询系统、基于计算机的办公教学娱乐多媒体软件、嵌入式操作系统。包括文本分析、韵律生成、语音合成文本分析:使计算机认识文字、如何发音、用什么发音韵律生成:生成发声文本的韵律特征(声调、停顿等)语音合成:,1.扫描仪,图形、图像等信息的主要输入设备分类手动式、平板式、胶片式、滚筒式scsi接口、epp增强型并行接口、通用串行总线usb接口基本组件:光源、光学透镜感光元件:ccd模拟数字转换电路,5.1.4其他输入输出技术,技术指标扫描精度:光学分辨率,300*600dpi色彩深度:色彩精度,24bit/pixel,300dpi扫描速度:将一页文稿扫入计算机并完成相应处理总共需要的时间,2.触摸屏,采用坐标定位方式的输入设备使人可以基于自然的方式与计算机进行交互而无需键盘系统组成触摸检测装置:检测用户触摸位置触摸屏控制卡:接收检测装置传来的信息并转换成触点信息送给主机驱动程序,分类红外线触摸屏电阻触摸屏电容式触摸屏表明声波触摸屏近场成像触摸屏,5.1.5多媒体存储技术,多媒体存储技术主要是指光盘存储技术。大容量的媒体cd-rom技术标准于1985年发布。单机多媒体存储的最初形式是人们非常熟悉的vcdvcd标准是图像数据压缩标准。采用mpeg-1压缩技术,可以将74分钟视频音频信息同时压缩记录在轨道上。视频质量比家用录像带略高,音质与cd相当,dvd标准于1995年出台,专门用于存放以mpeg-2方式压缩的视频和音频信息。其画质和音质均优于vcd。dvd光盘可以容纳133488分钟的影片内容,可以保存4.710gb的多媒体数据。随着多媒体数据内容的不断增加,以单一盘片的形式存储数据远不能满足用户的需求,于是出现了光盘库、冗余磁盘阵列和多媒体数据库的存储方式。,多媒体信息存储的特点,多媒体信息存在和表现的形式多样正文:包括文字和数据向量图形:图元组成的图形位图图象数字化声音和高保真音响数字化视频多媒体信息量大,为实现海量数据的存储,对不同的数据应采用不同的存储策略。光盘库是一种带有自动换盘装置的光盘存储共享设备。一般由光盘架、自动换盘装置、光盘驱动器组成。一套光盘库可有1-12台驱动器,2-12个盘仓,每个盘仓可容50-600片光盘,总容量可达几百gb甚至tgb。,2.光盘库,光盘库通过scsi接口与网络服务器连接,通过自身接口与主机交换数据。光盘库的访问过程:自动换盘器将驱动器中的光盘取出放至盘架然后将需要的光盘送入驱动器(秒级速度),dvd光盘库主要特点高容量检索速度快,支持跨盘存取高可靠性,寿命100年与各系统无缝连接安装简便,易于管理应用将dvd光盘库作为在线存储设备直接进行存储将光盘库看作是数据归档的存储设备(数据迁移软件),光盘库的应用,通过单独的高速光纤网络将存储设备和局域网上的服务器群连接起来,数据的存取通过存储区域网在服务器和海量存储设备间进行高速传输。san以光纤通道为基础实现了存储设备的共享;服务器通过存储网络直接与存储设备交换数据,释放了宝贵的局域网资源。,3.存储区域网络san,网络结构:,实现大容量存储设备的共享和高速数据传输连接方便和远距离传输实现主机与存储设备分离提供数据的安全性和可靠性,san的特点,4.多媒体数据库mmdb,由若干个多媒体对象所构成的集合,这些对象按某种特定的方式组织起来并为其他的具体应用共享。多媒体数据管理系统mmdbms(multimediadatabasemanagementsystem)是以多媒体数据库mmdb为基础的且能完成对多媒体数据库mmdb的各种操作和管理功能的多媒体应用系统。由于多媒体数据自身的特点,如由多种媒体构成且数据量巨大、媒体数据间的不同约束关系、实时性的要求等,使得多媒体数据库系统有别于传统的数据库系统。,多媒体数据及其数据关系的复杂性,与传统数据相比,多媒体数据对数据模型提出了更严格的要求。多媒体数据模型要能够有效抽象及表示多媒体数据库的静态和动态特征,模型的表示要比较简洁灵活,要支持交互性,要能够反映多媒体数据库的一致性约束条件。层次数据库管理系统和网状数据库管理系统的共同缺点是不能支持数据的独立性。不能用于多媒体数据库。,关系模型是目前数据库系统中最常用的数据模型之一。关系模型是建立在关系代数的基础之上的,有较为严密的理论基础,其数据结构简洁明了、直观清晰、易学易用。目前大多数数据库管理系统产品均支持关系模型.关系模型要想存储多媒体数据,就需要进行扩充。非第一范式nf2(nonfirstnormalform)数据模型通过对关系模型的扩展来提高关系模型处理多媒体数据的能力。随着近年来面向对像技术的兴起,面向对像技术在数据库中的应用也日益显现出其强大的生命力。这主要是由于面向对像模型能够很好的描述复杂的事物对像,更好的维护复杂对像的语义信息。,多媒体数据库的体系结构,多媒体数据库管理系统mmdbms的体系结构分为三层,即数据库管理层、多媒体数据合成层和交互层。如下图所示。,用户界面,超文本导航,多媒体查询,媒体编辑,数据结构定义,多媒体数据的各种归纳关系多媒体对象的合成信息成分数据体得特征信息等,文本dbms,图像dbms,音频dbms,视频dbms,文本记录,图像记录,音频记录,视频记录,5.2超媒体技术,超文本的概念,文本逻辑单位:字、词、句子、段落、节、章;物理单位:字节、行、页、册、卷;线性结构:组织上是线性的、顺序的,人脑的记忆机制联想式的网状结构;对联想、记忆的探索形成了人类思维概念化的基础;冬天结冰河鱼婚礼;文本无法管理这种互联的网状信息结构;需要探索新的信息存储和检索机制;,超文本的概念,超文本(hypertext)超越普通的文本;采用非线性网状结构组织信息块;按照文本内部固有的独立性和相关性划分成不同的信息块,即结点(node,节点);结点之间的自然关联,用链连接成网;链的起始结点称为锚结点(anchornode);终止结点称为目的结点。类似人类联想记忆结构,超文本的概念,超文本结构示例,超文本的概念,超文本的定义:由信息结点和表示信息结点间相关性的链构成的一个具有一定逻辑结构和语音的网络;信息结点管理的基本单位;信息块(字符文本集合),一定大小的显示区域;大小由实际情况决定;,超文本的概念,超文本系统对超文本进行管理和使用的系统;有以下特点:用户界面包括展示结点和链的形式;给出网络结构的动态总貌图;一般使用双向链支持跨越各种网络;用户可以动态的改变网络中的结点和链;尽可能通用,更多地强调其用户界面的“视觉和感觉”,超文本系统,超文本的发展历史,概念产生时期(19451965)20世纪30年代v.bush提出memex存储器扩展设想,预言了文本的一种非线性结构;1939发表“aswemaythink”;1965年telnelson创造“hypertext”一词,命名非线性网络文本为超文本,并开始计算机实现;,概念系统的研究时期(19671985)1967年,布朗大学andyvandam等研制第一个可运行超文本系统thehypertexteditingsystem;1968年,dougengelbart在fjcc上演示nls联机系统;1968年,布朗大学推出fress(文件检索与编辑系统);1975年,cmu推出zog(现为kms,知识管理系统);1978年,mit建筑机械组推出第一个超媒体视频盘片系统aspenmoviemap;,超文本的发展历史,成熟与发展时期(1985)1985年,janetwalker研制的symbolicsdocumentexaminer;1985年,布朗大学推出intermedia系统(macintosh);1986年,owl引入guide,这,第一个广泛应用的超文本;1987年,xerox公司推出notecards,苹果公司billatkinson研制hypercard;1991年,美国asymetrix公司推出toolbook系统;1990年,位于日内瓦的欧洲量子物理实验室cern开发的运行于internet的www系统,对人类社会产生深远影响;,超文本的发展历史,超文本的理论研究1987年,acm超文本专题讨论会(hypertext87)在北卡罗来纳大学召开;1989年,第一次超文本公开会议在英国召开;1990年,第一届欧洲超文本会议(ecoh)在法国inria召开;iso等国际组织制定了超文本方面的标准,推动其商品化发展。,超文本的发展历史,超文本的主要成份,结点大小可变;内容:文本、图形、图像、音频、视频、程序表示方法各异;基本类型:媒体类结点(各种媒体结点)动作与操作结点(按钮结点,如传真、后退等按钮)组织结点(索引结点、目录结点)推理结点(对象结点和规则结点)用于辅助链的推理和计算,链形式:从一个结点指向另一个结点的指针;本质:表示不同结点上存在着的信息的联系;作用:定义超文本结构并提供浏览探索结点的能力;链可嵌入结点中,也可单独存储;分类:基本结构链实链基本、交叉索引、结点内注释、缩放、全景、视图组织链、推理链索引、is-a、has-a、执行自动链接链和类型链,超文本的主要成份,分类:基本结构链实链基本链:建立节点间基本顺序使信息在总体上呈现层次结构交叉索引链:将节点连接成交叉的网状结构,转移、返回等节点内容注释链:指向节点内部附加注释信息组织链、推理链用于节点的组织、迁移自动链接链和类型链自动链接可以完成对超媒体基于内容的检索,超文本的主要成份,超文本的主要成份,热标确定信息关联的链源,引起相关内容的转移热字:斜体或带下划,须事先定义热区:特殊敏感区域热元:将独立的图形单位作为信息转移的链源热点:时基类媒体在时间轴上的触发转移热属性:将关系数据库中的属性作为热源,宏结点链接在一起的结点群,就是超文本网络的一部分子网;可用于分层简化网络拓扑结构,但增加了管理和检索的层次;宏文本(macr
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入党积极分子发展对象考试考前冲刺测试卷讲解附参考答案详解【夺分金卷】
- 云南省2015年“三支一扶”招募考试试题及参考答案
- 公司安全生产专项整治三年行动计划方案
- 入党积极分子发展对象考试真题汇编及完整答案详解【名校卷】
- 2025年下半年湖南湘西州古丈县事业单位带编入伍招聘工作人员3人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年湖南株洲高新区(天元区)招聘事业单位编制10人(第三批)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年湖南新晃县事业单位招考拟聘人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年湖南怀化新晃侗族自治县事业单位招考(111人)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年湖南张家界市永定区事业单位招聘工作人员104人重点基础提升(共500题)附带答案详解
- 2025年下半年湖北黄石阳新县事业单位招聘91人重点基础提升(共500题)附带答案详解
- 短视频在教育中的创新应用及发展前景
- 2025年个人参加巡察工作总结心得(二篇)
- 基于物联网的智能设备销售合同
- 【MOOC】《研究生英语科技论文写作》(北京科技大学)中国大学MOOC慕课答案
- 《施奈德PLC培训》课件
- 2024年3月天津第一次高考英语试卷真题答案解析(精校打印)
- 初中九年级英语上学期期中考前测试卷(人教版)含答案解析
- 2024-2030年全球及中国汽车伺服电机行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 乌有先生历险记原文+注释+译文教师版
- 文明礼仪伴我行班会省公开课一等奖新名师比赛一等奖课件
- 2024农业种植项目合作协议书范本
评论
0/150
提交评论