多媒体人机交互技术 (2).ppt_第1页
多媒体人机交互技术 (2).ppt_第2页
多媒体人机交互技术 (2).ppt_第3页
多媒体人机交互技术 (2).ppt_第4页
多媒体人机交互技术 (2).ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲人:杨帆,第十二章多媒体人机交互技术,第1页/共41页,第十二章多媒体人机交互技术,主讲人:杨帆,第十二章多媒体人机交互技术,第2页/共41页,本章导读,从多媒体技术的角度看,人机交互技术是在计算机具备处理声音、图像、视频等多种媒体信息能力的基础上发展起来的,是多媒体技术的不同应用。另一方面,人机交互技术的研究又促进了多媒体技术的快速发展,充分表现了多媒体技术的交互性。本章将从多媒体信息处理的角度,简单介绍目前已经广泛应用的几种典型的人机交互技术,如触摸技术、手写识别技术、语音识别与合成技术、虚拟现实技术等。同时,还将介绍基于多媒体技术的人机交互界面的发展方向。,主讲人:杨帆,第十二章多媒体人机交互技术,第3页/共41页,本章主要内容,12.1人机交互技术概述12.2触摸屏技术12.3OCR与手写识别技术12.4语音识别技术12.5语音合成技术12.6虚拟现实技术,主讲人:杨帆,第十二章多媒体人机交互技术,第4页/共41页,12.1人机交互技术概述12.1.1人机交互简介,人机交互(ComputerHumanInteraction,CHI)也称HCI(HumanComputerInteraction),是研究人、计算机及其相互影响的技术,其核心是人机界面,它是计算机与人之间通信和对话的接口,是计算机系统的重要组成部分。人机交互技术是指通过计算机系统的输入/输出设备,以有效的方式实现人与计算机系统之间信息交流的技术。目前,人们已经能够与计算机系统较为方便地进行交互,具体应用的交互技术有键盘交互、手写文字交互、语音交互、图像与视频交互、多语言交互、虚拟现实系统中的交互等。,主讲人:杨帆,第十二章多媒体人机交互技术,第5页/共41页,12.1.2多模态人机交互,1、模态是心理学领域中的一个标准术语,指感知信息的感觉,也就是感觉模态。2、多模态人机交互多模态(Multimodality)人机交互,就是基于智能接口技术,充分利用人的多种感知通道,以并行的、非精确的方式与计算机系统进行交互,旨在提高人机交互的自然性和高效性。,主讲人:杨帆,第十二章多媒体人机交互技术,第6页/共41页,3、多模态人机交互的研究内容,1)语音识别、2)理解及合成、3)手势识别技术、4)人脸的研究、5)唇读的研究、6)人体动作的研究。,主讲人:杨帆,第十二章多媒体人机交互技术,第7页/共41页,4、多模态人机交互的基本特点,1)使用多个感觉和动作模态;2)三维的和直接操纵的要求;3)允许模糊交互;4)交互双向性;5)交互的隐含性;,主讲人:杨帆,第十二章多媒体人机交互技术,第8页/共41页,12.1.3可视化,可视化是指充分利用人们对可视模式快速识别的自然能力,将数据信息和知识转化为一种视觉形成的过程。,主讲人:杨帆,第十二章多媒体人机交互技术,第9页/共41页,12.1.4新型人机界面的主要特征,1)人性化2)自然化3)智能化4)高带宽5)不限制地点6)图示编程,主讲人:杨帆,第十二章多媒体人机交互技术,第10页/共41页,12.2触摸屏技术12.2.1触摸屏简介,触摸屏是一种定位装置,安装在显示屏幕前面,它的功能是报告手指(或物体)触摸到屏幕的位置。用户可以直接用手指触摸屏幕以实现与计算机的交互。工作过程:手指或其他物体触摸触摸屏触摸屏控制器检测位置(以坐标形式)通过计算机接口送到CPU确定用户所输入的信息。触摸屏具有界面直观,操作简单,“伸手即得”的优点,大大改善了人与计算机的交互方式。,主讲人:杨帆,第十二章多媒体人机交互技术,第11页/共41页,触摸屏是一种定位装置,安装在显示屏幕前面,它的功能是报告手指(或物体)触摸到屏幕的位置;用户可以直接用手指触摸屏幕以实现与计算机的交互;工作过程:手指或其他物体触摸触摸屏,触摸屏控制器检测位置(以坐标形式),通过计算机接口送到CPU,以确定用户所输入的信息。触摸屏具有界面直观,操作简单,“伸手即得”的优点,大大改善了人与计算机的交互方式。,12.2触摸屏技术12.2.1触摸屏简介,主讲人:杨帆,第十二章多媒体人机交互技术,第12页/共41页,12.2.2触摸屏的主要类型,矢量压力传感技术触摸屏电阻技术触摸屏电容技术触摸屏红外线技术触摸屏表面声波技术触摸屏等五种类型。其中矢量压力传感技术触摸屏已经被淘汰。,依据所采用的技术原理,触摸屏可分为:,主讲人:杨帆,第十二章多媒体人机交互技术,第13页/共41页,1、电阻式触摸屏,如右图,当手指接触屏幕,两层OTI导电层出现一个接触点,因其中一面导电层接通Y轴方向的5V均匀电压场,使得侦测层的电压由零变为非零,控制器侦测到这个接通后,进行A/D转换,并将得到的电压值与5V相比,即可得触摸点的Y轴坐标,同理得出X轴的坐标。从而实现屏幕定位。,图12-2电阻式触摸屏,主讲人:杨帆,第十二章多媒体人机交互技术,第14页/共41页,2、电容式触摸屏,如右图,用户触摸屏幕时,由于人体电场,手指与导体层间会形成一个耦合电容,四边电极发出的电流会流向触点,而电流强弱与手指到电极的距离成正比,位于触摸屏幕后的控制器便会计算电流的比例及强弱,准确算出触摸点的位置。,图12-3电容式触摸屏,主讲人:杨帆,第十二章多媒体人机交互技术,第15页/共41页,3、红外线式触摸屏,红外线触摸屏由装在触摸屏外框上的红外线发射与接收感测元件构成,在屏幕表面上,形成红外线探测网,任何触摸物体可改变触点上的红外线而实现触摸屏操作。具体实现:在显示器上加上光点距离框,光点距离框的四边排列了红外线发射管及接收管,在屏幕表面形成一个红外线网(如图11-4所示)。,当手指触摸屏幕某一点时,便会挡住经过该位置的横竖两条红外线,计算机便可即时算出触摸点位置。,图12-4红外线触摸屏,主讲人:杨帆,第十二章多媒体人机交互技术,第16页/共41页,4、表面声波触摸屏,表面声波触摸屏由触摸屏、声波发生器、反射器和声波接收器组成,其中声波发生器能发送一种高频声波跨越屏幕表面,当手指触及屏幕时,触点上的声波即被阻止,由此确定坐标位置。,图12-5表面声波触摸屏,主讲人:杨帆,第十二章多媒体人机交互技术,第17页/共41页,12.2.3触摸屏的基本技术特性,触摸屏通常应具备以下三个基本技术特性:,1、透明性能2、绝对坐标系统3、检测与定位,主讲人:杨帆,第十二章多媒体人机交互技术,第18页/共41页,12.3OCR与手写识别技术,12.3.1OCR识别技术,OCR(OpticalCharacterRecognition,光学字符识别)技术,是通过扫描等光学输入方式将文字转化为图像信息,再利用文字识别技术将图像信息转化为可编辑的文本信息的计算机输入技术。广泛应用于大量文字资料、票据、档案卷宗、文案的录入和处理等领域。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据,通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。,主讲人:杨帆,第十二章多媒体人机交互技术,第19页/共41页,OCR的基本工作过程分为图文扫描、预处理、单字识别、后处理以及文档输出等五个环节,如图12-6所示。,图12-6OCR的基本工作原理示意,主讲人:杨帆,第十二章多媒体人机交互技术,第20页/共41页,12.3.2手写识别技术,手写识别通过提取手写内容的结构特征来分割和识别字符,从而达到手写输入的目的。,1、手写输入,手写输入是把要输入的字符写在一块叫书写板的数字化设备上,这种设备将笔尖走过的轨迹按时间采样后发送到计算机中,通过手写识别技术,将手写内容识别成相应的字符内容(如汉字、数字、字母等),从而达到手写输入的目的。,主讲人:杨帆,第十二章多媒体人机交互技术,第21页/共41页,2、手写识别,就汉字识别而言,其方法基本上分为统计识别、结构识别以及神经网络方法等几大类。大量的联机手写识别系统采用的都是结构识别方法。,结构识别方法:其出发点是汉字的组成结构,从汉字的构成上讲,汉字是由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定,以及基于符号运算的匹配算法,达到对复杂模式的识别。,主讲人:杨帆,第十二章多媒体人机交互技术,第22页/共41页,3、影响识别率的因素,目前影响识别率的因素主要有以下几个方面:,1)笔顺问题2)连笔问题3)相似字区分4)对抗干扰能力的要求,主讲人:杨帆,第十二章多媒体人机交互技术,第23页/共41页,12.4语音识别技术12.4.1语音识别技术简介,语音识别(ASR:AutomaticSpeechRecognition)技术,是指通过计算机的识别和理解过程,将语音信号转换为相应的文字信息,从而识别说话人的语音指令以及文字内容的技术。语音识别是一个多学科交叉的研究领域,涉及语言学、认知科学以及计算机科学等多个学科。语音识别技术与语音合成技术的结合,使人和计算机之间能够实现双向语言交流,摆脱键盘对人机交互方式的束缚。,主讲人:杨帆,第十二章多媒体人机交互技术,第24页/共41页,12.4.2语音识别的技术原理,语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。声学模型与模式匹配(识别算法):声学模型通常通过学习算法来获取语音特征。在识别时将输入的语音特征同声学模型进行匹配与比较,得到最佳的识别结果。语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。,计算机的语音识别过程与人对语音的识别处理过程基本上是一致的。目前主流的语音识别技术是建立在统计模式识别基本理论之上的,其语音识别系统可大致分为三部分:,主讲人:杨帆,第十二章多媒体人机交互技术,第25页/共41页,12.5语音合成技术12.5.1语音合成技术简介,语音合成(Speechsynthesis,或TextToSpeech)技术,是指将文本信息转变为语音数据,再以语音的方式播放出来的技术,通常被简称为TTS技术。一个典型的语音合成系统可分为文本分析、韵律建模和语音合成三大模块,主要功能是:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。,主讲人:杨帆,第十二章多媒体人机交互技术,第26页/共41页,12.5.2语音合成的技术方法,语音合成(让计算机说话)的基本思路有两种:一种是参数模拟合成,一种是波形拼接合成。参数模拟合成:是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器。波形拼接合成:是将要合成的语音信息分割成大量不同的语音信息元,并以数字形式存储,合成时根据具体内容和要求,选择适当的语音信息元进行拼接,从而形成所需的语音信息。,主讲人:杨帆,第十二章多媒体人机交互技术,第27页/共41页,12.5.3语音合成技术的应用与发展方向,语音合成技术可广泛应用于语音数据查询、语音提示、电话银行、语音信箱、语音邮件、语音新闻发布、语音广播等各类语音业务,提供更加人性化的人机交互方式。语音合成技术的发展方向:1)提高合成语音的自然度2)丰富合成语音的表现力3)降低语音合成技术的复杂度4)多语种文语合成,主讲人:杨帆,第十二章多媒体人机交互技术,第28页/共41页,12.6虚拟现实技术12.6.1虚拟现实技术简介,虚拟现实(VirtualReality)是利用计算机生成一种模拟环境,通过多种传感设备使用户“投入”到该环境中,实现用户与该环境直接进行自然交互的技术。虚拟现实技术的研究内容涉及到人工智能、计算机科学、电子学、传感器、计算机图形学、智能控制、心理学等。虚拟现实技术的特点在于,计算机产生一种人为虚拟的环境,这种虚拟的环境是通过计算机图形构成的三维空间,或是把其它现实环境编制到计算机中去产生逼真的“虚拟环境”,从而使得用户在视觉上产生一种沉浸于虚拟环境的感觉。,主讲人:杨帆,第十二章多媒体人机交互技术,第29页/共41页,12.6.2虚拟现实系统,1、虚拟现实系统的典型模型,如右图所示。使用者通过传感装置直接对虚拟环境进行操作,并得到实时三维显示和其它反馈信息(如触觉、力觉反馈等)。当系统与外部世界通过传感装,置构成反馈闭环时,在用户的控制下,用户与虚拟环境间的交互可以对外部世界产生作用(如遥操作等)。,图12-7虚拟现实系统的模型,主讲人:杨帆,第十二章多媒体人机交互技术,第30页/共41页,2、虚拟现实系统的构成,一般的虚拟现实系统主要由以下五个模块构成,如下图所示。,图12-8虚拟现实系统的构成,主讲人:杨帆,第十二章多媒体人机交互技术,第31页/共41页,检测模块:检测用户的操作命令,并通过传感器模块作用于虚拟环境。反馈模块:接受来自传感器模块信息,为用户提供实时反馈。传感器模块:一方面接受来自用户的操作命令,并将其作用于虚拟环境;另一方面将操作后产生的结果以各种反馈的形式提供给用户。控制模块:对传感器进行控制,使其对用户、虚拟环境和现实世界产生作用。建模模块:获取现实世界组成部分的三维表示,并由此构成对应的虚拟环境。,主讲人:杨帆,第十二章多媒体人机交互技术,第32页/共41页,12.6.3虚拟现实技术的特征,1)多感知性:除了一般计算机所具有的视觉感知外,还有听觉感知、力觉感知、触觉感知、运动感知、甚至包括味觉感知、嗅觉感知等。理想的虚拟现实就是应该具有人所具有的感知功能。2)存在感:指用户感到作为主角存在于模拟环境中的真实程度。理想的模拟环境应该达到使用户难以分辨真假的程度。3)交互性:指用户对模拟环境内物体的可操作程度和从环境得到反馈的自然程度(包括实时性)。4)自主性:指虚拟环境中物体依据物理定律动作的程度。,主讲人:杨帆,第十二章多媒体人机交互技术,第33页/共41页,12.6.4虚拟现实的关键技术,就现有的虚拟现实系统而言,其关键技术可以包括以下几个方面:,1、动态环境建模技术动态环境建模技术的目的是获取实际环境的三维数据,并根据应用的需要,利用获取的三维数据建立相应的虚拟环境模型。三维数据的获取可以采用CAD技术(有规则的环境),而更多的环境则需要采用非接触式的视觉建模技术,两者的有机结合可以有效地提高数据获取的效率。2、实时三维图形生成技术关键是“实时”生成。,主讲人:杨帆,第十二章多媒体人机交互技术,第34页/共41页,3、立体显示和传感器技术,4、应用系统开发工具5、系统集成技术,现有的虚拟现实外设还远远不能满足系统的需要,例如,数据手套(如下图所示)有延迟大、分辨率低、作用范围小、使用不便等缺点;有必要开发新的三维显示技术。,主讲人:杨帆,第十二章多媒体人机交互技术,第35页/共41页,12.6.5虚拟现实技术的应用领域,1、遥控机器人的遥现技术2、各类仿真技术1)飞行仿真系统2)与虚拟生物对话3)作战仿真系统3、对象可视化技术1)虚拟风洞2)虚拟物理实验室3)虚拟电力控制室,主讲人:杨帆,第十二章多媒体人机交互技术,第36页/共41页,本章小结,本章主要介绍了人机交互的基本概念、现有的人机交互技术以及新型人机界面的主要特征等内容,较为全面地概括了多媒体计算机系统或多媒体终端(PDA、多媒体手机等)的人机交互形式和途径。通过学习本章,应掌握人机交互的基本概念、人机交互的研究内容以及新型人机界面的主要特征等内容,并对目前的各种人机交互技术(触摸屏技术、OCR技术、手写识别技术、语音识别与合成技术、虚拟现实技术等)有所了解。主要包括以下内容:,主讲人:杨帆,第十二章多媒体人机交互技术,第37页/共41页,1)人机交互技术是指通过计算机系统的输入/输出设备,以有效的方式实现人与计算机系统之间信息交流的技术。它包括机器通过输出设备给人提供大量有关信息和操作导向,人通过输入设备向计算机输入操作信息等。从第一台计算机诞生到现在,人与计算机之间的交互方式经历了手工操作、字符用户界面(命令语言)、可视化的图形用户界面(GUI)3个阶段,人们操作使用计算机的直观性有了明显的改善。2)多模态(Multimodality)人机交互,就是基于智能接口技术,充分利用人的多种感知通道,以并行的、非精确的方式与计算机系统进行交互,旨在提高人机交互的自然性和高效性。,主讲人:杨帆,第十二章多媒体人机交互技术,第38页/共41页,3)计算机系统中的可视化主要包括操作过程可视化、科学计算可视化和信息可视化3个方面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论