已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)多通道交互及其信息融合技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 计算技术的发展和计算模式的变迁深刻的影响了人类社会的发展,在网络和 便携设备盛行的今天和将来,桌面计算模式已经不再能够适应计算机的发展所导 致的人机关系的变化和用户使用计算机方法的变化。普适计算就是在这种背景下 被提出来的。这种全新的计算模式强调把计算机嵌入到人们日常生活和工作环境 中,形成一个“无时不在、无处不在而又不可见”的计算环境。 在这样的计算环境中,用户可以通过手持设备、可穿戴设备或者其他常规、 非常规的计算设备无障碍的使用计算服务和信息资源。从桌面计算模式到普适计 算模式的变迁可以看出,自然和谐的人机交互是实现普适计算的一项重要指标。 而本文正是从人机交互的角度进行分析和研究。本文主要分析和研究了一种全新 的人机交互模式多通道交互( m u l f i m o d a li n t e r a c t i o n ,) 的概念、框架、 关键技术和它在普适计算中的作用问题。 本文从结构上可以分为课题研究思路的提出、多通道交互概念和框架的研 究、多通道输入信息的融合策略的研究和多通道信息融合模板的研究四个部分。 主要工作包括: ( 1 ) 对多通道交互技术的发展和它在普适计算中的作用进行了分析,由于 多通道的交互是建立在单通道交互技术的基础上,所以对一些成熟的单通道交互 技术也做了介绍。并分析了上下文可察觉计算在普适计算环境下的多通道交互技 术中的作用。 ( 2 ) 从多通道交互的协议标准和上下文可察觉计算对系统要求的分析入手, 构建了上下文可察觉的交互管理构件和系统环境构件的模型。 ( 3 ) 多遁道输入信息的融合研究是实现多通道交互的关键技术。本文对信 息的融合策略从任务结构描述、算法分析以及容错性能等方面傲了研究。 ( 4 ) 同时,本文也提出了个可移植通用融合功能模板的思想。通过对多 通道系统语义的通用描述模型的研究,面向开发人员提供可重用多通道融合模板 的支持,这本身就是应用软件系统所追求的目标之一,在多通道技术中实现这个 思想有着更大的意义。 ( s ) 最后,本文总结了多通道人机技术的研究方向,并对其研究前景进行 了展望。 关键词:普适计算,上下文可察觉。多通道人机交互,信息融合 武汉理工大学硕士学位论文 a b s t r a c t t h ed e v e l o p m e n to ft h ec o m p u t e rs c i e n c ea n dt h et r a n s f o r m a t i o ft h e c o m p u t i n gp a t t e r nh a v ei n f l u e n c e do u rs o c i e t y sd e v e l o p m e n td e e p l y i nt o d a ya n dt h e f u t u r e ,t h en e t w o r ka n dm o b i l ee q u i p m e n ta r cs op o p u l a rt h a tt h e yc a nn o tb ea d a p t e d b yt h ed e s k t o pc o m p u t i n ga n ym o r e 1 1 他u b i q u i t o u sc o m p u t i n g , t o t a l l yan e w c o m p u t i n gp a t t e r n , w h i c he m p h a s i z e se m b e d d i n gc o m p u t e r s i n t op e o p l e sd a i l yl i f e a n dw o r k i n ge n v i r o n m e n t i sj u s tb r o u g h to u ti nt h i ss i t u a t i o n w h a tw en e e di sa d i s a p p e a r i n gc o m p u t i n ge n v i r o n m e n tw i t h o u t t h el i m i t a t i o no f t i m eo rl o c a t i o n i nt h i se n v i r o n m e n t , i k q c r sc 啦e m p l o yt h es 口v i c e sa n dr e s o u r e ef r e e l y , t h r o u g h t h eh a n d s e t , t h ew e a r a b l e s e t , a n do t h e rc o m p u t i n ge q u i p m e n t s 1 1 地i n n o v a t i o nf r o m t h ed e s k t o pc o m p u t i n gt ot h eu b i q u i t o u sc o m p u t i n gt e l l su st h a tt h eh a r m o n i o u sa n d n a t u r a lh u m a n - c o m p u t e ri n t e r a c t i o ni s 孤i m p o r t a n ts i g no fu b i q u i t o u sc o m p u t i n g t h i st h e s i s m a i n l ya n a l y s e s au e wh u m a n - c o m p u t e ri n t e r a c t i o n :m u l t i r a o d a l i n t e r a c t i o n ( m m if o rs h o r t ) ,a n ds t u d i e st h ec o n c e p t ,t h ef x a m w o r k ,k e yt e c h n i q u e so f t h em m ia n dt h es t a t u so f t h em m li nt h eu b i q u i t o u sc o m p u t i n g t h e r ea r ef o u rm a i np a r t si nt h i st h e s i s :p u t t i n gf o r w a r dt h et h e s i s ,e x p o u n d i n g t h ec o n c e p to ft h em u l t i m o d a li n t e r a c t i o na n di t sf r u n w o r k ,s t u d y i n gt h ei n f o r m a t i o n i n t e g r a t i o nt e c h n i q u ea n dd e v e l o p i n gt h em e t h o do ft h em u i t i m o d a li n f o r m a t i o n i n t e r g r a t i o n n 壕m a i nw o r kh a sb e e nl i s t e d 器f o l l o w s : ( 1 ) a n a l y s e st h ed e v e l o p m e n to fm u i t i m o d a li n t e r a c t i o nt e c h n i q u ea n di t s a p p l i c a t i o ni nu b i q u i t o u sc o m p u t i n g , a n di ti sb a s e do nt h es i n g l e - c h a n n e li n t e r a c t i o n t e c h n i q u e 砸st h e s i si n t r o d u c e ss o m ep o p u l a rs i n g l e - c h a n n e li n t e r a c t i o nt e c h n i q u e s , a n d a n a l y s e st h ef u n c t i o n so f t h ec o n t e x ta w a r ei nu b i q u i t o u sc o m p u t i n g , w h i c ha 托 t h ep r e c o n d i t i o no f t h es t u d yo f m u l t i m o d a li n t e r a c t i o nh e r e ( 2 ) a n a l y s e st h ep r o t o c o l o ft h em u i f i m o d a li n t e r a c t i o na n dt h e s y s t e m r e q u i r e m e n to ft h ec o n t e x ta w a r ec o m p u t i n g , t h e nt h ec o n t e x ta w a r e dm o d e lo ft h e i n t e r a c t i o nm a n a g e m e n tc o m p o n e n ta n dt h es y s t e me n v i r o n m e n tc o m p o n e n ta r e d e s i g n e d ( 3 ) i n f o r m a t i o ni n t e g r a t i o ni sak e yt e c h n i q u et oa c l l i e v et h em u l t i m o d a l i n t e r a c t i o n s o ,t h es t r a t e g yo ft h ei n f o r m a t i o ni n t e g r a t i o ni sak e y s t o n ei nt h i st h e s i s t h es t r u c t u r ed e s c r i p t i o no ft h et a s k ,a l g o r i t h m s ,t h es y s t e m se r r o ra d m i t i o n ,a n d t i 武汉理工大学硕士学位论文 o t h e rc o n t e n t sa r es t u d i e df o rt h i sp r o b l e m ( 4 ) o f f e rac u r r e n tt e m p l e t o ft h em u l t i m o d a li n f o r m a t i o ni n t e g r a t i o n , t h e c o m m o l ls e m a n t i cd e s c r i b i n gm o d a li sa ne s s e n t i a lf a c t o r i ti sa ni d e ao ft h et h e s i s a n da l s ot h eg o a lo fa p p l i c a t i o ns o f t w a r es y s t e m i nt h em u l t i m o d a li n t e r a c t i o n t e c h n e q u e ,i th a sm o r ei m p o r t a n tm e a n i n g ( 5 ) i nt h el a s tp a r to ft h i st h e s i s ,t h er e s e a r c hd i r e c t i o na n df o r e g r o u n do ft h e m u i t i m o d a li n t e r a c t i o n 把曲m q l 地a r el i s t e d k e yw o r d s :u b i q u i t o u sc o m p u t i n g , c o n t e x ta w a r e c o m p u t i n g , m u l t i m o d a l h u m a n - c o m p u t e ri n t e r a c t i o n , i n f o r m a t i o ni n t e g r a t i o n i l l 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究背景 1 1 1 普适计算及其研究背景 普适计算是指无所不在的、随时随地都可以进行计算的一种方式。用户在这 种计算环境中,无论何时何地。只要需要,就可以通过某种设备访问到所需要的 信息。 当今时代,计算机己经进入人类生活的各个领域。计算机在人们的日常生活 中的实际地位,早己不再是一种供人类使用的简单工具。随着计算机相关技术、 通信技术的发展和各种新型传感器、计算机联网设各的出现,人们更加深刻地体 会到了计算的无处不在。 上世纪9 0 年代初,美国w e i s e r 博士提出“普适计算”这一新概念,开始了 人类向未来计算机时代探索的进程“,。在酱适计算时代,将有大量具有计算和联 网能力的计算设备会为我们提供服务,各种各样的计算设备被嵌入在墙壁、椅子、 衣服、电灯开关、汽车等一切东西中。一切有计算能力的设备也会得到充分的利 用,使得今天昂贵的“瘦客户机”同时成为“瘦服务器”。 普适计算的一个重要标志就是自然高效的人机交互方式。近几十年以来,随 着计算机的高速发展,人机交互方式也发生了重大的改变,可以说整个计算机的 发展史就是人机界面的发展史。从最初的以面板开关和纸带输入为特点的交互设 备到今天的图形用户界面,人机界面已经发生了翻天覆地的变化。 1 1 2 多通道人机交互技术背景 入机交互技术是研究人在利用计算机完成某个任务时,与计算机之间相互交 流信息的方式和方法的问题。人与计算机之间可以抽象出一个对话接口的层面, 称之为交互界面( i n t e r a c t i o ni n t e r f a c e ) 。它是计算机系统的重要组成部分, 用户与计算机通过它进行信息交互。 随着计算机的普及化,越来越多的普通用户开始接触使用计算机,另一方面 计算机软硬件的发展也促使它成为了人们工作、学习和生活的重要工具。正是在 这个过程当中,人机交互的地位越来越重要,这是与人们对它的认识分不开的。 武汉理工大学硕士学位论文 人机界面的重要性就在于它是用户与计算机之间的接口,极大的影响着终端用户 的使用。现今,衡量一个应用软件的成功与否,用户乔面是否易用即可操作性成 为越来越重要的指标。 当前,得益于其他各相关计算机技术如语音识别、自然语言理解、手势识别、 计算机视觉等多门技术的发展,人机交互的研究步入了一个新的领域一多通道人 机交互( m u l t i m o d a lh u m a n - c o m p u t e ri n t e r a c t i o n ) 。所谓通道,在此意为人 与计算机进行信息交流的方式,是从用户的角度对这种信息交流的方式进行的分 类。 多通道人机交互是在传统人机交互界面上发展起来的- - p 新兴技术,也是人 机交互技术发展到一定阶段所必然出现的历史趋势。现今流行的直接操纵的图形 用户界面g u i ( g r a p h i cu s e ri n t e r f a c e ) 仍然存在着不足,主要在于用户使用 的不便,即使多媒体技术的集成也难咀改变根本的问题。这是因为虽然g u i 和直 接操作方式已经使计算机的使用变得直观、简便,多媒体技术的集成也大大丰富 了计算机反馈信息的表现形式,但计算机的操作模式仍然没有改变,操作者仍然 被限制在计算机旁边。用户不能按自己的习惯来使用而必须去适应计算机,这对 于计算机本身作为一个工具来说,是远未达到其目的的。因为对于工具而言,其 本身出发点就是要方便人类的使用。 多通道人机交互技术的研究就是在这种背景下产生的。多通道交互旨在通过 综合使用人的多种交互功能方式即效应通道和感觉通道,以并行和协作的方式完 成与计算机的交互任务。它与传统的图形用户界面交互的最大的不同之处在于, 多种交互设备的同时使用和来自多个交互通道的信息的融合。它的目的是在人机 工程学的背景下,通过研究入在信息交流中的习惯和行为模式,综合使用视线、 语音、手势等新的交互通道、设备和交互技术,使用户可通过多个通道以自然、 并行、协作的方式进行人机对话,融合来自不同通道的精确的和不精确的输入以 捕捉用户的交互意图,提高人机交互的自然性和高效性,最终达到以人为中心的 交互方式。 随着计算机的普及化和越来越智能化,当前流行的交互方式已不能满足人们 的交互需求。特别是普适计算概念下,人机关系更是需要突破性的改进,需要发 展更为方便用户的交互方式和技术。多通道技术是现今人机交互技术领域的研究 热点。正是在这个大背景下,本文将当前国内外理论成果,对多通道技术进行研 究。 武汉理工大学硕士学位论文 1 2 研究课题的提出 在传统的交互方式中,为了适应计算机的“习惯”,用户通常使用的交互设 备是精确而非人性化的。比如鼠标、键盘等,是占主导地位的。新一代的人机界 面中,为了适应人的“习惯”,非精确的交互手段越来越多的被利用起来。 非精确的交互技术是指用户利用不精确输入的交互装置进行交互。主要的发 展的交互方式有语音、姿势、头部追踪、凝视等。在这些非精确的交互技术面前, 传统人机交互软件的设计方法已经不能与之相适应。同时,这类技术的应用也己 远远超出了传统界面的设计理论所能处理的范围。这就需要人们去探索更加适应 当前这种需要的软件设计方法和理论。 在目前的人机界面中,图形用户界面是应用最为广泛和成功的。该界面是通 过人输入字符串或者点击图标等向计算机送入数据或命令,计算机也通过输出字 符串或者图形来告诉用户计算结果或各种信息多媒体技术在这种界面中也起到 了非常重要的作用,除文字、图形外,多媒体还包括声音、静止图像、动态图像、 动画等。可以说给了计算机的输出一个质的变化,人们可以更加直观的得到信息。 但是,在计算机的输入方面的改变却没有那么大。为了解决这个问题,人们 提出了多通道人机交互的观点,即在同一时刻用户可以采用多个通道与计算机进 行交互以提高人机交互的高效性和自然性。 人机交互的发展趋势将体现在多媒体表现方式、多通道交互、三维交互、计 算机支持的协同工作( c s c w ) 几个方面。人机通信问题将是2 l 世纪信息领域中必 须解决的重大课题,人机接口技术是计算机应用的核心技术,以用户为中心是下 一代人机界面的设计思想,多通道用户界面是实现自然、高效的人机交互的关键 技术。 本文就是在这样的背景下对多通道人机交互技术进行研究的,其中研究的重 点在于多通道融合的问题。 1 3 课题的研究现状 普适计算的思想强调把计算机嵌入到环境或日常工具中去,让计算机本身从 人们的视线中消失,让人们注意的中心回归到要完成的任务本身 i 】。这一思想在 9 0 年代后期开始在国际上得到广泛关注和接受,许多相关的研究计划纷纷启动。 而对于其中的人机交互技术,大量研究者也积极的展开了研究。 在国际上,多通道人机界面的研究越来越来受到人们的重视。很多大学、科 武汉理工大学硕士学位论文 研组织都成立了专门的研究开发小组。其中比较著名的有m i t 的媒体实验室1 2 】, 卡内基一梅隆大学的交互系统实验室唧,斯坦福的人工智能研究中心也从事着人 机交互的研究【4 】,还有美国海军研究所下属的人机交互实验室等【5 1 。 卡内基一梅隆大学( c m u ) 由a l e xw a i b e l 教授领导的交互系统实验室i s l 从 事着广泛的多通道研究,代表着当今世界的前沿技术【3 】。i s l 以开发改善人机之 间通信的用户界面为目的,工作内容之一是开发语音到语音的翻译系统和多通道 界面。 m r r 的m e d i al a b 也处在该研究的领先领域,它不仅仅局限于多通道界面这 一狭窄的领域,而是在一个更广阔的人机交互的大背景下进行机器感知功能的研 究。其s l s ( s p o k e nl a n g u a g es y s t e m ) 研究小组的g a l a x y 项目为在线信息提供 语音界面,并以应用予航班查询、天气预报、城市地图等语音查询服务田。 此外还有o r e g o no r a d u a t ei n s t i t n mo fs c i c n c 瞎& t e c h n o l o g y , s r l 人工智能中 心的自然语言计划、n r l 的海军人工智能应用研究中心的人机交互实验室和华 盛顿大学的人机界面技术实验室等在这个领域都有所研究闻。 i b m 在人机交互的研究中,主要是为下一代人机界面开发新颖的技术,算 法和工具【”。特别是能够帮助计算机“听”、“看”、“说”的工具,以及这些技术 的多通道“组合” 在国内也有相应的研究,如北京大学信息科学技术学院的高文教授等嘲提出 了一个基于多通道接口技术的聋人与正常人交流系统,从而是聋哑人能够与正常 人进行交流。 中科院计算所还在进行多功能感知技术的研究项目,它是集语音、态势、情 感为一体的综合性先进人机接口技术,在人机之间实现类似于人类之间的非精确 自然交互,他们的主要研究领域包括:人类身体语言的感知,人的身份识别的生 物测定技术,虚拟人人体动力学模型以及人脸编码技术等川。 多通道人机交互是人机交互技术经过几十年的发展必然出现的,围绕着它, 国际国内很多研究机构都展开了大量的研究工作,也取得了一些进步。但是,这 项技术目前还未达到较好的实用性,尚需进行更深入的研究。 1 4 课题的研究思路及论文的组织 基于以上的分析,多通道的人机交互还有很多问题需要解决,本课题就是为 了深入研究并解决部分问题而展开的。本文首先分析总结了人机交互模式的发展 演变过程,并且阐述了多通道交互的概念。对人机交互的总体框架和其面临的各 4 武汉理工大学硕士学位论文 个层次的技术挑战给以简单的分析。并且对实现普适计算环境下的多通道人机交 互中几个问题进行了研究。 w 3 c ( 万维网联们) 成立的“多通道交互”活动小组致力于开发支持普适计 算设备多通道交互的通用协议1 1 2 】。其中多通道交互框架是开发交互系统的结构基 础,所以需要针对这一问题进行研究和分析。另外,在普适计算环境中,上下文 的感知、推理和融合也是实现自然交互的一个关键技术。所以,在对多通道交互 框架进行研究的同时,必须考虑上下文可察觉技术的应用。 输入信息的融合是多通道交互的一个关键技术,用面向任务的方法进行多通 道输入信息的融合是本文的一个思路。当界面系统试图通过分析输入信息流来捕 捉用户的交互意图时,它是在完成机器知觉的功能。任务的概念在这一功能的实 现过程中起着引导作用它是知觉组块化的工具。在多通道用户界面中,输入信 息流不同与单通道输入就在于,它是多线索的、并行的,无论在时间关系还是语 义关系上都比单通道输入信息流的分析要复杂的多。因此,需要用任务的概念来 统一多个透道的输入。 对于类似图形界面的多通道交互系统,可以将其描述为基于对象、操作和属 性的结构。基于这一思想和对多通道系统的分析,通过加入映射层的方法,我们 可以把信息融合策略从具体应用中抽离出来,并进行封装和输入输出接口的定 义,就可以实现多通道融合的模板。 包括本章绪论在内,本论文共有六章,整个论文内容结构安排如下: 第1 章介绍了普适计算和人机交互的概念,并且对多通道人机交互的研究北 京和研究现状做了分析。提出了本课题的研究内容。 第2 章首先对多通道交互技术的发展和它在普适计算中的作用进行了阐述。 对已成熟的单通道交互技术和上下文可察觉技术做了介绍。 第3 章首先对w 3 c 公布的多通道交互协议和上下文可察觉计算支撑环境的进 行分析,并提出上下文可察觉的部分多通道交互模型。 第4 章提出了多通道交互技术中一个十分重要的问题对多通道输入信 息的融合问题。由于条件限制,只能对语音输入和鼠标输入的两通道输入信息进 行分析和融合。为了适应实例的应用并且符合模块化变成的思想,设计了具有复 杂对象结构的任务结构。在融合策略的分析中,面向任务思想的融合算法方便了 融合策略的实施。同时,也考虑了融合结果的反馈、模糊事件的处理等问题。提 高了系统的容错性能。 第5 章在前面对多通道输入信息的融合策略的分析基础上,讨论了一个通用 武汉理工大学硕士学位论文 融合功能模板的思想。通过对多通道系统语义表示的分析,将一个比较高效的融 合模型和算法封装成模板供多通道系统开发者调用,有利于把工作的重点放到与 用户界面和应用相关的功能设计上。 第6 章对论文的研究和实践工作进行总结和回顾,阐述了作者在本文的研 究过程中所做的一些相关工作及对将来工作的展望。 6 第2 章多通道交互的概念 普适计算模式的一个要求就是实现人机关系的逆转,变“以计算为中心”为 “以人为中心”,所以说,人机交互技术是普适计算中几个关键技术之一。多通 道人机交互的概念比目前的多媒体交互手段朝自然交互的方向更加迈进了一步。 本章将依次介绍多通道交互的概念,w 3 c ( t h ew o r l dw i d ew e bc o n s o r t i u m ) 提出的多通道交互框架等,并用一个实例来分析这个框架。 2 1人机交互技术的发展 人机交互作为计算机科学领域中一个重要组成部分,其发展历程已经经历了 半个多世纪,并且取褥了很大的进步和提高。概括起来,从计算机的诞生之日起, 人机交互技术的发展大致经历了三个阶段: ( 1 ) 基于键盘和字符显示器的交互阶段这一阶段所使用的主要交互工具 为键盘及字符显示器,交互的内容主要有字符、文本和命令,交互过程显得呆板 和单调,这一阶段可称为第一代入机交互技术。 ( 2 ) 基于鼠标和图形显示器的交互阶段这一阶段所使用的主要交互工具 为鼠标及图形显示器,交互的主要内容有字符、图形和图像。7 0 年代发明的鼠 标,极大地改善了入机之阃的交互方式,在窗口系统大量使用的今天几乎是必不 可少的输入设备。应该说,鼠标和窗口系统的出现,是人机交互技术发展历史上 的一次技术革命。这一阶段可称为第二代人机交互技术。 ( 3 ) 綦于多媒体技术的交互阶段2 0 世纪8 0 年代末出现的多媒体技术,使 计算机产业出现了前所未有的繁荣,声卡、图像卡等硬件设备的出现使得计算枧 处理声音及视频图像成为可能,从而使人机交互技术开始向声音、视频过渡。在 这一阶段,人机交互的工具除了键盘和鼠标外,话筒、摄像机及喇叭等多媒体输 入输出设各,也逐渐为人机交互所用。而人机交互的内容也变得更加丰富,特别 是语音信号处理技术的发展,使得通过声音与计算机进行交互成为可能。多媒体 技术使用户能以声、像、图、文等多种媒体信息与计算机的应用范围。另外,多 媒体技术的发展,促进了信息处理技术特别是计算机听觉与计算机视觉的发展, 从而使入机交互在朝着自然、和谐的方向上向前迈进了一大步。多媒体交互阶段 可称为第三代人机交互技术。 多媒体技术的发展虽然提供了多媒体信息处理的可能性,但是就当前发展的 现状,仍然处于独立媒体的存取、编辑及媒体间的合并水平,尚未涉及多媒体信 , 武汉理工大学硕士学位论文 息的综合处理。 2 2 人机交互的单项技术 多通道人机交互是建立在多个单项的人机交互基础之上的,这些单项的交互 技术除了以前的传统的输入输出手段之外又有了很多的新技术加入进来,这里介 绍一下其中的一些重要技术。 2 2 1 手写识别 手写识别有两种,一是静态手写识别,就是把已经写好的文字以图像的形 式输入计算机,让计算机对图像进行处理最后识别出书写的文字;二是联机手写 识别,这就需要书写的设备是实时连在计算机上的,随着手写动作和时间变化书 写设备输入计算机的数据是一个连续的与时间相关的坐标序列。两者相比,后者 的数据中多了时间信息在里面手写输入的好处是显而易见的,不须专门学习与 训练、不必记忆编码规则、安装后即可手写输入汉字,是最简单方便的输入方式。 符合中国人的书写习惯,可以一面思考、一面书写,不会打断思维的连续性,是 最自然的输入方式。 2 2 2 语音识别技术 语音识别是人机语音通信的一个重要组成部分,计算机语音识别过程与人对 语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识 别的基本理论。一个完整的语音识别系统可大致分为三部分: ( 1 ) 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序 列。 ( 2 ) 声学模型与模式匹配( 识别算法) :声学模型通常将获取的语音特征通过 学习算法产生。在识别时将输入的语音特征同声学模型( 模式) 进行匹配与比较, 得到最佳的识别结果。问题本身涉及到声学、计算机科学等许多学科。 ( 3 ) 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或 由统计方法构成的语言模型,语言处理可以进行语法、语义分析。 2 2 3 其他人机交互的单项技术 除了上述两种当前应用非常热门的单项人机交互技术以外,还有很多新颖的 8 武汉理工大学硕士学位论文 技术正在逐渐进入应用中。 眼动跟踪:视线识别技术主要是解决眼睛运动特性的检测问题,目前主 要的检测方法有接触镜发、电磁线圈法、红外光电反射法、红外电视法等。 手势识别:手势是一种自然而直观的人际交流模式。基于视觉的手势识 别是实现新一代人机交互所不可缺少的一项关键技术。 表情识别:为了增加人与机器的交流通道,有人考虑让计算机看动人的 表情,要实现它通常需要几个步骤。第一,面部表情的跟踪;第二,面部表情的 编码;第三,面部表情的识别。其中,面部表情的识别是最为关键的一步。 自然语言处理技术:自然语言处理并不是一般地研究自然语言,而在于 研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统,因而它 是计算机科学的一部分。 我们知道,人类在与其环境进行交互时获取信息可以是多通道的。人可以通 过同时听一个人的说话语气和看他的面部表情及手臂动作来判断他的情绪。为了 更好地理解周围的环境。入可以同时使用视觉、听觉等等。而普适计算的目标之 一也正是希望人和计算机可以自然的进行交互。所以,对各通道的输入信息进行 分析和融合以作出判断等动作,就成为人机交互的一个研究方向。 2 3 上下文可察觉计算的概念 在普适计算的环境中,上下文信息的采集和应用是使人机交互达到自然、透 明的关键技术之一所以在这里要对上下文可察觉计算的概念做一番介绍。 2 3 1 上下文可察觉的含义 上下文可察觉计算的主要目标是给支持某一应用的计算系统提供一些与这 个应用相关的信息,这些信息并不是交互的用户所能直接提供的,面是通过纂些 方法从应用所处的环境采集而来的。可以说,上下文主要是指应用所处的物理环 境和信息环境中可测量的一些属性。 普适计算中上下文的概念和社会学、语言学等研究领域中的上下文概念是不 同的。对后者而言,上下文这个概念主要用在解释人们的行为方面这时上下文 包括所有的会对人们行为构成影响的外部因素。而在上下文可察觉计算领域内, 上下文首先是与应用相关的可测属性。这些属性作为输入可能会改变应用程序的 行为。用地图服务实例来说明,如果要在地图上显示用户经常光顾的最近的镫厅, 则用户此时的位置就是最基本的上下文要索。 9 武汉理工大学硕士学位论文 概括来说普适计算环境下的上下文信息是指能被支持某项行为的服务所使 用的对事物状况的任何描述。事物的状况可以理解为事物的某些性质和当前事物 间的关系。这里的事物可以是物理实体,比如人和地点,也可以是系统的组件, 比如软件服务,还可以是项目或者群体。 2 3 2 上下文信息的采集 为了构件上下文可察觉斑用程序,上下文信息必须能够以某种方式被采集。 某些上下文信息可以完全使用软件组件来采集。这种软件类型的探测器可以在一 些即时通信类的软件中发现。在这些应用程序中,例如最近的键盘使用和鼠标移 动情况都被用于向系统提示用户使用软件的状态。但是,对于大多数上下文可察 觉的应用而言,仅仅是软件探测器是不够的关于物理世界的信息就需要各种各 样的物理传感器来采集了。 上下文信息的采集大致可以分为两步:首先必须考虑的是,那些上下文因子 是为了达到某个应用行为而必衙的。然后就是确定合适的方法来采集这些上下文 信息,这其中就包括如何选择和部署探测器。 举例来说。如何采集用户所处的位置这样一个最常用的上下文信息。如果是 室内的情况,那么可以使用用户自身携带的移动计算设备来发现自己所处的位 置。或者可以使用房间内部的探测设备,如红外线发射和接收器、微波探测器、 压力感应装置等等。 2 3 3 在应用中使用上下文 为了完成不同的功能而使用上下文信息构建上下文可察觉的应用的方法有 很多。比如,可以向用户显示上下文的信息,或者可以根据上下文提示用户选择 相应的动作等。一个典型的应用就是在电子地图上显示临近地点或者是最感兴趣 的事物的信息。 上下文可察觉应用的另一个功能是根据上下文信息来发现服务。这里所说的 服务可能是直接呈现于用户面前的,也可能是在用户并不知晓的情况下被其他软 件组件所使用的。例如,发现距离用户当前所处位置最近的打印机。应用程序还 可以监视上下文信息,以便在某个特殊的情况出现的时候做出某种响应。例如, 一个能够知晓当前所处的地理位置并作出提示的应用。 上下文信息还可以被附着于某些数据之上,当这些数据被使用的时候连同上 1 0 下文一起被分析。 2 4 多通道交互技术与普适计算 2 4 1 多通道交互的定义 多通道交互( m u l t i m o d a li n t e r a c t i o n , m m i ) 是近年来迅速发展的一种人机交 互技术,它既适应了“以人为中心”的自然交互准则也推动了互联网时代信息 产业( 包括移动计算、移动通信、网络服务器等) 的快速发展。v l m i 是指“一 种使用多种通道与计算机通信的人机交互方式,通道( m o d a l i t y ) 涵盖了用户表 达意图、执行动作或感知反馈信息的各种通信方法,如言语、眼神、脸部表情、 唇动、手动、手势、头动、肢体姿势、触觉、嗅擞或味觉等嗍”,采用这种方式 的计算机用户界面则称为“多通道用户界面”。 2 4 2 多通道交互在普适计算中的作用 近年来,国内外很多研究熏点都放在了提高移动设备的交互能力上。美国斯 坦福大学人工智能研究中心的ac h e y e r 等人构造的多通道地图( m u l t i m o d a l m a p s ) 。是为用户提供了同时使用语音、手写等功能的一个旅行计划安排系统。国 内类似研究主要有:中国科学院软件研究所基于笔的自然交互的办公环境,北京 大学的手持移动设备交互能力的提高等等。 瑞典l u l e au n i v e r s i t yo ft e c h n o l o g y 大学的e i s ( e m b e d d e di n t e r n e t s y s t e m ) 实验室致力于将嵌入式的传感器应用于i n t e r n e t 的研究。他们将蓝牙 和t c p i p 协议封装在微型传感器里,使得数据可以传输到移动电话或者网络计 算机上进行处理。这一成果为多通道的人机交互提供了硬件的基础【9 】。 普适计算( u b i q u i t o u sc o m p u t i n g 或p e r v a s i v ec o m p u t i n g ,也叫i n v i s i b l e c o m p u t i n g ,国内也翻译成普及计算) 的思想最早是1 9 9 1 年m a r kw e i s e r 1 1 在 s c i e n t i f i ca m e r i c a n ) 的“t h ec o m p u t e rf o rt h e2 1 s tc e n t u r y ”中提出的。 他认为从长远看计算机会消失,但这种消失并不是技术发展的直接后果,而是人 类心理的作用,因为计算变得无所不在。当人类对某些事物掌握得足够好的时候, 这些事物就会和我们生活不可分,我们就会慢慢地不觉得它的存在。就像现在的 纸和笔迹无所不在一样,将来计算机会看不见,而计算会无所不在,不可见的人机 交互也会无所不在。也有人把无所不在说成5 个“a n y ”:a c c e s sa n yb o d y ,a n y 武汉理工大学硕士学位论文 t h i n g ,a n y - w h e r e ,a ta n yt i m e ,v i aa n yd e v i c e 无所不在的计算强调把计 算机嵌入到环境或日常工具中去,而将人们的注意中心集中在任务本身。一些实 践表明,无所不在的计算是一项长期研究目标,它涉及众多领域( 硬件、软件、网 络、心理学、社会学等) 而其核心是自然的人机交互。 多通道交互模式已被诸多研究证明是提高交互效率和自然性的有效途径“”, 比传统窗口界面适用于更多领域的应用程序以及更广泛的用户群。它允许用户通 过各种自然的交互手段,如语音、手写等,与计算机系统进行交互,从而克服了传 统交互工具缺失引起的问题。同时,多通道交互能够有效地扩大信息交换的带宽。 从而达到提高交互效率的目的;并可发挥人机之间彼此不同的认知潜力,降低用 户的认知负荷。用户通过不同的交互通道以及它们之间的相互组合和协作来完成 交互任务,这正好弥补了单一交互模式给用户带来的限制和负担。使用户真正享 受到“看不到的”计算服务。美国加洲大学伯克利分校的研究指出:通过多通道 方式访问i t e r n e t 是普适计算中的关键问趣之1 1 1 l 。 2 5 本章小结 本章从人机交互的发展入手,介绍了多通道交互的概念以及它在普适计算中 的作用。多通道交互的基础是入机交互单项技术的成熟,所以本章对常用的人机 交互单项技术做了介绍。在普适计算中,为了达到自然交互的目的,整个计算环 境必须对上下文信息做出处理,所以本章也介绍了上下文可察觉计算的概念。 武汉理工大学硕士学位论文 第3 章多通道交互应用框架 3 1w 3 c 的“多通道交互”协议标准 2 0 0 2 年国际标准化组织w 3 c ( t h ew o r l dw i d ew e bc o n s o r t i u m ) 成立的“多 通道交互”活动小组m m i ( m u l t i m o d a li n t e r a c t i o nw o r k i n gg r o u p ) 致力于开 发支持普适计算设备多通道交互的通用协议标准。到目前为止,m m i 已经开展了 五项标准的制订:多通道交互框架,多通道交互需求,多通道交互使用事例可扩 展多通道注释语言e m m a ,数字墨水需求【1 2 】。 其中“多通道交互框架”( m u l t i m o d a li n t e r a c t i o nf r a m e w o r k ) 是一项最 基础的规范和说明。它详细的描述了多通道交互的整体结构、输入构件和输出构 件。这个框架将建立在一系列已经使用的w 3 c 注释语言和d o m ( d o c u m e n to b j e c t m o d e l ) 之上。图2 - 1 是w 3 c 给出的“多通道交互”的总框架。 图3 - i 多通道交互框架( m u l t i m o d a li n t e r a c t i o nf r a m w o r k ) 从图中可以看出,整个框架分为六个主要构件,分别是:输入构件、输出构 件、交互管理构件、应用构件、会话构件和系统环境构件。 3 1 1 输入构件 一个多通道交互应用将使用多种输入方式,例如音频、手写、键盘等。不同 的输入方式在w 3 c 的标准中都有详细说明,其提供的输入构件框架图见图2 2 。 武汉理工大学硕士学位论文 图3 - 2 输入构件 从图3 - 2 看到,输入构件分三个步骤完成任务:识别、解释和融合。值得一 提的是,在多通道交互框架中,所有从解释构件输出的信息都被多通道注释语言 e m m a ( e x t e n s i b l em u l t i m o d a la n n o t a t i o nm a r k u pl a n g u a g e ) 所标注人们目 前主要通过各种界面访问网页和应用程序。这种w 3 c 称之为“通道”的界面包 括计算机键盘、电话键盘、语音识别应用程序,以及手写识别设备。但网络缺乏 一个兼容这些不同互动方法,以及对手写与语音不精确输入产生的模糊指令进行 分类的标准。而这种基于数字文件混合语言x m l 陈述方式的e m m a 简化并标 准化了互动多模式交互的程序。e m m a 是船c 制定的“多通道交互”标准的另 一组成部分,它使用扩展了的x m l 语言对用户输入信息进行规范和解释,为下 一步对多通道信息的处理打下基础【l 劲。 3 1 2 数据管理 普适计算终端同服务器的交互过程通常具有以下特点: 非对称的通讯模式 由于资源的局限性,终端的数据传输能力通常要比 1 4 武汉理工大学硕士学位论文 位于有线网络的服务器低得多; 无连接特性由于无线信号或是电源的关系,终端可能经常处于弱连接 或是无连接状态; 移动性用户在使用网络信息的过程中,如果从一个位鼍移动到另一个 位置,则需要对用户进行重新定位,通常也需要在新的位置重新创建计算环境。 为了重新刨建计算环境,可能只是需要对表示正在进行的过程的状态信息进行迁 移,但也可能需要在靠近终端的新的位置对访问的信息进行拷贝。以维护系统的 性能透明性,如确保位置无关的访问时闯和延迟时间特性。 这些特点使普及计算终端的数据管理和基于数据管理的事务处理变得复杂 起来,需要考虑网络特性、功耗和一致性等方面的内容。 事物处理服务:普及计算终端将被用来处理电子商务一类的事务处理服务, 如购物,银行业务,销售或是股票交易
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年荆州市第一人民医院慈济分院医护人员招聘考试参考题库及答案详解
- 2026年沈阳市妇婴医院医护人员招聘笔试备考试题及答案详解
- 2026年唐山市中医院医护人员招聘考试参考题库及答案详解
- 2026年天水市精神病医院医护人员招聘笔试参考题库及答案详解
- 2026年威海市中心医院医护人员招聘笔试参考试题及答案详解
- 2026年重庆市人民医院医护人员招聘笔试备考题库及答案详解
- 2026年长沙市第一医院医护人员招聘笔试参考试题及答案详解
- 2026年汕头国际眼科中心医护人员招聘笔试备考试题及答案详解
- 2025年中山市中医院医护人员招聘考试试题附答案详解
- 2026年西安市胸科医院医护人员招聘考试备考试题及答案详解
- (2026版)《煤矿重大事故隐患判定标准》培训课件
- 2026年无锡小升初语文小升初分班考卷:语文阅读写作与基础积累(冲刺讲评版第2套)含参考答案、逐题解析与评分细则
- 2026信息安全行业市场发展分析及前景趋势与投融资发展机会研究报告
- 2026贵州遵义余庆县公安局面向社会公开招聘警务辅助人员18人笔试备考题库及答案解析
- 2026年安全月知识竞赛试题附答案
- 2026山东临沂市郯城县城镇公益性岗位招聘41人备考题库附答案详解(考试直接用)
- 物流园区安全生产风险分级管控清单
- 贵州黔东南公路建设养护有限公司招聘笔试题库2026
- 2026年新版应急处置卡共31项含管理和操作岗位
- 陕西省宝鸡市2026届中考语文全真模拟试卷含解析
- 2026湖南益阳桃江县产业发展投资集团有限公司招聘4人笔试备考题库及答案详解
评论
0/150
提交评论