（电路与系统专业论文）听觉界面及其应用开发平台的实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：53 大小：1.48MB 积分：0 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

（电路与系统专业论文）听觉界面及其应用开发平台的实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

浙江大学硕士学位论文摘要听觉界面及其应用开发平台的实现摘要 r 叭机交互中传统的w i m p 视觉界面不仅可能使用户的视觉通道过载。而且也、会使盲人和有视觉缺陷的用户无法使用。针对上述问题，人们发展了多种新型界面，听觉界面就是其中备受关注的一种。声音是一种多维度媒体，主要有音调、音色、响度、持续时间和方向等维度特征：声音又是一种多效应媒体，主要有鸡尾酒会效应、流效应和回声、反射等效应特征。这给设计抽象听觉界面带来了很大的灵活性。听觉界面主要分为语音听觉界面和非语音听觉界面两类。语音和非语音相结合的界面近年来成为听觉界面的主流。开发听觉界面主要有两种技术：听标和耳标，耳标在输入上具有容易参数化和层次化、在输出上具有容易理解和记忆等优点，因而目益受到听觉界面开发者的青睐。目前，听觉界面的开发大多从主观审美角度出发，缺乏系统的指导理论和相对完整的开发平台，影响了听觉界面的交互效率，同时也限制了听觉界面的普及。本研究总结了结构化音乐耳标设计和组织的一般原则，并以这些原则为基础，结合听觉界面设计的一般性原则，详细描述了一个结构相对完整的听觉界面及其各部分的功能，完成了对平台的开发。该平台主要由听觉界面简单交互元素和复杂交互元素两部分组件构成，这些组件具有可扩展性和通用性，且对开发者的专业音乐知识无特殊要求。最后，本研究基于听觉界面开发平台，开发了一个听觉界面应用原型盲人用户手机。该系统采用语音识别、键盘和鼠标三种交互方式，并实现了方式问的无缝连接，充分体现了多通道的互补作用。系统中的听觉反馈采用了结构化音乐耳标和文本语音转换( t t s ) 技术，使交互过程更趋于自然、有效。盲人用户手机也适合在双手被占用等特殊场合下正常人的使用。关键词：人机交互，听觉界面，非语音，耳标，听标 i 听觉界面及其应用开发平台的实现摘要 a b s t r a c t t r a d i t i o n a iw i m pu s e ri n t e r f a c e st e n d t om a k eu s e r s v i s u a lm o d a i o v e r l o a d ，a n dt h e yc a r ln o tb eu s e db yv i s u a l ( yd i s a b l e dp e o p t e n e wu s e r i n t e r f a c e sh a v eb e e nd e v e l o p e dt o c h a n g e t h i s s i t u a t i o n a u d i t o r y u s e r i n t e r f a c e ( a u i ) i st h em o s tu s e f u la n dc o m p e l l i n go n e o ft h e m s o u n di sam u l t i d i m e n s i o n a im e d i u m t h ef u n d a m e n t a ld i m e n s i o n so fs o u n d a r ep i t c h t i m b r e ，l o u d n e s s ，d u r a t i o na n dd i r e c t i o n ，f u r t h e rm o r e ，s o u n dh a s m u l t i p l ee f f e c t s ，t h e s ee f f e c t sr o u g h l ya r ec o c k t a i lp a n ye f f e c t ，s t r e a m i n g ，e c h o a n dr e v e r b t h em a n yd i m e n s i o n sa n de f f e c t so fs o u n dm a k ea u d i t o r yi n t e r f a c e d e s i g nv e r yf l e x i b l e t h e r ea r em a i n l yt w ok i n do fa u d i t o r yi n t e r f a c e ：s p e e c h a u d i t o r y i n t e r f a c ea n dn o n - s p e e c ha u d i t o r yi n t e r f a c e ，i nr e c e n ty e a r s ，t h e a u d i t o r y i n t e r f a c ed e v e l o p e r st e n dt ou s en o n s p e e c hs o u n da n d s p e e c h t o g e t h e r n o n - s p e e c hs o u n d c a r lb ee v e r y d a ys o u n d s ( a u d i t o r yi c o n ) o rm u s i c a l s o u n d s ( e a r c e n ) ，e a r c o n sc a ne a s i l yc r e a t eh i e r a r c h yo rc o m p o u n de a r c o n s o e v e l o p e r et e n d t ot a k et h i sa d v a n t a g ea n dc h o o s ee a r c o n so v e rt h eo t h e r s a tp r e s e n t ，t h el a c ko fs y s t e m a t i cg u i d el i n e sa n da p p l i c a t i o np r o g r a m i n t e r f a c ec o n f l n e dt h ee f f e c t i v e n e s sa n dp o p u l a r i z a t i o no fa u d i t o r yi n t e r f a c e t h i sa r t i c l es u mu paf e wg e n e r a lc o n c e p t so nh o wt od e s i g na n do r g a n i z e s t r u c t u r e dm u s i c a ie a r c o n s w et h e nd e v e l o p e dap l a t f o r ma n dd e s c d b e f u n c t i o no fe a c hd 8 r ti nd e t a i l t h i sp l a t f o r mm a i n l yc o n s i s t so fb a s i ca n d c o m p l e xd i a l o g u ea u d i t o r yw i d g e t sw h i c h c a nb eu s e df o rt h ed e s i g no f d e d i c a t e d a u d i t o r ya p p l i c a t i o n s t h e s ec o m p o n e n t s a r ee x t e n s i b l ea n d u n i v e r s a l ，a n d h a v en o s p e c i a lr e q u i r e m e n tf o r t h e d e v e l o p e r s m u s i c k n o w l e d g eb a c k g r o u n d b a s e d o nt h i s p l a t f o r m ，w ed e v e i o r p a d a p r e t o t y p i e _ m o b i l et e l e p h o n e f o rb l i n du s e r s u s e rc a nc o n t r e lt h i sm o b i l e t e l e p h o n e w i t hk e y b o a r d 。m o u s ea n ds p e e c hc o m m a n d ，t o g e t h e r , s e p a r a t e l yo r a l t e r n a t e l y , t h ea u d i t o r yf e e d b a c ka r es t r u c t u r e dm u s i c a le a r c o n sa n ds p e e c h ， w h i c hm a k et h ei n f e r a c t i o nm u c hn a t u r a la n de f f e c t i v e t h em o b i l ec a na l s ob e u s e db yn o r m a lu s e r su n d e rs p e c i a ls i t u a t i o ns u c ha su s e r sh a n d sw e r e o c c u p i e d k e y w o r d s ：h u m a n c o m p u t e ri n t e r a c t i o n ，a u d i t o r y u s e r i n t e r f a c e ， n o n s p e e c hs o u n d ，e a r c o n ，a u d i t o r yi c o n l i 浙江大学硕士学位论文第一章绪论 1 人机界面第一章绪论在牛津英语字典( o e d ) 中，界面被定义为：界面是一个地方、区域或者是一种设备，两个系统、组织或者人之间的交互在这里进行( ap l a c eo rr e g i o n ，o r ap i e c eo f e q u i p m e n t ，w h e r e i n t e r a c t i o no c c u r sb e t w e e nt w os y s t e m s ， o r g a n i z a t i o n so rp e r s o n s ) 。人一计算机交互界面( h c i ) 是人和计算机实时交互的基础。它不仅仅包括输入输出设备，如：键盘、鼠标、显示器、扬声器和麦克风等等，这些仅仅提供了界面的技术基础；人机交互界面主要是由软件构成的，这些软件定义了人机对话的机制和协议。人机交互的基本模式如图1 - 1 所示，人机交互界面与设计模式紧密相关。人机交互界面的设计是包括信息理论、认知心理学、信息设计学、社会学、工程学、工效学等等在内的一个综合性工作。计算机用户界面的发展大致经历了命令行界面( c o m m a n dl i n ei n t e r f a c e 。 c l i ) 和图形用户界面( g r a p h i cu s e ri n t e r f a c e ，g u i ) 。现在图形界面仍然占绝对地位，但图形用户界面过多的依赖于视觉通道，随着人机交互中信息量的增加，用户的视觉通道很可能出现过载。为了解决这个问题，各种新型的人机交互界面应运而生，如多媒体界面( m u l t i m e d i ai n t e r f a c em m i ) 、多通道用户界面( m u l t i m o d a tu s e ri n t e r f a c e ，m u i ) 、智能化自适应界面等等。多通道用户界面支持时变媒体( t i m e - v a r y i n gm e d i a ) ，实现三维、非精确及隐含的人机交互。它强调以充分性代替精确性( 方志刚，1 9 9 8 ) ，通过语音识别，姿势识别，表情识别，眼动跟踪，听觉反馈等技术，使人们能根据自身的需要来能动地选择适当的交互方式，从而使入机交互更加自然、丰富。第l 页，共4 8 页听觉界面及其应用开发平台的实现第一章绪论 2 视觉界砸存在的问题图1 1 ：人机交互的基本模式目前计算人机交互界面的主流是w l m p 界面，w i m p 是图形用户界面主要设计元素的缩写，包括窗口( w i n d o w s ) 、图标( i c o n ) 、菜单( m e n u ) 、指点设备( p o i n t e r s ) ；也有人认为w i m p 是指窗口、图标、鼠标( m o u s e ) 和下拉菜单 ( p u l l - d o w nm e n u ) ，这两种定义方式大同小异，没有什么本质区别。w i m p 成为用户界面的主流有几方面原因：首先，它具有爽目的视觉效果，如丰富多彩的背景、多种不同风格的字体和漂亮的图标等等；其次，菜单界面与命令行界面相比，用户只需要再认而不是记忆系统命令，大大降低了记忆负荷；第三，基于窗口的显示方式以前所未有的视野让用户看到了计算机内存储的信息，同时也提高了人机交互的带宽：最后，图形用户界面具有一定的文化和语言独立性，并可以提高视觉目标搜索的效率( 蒋成高，2 0 0 1o 但是，w i m p 视觉界面也存在很多问题，主要表现在以下几个方面： 1 ) 随着人机交互中信息量的增大，界面中窗口的数量明显地增加，界面的状态日趋复杂，人们要花费很大精力用于对窗口的组织和管理，在很大程度上降低了工作效率( 蒋成高，2 0 0 1o 2 ) 视觉显示是非常依赖大小的( s i z e - d e p e n d e n t ) ，由于大小和要显示的信息数量密切相关，随着现代社会信息量的大量增加，常用设备尤其是可携带电子设备，显示屏大小经常是不够用的。由于很多人都喜欢使用轻便的可携带设备，显示屏幕又是一个必须解决的问题。一个有效的解决办法就是减小视觉显示的大小甚至彻底去除它，这只有在使用听觉界面( 或者其他界面) 代替视觉界面的情况下才是可能的。基于电话的界面( t e l e p h o n e b a s e d 第2 页，共4 8 页浙江大学硕士学位论文第一章绪论 i n t e f f a c et b i ) 目前正变得日益重要，越来越多的电子设备使用基于电话的界面，例如使用电话订票和电话银行。t b i 也对视觉界面提出了挑战。 3 ) 图形用户界面且难以表达和支持非空问性的抽象信息的交互( 马卫娟等t 1 9 9 9 ) 。 4 ) 视觉界面的用户获取信息时必须注视显示屏幕，用户被限制在电脑屏幕前面，不能随意走动。同时由于人类在注视目标时，只能兼顾很小的范围( 注视点周围2 度左右的范围) ，这样就很容易漏掉一些信息。例如：当我们关注于屏幕中央的图片时，屏幂右下角显示有邮件到达的信息就很可能被用户忽略。尽管视觉界面也采取了一些措施来引起用户的注意，比如：图标的闪烁和颜色变换等等，但是由于视觉固有的缺陷，这个问题并没有得到很好的解决。 5 ) s l i p - o f f 现象时常发生( b r e w s t e r ，1 9 9 8 ) ，所谓s l i p - o f f 是指：在用户操作的过程中，用户选择一个视觉目标，比如对话框中的“确认”按钮，但是在用户按下鼠标按钮，同时把注意从对话框移开，准备进行下一步任务时，鼠标有可能有移动，点击的是“确认”按钮附近的“取消”按钮( 同样使对话框消失) ，而用户对此却一无所知。在菜单项选择时同样的情况也经常发生。造成上面这些问题的根本原因在于：现实生活中，人们可以凭借视觉、听觉、嗅觉、触觉、味觉等感觉通道来和外界进行信息交换。可以毫不费力地处理大量的信息而不会导致某个通道过载，也不会因为某个通道的缺失而不能和外界沟通，其它通道会替代或者是协助完成交互；而现在的w i m p 界面单纯地使用视觉通道，不仅给用户的视觉通道施加了很大的负荷，也降低了操作绩效。由于视觉界面的这些缺陷，近年来各种新型的界面层出不穷，听觉界面就是其中很有前途的一种。通常，听觉是视觉很好的辅助，它可以增加传递给用户的信息量，或者是减小从视觉通道获取的信息量。有心理学证据表明：通过不同的感觉通道获取信息能够提高工作绩效，因为这意味着两次或者更多的机会来得到足够的信息。如果用户没有记住一个图标代表什么，也许他可以听出来它的声音代表什么。第3 页，共4 8 页听觉界面及其应用开发平台的实现第一章绪论听觉界面有很多潜在的优势，包括： 1 1 在屏幕上，用户只可以扫视到注视点周围两度的范围，而声音可以使用户昕到3 6 0 度范围的东西，而不需要集中在某一个输出设备，也就是说，声音具有全向特性。在用户进行别的操作时，声音能很好的引起用户的注意。 2 ) 现在的绝大多数计算机界面，将盲人和有视觉缺陷的用户群排除在计算机用户之外，而听觉界面则可以让有视觉缺陷的人也能够使用计算机。 3 1 听觉界面非常适合基于电话的界面，t b i 是听觉界面最重要的应用场合之一。 4 ) 听觉存在在时间上，不受空间限制，支持时变媒体，很适合表达非空间抽象信息。 5 1 听觉界面可以很好的解决很多视觉界面中的误操作的问题，比如s l i p - 0 f f 问题( b r e w s t e r ，1 9 9 8 ) 。 3 听觉界面的研究背景大约在十年前，有人开始研究在人机交互中使用声音，这个新的研究领域称为“听觉显示”( a u d i t o r yd i s p l a y ) ，在1 9 9 4 由k r a m e r 首先描述过。这个叫法来源于听觉显示尝试用声音来“显示”那些过去只能用视觉来显示的东西。听觉显示的关键是让听者在他的头脑中勾画出现实世界物体或者是数据的形象。 c o h e n 认为是作曲家c a g e 在二十世纪五十年代首先提出了听觉显示的一些原贝l j ( c o h e ne ta l ，1 1 ) ，这里我们不过多地讨论c a g e 的工作，有意义的是： c a g e 认为音乐和数据之间的联系是可以利用的。图1 - 2 ：听觉显示研究分类第4 页，共4 8 页浙江大学硕士学位论文第一章绪论尽管是一个比较新的领域而且参与者比较少( 相对g u i 的研究而言) ，但是，听觉显示的研究还是相当深入的。这些研究大体上分成两大阵营( 如图1 - 2 所示) ：一部分针对在界面中使用声音，另一部分针对在可视化当中使用声音。后者又可以分为数据可听化( d a t as o n i f i c a t i o n a u d i f i c a t i o n ) 和算法( 程序) 可听化 ( a l g o r i t h m p r o g r a ma u r a l i s a t i o n ，有时也叫做a u d i o l i s a t i o n ) 。前者主要关注如何把数据用声音表现出来；后者关注呈现算法和程序的状态，来帮助理解软件。听觉显示界面相关应用和可视化相关应用之间的界限并不是那么明显。 e d w a r d s 等人开发的字处理器s o u n d t r a c k ，是个基于鼠标的应用程序。它使用了合成语音和方波声音，当鼠标在某个菜单上上下移动时，方波声音的音调高低相应发生变化。s o u n d t r a c k 睨显是属于声音在界面中使用的例子；而d i g i a n o 和 b a e c k e r 开发的l o g o m e d i a 系统则提供了一种程序可听化的方式( d i g i a n o 。e t a 1 1 9 9 3 ) ，但是，同时他们通过加入声音效果的方法扩展人机交互界面，因此具有部分界面相关内容。 e l 前，听觉界面的研究，一方面针对盲人或者是有视觉缺陷的用户，属于辅助技术的范畴：一方面针对移动设备、嵌入式设备，如可穿戴电脑，基于电话的界面等等。尝试解决这些场合下使用视觉界面的缺陷，或者是尝试在没有视觉界面的情况下如何达到高效人机交互的目的。从内容上来说，听觉界面分为语音听觉界面和非语音听觉界面，语音界面( s p e e c hi n t e r f a c e ) 出现的较早，而非语音界面( n o n s p e e c hi n t e r f a c e ) 则在近年受到越来越多的关注。这些研究工作，都取得了一定的成就，但是总体上来说都还处于初级阶段，还没有成熟的、广为接受的指导理论。即使上面提到这些分类方法也是如此。目前在听觉界面中使用的大部分参数都还没有实验依据，比如：创建听觉界面是语音界面还是非语音界面更有效? 在非语音听觉界面使用什么样的声音：自然声音( n a t u r es o u n d ) ? 日常声音( e v e r y d a ys o u n d ) ? 还是使用乐声? 哪种声音或者是方式更有效? 如果使用乐声的话，哪些维度和变量是可以用的? 日前听觉界面的开发者大多在按照个人的主观审美来选择和使用声音，他们对声音的选用从最抽象的蜂鸣，到语音，到最抽象的乐声，可以任意选择。这样开发出的昕觉界面不仅不一定高效，而且有可能是违背工效学原则的，必须通过实验的方法确定听觉界面设计的指导原则，这还需要大量的研究工作。第5 页，共4 8 页听觉界面及其应用开发平台的实现第一章绪论 4 本文的研究工作本文的研究从听觉界面的设计基础入手，深入分析听觉通道的心理声学和物理声学特性，指出听觉通道具有信号检测速度快、不受空问限制、不受光照限制等特点。非语音声音和语音相比，具有速度快、产生不随意注意、不易使用户厌烦等特点。接着本文深入分析声音的多维度多效应特性，分别讨论了声音的音调、音色、响度和方向性等维度特征，以及声音的鸡尾酒会效应、流效应、回声、反射等效应特征。声音的这些特征可以在听觉界面设计中有意识的使用，它们给听觉界面的设计带来了很大的灵活性。结合语音和非语音的界面近年来成为听觉界面的主流，本文对听觉界面设计的讨论，主要针对非语音听觉界面，在两种创建非语音听觉界面的方法耳标和听标中，本文又主要集中在耳标的研究，总结给出耳标的完整定义，比较昕标和耳标两种研究方法，指出听标是计算机事件和属性与通常有声事件和属性之间的映射，主要使用日常的声音，使人们能够利用他们现有的技能来聆听计算机；而耳标是用结构化声音提供计算机物体、操作或者是交互的信息，主要使用乐音。由于乐音更适合表达抽象信息，以及乐音很容易参数化、层次化等优点，本研究对听觉界面的开发采用结构化音乐耳标。在深入阅读听觉界面相关研究的基础上，本文总结了结构化音乐耳标的设计和组织的总体原则，这些指导原则大多具有实验支持，但也还需要迸步的实践检验。以这些原则为基础，结合听觉界面设计的一般性原则，本研究致力于开发听觉界面应用程序开发平台。介绍该平台的体系结构，以及各组成部分的设计思想和功能。对该开发平台中的听觉界面组件，本文将详细介绍它们的功能和接口，这些组件具有可扩展性和通用性，且对开发者的专业音乐知识没有特殊要求。以这个平台为基础，开发者可以方便地开发自己的应用程序。最后，本研究基于听觉界面应用程序开发平台，开发了一个听觉界面应用原型盲人用户手机。本文将介绍盲人用户手机的设计思想和交互方式，该系统采用语音识别、键盘和鼠标三种交互方式，并实现了方式间的无缝连接，充分体现多通道的互补作用。盲人用户手机的听觉反馈采用了结构化音乐耳标和文本语音转换( t _ r s ) 技术，使交互过程更趋于自然、有效。盲人用户手第6 页，共4 8 页浙江大学硕士学位论文第一章绪论机也适合在双手被占用等特殊场合下正常人的使用。作为一个原型系统，盲人用户手机还存在一些问题，还需要进一步的开发研究。第7 页，共4 8 页堕堂墨重垦茎查旦茎叁兰鱼塑塞堡差三兰堕堂墨耍塑生薹型一 1 昕觉通道特性第二章听觉界面设计基础听觉是人们接受外界刺激的两个最主要的通道之一：电话铃声、敲门声和汽车的喇叭声能对我们进行提醒和告诫，火车轮子的吱吱声和心脏的杂音使我们能做出质量的评价和临床的诊断，通过听觉人们可获得声音所传递的各式各样的信息，是认识外界的仅次于视觉的重要信息源。听觉常常被认为是处于次要地位的，因为耳朵“只是告诉我们眼睛往哪里看”( g a v e r , 1 9 9 7 ) ，但是，应该强调指出，声音是一个独立的媒体，它能提供许多视觉无法提供的信息。视觉依赖光反射，因而视觉告诉我们物体的表面、大小、形状等信息；耳朵感受空气的振动方式，声音携带物体的密度和空心程度等信息，因而听觉告诉我们物体的一些内部情况。声音的另一个特性是可以快速传达信息，我们听到的要比我们看到的短暂。用g a v e r 的话说：“声音在时间上存在，超越空间；而视觉在空间上存在，超越时间”( g a v e r , 1 9 9 7 ) 。空间上，声音有优势，我们可以在黑暗中，在远处，不用朝向特定的方向就可以听到另一个人的说话。研究表明，昕觉通道有许多优越性，如： 1 ) 听觉信号检测快于视觉信号检测的速度。 2 ) 人对于声音信号随时间的变化极其敏感。 3 ) 声音信号所具有的全向特性可作为引导视觉对目标进行细调分析的粗调机制，即所谓“听觉是视觉的眼睛”。 4 ) 听觉信息与视觉信息同时提供可使人获得更强烈的存在感和真实感。听觉的一个弱点是我们无法躲开声音，也不能关闭自己的耳朵。 2 语音与非语音语音是最显然的信息携带声音( i n f o r m a t i o n c a r r y i n gs o u n d ) ，语音是人类交流的主要方式，它同时也是一种特定的表达听觉信息的方式，通常人们的感觉是：把听觉界面基于合成语音或者是录制的语音最方便，但是，有几个原因第8 页，共4 8 页塑翌盔兰塑主堂垒鲨壅j 笙蔓l 竖墅盟墅墅塑墨曼! 一使我们不能只用语音表达听觉信息：一个是因为语音比较慢，如果要表达一个相对较为复杂的信息，就需要较长的句子，这通常会使用户厌烦；二是听重复的语音让人厌烦：三是语音并不总是适合表达正在进行的任务，如拷贝文件，我们不希望听到“读取，读取，读取写入，写入，写入”这样的声音，轻微的打击节奏可能更好。由于语音相对更有强迫性和更要求注意力，因此在常规任务中的昕赏反馈要尽量避免使用语音。在有些情况下使用语音反馈有很大缺点，比如使用基于电话的界面或者是在读一个文本时。额外的语音信息可能干扰任务，b r e w s t e r 认为在基于电话的界面中，当语音既提供内容信息，又提供浏览操作信息时会带来些问题 f b r e w s t e r ，1 9 9 8 ) 。当然，语音同时又是一个非常有用的传达信息的方式，特别是在一些常用的界面中尤其明显。一个可能的应用方式应当是使用简短的抽象声音作为即时反馈，然后，如果用户不理解抽象声音的意思，根据要求( 比如：按键) 或者是一定时间的延迟后给出语音提示。在听觉界面中使用的非语音声音包括环境声音( 或者叫做自然声音、日常声音) 、乐音等等。非语音在听觉界面中的应用包括以下几个方面： 1 科学计算可听化方面的应用。前面提到的听觉显示在可听化方面的应用几乎都是使用非语音的。 2 针对盲人或者是视觉有缺陷的用户，使他们也能够使用计算机。 3 用户界面方面的应用。本文介绍的应用大部分都是针对非语音，比如耳标和听标，它们又可以总结为以下几个方面： 1 ) 状态和监视信息 2 ) 告警信息 3 ) 听觉信号作为视觉信号的辅助来给用户足够的信息 4 ) 协作工作 5 ) 多媒体应用理论上来说，主要有两种产生处理非语音声音的方法： 1 ) 数字采样和存储，如果需要的话，同步搜索和播放。 2 ) 通过改变相关的声音参数，在一个较高的层次上模式化声音数据，这相对来说，需要比较小的存储率( d a r v i s h i ，e ta l ，1 9 9 4 1 。第9 页，共4 8 页听觉界面及其应用开发平台的实现第二章听觉界面设计基础 3 声音的多维度与多效应特性 3 1 声音的多维度特性声音是种多维度媒体，这给设计抽象听觉界面带来了很大的灵活性。设计听觉界面的中心问题之一就是：听觉空间中有多少维度和变量是可用的? 声音可以从两种不同的角度来描述：从物理声学的角度，声音包括主频、幅度和频谱；从心理声学的角度，声音包括音调，响度和音色，音调与频率不是线性的关系( 频率增加一倍，音调加个八度) ，响度和幅度之间也没有线性关系。声音有三个基本属性：和声，非和声和噪音。和声听起来相当纯，因为它们的频谱只包括基频整数倍的频率。大多数自然声音甚至大多数乐器声音都是非和声，但恰恰是这些微小的非和声给了它们特有的音色，噪音在物理意义上是声音的随机频谱，而在心理声学上，噪音是让听者厌烦的非和声结构。粗略来说，声音的维度大致有：音调，音色，响度，持续时间和方向。当然，必须强调的是：正如上面指出的，声音的这些维度在一定程度上相互依赖，并不是独立的物理量。音调是声音的一个主要参数，主要决定于频率。音调并不总是可用的，因为只有声音的规则波形持续一定的时间，声音的音调才能被人类感受到 ( w i s h a r t 1 9 9 6 ) ，如果使用音调来传达信息，除非用户是接受过音乐训练的，否则离散的音调几乎是没有什么用的。不过，大部分人都应该可以区分出两种声音之间音调上的实质性不同。使用间歇的音调变化( 一段时间内音调发生些变化) 来映射信息应该是比较方便的，大多数人都可以听歌曲和唱歌表明人类对音调的变化比较敏感。音色是声音最常用的维度，音色是由泛音结构、和声内容等等构成的复杂功能，这些声学元素通过傅立叶分析，大部分能够在声谱分析图中看到( w i s h a r t ， 1 9 9 6 ) 。音色的最大优点在于：几乎不需要任何参照物，离散的音色就可以很轻易的辨认出来，比如军号声。就可以很容易的辨认出并能够长时问的记忆。响度对于信息的交互来说，是一个相对用处较小的参数。用户很可能希望自己控制所有1 0 个不同级别( 目前常用的区分音量大小的分级方式) 的音量大小，第1 0 页，共4 8 页浙江大学硕士学位论文第二章听觉界面设计基础这阻碍了使用音量作为信息交互的参数。另外，区分离散的音量大小是非常难的。当然，如果和音调配合，在短时间内音量方面的变化还是可以感觉到的。持续时间方面的不同增加了第四个维度，这个维度是声音固有的。在持续时问方面的差别也很难区分，除非差别非常明显。方向性是设计听觉界面时的一个非常有用的参数。但是，很多常用的电子设备，比如：移动电话，都是非立体声的。如果使用立体声作为听觉界面的输出，方向就成了一个可用维度。方向性提供了个非常有用的区分不同声音的可能。通过使用立体声或者是环绕声，空间维度可以很好的映射到信息。 3 2 鸡尾酒会效应个解决听觉界面一维线性缺陷的办法，是同时使用多个声音流，这样就可以把不同的听觉应用程序，在听觉桌面( a u d i t o r yd e s k t o p ) 上显示出来，就像现在视窗桌面所做的：用重叠窗口把两维桌面扩展到多个层次。经常提到的鸡尾酒会效应，描述了在一个嘈杂的环境中，在多个对话和各种环境声音中，人类能够把注意力集中在某个对话上的能力。这个效应可以在听觉界面中有意识地使用，在某种程度上，这比使用两维的视觉桌面显示要优越。最近的研究( k a l t e n b r u n n e r ，e ta i 。2 0 0 0 ) 表明：用多个声音线索来表明来自不同数据源的不同事件，在听觉桌面中跟踪和显示这些声音线索，比监视多个层叠窗口的行为要来得容易。如果配合使用三维空间声音和其他的一些声音效果( 后面的章节讨论) ，可以更好的区分不同的声音源。在听觉桌面环境下，多个应用程序或者是一个程序的多个不同的线程，可以同时进行。我们可以想象一下网页浏览器，一个下载任务在后台运行，用一个标准的听觉进度条来表明；同时用户可以继续浏览网页，附加的背景声音不会干扰前台的人机交互。另外，还可以有另一个后台程序来表明当前c p u 的占用情况。如果某个后台应用程序需要一些输入，用户可以把它们调到前台，同时中止原来正在进行的任务。当然，过多的产生声音输出的应用程序，很容易产生一个嘈杂的环境，从而使得前台的任务很难进行下去。因此后台的程序在音量方面应该明显的低于前台的应用程序，同时，在设计这样的应用时，后台的程序应该没有侵占性，第1 1 页，共4 8 页昕觉界面及其应用开发平台的实现第二章听觉界面设计基础或者是侵占性尽量的少。因为这样的设计，即使在视觉界面中也是令人难以忍受的。 3 3 空间声音区分当前任务的另一个可行的办法是采用空问声音，在听觉界面中配备一个好的头戴式立体声耳机，或者是一个好的扬声器系统，都是使用空间声音的可能方式。这样就可以把任务的听觉输出定位到特定的听觉空间。空间听觉能力使我们可以区分出声源的距离和方向。我们通过声音信号中的密度( 也就是音量) 的变化来感觉距离的远近，这是一个单耳( m o n a u r a l ) 处理过程，意思是我们只需要一个耳朵就可以完成这个任务。如果要确定方向，就需要双耳 ( b i n a u r a l ) 处理过程。这与视觉显示中，来自左眼和右眼的不同图像，形成立体深度感觉一样。声源的空间位置可以通过声音信号到达双耳的音量级别、时间、相位的差异来确定。耳间时间延迟( i n t e r a u r a lr i m ed e l a yi t d ) 一般不会大于 0 6 5 毫秒，当双耳离声源的距离不同时，就会产生强度上的差异。声源很少发自人体的正中砸，这样它与双耳的距离之差就产生双耳声强差( i n t e n s i t y d l i f e r e n c eo ft h et w oe a r s ，i d t e ) ，向头部投下一个声影( s o u n ds h a d o w ) ( 类似光的影子) ，与声源方向相反的一个耳朵处在声影之中，从侧面来的声音必须绕过头部才能到达另一个耳朵。在声音到达之前，许多声波己被头部与其周围的物体吸收，因此到达另一个耳朵的声音强度相对较弱( 杨治良，1 9 9 7 ) 。一般来说，人类有很好的声音信号定位能力0 n e n z e l ，e ta l ，1 9 9 1 ) 。但是，也有几个相关的问题出现，比如：附近的声源对声音定位的干扰 ( w i g h t m a ne ta l ，19 9 7 ) - 还有人体正前面和正后面的声音容易混淆 ( a r r u d ee ta l 。1 9 9 2 ) 等等，由于这些问题，只有有限的几个点是可用的。假设有一个半球围绕头的前部，除了中心外，还有九个不同的可用的点( 如图2 2 所示) 是可以用的。这个数目行锈，。物图2 2 ：空问中容易辨另0 的九个点第1 2 页，共4 8 页浙江大学硕士学位论文第二章听觉界面设计基础对放置不同的应用程序是足够的。当然还需要进一步的实验来确定同时进行的应用程序之间相互干扰等问题。除了在电脑游戏和虚拟现实( 如v r m l 。j a v a 3 d ) 集成三维声音外，还有一些研究工作致力于把空间声音应用到用户界面中。比如n o m a d i cr a d i op r o j e c t 就是由m i t 的语音界面开发组开发的可穿戴式听觉界面，它采用空间声音作为不同信息来源的定位方法。还有一些关于实时可听化和虚拟环境的研究正在进行中。听觉界面中的三维空间声音算法不需要太复杂而且可以使用一些已有的空间声音库( r s x 3 d ，2 0 0 0 ) 。这样只需要比较小的系统资源，同时提供丰富的空问信息。 3 4 声音的其他效应声音还有一些效应特征，这些效应同样可以在听觉界面的开发中有意识地使用： 1 ) 掩蔽效应( m a s k i n g ) ：掩蔽效应是一个声音掩盖另一个的现象，高响度的掩蔽低响度的，低频的掩蔽高频的( m p e g 3 声音压缩算法利用了这一规律) 等等。在一个嘈杂的环境中，你可能听不到一个人的讲话，就是声音的掩蔽效应造成的。 2 ) 流效应( s t r e a m i n g ) ：流效应是指人类常常把几个不同的声音感受为一个虚拟声源发出的想象。 3 ) 回声、反射、变形等效应：我们能够根据声音来大致判断我们和声源之间的距离。就是利用了回声和反射。我们听到的声音音量大小和我们对距离的感知有关系，一个重要的原因是我们感知直接声音与回声比率的大小 ( g a v e r ，1 9 9 7 ) ，如果听者距离声源近的话，直接声音的等级比回声的要高；随着昕者距离的拉远，直接声音逐步变得次要，而回声和反射的声音在全部声音中逐步变得主要。当有多个应用程序同时进行时，确定是哪个应用程序的输出是个问题，使用声效是个可行的选择。因此，听觉界诼应该选用一些容易区分的事先定义的声效。回声可以运用到一些在较远的位置发生的事情。声音的严重变形，可以用来表明一些故障的发生。这使我们可以对不同的应用程序，在不同的上下文第1 3 页，共4 8 页听觉界面及其应用开发平台的实现第二章听觉界面设计基础环境中，使用同样的一套非语音来完成多个任务。方面，这方便用户记忆，同时也很容易和它们表征的事件相关联：另方面，附加的声效，可以把它们绑定到一个特定的应用，或者是提供一个微小的意义差别。 4 声音一信息映射听觉界面从整体上来说，它的呈现方式和视觉界面不同。视觉显示以桌面作为隐喻，需要经过概念和知觉映射，然后才能映射到视觉显示；而听觉界面以房屋作为隐喻，具有直接知觉映射的特点。正如视觉和听觉有一些相似的特性，声音和信息的缺射方式，与图标和信息的映射方式有一定的类似性，图标有三种映射方式： 1 ) 重现性图标：比如在m a c i n t o s h 界面中使用的垃圾筐的图标。 2 ) 抽象图标：比如在现在大多数窗口系统中使用的调节窗口大小的按钮图标。 3 1 半抽象圈标：比如w i n d o w s 操作系统图形界面中的系统硬盘图标。 1 m 被水绍孵戍峨- 撕：嚣；触鬣 e j 弓w 撵i f i l 镰1 ；图2 - 3 ：听觉界面和视觉界面映射方式比较第1 4 页，共4 8 页浙江大学硕士学位论文第二章听觉界面设计基础 g a v e r 总结了在非语音听觉界面中使用声音传达信息的三种不同的方式 ( b a r f i e l d ，e ta 1 1 9 9 1 ) ，它们和图标的映射方式很相似： 1 ) 抽象任意映射( s y m b o l i c - - a r b i t r a r ym a p p i n g ) ；这种映射方式依赖社会传统意义，比如警报声报警，掌声表示鼓励，十字表示基督等等； 2 ) 普通映射( n o m i cm a p p i n g ) ：这种映射方式依赖声源的物理特性和声音产生的物理意义，比如：乐器的声音和乐器的物理设计之间的关系、幅图画与它所描绘的场景之间的关系都是普通映射。 3 ) 隐喻映射( m e t a p h o r i c a lm a p p i n g ) ：要呈现的物体和呈现的系统之间有一定的相似性不是完全任意，但是不使用物理意义，比如：树形图来表示家谱就是一个很好的例子，树形图本身不是家谱，但是它和家谱之问有很好的类比性，它们的结构相同。再如：下降声调表达“下落”的意义也是隐喻映射。抽象任意映射和隐喻映射之间差别非常明显，但是普通映射和隐喻映射，以及普通映射和抽象任意映射之间的界限，都是很容易混淆的。k r a m e r 因此重新定义了g a v e r 的分类方法，把它们统一为类比映射( a n a g o g i cm a p p i n g ) 和抽象映射( s y m b o l i cm a p p i n g ) ( k r a m e r ，1 9 9 2 ) 。使用k r a m e r 的定义方法，昕标大体上应该归类于类比映射，而耳标是属于抽象映射的。耳标是主观地映射到界面中的事件和物体的，没有任何相似性限制，因此，耳标更多的是关注界面设计时的审美、工效特性，这在听标设计中几乎是不可能的。正因为耳标的设计方法相对更为自由，因此可以设计一个较为舒适而不是那么令人讨厌的耳标化音乐界面，界面中复杂的信息可以利用结构化声音参数化耳标来传达。第1 5 页，共4 8 页听觉界面及其应用开发平台的实现第三章听觉界面设计第三章听觉界面设计目前还没有成熟的听觉界面的指导理论，需要有系统的、完全的实验和调查，来搞清楚声音形式和功能之间存在的关系。在听觉界面中使用声音的一些一般性原则，总结如下( 朱祖祥，1 9 9 4 ) ： 1 ) 听觉刺激所代表的意义一般应与人们已经习得的或者自然的联系相一致。例如，高频、低频声音应分别与“高速”与“低速”、“向上”与“向下” 等意义相联系。选用的信号应尽量避免与已习得的信号在意义上相矛盾。 2 ) 采用声音的强度，频度，持续时间等维度做信息代码时，要避免使用极端值，代码数目不能超过使用者的绝对辨别能力。 3 ) 尽量使用间歇或可变的声音信号，要避免使用稳定信号，使对声音的听觉适应减至最小。 4 ) 不同的声音信号尽量分时呈现，其时间间隔不宜短于1 秒。 5 ) 显示复杂的信息时，可采用两级信号，第一级为引起注意的信号，第二级为精确指示的信号。 6 1 对不同的场合使用的听觉信号尽可能标准化。至于听觉界面的应用场合问题，e d w o r t h y 认为：除了针对盲人或者弱视者外，考虑上下文影响非常重要，在些用户需要到处走动，并且工作在个已经视觉过载的任务的话，听觉界面将是晟有用的额外反馈。另一方面，如果用户工作在一个视觉简单的任务，并且物理工作环境相对嘈杂和紧张的话，那么

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（电路与系统专业论文）听觉界面及其应用开发平台的实现.pdf

文档简介

温馨提示

最新文档

评论

（电路与系统专业论文）听觉界面及其应用开发平台的实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档