




已阅读5页,还剩94页未读, 继续免费阅读
(控制理论与控制工程专业论文)能量控制中心交互系统的相关技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学博士学位论文 摘要 交互系统是能量控制中心的重要组成部分,其包含了人机交互和人人交互两个部 分。好的交互系统能提升调度员分析、解决系统相关问题的速度,提高调度员日常调度 以及事故处理时的效率,为良好的经济调度和安全控制提供保障。相反,设计不合理的 交互系统会降低调度员的工作效率,甚至会间接影响到系统的安全性和稳定性。 随着电力系统的互联以及系统规模的不断扩大,需要监控的信息越来越多,调度员 的工作任务也随之加重,现有的交互系统并不能很好地满足实际需求。为减轻调度员的 工作负担,提高调度员的工作效率,应充分利用先进的计算机交互技术对能量控制中心 的交互系统加以改进。该文对能量控制中心人机交互以及人人交互的相关技术进行了研 究。 首先,对人机交互输出端进行探索,提出了关联多屏显示的新概念,并以电力系统 的应用环境为研究背景,在充分考虑电力系统需要显示的实际内容以及调度员的操作需 要后,对关联多屏显示的关联关系进行了分类。接着讨论了关联多屏显示的硬件配置以 及软件实现方式。 针对目前人机交互研究的薄弱点输入端展开研究,提出了能量控制中心人机交互设 计时所需要遵循的3 个要素,并在此基础上归纳了6 条输入端设计准则。这些准则既充 分考虑了调度工作的重要性,也关注了调度员的健康和工作时的舒适程度,以期让调度 员在一个良好的输入环境中完成高质量的工作。该设计准则可为新型人机交互输入端的 设计提供参考。 在人机交互设计的3 个要素以及输入端设计准则的指导下,针对目前e m s 人机交 互的输入端展开进一步研究。通过剖析人机交互的输入端,并比较几种常用输入工具的 特点,提出了将语音识别与鼠标、键盘相互融合形成新的输入端的观点。在改进后的人 机界面中,对语音识别、鼠标和键盘3 类输入工具进行了输入任务的重新分配,最终在 命令控制上形成了以语音、鼠标相互配合为主体的输入模式。与传统的人机界面相比较, 改进后的人机界面在操作效率、输入的自由度以及输出端的显示能力上都具有明显的优 势。 为弥补现有能量控制中心人人交互的不足,设计了基于互联网的调度员多通信媒体 交互平台,其包含调度员即时通信系统和调度员信息发布与查询系统两个子系统。通过 运用文本交互并结合其他的多种交互手段,形成了一个能够实现信息的“过程保留”、 解除“信息屏蔽”、支持多人交互以及支持多种交互手段的调度员交互平台,从而使得 调度员之间的交互变得更丰富、更有效、更直接。 能量控制中心交互系统的相关技术研究 基于该文对交互系统相关技术进行的研究,构想了能量控制中心新一代的交互系 统,并提出一体化设计理念,以期达到优化整合、协调配合各部分工作的目的。 最后对人机交互的设计理念进行了探讨,从能量控制中心人机交互的特点出发,充 分考虑系统和调度员对人机交互设计的需求以及需求间的关系,进而提出“以系统为中 心的人机交互设计理念。 总之,该文对能量控制中心的交互系统进行了较为系统的研究。提出了关联多屏显 示的新概念;提出了人机交互输入端的设计准则;引入语音识别技术,改进了现有人机 界面的输入端:为提高人人交互的能力,设计了基于互联网的调度员多通信媒体交互平 台;并基于上述的相关技术,对能量控制中心新一代的交互系统进行了构想;最后对能 量控制中心人机交互的设计理念进行了探讨。本文所作的研究可为能量控制中一t l , 交互系 统的设计提供参考。 本文得到国家自然科学基金项目( 项目编号:5 0 5 7 7 0 0 2 ) 的资助。 关键词:能量控制中心;人机交互;人人交互;关联多屏显示;语音识别 大连理工大学博士学位论文 r e s e a r c ho nr e l a t e d t e c h n o l o g i e so f i n t e r a c t i o ns y s t e m sf o re n e r g y c o n t r o lc e n t e r s a b s t r a c t a st h ei m p o r t a n tc o m p o n e n to fe n e r g yc o n t r o lc e n t e r s ,t h ei n t e r a c t i o ns y s t e m sw h i c h c o n t a i nh u m a n - c o m p u t e ri n t e r a c t i o na n dh u m a n h u m a ni n t e r a c t i o np l a y sad e c i s i v er o l ei nt h e o p e r a t o r s d a i l yw o r k ag o o di n t e r a c t i o ns y s t e mc a np r o t e c t st h es y s t e m se c o n o m y ,s t a b i l i t y a n ds e c u r i t yb ye n h a n c i n gt h eo p e r a t o r s e f f i c i e n c yo fa n a l y z i n ga n dr e s o l v i n gp r o b l e m s o n t h ec o n t r a r y ,t h ei n t e r a c t i o ns y s t e mw i t hu n r e a s o n a b l ed e s i g n i n gw i l lr e d u c et h eo p e r a t o r s e f f i c i e n c y m o r e o v e r ,t h es y s t e m se c o n o m y ,s t a b i l i t ya n ds e c u r i t yw o u l db e a f f e c t e d i n d i r e c t l y w i t ht h ei n t e r c o n n e c t i o na n dc o n t i n u o u se x p a n s i o no ft h ep o w e rs y s t e m ,t h e r ei sm o r e i n f o r m a t i o nn e e dt ob em o n i t o r e d i nm a n yc a s e s ,t h ee x i s t i n gi n t e r a c t i o nt e c h n o l o g i e sc a nn o t s u p p o r tc o m p l e t i n gt h et a s k sv e r yw e l l i no r d e rt or e d u c et h eo p e r a t o r s b u r d e na n di m p r o v e t h ew o r ke f f i c i e n c y ,a d v a n c e dc o m p u t e rt e c h n o l o g i e ss h o u l db eu s e df u l l yt oi m p r o v et h e i n t e r a c t i o ns y s t e m so ft h ec o n t r o lc e n t e r s i nt h i sp a p e r ,r e l a t e dt e c h n o l o g i e so ft h ec o n t r o l c e n t e r s i n t e r a c t i o ns y s t e m sa r es t u d i e d f i r s t ,t h eo u t p u ts i d eo fh u m a n c o m p u t e ri n t e r a c t i o ni se x p l o r e d c o r r e l a t e dm u l t i s c r e e n d i s p l a ya san e wi d e ai sp u tf o r w a r d t h ec r u c i a la t t r i b u t ec o r r e l a t i v i t yi sc l a s s e di n t of o u r s o r t sa c c o r d i n gt ot h ea c t u a lc o n t e n t sw h i c hn e e dt ob ed i s p l a y e da n do p e r a t o r s o p e r a t i n g r e q u i r e s o nt h eb a s i so ft h ec o r r e l a t i v i t yc l a s s i f i c a t i o n ,t h ec o r r e l a t e dm u l t i - s c r e e nd i s p l a y s y s t e mc a nb ee s t a b l i s h e df o rt h es p e c i f i cp r o b l e m s a n da l s o ,b o t ho ft h eh a r d w a r ea n d s o f t w a r er e a l i z a t i o np r i n c i p l e sa r ed i s c u s s e d s u b s e q u e n t l y ,t h et h e o r yo fi n p u ts i d ei ss t u d i e d a tf i s t ,t h r e ef a c t o r s ( o p e r a t i n ge f f i c i e n c y , c o g n i t i v el o a d ,n a t u r a l n e s s ) f o rd e s i g n i n gt h eh u m a n - c o m p u t e ri n t e r a c t i o no fe m sa r e p r e s e n t e d o nt h eb a s i so ft h e s ef a c t o r s ,s i xd e s i g nr u l e sf o rd e s i g n i n gt h ei n p u ts i d ea r e p r o p o s e d t h e s er u l e sd e m a n db a l a n c i n gt h e s ef a c t o r sa n dp r o v i d i n gas a t i s f y i n gi n p u t e n v i r o n m e n t ;i m p r o v i n gt h ee n t i r ei n p u ta b i l i t yo fh u m a n c o m p u t e ri n t e r f a c eb yc o o p e r a t i n g e a c hi n p u tt o o l sa n dt h eu s eo fn e w a l g o r i t h m t h e s er u l e sc a l lg u i d et od e s i g nt h en e wi n p u t s i d eo fh u m a n - c o m p u t e ri n t e r a c t i o n o nt h eb a s i so ft h ei n p u ts i d ed e s i g nr u l e s ,t h ei n p u ts i d ew h i c hi st h er e l a t i v e l yw e a ks i d e o ft h ec u r r e n te m s sh u m a n c o m p u t e ri n t e r a c t i o ni sf u r t h e rs t u d i e d t h r o u g ha n a l y z i n gt h e i n p u ts i d eo fh u m a n c o m p u t e ri n t e r a c t i o na n dc o m p a r i n gt h ec h a r a c t e r i s t i c so fs e v e r a lu s u a l i i i 能量控制中心交互系统的相关技术研究 t o o l s ,an e w i d e at h a tu t i l i z i n gs p e e c hw i t hm o u s ea n dk e y b o a r di sp r e s e n t e d i nt h ei m p r o v e d h u m a n c o m p u t e ri n t e r f a c e ,t h eo p e r a t i o nt a s k sa r ea s s i g n e dt os p e e c hr e c o g n i t i o n ,m o u s ea n d k e y b o a r d c o m p a r e dt ot h et r a d i t i o n a lh u m a n c o m p u t e ri n t e r f a c e ,t h ei m p r o v e do n eh a sm o r e o p e r a t i o n a le f f i c i e n c y ,b e t t e rf l e x i b i l i t ya n do u t p u tc a p a b i l i t y a no p e r a t o rm u l t ic o m m u n i c a t i o nm e d i u mi n t e r a c t i o np l a t f o r mi se s t a b l i s h e d ,w h i c hi s b a s e do nt h ei n t e r n e tf o ri m p r o v i n gh u m a n - h u m a ni n t e r a c t i o no ft h ec o n t r o lc e n t e r s i t i n c l u d e st w os u b s y s t e m s :i n s t a n tc o m m u n i c a t i o ns y s t e ma n di n f o r m a t i o ni s s u i n ga n dq u e r y s y s t e m t h e nt h e i rp r i n c i p l e sa n dr e a l i z a t i o n sa r ed i s c u s s e d c o m p a r e dw i t ht e l e p h o n e ,t h i s p l a t f o r mc a ns a v ep r o c e s so fi n f o r m a t i o n ,a v o i ds h i e l d i n gi n f o r m a t i o n ,s e r v ef o rm u l t i p l e o p e r a t o r sc o m m u n i c a t i n gs i m u l t a n e i t y ,o f f e r sm a n yc o m m u n i c a t i o nm e t h o d sa n d s oo n b a s e do nt h er e s e a r c ho ft h er e l a t e dt e c h n o l o g i e sb e f o r e t h ei n t e r a c t i o ns y s t e mi se x p l o r e d a tf i r s t ,an e wi n t e r a c t i o ns y s t e mo fc o n t r o lc e n t e r si sp r e s e n t e d ,w h i c hc o n t a i n sh u m a n - c o m p u t e ri n t e r a c t i o na n dh u m a n - h u m a ni n t e r a c t i o n a l s o ,t h ei n t e g r a t i o nd e s i g ni sp r e s e n t e d i no r d e rt oo p t i m i z et h ei n t e g r a t i o na n dc o o r d i n a t i o no fa l li n t e r a c t i o ns y s t e m sp a r t s f i n a l l y ,t h eh u m a n c o m p u t e ri n t e r a c t i o nd e s i g nc o n c e p ti sd i s c u s s e d a c c o r d i n gt o t h e c h a r a c t e r i s t i co ft h ec o n t r o lc e n t e r s h u m a n c o m p u t e ri n t e r a c t i o n ,t h r o u g hf u r t h e ra n a l y s i so f t h ei n t r i n s i c r e l a t i o n s h i p b e t w e e nt h e o p e r a t o r sa n ds y s t e m ,t h e r e l a t i o nb e t w e e n h u m a n - c o m p u t e ri n t e r a c t i o n sd e s i g nd e m a n d so ft h eo p e r a t o r sa n ds y s t e mi s k n o w n 1 1 1 e d e s i g nc o n c e p t ”s y s t e m c e n t r i c ”i sp r o p o s e da n dc o n d u c t e d a tt h ee n d i nc o n c l u s i o n ,t h i sp a p e rs t u d i e so nt h ei n t e r a c t i o ns y s t e mo fe n e r g yc o n t r o lc e n t e r s ,i n t h e o r y ,c o r r e l a t e dm u l t i s c r e e nd i s p l a ya n dt h ei n p u ts i d e sd e s i g nr u l e sa r ep u tf o r w a r d ; s p e e c hr e c o g n i t i o ni si n t r o d u c e dt oa d dt o t h et r a d i t i o n a li n p u ts i d e ;o p e r a t o r si n t e r a c t i o n s y s t e mb a s e do nt h ei n t e m e ti sd e s i g n e di no r d e rt oi m p r o v et h ea b i l i t yo fh u m a n - h u m a n i n t e r a c t i o n ;an e wi n t e r a c t i o ns y s t e ma r ep r o p o s e d ;t h ed e s i g nc o n c e p to fh u m a n c o m p u t e r i n t e r a c t i o ni sd i s c u s s e d t h er e s e a r c ho ft h i sc a np r o v i d et h e o r yb a s i sa n dt e c h n o l o g ys u p p o r t w h e nd e s i g n i n gt h ei n t e r a c t i o ns y s t e mo fc o n t r o lc e n t e r s t h i sr e s e a r c hw o r ki ss u p p o r t e db yt h en a t i o n a ln a t u r es c i e n c ef o u n d a t i o no fc h i n au n d e r g r a n t5 0 5 7 7 0 0 2 k e yw o r d s :e n e r g yc o n t r o lc e n t e r s :h u m a n c o m p u t e ri n t e r a c t i o n ;h u m a n h u m a n i n t e r a c t i o n ;c o r r e l a t e dm u l t i s c r e e nd i s p l a y ;s p e e c hr e c o g n i t i o n i v 大连理工大学博士学位论文 外文缩略语说明 一v 一 独创性说明 作者郑重声明:本博士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 f , 作者签名:迭垒坠日期:兰12 :! :生 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定 ,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者躲堡垒垫 翩弛越 兰4 年上月土日 大连理工大学博士学位论文 1 绪论 1 1 研究背景 能量控制中心是现代电力系统的枢纽,对保障系统的安全性和经济性起着至关重要 的作用。其中,交互系统是整个能量控制中心重要的一个环节,其包含人机交互和人 人交互两个部分,分别负责将调度员与系统、调度员与远程调度员之间紧密地联系在一 起。 随着电网互联、电力系统的市场化,以及电力系统规模的不断扩充,能量控制中心 的调度员所需要掌握的数据量以及数据类别都在不断增多瞳1 ,这无疑将增大调度员在安 全控制以及经济调度工作中的难度,同时也对交互系统提出了更高的要求。 能量控制中心的人机交互即调度员和控制中心相关设备( 主要是计算机) 之间的交 互。计算机以及模拟盘负责将系统运行的相关信息呈现给调度员,调度员则通过操作计 算机获取有用的信息,并间接地对系统下达指令。在现代能量控制中心中,人机交互即 指能量管理系统( e n e r g ym a n a g e m e n ts y s t e m ,简称e m s ) 口1 的人机交互,主要包括控 制台、大屏幕以及模拟盘的交互部分,而控制台是其中最主要的构成部分。如无特殊说 明,下文所提及的e m s 人机交互均特指控制台的人机交互部分。 人机交互的具体表现形式被称为人机界面( h u m a nc o m p u t e ri n t e r f a c e ) ,又被称 为人机交互系统( h u m a nc o m p u t e ri n t e r a c t i o ns y s t e m ) 。人机界面指用户与含有计算 机的机器系统之间的通信媒体或手段,是人机双向信息交互的支持软件和硬件,它的物 化体现是有关的支持软件和硬件。能量控制中心中,一个设计良好的人机界面能提升调 度员分析、解决系统问题的速度,提高调度员日常调度以及处理事故时的效率,为良好 的经济调度和安全控制提供保障。相反,设计不合理的人机界面会降低调度员的工作效 率,甚至会间接影响到系统的安全性和稳定性。一个优秀的人机界面应该做到:调度员 能够快速、准确地输入命令;计算机清晰、快速、合理地展现调度员所关心的信息。 伴随着计算机相关技术的发展,e m s 的人机界面也在不断地进行改进,但与计算机 领域的交互技术相比,e m s 的交互技术发展速度略显缓慢。随着电力系统需要监控的信 息越来越多,调度员的工作任务也逐渐加重,现有的人机界面及其交互技术并不能最大 程度地满足要求。为减轻调度员的工作负担,提高人机界面的交互效率,应充分利用现 有的交互技术对能量控制中心的人机交互部分加以改进。 现代能量控制中心的人机交互将朝着“利用人机工程原理,用人类最容易认识的方 式表达重建后的电力信息,实现可视化表达,甚至动用人类各种感官,实现人和计算机的 全面沟通”n 1 的方向发展。该发展方向指明一方面在人机交互的输出端应继续加大可视 能量控制中心交互系统的相关技术研究 化技术乜5 。7 3 的研究和应用推广力度,并在以视觉输出为基础的前提下,努力研究其他多 种感官输出的可能性,增强多媒体输出的能力;另一方面,对输入端也提出了更高的要 求,而现阶段调度员的输入过程仍主要依靠鼠标和键盘等间接的交互设备,距离“动用 人类各种感官”的目标相差甚远。 近1 0 多年来,国内阳叫2 1 和m j l n 3 叫7 1 电力系统可视化方面的研究成果都已颇为显著, 取得了很大的进展。除了可视化技术之外,还有其他的一些显示技术在人机交互中起着 极其重要的作用,但较少被关注,如多屏显示。在能量控制中心中,多屏显示技术在电 力系统中有着悠久的使用历史,但其应用模式一直没有改变。现在的多屏显示通常用来 和可视化技术相互结合使用,如果更加合理地使用多屏显示,势必能更大限度发挥可视 化的作用,从而提高人机交互效率。因此,在加大可视化研究力度的同时,应适当研究 可视化周边其他的输出方式。 输入端的研究甚少,很大原因在于长期以来计算机领域并未有成熟的新技术可供使 用。但随着人机交互技术的不断发展,有很多新技术涌现出来,如语音识别8 驯、手势 识别乜卜23 1 、视线跟踪乜4 。2 7 1 等,这些输入技术既可以单独使用,更可以相互组合成多通道 界面心8 剖,其中较为常见的组合方式为语音手势2 删,语音视线。璩删,语音手写笔口争引3 等。在能量控制中心中,如何筛选这些新型的输入技术,以及怎样将其与传统的输入技 术进行配合都值得研究。 能量控制中心中,人人交互即指远程调度员之间的通信。无论是日常的经济调度、 系统监控,还是在紧急情形下进行事故处理,调度员之间都需要保持紧密的联系。而目 前调度员之间仍沿用着以电话为主的即时通信模式,尽管电话有着信号稳定、覆盖面积 广等优点,但与基于互联网的通信模式相比较,交互手段略显单一。在互联网和相关技 术极其发达的今天,有必要对能量控制中心中新的人人交互方式进行探索。 1 2 发展回顾 1 2 1 计算机交互技术发展回顾 人机交互方面: 早期的人机交互处于手工作业阶段,由用户通过手工操作来控制计算机。当时计算 机的程序采用联线的方法在小接线板上相互连接,后来用穿孔卡片和穿孔纸带,由专门 的阅读器输入程序和数据。对计算机的操作和调试是通过控制面板上的开关、按键和指 示灯来进行【4 2 】。 从2 0 世纪5 0 年代中后期开始,人们开始探索真正意义上的人机界面,直到6 0 年 代,字符用户界面( c h a r a c t e ru s e ri n t e r f a c e ,简称c u i ) 诞生,该界面又被称方命令 大连理工大学博士学位论文 语言界面( c o m m a n dl a n g u a g ei n t e r f a c e ) ,或命令行界面( c o m m a n dl i n ei n t e r f a c e ) 。 该人机界面的两类不同名称分别表征了该界面输出端和输入端的特点:在输出端,主要 工具为字符显示器,输出信息的形式多为字符和文本;在输入端,主要工具为键盘,输 入指令为命令语言。命令语言的典型形式是动词后面接一个名词宾语,即“动词+ 宾语” 结构,二者都可带有限定词或量词。命令语言可以具有非常简单的形式,也可以有非常 复杂的语法。命令语言要求惊人的记忆和大量的训练,并且容易出错,使入门者望而生 畏,但比较灵活和高效,适合专业人员使用h 3 1 。 随后从2 0 世纪6 0 年代开始,人们开始探索新的人机界面。2 0 世纪8 0 年代初,第 二代人机界面图形用户界面( g r a p h i c su s e ri n t e r f a c e ,简称g u i ) 开始逐渐取代字 符用户界面,并一直沿用至今。这一阶段主要的输出工具为图形显示器,交互的内容主 要有文本、图形和图像等;输入工具主要为鼠标和键盘,上一代的命令语言输入方式逐 渐被鼠标结合菜单和命令按钮的输入模式所取代,而键盘仍主要被用来进行文本和数字 输入。 计算机领域对人机界面的研究一直没有停息,最近1 0 多年有很多新技术被广泛的 研究和应用,继图形用户界面之后人们开始探索新的交互技术,最引人注目的当属语音 识别技术以及多通道界面。本章将在接下来的两节予以详细介绍。 人人交互方面: 计算机领域的人人交互依托于网络技术,而计算机网络的发展经历了一个从简单到 复杂的过程,从为解决远程计算信息的收集和处理而形成的联机系统开始,发展到以资 源共享为目的而互联起来的计算机群。现在的计算机网络已经真正进入社会各行各业, 为社会各行各业所采用。 伴随着计算机网络的发展,人人交互的方式也在不断改变。其中影响深远的有电子 邮件、b b s ( b u l l e t i nb o a r ds y s t e m ,电子公告板) 以及i m ( i n s t a n tm e s s a g e r ,即时通信工具) 等。 电子邮件于2 0 世纪7 0 年代被发明,到8 0 年代中期,个人电脑兴起,电子邮件开 始在电脑迷以及大学生中广泛传播开来,9 0 年代中期,互联网浏览器诞生,全球网民人 数激增,电子邮件被广为使用。 b b s 诞生于1 9 7 8 年,最早是用来公布股市价格等信息,后来随着网络的发展应用范 围得以扩大。作为非即时交流性质的平台,用户可以在b b s 上发表以及查阅信息( 以文 本形式为主) 。b b s 有着良好的开放性,允许大量的用户同时发表或查阅信息。 i m 诞生于1 9 9 6 ,全世界第一个即时通讯软件名称为i c q ( is e e ky o u ) 。i m 支持 双人或者多人进行文本、语音和视频等方式的网络交流,除此之外,用户之间能够互传 能量控制中心交互系统的相关技术研究 文件以及共享彼此计算机里的资源等。工m 并不只是个人聊天休闲的工具,有很多企业已 经将其视为一种常用的办公软件。 1 2 2 语音识别技术简介 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命 令的技术n 8 1 。 1 2 2 1 发展历程 语音识别的研究工作可以追溯到2 0 世纪5 0 年代,当时a t & t 贝尔实验室实现了第 一个语音识别系统a u d r y 系统,该系统可以识别十个英文数字。6 0 年代,计算机的 应用推动了语音识别的发展。这时期的重要成果是提出了动态规划和线性预测分析技 术,其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影 响。7 0 年代,语音识别领域取得了较大的突破。在理论上,线性预测分析技术得到进一 步发展,动态时间归正技术基本成熟,特别是提出了矢量量化和隐马尔可夫模型理论。 在实践上,实现了基于线性预测倒谱和动态时间归正技术的特定人孤立语音识别系统。 8 0 年代,语音识别研究取得了巨大的突破,其显著特征是隐马尔可夫模型和人工神经元 网络在语音识别中的成功应用。进入9 0 年代,随着多媒体时代的来临,迫切要求语音 识别系统从实验室走向实用,许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t & t 、n t t 等著名公司都不遗余力地推动语音识别系统的实用化。语音识别的准确率在 2 0 世纪9 0 年代中后期实验室研究中得到了进一步提高。 我国语音识别研究工作一直紧跟国际水平,众多的科研机构都进行了深入地研究工 作,大词汇量语音识别的研究也被列入了“8 6 3 ”计划。鉴于中国庞大的市场,国外也 非常重视汉语语音识别的研究,汉语语音识别方面的研究成果已颇为显著。 1 2 2 2 语音识别系统的组成 计算机语音识别基本上是一个模式分类的任务。即通过学习,系统能够把输入的语 音按一定模式进行分类,整个过程与人对语言的识别和处理过程基本一致。目前主流的 语音识别技术是基于统计模式识别的基本理论,一个完整的语音识别系统如图1 1 所示。 该系统大致分为3 个部分u 引: 1 ) 语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。在语音识别 初期,输入的语音波形会被转换为一组离散的参数矢量,而语音特征提取负责去掉 相对无关的信息,例如背景噪音、信道失真等,只提取有价值的反映语音特征的相 关信息。 大连理工大学博士学位论文 2 ) 声学模型与模式匹配( 识别算法) :声学模型是识别系统的底层模型,并且是语音 识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生,目的 是为每个发音建立发音模板。在识别时将未知的语音特征同声学模型( 模式) 进行 匹配与比较,计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型 的设计和语言发音特点密切相关。声学模型单元大小( 字发音模型、半音节模型或 音素模型) 对语音训练数据量大小、系统识别率,以及灵活性有较大影响。比较常 用的识别分类方法有:样本匹配法、以知识准则为基础的判决系统、隐马尔可夫模 型以及神经网络等。 3 ) 语义理解:计算机对识别结果进行语法、语义分析,明白语言的意义以便做出相应 的反应。通常是通过语言模型来实现。 图1 i 语音识别系统示意图 f i g 1 1d e m o n s t r a t i o no fs p e e c hr e c o g n i t i o ns y s t e m 1 2 2 3 语音识别系统的分类 依据不同的分类标准,语音识别系统可以做出多种分类: 1 ) 从说话的方式分为:孤立词语音识别和连续语音识别。前者在输入过程中要求用户 在输入每个词之后稍微的停顿,后者允许用户自然地连续性输入。 2 ) 从词汇量的大小分为:小词汇量语音识别和大词汇量语音识别。前者大约只包含几 十个词汇,后者可以包含几千甚至上万的词汇量。 3 ) 从说话者的类型分为:特定人语音识别和非特定人语音识别。前者只允许特定的人 进行识别,后者可接受的使用人群更广。 在上述3 种分类中,前者的识别难度都要低于后者,因此前者的识别率通常都会比 后者的识别率更高。 能量控制中心交互系统的相关技术研究 1 2 3 多通道界面简介 在计算机领域,一个颠覆传统的界面多通道界面已经引起了广泛的关注。多通 道界面的应用范围甚广,既适用于p d a 、手机等小型移动设备,也适用于微型计算机, 同时在大屏幕显示系统中的应用潜力也已经得到了认可。 多通道界面使用多种交互设备( 语音输入输出装置、直接指点装置、视线跟踪装置、 触觉和力量反馈装置) ,通过多种交互方式的协作,利用彼此特性上的互补,方便用户 传达交互意图和理解计算机的输出,提高交互效率,增进交互的自然性盟刚。多通道界面 是人机界面的一个重要发展方向。 由于人机交互输出端的多媒体技术较为成熟,因而多通道界面主要是为了解决人机 交互输入端的相关问题。由于多通道界面由多个单一通道整合而成,故单一通道的研究 是建立多通道界面的基础。在目前单一通道的输入技术中,有以下几个备受关注的研究 领域: 1 ) 语音识别技术:详见第1 2 2 小节; 2 ) 手势识别技术:和语言一样,手势同样是我们表达思想以及获得信息的一个重要途 径,人们常常用手势辅助语言进行交流。在现有的人机界面中,手和手臂并不能直 接与计算机进行交互,而是通过操作键盘和鼠标等输入工具间接地控制计算机,能 够用手势和计算机进行直接的交互是研究手势识别的初衷。在多通道界面中利用手 势识别技术,首先要对日常生活中人们常用的手势有深刻的认识。文献 4 4 将手势 分为两个大类,一类是自发的手势( a u t o n o m o u sg e s t u r e s ) ,另一类是和语音紧 密联系的手势( g e s t i c u l a t i o n ) 。和语音紧密联系的手势可进一步分成3 类:直 指式( d e i c t i cg e s t u r e s ) 、符号式( i c o n i cg e s t u r e s ) 和象征和击打式( m e t a p h o r i c a n db e a tg e s t u r e s ) 。经过试验和观察得出,后两种手势在人机交互中很少被使 用5 1 ,有很多多通道界面应用的正是直指式手势。动态的手势过程可以看作是基于 时间一空间的随机过程,绝大多数的手势被建模为参数空间里的一条轨迹,目前应 用最为广泛的方法为隐马尔可夫模型h 副以及神经网络6 叫8 i 。最常用和最成功的识别 方法基本上都是基于隐马尔可夫模型的:隐马尔可夫模型是一个双重的随机过程, 其中之一是基本的随机过程( 被称之为马尔可夫链) ,它描述状态的转移;另一个 随机过程描述状态和观察值之间的统计对应关系。目前的手势识别技术分为以下两 类:基于数据手套h 争5 门的识别以及基于计算机视觉的识别乜副。其中基于数据手套的 准确率较高,但是价格比较昂贵,并且用户需佩戴专用的手套,便利程度和舒适度 较低。基于计算机视觉的识别使用多个具有自动跟踪功能的摄像机,计算机通过捕 捉到用户手势的图像进行识别,用户不需要佩戴任何设备,在操作上比较便利和舒 大连理工大学博士学位论文 适。从配置成本、使用的便利性和舒适性等方面考虑,基于计算机视觉的识别技术 应用前景更加广阔。 3 ) 视线跟踪技术:人们在获得视觉信息的时候,是通过视线的转移改变视线的焦点, 然后自然地获得外界的视觉信息。目前的人机界面需借助其他设备完成上述过程, 通常情况下用户移动鼠标来改变自己所感兴趣的目标,动作过程大致为:首先视线 移动到某一目标,然后由大脑传送指令给手臂,再控制鼠标从而将光标移动到目标 位置,然后点击或者执行其他的命令操作。视线跟踪是指计算机能够跟踪用户在操 作计算机时的视线,用户在某一定点停留时间超过设定值则自发地点击用户所关注 的目标。视线跟踪技术的主要目的是为了取代鼠标的选择与点击功能。如果焦点能 随着视线的移动而移动并且自动点击,一方面会提高交互的自然性,另一方面也会 缩减选择目标的时间。与目前的人机界面相比较,基于视线跟踪的界面有潜力提供 更快和更便捷的操作畸2 l 。文献 5 3 列举了视线跟踪的两类方法:以硬件为基础的跟 踪以及以软件为基础的跟踪。以硬件为基础的视线跟踪需要用户戴上特制的头盔、 特殊的眼镜,或是在用户头顶安装摄像机等。基于软件实现的视线跟踪方法,基本 工作原理是先利用摄像机获取人眼或脸部图像,然后用软件实现图像中人脸和人眼 的定位与跟踪,从而估算用户在屏幕上的注视位置心7 | 。视线跟踪技术还不太成熟, 为提高可用性,比较可行的办法是结合实际的应用场合,采取一些特殊措施,研制 出相应的交互技术嘶1 。 除了上述输入端的交互技术之外,多通道界面还涉及诸如数字墨水晴4 | 、面部识别晴5 】、 唇读嘲。5 7 1 等新型技术。 多通道的整合有利于各通道之间互相弥补缺点,多数情况下,多通道输入要比单一 通道输入效率更高,也更符合人类的操作习惯。因此,为提高自然性和操作效率,有必 要进行多通道的整合。 目前主流的整合方式及整合案例如下: 1 ) 语音手势 日常生活中,人们经常使用语音和手势组合进行交流。在多通道的应用中,被关注 最多的也正是语音手势的组合。 麻省理工学院的m e d i al a b 是多通道界面研究的先驱,文献 3 1 介绍了多通道交互 的第一个具体例子,应用的正是语音手势的组合。该文献结合了语音识别技术以及直 指式的手势识别,创建了一个被称为m e d i ar o o m 的平台,实现了用语言和手势直接操 作屏幕上物体的功能。该平台支持以下的命令操作:创建目标、移动目标、改变目标的 形状及颜色、删除目标和对目标命名等。虽然这些功能都较为简单,但作为第一个真正 能量控制中心交互系统自0 十目关技术研究 意义上的多通道界面实例,该平台对以后多通道界面的发慢有着及其深远的影l 忆【蔓、r 台的操作情形如图12 所示。 围i3 语音,视线跟踪的实验场景 f i g 3 e x p e t i m e n lo f s p e e c hr e c o g n i t i o n g a z e t r a c k i n g 二l = 连理【丈学博
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京市公园管理中心所属事业单位招聘94人模拟试卷参考答案详解
- 2025广西崇左市江州区消防救援大队招聘政府消防文员2人考前自测高频考点模拟试题及一套答案详解
- 2025湖南郴州资兴市公开招聘医疗卫生类专业技术人员28人模拟试卷附答案详解(完整版)
- 2025广西职业技术学院博士人才专项招聘64人考前自测高频考点模拟试题及参考答案详解
- 2025河北保定市招聘涞源县县属国有企业领导人员1人模拟试卷及答案详解(历年真题)
- 2025江西赣州市第五人民医院劳务派遣招聘精神科助理医师1名模拟试卷参考答案详解
- 2025华能海南昌江核电有限公司春季校园招聘笔试题库历年考点版附带答案详解
- 2025中国移动上海产业研究院招聘笔试题库历年考点版附带答案详解
- 2025中国华电集团有限公司总部中心机构招聘10人笔试题库历年考点版附带答案详解
- 2025采购租赁合同协议范本
- 2025至2030光纤电缆(光缆)行业发展趋势分析与未来投资战略咨询研究报告
- 洗衣房衣物洗涤操作规范
- 高桩码头施工培训课件
- 2025年Bio-based+100+生物基材料创新应用案例
- 中通规章管理制度
- 城市地理学第二版第三章城市的产生与发展 第四章城市化原理课件
- 现代文献检索与利用3-文献检索技术
- 2025年(广东省协会 )房屋安全检测鉴定技术培训-机考历年真题考前冲刺题
- 汉服文化知识普及
- LED销售技巧培训
- 《人民调解业务知识》课件
评论
0/150
提交评论