




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 口语对话系统随着人工智能、认知科学、语言学等领域以及硬件条件的发展已 越来越受到研究者们的关注,目前自然语言理解的发展也使得把人机对话系统应用 到许多方面成为可能。口语对话系统必将改变人机之间的交互方式并最终改变人们 的工作、学习和生活。 激励学习( r e i n f o r c e m e n tl e a r n i n g ) 是具有自学习特点的一个机器学习的重要分 支。激励学习把学习看成是一个反复试错的过程,从而把环境状态映射到相应的动 作。它能很好地解决智能体在随机状态环境下寻找最优动作的问题。 本文把激励学习用于口语对话系统,对w a l k e r 和s i n g h 的口语对话系统模型进 行了改进,建立了一种适应面更广的新的口语对话系统模型r l - s d s ( r e i n f o r c e m e n t l e a r n i n g s p o k e nd i a l o g u es y s t e m ) ,该模型被分别用于机房查询系统和大学生心理咨 询系统两个口语对话环境中。同时,在机房查询系统的口语对话环境中对r l - s d s 模型和s i n g h 提出的模型进行了比较,在w a l k e r 和s i n g h 的模型无法处理的大学生 心理咨询系统的口语对话环境中,本文对r l - s d s 模型也进行了一个激励学习效果 的分析。 关键词:口语对话系统:激励学习;智能体;r l - s d s 模型 a b s t r a c t s p o k e nd i a l o g u es y s t e mi sc o n c e r n e dw i t ht h ed e v e l o p m e n to fa r t i f i c i a li n t e l l i g e n c e , c o g n i t i v es c i e n c ea n dl i n g u i s t i c s t h ed e v e l o p m e n to fn a t u r a ll a n g u a g eu n d e r s t a n d i n g m a d ei tp o s s i b l et oa p p l ys p o k e nd i a l o g u es y s t e mt om a n yd o m a i n s t h i sw i l lc h a n g et h e w a yo fh u m a n - c o m p u t e ri n t e r a c t i o na n do u rl i f e r e i n f o r c e m e n tl e a r n i n gi so n eo fi m p o r t a n tm a c h i n e l e a r n i n gm e t h o d s ,w h i c hh a st h e c h a r a c t e r i s t i co fs e l f - i m p r o v i n g r e i n f o r c e m e n tl e a r n i n gr e g a r d sl e a r n i n ga sa p r o c e s so f t r i a la n de r r o r s t a t e si ne n v i r o n m e n ta r em a p p e dt oa c t i o n si nr e i n f o r c e m e n tl e a r n i n g i t c a ns o l v et h ep r o b l e mv e r yw e l l ,w h i c hi sh o wa na g e n ts e a r c h e st h eb e s ta c t i o ni nr a n d o m s t a t ee n v i r o n m e n t r e i n f o r c e m e n tl e a r n i n gi s a p p l i e di ns p o k e nd i a l o g u es y s t e mi n t h i st h e s i s ,t h e m o d e lo fs p o k e nd i a l o g u es y s t e mp r e s e n t e db y s i n g ha n dw a l k e ri si m p r o v e d t h e i m p r o v e dm o d e ln a m e dr l - s d s ( r e i n f o r c e m e n tl e a r n i n g s p o k e nd i a l o g u es y s t e m ) h a s b e t t e ra p p l i c a b i l i t y r l _ s d sm o d e li sa p p l i e di nt w os p o k e nd i a l o g u ee n v i r o n m e n t s c o m p u t e rp r a c t i c eq u e r ys y s t e ma n dp s y c h o l o g yc o n s u l t a t i o ns y s t e m t h et h e s i sh a sa c o m p a r i s o nt or l s d sm o d e la n ds i n g h sm o d e lu n d e rt h es p o k ed i a l o g u ee n v i r o n m e n to f c o m p u t e rp r a c t i c eq u e r ys y s t e m s i n g ha n dw a l k e r sm o d e li sn o tc a p a b l eo fh a n d l i n gt h e s p o k ed i a l o g u ee n v i r o n m e n to fp s y c h o l o g yc o n s u l t a t i o ns y s t e m ,w h e r e a sr l - s d sm o d e l h a sa na n a l y s i st oe f f e c to fr e i n f o r c e m e n tl e a r n i n g k e yw o r d s :s p o k e nd i a l o g u es y s t e m ;r e i n f o r c e m e n tl e a r n i n g ;a g e n t ;r l - s d s m o d e l i i 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 名:廓 乞 嗍洲”月叫日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于 1 、保密d ,在年解密后适用本授权书。 2 、不保密日。 ( 请在以上相应方框内打“v ”) 作者签名 导师签名 壤亿 泓卅 y 日期:“年2 - 月土日 日期:蹦年争月z q - 日 1 1 课题背景和研究意义 第1 章绪论 语音是人们日常生活中最自然、最广泛的交流方式,据统计人与人之间7 0 到 8 0 的信息是通过对话的交流完成的;在日常的办公工作中有2 5 到5 0 的时间是 面对面的交流,电话交流的时间是1 0 到2 0 ,因此将其应用于人机交互一直是计 算机科学领域的热点研究问题。 传统的人机交互是使用键盘、显示器以及多媒体计算机中的鼠标、按钮、触摸 屏等。这种方式可以说是一方主动( 人) ,而一方被动( 机器) 的交互过程,是完 全消极的过程,也是容易中断的过程【1 i 。但是随着计算机的一系列硬件设备和语音 处理技术的发展,人机之间使用语言来进行交互也逐渐走上了前台,我们可以要求 人与机器之间的交互按照对话的方式来进行,这种方式是双方都主动的积极过程, 也就是说当说话者的信息没能被听话者完全理解时,可以询问或确认。因此口语对 话系统也成为了语音识别领域和计算机科学的研究热点问题。在西方国家中,各种 语音产品也不断进入了市场,体现了很好的经济和社会价值,目前在发达国家的股 票查询、天气预报查询、银行服务、旅游信息查询服务、定票服务系统、博物馆的 知识问答学习、图书馆的图书查询服务等等都在尝试使用口语对话系统。 但是把口语对话系统应用到更为广泛的领域,或者在已有的领域中更好地体现 机器的智能性,使得人机之间的交互更为友善和人性化,这是在口语对话系统发展 中的一个重要课题,也是急需解决的问题。它涉及到语言学、心理学、工程技术和 人工智能技术等方面的专业知识。对具有人工智能的口语对话系统的研究,将使口 语对话系统的应用更为广泛和实际,在众多领域使用具有智能性的直接的人机口语 对话系统也将极大地提高社会生产力和人民生活水平。 1 2 口语对话系统的发展 自从日本在上世纪8 0 年代初提出“第五代计算机”( 即具有自然语言输入输 出能力的计算机) 以来,语音信息的处理以及语音识别的研究和开发得到了迅速的 发展。尽管第五代计算机至今还没有实现,却大大推动了人机口语对话这种交互方 式的研究。 上世纪8 0 年代后,在美国i e e e 的组织下,“国际声学、语言及信号处理会议” 每年都召开一次,而近1 0 多年来,人机口语对话的专题也频频出现。 与之对应,欧洲言语与通讯协会也组织了欧洲言语通讯和技术会议,该会每两 年召开一次,早在1 9 8 9 年,就在巴黎召开了第一届。平行的会议还有由日本人 h f u j i s a k i 教授倡导的国际口语处理会议也是每两年召开一次。也就是说基本上每年 都有一次该领域的国际会议召开。如此频繁的国际会议,也正说明了这个领域的热 门程度。在1 9 9 7 年的欧洲言语通讯和技术会议甚至举行了一次有1 0 多个国家参加 的口语对话系统奥林匹克大赛。 我国的中科院声学所早就开始了这方面的研究,上世纪8 0 年代初我国便有了 “语言、图像、通信和信号处理”的全国会议,可见我国在这方面的研究也是有相 当深厚的基础的。 四川大学曾于1 9 9 0 年左右研究开发了一个面向航空订票和信息查询领域的英 汉语音翻译实验系统,系统可处理的词汇量只有1 5 0 个英语单词和2 1 种句型,而 且只能处理特定讲话人的规范语句口i 。1 9 9 7 年先进人机通讯技术联合实验室也建立 了一个小词汇量的面向会议日程安排的语音翻译实验系统【3 i 。 由于语音识别技术、语意学、人工智能技术等其他相关技术发展的限制,早期 的口语对话系统仅仅局限在简单的机器被动型接受信息的系统结构上。这种结构所 产生交互过程是消极的而且容易中断,因此其应用受到了相当大的局限性。但是语 言交互过程是双方都积极主动的过程,当听话人对说话人的表述不完全清楚时,他 可以要求确认或者做询问。这时说话人变成听话人、听话人变成说话人,以提高信 息交互的可靠性。上个世纪8 0 年代后相关技术的发展,使得这种交互性的对话系统 成为了可能。目前的口语对话系统都在朝着具有交互性的系统这个目标发展。 1 3 口语对话系统的主要应用形式和方向 目前语音识别技术虽然已经有了很大的发展与进步,但是还不能很稳定和很灵 敏地在各种外部环境下识别各种形式的语音,也就是说还不具有足够的鲁棒性,这 对口语对话系统的发展是个限制,另外自然语言理解以及人工智能、语言学、认知 科学、脑神经科学的发展也限制了口语对话系统的更广泛的应用。所以在目前的综 合学科环境下,人机对话技术在实际应用中的主要形式为:面向特定领域的人机口 语对话系统,也就是说在限定的领域范围内,人机之间可以通过对话完成一系列特 定任务,比如说图书馆的藏书查询、校园里的导航等等。希望做出一个能随时随地 与人做出日常的泛化内容的口语交互的口语对话系统到目前来说还是梦想。 由于口语对话系统必须限定在特定的范围内,可以归纳几个口语对话系统的主 要应用方面h :( 1 ) 信息查询,包括数据库查询、文档查询、i n t e r n e t 网上搜索等。如 设计一个电影院信息服务对话系统,那么客户就可以方便地通过电话向该系统询问 他想得到的信息,这既方便了客户同时也提高了电影院的效率。( 2 ) 表格填写。日 常生活中常常会见到各种各样的表格,其中统计表格占很大比重,比如人口普查 表、市场调查表、政策调查表等,这些表格的完成需要花费大量的人力物力,而且 需要很长时f 目j :d 能完成分发表格、填写表格、收回表格、统计信息的全过程,如能 开发一个人机1 3 语对话系统,使用户可以通过电话同该系统交互,最终完成这些表 格,这将大大缩短统计的周期,节省开销。( 3 ) 有限范围的语音自动翻译。( 4 ) 特定 任务的语音界面,比如计算机语音桌面等。人机口语对话系统的进一步发展一方面 将使得计算机真正人性化,从而推动新代智能计算机的产生,另一方面也将使用 户摆脱近台操作的约束,用户可以不必盯着屏幕通过操作键盘和鼠标完成同机器的 交互,他可通过电话或远距离的语音使用机器,这将大大方便用户。( 5 ) 手眼都被 占用的( h a n d b u s y ,e y e b u s y ) 场景中,如驾驶室,如果驾驶员可以通过语音来获取信 息或完成某些操作,将非常方便。( 6 ) 人机1 2 1 语对话系统还用来为一些手、眼有残 疾的人群服务。 1 4 国内国际研究现状 由于口语对话系统这种新的人机交互的发展具有相当大的潜力,国际和国内都 在进行这方面研究。己有一定成果的有:德国菲力普公司实验的一个存储了1 3 万用 户的电话号码自动查询系统一p a r d i s x l l ,查询时只要把待查询用户的姓名拼读 出来就可查到;美国卡内基梅隆大学开发的利用对话来填写网上表格的系统;美国 d r a g o ns y s t e m 公司的文件检索的1 2 1 语问询的研究。正在进行的研究有:美国国防部 ( a r p a ) 资助的航空旅游信息服务系统a t i s ;a t & t 公司的自动电话接线员 ( h m i h y ) 项目:麻省理工大学( m i t ) 的天气信息语音自动服务研究项目;德国 教育科学研究联合部资助的面对面自动翻译项目。国内正在进行的两个比较大的项 目有中科院同a t & t 合作的英汉语音自动翻译项目,以及“9 7 3 ”项目“图像、语音、 自然语言理解与知识发掘”中的自然人机口语对话系统的研究【5 】。 分析国内外整个研究的状况可以发现,虽然每个研究都有其独特的角度和研究 目标,但是总的来说我们可以大体分为语音识别、自然语言理解的应用和对话策略 的自动化三类。语音识别方面的研究有:清华大学电子工程系的基于子词的声学模 型和统计意义的正则语言模型,通过为汉语的半音节建模来提高非特定人连续语音 识别率【6 i ;基于隐马尔可夫模型的语音识别方法【7 i ;运用互信息匹配模型和关键词分 析来提高连续语音音节识别率和总体识别率【8 | ;中科院半导体研究所神经网络实验 室提出的将基于多权值神经元网络的模式识别方法用于语音识别f 9 】等。关于自然语 言理解在1 3 语对话系统中的研究有:黄寅飞等在e a s y n a v 系统中所用到的以语意知 识和会话因素进行省略分析,来使对话过程更连贯自然的技术【1 0 】;清华大学燕鹏举 提出并在实用系统中实现了的词类概率模型,利用了对话随时间变化的隐马尔可夫 性,在较低的时问复杂度上拥有了较高的性能【1 1 i 。在对话策略的研究方面:上海交 通大学的上海市交通信息智能查询系统所采用的是在基于框架的管理模型下的对话 策略,完全采用混合主导的方式,把对话策略限定在对话查询内容的框架内【1 2 】。北 方交通大学高志伟在公园导游这样一个特定任务领域的对话系统中,重点研究了对 话策略中的优先权问题,并使用亚对话来解决策略中的信息确认问题【1 3 】。微软亚洲 研究院的张波等人提出了用p o m d p ( 部分可观测马尔可夫决策过程) 模型,把对 话管理看成一个随机优化的过程,来解决对话策略的产生和优化问题【1 4 】,该模型与 w a l k e r 和s i n g h 的模型在状态和动作设定上有相似之处,但是考虑了系统不能完全 感知环境的可能,使用了p o m d p 来建立模型。w a l k e r 和s i n g h 分别提出了在结构 上基本类似的对话策略管理模型 1 5 - 1 7 】,他们的模型都是把对话进程、系统内部状态 和用户意图作为模型的环境状态并用几个分量来表示,动作则由提问、确认等几种 构成一个动作空间,在把对话过程离散的基础上通过建立一个表示对话的m d p 来 使用激励学习的方法,让机器自动的学习和优化对话策略。他们的模型使得对话策 略的产生自动化,并且模型还具有在特定任务领域内易于实现,实现后便于控制等 特点,但是他们的模型也有对对话的人为限制和控制太多,系统建立后的可扩充性 不强,对非特定领域的对话环境无能为力等缺点。 1 5 本文所做的工作 本文把激励学习应用于口语对话系统中的对话策略管理部分来优化人机口语对 话的质量,这里的口语对话质量主要体现在机器对对话的控制和交互性上。 本文把w a l k e r 和s i n g h 的口语对话系统模型进行了改进,建立了一种对话任务 适应面更广的新的1 2 语对话系统模型r l - s d s ( r e i n f o r c e m e n tl e a r n i n g s p o k e n d i a l o g u es y s t e m ) ,该模型被分别用于机房查询系统和大学生心理咨询系统两个口语 对话环境中。同时,在机房查询系统的口语对话环境中对本文提出的模型与s i n g h 提出的模型进行了比较分析,在w a l k e r 和s i n 【g h 的模型无法处理的大学生心理咨询 系统这种非特定任务领域的口语对话环境中,该模型也进行了激励学习效果分析。 本文组织架构如下: 第1 章为绪论,介绍了研究口语对话系统的意义、口语对话系统的发展和主要 应用形式以及国内国际研究现状。 第2 章介绍了口语对话系统的基本框架和组成部分以及激励学习的历史沿革、 基本模型和基本算法,并用一个简单实例说明了激励学习的应用方法。 第3 章介绍了r l - s d s 模型的建立方法和基本要素,简单介绍了国际现有的应 用激励学习的口语对话系统模型并将之与r l - s d s 模型进行了简单比较。 第4 章用机房查询系统这样一个特定任务领域的对话环境对r l - s d s 模型的效 果和s i n g h 的模型进行了比较。 第5 章在s i n g h 和w a l k e r 的模型无法处理的非完全特定任务领域对话环境中用 r l - s d s 模型建立了心理咨询系统,并证明了其有效性。 4 第2 章理论基础 2 1 口语对话系统的基本逻辑层次 人机口语对话不同于一般的口语查询,它涉及自然语言理解、对话模型和对话 管理等技术i ”】,如图2 1 所示。从图中我们可以看到,人机交互过程大致可以分为 四层进行。第一层是包括语音识别、理解和文语转换( 语音合成) 的语音信号处理 层。自然语言处理包括自然语言理解和自然语言生成,它构成了人机交互的第二 层。计算机理解自然语言,并与用户进行对话是交互过程的第三层即对话处理。通 过对对话的处理,可以使计算机处理交谈过程中的语法、语义、语气等方面的因 素,准确地理解用户的输入,掌握其意图,有效地生成满足交谈语境的话语,并控 制交谈的过程。对话处理属于人机交互的核心位置,它架起了输入与输出之间的桥 梁。目前,人机交互中最迫切需要实现的对话是面向任务的对话,它是指围绕某一 主题( 即任务或目标) 有明确目的并为了实现这一目的而进行的对话。第四层即应用 域知识处理,它是处理应用域知识所必需的1 1 9 - 2 0 i 。 图2 1 口语对话系统逻辑结构图 2 2 口语对话系统的基本系统组成 与人机口语对话系统的逻辑分层结构对应的一个标准的口语对话系统构成如图 2 2 所示,通常包括自动语音识别( a s r ) ,对话策略管理又称对话管理器( d p 或 d m ) ,语音合成( t t s ) ,数据库( d b ) 四个部分。自动语音识别单元将来自各 种介质的输入语音转化为文本,输出给对话管理器;对话管理器是人机口语对话系 统的核心单元,它的功能是分析得到的文本并根据当前的对话状态给出反馈;语音 合成的作用是将对话管理器的语言反馈即文本合成为语音,后台数据库用来存放特 定处理范围内的数据。 图2 2 口语对话系统系统结构图 2 2 1 语音识别单元 语音识别( a s r ) 即a u t o m a t i c a l l y s p e e c h r e o r g a n i z a t i o n ,就是让机器通过识别 和理解过程把语音信号转变为相应的文本或命令的技术。语音识别是一门交叉学 科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。 让机器识别语音的困难在某种程度上就像一个外语不好的人听外国人讲话一 样,它和不同的说话人、不同的说话速度、不同的说话内容以及不同的环境条件有 关。语音信号本身的特点造成了语音识别的困难,这些特点包括多变性、动态性、 瞬时性和连续性等。 计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语 音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为 三部分: 1 语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 2 声学模型与模式匹配( 识别算法) :声学模型通常将获取的语音特征通过学 习算法产生。在识别时将输入的语音特征同声学模型( 模式) 进行匹配与比较,得 到最佳的识别结果。 语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计 方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系 统,往往不需要语言处理部分。 声学模型是识别系统的底层模型【2 1 i ,并且是语音识别系统中最关键的一部分。 声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之 间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小( 字发音 模型、半音节模型或音素模型) 对语音训练数据量大小、系统识别率以及灵活性有 较大的影响,必须根据不同语言的特点和识别系统词汇量的大小决定识别单元的大 小。 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根 据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上 下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模 型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规 则语法结构命令的语言模型。语法结构可以限定不同词之间的相互连接关系,减少 了识别系统的搜索空间,有利于提高系统的识别率。 语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言 的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导 对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如 何有效地描述这些语法和语义还有困难: 1 小词汇量语音识别系统。通常包括几十个词的语音识别系统。 2 中等词汇量的语音识别系统。通常包括几百至上千个词的识别系统。 3 大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。 这些不同的限制也确定了语音识别系统的困难度。 语音识别是人机对话系统中的关键部分,如果a s r 达不到一定的性能,那么以 后的一切操作将无从谈起,因此设计或选择适当的语音识别器非常重要。但是语音 识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于 9 8 ,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用 的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可 以制成专用芯片大量生产。清华大学电子工程系语音技术与专用芯片设计课题组, 研发的非特定人汉语数码串连续语音识别系统的识别精度达到9 4 8 ( 不定长数字 串) 和9 6 8 ( 定长数字串) 。在有5 的拒识率情况下,系统识别率可以达到 9 6 9 ( 不定长数字串) 和9 8 7 ( 定长数字串) ,现在国际国内的很多公司都有 现成的a s r 引擎( s p e e c hr e c o g n i t i o ne n g i n e ) ,美国的微软公司制定了各种语音识 别引擎的统一标准( s a p l 4 1 0 ,s p e e c ha p p l i c a t i o ni n t e r f a c e ) ,使得使用标准来开发 口语对话系统更加容易。 但是在口语对话系统中使用a s r 时应该注意:要根据系统任务的特点( 如系统 的环境、许可的误报率、漏错率、使用复杂度等因素) 来调节a s r 的指标( 如声学 模型、语言模型以及可信度返回标准等) ;选择a s r 同对话管理的结合方式,如文 本形式、接受控制的协议以及对话管理对a s r 的指导约束等。 2 2 2 对话管理单元 对话管理部分是口语对话系统的核心。对话管理的一个关键是不确定性,因为 对话并不仅仅是简单的语句序列,而是对话双方的种共同努力,或称为联合行 动。对话双方通过提出或接受具体的语句来建立、维护及确认相互理解,其间必须 经常在不确定情况下进行决策,以减少误解,有利于最终目标的完成。在对话中不 确定性到处可见,比如听者不能确定某句话的准确程度,或说者不能确定自己的话 是否被听清或理解。虽然可以容忍部分的不确定性,但累计的不确定性往往会导致 各种代价的误解,如对话的提前结束,或是根据对话结果选择了不恰当的动作。一 个对话系统必须能在没有完美的语音识别和自然语言理解,以及准确的用户模型的 情况下进行对话。 而对话管理的任务是控制对话流程,帮助用户高效自然地完成对话。在对话过 程中,用户的回答或提问可能是含糊不清或者是不完整的,对话管理必须引导用户 说明自己的意图,并提供完成任务所需要的信息。为了完成和用户的交互行为,对 话管理应该根据对话历史建立对话上下文,并根据对话上下文正确理解用户输入。 在此基础上对话管理需要决定如何响应用户,并根据响应的内容修改上下文。对话 管理的基本问题主要有:对话策略、领域的可移植性、系统健壮性和校验。 ( 1 ) 对话策略 一般我们可以把对话管理部分看做一个a g e n t ,它负责处理用户的对话,然后 实时地选择与用户通信的内容和通信的方式,它所做的选择即被称之为策略i “】。 对话系统要对用户提出的问题进行回答,所以通常需要系统的引导使对话在某 一个领域内进行;当用户的回答模糊或者缺少关键信息的时候,也需要系统的提 示。这样就使得在对话的效率和用户的自由度方面存在矛盾,所以需要采用适当的 对话策略使这个问题得到折中的解决。对话策略分为三种: ( 1 ) 系统主导的会话是指由系统向用户提出一系列的问题,根据用户的回答 来提供信息。直接的提问( 如”你要问哪个城市的天气? ”) 通常都可以得到用户的明 确、简洁的回答,从而有着较好的查询效果,但是系统主导的会话束缚了用户,使 对话过程不自然。 ( 2 )用户主导方式是指在对话过程中,用户是对话的主导者,可以非常自由 地按照自己的意愿来提问。 ( 3 )用户主导和系统主导的混合使用,即系统可以提问要求用户回答,用户可 以回答问题;也可以按照自己的意愿提出问题,要求系统回答。该种方式具有更大 的灵活性,可以处理更加复杂的用户输入,与用户的交流更加流畅| 2 2 1 ,因此是较好 的对话策略。 2 领域可移植性 领域可移植性是口语对话系统设计中需要着重考虑的一个问题。对话系统是在 某一领域内回答用户的问题,因此对话系统需要具有该领域的专门数据或知识。例 如电影服务,系统必须有各个电影院所放映的电影时间、电影内容介绍和电影院的 介绍等数据。每个领域都要有不同的控制策略,在以往的设计中,系统的反应行为 被直接代码化,然而,当要移植到新领域时,就需要完全重新设计对话管理器。一 般的解决方法是将对话管理分成领域相关和领域无关两个模块。与领域相关的部分 被抽取出来单独设计,将领域知识存储在配置文件中,如脚本数据库或知识库中; 与领域无关的模块则被设计成通用模块,此模块可以轻易地移植到其他领域。领域 相关的模块和领域无关的模块通过配置文件联系起来,通过调用不同的配置文件, 可以驱动不同领域的对话系统。当需要移植到其他领域时,只需要修改配置文件即 可。 3 系统健壮性与校验 用户对话的自由度和整个对话系统的回答的准确度很难达到统一。用户在口语 的对话中常有省略、重复和一些感叹词等,这些都给对话系统的设计带来一些困 难。其中最主要的是系统在对话中要正确地推测出用户的省略,这样就带来了信息 确认的问题。系统推测出来的信息没有经过用户的确认,可信度比较低,在必要的 时候就需要用户进行确认。在整个系统设计策略制定的时候这也是必要的一方面。 另外,在实际的交互过程中,用户输入的内容有的时候是有错误或输入条件之间有 矛盾的,如误输入“北京时代电影城”( 应为“首都时代电影城”) 、“八月十三日 星期六”( 应为星期五) 等,系统均要能识别出来,提示用户出错需要改正。 因此,在目前的研究来看设计对话管理部分主要针对这三个方面来考虑:一是 对话管理器对语音识别单元的约束和补偿作用:二是提高对话管理器本身的智能度 和灵活度,即体现计算机的“智能”:三是改善人机口语对话系统的核心部分同具体 任务领域的结合方式。以此来对应解决对话管理部分的三个问题。 第一个问题的研究是因为在口语对话系统的实际使用环境中a s r 不可避免的会 受到环境中噪音的影响,这种影响可不可以恢复或在多大程度上恢复将是系统可用 性的一个重要的衡量指标口”。 第二个问题的研究是使系统在多大的程度上用更接近人的方式来和用户交互, 这也是表示系统的人性化和“智能”的一个重要研究方面,通常有使用系统主导、 用户主导、混合主导三种对话策略来解决。第一和第二个问题也是我们目前的研究 中考虑解决的问题。目前,学界在第三个问题上研究的实用性进展不大。 虽然对话管理的算法研究已经发展了三十年,但是在目前已经被实现的系统 中,对话管理部分的设计更多地是一门艺术而不是科学i ”i 。以前的研究者们认为设 计一个对话管理部分有很大的随意性而且没有统一确定的模式。但一般认为,为了 解决前述的三个问题,对话管理部分应该包括语言理解、对话策略产生、语言产生 三个部分。 根据这三个部分的不同组成又有不同的对话管理分类方式。对话管理根据其提 供的控制类型可以分为三类:系统主导,用户主导和混合主导。在一个系统主导的 对话中,系统向用户提出一系列问题,获取所需的任务信息。反过来,用户主导的 对话是由用户向系统提问,将信息传递给系统。在混合主导的对话中,用户可以向 系统提问,而系统也可以在必要时向用户提问。对话管理的方法大致可以分为有限 状态的方法和自组织的方法两大类。在有限状态模型中,对话结构是以状态转移网 络的形式表现的,很多商业性的对话系统采用某种形式的有限状态对话模型。但是 这种模型缺乏灵活性,比较适合于相对简单的对话过程,当对话过程变得复杂而庞 大时,状态转移网络中的状态节点会成倍增加,变得难以控制,而用户的语句偏离 系统计划,使得系统无法处理的可能性也大大增加。自组织的对话管理包括基于框 架和面向对象的方法、基于规划的管理以及定理证明等方法,它提供了用户较大的 自由度,有越来越多的对话系统采用了自组织的方法。 2 2 3 语音合成单元与数据库 语音合成( t e x t t o s p e e c ht t s ) 或者通俗点说是让计算机“说话”,包含着二个 方面的可能性:一是机器能再生一个预先存入的语音信号,就象普通的录音机一 样,不同之处只是采用了数字存储技术。简单地将预先存入的单音或词组拼接起来 也能作到“机器开口”,但是一字一蹦”机器味十足,人们很难接受。然而如果预先 存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起 来,也有可能生成高自然度的语句,这就是波形拼接的语音合成方法。为了节省存 储容量,在存入机器之前还可以对语音信号先进行数据压缩。另一种可能是采用数 字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表 征声道谐振特性的时变数字滤波器,这个源可能是周期脉冲序列,它代表浊音情况 下的声带振动,或者是随机噪声序列,代表不出声的清音。调整滤波器的参数等效 于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期 或强度,将改变合成语音的音调、重音等。因此,只要正确控制激励源和滤波器参 数( 一般每隔1 0 3 0 m s 送一组) ,这个模型就能灵活地合成出各种语句来,因此 又称作为参数合成的方法。根据时变滤波器的结构形式不同,又有l p c 合成和共振 峰合成器等之分。 按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是: 1 从文字到语音的合成( t e x t t o s p e e c h ) 2 从概念到语音的合成( c o n c e p t t o s p e e c h ) 3 从意向到语音的合成( i n t e n t i o n t o s p e e c h ) 这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经 活动。不难想象,即使是按规则的文字到语音合成( 文语合成) 也已经是相当困难 的任务。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇 规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解 的问题。从这一点讲,文语转换系统实际上也可看作一个人工智能系统。 相对语音识别来讲t t s 技术是一个非常成熟的技术,目前也有一些语音合成引 擎可以在市场上买到,对话管理器只须输出一段文本给合成器,它即可将其转化为 相应的语音信号。国内的如中国科学院声学所的k x p s o l a ( 1 9 9 3 ) ,联想佳音 ( 1 9 9 5 ) ;清华大学的t hs p e e c h ( 1 9 9 3 ) ;中国科技大学的k d t a l k ( 1 9 9 5 ) 等 系统,都是比较成功的汉语语音t t s 系统。中国科技大学又推出了k d 2 0 0 0 汉语文 语转换系统i “1 ,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中 围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处理 环节:特殊符号处理,分词处理和拼接处理,使得汉语文语转换系统的整体性能有 很大提高。因此我们课题组的工作重点不放在t t s 部分。 数据库部分只需要把系统处理领域内的特定数据放入到数据库中等待对话管理 部分的调用即可。 : 2 _ 3 激励学习简介 2 3 1 激励学习历史沿革 激励学习的本质是对变化环境的适应口5 i 。可以说,这是一种“古老”的机器学习 思想。在1 9 4 8 年w i e n e r 的论述控制论的著作中,就讨论了这个问题口6 1 ,而在以后 的控制理论的研究中,这发展成为重要的研究课题自适应控制口7 i 。 “激励”和“激励学习”这些术语由m i n s k y 首次提出并出现在工程文献上口”。当时 数学、心理学家探索了各种计算模型以解释动物和人类的学习行为。他们认为学习 是随机进行的,并发展了所谓的随机学习模型【2 9 】。在上世纪5 0 至7 0 年代,激励学 习研究进展比较缓慢,激励学习还处在发展的初期阶段,很多算法都是很零散,缺 乏系统的1 3 0 3 4 i 。w i d r o w ,h o f f 和r o s e n b l a t t ,以及b u s h 和m o s t e l l e r 等神经网络 的先驱都研究过激励学习。他们利用了“奖励”和“惩罚”这样的术语,但他们的研究 系统越来越趋向于监督学习。s a m u e l 的下棋程序采用类似值迭代、瞬时差分和q 学习的训练机制来学习用线性函数表示的值函数是在应用上最早的例子。那个时期 的学者大都采用动态规划( d p ) 的方法来解决m d p 问题,由于这需要事先知道模型 的全部概率和奖赏分布密度,所以不能满足在线学习的要求,因此在很多实际问题 上受到限制,但是这段时间的研究为其他的学习算法提供了理论基础。进入上世纪 8 0 年代以后,激励学习的研究又出现了高潮,逐渐成为机器学习研究中的活跃领 域。目前使用最为广泛的几个经典算法和相关的收敛性证明p s 。1 2 l 也在那个时代产 生。b e t o 于1 9 8 3 年采用了两个单元a s e ( a s s o c i a t i v es e a r c he l e m e n t l 及 a c e ( a d a p t i v ec r i t i ce l e m e n t ) ,构成了一个评价控制系统,经过反复学习,使倒摆维 持较长的时间。实际上这一思想就是激励学习中的a h c ( a d a p t i v eh e u r i s t i cc r i t i c ) 算 法的早期形式。s u u o n 于1 9 8 4 年在他的博士论文中提出了a h c 算法,比较系统的 介绍了a h c 思想。1 9 8 8 年s u t t o n 又在m a c h i n el e a r n i n g 上发表了题为 “l e a r n i n gt op r e d i c tb yt h em e t h o d so f t e m p o r a ld i f f e r e n c e s ”的论文,提出了经典的瞬 时差分t d ( t e m p o r a ld i f f e r e n c e s ) 算法,解决了激励学习中根据时间序列进行预测的 问题,并且在一些简化条件下证明了t d 方法的收敛性。另一个比较著名的算法就 是w a t k i n s 等人于1 9 9 2 年提出的q l e a r n i n g 算法,并对q l e a r n i n g 算法的收敛性 进行了证明。m a h a d e v a n 采用平均激励值的方法,提出了r - l e a m i n g 算法,并与q l e a r n i n g 进行比较,结果表明r l e a r n i n g 学习效果较好。近几年,激励学习在解决 大状态空间问题时如何避免状态的无限增长带来的维数灾难成为研究的一个新的重 要方向,许多学者采用了神经网络,利用其良好泛化的特点来逼近状态空间,从而 学习值函数。 2 3 2 激励学习基本模型 激励要解决的问题是:一个能够感知环境的智能体,怎样通过学习选择能达到 其目标的最优动作。当智能体在其环境中做出每个动作时,施教者或者是环境提供 奖励或惩罚信息,智能体从这个非直接的回报中学习,以便后续动作产生最大的累 积回报。在这个过程中,智能体做的动作也会对环境造成改变,并通过奖赏反馈给 智能体。简单的说,激励学习就是通过这一系列过程的不断重复,让智能体学习到 最优策略,即一组从环境状态到动作的映射,这个映射使得智能体从环境中的获得 的奖赏最大。激励学习中的几个基本概念是: 智能体( a g e n t ) :在与环境交互中的学习和动作决策主体。 环境( e n v i r o n m e n o : 独立于智能体之外,智能体采取动作与其交互,来学习最 佳的策略。 状态集s :用来表达环境的所有可能的状态的集合,在特定的时问步,智能体 所处的环境状态为当前状态s s 。 动作集a :智能体所有可能采取的动作的集合,在特定的时间步,智能体选择 的当前动作d ,a ( s ,) 。 瞬时奖赏r :当智能体与环境交互时,环境将产生一个瞬时的奖赏值,这个值是 根据不同的环境状态事先确定好的。智能体的最终目标就是要将获得的累积的瞬时 奖赏最大。 策略7 c :状态到动作的映射,如果这个策略使得智能体在与环境交互的过程中 获得的累积奖赏值达到最大我们称之为最优策略万 下面简单地介绍激励学习的基本流程模型。在基本的激励学习中,智能体在每 个离散的时间步与环境交互,按照一定的策略从动作集中选择相应的动作a ,并 执行动作a 。智能体的动作将对环境产生影响,使智能体从当前状态s 转移到下一 个状态s 。,在这个时间步中,智能体将从环境中获得一个瞬时奖赏r ,然后从下一 个状态s 。开始,继续下一轮的动作选择直到目标状态。激励学习的框图如图2 3 所 7 卞。 状态s t 图2 3 激励学习系统框图 动作a t 在激励学习的理论中把m d p ( m a r k o v 决策过程) 认为是关于状态和动作的多 步预测模型,它是进行激励学习算法分析的重要理论基础。一个m a r k o v 决策过程 ( m d p ) 包括:状态空间s 、动作空间a 、某一时间的状态执行动作得到的期望奖 赏值r ( s ,口,) 以及从状态s ,动作后转移到状态s 。的概率p 。这里再介绍两个值函数 的概念: v 4 ( s ) = e 4 r ,旧= j )( 2 1 ) q ”( s ,a ) = e 4 r ,is ,= 5 ,日,= a ) ( 2 , 2 ) 其中v ”( s ) 称为状态评价函数,表示从状态s 开始,根据某一策略所得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保护地球题库及答案
- 版图知识题目及答案
- 2025年职业技能培训在乡村振兴中的农村教育质量提升策略研究报告
- 安全员岗位试题及答案
- 罕见病药物研发激励政策与产业政策协同推进报告
- 智能化环境监测在环境法律法规执行中的数据质量控制与监督
- 安全技术概论试题及答案
- 针对2025年运动健身人群的健康功能性饮料市场前景研究报告
- 2025年乡村文化旅游与乡村旅游特色村寨建设报告
- 产妇护理技能培训课件
- 车辆保险服务招投标书范本
- 2022年人教PEP版小学四年级英语下册期末试卷及答案
- GB 11564-2024机动车回复反射装置
- 《牛津英汉词典》全集完整版TXT电子书
- 2024反诈知识竞赛考试题库及答案(三份)
- 2024年【每周一测】第四周语文五年级下册基础练习题(含答案)
- 阳光食品APP培训考核题库(含答案)食品生产企业端
- 剧本杀店买卖协议
- 羽毛球教案18课时完整版
- JT-T-1240-2019城市公共汽电车车辆专用安全设施技术要求
- 2024届湖北省鄂东南联盟数学高一下期末达标检测模拟试题含解析
评论
0/150
提交评论