




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)自然语言理解在湖水清污机器人中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
沈阳理工大学硕士学位论文 摘要 湖水清污机器人是一个新型环保机器人,它为人工湖的治理提供了一个新思 路,给机器人配备自然语言理解系统将便于机器人的控制。本文在自然语言理解 技术的理论基础上,根据湖水清污机器人的特点,研究自然语言理解技术在其上 的应用。, 首先,收集大量的语料对其进行分析并结合现有理论设计系统。命令语句中的 中心词为动词,这一点符合格语法理论,结合机器人的特点,提出一种改进的方 法。由语料分析发现所有的命令语句分为两种形式,而出现在同一种表述方式的 动词有相同的特点,所以将语料库中出现的动词分类:第一类动词和第二类动词。 其次,系统包括:词法分析、语法分析和语义分析。由动词的分类使得语法分 析较单一的自顶向下或自底向上的语法分析方法更便于实现,提高系统语法分析 的准确性和效率。在语义分析的第一步是分析出语义框架,其中应用概念从属理 论解决由于个体的不同,同一个意思而表述方式千差万别的问题。系统中定义的 第二类动词能够推出动作的客体,若命令语句中只含有一个这样的动词,马上可 以得出动作和动作客体两个格。第一类动词无法推出动作的客体,但这样的语句 中通常含有一个能够推知动作客体的第二类动词或名词。句中的数量词短语包含 了计时器动作的相关信息,依据系统的标准计量单位,作一些换算得到所需的补 充格值。第二步转化成指令参数,将语义框架转化成机器指令所需的参数集。 最后,用语料库中的语句对自然语言理解系统进行测试,根据出现的问题提出 解决方法。 关键词:机器人;自然语言理解;格语法;动词分类;概念从属理论 沈阳理工大学硕士学位论文 a b s t r a c t l a k ec l e a n - u pr o b o ti san e we n v i r o n m e i l t a lp r o t e c t i o nr o b o t ,a n di tp r o v i d e san e w w a y t ot r e a ta r t i f i c i a ll a k e w i t ht h en a t u r a ll a n g u a g eu n d e r s t a n d i n gs y s t e m ,i tb e c o m e s e a s yt oc o n t r o lt h er o b o t b a s e do nt h et h e o r yo fn l u , a c c o r d i n gt ot h ec h a r a c t e ro f w a t e rc l e a n - u pr o b o to ft h el a k e , t h i st h e s i sr e s e a r c h e st h ea p p l i c a t i o no fn a t u r a l l a n g u a g eu n d e r s t a n d i n g , f i r s t l y , w ec o l l e c ta n da n a l y z eag r e a td e a lo fc o m m a n d i n gs e n t e n c e s t h e n , a c c o r d i n gt ot h ep r e s e n tn l ut h e o r i e s ,w ed e s i g nt h es y s t e m t h ec e n t e rw o r do ft h e s e n t e n c ei sv e r b ,a n di tm a r c h e st h ec a s eg r a m m a r a c c o r d i n gt ot h ec h a r a c t e ro fr o b o t i t s e l f , w eb r i n gf o r w a r dan e ww a yt oa d v a n c ei t b ya n a l y z i n gc o m m a n d i n gs e n t e n c e s , w ef i n dt h a ta l lt h es e n t e n c e sc a nb ed i v i d e di n t ot w oc l a s s e s , a n dt h ev e r b si ne a c hc l a s s h a v et h es a m ec h a r a c t e r , s ot h i st h e s i sd i v i d e sa l lt h ev e r b si nt h es y s t e mi n t ot w o c l a s s e s ,t h ef i r s tc l a s sa n dt h es e c o n dc l a s s s e c o n d l y , t h es y s t e mi n c l u d e st h r e ep a r t s ,d i c t i o n a r ya n a l y s i s ,s y n t a xa n a l y s i s ,a n d s e m a n t i ca n a l y s i s b e c a u s eo ft h ed i v i d eo fv e r b s ,s y n t a xa n a l y s i sb e c o m e sm o r ee a s y a n dq u i c kt h a nt h ew a yo fu p - t o d o w no rd o w n t o u p ,a n dt h ea c c u r a c ya n de f f i c i e n c y o ft h es y s t e ms y n t a xa n a l y s i si sa d v a n c e d t h ef i r s ts t e po fs e m a n t i ca n a l y s i si st o a n a l y z et h ef r a n l eo ft h es e m a n t i c w ea p p l yc o n c 印t u a ld e p e n d e n c yt h e o r yt os o l v e t h ep r o b l e mt h a tt h es a m em e a n i n gh a sd i f f e r e n tw a y so fe x p r e s s i o n w ec a ng e tt h e o b j e c to fm o v e m e n tf r o mt h ev e r bo ft h es e c o n dc l a s st h a tw ed e m ei nt h es y s t e m i f t h e r ei so n l yo n es u c hv e r b ,w ec a l lg e tt w oc a s e s ,m o v e m e n ta n dm o v e m e n to b j e c t t h e v e r bo ft h ef i r s tc l a s sc o u l d n tg e tt h eo b j e c to fm o v e m e n t ,b u ts u c has e n t e n c 宅a l w a y s i n c l u d e sav e r bo ft h es e c o n dc l a s so rn o u nt os p e c u l a t et h eo b j e c to fm o v e m e n t t h e n u m e r a l sa n dc l a s s i f i e r si nt h es e n t e n c ei n c l u d et h er e l a t e di n f o r m a t i o no ft i m e r m o v e m e n t a c c o r d i n gt ot h es t a n d a r dm e a s u r e m e n tu n i to ft h es y s t e m ,i tc a nd ot h e r e l a t e do p e r a t i o na n dg e tt h ea d d e dc a s e st h a tw en e e d t h es e c o n ds t e pi st oc h a n g ei t i n t oc o m m a n d p a r a m e t e r s ,a n dc h a n g et h es e m a n t i cf r a m ei n t ot h ep a r a m e t e rs e tt h a tt h e r o b o to r d e r sn e e d f i n a l l y , u s i n gt h es e n t e n c e si nt h ec o r p u s ,w et e s tt h en l us y s t e m a c c o r d i n gt ot h e 沈阳理工大学硕+ 学位论文 p r o b l e m so ft h es y s t e m ,w ep u tf o r w a r dt h er e s o l v i n gm e t h o d s k e yw o r d s :r o b o t ;n a t u r a ll a n g u a g eu n d e r s t a n d i n g ;c a s eg r a m m a r ;v e r b sd i v i d e d i n t oc l a s s ;c o n c e p t u a ld e p e n d e n c yt h e o r y 沈阳理工大学 硕士学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本 人独立完成的。有关观点、方法、数据和文献的引用已在文中指出, 并与参考文献相对应:除文中已注明引用的内容外,本论文不包含任 何其他个人或集体己经公开发表的作品成果。对本文的研究做出重要 贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 作者( 签字) : 日期 : 网两 轨f 年弓月步e l 学位论文版权使用授权书 本学位论文作者完全了解沈阳理工大学有关保留:使用学位论文 的规定,即:沈阳理工大学有权保留并向国家有关部门或机构送交学 位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权沈阳理工 大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:曰两指导教师签名:蕈砚狄 日期:铷。譬,;细日期:& 卵孑- 3 1 0 第1 章绪论 第1 章绪论 1 1 课题研究背景及意义 目前,我国的人工湖大都采用人工的方式清理垃圾,但是水质却得不到保证, 有损人工湖美化环境的效果。人工湖水不流动或流动性差,都造成了人工水景的 水质随时间而变差,这与保护和美化自然环境的初衷是相悖的。 随着人类生存环境的不断恶化,人们的环保意识逐渐增强了,渴望改善生存环 境的呼声越来越高。环保机器人的研究与开发越来越受到广泛的重视,随着相关 科学技术的发展及应用,这个领域具有良好的应用前景。如智能清扫机器人、地 板清洁机器人、擦窗机器人等,这样的机器人在美国、日本、中国等国均已研制 和开发出产品并投入使用。 所以有关部门提出制造一种移动式水质净化保持器,对潮水进行保持。通过处 理器的移动,带动水的流动,从而达到水质处理的目的。处理器可同时对湖内的 各种垃圾进行自动收集,清除和防止藻类及其他有损水质的浮游生物。湖水清污 机器人是一种可以全自动、全场移动式的处理不流动水而达到水质处理的水上智 能环保机器人,能够对湖内的各种漂浮垃圾进行自动收集和对藻类及其它有损水 质的浮游生物等清除和防治,实现对湖水的环境保护和水质维护【1 1 。 湖水清污机器人是基于人工智能与环保技术相结合的水上作业机器人,可归类 于服务型和智能型机器人的范畴。机器人可对湖内的各种垃圾进行自动收集、清 除,同时通过定期的水质检测和喷洒药物来防止绿藻及其它损害水质的浮游生物 得产生,达到水质处理的目的。湖水清污机器人是清扫湖面和处理湖水水质的一 种新思路,是运用现代化科技手段与环保技术相结合的一种新探索。此外,湖水 清污机器人增加了景观娱乐功能,包括表演,游动、喷水、发光和发声等,这些 提升了机器人的观赏性和娱乐性,使人们在欣赏美丽湖水的同时,感受到科技所 带来的听觉和视觉的享受。为了便于操作,机器人上配有语音识别系统,能够直 沈阳理工大学硕士学位论文 接接收人的语音命令,并做出相应的处理【2 1 。工作人员可以通过两种语言、汉语 和英语,对机器人进行控制。 机器入在现代生活中占据着十分重要的地位,这冰冷的、毫无生气的机器在为 人类创造大量财富的同时人们希望他能更加智能化,现在的大多数机器人是靠人 工操作的,当然这需要大量的专业人员和技术专家。如果机器人能听懂人类的语 言,能正确地对人们的指令做出反应,将为机器人的推广迈出卓有成效的一步。 为机器人配备自然语言理解系统就能实现这样的设想。虽然现有的自然语言理解 理论很多,但仍不能模拟出人脑真正的理解过程。即便如此,应该用现有理论和 机器人的特点可较准确的实现湖水清污机器人的自然语言的理解系统。 1 2 自然语言理解 自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。广义的 “语言 是任何一种有结构的符号系统。人类的语言、手势、体态,机器的指令、 命令、程序,排版时的格式说明,公路上的交通图标等都属于这种广义的“语言 。 其中,最重要的两类语言是自然语言和形式语言。 狭义的“语言 指“自然语言 ,即人类在其社会生活中发展出来的用来互相 交际的声音符号系统。现已发现数千种不同的自然语言。“自然语言理解 指的就 是使计算机来按照这种语言所表达的意义做出相应的反应的机制。 自然语言处理( n a t u r a ll a n g u a g ep r o c e e d i n g ,简称n l p ) 是指用计算机对自然语 言的形、音、义等信息进行处理。即对字、调、句、篇章的输入、输出、识别、 分析、理解、生成等的操作和加工。自然语言处理研究使用计算机理解和生成自 然语言的基础理论和基本技术,是当前人工智能研究的核心课题之一。因为处理 自然语言的关键是要让计算机“理解 自然语言,所以,自然语言处理通常又叫 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,简称n l u ) 。计算机理解自然语言 可分为两个方面: ( 1 ) 口语的理解。用口语对计算机讲话,通过语音识别、理解与合成,使计算 机能够“听懂”,并做出响应; ( 2 ) 书面语的理解。把文字输入计算机通过分析和生成,使计算机能够“看懂”, 并做出回答1 3 1 。 第1 章绪论 1 2 1 自然语言理解的历史 自然语言理解的研究首先是从机器翻译系统的研究开始的。从1 9 5 4 年 g e o r g e t o w n 大学第一个机器翻译系统的问世至今,大致可分为如下几个阶段: ( 1 ) 萌芽阶段( 5 0 年代初1 7 0 年代初) 1 9 5 4 年,美国g e o r g e t o w n 大学与i b m 公司合作,在i b m 7 0 1 计算机上进行了 第一次机器翻译试验,将俄语翻译成英语。尽管这次试验用的机器词汇仅仅包含 了2 5 0 个俄语单词,机器语法规则也只有6 条,但是,它第一次向公众和科学界 展示了机器翻译的可行性。 此后,机器翻译作为自然语言处理的核心研究领域,潮起潮落,经历了不平坦 的发展道路。新生事物的发展总是不可能一帆风顺。第一代机器翻译系统设计上 的粗糙带来翻译质量的低劣。随着研究的深入,人们看到不是机器翻译的成功, 而是一个又一个它无法克服的局限。1 9 6 6 年1 1 月,美国科学院下属的语言自动处 理咨询委员会( a u t o m a t i cl a n g u a g ep r o c e s s i n ga d v i s o r yc o m m i t t e e ) l 句美国国家基金 会提交了一份关于机器翻译的咨询报告。该报告对机器翻译下了一个否定性的结 论,称机器翻译的目标是不现实的,在可预见的将来没有成功的希望。 此后一段时间内,机器翻译的研究跌到低谷。在这段时期,研究人员开始反思 机器翻译失败的原因,由此也引发了对自然语言的性质本身更深刻的关注。 ( 2 ) 复苏阶段( 7 0 年代初8 0 年代初) 尽管机器翻译研究困难重重,但是各国仍有研究者坚持着机器翻译研究。7 0 年代先后提出了一些有关自然语言知识表示和处理的理论和方法。这些理论和方 法除了在机器翻译研究中进行尝试,还将自然语言处理的研究扩展到了更广阔的 应用领域,如智能计算机人机接口、专家系统自然语言接口等。 ( 3 ) 繁荣阶段( 8 0 年代初至今) 由于计算机软硬件技术本身的发展,从8 0 年代开始,个人计算机系统( p q 迅 速普及,机器翻译软件、自然语言人机接口软件等陆续从实验室走向市场。如果 说从5 0 年代到7 0 年代,自然语言理解的应用主要还停留在实验室阶段,那么从 8 0 年代开始,自然语言理解的应用就可以算是开始步入社会生活了。 2 0 世纪9 0 年代以后,随着网络技术和i n t e r n e t 在全球范围内的飞速发展,开 沈阳理工大学硕士学位论文 始出现互联网上的在线机器翻译、跨语言的信息检索、多语通信系统、机助人译 系统、计算机辅助写作系统等。随着无线网络的发展,出现了面向移动设备的自 然语言语音接口( 包括语音输入、语音识别、口语翻译等) 。 从盲目乐观到顾本务实,从实验玩具到应用系统,是自然语言理解研究的发展 道路【4 1 。 1 2 2 国内的研究状况 国内的自然语言理解研究以汉语为研究对象,利用计算机对汉语的书面形式和 口头形式进行信息处理,是自然语言处理技术在汉语文字应用研究中的体现。由 于汉语属于意合语,与英语、法语等印欧语系的屈折语种不同,西方的各种语法、 语义理论无法直接套用在汉语上,这使得汉语自然语言理解研究工作困难重重。 我国的有关科研单位和专家,从来没有停止过攻克中文信息处理难关的努力, 在国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机 对自然语言进行理解问题,也就是以开发智能型的汉语分析系统为奋斗目标。 通过2 0 多年的不懈努力,我国的自然语言处理的研究水平有了很大的进步, 并取得了丰硕的成果,大体可以总结如下: ( 1 ) 机器翻译:以冯志伟教授为代表的计算语言学学者早期在机器翻译研究方 面做了大量的工作,并总结出了不少珍贵的经验和方法,为后来的计算语言学研 究奠定了基础1 5 】。 ; ( 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学实验室,主要从事 基于语料库的汉语理解。近年来,在自动分词、自动建立知识库、自动生成句法 规则、自动统计字词的使用和关联频率方面做了大量的工作并发表了不少很有价 值的论文【6 j 。 ( 3 ) 语篇理解研究:东北工学院的姚天顺教授和哈尔滨工业大学的王开铸教授 等在计算语言学的语篇理解方面的研究也取得了一定的成就1 7 l 。 ( 4 ) 受限汉语:北京信息工程学院的周锡令教授主持的受限汉语的研究为自然 语言理解提出的一种新的思路。他认为短期内计算机还很难做到真正的理解自然 语言,在继续对自然语言理解方面进行研究的同时,应该研究受限的规范的汉语, 这样可以让研究成果较快的实j f 】化。 第1 苹绪论 ( 5 ) 知网:由董振东先生提出的一种汉语知识表示方法。知网把客观世界看作 是有很多的概念构成。概念与概念之间有各种各样的关系,这些关系相互交织就 构成了一个网。要表示一个客观世界,就是要确定这些概念、概念的属性以及概 念之间的关系【8 l 。 ( 6 ) 概念层次网络( 心c ) :由中科院声学所黄曾阳先生提出的一种自然语言理 解的理论框架。这个理论框架是以语义表达为基础的,它对语义的表达是概念化、 层次化、网络化的,所以称它为概念层次网络理论。该理论把认知结构分为局部 和全局两类联想脉络,认为对联想脉络的表述是语言深层( 即语言的语义层面) 的根 本问题。这一理论的提出为语义处理开辟了一条新路1 9 】。 仍俞士汶等的现代汉语语法信息词典【彻。 1 2 3 自然语言处理中存在的困难 自然语言是人类在社会生活中发展出来的用来互相交际的声音符号系统,是人 类历史长期发展而约定俗成的产物。 现在的计算机的智能还远远没有达到能够像人类那样理解自然语言的水平。因 此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机 实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机 具备了自然语言理解的能力。 自然语言中充满歧义,在各个层次都含有巨大的不确定性。在语音和文字层次 上,有一字多音、一音多字的问题;在词法和句法层次上,有词类词性、词边界、 句法结构的不确定性问题;在语义和语用层次上,也有大量的由种种原因造成的 内涵、外延、指代、言外之意的不确定性。 自然语言是极其复杂的符号系统,其结构复杂多样,语义表达千变万化。自然 语言的语法结构和语义之间有着千丝万缕的、错综复杂的联系。一种结构可以有 多种语义解释,而一种语义解释又可以由多种结构来表示。 自然语言的这些独特性和计算机使用的形式语言有很大的差异,因而应用计算 机处理自然语言时无疑会遇到很多的困难。自然语言处理之所以存在困难是因为 以下的原因: : ( 1 ) 目标表示的复杂性。如语义的概念依存网络表示,要从语句中提取这种表 沈阳理工大学硕士学位论文 示的关键字就相当的复杂,同时还需要更多相关的客观世界的知识。 ( 2 ) 映射的类型。对于源语言到目标语言表示的映射,一对一类型是最理想的, 但现实中,自然语言到目标语言表示的映射极难达到一对一的要求。 ( 3 ) 成分的交互程度。在语言中,每个语句都是由多个成分组成,若每个成分 的映射与其它成分无关,那么映射过程就比较简单了。遗憾的是,自然语言中的 成分交互程度相当高,句子中改变一个成分,常常会大大改变句子的整体结构, 这使得映射的复杂程度大大增加。 1 2 4 语言的层次划分 语言学对语言的层次划分如表1 1 所示: 表1 1 语言的层次划分 第一层 语音分析,即基本语言信号的构成 第二层 词法分析,即汉语中最小的可以独立运用的语言单位 第三层 句法分析,即词语的构成和组合的形式规律 第四层语义分析,即语言表达的概念结构 第五层语用分析,即语言与语言的使用环境的相互作用。 虽然这些层次之间并非是完全隔离的,但这种层次化的划分的确有助于更好地 体现语言本身的构成,并且在一定程度上使得自然语言处理系统的模块化成为可 能。 ( 1 ) 语音分析:在有声语言中,最小可独立的声音单元是音素,音素是一个或 一组音,它可与其他音素相区别。语音分析就是根据音位规则,从语音流中区分 出一个个独立的音素。再根据音位形态规则找出一个个音节及其对应的词素或词。 ( 2 ) 词法分析:主要目的是找出词汇的各个词素,从中获得语言学信息。 ( 3 ) 句法分析:对句子和短语的结构进行分析。句法分析的最大单位是一个句 子,分析的目的就是找出词、短语等的相互关系以及各自在句中的作用等,并以 一种层次结构来加以表达。这种层次结构可以反映从属关系、直接成分关系,也 可以是语法功能关系。自动句法分析的方法很多,有短语结构文法、格语法、扩 充转移网络、功能语法等。 ( 4 ) 语义分析:理解语言的核心赴理解语义。随着自然语言处理的发展,越来 第1 苹绪论 越多的研究者开始侧重于语义层的研究。句子是由词组成的,句子的意义与词义 直接相关,但不等于词义的简单相加。因此,还应考虑句子的结构意义。语义分 析就是要找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或 概念。在自然语言处理中,语义愈来愈成为一个重要的研究内容。 ( 5 ) 语用分析:语用分析的任务是研究语言所存在的外界环境对语言使用所产 生的影响。它描述语言的环境知识与语言使用者在某个给定语言环境中的关系, 关注语用信息的自然语言处理系统更侧重于说话者或听话者模型的设定,而不是 处理嵌入到给定话语中的结构信息。研究者们提出了很多语言环境的计算模型, 描述说话者和他的通信目的,听话者及他对说话者信息的两组方式。构建这些模 型的难点在于如何把自然语言处理的不同方面以及各种不确定的生理、心理、社 会、文化等背景因素集中到一个完整的连贯的模型中f 1 1 】。 1 3 本文的主要工作和内容安排 本文根据湖面清污机器人的实际构成和需要,对可能出现的命令语句进行采 集,形成语料库,对其中出现的命令语句进行分析与归纳,找出每类语句的特点, 结合系统最终需要的结果,设计出适合机器人的自然语言理解系统。 所要完成的工作: ( 1 ) 通过阅读大量的文献,掌握自然语言理解的基础知识,熟悉一般自然语言 理解系统的构成及各个部分的中常用的理论和算法。 ( 2 ) 为系统分析做准备,对可能用到的命令语句进行语料收集,语料采集对象 包括:系统用户和项目组成员。 ( 3 ) 对格语法和概念从属理论进行进一步的研究,以这两种理论为依据,并将 两种理论结合语料库中命令语句的特点进行一定的改进,使两种理论有效 的结合在一起来,可以更好的实现系统。 本文共分为六章,具体安排如下: 第一章为绪论。提出了课题研究的背景和意义,阐述了自然语言理解的涵义、r 发展历史和国内的研究状况。 第二章为系统设计。收集大量的语料对其进行分析,将分析结果同j 然语言理 解的众多理论进行比较,从其c 找出适合解决系统问题的方法作为理论,i t 鲫b ,并 沈阳理工大学硕士学位论文 结合机器人自身的特点,设计出系统的分析流程和体系框架。 第三章为词法分析。自然语言理解首先要将输入的命令语句分割成词语,这样 才能继续后续的语法分析和语义分析。综合现有的词语分割算法,系统对汉语采 用“最大匹配法”进行词法分析,为了一次性分得所有单词,在词法分析前对文 本进行了处理。英语使用一种自行设计的词法分析机制,同使用现有的方法相比 可缩小词典的词汇量,缩短用于搜索的时间。 第四章为语法分析。由系统的特点,将系统中可能出现的动词分为两类。依据 动词的分类结合自顶向下和自底向上两种语法分析方法,可以使系统快速、准确 的得出语法分析结果。 第五章为语义分析。由格语法、概念从属理论,结合系统分析所要的结果,将 语义分析结果设计成框架结构。其中由格语法定义出框架中所需的各位,由概念 从属理论推出所需各位的值。最后然后将语义框架转化为机器指令参数集即可。 第六章为应用。将语料收集到的命令语句在系统中验证,分析这些命令语句的 结果,看是否能实现预计的结果。根据实验结果提出系统改进方法。 第2 章系统设计 2 1 应用的场景 第2 章系统设计, 作为实际项目本系统是在语音识别系统已完成的基础上进行自然语言理解的 研究,即将语音信号转变成的文字翻译成机器语言。使得人们可以通过语言对机 器人进行控制,大大提升了机器人控制的灵活性。人们通过一些简单的设备,就 可以实现对机器人的操纵。即使“外行人 也能自如的操纵机器人。自然语言理 解系统包括汉语和英语的理解,使得机器人的应用和推广范围加大。 2 2 语料收集 的污物,当机器人收集的 确定了应用的场景,就可以开始收集语料的工作【1 2 】。收集的目标是尽可能完整 地收集真实口语素材,即机器人操纵者通常使用的句子。人们在操纵机器人时通 常使用命令口气的祈使旬,而且这些句子都是口语。口语往往具有很大的随意性, 与语法著作中定义的标准语句有一定的差别,如语法上定义的完整的句子,应能 划分出主语、谓语、宾语、状语、定语和补语,但口语很难准确的划分句子的句 子成分a 故而系统无法完整套用现有的理论,以收集的真真正正在使用中出现命 令语句作为语料库,以它们作为系统分析的依据设计系统,无论它们是否符合语 法定义中的句子【1 3 】。最后收q :的成果要尽可能地完整,词库和文法的完整性取决 于此,应用最后适用面的宽尔也取决于此。 沈阳理工大学硕士学位论文 收集语料的方法是通过调查问卷的方式,给定机器人所能完成的功能,让被调 查者给出当希望机器人完成某项动作时,发出的命令语句的形式。将收集到的语 料构成语料库列表2 1 如下: 表2 i 语料库 功能 汉语 英语 检 监测水质 a n a l y z et h eb o dv a l u eo fw a t e r 测 监测下水质 a n a l y z et h ec o d c rv a l u eo f w a t e r 分 请监测水质 a n a l y z et h es sv a l u eo fw a t e r 析 将检测器打开 a n a l y z et h ep hv a l u eo fw a t e r 及t u r no nt h ea n a l y s i sa p p l i a n c 宅 生 打开检测设备 h o wa b o u tt h ew a t e r 化 将监测水质的设备开启 处 将检测水质的设备开启 理 功 将检测水质的装置开启 能将监测水质的装置开启 投入污水处理化合物 向水中撒入污水处理化合物 投入污水处理药物 将污水处理药物投入水中 测下水质 将检测分析器打开 打开检测分析器 将生化处理器打开 分析下水质 分析水质的情况 测水的b o d 值 分析水的c o d c r 值 水质如何 清除水藻 ( 注:被测的值可以为b o d 、c 0 d c r 、 s s 或p h ) 游 向前行驶!g os t r a i g h tf i v ed e c i m e t e r s 动 前进五分米! r i s eo n em e t e r 和 前进五米 t u r nl e f tf o r t yf i v ed e g r e e s 升 后退五十米 t u r nr i g h tp l e a s e 降 t u r nr i g h t 上浮一米! g o d o w n t e n i n c h 下潜! 下潜三米 浮到水面上! 潜到水底! 左转四十五度 请向左转! 右转 打开排水口 第2 章系统设计 集 收集垃圾c o l l e c tt h eg a r b a g ei nt h ew a t e r 污 请收集垃圾g a t h e rt h el i t t e ri nt h ew a t e r 功 请收集水中的垃圾 g e tt o g e t h e rw a s t ei nt h ew a t e rp l e a s e 能 把垃圾收集起来 p l e a s e g a t h e rr u b b i s hi nt h ew a t e r 和 t u r no nt h ec o l l e c t e di m p l e m e n t 排 把水里面的垃圾收集起来 t u r no ht h ec o l l e c t i n ge q u i p m e n t 污 把水里的垃圾收集起来 功 把水中的垃圾收集起来 能 把水里面的垃圾收集一下 把水中的垃圾收集一下 将污物收集器打开十分钟 把水中的垃圾处理一下 把水里面的垃圾处理一下 倒垃圾 排污口打开 打开收集装置 ( 注:其中垃圾有许多同义词,可以 替换污物、废物、脏东西等等。) 表 打开喷水装置! t u r no i lt h es p r a ya p p l i a n c e 演 打开喷泉! l i g h t 功 将喷水装置开启二十分钟! t u r n0 1 1t h el i g h t 能t u r no nt h es t e r e o 喷十分钟的水 喷水二十分钟 m u s i c 开启灯光 t u r no ns t u d i o 把灯打开 点灯 播放音乐 把播放乐曲的装置打开! 放音乐 打开音响 由于条件所限,对英语语料的收集十分有限,而机器人现有的用户使用的语言 是汉语,当有需要时只需扩大词典的词汇量即可。语料确定下后,词典和文法就 可以在此基础之上进行归纳了,这些将在接下来两章详细叙述。 2 3 语料整理和系统分析 整理语料库会发现,所有的句子都是口语,而且由于机器人所具有的功能数量 有限虽然人们的表述方式千差万别,但所用到的词语数量是十分有限的,这为词 典的建立提供了很大的便利,只需将句子中的词语进行总结和归类,建立词典。 系统中还出现一些特殊的词语,这些特殊词语为一串英文字符串,在计算机中每 一个字符占一个字节,每个汉字占两个字节。若句中没有特殊词语,在作词法分 析时使用现有理论是比较容易实现的。出于节省时问考虑,决定为这些特殊的词 语单独建立一个特殊词语的词典。 沈阳理工大学硕士学位论文 语料库中的句子都是简单句,句子结构不是很复杂。充分分析后,可以总结出 其中句子的语法规则,提高系统语法分析的准确性。 对语料库中的命令语句进行分析可以发现,通常命令语句地发出者对机器人的 构造并不甚了解,但他们表述命令的方式可分为以下两种: 第一种:直接命令机器人做什么动作; 第二种:人们通常认为机器人是由能都独立完成各项功能的器件组合而成,由 这样的思想产生了第二种命令语句的表示方式“某部分器件的工作或停止工作 。 实际上湖水清污机器人的组成部分如图2 1 所示: 第2 苹系统设计 当机器人下沉时,机器人的注水口开启,排水口关闭。其中注水口有两种状态: 开启( o p e n ) 和关闭( c l o s e ) 两种。 机器人上浮时,机器人的排水口开启,注水口关闭。其中排水口也同样有两种 状态:开启( o p e n ) 、关闭( c l o s e ) 。 只有两种状态的机器人部件还有:污物收集器、水质检测器、污水处理化合物 排放器、喷水装置、发光装置、发声装置。 若污物收集器是开启状态,机器人就开始收集湖面上漂浮的垃圾。水质检测器 是开启状态,机器人的检测装置就会采集水样,对其进行分析将检测结果反馈给 管理员或直接根据检测结果投入适当的污水处理化合物净化水质。 喷水装置开启,机器人就像鲸鱼一样进行喷水表演。 发光装置开启,机器人身上的灯会闪烁,会警示周围的游船,也为夜晚的湖水 增添别样的景致。 发声装置开启,机器人会播放音乐或提示信息,如保持环境、不要向湖中扔杂 物、水深危险、请不要野浴等等。 计时器也是机器人上十分重要的部件,例如前进、后退、左转、右转都需要根 据现有的速度推算出作相应的动作所需的时间;喷水二十分钟、播放提示信息十 五分钟,这些动作更是离不开计时器。 由于主要是通过语音系统实现对机器人的操控,所以语料库中的语句几乎都含 有驱动相应操作动词。在命令语句的表述方式被分类同时,其中的动词也十分自 然的分成了两类。若依据这两种分类分别处理是否会降低系统的复杂性呢? 下面 来论述一下: 系统的最终结果是将人发出的命令语句转换成机器指令。机器指令中涉及主要 参数有: 广机器人部件 l 机器指令主要参数一 状态 i 【时间 一 那么在经过系统分析后的自然语言可转换为这些参数。上面分析的表述命令语 句的两种方式可形式化的表述为: 第一种:机器人要做的动作+ 附加成分( 时间、长度、角度等) ; 沈阳理工大学硕士学位论文 第二种:机器人某项功能+ 打开关闭+ 附加成分( 时间、长度、角度等等) ; 第二种表述方式中包含了所有的主要参数,只需将其提炼出来即可。而第一种 表述方式中不含有“机器人部件 参数。但认知心理学通过研究认为,在人的长 时记忆中存在着两个或两个以上的相对独立的部分。其中两个部分是情景记忆和 语义记忆。 ( 1 ) 情景记忆 情景记忆是个体接收和存储关于个人特定时间内所经历的情景或事件,以及这 些事件发生的时间和与相关空间相互联系的信息d 在情景记忆中,包含着个体与 某个特定时间和地点相联系的个人经验。 ( 2 ) 语义记忆 语义记忆与情景记忆相对,它涉及人们关于这个世界的知识,包括语言的、百 科全书式的知识,其中不包括像情景记忆的具有个人性质的东西。语义记忆一般 是按照客观事物的类别或属性、总括等抽象规则对刺激信息进行组织,即由事物 的类别和属性的等级方式组织起来的事实构成。塔尔文认为语义记忆是一个心理 库,是一个人拥有的有关词和其他语言符号、它们的意义和指代物、它们之间的 联系,以及有关规则、公式和操纵这些符号、概念和关系的有组织的知识。因此, 语义记忆与情景记忆不同,它是对语词的意义、语法规则、物理定律、数学公式 以及各种科学概念等抽象事物的记忆。语义记忆包含了世界所存在的事物的意义, 存储着个体运用语言或知识时所需要的和所获得的信息。塔尔文把这些关于世界 上的有关事物意义的信息称为语义信息【1 4 1 。 也就是说,情景记忆是个体的特殊的在其个人经历中对世界知识的理解,可以 看作表象的一部分,而语义记忆则是经表象提炼出来的世界知识的一般概念。所 有这一切都说明,语言的理解经过了语言符号语义表象的转换过程。语言事 实上是这样一种符号,它描述了客观事物和它们之间的联系,人们利用它来进行 自身内省和相互交流。这种符号之所以存在,能引起听闻者的共鸣,是因为使用 者和听闻者具有共同的客观事物体验,符号的“能指 唤起了它“所指”的客观 体验在人脑中的记忆,因此语言使用者实际上是通过语言这种符号将客观体验传 递给了听闻者,从而引起听闻者对这种共同体验的“再体验 ,于是语言就被理解 了i t s ! jo 第2 章系统设计 第二种表述方式中有些词语同样也能起到这样的作用。例如命令语句:检测水 质。机器人身上仅有用于检测的部件水质检测器,当句中提及“检测 时, 会马上联想到动作的执行者应该水质检测器。对语料库分析会发现,用第二种方 式表述的命令语句中都含有这样的词语。根据这些词语可以推知动作的执行者, 而且这些词语为动词句子的谓语。无论用什么样的表述方式,其中都含有动 词,而且动词在句中的起着决定性的意义。可这两种表述方式中所含有的动词有 很大的区别:第一种表述方式中的动词明确指出机器人部件应完成的动作,如:打 开、开始、工作、停止、关闭等。而第二种方式中的动词相对“含蓄,如:检测、 喷水、播放等。那么决定将动词分成两类,后面在进行语法和语义分析时证明了 这样的方法是可行的,也是有效的。动词的分类使得语句的语法分析也变得快速、 准确,具体体现第四、五章给出了详细说明。1 动词在句中占有主要地位,这一思想符合“格语法 的思想。此外,由于语言 的灵活性,人们在表述相同意思时所用的表述方式通常千差万别,而概念从属理 论所讲求的就是:通过句子所表述的中心“概念 来理解句子。而且最终得到的 语义是由几个必不可少的几个格组成,故此可将其设计成框架结构为句子的语义 框架。最后将语义框架中的内容转变成对应的机器人指令参数即可。 2 4 系统设计 自然语言理解的分析过程自项而下可以分为四个基本层面,它们分别是词法分 析、语法分析、语义分析和篇章分析1 5 】。机器人的语言理解不涉及篇章分析,所以 只需要考虑词法分析、语法分析、语义分析三部分即可。 其中第部分词法分析,先要将输入的命令语句分成符合句子整体意义的词 语,为后续的语法分析和语义分析做准备。由于系统能够识别汉语和英语,而两 种语言记录方式的不同,系统在进行词法分析时所用的算法应有区别。系统中汉 语采用“最大匹配法进行词法分析,为了一次性分得所有单词,在词法分析前 对文本进行了处理。英语使用一种自行设计的词法分析机制,就系统而言同使用 现有的方法相比可缩小词典的词汇量,缩短用于搜索的时间。 第二部分语法分析。由将系统中可能出现的动词分为了两类。依据动词的分类 结合自顶向下和自底忆匕两种语法分析方法,可以使系统快速、准确的得出语法 沈阳理工大学硕士学位论文 分析结果。这是因为动词的分类使得句子谓语可以一下标出,然后在以自顶向下 方法进行语法分析,划分出句子的主语、谓语、宾语、补语和状语。 第三部分语义分析。由于机器人所能接受的命令语句形式化的可表述为: 第一种:机器人要做的动作+ 附加成分( 时间、长度、角度等等) ; 第二种:机器人某项功能+ 打开关闭+ 附加成分( 时间、长度、角度等等) ; 两种。最终的结果需要指出:机器人的部件、该部件的状态、状态持续时间。由 于动词是句子的中心词,这符合格语法理论。汉语与英语有一些根本上的不同, 英语是语法型语言,它的突出特点是它的语法结构,而汉语是语义性语言,它突 出表现为语义的表示,汉语的这个特点符合概念从属理论。由系统分析所要的结 果,将语义分析的一部分设计成框架结构,其中由格语法定义出框架中所需的各 位,由概念从属理论推出所需各位的值。 本系统是在语音系统已经完成的基础上进行的,而且语音系统能够将语音信号 翻译成相应的汉字和英文。将这些语音系统所得到的符号,翻译成机器所能识别 的指令。最后将语义框架中的内容转变成对应的机器人指令参数即可。 湖水清污机器人自然语言理解系统的总体流程图如图2 2 所示: ( 输入命令语句) 占 i 词法分析 上 i 语法分析 占 l 语义分析 占 ( 结束 ) 图2 2 湖水清污机器人自然语言理解系统的流程图 第3 章词法分析 3 1 词法分析概述 第3 章词法分析 词法分析是本系统处理过程的第一部分,其任务是将句子分割成一个一个词语 并根据词语在句中的位置和词性变化规则鉴别出每个词的词性特征,形成相应的 词语信息。大体来说,在词法分析的算法中,一般都要具备一个比较完善的大型 词库。 词法分析器要从输入文本中,识别出所有的词。词法分析阶段识别完毕后,依 据识别出来的结果进行后面的工作语法和语义分析。最理想的词法分析器就 是一次性就可以完全准确地识别出句子中的每一个单词【徇。本系统词法分析阶段 需要实现两个任务: 第一个任务是词语的自动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年介入室试题及答案
- 2025年海南省三亚市中级会计职称经济法预测试题含答案
- 2025年城管考试题及答案
- 2025年传染病知识考试试题附答案
- 2025年第二季度护理“三基”理论考试试题(附答案)
- 数据分析驱动的市场细分创新创业项目商业计划书
- 2025年安全工程师管理知识对新建、改建、扩建项目设计阶段危险的识别考试试题(附答案)
- 海洋渔业资源可持续利用加工制品创新创业项目商业计划书
- 幕墙工程金属材料专项施工方案书
- 职业技术学院自主招生笔试真题及解析
- 2025贵州贵安城市置业开发投资有限公司招聘32人考试参考题库及答案解析
- 露天煤业安全生产培训课件
- 2025全国科普日科普知识竞赛题库及答案
- 【课件】角的概念+课件+2025-2026学年人教版(2024)七年+数学级上册+
- 2025企业劳动合同范本新版
- 2025年防雷检测专业技术人员能力认定考试题库及答案
- 美发裁剪理论知识培训课件
- 舞蹈老师自我介绍课件
- 2025年吉林省教育系统校级后备干部选拔考试题及答案
- 社区安全知识培训资料课件
- 徐学义基础地质调查课件
评论
0/150
提交评论