




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
特定领域人机会话系统的研究与实现 摘要 随着计算机的发展,用自然语言进行人机会话已趋必然。基于 隐马尔柯夫声学模型的语音识别技术不断成熟,语音合成技术逐渐 步入实际应用阶段,实现人机语声接口这一具有重大实用价值课题 的研究己成为可能。但是,这也对语言文字处理的深度和广度提出 越来越高的要求。这个问题在西方国家并不突出,因为计算机从诞 生之日开始,就是以处理西方语言为基础的。他们很自然地主动研 究和解决计算机如何不断地适应自己国家的语言文字问题。可是汉 语与西方语言的差别很大,能够处理西方语言的计算机,面对汉语 的理解、生成等处理问题却显得无能为力。因此,近几年来中文信 息处理技术已经越来越多地受到了专家、企业和政府的重视。 本文讨论了人机会话系统的两个问题,语音识别错误的自动纠 错和汉语的语义理解。并在综合各项中文信息处理技术的基础上实 现了一个上海市内交通信息的电话语音查询系统。其特点为:用户 与计算机完全用自然语言进行交流,有别于目前流行的以孤立词语 音识别为基础并辅以按键导航的语音自动应答系统,使用户的选择 更加方便、快捷。 本查询系统由语音识别、自然语言处理和文语转换三大处理模 块组成。语音识别引擎将语音信号转化为书面文本;而后由自然语 上海交通大学硕士学位论文 言处理模块对识别文本进行切分、标注、语义理解,并自动生成对 话文本;最终对生成文本进行文语转换,产生语音信号并反馈给用 产。 在现阶段,由于语音识别的不完善,识别正确率不高。本文根 据汉语的特点,通过总结在汉语语音识别中出现错误的规律,定义 了相应的用于查错和校正的语义和语用规则。利用“词汇语义驱动” 的分析方法,找出语音识别序列中的错误并校正,很大程度上缓解 了语音识别错误对后续文本处理工作的消极影响。现在对语音识别 技术的研究主要集中于语言的声学特征上,结合语言的语法、语义 和语用特征的研究还不多,本文的研究能对语音识别技术的进一步 完善有所启迪。 在人机会话系统中,对话理解是其中的核心部分,也是系统实 现的难点。从目前的情况看,许多实现系统采用了例句匹配、关键 字识别、信息提取等技术手段,但由于缺乏对语义解释的形式化表 示,因此对自然语言语句理解的准确程度都不高。为此,本文引入 类型逻辑语义学作为汉语语义分析的手段,并结合限定领域中的应 用,分析了对话实例中的语句语义,希望能在解决中文语义形式化 的问题上做出有益的尝试。 关键词人机会话,皇然语言处理,自动纠错,类型逻辑 上海交通大学硕士学位论文 t h es t u d ya n dr e aiiz a tio no fh u m a n c o m p u t er c o n v e rs a tio ns y s t e mins p e cificd o m ain a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e r s i ti st h ei n e v i t a b l et r e n dt h a tn a t u r a l l a n g u a g ei s u s e da sh u m a n c o m p u t e ri n t e r a c t i v el a n g u a g e i nr e c e n ty e a r s ,t h e t e c h n i q u e so fs p e e c hr e c o g n i t i o nb a s e dh i d d e nm a r k o vm o d e la n dt h et e c h n i q u e so f s p e e c hs y n t h e s i sh a v eg o n et ot h es t a g eo fa p p l i c a t i o n s oi t i sp o s s i b l et or e a l i z e h u m a n - c o m p u t e rc o n v e r s a t i o n h o w e v e r , t h a td e m a n d sd e e p e ra n db r o a d e rn a t u r e l a n g u a g ep r o c e s s i n g t h ec r i s i si sn o ta ss e r i o u si no c c i d e n ta si nc h i n a ,b e c a u s e c o m p u t e r sa r ed e s i g n e dt op r o c e s si n d o e u r o p e a nl a n g u a g ef r o mt h en a i s s a n c eo f c o m p u t e r s t h eo c c i d e n t a l sd or e s e a r c ho nh o w t om a k ec o m p u t e r sa d a p tt ot h e i r l a n g u a g eo nt h e i ro w ni n i t i a t i v e c h i n e s e i s v e r yd i f f e r e n tf r o mi n d o e u r o p e a n l a n g u a g e s c o m p u t e r s c a n n o tp r o c e s ss p e e c hr e c o g n i t i o n ,u n d e r s t a n d i n g ,a n d g e n e r a t i o na se f f e c t i v e l yo nc h i n e s ea so ni n d o e u r o p e a nl a n g u a g e o u rc o u n t r y e x p e r t s ,e n t e r p r i s e s a n dg o v e m m e n th a v et h o u g h tm u c ho fc h i n e s ei n f o r m a t i o n p r o c e s s i n g t h i sp a p e rd i s c u s s e st w op r o b l e m si nh u m a n c o m p u t e rc o n v e r s a t i o ns y s t e m , i n c l u d i n ga u t o m a t i cc h e c k i n ga n dc o r r e c t i n gs p e e c hr e c o g n i t i o ne r r o r sa n dc h i n e s e s e m a n t i cu n d e r s t a n d i n g a n da ni n t e r a c t i v ed i a l o g u es y s t e mf o rt r a f f i ci n f o r m a t i o ni s d e v e l o p e du s i n gs o r t so ft e c h n i q u e so fc h i n e s ei n f o r m a t i o np r o c e s s i n g t h es y s t e m h a sam o s tr e m a r k a b l ef e a t u r e :n a t u r a li n t e r a c t i o nb e t w e e nu s e r sa n dc o m p u t e r t h i ss y s t e mi sc o m p o s e do ft h r e em o d u l e si n c l u d i n gs p e e c hr e c o g n i t i o n ,n a t u r a l l a n g u a g ep r o c e s s i n ga n dt e x t - t o - s p e e c h v o i c es i g n a l sa r ec o n v e r t e d t ot e x tb ys p e e c h r e c o g n i t i o ne n g i n e ;a n dt h e nr e c o g n i z e dt e x ti ss e g m e n t e d ,t a g g e da n du n d e r s t o o d , d i a l o gt e x ti sg e n e r a t e di fn e e d e d ;a tl a s tg e n e r a t e dt e x ti sc o n v e r t e dt os p e e c ha n df e d b a c kt ou s e r s a tc u r r e n ts t a g e r e c o g n i t i o ne r r o r sa r ei n e v i t a b l eb e c a u s eo ft h ef l a wi nt h e t e c h n i q u e so fs p e e c hr e c o g n i t i o n t h i sp a p e rd e f i n e sc h e c k i n g a n dc o r r e c t i n g s e m a n t i ca n dp r a g m a t i cr u l e st h r o u g ht h eg e n e r a l i z a t i o no fr e c o g n i t i o ne r r o r sa n dt h e s t u d yo fs e m a n t i ca n dp r a g m a t i cc h a r a c t e r si nl a n g u a g e s t h e “l e x i e a ls e m a n t i c d r i v e n ”m e t h o ds e e k so u te r r o r si nr e c o g n i t i o ns e q u e n c e s ,w h i c hp r o v i d e sb e t t e r r e c o g n i t i o nt e x tf o rf o l l o w i n gt e x tp r o c e s s i n g d i a l o gu n d e r s t a n d i n gi s t h ek e yc o m p o n e n to fh u m a n c o m p u t e rc o n v e r s a t i o n s y s t e m t h ec u r r e n tw o r k i n gs y s t e m sa d o p tm a n yt e c h n i q u e ss u c ha ss a m p l em a t c h i n g , k e y w o r di d e n t i f y i n ga n di n f o r m a t i o ne x t r a c t i n g t h o s et e c h n i q u e sl a c ki nf o r m a l e x p r e s s i n g o fs e m a n t i c s a sar e s u l t ,t h ec o r r e c t n e s si nn a t u r a ll a n g u a g e u n d e r s t a n d i n gi sn o tp e r f e c t t h i sp a p e ri n t r o d u c e st y p el o g i c a ls e m a n t i c sa st h e m e t h o do fs e m a n t i ca n a l y s i sa n ds h o w st h ea c q u i r i n go fs e m a n t i c so ft h e q u e s t i o n c l a u s ei nd i a l o g u e sc o m b i n e dw i t hs p e c i f i ca p p l i c a t i o n k e yw o r d sh u m a n 。c o m p u t e rc o n v e r s a t i o n ,n a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) , a u t o m a t i cc h e c k i n ga n d c o r r e c t i n g ,t y p el o g i c 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 凑三、软 日期:年月舌e l 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手 本学位论文属于 不保密口。 ( 请在以上方框内打“4 ”) 学位论文作者签名: 日期:年月 日 用本授权书。 上海交通大学硕士学位论文 第一章绪论 自然语言处理是人工智能的一个分支,就是研究如何能让计算机理解并生 成人们日常所使用的( 如汉语、英语) 语言,目的在于建立起一种人与机器之间 的密切而友好的关系,使之能进行高度的信息传递与认知活动。因此,实现人 与机器之间自然地对话交流是自然语言研究的一个主要方向,也即是本文所要 研究的人机会话技术。 人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接口、 图形接口到自然语言接口的革命,其技术内涵主要包括语音识别、自然语言理 解与生成及文语转换四个核心部分。本章将分别对这四个方面进行简要介绍。 1 1语音识别 对于一个人机会话系统来说,输入是语音信号,它承载着大量的语言信息, 但必须首先将语音信号转化成文字或符号形式,计算机才能进行进一步的分析, 如文本处理和语义理解。这一过程,一般是通过语音识别来完成的。 1 1 i语音识别的任务及研究方向 语音识别,就是利用计算机对人们的语音信号进行时域或频域等的处理, 识别出是什么类的语音。通俗地讲,就是让计算机能够模拟人类的听觉功能。 随着计算机的出现,利用计算机进行语音识别的研究也有近五十年的历史,经 过几代科学家的艰辛努力,语音识别的研究取得了丰硕的果;尤其在近二、三 十年,提出了许多有效的语音处理和识别的方法和策略,使得语音识别这门学 科的研究日趋兴旺,许多的语音识别系统正向实用化转变,进入市场。 语音识别系统可以依照语音识别的单元、语音识别系统是否依赖人分成以 下四类: ( 1 ) 特定人、孤立词语音识别系统 ( 2 ) 非特定人、孤立词语音识别系统 ( 3 ) 特定人、连续语音识别系统 ( 4 ) 非特定人、连续语音识别系统 在这四类中,按语音识别系统的词汇多少有分成大字表、中字表和小字表 语音识别系统,一般讲,几十个的词汇称之为小字表,几百个的词汇称为中字 表,而几千、几万个词汇的语音识别系统称为大字表语音识别系统。 在语音识别这门学科中,非特定人语音识别、连续语音识别以及大字表语 音识别是三个最主要、也是最困难的研究方向。非特定人语音识别是指语音识 别系统一旦建立以后,不仅可以识别参加训练的人的语音,而且可以识别没有 参加训练的人的语音:连续语音是与孤立词相对应的,从字面上讲是连续发的 语音,或者说是正常发音速度( 平时说话一样) 的语音,从系统设计角度来说, 上海交通大学硕士学位论文 语音识别系统中如果保存了m 个基本语音单元的样本模板,那么系统所能识别 的语音不仅仅是这m 个基本语音单元,而且还应能识别这m 个基本语音单元 的一些排列;大字表语音识别系统则要求系统所能识别的词汇达到成千上万个。 1 1 2语音识别技术的基本理论 隐马尔可夫模型h m m 的理论和技术的发展,对语音识别的发展起了和大 作用,本小节对它作些简单介绍。 m a r k o v 过程的基本理论在本世纪初就已为人们所知了,但只是在7 0 年代 末才被应用到语音识别领域中来,主要原因是没有一个有效的、可以把语音特 征参数用m a r k o vm o d e l 的参数进行建模的算法。在6 0 年代末提出了比较有效 的算法,立刻被广泛地应用到语音识别领域中来【1 1 ,c m u 的【2 1 ,i b m 的【3 】【4 1 【5 1 。 近几年来,h m m 成为语音识别中最瞩目、最高效的技术,尤其是对于非特定 人、连续语音、大字表的语音识别【6 m 8 1 1 9 1 。 1 。h m m 的优点 ( 1 ) 容易建立各种层次的语音识别单元( 音素、音节、字、词或句子,以 及语法、语义等) 的语音模型 ( 2 ) 便于综合不同性质参数的信息:声道参数、语法、语义参数、语言模 型( l a n g u a g em o d e l ) 等。 ( 3 ) 精度高( 尤其对于非特定人的语音识别) 。 ( 4 ) 便于进行非特定人的语音识别。 2 h m m 的定义 为了以下叙述方便,我们对h m m 有关符号作如下的约定: f 1 )d = d ,d ,o r:语音观察序列 ( 2 ) d f:观察序列中t 时刻的输出值 ( 3 )m = 岱4 j 7:语音的h m m ( 4 )s = s ,。s :状态集 ( 5 )a ,:表示从s 状态转移到s ;的概率 ( 6 )b 洼:表示处于s ;状态时,输出观察值k 的概率 ( 7 )母御:表示t 时刻所处的状态 ( 8 )y ( t ):表示t 时刻状态的输出值 ( 9 )墨:表示第f 个状态 h m m 是一个二重m a r k o v 随机过程,它包括了状态转移的随机过程和观察 值输出的随机过程,其中状态转移的随机过程是隐式的( 这就是为什么h i d d e n ) 的来源,它通过观察序列的随机过程表现出来。一个h m m 的描述包括三个要 素: ( 1 ) 一定数目( + 1 个) 的状态s = s o ,s ,s n ) ,以及初始时刻t = 0 时处于 状态的概率尸向倒= 影,通常就把岛看作初始状态,爵看作是结果 状态。 ( 2 ) 状态的转移概率: 尸( g ( d = s j q ( t - 1 ) = 鳓2 a 打 f ,产d 描述了在f l 时刻( 前一时刻) ,处于状态s ;,而在t 时刻( 当前时刻) 进 入状态s ;的概率,这个概率只取决于前一时刻所处的状态,而与前一时刻 2 上海交通大学硕士学位论文 之前的历史无关。( m a r k o v 假设) 。 ( 3 ) 观察值的输出概率尸( y ( f ) = k l q ( t ) = 劝= , 描述了在t 时刻,处于状 态s 而输出观察值k 的概率,同样这个概率也具有m a r k o v 性质,即 只取决于当前时刻t 所处的状态,而与以前的历史无关。 从上述h m m 的三个要素可以看出,h m m 做了两种假设( m a r k o v 假 设) : 状态转移的m a r k o v 假设: p ( g ( 力= s j l q ( t - i ) = s ,q ( t - 2 ) = 最) = 以g ( 力= s j l q ( t - 1 ) = 鳓 = a a = 陋jf ,户d 输出值的m a r k o v 假设: p ( v ( o = q f “力= 墨,灭t - 1 ) = 口一。) ) = p ( 力= d ,i g ( f ) = 鳓 = b = 【6 肚】j = o n k = - i m 3 h m m 的三个主要问题 把h m m 应用到语音识别中要解决三个主要问题: ( 1 ) t h ee v a l u a t i o np r o b l e m : 这个问题解决的是样本( 或模型) 匹配问题:假设已经有了语音的隐式马 尔可夫模型m 和语音的观察序列o ;如何求得这个观察序列o 由m 产生的 概率,郎求p ( m i d ) 。 ( 2 ) t h el e a r n i n gp r o b l e m : 这个问题解决的是如何估计模型的参数即模型的训练问题:给定一系列观 察序列o ( i j i i 练观察序列) ,如何确定模型的参数m = a ,b ,使得p ( o i m ) 达 到最大。 ( 3 ) t h ed e c o d i n gp r o b l e m : 这个问题是解决模型m 产生观察序列o 的极大似然状态序列。 实际上,第一个问题解决语音的识别问题;第二个问题则解决了语音的训 练问题:第三个问题的解决可以用于语音识别,但主要应用于连续语音识别上。 1 1 3 汉语语音识别的特点 汉语的语音识别有其特点,汉语是音节性很强的语言,一字就是一个音节, 而且只有1 3 0 0 个左右音节,于是以音节为基本识别单位的全音节识别是比较合 理可行的,由于汉语音节性强的特点,使得基于音节识别的词组识别也比较容 易,而且汉语中二音节、三音节、四音节词组的出现率很高,几乎占词组中的 1 0 0 ,这是汉语识别的优势;但是汉语音节所含的语音信息量太少或太近,有 些音节还是零声母( 没有声母,只有韵母) 的音节;另外,汉语中有许多音节 只是声母或者韵母稍有差别,例如:s 和s h ,a n 和a n g 等,而且许多人对这 些差别的发音本身就区别不了;再者,汉语中存在大量的同音异义字,这些都 给汉语的音节识别造成很大的困难。 汉语语音识别另一个显著的特点就是汉语的声调。汉语声调一般分成一声、 二声、三声和四声,另外还有零声调,如一些轻声音节。声调识别现在取得了 比较好的识别率,大多都在9 5 以上,然而这些结果都是在比较苛刻的条件下 得到的,而且现在声调识别都是针对单音节的。对于连续语音中音节声调的识 3 上海交通大学硕士学位论文 别还有待于研究。尽管如此,汉语四声识别是汉语全音节识别的一个重要部分, 现在国内大部分的全音节识别系统都是采取4 0 0 个左右无调音节的识别再加上 四声识别的策略。 1 2自然语言理解 语音信号经过语音识别转化成书面文本之后,接下来的工作即是自然语言 理解,将自然语句抽象为内涵逻辑表达式。这项工作的完成,有赖于文本切分、 标注和语义分析三方面的工作。 1 2 1 汉语切分 由于中文文本是按字连写的,词与词之间没有间隙,因而词的切分问题就 成为中文信息处理中要解决的首要问题。自动分词就是将连续的缺乏词的分隔 标志的生语料,自动切分出以词为单位的语料。 从八十年代初期,自动分词技术就受到了重视,陆续有各种分词软件面世。 例如,北京航空航天大学研制的c d w s 系统、山西大学的a b w s 系统、清华 大学的s e g t a g 系统、杭州大学改进的m m 分词系统以及白栓虎的切词与标 注一体化系统等等。随着i n t e r a c t 的普及应用,各类中文信息处理的应用受到 了广泛的重视,因而对自动分词提出了更高的要求。 1 2 1 1 自动分词的重要性及其目标 中文自动分词是中文信息处理中最基本的一步,标注、句法分析以及语义 层次上的加工乃至以后各种应用均建立在分词基础上。因而,分词的正确与否 将影响到中文信息处理的全局,主要表现在以下几个方面: 现代汉语句法分析器以自动分词和标注的结果作为输入; 词语的计量分析已广泛应用于词频统计、新词辩识、计算机辅助词典编纂 等众多领域; 在汉语篇章理解中,只有以词为文本特征,词性、词义和句法结构才能逐 层架构; “以词定字”、“以词定音是解决错别字辨识、同音字辨识、简繁体转换 的主要手段。 自动分词系统只是中文信息处理系统的一部分,分词本身并不是目的,而 是进行后续处理的必备手段。自动分词应以分词规范为准,但是还要考虑具体 的应用环境,灵活地加以控制。一般来说,自动分词应具备易扩充性、可维护 性和可移植性: ( 1 ) 分词单位的选取必须有利于标注、句法分析等后续过程的处理; ( 2 ) 分词精度是分词系统最重要的性能指标; ( 3 ) 作为各种高层次应用的共同基础,分词系统必须有较好的通用性; ( 4 ) 由于不同的应用对分词系统的要求不同,因而各种信息资源、处理模块 都要有较高的独立性。 4 上海交通大学硕士学位论文 1 2 1 2 自动分词中的理论问题 对古汉语来说,不存在词的概念,因此很明显是字本位体系。当汉语演化 成现代汉语后,汉语引入了西方的词类体系,出现了词的概念。但词与词之间 没有空格来分隔,这就产起了分词的问题。汉语与印欧语种有很大的不同,英 文词由字母组成,汉语词由字组成,字的数目很大,而词又可由多个字组成, 使得词的数目很大。由此可见,汉语的词和英文的词有很大的区别。要解决汉 语切分,首要解决的理论问题就是如何定义汉语中的“词”,这个问题直接涉及 到汉语词表和切分规范的定义。 什么是词,目前还没有一个统一的定义。汉语形态不发达,给汉语中的“词 下定义是一件难事。朱德熙先生定义“词 为:最小的能够独立活动的有意义 的语言成分。但所谓“能够独立活动有种种不同的理解,缺乏确定性和可操 作性,在信息处理上难以实现。为了满足自然语言处理研究和语言工程的需要, 我国制定了信息处理用现代汉语分词规范,具体地规定了现代汉语的分词规 范。规范提出了“分词单位”的概念:汉语信息处理使用的,具有确定的语 义或语法功能的基本单位。分词单位不仅包括词,还包括少量结合紧密、使用 稳定的词组。五字或五字以上的谚语、格言等,分开后如不违背原有组合的意 义,应予切分;结合紧密、使用稳定的词组,分开后如违背原有组合的意义, 或影响进一步的处理,则不予切分。惯用语、有转义的词或词组、略语、儿化 的分词单位、外来语,一律为分词单位。随着大规模语料库的出现,通过计算 词频、词长、字频以及互信息等概念可以使“词 定量化。但到目前为止,仍 未出现为广大语言学家和计算学家所接受的关于“词”的精确定义。要从根本 上解决问题,就要摆脱传统的结构主义语法的束缚,在构词法上取得突破。 1 2 2词义标注 词义的自动标注就是在一定的上下文和分类标准下,为文本中的每个词语 标上其正确的词义。在汉语语料初级加工中,一般要判定汉语词的语义范畴, 也就是进行词义标注。 早期对词义标注的研究,主要出于对语言本身的兴趣和教学的要求。今天, 面对自然语言计算机处理的新形势,词义标注具有更深层的意义: ( 1 ) 词义标注可以为更高层次的语料加工( 例如语义分析等) 以及自然语言处理 中的各种应用( 包括文本过滤、自动摘要或文本检索等) 提供素材,因为更 深层次上的分析加工常常需要用到词义标注; ( 2 ) 语料库语言学的出现大大地促进了自然语言的计算机处理:与此同时,随着 自然语言处理的发展,又对语料库的建设提出了更高的要求。为了建立大规 模语料库,依靠人工建立语料库费时费力,而且容易导致语料库前后不一致。 因此,语料库的发展促进了词性标注系统的完善:词义标注系统的发展也促 进了语料库的发展,两者相辅相乘,相互促进。 1 2 2 1 汉语的义项标注 汉语是不同于印欧语的一种独特的语言。首先汉语是一种孤立语,缺乏印 欧语里的名词、形容词、动词那样的性、数、格、时、人称的变化。其次,汉 语的词类与句法成分( 即主、谓、宾、定、状、补) 之间不像印欧语那样存在 5 上海交通大学硕士学位论文 简单的一一对应关系【1 0 1 。 主宾语谓语定语状语主宾语谓语 定语状语 名词动词形容词副词名词动词形容词副词 图1 - 1 英语词类与句法成分的关系 f i g u r el 一1r e l a t i o nb e t w e e nl e x i c a la n d s y n t a c t i cc a t e g o r yi ne n g l i s h 图t - 2汉语词类与句法成分的关系 f i g u r e 1 - 2r e l a t i o nb e t w e e nl e x i c a la n d s y n t a c t i cc a t e g o r yi nc h i n e s e 图1 1 和图1 2 的不同之处在于图1 1 中:动词和形容词可以做主、宾语: 名词可以做定语;形容词可以做谓语和状语;名词在一定条件下可以做 谓语。 以上两大特点使得汉语的句法分析和英语相比有更大的难度。然而汉语以 下的特点也使得汉语比印欧语在语义方面有更大优势。 汉语的第三大特点是:在汉语中字同字组合,词同词组组合以及词组同词 组组合,方式和手段是一致的,组合起来产生的关系是一致的,从字到词,到 词组,到句子,就是一个组合过程,而组合的原理是“一以贯之”。各级的组合, 虽有小异,不失大同】。这是汉语最重要的特点,也是汉语自然语言处理的关 键所在。 同这个特点相关,汉语又有以下几点: 1 汉语是一种“义合 语言。字同字,词同词,词同词组,以及词组 同词组等各级组合,只要意义相同就可以组合,这就是汉语生命力 之所在。几千个汉字的不同组合,使得汉语中新词和新概念层出不 穷,很好地适应了当今信息革命和科技发展的需要。另外,由于汉 字强大的组合功能,“词”在汉语中是一个很难确定的概念,到现在 为止也很难找到一个为大家所公认的权威的词表,分词的标准也很 难制定。例如:在现代汉语词典中,同为动补结构,“打倒”被 认为是一个词收入词典,而“踢倒”、“打死”没有被收入,这种情 况很难让人接受。其实,大部分汉语双音节词都可以被认为是由两 个单音节词组合而成的词组。 2 大部分( 9 4 7 ) 的汉语合成词词组的意义与组合成它的各个字的 意义有关 1 2 1 ;这样如果能够标注合成词词组中每个组成字的字义, 那么就可以推测出大部分合成词词组的意义。 这个特点是和汉语的“义合 性分不开的,它为汉语词汇的形式化 表示提供了一条出路。 3 绝大部分的多音节合成词词组只有一个义项,汉语词语义项标注主 要是单音节词的标注。据对现代汉语通用字典的统计,在该字 典收集的5 0 2 7 6 条合成词词组中,只有2 4 2 9 ( 占总数4 8 3 ) 个合 成词词组有多于一个的义项。在这些多义词中又有1 7 8 9 ( 占总数 3 5 6 ) 个合成词词组的多义是由于其中包含的一个或多个字有歧 6 上海交通大学硕士学位论文 义,如:“打击有两个意思,是由于其中的“打和“击”分别有 两个义项。其余的6 4 0 个多义词则其组成字没有歧义,如:“光景 有3 个意思:时光景物;境况,状况,情景;表示估计。 1 2 2 2 语义自动标注的若干方法 词义标注的方法大致可以分为三类【1 3 】【1 4 】【1 5 】【1 6 1 : 1 m 方法 又可称为定性( q u a l i t a t i v e ) 方法,比较早的方法大都可以划入这一类。如 s m a l l 和r i e g e r 曾试图建立词专家系统( w o r de x p e r t ) 的方法来处理词义标注 问题,但建立这样的词专家系统需要投入大量的人力,规模很难扩大。s m a l l 本 人也曾写到:“处理t h r o w 这个词的专家信息已达6 页纸长,但还 得需要l o 倍这样的长度才够。 因此这种词专家系统只能停留在“玩具”( t o y ) 阶段。 2 基于词典的方法( d i c t i o n a r y - b a s e dm e t h o d ) l e s k 、w a l k e r 、i d e 和v e r o n i s 曾尝试利用o x f o r da d v a n c e dl e a r n e r sd i c t i o n a r y 来处理词义标注问题,他们利用词的多个义项的定义与该词所在文本上的下文 中的词的联系来判断该词的义项。 但这种方法也不很成功。l e s k 报告说: p r i d ea n dp r e j u d i c e ) ) ( 傲慢与偏 见) 的样本片段中只有5 0 - - 7 0 的词被正确地标注义项。失败的原因是词 典的定义文本太短,包含的信息不完全也不能包括所有的搭配关系。这里,基 于词典的方法同样也遇到了知识获取瓶颈的难题。 3 基于语料库的方法( c o 印u s b a s e dm e t h o d ) 近来,越来越多的研究者转向文本语料库,因为语料库的覆盖范围广,词 量大。这种方法一般分为两步:对已标注义项的文本进行训练,得出与某个 多义词义项有关的数据和参数;利用得到的数据和参数对测试文本中多义 词义项进行标注。 然而,与字典不同,大量现成的语料是未加工过的语料,其中的多义词是 没有标注义项。为了得到已标注的文本,有些研究人员用人工的方法对生语料 进行标注,但这也是非常耗费人力的,很难用人工方法得到足够多的标注过义 项的文本。 为了克服知识获取的瓶颈,g a l e 和y a r o w s k y 提出了两种方法来进行语义标 注,这两种方法分别利用了双语语料和r o g e t st h e s a u r u s 的义类代码。由于这 两种方法代表着英语语义标注的最新尝试,下面对其原理简要介绍一下。 这两种方法都使用了贝叶斯( b a y e s i a nd i s c r i m i n a t i o n ) 的方法。例如,“d u t y 在英语中有两个不同的义项,一是“义务 ( o b l i g a t i o n ) ,二是“税”( t a x ) 。在 训练阶段,收集大量包括“d u 竹 并且已标注义项的例子,从上下文中提取参 数;在测试阶段,给出包含“d u t y ”的一个新例子,利用比较新例子的上下文 和已知例子的上下文来给“d u t y ”标注义项。采用的方法是在统计学上为人熟知 并且在情报检索中得到很好应用的贝叶斯方法。 在概率查询模型中,对于文本d = 卫d 器k i o l , 。-蝴加d vl i , 7 上海交通大学硕士学位论文 在多义词排歧中,对于上下文c 肋比(c)-砌1-i加。而pr(to丽ken ls e n s e o ( 2 ) 其中p r ( t o k e n l s e n s e ) 是t o k e n 出现在s e n s e l 或s e n s e 2 的上下文中的概率估算。 在这里c o n t e x t 被定义为多义词出现的左边5 0 个词到右边5 0 个词。 1 。2 3 语义分析 语义分析的工作是试图解释各部分( 词、词组、及句子) 的意义。,这里所 指的意义常常与歧义,同义,指代,量词的辖域,隐涵等等相关。而且,不同 的学派理论对于语义有不同的定义。因为语义这个概念涉及甚广,我们常常会 看到这样的一种情况,一些学派先对它的一个方面进行研究得到比较清楚的解 释后,再把所有的观点、方法推广到其他方面。在语义的研究中,有两个中心 问题,一个是哪些现象是语义现象以及如何来合理地表示它们;另一个问题是 如何从句子中正确地提取这些语义。正确地界定语义现象以及合理地表达它们 对于高层次处理,如推理,有着重要影响。 1 2 3 1 语义理论简介 1 词的指称作为意义 这个理论认为词或词组的意义就是他们在现实世界上所指的事物。计算语 义学的任务是将词或词组与现实世界模型中的物体对应起来。经常用到的现实 世界模型常常会假定世界上所存在的各种物体包括人。这种定义很明确,对于 不太复杂的实际问题也很有用。比如,有人想要建立一个仓库物资管理询问统。 现实世晃模型就是仓库中可能存放的物资以及存放位置等相应属性。询问系统 只要能找出问句中词所对应的物资,或对应的属性便可。但是对于复杂的问题, 这种定义不是完美无缺的。比如,两个词可以有不同的意义,但是他们所指却 可以相同。一个常见的例子是启明星与暮星同指金星,但它们的意义是不一样 的。还我们常常谈论一些现实世界上不存在的虚构之物。它们的指称便有问题。 把词的指称作为意义这个理论在这些情况下就无法给出合理的解释。 2 说话者的意图作为意义 这个理论【盯】试图解释语言中一种称为言语行为( s p e e c ha c t s ) 的现象。言 语行为是说话者把自己的话语当作行为希望听者作出相应的反应。这种意义被 认为是独立于逻辑意义之外的。言语行为主要存在于对话中,反映了语言在人 与人交流这一方面的功能。例如,两人在餐桌上吃饭,甲对乙说,“你能传一张 餐巾纸吗? 这时,甲并不是问乙有没有传一张餐巾纸的能力,而是一种向乙 请求帮助的行为。言语行为根据分类的粗细,可以有多种。如忠告、恳求、哀 求、祈求、请求、力劝、要求、命令,等等。除了语调外,言语行为常常通过 明确的词汇标志来表现。 正确分析言语行为在具体应用中是很重要的。如果一个计算机对话系统配 上解析言语行为的子系统,就可以探测到用户在使用时的各种情绪变化,制定 出相应的因变回答,从而使得用户能够愉快地接收这种系统。 上海交通大学硕士学位论文 3 过程语义 句子的语义定义为接受该句后所执行的程序或者所采取的某种动作。对于 很多智能应用来说,这种用动作来定义句子语义的方法是有效的。如用以控制 机器人行动,与计算机下棋,等等。从计算语义学的角度来看,也是简单而又 明了:只要在分析句子之后,把所得词汇结构和一定的程序相对应。 然而,这个定义对于语言本身却解释贫乏,且句子的语义常常和应用连接 太紧,缺乏独立性。 4 词汇分解学派 这个学派把句子的意义基于他所含有的词和词组的意义之上。而词的意义 则基于一组有限特征。这组特征通常称为语义基元和一些组合操作就可以把句 子的语义描写出来。这种假设类似于化学中的元素说:世上各物千变万化,但 都是由一百多个元素通过化学物理反应组合转化而成。但是,在语义研究中基 元和组合操作选择的合理性会在很大程度上影响语义描写的准确性。另外,语 义基元本身是否再可分解,分解的标准是什么,也是很难确定的。特别是,在 不同场合,对语义表示深浅常有不同的要求。这对词汇分解学派都是不容易解 答的。 5 条件真理模型 条件真理模型是以谓词逻辑为基础。而句子的语义则定义为它所对应的命 题或谓词在全体模型( 或世界) 中的真伪。一个经常引用的例子是: 句子“雪是白的”为真当且仅当在这个世界上,雪是白的。 直观地说,模型是一组物体以及他们的性质和关系,加上所研究的语言和 这些物体,关系之间的对应。 条件真理模型是研究上下文无关文法这部分语义的很好的工具。因为在这 个理论中,一个句子的真伪不只依赖某个特定模型,而是对于所有可能模型而 言。但是,也正是由于此,条件真理模型对时间、场景有关的现象不能很好的 描述。 6 情景语义学 在条件真理模型中语义和所在的特定模型( 世界) 相独立,从而不能适当 地解释语义中一句多义的问题。场景语义学认为句子的语义不仅和逻辑意义有 关,而且和句子被用的场景有关。为了弥补语义和场景脱离的缺陷,非常自然 地,这个学派在逻辑语义表达式中引入一些与场景相关的变量,如事件变量、 时间变量,等等,并对这些变量加以限制。限制的方法是用逻辑“与 算子八 把句子语义的逻辑式和对事件的限制相连接。在来看一下句子“雪是白的”在 场景语义学中的表示: 是白的( 雪,e ) 八等同( e ,地球世界) :这里,“是白的”是谓词;“是白的( 雪,) ”是“雪是白的 的前缀表示( 即 把谓词放在前边) ,e 是场景变量。同样地,“等同”也是谓词,它说明e 就是 “地球世界。 利用类似的方法,很多以前需要高阶谓词逻辑才能表示的句子现在用一阶 谓词的方法就妥善地解决了。 9 上海交通大学硕士学位论文 7 模态逻辑 8 0 年代初在人工智能领域中发展起来的一些模态逻辑也受到不少注意,如 缺省逻辑、时态逻辑、真值维护系统,等等。这类逻辑试图用一套公理系 统来刻画现实世界和自然语言中常见的一些现象。这类现象从本质上说就 是一般性和特殊性的矛盾。比如说,一般来说,鸟会飞,但是,企鹅也是 鸟却不会飞。从这些知识的学习过程来看,起见通过一些鸟会飞的实例, 得出结论鸟会飞,并由此推测所有的鸟会飞。然后发现企鹅是鸟却不会飞。 也就是说,以前认为是正确的知识会在以后的学习过程中收到一些特例的 否定。对于人工智能这个研究人类智能的学科来说,如何保持逻辑系统的 一致性而不受到知识更新的影响,便成为一个重要的研究课题。因为这类 现象常常在自然语言的语义中体现出来,使用这些模态逻辑方法来表示和 处理语义就非常自然 持续十年的c y c 项目的目标是建立大型的知识库以及自然语言学习界 面,模态逻辑在这个项目中被广为运用( l e n a ta n dg u h a ,1 9 9 0 t 1 8 】) 。 1 3 自然语言生成 实现人机会话的两个前提条件是:计算机能够听懂人所说的话,即上节所 述的自然语言理解:其次是,在理解的基础上计算机和人之间能用自然语言进 行对话,也就是本节将要叙述的自然语言生成。 1 3 1 生成和理解的区别 自然语言的生成,以往只作为理解的一个附带成分,并且在a i 界中,人们 直认为生成是一件简单的事情,与理解类似或者说是理解的逆过程,在某种 程度上讲,这种观点不无道理。从信息流向看,理解遵循一下传统的信息流向: 词法一句法一语义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025甘肃金昌市人力资源和社会保障局招聘公益性岗位人员1人考前自测高频考点模拟试题附答案详解(突破训练)
- 2025年吉林省农业种植(玉米)买卖合同书
- 2025保健品销售合同范本参考
- 2025吉林白城市暨洮北区人才交流中心就业见习岗位和见习人员征集模拟试卷及完整答案详解1套
- 2025江苏省退役军人事务厅直属优抚医院招聘12人模拟试卷及答案详解(网校专用)
- 2025标准企业租赁合同范本:租赁协议模板
- 2025年三明市供电服务有限公司招聘61人考前自测高频考点模拟试题及答案详解(历年真题)
- 2025年湖南长沙天心区招聘32名勤务协助人员和体能测评的考前自测高频考点模拟试题及参考答案详解1套
- 衡阳初一考试题库及答案
- 安全教育培训会议通知课件
- 对外投资合作国别(地区)指南 -玻利维亚-20240530-00504
- 19S406建筑排水管道安装-塑料管道
- 沪教版九年级上册化学第三章《物质构成的奥秘》检测卷(含答案解析)
- 如何与客户建立有效的沟通
- 薯片加工项目规划设计方案
- 复方电解质醋酸钠葡萄糖注射液-药品临床应用解读
- 变压器租赁协议书x
- 部编版小学数学六年级上册分数乘法应用题解法一:找单位“1”解析同步练习
- 危重产科患者麻醉管理
- 宾馆旅客财物保管制度
- 学前教育政策法规全套精美课件
评论
0/150
提交评论