(信息与通信工程专业论文)基于口语对话的电话自动转接与信息查询技术研究.pdf_第1页
(信息与通信工程专业论文)基于口语对话的电话自动转接与信息查询技术研究.pdf_第2页
(信息与通信工程专业论文)基于口语对话的电话自动转接与信息查询技术研究.pdf_第3页
(信息与通信工程专业论文)基于口语对话的电话自动转接与信息查询技术研究.pdf_第4页
(信息与通信工程专业论文)基于口语对话的电话自动转接与信息查询技术研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(信息与通信工程专业论文)基于口语对话的电话自动转接与信息查询技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术火学研究生院学位论文 摘要 人机口语对话系统是目f j 国际上在自然语占处理领域中热门的高科技研究,利用 人机口语对话系统可以实现人和机器之间的智能交互。这在旅游导航、票务查询、电 话预约等方面部有很好的应用前景。 本课题首先分析了汉语中常见的语法现象,并基于词汇词典对汉语的自然语言处 理( n l p ,n a t u r a l l a n g u a g e p r o c e s s i n g ) 进行了研究。不同于英语的是,汉语的名词、 动词和形容词都具有多种语法功能,而且汉语词语和句子的构造规则基本相同,这些 都给汉语的分析带来了困难。为了克服汉语中出现的这些不利现象,设计并实现了汉 语的基于多层隐马尔可夫模型的词法分析、基于l r 算法的句法分析。 本文综合并改进了现有汉语句子相似度计算方法,通过建立经过分词后的句子的 词语之间的一一对应关系,然后再利用词语之间的相似度计算句子的相似度,使得计 算出来的句子相似度更加符合人们对语言的理解,提高了系统性能。 本文还设计了一种用于快速搜索相同或相近词语最多的两个句子的数据结构。利 用这个数据结构,只需要在实际应用前,对知识库进行离线操作并统计,建立词频库, 就能展大限度的缩短实际操作中的搜索时间,提高系统的实时性。 人机口语对话系统的核心部分对话管理器的设计,我们采用了主题树结构。 它可以实现多任务( 多主题) 之间自由切换,并且组织形式简单易懂,易于维护和扩充。 因为处在同一个或多个相近领域,不同的主题之间存在很多的相同信息,所以我们引 入了信息共享,优化了信息的存储。 关键词:自然语言处理口语对话系统词法分析句法分析对话管理相似度 国防科学妓术人学研究生院学位论文 a b s t r a c t s p o k e nd i a l o g u es y s t e m ,ah i t e c h n o l o g yw h i c hc a n r e a l i z et h em a n - m a c h i n ed i a l o g u e , i sh o ti ns p e e c hr e c o g n i t i o nf i e l da tp r e s e n t t h e r ei sav e r yg o o da p p l i c a t i o np r o s p e c ti n t r a v e l i n gn a v i g a t i o n ,t i c k e ts e r v i c ea n dt e l e p h o n ea p p o i n t m e n t ,e t c t h i st o p i cf i r s ta n a l y z ei nc h i n e s et h ec o m m o ng r a m m a rp h e n o m e n at oc o n d u c tt h e r e s e a r c hc h i n e s en a t u r a ll a n g u a g e p r o c e s s i n g ( n l p ) b a s e do nt h e g l o s s a r y d i c t i o n a r y w h a ti sd i f f e r e n tt oe n g l i s hi s ,c h i n e s en o u n ,t h ev e r ba n dt h ea d j e c t i v ea l lh a v e m a n yk i n d so fg r a m m a t i c a lf u n c t i o n s , m o r e o v e rt h ew o r de x p r e s s i o n sa n dt h es e n t e n c e e x p r e s s i o n sa r eb a s i c a l l ys a m e a l lt h e s ep h e n o m e n ab r i n gg r e a td i f f i c u l t yt oc h i n e s e a n a l y s i s t oo v e r c o m et h e s ed i s a d v a n t a g e o u sp h e n o m e n aw h i c ha p p e a r si nc h i n e s e ,w e d e s i g na n dr e a l i z eal e x i c a la n a l y s i sa l g o r i t h mb a s e do nm u l t i h m m ( h i d e nm a r k o vm o d e l ) a n dl rp a r s i n ga l g o r i t h m t h i st h e s i ss y n t h e s i z ea n di m p r o v eas e n t e n c es i m i l a r i t yc o m p u t a t i o nm e t h o d t h r o u g h e s t a b l i s h i n gt h ew o r d sc o r r e s p o n d i n gr e l a t i o n sa f t e rs e g m e n t a t i o na n dt a g g i n g ,s e n t e n c e s i m i l a r i t y i s c o m p u t e du s i n gw o r d ss i m i l a r i t y i te v e nm o r ec o n f o r m st o t h ep e o p l e s n a t u r a ll a n g u a g eu n d e r s t a n d i n ga n de n h a n c e st h es y s t e mp e r f o r m a n c e w ea l s od e s i g nan e wd a t as t r u c t u r et of i n dt h et w os e n t e n c e sw h i c hh a v et h em o s t s a l t l eo rs i m i l a rw o r d s t or e d u c et h es e a r c ht i m ea n dt or e a l i z et i m e l i n e s s ,w en e e dc a r r y o no f f - l i n eo p e r a t i o nt ot h ek n o w l e d g el i b r a r yt og e taw o r d f r e q u e n c yl i b r a r y d i a l o g u em a n a g e m e n tm o d e l i st h ec o r e p a r t i a l i n s p o k e nd i a l o g u es y s t e m t o c o m p l e t et h ef u n c t i o n ,w ea d o p tt h et h e m e - t r e e ss t r u c t u r e ,w h i c hc a n r e a l i z es w i t c h i n go v e r f r e e l yb e t w e e nm a n yt h e m e s a n di t so r g a n i z a t i o n a lf o r mi se a s i l yu n d e r s t o o d ,e a s yt o s a f e g u a r da n de x p a n d t oo p t i m i z e t h em e m o r yo fi n f o r m a t i o n ,w ei n t r o d u c et h e i n f o r m a t i o ns h a r i n g k e y w o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ,s p o k e nd i a l o g u es y s t e m ,l e x i c a la n a l y s i s p a r s i n g ,d i a l o g u em a n a g e m e n t ,s i m i l a r i t y 国防科学技术人学研究生院学僦论文 国防科学技术人学研究生院学位论文 独创性声明 本人声明所里交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材科与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意 学位论文题目 学位论文作者 学位论文版权使用授权书 本人完全t 解国防科学技术大学有关保留,使用学位论文的规定本人授权 国防科学技术大学可以保留并向国家有关部门或机构选交论文的复印件和电子 文档,允许论文被查阅和借阕;* - i - 以将学位论文的全部或部分内容鳊入有关数据 库进行检索,可以采用彩印缩印或扫描等复制手段保存,汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:耋主里叠盘盂最生矗看旌丝瘟点盈玉盘:淘塑纛穰宠 学位论文作者签名:盟延日期:f 年。7 月心日 作者指导教师签名: 2 弼虽 e t 期:。噼1 1 月t 占日 国防科学技术大学研究生院学位论文 第一章绪论 1 1人机口语对话系统发展概况及前景 人机口语对话系统有着捆当长的历史。1 9 5 0 年,著名的英国数学家图灵发表的论 文c o m p u t e r i n gm a c h i n e r ya n di n t e l l i g e n c e ) ) 中,提出了“机器智能”的概念,并且 提出了判断一个计算机系统是否具有智能的实验方法,也就是通过自然语言问答的方 式,判断机器是否具有智能,这种被称为“图灵测试”的方法是最早的人机口语对话 系统模型。 早期较著名的系统有1 9 6 1 年b g r e e n 等在美国林肯实验室为美国橄榄球季后赛设 计的b a s e b a l l 系统,该系统把关于橄榄球比赛的相关数据存在底层数据库中,通 过对用户的问题进行语言学的分析之后,产生查询来检索底层的结构数据库,回答用 户的有关问题。基于同样原理构建的问答系统还有1 9 6 3 年r l i n d s a y 在美国卡内基技 术学院设计的s a d s a m 系统等。1 9 6 5 年,斯莱格勒( j r s l a g l e ) 建立了d e d u c o m 系统,可在情报检索中进行演绎推理。1 9 6 6 年,桑酱逊( f b t h o m p s o n ) 建立了d e a c o n 系统,通过英语来管理一个虚构的军用数据库,设计中使用了环结构和近似英语的概 念来进行推理。 以上这些系统都是基于受限领域的对话系统,主要局限性就在于它的底层是一个 基于受限领域的结构化数据库,而不是开放领域的结构文本库。因为就一个专门领域 来说,最方便的还是使用不受特殊格式限制的系统来进行人机对话,这样就出现了以 文本为基础的系统。最早的在线文本检索系统是1 9 6 6 年r f s i m m o n s 、j ,f b u r g e r 和r e l o n g 设计的p r 0 1 d s y n t h e x - i 系统,它是以文本信息的存储和检索方式进 行工作的。从此,文本检索系统不断的被改进和发展。 i n t e m e t 的普及为人机对话系统的研究注入了新的活力,1 9 9 3 年诞生了第一个面向 国际互联网的自然语言问答系统s t a r t ,它能够回答针对m i t ( m a s s a c h u s e t t si n s t i t u t e o f t e c h n o l o g y ) 信息实验室的地理学知识的用户提问。s t a r t 内部将知识库中的信息组 织成“主体一关系一对象”的三元组,然后和语义分析后的用户问题相匹配,系统本 身没有知识的扩充,要想回答多领域的闯题必须维护一个较大的知识库。该系统回答 问题能力有限而且精确度不高。同年,j u l i a nk u p i e c 等设计了m u r a x 问答系统,该 系统使用吾科全书作为知识库来回答一般性的知识问题,它采用了基于统计与语言学 知识相结合的技术,通过布尔搜索引擎和句法分析器从百科全书中抽取问题的答案。 国际上第一个提供自然语言问句接口的网络商业服务商是a s k j e e v e s 公司,通过手工 第1 页 国防科学技术入学研究生院学位论文 收集大量的自然语言问句以及相应的u r l 链接,提取问旬的问题模板并进行分类。 该系统的精确度不是很高,但却因其方便易用而广受欢迎。 人机口语对话系统的另一个飞跃,是在1 9 9 9 年t r e c 一8 会议上引入了对话系统 的评测后。t r e c 是由美国国家标准技术局( n i s t n a t i o n a li n s t i t u t eo f s t a n d a r d sa n d t e c h n o l o g y ) 和国防部高级研究计划局( d a r p a t h ed e f e n s ea d v a n c e dr e s e a r c h p r o j e e l sa g e n c y ) 赞助并组织的文本信息检索领域一个国际性标准评测会议。t r e c 评 测方法有效可行,并且数据集规模庞大,在学术界有着相当的权威性。1 9 9 9 年t r e c 一8 会议上引入了q a t r a c k 之后,对话系统引起了自然语言处理专家们的,“泛兴趣。 在t r e c 一8 中,有4 0 多个系统参加了评测,之后每一年参加t r e c 评测的系统都有 儿十个之多,这些系统有全球的大公司i b m 、s u n 等,也有来自世界各地的高校和科 研机构,开放式的t r e cq a t r a c k 极大的促进了对话系统的发展。 我国是继美国、苏联、英国之后,世界上第四个开展机器翻译研究工作的国家。 1 9 5 6 年,我国就把机器翻译研究列入我国科学工作的发展规划,成为其中的一个课题, 其课题名称是:“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。1 9 5 7 , 中国科学院语言研究所与计算技术研究所合作,开展俄汉机器翻译试验,翻译了9 个 不同类型的、较为复杂的句子。1 9 7 5 年1 1 月,在中国科学技术情报研究所设立了一 个由情报所、语言所和计算所等单位的工作人员组成的机器翻译协作研究组,以冶金 题录5 0 0 0 条为试验材料,制定英汉机器翻译方案并上机试验。1 9 7 8 年5 月,在计算 所1 1 1 机上进行抽样试验,抽样2 0 条,达到了预期的效果。现在,基于口语对话的自 然语言处理应用越来越得到重视,由清华大学研究实现的校园导航系统e a s y n a v 也都 取得了很好的效果。 当然,随着时代的发展,人们对人机口语对话系统的要求就越来越高。从应用上 来说,未来的对话系统应该能够处理多语言的数据且能够使用多媒体资源;从用户角 度上来说,用户希望对话系统能够提供实时交互并且易读的答案,具有实时更新的用 户模型,对提供的一些信息背景知识能够按照时间或地点将其组织起来;从系统的问 题类型来说,问题类型趋于更广泛,不再是传统的事实问题,而是更复杂的形式,如: 列举、归纳和解释;从答案类型来说,未来的对话系统将能提供包括多媒体,如语音、 图像等的答案,并且能够理解用户提供的多媒体输入。 以人类习惯的方式从互联网上获取信息始终是人们追求的目标,而自然语占对话 系统的出现使这个目标有了实现的可能。但是,对话系统是一项规模较大的系统工程, 涉及到自然语言处理技术、统计计算语言技术、知识表示、人机交互、多媒体处理和 智能学习系统等许多领域,它的发展也必将取决于这些相关领域的发展。 第2 页 国防科学技术人学研究生院学位论文 1 2人机口语对话系统常用的技术手段 当前研究的人机口语对话系统主要包括:基于知识库的问答系统、自然语占界面 的专家系统、基于传统i r ( + i e ) 的对话系统,等等。 ( 1 ) 基于知识库的问答系统【2 】 基于知识库的问答系统包括c y c 、n k i ( u s ) ( n k i n m i o n a lk n o w l e d g e i n f r a s t r u c t u r e ) 、n k i ( c h i n a ) 等,以n k i ( c h i n a ) 为例,n k i 是一个庞大的、可共享 的知识群体,为科研、教学、科普和知识服务等提供有效的基础。它不仅集成了各学 科的公共知识,而且融入了各学科专家的个人知识。n k i 问答系统包括1 6 个学科领 域知识,可以对国家地理知谈库、城市天气预报知识库、人物知识库等2 3 个库的知 识进行查询。用户可以通过自由的自然语占提问方式获取所需要的知识,输入形式可 以多样化。 基于知识库的问答系统都是把相关知识预先存于知识库中,为了得到满意的结果, 必须具备尽可能完备的知识库,在知识库的建立与维护中,会用到知识表示、机器学 习等一些相关技术。 ( 2 ) 自然语言界面的专家系统【3 l 专家系统是以计算机为工具、利用专家知识以及知识推理等技术、理解与求解问 题的知识系统,是人工智能应用研究的主要领域之一。 自然语言界面的专家系统可以视为一个对话系统,在专家系统的人机接口模块中, 将用户输入的自然语言转换为系统可接受的内部形式,将系统的输出转换为人可以理 解的外部形式,这样整个专家系统就和对话系统一样以自然语言的方式进行人机交 互,回答用户提出的问题。 f 3 ) 基于传统i r ( + i e ) 的对话系统 参加t r e cq at r a c k 评测的对话系统大多是基于传统i r ( + i e ) ( i r - - i n f o r m a t i o n r e t r i e v a l ,i e i n f o r m a t i o ne x t r a c t i o n ) 的对话系统。一般来说,信息检索( i r ) 是根据用 户的查询对相关文本的检索过程,它之所以和对话系统密切相关,是因为在对话系统 中,为得到相关答案用户也会构造查询进行检索。但是,不同的是,检索智能返回整 个文本,而不能把对话系统所要求的答案返回给用户,最后,还需要用户在这些返回 的文本中去进一步寻找自己所需要的答案。 对话系统中也常常用到信息抽取( i e ) 技术。1 9 9 9 年,r o h i n is r i h a r i 和w dl i 在“支 持问答系统的信息抽取” 4 1 d l 。讲解了问答系统中信息抽取( i e ) 的使用。指出:信息抽取 中像有名实体识别常常是问答系统问题类型处理中不可或缺的组成部分;强健的自然 语言分析器为问答系统处理用户所提出的问题提供了一个结构化的基础;非受限领域 第3 页 国防科学技术大学研究生院学位论文 的信息抽取,像多重关系和一般事件的抽取等,有望给问答系统带来一个新的突破。 对话系统是一项综合性科学,涉及到计算语言学、机器学习、信息科学和人工智 能学等很多领域的相关技术,其核心是自然语言理解技术。 不论是英文对话系统还是中文对话系统,都离不丌自然语言处理。处理用户提出 的问句、检索相关文本和段落以及抽取答案时,都要用到自然语言处理技术。除了上 面讲到的信息检索和信息抽取外,问答系统常用到的自然语言处理技术还包括:关键 字与模式匹配技术、自动摘要技术、词法分析技术、句法分析技术、语言分析技术等 等。 譬1 3 。人机口语对话系统存在的一些问题 虽然语音识别技术在近几年内取得了重大突破,但还没有发展到足够的鲁棒 ( r o b u s t ) 和灵活( f l e x i b l e ) 地识别各种环境下各种方式的语音输入,只局限于某一 特定领域的受限条件下。另一方面,即使语音识别达到了足够的鲁棒,机器本身的有 限智能也不可能使其无所不能、无所不知p n “。 汉语的许多特点,如没有词边界和形态变化,同形歧义严重,句法结构灵活等, 使得汉语分析难度很大。近些年国内学者围绕着汉语分析开展了许多有意义的研究工 作,包括词语的自动切分与标注、句法分析和语义分析等,分析结果也有所改善【5 j 。 但是就自然语言理解方面来说,即使是前一步出现比较小的歧义甚至理解错误,都会 给后续的处理带来比较严重的后果。当用户以自然语言形式输入具有语义连续的两个 句子时,这就是汉语篇章连贯性的一种体现,如何正确的理解两句话的相承意义及其 中的省略现象,这在汉语理解方面仍有很多需要研究。 1 3 1 汉语句子的切分歧义 汉语的语素基本上都是单音节的,而且古汉语中的多音节词很少,这形成了汉语 文字连篇书写的习惯。现在,汉语的书写引入了标点符号,也有了段落的概念,这给 汉语的阅读提供了很大的方便。但汉语还是按句连写的,汉语句子仍然是有一连串无 分割的字组成,而且现代汉语的发展产生了很多多音节词。按句连写和多音节词之间 存在不协调,因为单个语索是没有意义的,人们阅读之前必须要先获得词的信息。对 于计算机就不同了,要用计算机来处理汉语,词的切分是汉语分析的必由之路,因为 对于汉语来说。单个语素只是一个符号,它没有语义和语法上的功能,而词有一定的 含义和语法功能,在句子中能起到一定的作用。分词的工作就是将汉语句子切分成一 个一个的词。 第4 页 国防科学技术人学研究生院学位论文 汉语切分的关键是切分歧义的解决。汉语句子中没有词的信息,要分析一个汉语 句子,一般采用词典匹配的方法,加上词的搭配信息或统计信息等辅助功能,很少或 不利用语义知识和上下文信息,使对某些句子的切分不可避免的产生歧义和错误。例 如句子: 他把乒乓球拍卖了。 这个句子可以有两种切分方式,分别为“他把星垦堡塑耋了。”和“他把 星垦韭拍塞 了。”这是一种语义上的切分歧义,只有根据上下文的相关信息才能 判断哪一种是正确的。 1 3 2 汉语的多谓词问题 在汉语中,很多词类都可以担任谓词的角色,如动词、形容词、谓词性代词,有 些情况下某些体词结构甚至主谓短语也能担任谓词的角色。如: 1 你最近如何? 2 一只青蛙四条腿。 3 他腿伤了。 1 中的“如何”,2 中的“四条腿”作谓语,3 中有人认为在“他”和“腿”之间省 略了“的”,句子中的“伤”为谓词,但也有人认为“腿伤了”是对“我”的描述, 是主谓词组作谓语。 汉语句子是由词组构成的,词组又是嵌套递归的,这必然会导致一个汉语句子中 包含多个谓词的现象。汉语的语法结构在充当不同的角色时没有形态的变化,这就引 发了汉语分析中一个非常重要也非常复杂的问题,即主谓词的确定问题。如果两个谓 词之间是主从关系,则该句子是主语从旬句型或宾语从句句型( 取决于哪个谓词是主 谓词) ,如“必词语星自然语言理解的基础”和“他蛊擅一个人上 山”;如果是并列关系,则句子是连动句型,如“通了水再担地”。 如何确定谓词之间的关系以及如何明确名词词组的所属问题直接影响到对一个句 子的结构分析。这需要足够的单个词汇的语法信息以及一些词汇的语义信息来帮助消 歧。 1 3 3 词性标注歧义 汉语词性的分类没有一个统一的标准,不同的语法体系对词性的分类都不同,也 没有哪一本汉语词典能对所有的词语都标上明确的词性。汉语在很多词语的词性上存 在模糊性。另外,词性的判断往往是以词汇的语法功能作为标准的,不同的语法体系 第5 页 国防科学技术大学研究生院学位论文 定义了不同的标准,这导致对于很多词,即使是人都很难确定它们的词性。 词性分类越细,确定一个词的词性就会越困难。很多词都有多个词性,如“和” 可以是介词、连词、动词等。人工确定了每个词的词性之后,计算机要根据句子环境 去确定那些可能有多种词性的词的词性。汉语没有词形的变化,因此汉语词性的标注 只能根据上下文来判断。汉语中有很多词性活用的现象,而且自然语言的个性特征使 得词性的标注不可避免的存在歧义性。 1 3 4 汉语的结构歧义 自然语言都有结构歧义问题,如英语的介词结构的歧义,汉语的结构歧义也是一 个严重的问题,对于有些歧义性结构,甚至人也无法判断它们的正确含义。例如: 他说不明白。 在书面语中我们不知道这句话在什么地方停顿,就无法知道它的具体含义。在口 语中,如果在“不”的后面有停顿,句子就是“他说得不清楚”的意思;如果在“不” 前面停顿,就是“他说他不知道”的意思。 修饰词和连词一起会形成修饰范围的歧义。例如: 讨人喜欢的小猫和小狗。 名词词组有修饰和并列的歧义。例如:“牛奶咖啡” 可以指一种饮料“牛奶加咖 啡”,也可以指两种饮料“牛奶和咖啡”。 自然语言中这些固有的结构歧义是自然语言理解中一个非常困难的问题,要消除 这些歧义光靠词汇的语法信息是远远不够的,往往需要很多上下文知识和常识知识。 1 4本文的主要工作及文章的结构安排 本课题的目的是对自然语言对话系统所涉及的一些基本及关键技术进行探讨和研 究,并在总结前人工作的基础上,设计并初步实现一个机构电话自动转接与信息查询 对话系统。本文主要内容如下: 1 分柝了汉语句子的语法现象,结合语义词典对汉语句子进行必要的分词,并加 以词性标注。对有可能出现歧义的多种分词结果,采用计算分词得分,选择得分最高 的作为输出。 2 在充分了解汉语语法特性的基础上,通过分析汉语词语之间的语法关系来分析 句子的语法结构。本文采用l r 算法,并在传统的l r 算法基础上进行了改进,以获 取句子的结构。 3 本文还研究了汉语两个词语及两个句子之间的相似度问题,在计算句子相似度 第6 页 国防科学技术大学研究生院学位论文 上,改进了现有一些算法,使得相似度计算结果更加合理。这主要应用在基于统计背 景的对话系统中。 4 由于本系统的设计目的有多个,即电话转接、机构信息查询和人员信息查询等, 用户与系统的对话主题有可能在两者问转移。所以,本文还对基于主题森林的对话管 理模型进行了研究,以期实现对话过程的混合主导。 本文共分为六章,结构安排如下: 第一章是绪论。首先介绍了人机口语对话系统的现状与发展方向,然后讨论了实 现系统需要采取的一些主要技术,并分析了现有系统存在的一些问题。 第二章给出了汉语句子分词与句法分析的设计。 第三章给出了汉语义原、词语相似度以及汉语句子相似度计算方法。 第四章首先介绍了p o m d p 模型,分析了其缺点,然后给出基于主题森林结构的 对话管理模型,并在文中加以实例说明。 第五章给出了系统实现目标,并给出了各模块核心程序的清单。最后给出d e m o 系统总体运行界面。 第六章对本文进行了简要总结,并讨论了进一步的设想。 第7 页 国防科学技术人学研究生院学位论文 第二章汉语分词与句法分析 自然语言理解是任何人机口语对话系统的基础。只有对用户输入语句进行正确的 自然语言处理,才能正确的理解用户的目的,指导系统完成相应的任务。但是,在汉 语的自然语言处理中,现在仍然存在很多需要解决的关键技术问题,比如由于汉语连 篇书写而带来的语义歧义、未登陆词识别等问题,这些都制约着汉语人机口语对话系 统的研究与应用。本文主要基于词汇词典对汉语语句中的一些语法现象进行了分析并 设计了适用于本系统的汉语分词与句法分析方法。 2 1汉语的分词与词性标注 汉语的分词和词性标注是自然语言处理的第步,分词标注的好坏直接影响到汉 语分析的结果和整个系统的正确率。 本系统采用基于多层隐马尔可夫模型和h o w n e t ”1 的汉语词法分析系统,主要完成 词义消歧、分词、词性标注、未登陆词识别等工作。系统流程图如2 1 所示: 2 1 1h o w n e t 图2 1基于统计方法的汉语切分标注流程图 h o w n e t 是发布在网上的一个开放知识库资源。作为一个新型知识库,h o w n e t 描 述概念、概念之间关系和概念所具有的属性之间关系,反映出概念的共性和个性。 第8 页 国防科学技术火学研究生院学位论文 在h o w n e t 中,把若干与概念有关的义原按一定的规则组合起来( 义原集合) 解 释概念,而这个义原集合称之为一个义项,用一个编号( n o ) 标识。但是n o 并 不唯一,词语w 的同一个定义( d e f ) 可能有不同的编号,即使是同一个汉字存在不 同的定义,也有不同的编号。这样,用有限的词语释义空间可以表示所有的概念,可 以作为我们进行词义标注的依据。具体h o w n e t 表示方法见表2 1 所示。 表2 1h o w n e t 词语义原集合示例 n 0 = 0 l7 1 6 5n 0 = 0 1 7 2 0 3 w c = 打 wc = 扣 gc = c l a sgc = v ec =ec = h o w n e r 一一 we = d o z e n w e - p r o j e c t ge = nge = v ee =ee = 一一 d e f = n o u n u n i t l 名量d e f = s e n d 发送 其中n o 表示汉语词语在词库中的编号,w _ c 表示汉语词语,g _ c 表示汉语词 性,ec 表示汉语例子,we 表示对应的英语词语,ge 表示英语词性,ee 表示对 应英语的例子,d e f 表示汉语的定义。 2 1 2 隐马尔可夫模型 一个隐马尔可夫模型描述一组有限的状态,其中的某一个状态可以一定的概率转 移到另外的状态( 终止状态除外) ,同时在转移时产生输出,输出按一定的概率产生, 并且输出数目有限。 隐马尔可夫模型的形式化描述为:h m m = ( s ,0 ,a ,b ,万) 。其中: s 表示模型中的状态( 即输出) 。虽然一些实际应用中,状态是隐藏的,但是模型 的每一个状态都与一些物理意义相联系,同时这些状态之间也相互联系,相互转移。 所以假设模型有n 个状态,独立的状态定义为s = 秘。,s 2 ,- 一,s , ,且用g ,来表示t 时 刻的状态。 0 表示每个状态的观察值,每个状态上对应的可能观察值数目为m ,我们记这些观 察值为:= ,w :,) 。 第9 页 国防科学技术人学研究生院学位论文 状态转移矩阵a = 扛。j ,其中口。= 尸( 口。= s ,fg ,= t 1 1 - a a c b e ( 2 ) a 一 b ( 3 ) a 一 a b 第1 2 页 国防科学技术人学研究生院学位论文 r 4 ) b 一 d 我们对顺序输入的字符串进行分析得到句子的归约过程如表2 2 所示。 表2 2基于规则的简单归约示意 步骤l23456 7 891 0 动作进进归进归进进归进归 输入 b ( 2 ) b ( 3 ) d ( 4 )( 1 ) dbb bc baaaaaaaa s 定义1 1 1 3 1 设g ( ,p ,s ) 是上下文无关文法,口( 0 ) ,n 是非负整数 a 叶 五2 p ,伊啄,巧( v r u g ) 。如果存在最右推导s _ q , a q 2 - q j 五2 a 2 ,使 得口= 0 , 4 ,妒- 【q 2 】。,则有序对( a 呻 五:,妒) 称为g 的一个l r ( c z ,k ) 项集,g 的l r ( a ,k ) 项全体记为,。 ) 。 定心】表荆般捌二花嚣z 小川耶叫。称为 ,。( 口) 的基本集。 基本集具有下述性质: 1 ,。 ) = 庐当且仅当且 ) = 庐 2 ,。( 口) = ( 卢) 当且仅当毋 ) = b k ( f 1 ) 设g ( ,p ,s ) 是l r ( 1 ) 文法,显然,若口,b 。( 蚴) ,则状态且心) 转移到 b i ( 鲫) :若口是归约前缀,即存在( 彳_ a ,妒) e 蜀 ) 且a = 0 1 t ,则状态马似) 转移到 口。( 研) 。因此,基本集已经具有完备的l r ( 1 ) 分析过程的状态转移特征,则l r ( 1 ) 分 析表不必含有g o t o 表,其分析过程不需后入先出栈的辅助。 第1 3 页 国防科学技术大学研究生院学位论文 构造算法描述如下 1 构造l r ( 1 ) 基本全体7 1 = 舾。以) i 口( u ) 记t 川= 蜀位) l a ( 、,) + a a = 1 ,i = 0 ,1 ,2 ,q 是一个队列 ,+ - 0 ,to 卜b i ( g ) ,q 置为空 设t 1 1 = b 1 i ) ,b j 2 ) ,b i ( 口。) ,卜1 设 b ( 口1 ) = ( 一l 一 i 如2 ,口i ) ,( 4 2 一屯】丑2 ,a 2 ) ,( 4 。_ 以i 五,2 ,口。) ) ,j 卜i 。 若 t 2 = s ,则j 卜j + i ,否则,嫂乃2 = 弘2 ,将( 彳2 呻乃l 肌2 ,a ) 插入q 若q 为空,转向 ,否则设q 的队萏元素为( 一j x 如,口) j + - j + l ,若j h ,转向 将所有b i ( p ) ( i p l 。= ,+ 1 ) 加入列r “ 卜i + 1 ,t 卜r 一u r ,若r 妒,则转向,否则结束- 2 构造l r ( 1 ) 分析表 设( 丑。( 0 0 ,口) t ,b 1 ( g ) 若口妒且蜀( 伽) 妒,贝日a c t i o n ( b 。( 口) ,a ) 卜( s ,b i ( 鲫) ) 若存在( 彳_ 丑,0 0 ) b 位) 且a = 8 1 2 ,则a c t i o n ( b ic a ) ,a ) 卜( r ,b l ( 0 1 州) ) 若存在s 寸2 - , 占) b ) 且口= 丑,a = s ,则a c t i o n ( b l ( 口) ,a ) a p 0 1 5 0 4 1 6 6 6 6 7 s 一 d j 0 0 0 4 5 8 3 3 3 3 3 s 一- n p o 0 0 1 6 6 6 6 6 6 7 s v p o 8 4 2 5 0 0 0 0 0 0 s 一 z j 当按照规则库里得规则可以得出多个成功的规约过程时,可以计算每个规约过程 所包含的规约式的概率,然后取概率最大的( 也就是统计所得日常最常用的) 句子结构 式。 2 2 3 实验结果与分析 经过句法分析后的句子可以得到句子中各成分之间的语法关系,即相互依存关系。 如果输入的经过分词标注后的汉语句子为: 昨天t 傍晚t ,w 山鹰n 社n 平时t 训练v 的u 攀v 岩n 壁n 空旷a 无 k | n 。| w 系统的输出形式为; 第1 6 页 国防科学技术人学研究生院学位论文 s ( z j ( d j ( t p ( t ( 昨天) t ( 傍晚) ) w ( ,) d j ( n p ( a p ( d j ( n p ( n p ( f 1 ( 山鹰) )n p ( n ( 社) )v p ( t p ( t ( 平时) )v p ( v ( 训练) ) ) u ( 的) )n p ( n p ( v p ( v ( 攀) )n ( 岩) ) n p ( n ( 壁) ) )v p ( a p ( a ( 空 旷) )v p ( v p ( v ( 无) )n p ( n ( 人) ) )w ( 。) ) 把以上的字符串形式的输出转换为比较直观的结构树的形式,更能直观的对比、 分析句法分柝结果。结构树如图2 2 所示。 同5 同z j 日f j :日d j 、曰【p ;o t 啡天) 目t 口 :t ( 傍晚) 州, ;自d j 日n p n ( 山厦) 日v p w ( - ) 日 曰- v p 目v p j 。v ( 摹) 日n p j n ( 岩) n d in ( 壁) 。a ( 空旷) i v ( 无) m n ( 人) 出5 日z j 同f j 吲d 】 单n p 。闰n 口 2 日v p ;曰d p id ( 不时) u ( 地) 。 。 ;日v p j ; v ( 有) t n ( 燕子) :c ( j n ) 剿n p ;n ( 老人) ,圈一v p 蚓v p :j v ( 来i m 国p 1 3n p 。n ( 丈门) 。f ( 前) ;( j ) 曰v p 。p ( 被) 朔n p _ r ( 这) 囱叩 ; 臼d 口 国a p 二 :日( 寂宴) u ( 的) 自n p j _ n ( 场景) k “所) 斟v p :v ( 吸引) w ( ) 图2 2汉语句子句法分析的结构树输出 其中出现的n p 、a p 、v p 等是由开发者在语法规则中自由定义的归约式左边的符号, 在本文中分别代表名词短语、形容词短语、动词短语等。采用此方法进行汉语的句法 分析,能够得到词语之间的相互关系,对于对话管理模块理解整个句子要表达的意思 具有很大的辅助作用。但是第一个句子中的词语“山鹰社”和“攀岩壁”,由于词典 第1 7 页 杜 雌一叩d黹 叩目 叩 曰: 目 叩曰 ,融 甲日:;b 国防科学技术火学研究生院学位论文 没能及时的更新,未能把其登陆为专用名词。 2 ,3本章小结 本章首先介绍了基于多层隐马尔可夫模型和词汇词典的汉语分词标注算法,此算 法主要完成把汉语句子中具有实际表达意义的词语识别出来并在其后标注上词性。在 分词标注的基础上,介绍了基于规则的l r 句法分析算法,得到汉语句子中各成分之 间的结构关系,为对话管理器理解汉语句子表达的意思做准备。 第1 8 页 国防科学技术人学研究生院学位论文 第三章汉语句子丰h c j , 度计算 汉语句子的相似度的计算,在人机口语对话系统中的应用相当广泛,主要用在信 息过滤技术中的句子模糊匹配、基于实例机器翻译的原语言检索、自动问答技术中的 常问问题集的检索以及问题与答案的匹配等。因此长期以来,、句子相似度的计算问题, 一直为人们所热衷。 句子的语义相似度,指的是定量描述两个句子之间结构相似、词汇使用同义或近 义词代替的程度【l ”。规定,当两个句子完全相同时,相似度为1 。 目前句子相似度计算一般分为三个等级【l ”,分别为语法相似度、语义相似度和语 用相似度。其中语用相似度是人们一直追求的目标,但是因为计算具有相当的难度, 效果还不尽如人意。而本文所论述的人机口语对话系统,只用计算句子的语义相似度 就能够达到系统的要求。 汉语句子相似度计算的研究方法主要有:基于相同词汇的方法【l 、使用语义词典 的方法【1 4 】【1 7 】、使用编辑距离的方法【2 l 】和基于统计的方法等。以上方法都存在不同 程度的局限性,比如基于相同词汇的方法对同义词之间的替换无能为力,而使用语义 词典的方法可以较好的解决这个问题,但是单纯的使用语义词典,并没有考虑句子的 内部结构和词语之间的相互关系,准确率不高;编辑距离通常被用于句子的快速模糊 匹配领域,但其规定的编辑操作不够灵活,也没有考虑词语的同义替换;基于统计的 方法需要构造大量的训练语料,其工作量巨大,而且还存在数据稀疏的问题。本文主 要对基于语义词典的汉语句子相似度计算进行探讨,试图找出更合理、更加符合人们 对语言的理解习惯的相似度计算方法。 3 1知网的结构与知识描述 本文采用基于词汇的方法,语义知识词典采用的是知网。知网是一个以汉 语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的 属性之问的关系为基本内容的常识知识库1 。 知网中有两个主要的概念:“概念”与“义原”。 “概念”是用种“知识表示语言”来描述的,是对词汇语义的一种描述。 “义原”是用于描述一个“概念”的最小意义单位。 在知网中,所有的“概念”并不是简单的归结到一个树状的概念层次体系中, 而是试图用一系列的“义原”来对每一个“概念”进行描述。 第1 9 页 国防科学技术火学研究生院学位论文 知网一共采用了1 5 0 0 个义原,这些义原分为一下几类 1 ) e v e n t 事件 3 ) a t t r i b u t el 属性 5 ) q u a n t i t y l 数量 7 ) s e c o n d a r y f e a c u r e1 次要特性 9 ) g v e n t r o l el 动态角色 2 ) e n t i t y ;实体 4 ) a v a l u e j 属性值 6 ) q v a l u e l 数量值 8 ) s y n t a x i 语法 1 0 ) e v e n t f e a t u r e sl 动态属性 从第1 到第7 类的义原,在文献 1 4 中称之为“基本义原”,用来描述单个概念的 语义特征;第8 类义原:称之为“语法义原”,用于描述词语的语法特征,主要是词 性;第9 和第1 0 类义原,称为“关系义原”,用来描述概念与概念之间的关系。 义原一方面作为描述概念的最基本单位,另一方面,义原之间还存在复杂的关系。 在知网中,一共描述了8 种义原之间的关系,即:上下位关系、同义关系、反以 关系、对义关系、属性一宿主关系、部件一整体关系、材料一成品关系、事件一角色 关系。可以说义原之间组成的是一个复杂的网状结构。 根据义原的上下位关系,所有的“基本义原”组成了一个义原层次体系,这个层 次体系是一个树状结构,如图3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论