




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)基于自然语言理解的自动应答技术及应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
捅要 自动应答技术是自然语言处理领域非常热门的研究方向,它涉及到很多前沿 研究技术,难度较大,目前技术研究还不够成熟。其关键技术包括知识库建设、 用户问题理解和答案匹配等技术。 本文主要研究基于自然语言理解的自动应答技术,主要工作如下: 1 设计了权值不同的多级知识库结构,提出了一种新的知识表示方法,该方 法支持逻辑关系的任意扩展性,方便了知识的增加与修改。 2 采用多语言统一编码( 使用u c s 2 ) ,使自动应答技术支持多种语言问答。 3 设计的查词索引树大大地提高了分词效率,改进了正序最长分词算法、倒 序最长分词算法、双向分词算法、基于词频统计的新词产生算法。 4 提出了一种基于强大素材库、结合上下文环境、自动提取答案的新方案, 即三层答案匹配方案。 测试结果证明,在采用了改进的自然语言理解技术及更加科学的知识表示方 法和答案提取技术之后,自动应答的性能得到了进一步提高。 自动应答技术所涉及的知识面比较广,本文只对其中的三项关键技术作了研 究,以后将在句法分析、指代关系、人名识别等方面做进一步研究。 关键词:应答技术分词知识库自然语言理解 a b s t r a c t q u e s t i o na n s w e r i n gt e c h n o l o g yi s ah o tr e s e a r c hf i e l do fn a t u r a ll a n g u a g e u n d e r s t a n d i n g q u e s t i o na n s w e r i n gt e c h n o l o g y i sr e l a t i v et om a n yf o r e f r o n ta n d d i f f i c u l tr e s e a r c ht e c h n i q u e s a tp r e s e n t ,n om a t u r ep r o d u c t sh a v ea p p e a r e d t h ek e y t e c h n o l o g i e si n t h i sp a p e ri n c l u d et h eb u i l d i n go fd a t ab a s e ,q u e s t i o nu n d e r s t a n d i n g t e c h n o l o g ya n da n s w e r sm a t c h i n gt e c h n o l o g y t h i sp a p e ri sm a i n l yr e s e a r c ho nq u e s t i o na n s w e r i n gt e c h n o l o g yb a s e do n n a t u r a ll a n g u a g eu n d e r s t a n d i n g t h em a i nw o r ko ft h i sp a p e r i sa st h ef o l l o w i n g : 1 t h i sp a p e rd e s i g n s am u l t i 1 e v e lk n o w l e d g eb a s ea n dak n o w l e d g e r e p r e s e n t a t i o nm e t h o dw h i c h c a l le x p a n da r b i t r a r i l y i ti se a s yf a c i l i t a t et oi n c r e a s ea n d u p d a t et h ek n o w l e d g ei nt h ek n o w l e d g e b a s e 2 t h es y s t e mi sd e s i g n e dt ob em u l t i l i n g u a l ,s oi ti sp l a t f o r mi n d e p e n d e n c e 3 t h i sp a p e rd e s i g n saw o r di n d e xt i e e t h ep a p e ri m p r o v e st h et w o 。w a yw o r d s e g m e n t a t i o na l g o r i t h ma n do t h e rw o r ds e g m e n t a t i o nt e c h n o l o g i e s i ta l s oi m p r o v e s t h en e ww o r df o r m a t i o nm e t h o db a s e dt h es t a t i s t i c so fw o r df r e q u e n c y 4 t h i sp a p e rd e s i g n sa l la n s w e re x t r a c t i o nt e c h n i c a lw h i c hi sb a s e do n ap r o f u s e k n o w l e d g eb a s ea n dt h ec o n t e x to ft h et a l ks c e n e i td e s i g n sat h r e e - s t e pq u e s t i o n m a t c h i n gm o d e l a s 啪b es e e nf r o mt h et e s t ,t h eq u e s t i o na n s w e r i n gt e c h n o l o g yg e t sf u r t h e r i m p r o v e df o ru s i n gt h ea d v a n c e dn l ut e c h n o l o g y , k n o w l e d g er e p r e s e n t a t i o nm e t h o d a n da n s w e re x t r a c t i o nt e c h n o l o g y t h eq u e s t i o na n s w e r i n gt e c h n o l o g yi sr e l a t i v et om a n yt e c h n i q u e s t h i sp a p e r d i s c u s s e dt h r e ek e yt e c h n o l o g i e s t h e r ea r es o m eo t h e rt e c h n o l o g i e ss u c ha ss y n t a c t i c a n a l y s i s ,p r o n o u n sa n dn a m er e c o g n i t i o n n e e df u r t h e rs t u d y k e y w o r d s :q u e s t i o na n s w e r i n gt e c h n o l o g y , w o r ds e g m e n t a t i o n ,k n o w l e d g eb a s e , n a t u r a ll a n g u a g eu n d e r s t a n d i n g 创新性声明 本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容外,论文中不 包含他人已经发表或撰写的研究成果;也不包含为获得西安电子科技大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所作过的 任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 至曙慧。 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用复印、影印、缩印或其它手段保存论文。( 保密的 论文在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名:至鳖骜 导师签名: 日期: 呈塑星。f :主2 f 1 期: 丝堕:l :2 里 第一章绪论 自动应答技术是自然语言处理领域一个非常热门的研究方向,它综合运用了 各种自然语言处理技术。本章将介绍应用于网络在线客服领域的自动应答技术的 研究背景与研究意义,介绍自动应答技术的发展现状等方面的内容。 1 1 研究背景与研究意义 2 0 世纪9 0 年代以来,随着互联网的普及,网络商店和在线商务也随之迅速发 展起来了,为了降低在线客户服务成本,企业希望借助自动应答技术回复相关产 品信息或者服务信息,实现2 4 小时在线客户服务。在这种需求的推动下,针对自 动应答技术的研究越来越多,这又极大地推动了自然语言处理( n a t u r a ll a n g u a g e p r o c e s s ,n i j p ) 技术的发展,同时也对n l p 技术提出了更高的要求。 一 本文提出了一种应用于在线客户服务领域的自动应答模型,在一定程度上能 够实现用户的问答需求。本文采用了自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g , n l u ) 技术,并且结合自然语言的规则和简单的统计方法,对用户问题理解地更 加准确;配合多级知识库匹配算法,尤其是配合支持可任意级别扩展的用户定制 知识表示方法的设计,使应答准确率得到了很大提高;设计的答案抽取模型,使 自动应答体系更加完善实用。自动应答技术是一个难度大、涉及面较广的研究领 域。该项研究具有很好的实用价值和广泛的应用前景。 对基于自然语言理解的自动应答技术与应用进行研究是非常有现实意义的, 该项研究具有以下几个优势: 1 对问题的理解更加准确 该技术是基于自然语言理解的,是真正意义上的智能应答技术,是在已有的 自然语言理解相关知识的基础上,对算法进行了改进,并且采用了主动发问等策 略,反复确定问题的确切含义,提高应答的准确率。 2 独特的知识库设计 采用多级知识库:定制知识库、基础知识库、自主学习知识库。定制知识库 具有最高权限,企业可以动态定制有自己特色的应答方式,体现企业文化。根据 知识库的不同权值,在分词算法中设计不同的匹配模式:完全匹配方式、部分匹 配方式,提高应答的灵活性和准确性。 3 支持多语言 支持多语言问答,不但支持汉语,还支持英语、法语、日语等多国语言。 9基于自然语言理解的自动应答技术与应用研究 4 需求量非常大 此技术具有很大的推广空间,每个企业网站都可以通过自动应答技术来实现 2 4 小时在线客户服务,需求量是非常大的。 5 针对性非常强 本项研究具有很强的针对性,是基于在线客户服务这一具体领域研究的。对 受限领域的自动应答技术进行研究,有利于提高应答准确率。 6 实用性非常强 在线客户服务已经成为很多公司的重要服务部门,因为大量订单和潜在客户 都是来自于互联网络,自动应答技术对企业推广自己的业务或商品是非常重要的。 基于以上分析,自动应答技术具有很好的实用价值和广泛的应用前景。在网 络在线客户服务领域,如果采用人工回答的方式需要投入很多人力财力,还受工 作时间的限制。借助自动应答技术,可以减轻各个企业在线客户服务相对欠缺的 问题。 1 2 自动应答技术概述 目前,自动应答技术按实现方式的不同可以分为两类:一类是基于模式匹配 的应答技术:另一类是基于自然语言理解的应答技术。实践证明,要实现真正意 义上的自动应答,就要实现对用户问题的理解和对领域知识文本的理解。本文研 究的正是基于自然语言理解的自动应答技术。本节将分别介绍这两类自动应答技 术的特点,并结合这些特点说明研究基于自然语言理解的自动应答技术的必要性。 首先基于模式匹配的应答技术已经不能满足人们的需求了。早期的自动应答, 未充分采用自然语言理解技术,对问话的理解仅仅采用简单的模式匹配方式,理 解的行为非常少。因此,这些自动应答技术智能水平比较低,对问题回答的模式 也比较单一,不支持同一个问题的多种问法,很多问句都无法分析识别。这必然 会降低应答准确率,应答准确率低是自动应答技术实际应用的一个巨大障碍,是 必须要改进的。若要提高模式匹配类型的自动应答技术的智能水平,除了限制问 话的句式外,只能采用增加句型模版的方法,这样又增加人工维护的工作量,代 价是巨大的。而且由于模式匹配的方法不够灵活,其应用领域也受到了很大限制, 只适合应用到一些比较固定的业务模式上。因此,基于模式匹配的自动应答技术 无法满足灵活多变的客户咨询服务,也无法推广到各行各业的客户咨询服务中去。 由于基于模式匹配的自动应答技术并不是对问题理解后生成答案的,所以还不算 真正意义上的自动应答技术,一定会退出历史舞台的f 7 1 。 要实现真正意义上的自动应答,就要实现对用户问题的理解和对领域知识文 本的理解。只有这样才能够根据用户具体问题从知识文本中提取相应的业务解释, 第一章绪论 冀 为用户服务。所以基于自然语言理解的自动应答技术越来越受到人们的重视。 自然语言理解门是研究如何利用计算机来理解和生成自然语言的。自然语言和 各种符号语言一样,是人们进行推理和交流的桥梁,由于语言在智能活动中具有 重要作用,当计算机在不同领域逐步代替人类完成各项工作时,人们也期待着计 算机在自然语言处理上能够接近甚至达到人的智能水平。因此,n l u 着力于研究 如何让计算机理解自然语言,目前该研究已经成为人工智能研究中最活跃的领域 之一。 在过去的二十几年里,n l u 领域发展了许多新技术、新概念,许多国家都投 入巨大的人力、物力、财力研究用自然语言同计算机进行通讯的课题。自动应答 技术是n l u 的一个重要应用领域,对输入的一段问话,要进行快速分析理解,从 知识库中寻找其对应的答案,并把符合人类理解和阅读习惯的答案输出给用户。 在理论上,自动应答技术是自然语言处理的一个重要组成部分,而自然语言处理 又是人工智能研究的重要领域之一,涉及到很多前沿研究技术。在机器理解用户 问题含义时,首先面临一个句子的分词问题,分词就是把一句话中的词逐个切分 出来。由于汉语没有自然切分标志,且词的长短不一,同义词、多义词比较多, 造成了切分的多样性,也增加了n l u 技术的难度。本文在已有分词技术的基础上 改进了分词算法,并且对算法进行了评估。 一 随着n l u 理论的逐步发展,应用基于自然语言理解的自动应答技术逐渐成为 可能,而对某一具体领域的自动应答技术的研究不但大大降低了自然语言理解的 难度,而且还提高了研究的实用性和针对性。本文提出了一种应用于在线客户服 务领域的自动应答模型,在一定程度上能够实现用户的问答需求,随着n l u 研究 的深入,基于自然语言理解的自动应答技术将会在不断改进的过程中趋于成熟。 1 3 研究现状 自动应答技术是n l p 领域的一个重要组成部分,而n l p 又是人工智能研究的 重要领域之一,涉及到很多前沿研究技术。人工智能一直是非常活跃的研究领域, 它的发展促进了自然语言处理技术乃至自动应答技术的发展。在每年一度的文本 信息检索( t r e c ) 会议上,自动应答( q u e s t i o na n s w e r i n gt r a c k ) 是最受关注的 主题之一。越来越多的大学和科研机构参与t r e c 会议的q u e s t i o na n s w e r i n g t r a c k 。目前已经有越来越多的公司和科研院所参与了自动应答技术的研究,比如 微软和i b m 等著名的跨国公司。 1 9 9 3 年发布的“s t a r t s o ”是历史上最早的自动应答系统,是由麻省理工 ( m i t ) 开发的。这是一个侧重地理知识应答的自动应答系统,也可以回答一些有 关历史、文化、体育、娱乐等方面的简单问题。这个系统需要预先构建知识库, 系统只能根据知识库中已有的知识来回答,不能动态配置知识,也没有自主学习 的功能,所以其问答的范围是非常受限制的。还有一些早期的自动应答系统,则 使用百科全书作为知识库,使用一个浅层的句法分析器按照百科全书章节中的词 与问题中词之间的相似度来抽取潜在的答案。典型的系统如m u r a x 。 随着人们对自动应答系统需求的增加,随着自然语言处理技术的发展,出现 了很多应用到不同领域的自动应答系统。这些问答系统可以被粗略的分为两类i 7 j : 1 使用文本信息检索的问题和答案( t r e c q & a ) 数据作为测试语料 使用1 r i 也c q & a 数据作为测试语料,并且基于该语料构建自己的检索系统和 答案抽取系统。例如w e b c l o p e d i a 系统是基于信息检索( i r ) 和自然语言处理( n l p ) 技术的,给定的问题首先经过句法分析形成查询序列来获取最相关的文档,然后 这些文档再被分成一个个的片段并且排序,最后从这些片段中抽取潜在的答案并 排序。 2 使用w 3 v w 作为知识库 使用w w w 作为知识库,并且使用通用的搜索引擎( 如g o o g l e 、y a h o o 、b a i d u 等) 来获得与问题相关的信息,然后做进一步地处理,从中抽取出问题的答案。例如 m u l d e r 利用了与传统问答系统相同的技术:首先经过问句分析得到问题的句法 结构;然后把问题分成3 类:n o m i n a l ,n u m e r i c a l ,t e m p o r a l :最后利用句法分析抽取 出答案。国内现在有尤里卡和孙悟空智能搜索引擎,提供自然语言的查询界面, 但是它们都是基于自己的索引库查询的,返回的结果也未经过处理。 国外教学网站一般都具有较好的交互、答疑功能和反馈机制,出现了一些比 较成型的,能为用户解答非受限领域以及特定领域问题的自动系统。这些典型的 问答系统有i7 j : a s k j d d v e s :该系统是美国a s l ( j e e v e s 公司开发的,该系统的网址为: h t t p :w w w a s k j e e v e s c o r n 。 a s k j e e v e s 允许用户用自然语言句子提问,检索系统 会自动分析用户的提问,然后通过与用户的交互进一步明确用户的真正意图,这 使得用户能够充分表达自己的检索要求,这种检索方式检测到的网址比单纯基于 关键词检测到的网页更符合用户的需求。但是,a s k j e e v e s 返回的结果仍然是网页, 而不是问题的直接答案。 s t a r t :是麻省理工学院开发的问答系统。于1 9 9 3 年开始发布在i n t e r n e t 上, 网址:h t t p :w w w a i m i t e d u p r o j e c t s i n f o l a b 。该系统是第一个面向国际互联网的自 然语言问答系统,它能够回答针对m 1 1 r 信息实验室的地理学知识的用户提问,比 如:对于问题“w h a ti st h el o n g e s tf i v e ri nt h ew o r l d ? 力, s t a r t 将会回答“w i t ha l e n g t ho f4 ,1 8 0m i l e s ,t h en i l l er i v e ri st h el o n g e s tr i v e ri nt h ew o r l d ”。同时该系统的 答案不局限于文本,也可以是图片、声音或者动画等。s t a r t 系统使用主体一关系 一对象三元组的形式存放系统知识以及回答问题,回答问题能力非常有限,系统 第一章绪论 r 的精确性和鲁棒性都比较差。同时,该系统是以英文为母语的,只能识别英语提 交的问题。 a n s w e r b u s :该系统的网址是:h t t p :m i s s h o o v e r s i u m i c h e d u z z h e n g q a n e w 。 a n s w e r b u s 是一个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回 答法语、西班牙语、德语、意大利语和葡萄牙语的问题。 f a q f i n d :是由芝加哥大学人工智能实验室开发的。该系统预先收集“问答对 库( f a q 库) ,通过使用语义网分析与概念匹配技术,采用基于向量的搜索引擎, 从问答对文件中抽取答案。 国内有一些研究机构参与了自动问答技术的研究,如中科院计算所、复旦大学、 哈尔滨工业大学、香港科技大学等。目前,参与中文自动应答技术研究的科研机 构仍然比较少,而且基本上没有成型的中文自动问答系统。但是国内有一些答疑 系统已经采用了较复杂的技术,实现了智能答疑,它们大体上可以分成两类1 7 l : 1 基于f a q 库的智能答疑技术 典型的基于f a q 库的智能答疑系统有:上海交通大学的远程智能答疑系统, 该只是采用简单的基于关键词的匹配技术,并没有设计用户问句语义理解方面的“ 技术;哈尔滨工业大学开发的基于常见问题库的问答系统,它考虑了词语的语义, 采用基于语义的句子相似度计算方法来实现问题答疑;北京理工大学也开发了类一 似的系统,不同的是它对用户问句进行了比较深入的理解分析,将理解结果表示 成问句向量,通过推理以及问句向量之间的语义相似度计算等策略,完成问题答 疑。 一一: j 。 2 基于全文检索的智能答疑技术 基于全文检索的智能答疑系统主要利用了信息检索技术来实现答疑。它的特 点是知识库不是现成的问题答案对,而是相关文档库。对用户问句进行自然语言 理解后,采用信息检索技术对文档库中的文档进行检索后,将文档按与查询相关 度排序输出,最后系统对相关度比较高的文档采用答案抽取技术进行答案抽取后 返回给用户。如:华南理工大学就开发过类似的系统。 1 4 本文工作 本文提出了一种应用于在线客户服务领域的基于自然语言理解的自动应答技 术,在一定程度上能够实现用户的问答需求,采用了自然语言理解技术并结合自 然语言的规则和简单的统计方法,使问题理解地更加准确灵活。具体内容如下: 1 知识库的设计 知识库设计在自动应答技术中处于核心位置。为了能实现答案的多级匹配, 本文设计了权值不同的多级知识库:用户定制知识库( 产品信息、服务信息) 、基 本知识库( 常见问题库) 和系统自主学习知识库( 人工客服的聊天记录和互联网 知识) 。 在用户定制知识库的设计中,提出了一种新的知识表示方法,该方法支持逻 辑层次上的任意级别扩展。知识表示的无限扩展性是非常重要的,这种表示方法 的实现,使用户输入一个最完整知识库的愿望成为可能,该知识表示方法具有配 置简单、易于更新、易于扩展的优点。另外为了能够支持多语言,本文还设计了 知识库的编码算法。 2 用户问题理解算法的改进 对用户问题进行理解是自动应答技术的关键问题,是能够正确返回结果的基 础。本文从自然语言理解的相关知识出发,在对现有的算法进行测试分析的基础 上,指出其存在的缺陷,并改进了自动应答技术中的自然语言理解技术。 分词技术是自然语言理解的重要部分。由于分词是依赖于分词词典的,为了 提高在词典中搜索词的效率,本文设计了查词索引树,使查诃效率提高了几个数 量级。并且还实现了索引树的自动更新,只有在检测到源词库文件更新时才重新 建立索弓 ,否则利用已经建立好的索引树。本文在改进了正序最长分词算法、倒 序最长分词算法的同时,结合应用于在线客服自动应答系统的需要,对每种分词 算法都采用了完全匹配和部分匹配两级分词,设计了基于多级匹配的双向分词算 法,对以上两种分词算法所得到的分词结果进行筛选,大大地提高了分词的准确 率,在分词效率方面也有所改进。另外本文还设计了u n i c o d e 串标点分割算法, 改进了基于词频统计的新词产生算法,提出了同义词映射方案和问题类型分析方 法,使问题理解技术得到了很大提高。 3 答案匹配方案的设计 答案匹配方案设计是自动应答技术的主要部分,答案提取的准确率是最重要 的技术指标。应答准确率不仅依赖于问题分析的准确性,还依赖于答案匹配方案 设计的优劣。为了能够最大限度的给用户一个明确的答案,本文设计了三级匹配 模型来完成问题匹配:主动发问过程、被动应答过程、u n k n o w n 问题处理过程。 为了不断提高应答水平,本文设计了自主学习模型使应答智能水平获得动态提高, 设计了上下文匹配算法使应答与会话场景结合起来,提高应答准确率。基于在线 客服的具体需要,本文还设计了联系方式追问模型,方便人工客服联系潜在客户。 最后,通过系统实现与测试,对算法功能进行了验证。 4 自动应答技术的模块设计 第一章绪论 7 一个成功的自动应答技术,不但取决于自然语言处理技术本身的发展,还取 决于良好的模块设计。这是设计扩展性和完整性的重要保证。本部分从整体上介 绍一下自动应答技术所研究的各个模块,突出研究的重点。 论文结构如下: 第一章为绪论。阐明自动应答系统的研究背景与研究意义。介绍了自动应答 系统的国内外研究状况,及几种常见自动应答系统的优缺点。介绍了基于自然语 言理解的自动应答系统的概念,分析了采用基于自然语言理解的自动应答系统的 原因。 第二章为自动应答系统的整体设计。系统结构是由知识库设计、用户问题理 解技术和答案匹配技术三部分组成的。另外,本章还介绍了系统的架构、系统的 应答模式等内容。 第三章为知识库设计方面的内容。知识库设计是自动应答系统的核心内容。 本章设计了具有不同权值的知识库系统;设计了新的知识表示方法,该方法支持 知识逻辑的无限级别扩展性;在知识库的编码、设计、结构、动态更新及内存控 制等多方面进行了研究。 第四章为用户问题理解方面的内容。用户问题理解技术是自动应答系统的关 键技术,是能够正确返回答案的基础。本章就是从n l u 的相关知识出发,设计查 词索引树、u n i c o d e 码标点分割算法,改进的正向最长分词算法、逆向最长分词 算法、基于词频统计的新词产生算法,设计基于多级匹配的双向分词算法、同义 词映射算法等方面的内容。 第五章为答案匹配方案设计。本部分是自动应答系统最直观的一部分,答案 提取结果的准确性是系统验收的重要指标,答案提取是在利用自然语言处理问题 的基础上,从知识库中寻找最优答案的过程。本章介绍了主动发问过程、被动应 答过程、u n k n o w n 问题处理过程、系统自主学习模型、上下文匹配算法、联系方 式追问模型等内容。 第六章为结束语。对本文所做的工作进行了总结,指出了系统目前存在的问 题及以后的改进方向。 本文有以下几个创新点: 1 设计了权值不同的多级知识库结构,提出了一种新的知识表示方法,该方 法支持逻辑关系的任意扩展性,方便知识的增加与修改。 2 实现了支持多语言问答的自动应答技术,采用多语言统一编码( 使用 u c s 2 ) 。 3 设计的查词索引树大大地提高了分词效率,改进了正序最长分词算法、倒 序最长分词算法、双向分词算法、基于词频统计的新词产生算法。 4 提出了一种基于强大素材库、结合上下文环境、自动提取答案的新方案一 三层答案匹配方案。 第二章自动应答技术总体设计 虽然对自动应答技术的研究很多,但目前仍没有成熟的产品,其应用和发展 一方面取决于自然语言处理技术本身的发展,同时还取决于一个良好的系统设计。 良好的系统设计是自动应答技术可扩展性及设计完整性的重要保证。为了能够更 加准确全面地理解本文的内容,本章将从整体上介绍本文所研究的各个模块,突 出研究的重点。 2 1 结构设计 应用于在线客户服务领域的自动应答技术,是一个以知识库设计为核心,以 用户问题理解为基础,以答案匹配算法为重点的模型。结构如图2 1 所示。 图2 1 结构图 1 输入问题 通过用户界面实现,用户界面是与用户交流的平台,通过用户界面接收用户 的自然语言问句,并把答案以自然语言语句的形式返回给用户。 2 用户问题理解技术 用户问题理解技术是自动应答技术的基础,在自动应答技术中,当用户以自 然语言提问时,对用户问题的理解是非常关键的。目前,在汉语理解方面还不能 1 n 基于自然语言理解的自动应答技术与应用研究 达到完全理解的水平,很多理论问题还处在研究之中。在这种情况下,人们开始 热衷于研究某一个具体领域的自动应答技术。这样一方面可以方便灵活地利用定 制的专业词汇,降低理解难度;另一方面,对于某个领域来说,其业务内的应答 是相对固定的,可以通过增加常用问答库等策略来降低理解难度。但是,即使是 应用到某一个领域的自动应答技术,也不可能穷举出所有可能的问句。所以增加 定制词汇、常见问题库等方法并不能从根本上满足实际阿答时用户提问的多样性 要求。为了提高应答准确率,必须借助自然语言理解技术,对问题进行分析理解。 用户问题理解技术的主要任务是提取出问题关键词,所以分词是自然语言理 解技术中不可缺少的一部分。分词是依赖于分词词典的,词典中必须包含一些产 品词、专业术语等,才可以把这些重要信息分离出来,所以问题理解能力在很大 程度上又依赖于用户定制知识库的完整性。 问题理解部分需要完成以下几个部分的工作:首先设计查词索引树,提高在 词典中查词的效率;然后是设计或改进分词算法,根据词典对句子进行分割,并 提取出具有实际意义的关键词,去掉虚诃,进行关键词萃取;最后,在分词完毕 后,依照句法分析知识对问句进行进一步分析。 另外,在问题理解技术中,基于常见问题应答的方法可以使自动应答达到更 高的正确率。但是,由于用户问题总在不断变化,手工添加问题对的代价比较高, 在实际应用中,用手工添加问答对也不太现实。因此,本文设计了基于机器学习 的方法来增加知识库信息,主要是学习人工客服的会话记录,或者通过百度等搜 索技术从互联网上得到相关知识,不需要繁重的手工劳动,但是其正确率相对较 低。 3 知识库设计 知识库在自动应答技术中处于核心地位,知识库的健全与否与自动应答的准 确率有很大关系,对于自动应答技术的完备性和准确性具有非常重要的作用。一 个好的知识库应该满足以下几个特点:知识的全面性、可扩展性、清晰性、准确 性。 本文采用三级知识库模式:基本知识库、用户定制知识库、自主学习知识库。 不同知识库具有不同的权值,用户定制知识库具有最高优先权,允许用户定制公 司信息、产品信息、服务信息等,借助用户自定义知识库,在很大程度上降低了 问题理解难度,提高了应答准确率。 本文为了支持多语言,首先要对知识库进行编码处理,采用u n i c o d e 统一 编码方式;为了支持知识逻辑的无限可扩展性,设计了自定义标签的x m l 文件知 识表示方法:为了提高查找效率,同时控制内存使用,采用动态加载,最老页面 替换方案。 4 答案匹配方案设计 第二章自动应答技术总体设计 答案匹配方案设计即研究如何在理解用户问题的基础上,从知识库中查找到 对应的答案。要根据问题理解得到的关键词匹配对应的应答内容,通过关键词权 值,主动引导客户问话等策略来提高回复的准确率。本模块是自动应答技术中非 常重要的模块,对应答的准确率、效率等各方面都有很重要的影响。主要涉及答 案返回的过程研究、无法匹配答案的处理方案、匹配到多个答案的处理方案,提 高智能水平的学习策略等问题。 答案提取的过程有主动发问过程、被动应答过程和智能u n k n o w n 问题处理过 程,其精确级别是依次降低的。最先进入主动发问模块,主动发问模块可以引导 用户提问,然后通过与用户交互进一步明确用户的真正意图,主动发问模块是自 动应答中应答正确率最高的模块。主动发问模块无法处理的问题,由被动应答模 块做进一步处理,被动应答模块将会尽可能地去匹配答案,包括词回溯和历史场 景遍历匹配。若在被动应答模块中仍无法找到答案,则进入自主学习模块,由于 该模块应答准确率最低,必须保留返回信息及用户问题,以便通过人工干预使应 答水平得到提高。为进一步优化设计,还设计了上下文匹配算法及联系方式追问 模型等内容。当探测到某次会话准备结束的时候,将自动进入联系地址追问匹配 模型,这样可以更加准确地掌握潜在客户的详细信息,体现自动应答技术的价值。 5 答案返回 自动应答技术采用三种模式:全自动模式、半自动模式、人工模式。在三种 模式下,问题返回的过程是不相同的。如果不确定答案的准确性,在全自动模式 下,系统自动筛选最佳算法,返回给用户,并备份该问题和答案。在半自动模式。 下则同时返回多个答案给人工客服,由人工客服做出修正,并且保留问题及答案 信息到问答知识库。在人工模式下,系统只会自动发送欢迎语,以后发送的每条 消息都必须经过人工客服确认后才发送给用户。 2 2 自动应答系统设计 自动应答系统采用c s 架构。所有处理功能都在服务器端,服务器端分为接 口层、逻辑层、缓存层和存储层。系统服务器端架构如图2 2 所示。 实现通信协议、打包发送、有效性验证接口层 场景匹配、抽取答案、新场景保存 逻”一 回口弓缓存层 数据库或文件存储系统 存储层 图2 2 系统架构图 这四层的基本功能是: 1 接口层 接口层实现的功能有:待发送数据的打包和加密、接收数据的解密和解包和 数据有效性验证。数据打包用来消除“客户机一服务器一的c p u 字节序差异和非 字符串数据的格式化,以及简单加密( 通过字符串值特定序列的加减实现) 功能, 实现通信的安全性和私密性。 2 逻辑层 逻辑层是自动应答技术的核心,是本文将要介绍的主要部分。本文通过知识 库构建技术、用户问题理解技术、答案匹配技术几个大方面来介绍该部分的内容。 应用自然语言处理技术,涉及到许多新的算法,主要有:编码转换、自然语言的 分词、词映射、场景匹配、搜寻答案、场景保存等模块。编码转换用于支持多语 言:自然语言分词是为了理解用户问题,提取关键词给搜索答案提供依据和素材; 词映射用于消除应答文件的冗余并可实现尽可能高的匹配;场景匹配主要是根据 人类思维的连贯性,从最近相关节点开始查找匹配答案。 3 缓存层 用户定制的知识是以x m l 文件的格式保存的,缓存层实现最新x m l 页面缓 存和最旧页面替换,以及x m l 文件更新后的重新载入问题。目的是在控制使用内 存的同时实现高效响应。另外,该层负责客户定制x m l 文件的提交以及提交之后 的编码转换、格式处理、以及存储层的冗余存储和备份。 4 存储层 存储层是存储媒介相关的,主要的存储媒介是数据库或者磁盘。 茎三主鱼垫窒查垫垄璺竺丝盐1 3 2 3 应答模式设计 为了使自动应答技术能够应用到各种场合,提高应用灵活性,本文设计了三 种应答模式: 1 全自动模式 答案搜寻模块选择最佳答案,直接返回给用户。 2 半自动模式 系统在不能确定答案正确性的情况下,将会把备选答案返回给人工客服,由 人工客服选择并修正答案后发送给用户。 3 人工模式 系统自动发送第一条欢迎语,以后所有的应答都需要提交给相应的人工客服, 并经过人工客服确认之后才发送给用户。 该设计的主要目的是增加应用的灵活性,避免人工客服看到自动应答系统返 回错误答案而无法干预的问题。系统按照不同的模式会做出不同的响应,主要表 现在当可选择答案多于一条或者匹配答案的权值不够高时,系统如何响应的问题。 2 4 本章小结 本章从总体上介绍了自动应答技术的模块结构、各个模块的功能、自动应答 系统的架构、应答模式等内容。通过本章的介绍可以更加准确全面地理解本文内 容。在后续章节将详细介绍以下三个关键性技术:知识库设计、用户问题理解技 术和答案匹配技术。 第三章知识库设计 知识库在自动应答技术中处于核心地位,知识库的健全与否对自动应答技术 有非常大的影响。为了能实现答案的多级匹配,本章将设计权值不同的多级知识 库:用户定制知识库( 产品信息、服务信息) 、基本知识库( 常见问题库) 和自主 学习知识库( 人工客服的聊天记录和互联网知识) 。将提出一种支持任意级别扩展 的新的知识表示方法。该知识表示方法具有配置简单,易于扩展、易于更新的特 点。这种设计方法的实现,使用户定制一个最完整知识库的愿望成为可能。可以 借助这些丰富的知识库资源降低理解难度。另外为了支持多语言,本章还将设计 知识库编码算法。 3 1 知识表示 知识表示是人工智能、知识工程中的一个重要研究课题。是自动应答技术中不 可缺少的一部分。知识【7 】就是人们对客观事务( 包括自然的和人造的) 及其规律 的认识,还包括人们利用客观规律解决实际问题的方法和策略。它是信息经过加 工、整理、解释、挑选和改造而成的。 所谓知识表示【1 5 1 ,就是将已经获得的相关知识以计算机内部代码的形式加以 合理地描述、存储,以便有效地利用这些知识,它是指面向计算机的知识描述或 表现形式和方法。其实质就是知识的符号化,便于计算机对知识进行存储和处理。 众所周知,面向人的知识表示可以是语言、文字、数字、符号、公式、图表、图 形、图像等多种形式。这些表示形式是人们所能接受、理解和处理的形式。但面 向人的这些知识表示形式,目前还不能完全直接用于计算机,因此需要研究适于 计算机的知识表示模式。具体来讲,就是要用某种约定盼( 外部) 形式结构来描 述知识,而且这种形式结构还要能够转换为机器的内部形式,便于计算机存储、 处理和利用。 由此可见知识表示是计算机理解自然语言的基础,是建立自动应答系统的重 要环节。现在主要有两类知识表示方法l | 7 :一类是显式地表示知识,亦称为知识的 局部表示,如:一阶谓词逻辑、产生式规则、语义网络、框架、面向对象、脚本、 过程等;另一类是利用神经网络表示知识,这种表示是隐式地表示知识,亦称为 知识的分布表示。 在有些文档中,把知识表示分为陈述表示和过程表示1 7 l 。陈述表示是把事务的 属性、状态和关系逻辑描述出来;而过程表示则是把事务的行为、操作、解决问 题的方法和步骤具体地、显式地刻画出来。一般称陈述表示为知识的静态表示, 称过程表示为知识的动态表示。对于同一条知识,既可以采用陈述表示,也可以 采用过程表示。 研究知识表示1 7 l 是研究用机器表示知识的可行性和有效性的一般方法,是数据 结构与控制结构的统一体,既考虑知识的存储,又考虑知识的使用。知识表示的 方法灵活多样,不同的知识表示方法都有其针对性和局限性,有时同一领域的知 识用不同的方法来表示,因此,知识表示的方法应根据具体情况而定。在实际应 用中所采用的知识表示同知识的组织、结构和使用方式密切相关,知识表示方法 的优劣可以从以下几个方面来衡量【7 j : 1 1 表示能力:具备将问题求解中的各类形式化知识完全表示出来的能力; 2 1 可理解性:便于理解和实现; 3 1 可操作性:能使基于知识的推理有效且符合逻辑地进行; 4 l 结构性:便于知识系统的维护、管理及扩充,并有利于推理的进行。 本文设计了应用x m l 标签表示的支持任意扩展性的知识表示方法,这种方法 较以前的x m l 表示方法更加简单方便,它只要两种标签,便可以支持知识逻辑结 构的无限扩展性。 3 2 知识库的分类 知识库建设在自动应答技术中处于核心地位,是问题理解技术和答案抽取技 术的基础,为了能实现答案的多级匹配,本节设计了权值不同的三种知识库:基 本知识库、用户定制知识库、自主学习知识库( 客服聊天记录学习应答文件和网 络抓取应答文件) 。其中用户定制知识库权值最高,自主学习知识库权值最低。 在这三类知识库中,基本知识库是相对稳定的,是日常会话的总结,其变化 的频率比较低,处理起来也比较简单:用户定制知识库由企业用户提供,定制产 品、公司等信息,这些信息都是相对不稳定的;自主学习知识库主要包括人工客 服聊天记录和网络抓取文件。这些资料是系统智能升级的重要知识储备,知识库 的内容是一个不断丰富的过程,要不断提高系统的答全率和答准率,就要不断完 善知识库内容。 建立权值不同的多级知识库的主要目的是可以根据不同的知识库采用不同的 分词策略,也可以区分分词结果的重要程度,以此作为关键词权值设置的依据。 由于定制词汇具有最高权值,可以首先按照定制知识库中的关键词进行严格分词, 确保定制的重要词汇能够首先被切分出来,这对问题理解的准确性具有非常重要 的意义。同样,在答案匹配过程中,也是首先匹配定制知识库中的答案,这样保 笙三雯垫望壁堡生! z 证了答案的针对性。由此可见,采用权值不同的多级知识库技术具有很重要的意 义。 3 3 知识表示方法设计 本节设计一种x m l 知识表示方法,来支持知识逻辑结构的无限扩展性,表达 客观世界中的自然逻辑关系。具有较强的逻辑性和可理解性,支持知识的插入、 删除、修改等操作。 这种设计方法的实现具有很重要的现实意义。对于应用到在线客服领域的自 动应答系统来说,用户定制信息千差万别,知识逻辑结构的可扩展性就显得尤其 重要了,如一个简单的价格问题就可以分成:代理价格、批发价格、零售价格。 各种价格又可以继续分,如:北京批发价格、上海批发价格、西安批发价格等等。 所以必须保证知识逻辑上的可扩展性。 在以前的知识表示方法中,很多人都提出过应用x m l 标签来表示知识的思 想。但以前的表示方法都采用了多种标签的设计,如 , , ,多数采用对应的英文单词来描述一个具体对象的各 个属性。这样的表示方法简单清晰、可理解性强,但使用范围却非常狭小,只适 合描述一些属性比较固定的对象,否则其标签的数量是无法控制的。本文设计的 自动应答技术要应用到不同企业的在线客户服务领域,其产品信息、服务信息、 企业信息具有很大的差异性,不是有限的标签可以描述的。根据这种需要,本章。 设计了只用两种标签 , m i ,iy e 就可以表示任意信 息的知识表示方法。该方法不但使用的标签少,还支持知识逻辑的无限扩展。下 面将详细介绍这种新的知识表示方法。 该表示方法只定义两种x m l 标签和两种特殊值,分别如下: 标签: 源串标签 对应答案标签 另外还设置了两种特殊符号来表示通用问题和通用答案。通用问题是指当用户 没有提出任何问题的时候,系统自动返回的语句,通用问题通常是一些提示性的 语句。通用答案是在访客的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 代工代持合同协议书范本
- 2025年土地使用权互换交易协议范本
- 肉毒素考试题及答案解析
- 2025年商标侵权争端解决协议
- 关于志愿者策划活动方案五篇
- 2025年二手居间购买协议补充协议
- 奶粉考试题及答案
- 叙事医学考试题及答案
- 2025年项目投资合作股权合同范本
- 2025年汽车救援服务中心合同
- 医院科室停电应急预案
- 2025年教育学家教学理论考试试题及答案解析
- 保健公司客户服务流程规定
- 项目初步验收汇报
- 髋关节滑膜炎的护理查房
- 2025 整形外科面部痤疮瘢痕修复外科查房课件
- 生产管理办法范本
- 混凝土防暴墙拆除方案(3篇)
- 精神病患者的康复护理计划
- 心理健康与寝室生活
- 语“你相遇”文启新程-2025年秋季高一语文开学第一课-2025-2026学年高中主题班会
评论
0/150
提交评论