(模式识别与智能系统专业论文)信息获取关键技术研究与应用.pdf_第1页
(模式识别与智能系统专业论文)信息获取关键技术研究与应用.pdf_第2页
(模式识别与智能系统专业论文)信息获取关键技术研究与应用.pdf_第3页
(模式识别与智能系统专业论文)信息获取关键技术研究与应用.pdf_第4页
(模式识别与智能系统专业论文)信息获取关键技术研究与应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(模式识别与智能系统专业论文)信息获取关键技术研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息获取关键技术研究与应用 摘要 信息获取关键技术研究与应用 摘要 计算机和互联网技术的飞速发展把人们带入了崭新的信息社 会。互联网含有海量信息,然而,人们在面对浩如烟海的网络信 息资源时往往感到束手无策,无法快速准确地获取真正需要的信 息。传统信息获取技术与人工智能和a g e n t 技术相结合,能够高 效准确地获取网络信息和为用户提供个性化信息服务,是解决互 联网“信息过载”和“资源迷向”问题的有效方法之一。本文总 结了作者硕士期间在信息获取关键技术方面的研究成果,介绍了 信息获取技术在奥运会多语言智能信息平台m l i s p ( m u l t i l i n g u a li n f o r m a t i o ns e r v i c ep o r t a l ) 中的应用和实现。在该 系统中,信息获取技术与人工智能技术相结合,实现了m l i s p 系 统平台网络数据源的自动获取和更新。本文还提出一个基于a g e n t 的面向互联网的信息检索系统模型,阐述了该系统的设计思想, 并编程实现了其中的个性化核一t l , 算法。并给出了实验仿真结果表 明该系统在为用户提供个性化服务方面优于传统的信息检索系 统。 关键词:信息获取智能a g e n t 个性化 堕皇堡墼叁壁垫查堕塞量窒旦型堕堡苎竖 r e s e a r c ha n da p p l i c 觚i o no n t h e k e yt e c h n o l o g yo fi n f o r m a t i o n a c q u i l l i n g a b s t r a c t t h e r a p i dd e v e l o p m e n t so fc o m p u t e ra n di n t e m e th a v eb r o u g h tp e o p l e i n t oan e wi n f o r m a t i o ns o c i e t y i n t e m e tp r o v i d ep e o p l ea b u n d a n tr e s o u r c e s h o w e v e r ,p e o p i e c a l l tm a k ef u l lu s eo ft h ev a s tr e s o u r c e st of i n dt h ei n f o r m a t i o n s u i t a b l eq u i c k l ya n dc o r r e c t l y t h ec o m b i n a t i o uo ft h et r a d i t i o n a ii n f o r m a t i o u a c q u i r i n gt e c h n o l o g yw i t ht h ea r t i f i c i a li n t e l l i g e n c ea n da g e n tt e c h n i q u ec a n p r o v i d e t h e p e r s o n a l i z e d i n f o r m a t i o ns e r v i c ea n dr e t r i e v et h ei n t e m e t i n f o r i l l a t i o nc o r r e c t l ya n de r i e c t i v e l y i ti so n eo ft h ee f f e c t i v es o l u t i o n st ot h e p r o b l e m so f ”o v e r1 0 a d e di n f o r m a t i o n ”a n d ”w a n d e r e dr e s o u r c e s ”o fi n t e r a c t t h i sp a p e rs u m m a r i z e st h er e s e a r c hg a i n so ft h ea u t h o ro nt h et e c h n o l o g yo f i n f o r m a t i o na c q u i r i n gf o rt h em a s t e rd e g r e e 。t ti n t r o d u c e st h er e a l i z a t i o na n d a p p l i c a t i o n o fi n f o r m a t i o n a c q u i r i n gt e c h n o l o g y i nt h e m u l t i l i n g u a l 1 1 1 f o r m a t i o ns e r v i c ep o r t a lo f2 0 0 8b e i j i n 9 1 s0 l y r n p i cg a m e s c o m b i n e dw i t h t h ea r t i f i c i a l i n t e l l i g e n c e ,i n f o r m a t i o n a c q u i r i n gt e c h n o l o g y a c h i e v e st h e a u t o - r e w i e v a la n d a u t o u p d a t i n go f t h ed a t ar e $ o u r c e si ni n t e r a c ti nt h em l i s p m o r e o v c r , t h ep a 口e rp u t sf o r w a r dam o d e lo fa na g e n t - b a s e di n f o r m a t i o n r e t r i e v a l s y s t e m f o ri n t e r a c ta n dt h e i m p l e m e n t a t i o n o ft h ek e m e l a l g o r i t h m p e r s o n a l i z e da l g o r i t h m e x p e r i m e n t s s h o wt h a tt h e s y s t e m o h t i e f f o r m st h et r a d i t i o n a lo l l ei nt h ep e r s o n a l i z e di n f o r m a t i o ns e r v i c e k e y w o r d s :i n f o r m a t i o n a c q u i r i n gi n t e l l i g e n c ea g e n t p e r s o n a l i z e d i i 独翎性声明 本人声嘴所璺交的论文蹙率入夜导师指导下避行的研究工作及敝褥的研究 成暴。尽我魇知,除了文串特剐搬以轹滚和致谢中魇箩列韵内誊以外,谂文中不 瞧禽葵他人已经发表域攒写避的研究成巢,媳不包含为获得煺京冁电大学或装他 散蠢辍掺匏攀经鳆落书纛傻爆遂麴孝芎秘。与我弱工撵熬嚣悫对率磺究黪教豹经 蟪露漱均已焱沦文中侮了踢旗筑说骥并豪示了落意。 蹲l 薄学佼毫a 文与资瓣营奄不安之处,本入承接一甥裰关赛矮。 口_ 本人签繇:墨:婆 鑫鬻:一聋i ! 叠墨礁 关于谂文使用授权的说蹰 学襞论文终尝宠垒了解越索赧壤大攀毒荚穰蟹积霞臻学像潦文熬惑寝,鼗: 辑究生强校玻读学位潮阙论文工俸豹知谈产凝攀位瓣衮浆瞧大学。学校毒投绦 窝并囱落家蠢关藩 j 竣辊梅遴交论文秘菱窜件帮磁蠡,悫许掌寝谂文狻蠢阗鞠僚 澜;学校霹戳公布攀傻论文懿垒都或部分内餐,珂戳允诲采禳影印、绻露或冀宅 复翩等鬏保存、汇编学位论文。( 保密的学使论文在解密后遂守忿蕊定) 本譬位论文不属予保密藏圈,适焉零授权书。 本人签酝: 零爨签名: 靠港 e l 鹚;婴璺墨艘 缉。塾寝爨麓:! 量望= 孳 lf 第一章绪论 与自然资源一样,信息资源是人类的宝贵财富。如何有效地利用信息资源 是当今信息社会所面临的一个主要问题,信息获取技术成为解决这一问题的有 效方法之一。 互联网技术的飞速发展加速了人类社会信息化的进程。网络的最大优点是 将海量信息共享。利用互联网,用户可以快速、方便地接触到各种信息。互联 网极大地丰富了人们可利用的信息资源,同时为信息获取技术的发展与应用提 供了良好的契机和广阔的舞台。 “资源迷向”与“信息过载”是当今互联网所面临的主要问题之一。互联 网上信息资源爆炸式的增长导致用户能够从网上下载的相关资源过多,仅仅通 过普通浏览的方式难以找到用户真正需要的信息。此外,互联网上的数据没有 统一的数据结构模型,互联网也没有向用户提供统一的查询语言。这些问题已 经成为提高互联网信息服务质量的瓶颈。 互联网上的海量信息资源迫切需要行之有效的信息获取技术的出现,从而 为信息获取技术的快速发展提供了强劲动力。目前,信息获取技术已从传统的 人工获取方式,发展为以搜索引擎为代表的自动化、半自动化的网络信息获取 方式。但如今的信息获取技术及相关系统仍存在着效率较低、有效性较差、准 确性不高、不能满足用户个性化需要的问题。 人工智能与分布式技术的快速发展为信息获取技术注入了新的活力。人工智 能技术,特别是自然语言理解技术的发展与成熟,使计算机能够理解网络信息资 源,并能自动的、智能的获取网络信息,从而把人们从效率低下的传统信息获取 方式中解放出来。而a g e n t 技术也以其自身的独特特性越来越受到相关领域研究 者的关注。a g e n t 技术具有目标驱动属性,能够通过学习、推理等方法感知和适 应复杂的动态环境,具有自动追求目标的能力,他们可以理解用户的信息需求和 兴趣偏好,会在用户发出请求之前就定位并搜索信息,以便在用户需要时及时提 供a a g e n t 技术与信息获取技术相融合,有可能为用户提供更有效、更准确、更 个性化的信息获取服务。 在灯当前的信息获取技术、智能a g e n t 技术与开发进行详细分析与总结的基 信息获取关键技术研究与应用 第一辩绪论 礁上,论文骰了蘩下足方甏工搏: 1 、信息获取技术在国家“8 6 3 ”研究课蹶奥运会多语言智能信息平台m l i s p ( m u l t i l i n g u a li n f o r m a t i o ns e r v i c ep o r t a l ) 串韵盔麓聋叠实觋。在该系统孛,信怠 获取技术实现了m l i s p 系统平台“天气预报”等领域网络数据源的自动获取与 更赫,提商了m l i s p 系统的信息获敬效率岛准确壤。 2 、针对传统网络信息检索系统不能提供个性化信息服务的问题,提出了一 个旗子a g e n t 的面向互联网的信息检索系统模型,并实现了其中的个性化核心算 法,详缨会绪了该系统豹设计思想及个性他簿法的袋验钫冀结果。实验表明,该 系统在为用户提供个性化服务方面优于传统的信息检索系统。 零论文静结稳安捧安羹下: 第二章信息获取技术分析与总结。信息获取披术是本文的核心。本章对当 前的信息获取技术进行了详细地分析与总终,包括对几个基本概念的理解、现 有馈息获取技术及菇在的燕要润题、当裁鬻冯的傣息获取系统模型,最后对信 息获取技术进行了靛望。 第三章m l i s p 系绞中信息获联技术磷究与实袈。详缎分缨了信息获敬技 术在m l i s p 系统中的应用与实现。在m l i s p 系统中,信息获取与数据服务模 块实臻了m l i s p 系统孛天气该报等镶蠛饕分鬻终数据澡懿鑫动获毅与受精。本 章首先简翳介绍m l i s p 的框架缩构、各模块的功能以及备模块之间的通信机 制。而后黧点介缁信患获敬与数据糙务模块静需求分析,总体设计,详细设计 以及应用藏例。最厝进行了总结并钳对系统中的不足提出了改进方案。 第四章智能a g e n t 技术及基予a g e n t 技术的系统开发。智能a g e n t 具有代 理性、智戆性、枣会淫等挽是特性。a g e n t 技寒与售息获取技术缀合有可能为 用户提供照高质量的信息获取服务。本章介绍了a g e n t 的特点与慧本概念、多 a g e n t 系统,基予a g e n t 搜零豹系统开发及嚣亵豹弱怒。 第五章基于a g e n t 的信息检索系统设计与个性化算法实现。本章介绍了基 于a g e n t 的信意检索系统鹣层次缭褐及设计愚糠、个往纯核心算法的设计写实 现、实验仿真结果及相关璁论,最后进行了总结弗针对系统中的不足提出了改 进方案。 第六耄结论墨疑望。总缝了掺者颈士期闯在镶惠获取关键技术方嚣瓣磺突 信息获取关键技术研究与应用第一章绪论 成果,并提出了存在的不足以及今后进一步学习的方向。 信息获取关键技术研究与应用 第二章信息获取技术分析与总结 础。 第二章信息获取技术分析与总结 本章分析总结了目前的信息获取技术与常用模型,它们是本文研究的理论基 2 1对几个基本概念的理解 在学习研究信息获取技术的过程中,“数据获取”、“信息获取”等概念出现 的频度很高,在一些文献中,这些概念互为替换使用以至于造成混淆。作为信息 获取领域的基本概念,作者认为它们无论是在内涵还是在外延上都是有所差别 的,而清晰地区分这些基本概念对于在研究过程中查阅文献、撰写文章都是十分 必要的。现根据作者的学习心得说明对以下概念的理解1 3 】: 数据获取:在信息获取与数据获取系统中,数据获取着重于获取那些满足明 确定义的查询条件的所有对象。这些查询往往是正规表达式或者关系代数表达 式。因此,在数据获取中,如果某个对象与查询要求略有不符,将导致该对象不 被获取。 信息获取:在信息获取与数据获取系统中,信息获取系统所面对的主要是自 然语言文本,而这些文本结构不一定理想,甚至有些在语义上还存在某些歧义性。 因此,在信息获取过程中,无法保证所获取的对象都是准确无误的,应该允许所 获取的对象存在一定的误差,误差程度由信息获取系统的结构、所采取的信息获 取技术、算法及所获取目标的特点决定。 概括地讲,如表2 1 所示: 数据获取信息获取 匹配度完全匹配部分匹配、最佳匹配 查询语言非自然语言自然语言 期望返回项完全匹配的相关的 表2 - i 数据荻取与信息获取的比较 信息获取关键控术研究与廊用 第二章信息获取拽术分析与总结 信息检索:信息检索系统本身是个信息获取系统,是一个更加狭义的橇念, 它包含在信恩获取款概念之中。 数据获舣系统主要用来处理结构化的、语义明确的数据,即用户需要在信息 获取爨求孛暖疆建袭这毫鑫曩弱蠢鹚请求。骥实孛,出予爨产套溺豢鬻不辘够准 确地寝达用户需求的信息,豳此获取的数据不一定能满足用户的需求。实际上, 震户受多途希望获取与菜个主蘧衽关的倍怠,蔼 # 那些经 又淹是查镯翡数据,丽 如今的数据获取系统一般不能满足用户的这种个性化需要。 为了有效地满足用户对信息的要求,信息获取系统必须能够“解释”信息的 内容,这里的信息既包括用户在查询请求中辑表达的信息,黼且包撼惹统所获取 内容的信息。进一步地,能够将系统所获取的信息按照与用户查询的相关性进行 蓑 廖。霹售惑内容貔解释嚣簧接取文搂戆句滋痿塞琴疆语义莹惑,慰傣患获取系统 来说,还需要知道如何抽取信息和如何按照这些信息来计算相关性。实际上信息 获取系统酶鬻鹃藏楚尽可麓多遣获取郑些与髑户奁韵稽关豹文档,鞠时尽可畿少 地获舣那些与查询不相关的文档。 在信息获取技术的研究i 建程中,作者始终遵循这样一个基本原刚,郎:抱信 息获取系统簸终归结到详实的数据获取系统中去。该艨则可以通过采用不同的方 法予以实现,如:在m l i s p 系统中,将信息获取按术与自然语言理解技术相结 合,最终实臻建户褒特定领域内戆数握获取。吴馋淘容在麓嚣熬零节( 第三章 m l i s p 系统中的信息获取技术研究与应用) 中有详尽的介缁。 2 2 现裔信息获取技术及存在的主要问题 信息获取技术包括信息的表示、存储、缎织和对信息的访问方法。信息的表 示积缝织是为了速瘸户雯骞荔避谤瓣信惑。攮是蓊霹表达震声静藩悫嚣求是魄较 复杂的问题,用户必须将自己的需求用信息获取系统所提供的查询语言表示出 来。一箴瓷采,壹谶毯含鄹黧可敬表示焉户嚣求翦关键词。肖了嗣声酌查询后, 信息获取系统的目标就是怎样获取对用户有用或者相关的文档。 孀户需求的表达:用户获取信息的方式与文档的递辑表累这两者对于有效获 取桶关信息非常重要。用,自强使用信息获取系统对,爨要将能的信息获取鬟求以 系统楗供的落询方式明确地袭示出来。这对于信息获取系统来说,就是指定个 5 - 信息获取关键技术研究与应用 第二章信息获取技术分析与总结 符合系统规则的关键词集合。但用户在获取信息的时候,他的兴趣有可能很难表 达或者这种兴趣包含的内容太广泛,这样所获取的信息在很多情况下不能满足用 户的需求。精确的、恰如其分的需求表达有助于获得相对准确的结果,但这样对 用户的要求过高而且结果的改善程度有限,无法满足用户的个性化需求。 信息的表示和组织:信息库中的信息一般是通过索引词条来表示。这些索引 词条要么直接从信息中取得,要么由人工方式事先指定。现在的信息获取系统有 的采用全文索引,有的只是提供文档信息中的某些重要部分的信息建立索引。当 信息集合非常大的时候,必须采取某种方式来压缩这些代表关键词的集合。可以 通过删除文本中的无用词汇( 例如介词、连词等) 、词干提取和名词的识别来进 一步压缩这些文档。以上的这些操作统称为文本操作,文本操作可以缩小文档表 示的复杂度。如今的文本操作多是以手工的方式完成。当信息集非常大或信息的 更新频度很高时,这种方式存在着效率低下及有效性、准确性较差的缺点。 2 3 常用信息获取系统模型 在对信息获取系统的研究过程中,作者所做的相当一部分工作是对文本信息 检索系统的研究。以下对目前常用的文本信息检索系统模型做一介绍。 目前流行的文本信息检索模型主要分为三种:布尔检索模型、概率推理模型、 空间向量模型“。 1 、布尔检索模型 布尔检索模型是最早也是最简单的一种检索模型,其理论己基本成熟。在布 尔检索模型中,将用户提问表示成布尔表达式,使用逻辑运算符将提问词连接起 来,其中每个提问词表达了用户的一个兴趣。其文档组织形式分为两种:顺排文 档和倒排文档。顺排文档是检索系统的主文档,它将规范化的文献记录顺序存储 在存储介质( 一般是磁带) 上,数据量非常大,对它进行检索处理的算法以菊池敏 典算法为代表;倒排文档是将文献记录中所有的检索点抽出,经过排序、整理后 形成类似索引的文件,对它进行检索处理的算法以逆波兰算法为代表。检索时, 检索系统将提问式与文档进行逻辑匹配操作,得出命中文献集合为检索结果。检 索结果一般不进行相关性排序。 2 、概率推理模型 6 - 信息获舣关键技术研究与应阁 第二章信息获取技术分析与总结 概率模型中,检索是根据概率排序舰则进行的。蒸本的文本检索擒逢网络包 括文本网络帮月户提澜网终。文本薅络使用不弱豹文本表示糕架寒表零文本察, 对每个文本集,文本网络只建立一次,且在检索过程中不改变其结构。用户提 霾霆终粼哭毒拿表零震户提阉镶惑黢节熹致令或多个蠢逶表达式。文本瓣络 与用户提问网络之间的连接则由文本概念表示节点与提问概念表示节点之间的 链栗度零。不论是文零黼终还楚甭户箍海两络,每一节点育一个概率德。节煮与 节点之间的因果关系擞示为:给定文本节点的先验概率及中间节点的条件概攀, 就能祷劐每一节点的衙验概率。原始文本集与用户提闻集经避概率计算,得到文 本与周户提阅购匹配程度。 3 、向量嶷闻模烈 囱囊空曩模型磊梭索瑷熬蒜维自爨空霆采袭示用户豹提| 蠢移文本集信息,其 中每维为一个特征。一个用户提问向量或文本向量的第i 个元素表示用户提问 装文本貔第i 个特经酶重要度,或称投毽。用户提闻囱鲎静裰值由霜户指定:文 本向爨的权值则根据特征在文本或文本集中的出现频率决定。提问向爨与文本尚 量间的余弦角通常用采测定该文本与该用户掇问词之间的匹配程度。 在研究基予a g e n t 的面向赢联网的信息捻索系统熬过翟中,结合实验室的炭 体实验条件,作者采用了向量空间模型。比如:把检綮问题最后归结为一种数值 致比较,用户褒询是蚨缝瑶及其投毯缝舍蠢袋,最纛豹梭索缝票都代表捡索文 献对用户满意度的一系列数据,用户可设阈值米控制铎。具体内容在厝面的章节 ( 第器牵基予a g e n t 貔信惠稔索系统设计与个性耽冀法实蕊) 串有详瑟酶奔缓。 2 。4 徨患获取技术晨望 强今载售惑获取蓉统已经大大趣戆了过去攀缝戆瓣文档遂行素弓l 帮对索弓 进行搜索的模式,其其体工作包括建模、文档分类、系统结构、用户界面、数据 可甏纯、信惠_ i 霆滤等。隧著网络斡兴怒,信怠获敬系统的关注与使用纛已由最耢 的图书馆管理员和信息获取专家发展为越来越多的网络用户。“营日王谢堂前燕, 飞入罨常百姓窳”,越来越多的入开始对信患获取技术感兴趣,优秀的信息获敷 技术与系统成为人们的追切面广泛的鼗求。 网络的出现给信息获取技术提供了更加广阔的天土墩,同时也迫切需要更加有 , 信息获取关键技术研究与应用第二章信息获取技术分析与总结 效的信息获取技术的出现。网络技术成为信息获取技术发展的强大推动力。因此, 研究信息获取技术在网络信息获取中的应用是一个很有意义的课题。只有在网络 信息中有效地利用信息获取技术,才能使网络真正地为人们服务:同样地,信息 获取技术只有在网络信息中找到用武之地,才能更好地发挥效用。两者的关系是 相辅相成的。以搜索引擎为代表的信息获取技术已经在人们的生活中发挥着越来 越重要的作用。但传统的信息获取系统仍存在着效率较低、准确性不高及不能提 供面向用户的个性化服务的缺点,以a g e n t 技术为代表的分布式技术和人工智能 技术的快速发展,为信息获取技术注入了新的活力。将a g e n t 技术、人工智能技 术与信息获取技术相结合,有可能为用户提供质量更高的网络信息获取服务。对 智能化、个性化、更高效、更准确的信息获取技术的研究是本文研究的重点。 信息获取关键技术研究与应用第三章n i l i s p 系统中信息获坠零研塞! 要查塑 第三耄m l i s p 系统中信息获取技术研究与实现 爽运会多漤言餐黢售惠骧务平台( m u l t i l i n g u a l i n f o r m a t i o ns e r v i c ep o r t a l ) 以文字或者语音的形式与用户进行智能人机交互。平螽能接收来自用户的多种形 式懿输入,其体豹输入霹敬燕语音或袭逮遂镳盘、魅摸霹等方式辕入鹣文字,嗣 时能以文字或者语音的形式将服务内签呈现给用户。平台和用户交互的设备主要 是信息事或者移动终端。在镄怠亭上童要逶遗w e b 方式获取服务,在移动终端 上,可以通过w a p 秘短信的方式获敬服务。具体应用包括:多语言哭气预报甾 息服务,多语言公交线路信息服务,多语言体育赛事信息服务,多语管旅游餐饮 售患黢务嚣令矮域。 保证智能人机交疆平台膏效工作的一个关键点是系统能为用户提供及时、准 确、辜謇静爱螽数据支持。考悲委系统掰涉及爨静霾个方蟊煞鬟毒摹疫掰,怎食羧 据的特征并不单一,对于多语言公交线路信息服务和多语言旅游餐饮信息服务两 个应糟领域,数据的特点是奁磁较长的段嚣寸闻内呈现静态串等征,霹不会随辩闻 的推穆出现缀大的变化。丽其他的两个应用领域豹数据特点则星现出比较强的动 态特设,既数据跟随时间推移的变化比较频繁且明显。因此,实现不同特点数据 的缀织、获取及更薪焱系统鸯效工终的关疆。系统中姆癌患驳取技拳疯用蒌l 冀中 一个童要的组成模块( 信息获取与数据服务模块) 中,实现对系统所骚求数据源 毂及辩、准确缝支持。诲者圭萋受赍了该模块瓣疆究、设计实瑗。在译缨会缮 该模块之前,首先对m l i s p 系统进行简单介绍。 3 1 m l i s p 系统概述 3 1 m l i s p 系统缀成 多语言餐能信惫服务平螽是一个盘多个模块缰成的系统。圈3 - 1 显示了 m l i s p 的结构。该系统具有定程魔的智能性,能够对用户多种不闽形式的输 入透行理解,并做出j 暾答,奖现系统岛用户之间的智能人机交互。各个模块之间 9 信息获取关键技术研究如应用第三章m l i s p 墨簿中值皇墼瞿壁查翌塞量堡旦 燕种协作关系,为整个系统的幂l | 益而工作。 m l i s p 系统要实现连贯地解决一般性的问题,各模块之间必须彼此滋行通 信,协调备自的动作。在m l i s p 系统中,各个模炔之间袋用集中计划的方式进 彳亍相互之嬲敬按诞,即各个模块将备耋静镪务发送绘一个集中鳇协调者,凌揍谓 者来分析这些单个模块的任务。系统中控制模块扮演了这角色。从图中w 以看 出,系统鹣各个模块之霾浆雳豹罴一穆星黧戆结鞫,务令模块之阉暹过控露l 模软 来相互协调。 彰逊 图3 1m l i s p 系统结构 以下怒m l i s p 豹几个缎或部分: 1 、控制模块; 控制模块是平台体系缕构设谤秘实瑷瓣核心摸块,孚螽体系续橡又是整个系 统的基石。 控镧审心有嚣个主要戆功麓: 1 ) 信使功能:在分布式的服务之间传递信息。 2 ) 状态维护:提供一种手段,为所裔的服务存贮和访问状态信息。 3 ) 滤控制:熊够管理个对落的处璎滚程。 4 ) 日志系统、实时监控和模拟器:具有日志、实时j | 拄控和模拟功能,从而 1 0 信息获取关键技术研究与威用 第兰章m l i s p 系统中信息获取接术研究与应用 方便地进行系统的调试和维护工作。 接暴l 模块褥多l 弱户懿文本输入嚣将箕交绘塞然诿言理磐模块去势辑,耋然语 言理解模块在墩得用户输入的文本后对其进行句法和语法分析;并把分析结果传 酉泠按卷模块,霉壶较制模块绝这个分析结莱传递给对话管醺模块,遮裁是控镪 模块的信使功能。 流控制对于复杂的对话交蔑非常羹要。j 鞋= 时,控制流翟可以不再遵循如下的 预定管道:基然语言遴解一对话管理一蓐台数攥库一自然语言生成。基予渡控制, 控制模块可以被设计成以几种顺序来激活各个服务,从而支挎几种对话交互类 型。懿栗 壬一服务检测鬟翊嚣,控囊l 模块霹戆旨足耱选择。铡鳃,羔囊然瀑富灌 解模块遇到问题时,控制模块w 以去熏新与识别服务沟通以获取文本收发模块的 其链谈选结暴。又蟊,在信惑获取与数据服务模获应瑙遘至竣义时,羧制模块可 以发怒一个新的子对话以核实用户所指,如公交线路囊询应用时如果对车站名称 发生妓义,可以再次询问用户“您是臻去黄斑还是海淀黄庄? ”。为了实现灵活 的流按制,控锗4 模块戚该是通过脚本谬言可缡程的,葵中包含根据具体情况激活 指定服务的规则定义。 较裁孛,0 嚣要骞完善兹嚣患系统,霾恚系统是调试嚣维护复杂对落系统魏基 础。同时,日志系统鼹进行数据再分析和整理的基础,通过对日志数据的分析可 鼓提蕊裙窿鼹务据鑫然语言楚疆骚务鹊经镌。鼹采系统添蕊了语音谈羯模块,娣 么整邋后的语音数据可能又体为训练数据从而提高语皆识别的效果。 2 、自然谣言理解模块: 囊然语言理解模块的目的是对用户输入豹文本进行分析势理解,从惹能够准 确地抓住用声的意图。从而实现更加人性化的人机对诺。 下嚣是一令簿单靛对话铡子: 用户:请问附近有没有中档的川味餐厅? 窳统:姨双安赛缓囊东t 0 0 寒蠢念出城溅家。( 骰设鼗爵羯户镶惩豹安装青 m l i s p 系统的信息事位于双发商场) 为了实瑰这个对话示傻,叁然语富理解模块需要傲懿下曩作: 对用户输入话语避行句法和语法分析;并把相应结果传麟给控制模块,本例 的旬淫分析表达式可斑 l a b e l 蔹酒:蓊游 营澎请问 照煮附近 j v 3 z l 膏没 信息获取关键技术研究与应用 第三章m l i s p 系绒中信息获取技术研究与应用 有) f l a b e l 线方 档笏中档 舻彦川菜) ) ,对应的谮法树参见图3 2 。 饭店裔询 饭店 个 查谰地点 n u l l 档次特色饭店 _ tttttt 请婀驸避有没霄孛档的鲻臻餐厅 圈3 - 2 一个语潦树的倒母 3 、对话管理模块: 对话管理模块从自然谗言理麓模块取愿翅户豹输入,然嚣摄据点兹对话麴上 下文信息,决定对用户此次输入的响应,可能形成对后台数据库的查询请求,也 霹髭震要鞠零产罨涟露交蠢竣获霉菱多静僚惑麸瑟进一多了解嚣户躲嚣求。 在系统问用户答( 系统指导用户提供究成某个任务所需的全部信息) 的对话 方蕊下,焉户哭麓被动选择和接受。这是一耱机器驱动的对话方式,既靖蠲户只 能遇过显式的取消命令才能切换对话焦点。 多语宙信息滕务平台中要研究和实现的是更加发好的对话方式,类似人与人 之闽豹交滤,是一碧孛双方要动豹对话方式。用户隧时可以切换对话焦点,豢至切 换话题。伟为智能人机对话的另外一方,机器具有许多人与人对话的一些高级特 点餮技巧搬海台、缀露、豫式德弧簿,蔽耀瓣话熬上下文镶急,骰凑耱痤筑反应, 辅助用户毙成一次对话过程,最聪把用户需要的信息提交缭用户。 4 、蠡然语言黧成楱羧: 自然诺言生成模块配念对话管理模块协同完成系统和用户之间的交互。在用 声藕系统的交互过程中,系统可能需要和丽户进行多次交蕊以获得更多信恿,从 丽明确用户熬需隶。系统针对用户簸入,擞据对话豹土下文信息,篱要擞毙摆应 的反应,辅助用户完成一次对话过程,最后把用户黼要的信息提交给用户。总之, 嚣然语言豢残模块熬经务楚叟或系统方夔爨然语害,皂话鹗疆焉声抟需求信息, 以及在明确用户的需求信息后对数据库中结构化信息的多语言输出, 1 2 信息获取关键技术研究与应用 第三章m l i s p 系统中信息获取技术研究与应用 5 、信息获取及数据服务模块: 信息获取及数据服务模块是整个平台中用户请求和底层信息之间的隔离带, 它的目的是支持对话管理模块对数据库的统一查询格式,屏蔽信息贮存可能采用 的各种各样的数据格式,从而增强平台的可扩展性。用户与平台之间进行智能的 人机交互,如果形成了对数据库的查询请求,就会给相应信息服务应用的外部数 据库接口部件发送一个查询请求,后者遵循数据访问协议、调用相应的应用程序 接口对具体的数据库进行操作或向信息提供商发出操作请求。这一部分是本章介 绍的重点。 6 、日期时间处理模块: 日期时间处理模块需要将用户输入的各种各样的日期时间表示形式转化为 智能人机交互模块中要求的统一的表示形式,为后台数据库( 信息获取与数据服 务模块) 查询提供日期时间一致性保障。 系统涉及的天气预报和赛事新闻领域的数据具有很高的更新频度,用户对数 据的实时性有很高的要求,保证对用户日期时间的正确转换是为用户提供高质量 信息服务的前提条件。 3 1 2 各模块之间的通信机制 m l i s p 系统是一个由多个模块组成的系统,各模块之间并非是孤立的,它 们相互协作完成与用户的每一次交互。因此,系统中各模块间的通信机制对于模 块之间的相互协作至关重要,它确保各模块间能够方便的交流信息、进而高效地 完成任务。 系统中各模块间的通信机制对信息获取与数据服务模块的设计至关重要。信 息获取与数据服务模块是m l i s p 系统的重要组成部分,它实现了信息获取子系 统的功能a 对信息获取系统而言,系统与用户间交互信息的表示方法是系统的关 键组成部分。而m l i s p 系统中各模块间的通信机制恰恰决定了这种信息的表示 方法,进而决定了信息获取与数据服务模块的内部设计及实现。因此,在具体介 绍信息获取及数据服务模块的研究与设计之前,有必要先对m l i s p 系统中各模 块间的通信机制进行简要介绍。 1 3 - 信息获取关键技术研究与应用 第三章m l i s p 系统中信息获取技术研究与应用 在m l i s p 系统中,所有模块之间的通信是通过一种被称为f r a m e 的数据结 构来完成的。其语法说明如图3 3 所示: 眵尹呸粤 cm a i n :u t t e r a n c e i d0 :d o m a i n ”t r a v e l ”) 趣篚篚 图3 - 3f r a m e 的语法结构 从上例中可以看出,一个f r a m c 结构由三个部分组成:类型( t y p e ) 、名称 ( n a m e ) 和若干值对。值对由关键字( k e y ) 和取值( v a l u e ) 两部分组成,其中 关键字( k e y ) 都是以“:”标记开头,它的取值( v a l u e ) 可以是整型、浮点型、 字符串型、f r a m e 类型等等。f l a m e 结构的类型( t y p e ) 在m l i s p 系统中往往取 c ,意思是子串( c l a u s e ) 。一个f r a m e 结构由“f ) ”作为分界符,类型( t y p e ) “c ”紧跟在“( ”后;然后是由空格符分界的名称( n a m e ) ,最后列举出若干组 关键字( k e y s ) 及其取值( v a l u e s ) 。用户输入的包含较完整信息的表达可以由自 然语言理解模块处理生成这种f r a m e 结构,这种f r a m e 结构也可以作为函数的参 数传递或者是生成的返回值。 各个模块之间通过特定的通信协议进行信息交互。m l i s p 系统中的通信协 议是基于“消息”的。我们把在各个模块之间传递的f r a m e 结构称为消息。中心 控制模块是整个系统的调配中心,它可以向其他的模块发送消息:从而实现各个 模块之间的消息传递。当其他模块收到中心控制模块的消息之后,通过调用该模 块内部的一种称为派发( d i s p a c h ) 的函数来进行响应。这种派发函数的功能就类 似与接口函数,区别在于接口函数可以直接按照函数名进行调用,而中心控制模 块和其他模块之间的这种调用是通过定的规则制定来完成的。具体地说,在中 心控制模块发出消息的f r a m e 名称中含有接收模块的地址信息和派发函数名,中 心控制模块根据地址信息将消息发送出去,相应地模块在收到中心控制模块的消 息后,将这个派发函数名与自己内部所支持的派发函数名相匹配,如果匹配到, 就用这个派发函数进行响应,如果没有匹配到,就继续等待下一次中心控制模块 的发送。 如下页图3 4 所示中,日期时间处理模块接收到的消息f r a m e 中,含有地址 1 4 堕:垦鏊塾差壁垫查婴窒量变量 整兰雯坚! 受! 墨竺! 焦璺茎里垫鲞里墨:! 盥旦 信息d a t e t i m e ,即中心控制裰块知道发送的媳址是舀期时间处理模块。派笈函 数名楚p a r s e d a t e t l m e 。基期对鲻处理模块在内部找到名为p a r s e d a t e t i m e 豹派发 函数,于是调用该函数,对中心控制模块进行响应。 中心控裁模块豫了塞够爨蔟缝摸羧发送镄惑,共鬟侯消惑鹣鼹径叛菸,本襄 还携带着一蠛简单的脚本文件,我们称这数脚本文件为中心控制稷序( h u b p r o g r a m s ) 。这鳖中心浚截程弹是密一系戴的瀚辩缀藏静,在这些蕊鬟| l 串指嗡了 派发溺数与模块之间的对应关系,派发函数被激活的顺序以及在什么条件下被激 活。 霉一”甜出”1 ,q 、 i ;矿, 奉蠹i 斌 g a l f r a m em 廊即盯g a i 一骨删e + e l v o i d + s e r v e r _ d a t a ) | 11 1 整3 - 4 中心控裁模决向箕他模块栽迸涟患 当中心控露模块收到一个新消息,它在蠢甚的中心控带稔_ 】葶中找弹,看是否 存在商名称与收到的消息瓤n e 名稼襁一致的中心控制程序。如果有裁将相对应 的程序激活,这称为“脚本响应”。如巢没有找到响威的中心控制程序,中心控 制模块就在其他摸块的派发函数孛我每,如果这个f r a m e 名称恰好与箕中一个貘 块的派发函数名相匹配,那么就将自融收到的这个消息直接转发给这个模块,遮 豁羹“ # 辫零穗应”。麓栗孛z 控割模块戆孛控裁纛廖帮菸稳模袭既溅发函数 都无法与这个收到的消息f r a m e 名称栩匹配。那么这个消息就被丢弃处理。 农下页餮3 - 5 所示斡磷子牵,信惑获取与数据服务模块肉中心控镱模头发送 - 1 5 信息获取关键技术研究与应用 第三章m l i s p 系统中信息获取技术研究与应用 一个名称是f r o m b a c k e n d 的消息,中心控制模块恰好在自己的中心控制程序中 找到名称是f r o m b a c k e n d 的程序。在它的规则定义中告诉中心控制模块,消息 名称是d a t e t i m e p a r s e d a t e t i m e 。即这个消息应该经由中心控制模块转发给日期 时间处理模块。 图3 5 其他模块向中心控制模块发送消息 下面如图3 - 6 所示,我们给出一个简单的消息序列,看消息是如何从一个模 块发出,经由中心控制模块转发到另一个模块的。 1 6 笪璺蔓墅薹塑垫蕊婴壅兰生翌 篓兰兰坚m ! ! 至堕! 堕璺塾壁热查堕墨! i ! 盟 p r o g r a m :f r o m b a c k e n d 数掘服务模 块 f cd a t e r i e p a r s e d a t e t i ) 、 鑫期时闯簸 耀模块 中心挖锚函数 牵心控籀搂 块 i f r a m ep 8 r s e o i t e t i m e ( g a l f r a m e $ f ; v o i d * s e r v e r d a t 鹭3 - 6 经由中心控裁模决螃瀵息转发 i | i 发函数 需要指出的是,鬣接从中心控青模块发漱的消息,扶其能模块发出到达中心 控制模块的消息,以及从其他模块发如经由中心控制模块转发劐另一个摸块的消 息在结构上都是完黛一样的,都是标准的f r a m e 结构,所不同的只是它们传递 嚣路缀黪不鄹。 3 2 信息获取号数据鼹务模块豹设嚣与实现 奥运会多语言智貔信息黢务平台( m l i s p ) 矮基巾粒壤惑获取与数据l 受务模 块为艇个信息平台提供后台数据支持,对来自系统( 通常是转发来自用户的请求) 戆数撂提取请求皴蹬霾痰。 项目所涉及的领域( 天气预报,公交线路,体育赛事,旅游餐饮) 对后台数据 有摄篱瓣要求。天气鞭擐、体育赛攀掰需要数据豹特点是兵肖很高的受薪频发, 用户对数据的实时性荫很高的要求,另外体鬻赛事等相关领域同时要求数据的准 确无谟性。公交线路及旅游餐饮是兔了解决麓户对就餐,住宿,闻路筹的查询要 求,对数据礁确性同榉具有缀离豹要求。除此之夕 ,只有对掰青用户舱请求做出 快速殿时的威映,才能有效的满足用户需求。 t 7 信息获取关键技术研究卑应用 第三章m l i s p 幕统中催惠获取技术碰究与盥用 扶项瓣涉及静不阍鞭域来看,楚个系统对后台数攒源的分布及数据的获取不 能采敬革一豹蒙磷。掰竣,整曩、僖怠源的褥威努为两个夫鹣部分:本她静静态数 据库( l o c a ld a t ab a s e s ) 以及通过d a p 数据获取协议( d a m a e r :e s s i n gp r o t o c 0 1 ) 获褥静动态数掂。这赎动态静数攒主器努蠢巍w w w ,奥缀羹魏数据中心( 魄翔 体育褰事数据中心) 及一燎分布式黔数据潦。动态的数握髓够为鼹户提供受精频 度较抉豹天气颡缀等薅惠,满是斑掰在特定颂器领域豹矮户瓣数据窳时魅熬要 裘。蕊静态懿数摄痒龛够钤对溺户的要求,瓣予一些对萎赣颥发要黎不裹麴数握 馕患妖速效辩缝 蔽壅爱获,撵离了稿斑辩淹。 3 。2 。 馕憩凝取弩数撼l 努横穗魏瓣攒劈辑 襄运会多语言黉糍信息簸务乎卺( m l l 辨) 顼塞提供绘鼹户一令絮憩入钒交 曼系绫,这个系统簧簧考书富的数据楼息采支持,方糖镘好懿弱黪雳声提蹬款诸 多方鬻懿多耪翊嚣。人饲褒实琢对话孛,鞫题繇涉及菠曩鑫嚣鬻广,然瑟律为一 拿实黼豹鬃绕,我熟不可旋全部帮撬供套港黢务。鏊懿餐熊久撬交互系统辑涉及 斡镶壤舂天气繇嘏、旅游餐後、公交绫潞、体育赛攀阏个方瑟。 下面分别裁这几个领域介绍下潞求。 l 、天气颧报 对于天气颚糕领域,结台人织鲍毽鬻习惯,谖计出鼹秘瓣答形式: 1 ) 弼产挺润:辩阉+ 蠢蛰点+ “哭气磐爨”? - 蘧餐;炎气媾嚣。 穰麴:熏户提阕:今天j 寨麴天气怒么撵? 强签;戆转多兹。 2 ) 麓户撼阀:辩阊十天气信患+ “舔爨”? 审滔答:舞骜点名。 鞠翻:弼户提溺:秘天粥些媲方会下雨? 潮答:上海、憩索。 2 、旅游餐饮 旅游类能静淘耱方式襄: 1 ) 用户提闻:隧县七风轰类g q + “霄鸡”? 鞠答:指定区矮晦掺蹙 溅轰类剩麴旅游疑点毫。 铡翔:鼹户撬阚:嚣城嚣骞侍么公漾? 圈答:l 海公霾。 2 ) 耀户提霹:最熹名+ “奔缮下”? 寺醋警:该豢赢鹃稻关信惠。 1 3 堕璺垫塾叁壁垫苎缝塑皇生墨 璺兰皇坠! 墼墨竺生堡墨茎里i 塞签! 翌:! i ! i 恩 例如:用户掇闻:介绍一下中国科技馆。强答:中国科技馆是t 艇饮类可能的问镣方式鸯: 1 ) 用户提问:区县+ 菜系+ “膏吗”7 回答:指定曛县内指定菜系 豹餐镶磐称。 例如:海淀医有什么川菜馆? 回铸:。 2 ) 矮产箍阔:麓鍪十日溱+ “蠢鹚”? p 回答:指定区叠内指定日味 的餐馆名称。 例如:海淀区肖什么口味辛辣的菜馆7 回替: 3 ) 用户提问:餐馆名+ “介缨一下”? 回答:该餐馆的相必信息。 例如:用户搬问:介绍一下稻香酒家。- ,回答:稻祷酒家愚。 3 、公交绂黪 公交线路类查询主要包括车次信息和换乘信息,w 能的问答方式有: 1 露户糖滴:“奁一下”+ 车次+ “的车次倍患”嚣答裾应车次信息。 例如:用户撮问:查一下l 路的车次信息。回答;线路l :f 马官慧 一龉惠站】 首车5 ;0 0 】 路线:马富彗八王坟四惠站】 2 ) 用户提闻:零站名称+ “到”+ 车站名称+ “怎么走? ” 翻荟换乘路 线。 锲熟:嗣户提润:从爨建挺魏瀵华蟊怎么走? 嚣答:鹱毙耪象3 7 57 2 2 7 3 2 支7 4 37 4 9 到清华园。 霹、体弯赛攀 体育赛事包括运动员( 队

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论