(计算机应用技术专业论文)数据库多语种自然语言接口的设计和实现.pdf_第1页
(计算机应用技术专业论文)数据库多语种自然语言接口的设计和实现.pdf_第2页
(计算机应用技术专业论文)数据库多语种自然语言接口的设计和实现.pdf_第3页
(计算机应用技术专业论文)数据库多语种自然语言接口的设计和实现.pdf_第4页
(计算机应用技术专业论文)数据库多语种自然语言接口的设计和实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)数据库多语种自然语言接口的设计和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库多语种自然语言接口的设计和实现 摘要 l f 信息抽取技术研究如何从半结构化或非结构化的自然语言文本 、 中抽取出表达特定信息的文本片断,并转换成结构化的数据存储到数 据库中。多语种信息抽取系统研究从不同语种的自然语言文本中抽取 信息的方法,目标是实现跨语种的信息检索。数据库自然语言接口让 用户可以直接使用自然语言来查询数据库的数据,具有自然、方便的 优点。在多语种信息抽取系统中提供自然语言接口可以让用户真正实 现跨语种的信息检索,使用不同语言的用户可以用自己熟悉的语言来 表达查询需求。这样的自然语言接口不仅可以在多语种信息抽取系统 中发挥作用,也可以应用到许多其它的方面,因此多语种自然语言接 口的研究具有重要的应用价值。 在深入分析自然语言接口的技术难点和现有三种主要的自然语 言接口构造技术的基础上,结合多语种信息抽取系统的特殊要求,本 文提出基于实例的数据库自然语言接口模型。该模型采用机器学习算 法中基于实例推理的思想,将预定义的查询句型及相应的数据库查询 命令作为实例存储在实例库中,对用户查询是通过表层的匹配来确定 , 查询意图,避免了对每种查询语言进行复杂的深层语法语义分析。f 实 、 例采用可扩展标注语言x m l 来表示,实例库是一个有效的x m l 文 档。充分利用x m l 的优点和成熟的工具,使实例库具有很好的可维 i _ _ _ _ - _ _ _ _ - _ - 一 硕士学位论文 护性和扩展性。 万 在基于实例的多语种自然语言接口模型的基础上,本文详细描述 了一个股市领域信息抽取系统的多语种自然语言接口的设计和实现。 , ( 首先是实例库s c h e m a 的设计和领域语义词典的构造,设计了利用有 限状态技术来进行浅层标注和纠正汉语自动分词系统的切分错误的 查询旬预处理模块。为了加快匹配,对实例库中的词汇进行倒排索引, 文中提出和实现了具体的倒排索引算法,以及利用模糊字符串匹配思 想来进行查询旬和实例问题的相似度计算的算法。最后总结了本模型 的优点、不足,提出了进一步的改进和完善的方向。、) 彩 关键词数据库自然语言接口,多语种自然语言处理,信息抽取, 墨于实例的n l l 呸。二, i i 硕士学位论文 m i 玎t i l i n g u a ln a t i 瓜ai ,l a n g u a g e i n t e r f a c ef o r d a t a b a s e , d e s i g na n di l 讧p l e n ! n t a t l 0 n a b s t r a c t i n f o r m a t i o n e x t r a c t i o n ( i e ) s y s t e m sa n a l y z e u n r e s t r i c t e dn a t u r a l l a n g u a g et e x ti no r d e rt oe x t r a c tr e l e v a n ti n f o r m a t i o na n dt r a n s f o r mt h e i n f o r m a t i o ni n t os t r u c t u r e dd a t af o rs u b s e q u e n te x p l o i t a t i o n m u l t i l i n g u a l i e s y s t e m s e x t r a c ti n f o r m a t i o nf r o mt e x ti nd i f f e r e n t l a n g u a g e st h u s e n a b l ec r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l n a t u r a l l a n g u a g ei n t e r f a c e f o rd a t a b a s e ( n l i d b ) a l l o w su s e r st o p o s tq u e r yi nn a t u r a ll a n g u a g e s e n t e n c e i n t e g r a t i n gm u l t i l i n g u a ln l i d bi n t oi es y s t e mw i l l g r e a t l y f a c i l i t a t ec r o s s l a n g u a g ei n f o r m a t i o n a c c e s s i n g a n dm u l t i l i n g u a ln l i d b c a na l s ob e a p p l i e dt om a n yo t h e rs c e n a r i o s ,s om u l t i l i n g u a ln l i d b d e s e r v e si t so w n r i g h tt or e s e a r c h b a s e do nt h e i n - d e p t ha n a l y s i s o fn l i d b sm a i nt e c h n i q u e sa n d c o m p a r i s o no ft h r e em a i n s t r e a mm e t h o d o l o g i e so fb u i l d i n gn l i d b ,i p r e s e n t e dac a s e - b a s e dn l i d ba r c h i t e c t u r e ,w h i c hi sm o t i v a t e db yt h e i d e ao fc a s e - b a s e d r e a s o n i n g i nm a c h i n e l e a r n i n g t h e a r c h i t e c t u r e b y p a s s e s t h e d i f f i c u l t i e so f c o n s t r u c t i n gp a r s e r s f o ra l li n t e n d e d i i i _ _ _ _ _ _ - - _ - 一 堡主堂堡笙苎 s u p p o r t i n g n a t u r a l l a n g u a g e sb ys t o r i n ge v e r yq u e r yp a t t e r n a n di t s s o l u t i o na sac a s ei n t oac a s e b a s e q u e r ys e n t e n c ei n p u g e db yu s e ri s s y n t a c t i c a l l yc o m p a r e d t oc a s e si nt h ec a s e b a s ea n dt h es o l u t i o no ft h e m o s ts i m i l a rc a s ei sr e u s e dt o q u e r y t h ed a t a b a s e e a c h c a s ei s r e p r e s e n t e da sax m l d o c u m e n tf r a g m e n ta n dt h ec a s e b a s ei s f lv a l i d x m ld o c u m e n t a l lt h ef a c i l i t i e sp r o v i d e db yx m l g r e a t l ye n h a n c e dt h e m a i n t a i n a b i l i t ya n ds c a l a b i l i t yo f t h e a r c h i t e c t u r e i p r o v i d e d ad e t a i l e d d e s c r i p t i o n o ft h e i m p l e m e n t a t i o n o fa m u l t i l i n g u a ln l i d b f r o n t - e n df o ras t o c km a r k e ti n f o r m a t i o ne x t r a c t i o n s y s t e m f i r s t ii n t r o d u c e dt h ex m ls c h e m ao fc a s e b a s ea n dt h e c o n s t r u c t i o no fd o m a i n d i c t i o n a r y , t h e nid e s c r i b e dh o w t ou s ef i n i t e s t a t e t e c h n o l o g yt op r e p r o c e s sq u e r ys e n t e n c ea n dt o c o r r e c ts o m em i s t a k e s m a d eb yf lc h i n e s es e g m e n t a t i o n s o t t w a r e f i n a l l y if o c u s e do nt h e i n d e x i n go f c a s e b a s ea n dh o wt od e t e r m i n es i m i l a r i t yb e t w e e nt h eq u e r y s e n t e n c ea n dac a s eu s i n ga p p r o x i m a t es t r i n gm a t c h i n ga l g o r i t h m k e yw o r d sn a t u r a ll a n g u a g ei n t e r f a c ef o rd a t a b a s e ( n l i d b ) , m u l t i l i n g u a l n a t u r a l l a n g u a g ep r o c e s s i n g ,i n f o r m a t i o n e x t r a c t i o n , c a s e b a s e dn l i d b 硕士学位论文 第一章研究背景 1 1 信息抽取与自然语言处理技术 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 是指通过分析不受限的各种文本来 获取有关事件、实体、关系等特定信息的技术【1 】。这里所说的不受限文本指各种 形式的半结构化、非结构化文本,特别是自然语言文本。所获取的信息通常存储 到数据库中,以提供进一步的综合、分析和查询等服务,这样就避免了人们仅仅 为了获取某些感兴趣的信息而不得不通篇阅读许多文档的负担。这在信息技术快 速发展,信息量日益丰富的今天无疑是有极大应用价值的技术。例如,有如下一 段自然语言文本( 来自上海证券交易所网站h t t p :w w w s s e t o m c n ) : ( 6 0 0 15 5 ) “宝硕股份”、( 6 0 0 8 4 6 ) “同济科技”因刊登股权转让公告,9 月1 4 日上午停牌半天。( 6 0 0 70 7 ) “彩虹股份”因刊登董事会公告,9 月 1 4 日上午停牌半天 经过信息抽取,可得到以下结构化的有关股票停牌的信息: 表卜i信息抽取的一个实例 股票代码股票名称停牌原因停牌日期停牌时间 6 0 0 15 5宝硕股份刊登股权转让公告9 月1 4 日半天 6 0 0 8 4 6同济科技刊登股权转让公告9 月1 4 日 半天 6 0 0 7 0 7 彩虹股份刊登董事会公告9 月1 4 日 半天 以上经过抽取得到的结构化信息可以存储在关系数据库或x m l 数据库中,在 此基础上可以进一步完成信息检索( i n f o r m a t i o nr e t r i e v a l ) 、数据挖掘( d a t a m i n i n g ) 、文本生成( t e x tg e n e r a t i o n ) 等后续信息处理。 在信息抽取系统中广泛地采用了各种自然语言处理技术。自然语言是指人类 日常交流所使用的语言,如汉语、英语等,它是相对于人工语言( 如各种程序设 计语言) 而言的。自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 从广义来 说是指利用计算机来处理自然语言的音、字、词、句、篇章的各种技术,包括输 入输出、识别、分析、理解、生成等n ,。信息抽取系统中主要是对被抽取的自然 语言文本进行字、词、句、篇章各个层次进行分析,如对英语的词作形态分析、 汉语的分词、句子中词和短语的句法功能( p a r to fs p e e c h ,p o s ) 标注、句子的 结构和语义分析、指代关系的消解、文本的自动分类、篇章结构的分析等等。所 使用的方法主要有模式匹配、规则系统和统计方法。 信息抽取系统非常依赖于自然语言处理技术,实际上信息抽取技术的研究也 已经有二十年的历史,由于近年来自然语言处理技术的快速发展使得信息抽取技 硕士学位论文 术的实用化成为可能。信息抽取技术也可以应用到自然语言处理中去。信息抽取 和自然语言处理技术是不断相互促进、相互组合的,双方的成果都可为对方利用。 实际上信息抽取从广义来说也是自然语言处理技术的一部分。因此研究信息抽取 技术不但有直接的应用价值,同时也可以为自然语言处理技术提供新的思路和方 法。 1 2 研究现状和应用前景 信息抽取技术是当前的热门研究方向,相关的研究机构很多,学术会议也很 频繁,也开发出一些原型系统。这里举一些有代表性的会议和系统: 重要会议: m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ( m u c ) 是一个由美国政府资助的、为推动 i e 技术发展的重要的系列工程,迄今为止已经举办了七届。m u c 采用竞赛的方 式,每一届都提供标准的语料,并定义了各种不同的子任务来对参赛的信息抽取 系统进行评估,其难度也是越来越大。m u c 吸引了全世界越来越多的研究机构 参加。1 9 9 8 年的m u c - 7 0 1 是最近的一次m u c 。它的信息抽取任务涉及抽取文档中 的专名( 人名、组织名和地点名) 、同指项;确定模板元素之间的关系,如地点 关系、雇佣关系和生产关系等:抽取文档中的事件。文档包含多语种的新闻稿。 训练用的文档专业领域是关于飞机坠毁报道,而测试用的文档专业领域是关于发 射事件报道。 软件和系统: 1 、f a s t u s 系统( f i n i t es t a t ea u t o m a t o nt e x tu n d e r s t a n d i n gs y s t e m ) 是美国加里福尼亚斯坦福研究所人工智能中心开发的一个基于多层、非 确定有限状态自动机模型的自然语言文本信息抽取系统【4 j 。它共有六层 转换机制,即:切分标注层、预处理层、专名识别层、简单短语识别层、 复杂短语识别层、同指消解层。分解的语言处理使此系统能够处理大量 的与专业领域无关的句法结构,与专业领域相关的语义和语用处理能被 应用到相当大部分的语言结构上。 2 、s m e s 系统。由德国人工智能研究中心语言技术实验室开发的s m e s ( s a a r b r n c k e ni n f o r m a t i o ne x t r a c t i o ns y s t e m ) 系统是一个联机的德 语文档信息抽取系统。s m e s 系统拥有大量的语言知识资源和快速鲁棒的 自然语言构件。它还能利用机器学习机制使自身能为实现新功能得至j j i ) j j 练和配置,并能适应所需的信息数量和各种文档长度。s m e s 作为一个有 效的智能信息检索的核心系统已经成功地运用于科学和工业项目中。 3 、e x i b u m 系统。加拿大蒙特利尔大学开发的英法双语信息抽取系统。包 括语言检测模块、甸子过滤模块、英语和法语的词法语法语义分析模块、 模板填充模块。其中句子过滤模块从文本中提取出含有相关信息的句子。 该系统现在用于从w w w 上的新闻文本中抽取恐怖事件的报导。 4 、m s a l i e 系统。英国s h e f f i e l d 大学自然语言处理研究组在英语信息抽取 系统s a m e 的基础上开发的英法双语信息抽取原型系统。其特点是通过 两遍分析将句子转换成谓词一主目形式的准逻辑式( q u a s i l o g i c a lf o r m , 硕士学位论文 q l f ) ,然后将q l f 加到领域语义网络中,在该语义网络中进行同指消解, 最后得到一个所处理文本的篇章模型。句子分析所依据的语法规则是语 种相关的,而分析算法和最后得到的篇章模型是语种无关的。然后再根 据该篇章模型进行模板填充,得到抽取结果。 发展趋势: 1 、在抽取内容方面,由单语种向多语种发展;由简单的领域实体抽取向实 体的属性和实体间关系、事件的抽取发展。 2 、在抽取方法方面,由单一的基于规则的系统向结合机器学习和统计方法 的多策略系统发展;由表层的、句子级的语言处理向深层的、篇章级的 语言处理发展。 3 、在实际应用方面,由早期的理论研究和技术探讨逐渐向实际应用系统的 开发发展。 应用前景: 信息抽取技术的应用前景可分为两方面: 1 、直接的应用。将散布在自然语言文档中的信息抽取抽取出来,形成结构 化的数据,存入到数据库中,提供查询服务,帮助用户从大量的文本中 迅速发掘感兴趣的信息。而且形成结构化数据后可进行趋势分析等数据 挖掘工作,这是大量的原始文档集合所不能提供的。这些也是信息抽取 技术最初发展的动因。随着互联网上用各种自然语言发布的信息越来越 多,这方面的需求必然会迅速增长。因此信息抽取技术有着很好的实际 应用前景。 2 、对自然语言处理技术的帮助。如前所述,信息抽取需要利用n l p 技术的 成果,但是作为一种广义上的n l p 技术,也可以应用到其它n l p 技术 中去。例如,在文本分类中,先对文本进行信息抽取,抽取出文本中关 键的领域词汇、短语,然后利用这些词汇和短语作为文档的索引项,帮 助决定文档所属的类别口】。类似思想也可以应用到自动文摘系统中【6 j 。在 多语种信息抽取系统中,可以利用文本生成技术( n a t u r a ll a n g u a g e g e n e r a t i o n ,n l 将i e 系统从莱一语种的文本中抽取得到的信息生成另 外一个语种的文本,由此可以实现跨语种的信息获取( c r o s s l a n g u a g e i n f o r m a t i o nr e t r i e v a l ,c l i r ) ,这也是一种有限领域的自动翻译技术。这 也是在下个小节介绍的我们研究的多语种信息抽取系统的主要思想之 一。随着信息抽取技术和n l p 技术的不断发展,信息抽取技术必然会在 n l p 技术中找到更多的用武之地。 1 3 项目背景一多语种信息抽取系统 我们在吸取国外最新研究成果的基础上,和德国人工智能研究中- t :, ( d f k i ) 合作研究的“基于信息抽取和文本生成的多语种信息检索模型”是一个多语种信 息抽取系统,目标为建立一个面向中、英、德三种语种并具有良好的语种可扩充 性和领域移植性的特定领域信息抽取和检索模型。目前选定的领域是股市公告信 硕士学位论文 息,我们负责中文部分的工作,主要是对上海证券交易所发布的不同公告信息进 行信息抽取。整个系统的基本模型如图1 i 所示。 图1 - 1 多语种信息抽取与检索检索模型 f i g l 一1f r a m e w o r ko f m u l t i l i n g u a li n f o r m a t i o ne x t r a c t i o na n d r e t r i e v a ls y s t e mm o d e l 图1 1 中,各模块的功能分别叙述如下: 预处理模块: 根据语种、文档内容和格式等因素,预处理模块的功能有多有少。图l 一1 中 只是一个概括性的表示,实际上可能包括许多功能不同的子模块。有语种检测模 块,检测源文档所使用的语言;有与语种相关的词汇、词法处理模块,如中文文 档的分词、英文德文的词法分析等;还有常识标注模块( c o m m o n s e n s e t a g g i n g ) , 根据规则将源文档中出现的日期、时间、数字、称谓标注出来,这些信息对i e 系统来说往往是关键的。所有这些子模块都是相互独立的功能模块,可以方便灵 活地重用。根据不同的需要将这些子模块以流水线的方式组合起来。 文档分类模块: 文档分类模块的作用是根据预定义的主题类别层次和所处理文档的实际内 硕士学位论文 容,判断文档所属的主题类别,在实际的i e 系统中,即使在一个固定的领域中, 所感兴趣的信息一般也有好几种。例如在股市领域中,所发布公告的内容有可能 是关于公司管理人员变动,或股票因故停牌,或股东大会的决议公告等等类别。 通过文档分类模块将文档按主题预先分类,后续的信息抽取模块就可以选取相应 主题对应的分析文法、抽取规则和填充模板来对文档进行分析和抽取。这样处理 的好处是简化了信息抽取模块的复杂性,降低抽取规则间发生冲突的概率,有助 于提高抽取的准确率。 信息抽取模块: 信息抽取技术大体来说可以分为两类:基于知识工程的方法和基于训练的方 法。基于知识工程的方法需要系统开发者和领域的专家一起手工标注和分析领域 里的典型文本,从中发现具体的抽取模式和规则,总结典型文法,在此基础上构 造i e 系统。基于训练的方法则是采用机器学习或统计的方法从语料中发掘隐式 的抽取规则。这两种方法不能说孰优孰劣,而是各有利弊,适应于不同的场合。 关于这两种方法的具体比较可参见1 7 】。我们已经在原型系统s b i e s 中分别实现 了,一个是基于手工构造规则的【8 j ,另外一个基于隐马尔可夫模型( h i d e m a r k o v m o d e l ,h m m ) ,下一步准备对这两种方法进行比较,研究这结合两种方法的 抽取模型,希望藉此来提高i e 系统的性能。 信息库: 信息库中存放从信息抽取模块抽取得到的信息。除了存放源文档中直接抽取 出来的语言片断( l a n g u a g ef r a g m e n t ) 5 b ,还根据应用领域的本体结构( o n t o l o g y , 领域的实体和事件的属性、关系构成的语义层次网络) ,将抽取的语言片断转换 成语种独立的语义码,存入到信息库中。然后可以转换成其它语言,实现跨语种 的信息检索。具体信息库的组织采用关系数据库和x m l 数据库两种形式。 自然语言接口模块: 从自然语言文本中抽取得到信息存放在信息库中,自然需要提供一个界面给 用户进行查询。除了提供常规的基于图形界面的查询接口外,我们还提供自然语 言接口( n a t u r a l l a n g u a g e i n t e r f a c e ,n l i ) ,用户可以用自己熟悉的自然语言提出 查询。在许多情况下,使用自然语言与系统交互更为快捷方便,也更为自然,易 被用户接受。另外,自然语言接口和语音处理技术的结合还可以应用到诸如各种 电话查询系统中去。因此自然语言接口模型的研究除了在i e 系统有直接的应用 外,本身也具有广阔的应用前景。自然语言接口模块的设计和实现是本文的主要 内容。 1 4 本文的工作 本文的研究目标是建立一个多语种的自然语言界面( m u l t i l i n g u a ln a t u r a l l a n g u a g ei n t e r f a c e ,m l - n l i d b ) 的模型,并使用这个模型为上节介绍的股市信 息抽取系统构造一个自然语言查询接口,使用户可以使用不同语种的受限自然语 言对信息库进行查询。 硕士学位论文 所建立的模型应具有以下主要特征: 面向实际应用,应该具有容易开发和部署的特点。 模块化的设计。通过对语言资源模块和控制模块的良好划分和封装,使 m l n l i d b 模型具有较强的语种独立性,便于扩展。 可移植性。包括跨应用领域的移植和不同数据库系统问的移植。 本文的完成的工作主要有: 详细介绍了数据库自然语言接口技术的优缺点,总结了三种自然语言接口实 现技术:直接映射技术、文法规则技术、机器学习技术,并从多方面深入分 析和比较了这三种方法的优缺点、适用范围。 在上面分析的基础上,提出了基于实例的多语种自然语言接口模型 ( c a s e - b a s e dm u l t “i n g u a ln l i ) 。用x m l 来描述自然语言接口的查询实例, 实现了语种无关性。该方法具有很好的扩展性。无论是增加新的查询语言、 向新的领域移植、或是底层信息库的类型、结构发生变化,系统都只需要作 很少的改动。该模型适应于快速构造应用系统。 在此模型的基础上,初步实现了一个股市信息自然语言查询接口。实现了查 询接口中实例库的索引算法、查询旬和实例的相似性比较算法和实例重用算 法。 1 5 本文的构成 正文共分为五苹。 第一章即本章主要介绍信息抽取技术的定义、信息抽取技术和自然语言处理 技术的关系、i e 的应用和研究现状。并介绍了“基于信息抽取和文本生成的多 语种信息检索模型”,使读者了解本文的研究背景。最后简单介绍了本文的工作, 对文章的组织进行了叙述。 第二章介绍什么是数据库自然语言接口及其分类;分析了自然语言接口的主 要技术,包括查询旬的分析、省略和指代的处理、对话模型、响应生成等。并介 绍自然语言接口的研究现状和应用情况。最后详细阐述了对自然语言接口技术现 状的一些思考。对自然语言接口的目标应用领域和前景提出了个人观点,分析了 各种主要的查询旬分析技术的优缺点。 第三章首先分析了我们研究的多语种信息抽取系统对自然语言接口模块提 出的新要求,在此基础上提出了基于实例的自然语言接口模型,介绍了该模型的 基本思想。然后说明该模型的技术背景,包括基于实例的推理( c a s e b a s e d r e a s o n i n g ,c b r ) ,扩展标注语言( e x t e n d e dm a r k u pl a n g u a g e ,x m l ) 。说明使用 x m l 文档作为实例存放形式的优点。 第四章介绍了基于实例的多语种自然语言接口的在股市信息抽取系统中的 具体设计与实现。首先介绍了系统的组织结构和模块划分,并对模块之间的接口 明确定义;详细介绍了实例库的设计、领域词典的构造,查询句预处理技术、实 例库的索引技术、实例的匹配和重用算法。 第五章是总结与展望,对本文所做工作进行总结,分析了本文提出的基于实 例的多语种自然语言接口模型的优缺点,说明进一步的完善和改进的方向。 硕士学位论文 第二章数据库自然语言接口技术综述 自然语言接口( n a t u r a ll a n g u a g ei n t e r f a c e ,n l i ) 是一种人机交互的方式。通过 n l i ,人们可以使用自己熟悉的自然语言与计算机系统进行交互 1 。从计算机刚 刚发明不久,人们就一直致力于开发与改善与计算机的交流方式。其中让用户能 够使用自然语言来操作计算机一直是研究者们不懈追求的理想。而数据库的自然 语言接口( n a t u r a l l a n g u a g e i n t e r f a c e f o r d a t a b a s e ,n l i d b ) 就是n l i 的一个具体应 用。本章是对数据库自然语言接口的概念、问题、方法、应用范围和前景的综述。 第一节介绍n l i d b 及其优缺点和适用场合,给出n l i d b 的一个一般化模型;第 二节首先根据实现方法来对n l i d b 进行分类,分析各方法的特点。接着介绍 n l i d b 系统的主要技术和难点,包括查询旬分析、省略和指代的处理、对话模 型、响应生成等。第三节介绍当前几个典型的n l i d b 系统。第四节是对n l i d b 现状的思考,分析其应用前景。 2 1n l l d b 简介 21 1 什么是n l i d b n l i d b 简而言之就是让用户使用自然语言来操作数据库,让我们来看一个股 市领域的例子,假如信息抽取系统抽取得到的信息存放在信息库中,那么用户可 以通过自然语言接口用以下的方式和查询信息库:( 我们用斜体表示用户输入, 粗体表示n l i d b 系统的响应) 在用户用自然语言输入查询要求后,n l i d b 对查询旬进行分析,明确用户 的查询意图,根据信息库的要求将查询句转化成相应的形式化操作语言,如s q l 等,向信息库提交查询请求。然后将查询结果或直接或转换成其它格式输出。 n l i d b 的研究有很长的历史,可追溯到上个世纪六十年代。其发展历程也 是相当曲折的。在七八十年代由于人们对自然语言接口的应用前景非常乐观,而 对其技术难度又估计不足,当时研究热情很高。甚至有人预言“到1 9 8 7 年自然 语言接口将成为数据库管理系统和其它信息管理系统的一个标准选项”。但是由 于图形界面方式的快速发展,加上n l i d b 本身的发展并不尽如人意,随着研究 的深入碰到许多问题,因此n l i d b 的研究在九十年代就冷了下来,尽管其间有 一些小规模的商业n l i d b 软件出现。但随着互联网的快速发展,出现了许多在 9 硕士学位论文 线数据库,以及其它相关技术如语音识别技术的逐渐成熟,出现了很多新的需求 于是n l i d b 技术又重新引起研究者的注意。 2 1 2 一般化模型 整个n l i d b 系统从概念上来说,可以分为三大部分:第一部分是查询分析 模块,完成从自然语言查询旬到数据库操作语句的映射。第二部分是响应生成模 块,完成从查询结果到实际响应的映射;第三部分是对话管理模块,负责根据对 话模型,帮助查询分析模块进行指代和省略的推理和歧义消解,同时帮助响应生 成模块生成自然合适的响应。因此可以用图2 1 表示n l i d b 的一般化模型。 图2 - 1n l i d b 的一般化模型 f i 9 2 - 1a g e n e r a l f r a m e w o r k o f n l i d b 查询模块对查询旬的分析方法有许多种,从简单的模式匹配到根据语法规则 和领域知识进行复杂的句法语义分析。n l i d b 的研究重点一直也是这一部分, 即研究如何高效快速地分析查询句,准确地理解用户意图,生成正确的数据库操 作命令。本文主要研究这一部分。 对响应生成模块的研究目前比较少。考虑到查询结果的内容和格式不一定直 接提供给用户,可能要根据用户的设备和特殊情况进行过滤和转换。像如果用户 是通过电话与n l i d b 交互,则需要将查询结果用t t s 技术生成语音响应。另外, 某些信息库里存放的不是直接的信息内容,而是信息内容的语义表示,同样需要 转换成用户能理解的表示方式,因此响应生成也是n l l l 9 b 的一个重要部分。 对话管理模块负责维护对话模型,根据用户当前会话的上下文,对查询句分 析时出现的歧义、指代和省略现象进行处理。另外在响应生成模块也要参考对话 模型确定用户已知的事实,由此可以生成更自然的回答。 21 3 优缺点分析 目前的n l i d b 主要存在以下优缺点 硕士学位论文 优点: 1 、自然方便,用户友好。这是自然语言接口最吸引人们的地方。使用 n l i d b ,用户只需要很少的培训就很容易上手。计算机稍稍具有了“人 情味”,人们与系统的交互也更加自然,“机器感”也大大减少。这样可 以增加用户使用系统的兴趣,减少疲劳和枯燥感。 2 、采用对话模型( d i s c o u r s em o d e l ) ,可以处理简单的指代和省略。考虑下面 一个对话场景: 在上面的对话中,用户的第二次查询句出现了指代( 这里面) 和省略( 连 续四天什么? ) 现象。为了处理这些问题,n l i d b 为用户的一次交互过 程建立一个对话模型,采用对话管理技术,记住当前会话的上下文,从 中推理出查询句的指代对象和省略内容。这样可以大大方便用户,使交 互更加自然方便。用户通过图形菜单界面是很难提出这样的查询要求, 实现对话管理功能的。 3 、在某些特殊场合自然语言比其它方式更加适合,甚至可能是唯一可行的 方式。比如在手持设备的w a p 应用中,一般典型的手持设备的可视范围 有限,如果在上面设置许多图形按钮和菜单,本来有限的空间就更显紧 张了。如果将菜单分级,用户每次都需一级一级往下才能选到所需功能。 这时候如果能通过语音接口输入自然语言命令则是非常方便的。 缺点: 1 、语言覆盖面不明显,用户很难对系统的语言能力做出准确的判断1 1 1 1o 由 于自然语言的复杂性,n l i d b 系统不可能做到覆盖所有的语言现象,包 括所有的句型、词汇等。而是只能提供有限的查询句型和词汇。用户往 往会用超出系统语言范畴的句子进行提问,于是会被系统拒绝,这时候 用户可能尝试使用另外一个句型,这样反复会很快导致用户烦躁,对系 统产生排斥心理。 2 、有些场合输入整个自然语言查询旬显得非常繁琐,不如其它方式简便。 例如,若通过键盘输入,如果每次为了提交一个简单的查询也要输入长 长的一个句子,用户会很快觉得厌烦,不乐意使用。 3 、开发、部署和维护很麻烦,成本也很高。开发和部署n l i d b 必须获取大 量知识,包括语言知识、应用领域的本体知识,数据库的结构知识等。 如果不能提供自动化半或自动化的知识获取辅助工具,知识获取的成本 是很高的,造成所谓的“知识获取瓶颈”。系统在投入使用后维护起来也 是相当困难的,如果底层数据库的结构发生变化,或者应用领域的内容 有增减变化,或者希望提供新的查询语言,这些都往往需要重新开发部 署整个n l i d b 系统。 硕士学位论文 2 2 关键技术问题 由于n l i d b 处理的是自然语言查询旬,因此几乎所有自然语言处理( n a t u r a l l a n g u a g ep r o c e s s i n g ,n l p ) 系统遇到的问题,n l i d b 也会遇到。最主要的技术 问题还是语言处理方面的问题。包括词汇的处理、句法结构和语义分析等。另外 还有未登录词的处理、查询句中的指代和省略处理、查询旬的超语法现象等。不 同结构的n l i d b 系统处理这些问题的思想各有不同,有的是想办法绕过,有的 是手工定义许多规则来处理,有的是利用机器学习的方法,有的干脆就不处理。 即使是同一种结构的n l i d b 系统,内部具体的处理方法也各有千秋。在下一节 讨论n l i d b 的分类时将作详细分析。现在具体来看一下这些技术问题。 2 ,2 1 词法处理 每个自然语言接口系统,都必须有一部词典,根据系统的需要,里面记录着 词汇的各种信息。包括词汇的语法信息,如词类、搭配能力,还有词汇在应用领 域里的语义信息,如某个词汇表示领域里某一类实体,对应到数据库的某个字段 等。这些信息对正确地将查询句映射到数据库操作命令是必不可少的。 词法处理是指根据词典和其它语言知识对查询旬在词汇一级的处理。例如对 词汇的词形分析,例如英语的h e 这个词,通过词形分析会得到如下信息 原形: h e :人称:第三人称:单数 ,而d o e s 则得到 原形:d o :人称:第三人称:单数 , 这些静态的信息一般通过查词典就可以得到。有的词法处理模块还把查询旬里的 每个词汇都标注上词类( p a r to fs p e e c ht a g g i n g ) 。句法分析模块可利用这些信息 来判断句子间词汇搭配的合法性和构造句子的语法分析树。对英语和德语之类的 西方语种,词形的分析已经比较成熟,有各种成熟的算法,词类的标注准确率也 达到实用的程度。因此在词法处理这一级n l i d b 处理西方语言遇到的问题比较 少。汉语相对西方语言来说基本上没有词形的屈折变化,不需要复杂的词形分析。 但是汉语有自己独特的问题:分词。由于汉语文本是连写的,词汇之间不像西方 语言那样有空格分开,因此正确地切分句子就成了几乎所有汉语自然语言处理系 统的第一步。由于汉语重意合不重形合的特点,汉字的组合特别灵活随意,造成 的组合可能性非常大。即使是对一个短短的查询句来说,其切分可能性也是很多 种的。如果查询旬切分出现错误,后面是不可能正确分析出用户的查询意图来的。 这里不打算详细地讨论汉语文本的切分问题,因为有许多文献专门对这个问题进 行了研究“,汉语切分也不是本文重点所在。这里只是想说明一点:我们可以针 对n l i d b 总是用在特定领域、所使用语言只是汉语的子集的特点,在通用分词 软件的基础上,构造领域词典,并根据错分现象采用一些针对性的纠错规则进行 分词后处理,这样可以减少错分现象。 2 2 2 未登录词处理 上一小节说过,每个自然语言接口系统,都必须有一部词典,这部词典不管 构造得如何庞大,一般来说总是不可能完备的。查询句里总是会出现在词典里没 硕士学位论文 有的词。特别是汉语,对于词汇的概念,到现在语言学界还在争论有词无词的问 题。汉字的组合能力又特别灵活随意,各种各样的缩略语层出不穷,人类根据上 下文可以理解其含义,对计算机来说就太难了。这些在词典中没有的词我们称为 未登录词( u n l i s t e dw o r d s ) 。如何处理未登录词是n l i d b 的一个大问题,对汉语 的n l i d b 来说更是如此,因为汉语有特殊的专名判别问题。 专名,是指诸如人名、地名、机构名此类的词汇。不像西方语言,专名往往 是用大写字母开头的,这时只需判别这个专名到底是人名、地名还是机构名。汉 语就不一样了,所有的词都是连在一起写的,也没有特殊的记号来把专名标注出 来( 以前古籍上往往在专名下面加下划线特别标明) ,进行查询句分词的时候, 如果词典里没有该专名,分词系统往往会将专名分成几个独立的字或词,举一例 子说明: 查询句:虚= 磋丝型缝蕉堑蓬墓蕴窑丝蓑塞筮鳆: j 错误分词:馒三,遗:晨什么时候成为囊直筮窒的董事长的? 正确分词i i 潼 = ! ! 薹瀑、什么:时候成为。遴蓝越的董事长的? 对这样的错误切分,如果不进行纠错的话,语法分析模块根本无法得出正确 的分析结果。尽管现在的汉语分词系统一般都内建了一些专名识别规则,并有专 门的专门词库,具有一定的专名识别能力,但由于汉语专名的开放性,其结果总 是差强人意,像上面的例子,如果把人名改成“黄志强”这样典型的名字的话, 分词系统可以识别出来,“房一飞”就不行。 再看一例( 现在我们假定词典中有“房一飞”、“海南航空”这两个词) : 用户在提出第一个问题后,得到否定的回答,在第二个问题里用“海航”代 替“海南航空”,这种缩略语现象在日常的交谈中可以经常见到,人们也可以理 解。但由于n l i d b 的词典中没有“海航”这个词,造成分析失败。为了增强系 统的自然性,我们希望n l i d b 也能够处理这类现象。解决的方法一是在词典中 添加所有可能的缩略语,但这会造成词义冲突,因为缩略语可能会与词典中原来 的词汇相同,于是又需要词义消歧。二是采用上下文推理机制,通过领域的语义 关系来确定该缩略语的所指。当然这也是非常困难的,因为经过分词后缩略语往 往被切开,要确定缩略语的范围就不是一件容易的事。 2 2 3 句法和语义分析 句法分析和语义分析将用户输入的自然语言查询旬转换成相应的数据库操作 命令。这一部分是整个n l i d b 系统的核心。一般来说,查询旬的分析和其它n l p 系统的句法分析并无本质上的差别。因此n l p 研究界在句法分析方面得到的成 硕士学位论文 果一直被应用到n l i d b 系统的查询句句法分析中来。这几十年来,n l p 在句法 分析领域从语法理论到分析方法都取得了长足的进步。从早期的上下文无关短语 结构文法( p h r a s es t r u c t u r eg r a m m a r ,p s g ) 至i j 现代基于合- - ( u n i f i c a t i o n b a s e d ) 的 各种语法理论,如l f g 、h p s g 等,n l i d b 一直在用这些最新的理论来构造自 己的句法分析模块。 采用先句法分析,再语义分析模式的n l i d b 系统,必须构造一个中间逻辑 语言,查询旬经过句法分析后转换成中间逻辑表达式,再经过语义分析最终转换 成数据库操作命令。这样做的好处是分离了语法分析模块义分析模块,在语法分 析部分可以采用大规模的、通用的语法分析器,在构造n l i d b 系统时只要获取 领域的语义映射知识就可以了,而不用每次都重新获取查询句型,构造句法分析 器。这样做的优点是减少了知识获取的工作量,增强了n l i d b 的跨领域移植能 力。而且在底层的数据库格式发生变化时,比如从关系数据库转到面向对象数据 库,只要改变从中间逻辑表达语言到底层数据库语言的映射规则即可。这种模式 的关键之处,一是要有一个通用的语法分析器,对英语来说这点比较容易做到, 对汉语来说似乎还没有一个容易得到的通用分析器;二是要设计一个好的中间逻 辑表示语言,使句法分析树能方便地映射到逻辑表达式,同时逻辑表达式也要能 方便地映射到数据库操作语言;三是要有一个获取领域知识的辅助工具,帮助开 发人员和用户建立和维护领域知识库。 以上先句法后语义的模式也有缺点。自然语言在句法一级充满了各种各样的 歧义结构,如介词短语的组合歧义、合取词和析取词的处理、量词的管辖范围等 等。这些歧义结构的消歧光靠句法规则和词汇本身的语义信息是很难解决的,而 必须利用领域的本体论知识。将句法处理和语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论