(计算机应用技术专业论文)基于自然汉语的数据库查询研究.pdf_第1页
(计算机应用技术专业论文)基于自然汉语的数据库查询研究.pdf_第2页
(计算机应用技术专业论文)基于自然汉语的数据库查询研究.pdf_第3页
(计算机应用技术专业论文)基于自然汉语的数据库查询研究.pdf_第4页
(计算机应用技术专业论文)基于自然汉语的数据库查询研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)基于自然汉语的数据库查询研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 自然语言处理是人工智能的一个重要研究领域,它主要研究如何利用计算机 来理解、处理和生成自然语言。在数据库查询系统中应用自然语言理解技术,设 计数据库自然语言查询接口,己成为自然语言研究中最具有广泛应用前景的方向 之一。 本文主要对数据库自然汉语查询接口进行研究。由于自然汉语本身的复杂性, 在开放领域内很难实现对查询语句的完全理解。但数据库查询语句是面向特定领 域数据库查询,所以数据库查询语句是一个受限汉语,而且数据库e r 模型是 一种很好的信息模型。在自然汉语理解中结合受限汉语和数据库e r 模型,可大大 增强查询接口的可实现性。 本文首先介绍了数据库自然语言查询接口,提出了本课题的研究背景和现状。 在对已有技术的总结上,设计了一个通用的数据库自然汉语查询接口模型,该接 口主要包括自然汉语理解部分和知识库部分。 在自然汉语理解部分中,有自动分词、中间语言生成和s q l 语句生成三个模 块。先对查询语句自动分词和词性标注,本文采用最大正向匹配算法,对每个分 词结果进行尾部歧义检查,对最主要的交集型歧义采用归右原则处理。然后对标 注好的词串切分并提取目标短语、条件短语。再将每一种类型的目标短语和条件 短语转化为相应的查询目标和查询条件,填充相关的实体数组、查询目标数组、 查询条件数组等,生成完备的中间语言。最后再通过数据库关联知识库确定目标 实体和条件实体的关联路径,这样就可以方便地生成s q l 查询语句。 自然语言理解部分的基础是一个良好的知识库,为了便于向其他数据库移植, 本接口系统中的知识库分为通用知识库和专用知识库,通用知识库中包括分词和 语法两个知识库,专用知识库中包括分词、数据库表和数据库关联三个知识库, 专业知识库随面向的应用数据库不同而改变。 最后本文讨论系统的实验结果。实验结果表明示例数据库的自然汉语查询达 到较好效果,验证了本文提出自然汉语数据库查询接口的可行性。同时在数据库 查询接口的用户界面中可以方便地管理各个知识库,已便于系统功能的不断完善。 关键词:自然汉语、数据库查询、汉语查询、受限汉语 a b s t r a c t a b s t r a c t n l u ( n a t u r a ll a n g u a g eu n d e r s t a n d i n 曲h a sb e c o m eo n eo ft h em o s ti m p o r t a n tf i e l d s i na r t i f i c i a li n t e l l i g e n c es t u d y b a s i n gc o m p u t e r , n l um a i n l yi n v o l v e st h er e s e a r c ho f u n d e r s t a n d i n g ,p r o c e s s i n ga n dp r o d u c i n gn a t u r a ll a n g u a g e u s i n gn l ut e c h n o l o g yi n t h ed a t a b a s eq u e r ys y s t e ma n dd e s i g n i n gn l q i d ( n a t u r a ll a n g u a g eq u e r yi n t e r f a c eo f d a t a b a s e ) h a sb e c o m eo n eo ft h em o s th o p e f u la p p l i e df i e l d si nt h er e s e a r c ho nn l u t h ea i mo ft h i sp a p e ri st oi n v e s t i g a t et h en a t u r a lc h i n e s el a n g u a g eq u e r yi n t e r f a c e o fd a t a b a s e b e c a u s eo fc o m p l e x i t yo fn c l ( n a t u r a lc h i n e s e l a n g u a g e ) ,i ti sv e r yh a r dt o c o m p l e t e l yu n d e r s t a n d i n gn c li no p e nf i e l d s d a t a b a s eq u e r ys e n t e n c ei su s e di n s p e c i a lf i e l d - 一d a t a b a s eq u e r y , s oi ti so n ek i n do fr e s t r i c t e dl a n g u a g e a n dd a t a b a s ee r m o d e li sag o o di n f o r m a t i o nm o d e l t h e nt a k i n ga d v a n t a g eo fd a t a b a s ee rm o d e la n d r e s t r i c t e dc h i n e s el a n g u a g e ,w ec a ng r e a t l ye n h a n c et h ef e a s i b i l i t yo fq u e r yi n t e r f a c e a tf i r s t ,t h i sp a p e ri n t r o d u c e st h eb a c k g r o u n da n ds t a t u s q u oo fn l q i d a f t e r g a t h e r i n gu pe x i s t i n gt e c h n o l o g yo fn l q i d ,au n i v e r s a lm o d e lo fn c l q i d 血a t u r a l c h i n e s el a n g u a g eq u e r yi n t e r f a c eo fd a t a b a s e ) i sd e s i g n e d ,w h i c hi n c l u d et w o p a r t s o n e p a n ,n a t u r a lc h i n e s el a n g u a g eu n d e r s t a n d i n gp a r t , i sc o m p o s e do fl e x i c a la n a l y s i s m o d u l e ,p r o d u c i n gm q l ( m i d d l eq u e r yl a n g u a g e ) m o d u l ea n dp r o d u c i n gs q lq u e r y s e n t e n c em o d u l e a f t e rw o r d s - c u t t i n ga n dw o r d - t a g g i n gw i t hm a x i m u mm a t c h i n g m e t h o d ,l e x i c a la n a l y s i sm o d u l ec h e c ks y n c o p a t e a m b i g u i t y , a n dd i s a m b i g u a t e a m b i g u i t yo fi n t e r s e c t i o nw i t hr i g h t f i r s tr o l e i nt h em q lm o d u l e ,a i mp h r a s ea n d c o n d i t i o np h r a s ea r ep i c k e du p ,a n da r et r a n s l a t e di n t oq u e r ya i ma n dq u e r yc o n d i t i o n d u r i n gt h et r a n s l a t i o n ,c o r r e l a t i v ec o n t e x t sa r ea d d e di n t oe n t i t ya r r a y , q u e r ya i ma r r a y , q u e r yc o n d i t i o na r r a y , t h e nm q l i sp r o d u c e d a f t e rf i n d i n gr e l a t i n gp a t hb e t w e e na i m e n t i t ya n dc o n d i t i o ne n t i t yt h r o u 曲r e l a t i o nr e p o s i t o r yo fd a t a b a s e ,t h et h i r dm o d u l ec a n p r o d u c es q lq u e r ys e n t e n c e a g o o dr e p o s i t o r yi st h eb a s eo fn l u f o re a s i l yr e p l a n t i n gt h ei n t e r f a c et oo t h e r d a t a b a s e s ,t h er e p o s i t o r yo fs y s t e mh a st w op a r t s o n ei su n i v e r s a lr e p o s i t o r y , i n c l u d i n g w o r d s c u t t i n gr e p o s i t o r y a n d s y n t a xr e p o s i t o r y t h eo t h e r i s s p e c i a lr e p o s i t o r y , i i ! 塑! 竺! i n c l u d i n gw o r d s c u t t i n gr e p o s i t o r y , d a t a b a s e st a b l er e p o s i t o r ya n dd a t a b a s e sr e l a t i o n s r e p o s i t o r y t h es p e c i a lr e p o s i t o r yi sd i f f e r e n tf o ra n o t h e r d a t a b a s e i nt h ee n d ,t h ep a p e rd i s c u s s e st h et e s tr e s u l t so fi n t e r f a c es y s t e m t h en a t u r a l c h i n e s el a n g u a g eq u e r yf o re x a m p l ed a t a b a s ec a nm o s t l yg e tc o r r e c tr e s u l t ,a n dt h i s v a l i d a t e st h ef e a s i b i l i t yo ft h es y s t e mi nt h i sp a p e r a n d1 1 1 0 r e ,p e o p l ec a ne a s i l ym a n a g e e a c hr e p o s i t o r yt h r o u g ht h ei n t e r f a c e ,s oi ti se a s yt oi m p r o v et h es y s t e mi nt h ef u t u r e k e yw o r d s :n a t u r a ll a n g u a g e 、d a t a b a s eq u e r y 、c h i n e s el a n g u a g e q u e r y 、 r e s t r i c t e dc h i n e s el a n g u a g e l i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:苎j 堡望日期:2 洲6 年f 月,2 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 日期:2 。( 年f 月u 目 第一章概论 第一章概论 随着现代科学技术的发展,人类从工业化社会步入了信息时代,计算机已经 成为这个时代标志性的产物,人类对信息的处理也提出了更高的要求。 现在人们对数据库应用的需求日渐增强,人们可以在设计好的数据库查询界 面上实现各种查询。但对于广大的非专业数据库用户,他们普遍缺乏计算机专业 知识和数据库概念,特别对于普通中国用户,要让他们正确使用以英语为基础的 国际标准数据库查询语言s q l 是一件非常困难的事情。因此,为中国用户提供易 于理解、便于使用的数据库汉语查询系统是十分重要的。随着自然语言理解研究 的深入,在数据库查询系统中应用自然语言理解的技术,设计数据库自然语言查 询接口,己成为自然语言理解研究领域中具有广泛应用前景的方向之一。基于自 然汉语的数据库查询接口系统能接受用户以自然汉语的形式提出查询语句,自动 进行分析,生成标准的s q l 语句,对应用数据库进行查询,最终返回用户所需的 信息。 1 1 背景及意义 基于自然汉语的数据库查询系统是自然语言理解的一个发展方向,它所采用 的思想和技术是紧随自然语言理解的发展而发展的。自然语言理解在几十年的发 展历程中经历了几次起伏,现在正受到越来越多的关注。而数据库的大量使用给 自然语言理解带来了一个新的亮点,那就是数据库的自然语言查询系统,它具有 重大的理论价值和实用价值,同时它也具有很强的可实现性。 1 1 1 自然语言理解 自然语言理解又被称为自然语言处理或计算语言学,它是人工智能领域中的 前沿难题之一【1 心。自然语言理解是以计算机为工具对人类特有的书面形式和i z l 头 形式的自然语言的信息进行转换、传输、存储、分析等各种类型处理和加工的技 术。自从1 9 5 4 年第一个机器翻译系统的问世至今,经过计算机科学家、语言学家、 电子科技大学硕士学位论文 心理学家们数十年的共同努力,在受限语言理解和面向领域的语言理解研究中取 得了卓著的研究成果,并在各个领域得到了广泛的应用,如基于自然语言的航空 售票系统、天气预报系统等。虽然自然语言理解研究的发展历史不长,但是,它 在过去的几十年中,尤其是近二十年中所取得的丰硕成果和长足进展是人们有目 共睹的。然而,要达到自然语言理解研究的最终目标让机器真正理解人类语 言,仍然是一个遥远的梦想。 自然语言理解的研究首先是从机器翻译系统的研究开始的。从1 9 5 4 年 g e o r g e t o w n 大学第一个机器翻译系统的问世至今,大致可分为如下几个阶段: 1 ) 萌芽阶段( 5 0 年代初一7 0 年代初) 1 9 5 4 年,美国g e o r g e t o w n 大学与i b m 公司合作,在i b m t 0 1 计算机上进行了 第一次机器翻译试验,将俄语翻译成英语。尽管这次试验用的机器词汇仅仅包含 了2 5 0 个俄语单词,机器语法规则也只有6 条,但是,它第一次向公众和科学界 展示了机器翻译的可行性。 此后,机器翻译作为自然语言处理的核心研究领域,潮起潮落,经历了不平 坦的发展道路。新生事物的发展总是不可能一帆风顺。第一代机器翻译系统设计 上的粗糙带来翻译质量的低劣。随着研究的深入,人们看到不是机器翻译的成功, 而是一个又一个它无法克服的局限。1 9 6 6 年1 1 月,美国科学院下属的语言自动处 理咨询委员会( a u t o m a t i cl a n g u a g ep r o c e s s i n ga d v i s o r yc o m m i t t e e ) 向美国国 家基金会提交了一份关于机器翻译的咨询报告。该报告对机器翻译下了一个否定 性的结论,称机器翻译的目标是不现实的,在可预见的将来没有成功的希望。此 后一段时间内,机器翻译的研究跌到低谷。在这段时期,研究人员开始反思机器 翻译失败的原因,由此也引发了对自然语言的性质本身更深刻的关注。 2 ) 复苏阶段( 7 0 年代初- 8 0 年代初) 尽管机器翻译研究困难重重,但是各国仍有研究者坚持着机器翻译研究。7 0 年代先后提出了一些有关自然语言知识表示和处理的理论和方法。这些理论和方 法除了在机器翻译研究中进行尝试,还将自然语言处理的研究扩展到了更广阔的 应用领域,如智能计算机人机接口、专家系统自然语言接口等。 3 ) 繁荣阶段( 8 0 年代初一至今) 由于计算机软硬件技术本身的发展,从8 0 年代开始,个人计算机系统( p c ) 迅 速普及,机器翻译软件、自然语言人机接口软件等陆续从实验室走向市场。如果 说从5 0 年代到7 0 年代,自然语言理解的应用主要还停留在实验室阶段,那么从 8 0 年代开始,自然语言理解的应用就可以算是开始步入社会生活了。 第一章概论 2 0 世纪9 0 年代以后,随着网络技术和i n t e r n e t 在全球范围内的飞速发展, 开始出现互联网上的在线机器翻译、跨语言的信息检索、多语通信系统、机助人 译系统、计算机辅助写作系统等。随着无线网络的发展,出现了面向移动设备的 自然语言语音接口( 包括语音输入、语音识别、口语翻译等) 。 从盲目乐观到顾本务实,从实验玩具到应用系统,是自然语言理解研究的发 展道路。 而国内自然语言处理的研究起步较晚,比国外相比有很长的差距。国外在1 9 6 3 年就建成了早期的自然语言理解系统,而我国直到1 9 8 0 年才建成了两个汉语自然 语言理解模型,都以人机对话的方式来实现。 国内的自然语言理解研究以汉语为研究对象,利用计算机对汉语的书面形式 和口头形式进行信息处理,是自然语言处理技术在汉语文字应用研究中的体现。 由于汉语属于意合语,与英语、法语等印欧语系的屈折语种不同,西方的各种语 法、语义理论无法直接套用在汉语上,这使得汉语自然语言理解研究工作困难重 重。但是,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内 得到了越来越多的重视,研究单位在逐渐增多,研究队伍也在逐渐壮大。国内比 较有代表性的成果如下: 1 ) 机器翻译:以冯志伟教授为代表的计算语言学学者早期在机器翻译研究 方面做了大量的工作,并总结出了不少珍贵的经验和方法,为后来的计算语言学 研究奠定了基础。 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学实验室,主要从 事基于语料库的汉语理解。近年来,在自动分词、自动建立知识库、自动生成句 法规则、自动统计字词的使用和关联频率方面做了大量的工作并发表了不少很有 价值的论文。 3 ) 篇章理解研究:东北工学院的姚天顺教授和哈尔滨工业大学的王开铸教 授等在计算语言学的篇章理解方面的研究也取得了定的成就。 4 ) 概念层次网络:中科院的黄曾阳先生在自然语言研究当中通过长期的探 索和总结,在语义表达方面提出了“概念层次网络”理论。这个理论框架是以语 义表达为基础,并以一种概念化、层次化和网络化的形式来实现对知识的表达, 这一理论的提出为语义处理开辟了一条新路。 5 ) 受限汉语:北京信息工程学院的周锡令教授主持的受限汉语的研究为自 然语言理解提出的一种新的思路。他认为短期内计算机还很难做到真正的理解自 然语言,在继续对自然语言理解方面进行研究的同时,应该研究受限的规范的汉 电子科技大学硕士学位论文 语,这样可以让研究成果较快的实用化。 6 ) 知网:由董振东先生提出的一种汉语知识表示方法。知网把客观世界看作 是有很多的概念构成。概念与概念之间有各种各样的关系,这些关系相互交织就 构成了一个网。要表示一个客观世界,就是要确定这些概念、概念的属性以及概 念之问的关系。 1 1 2 数据库自然语言接口 数据库自然语言接口作为自然语言理解的有效应用之一,正受到越来越广泛 的关注【3 1 4 】【5 】【6 】。数据库自然语言接口是人工智能与数据库技术相结合的产物,涉 及到人工智能、自然语言处理、数据库系统和人机接口等方面的研究。许多年来, 它作为人工智能接口的重要组成部分引起了广泛的兴趣,成为具有重要理论价值 和巨大实用价值的研究领域。而现在数据库自然语言接口的研究主要集中在数据 库查询功能的研究上,因为强大的查询功能是数据库系统最重要的功能,而且现 在自然语言的查询接口技术还未完全成熟,若用于数据库的定义、更新等功能可 能对数据库造成一些较严重的负面影响。 数据库作为计算机应用领域的一个重要的组成,正在越来越广泛的领域发挥 作用。在传统的已设计好的数据库信息管理系统中,人机接口大多是以窗口、菜 单为主的图形用户接口。数据库查询是通过标准的s q l 语言实现的,s q l 语言的特 点是简洁、明快、高效,但是s q l 的语言形式有很高的格式要求,其形式和中文 表达方式相差甚远,一般数据库专业开发人员才能掌握,作为普通用户是很难掌 握的。并且用户是被动地使用查询系统,不能使用人类最直接的交流工具进行人 机交流。 数据库自然语言查询接口就是在这样一个背景下提出的,其目的就是为了使 那些没有数据库知识的用户也能够自如地使用查询数据库,享受数据库带来的方 便与快捷。用户可以以自然语言的形式查询数据,而不必掌握各种各样的文法规 则,不必拘泥于某一种特定的行文规定。与传统的s q l 查询语言相比,数据库自 然语言的查询更适合广大的普通用户。自然语言数据库查询接口能够改善人机交 互的容易程度,大大提高数据库系统的实用性。 与数据库系统本身提供的形式化查询语言( 如s q l ) 相比,用自然语言查询数据 库的优势在于: 1 ) 用户用自然语言进行查询,他只以应用领域的概念访问数据库,无需了 第一章概论 解数据库的逻辑和存储结构,可用一些抽象概念进行查询,实现了系统的智能化, 具有更强的非过程性; 2 )实现了软件的易用性,使用户完全摆脱了软件使用方法的束缚,用户只 需把查询要求用文字表达出来,或说出来( 需语音识别技术支持) ,系统就可进行 处理。这样用户不需要或者只需要很少的培训就能够直接查询数据库信息,大大 减轻了用户的培训负担; 3 ) 用户可以简单明了地提出查询请求,比如若要在商品数据库中查找单价 最高的商品,相对形式化查询语言表述更简洁。 基于自然汉语的数据库查询接口也日益受到国内外学者的重视,由于汉语本 身存在许多复杂的语言学问题,所以直接套用西方的语言学理论并不十分合适汉 语分析的需要。这需要我们结合汉语自身的特点,借鉴已有的理论、技术,找到 合适的解决办法。 1 2 现状及面临的问题 数据库自然语言接口的研究是自然语言理解与数据库技术结合的产物,国外 以英语为主要对象,有关数据库自然语言界面的研究始于上世纪六十年代,先后 出现了一些优秀系统,现在已有商用的产品出现。而国内对数据库汉语查询界面 的研究始于上世纪七十年代末期,进行了多种研究和探索,但进展相对较缓慢, 其主要原因是受汉语的i h 然语言理解问题的限制。 1 2 1 国外的研究情况 国外有关数据库自然语言查询接口的研究可以追溯到本世纪六十年代。早期 的代表作是格林的b a s e b a l l 系统,这是一个专用数据库接口系统f ”。该系统的数 据库中记载着一年内美国全国棒球联赛的各种信息,系统允许用户用限定的英语 进行查询。与其他早期的i h 然语言处理系统一样,b a s e b a l l 对英语的分析策略主 要依赖于关键字匹配技术。 美国的伍兹( w a w o o d s ) 设计的l u n a r 系统是七十年代i h 然语言专用接口 的代表。该系统利用英语对美国国家航空和航天管理局提供的一个从月球上采集 的岩石标本的数据库进行查询。l u n a r 系统的一个重要特点是对英语的句法和语义 做出了比较深入的分析,它是借助于扩充转移网络a t n 来处理句法问题的第一个 电子科技大学硕士学位论文 程序。 尽管b a s e b a l l ,l u n a r 和其他一些自然语言专用接口可以出色地完成指定领 域的数据库查询任务,但是要把它们移植到其他应用领域非常困难。因此,人们 开始探索通用接口的设计。所谓通用接口就是一种用来设计和调试各种自然语言 接口的开发工具( 或支撑环境) ,专用接口的建造者利用它可以很快地建立起特定 领域的词典、句式和相应的响应式。这样做的好处主要是使新系统的设计开发可 以复用已有的成果,从而缩短系统的设计、调试周期,避免大量的重复性劳动。 1 9 7 8 年美国国际人工智能研究所( s r i ) 的汉德雷斯( c h e n d r i x ) 等人设计的 l i f e r 系统就是一个自然语言通用接口。该系统包括两个主要部分:一组交互式的 语言说明函数,用来定义一种面向应用领域的自然语言子集;一个分析程序,对 输入的自然语言做出解释,即把输入句子翻译成为可以对特定数据库直接进行查 询的命令。这种通过将分析程序与知识库相分离来扩展系统的做法成为建造通用 接口的基本思路。值得指出的是,汉德雷斯在描述语言时采用了“语义语法”。这 种方法提高了自然语言的处理速度,所以后来被许多实时处理的自然语言系统所 采用。在美国利用l i f e r 通用接口已经建立了一批自然语言的专用接口,如美国 海军使用的l a d d e r 系统。 1 9 8 3 年首批自然语言接口系统打进了国际市场,标志着一个具有广阔前景的 语言产业的崛起。如美国人工智能公司( a i c ) 率先推出的i n t e l l e c t 系统,美国f r e y a s s o c i a t e s 的t h e r n i s 系统,美国加利福尼亚工学院的a s k 系统等。 在轰轰烈烈的研究中,一些学者过分乐观地认为自然语言接口的应用会持续 增加,广泛应用的时代即将到来。但不幸的是,8 0 年代末、9 0 年代初图形用户接 口技术的巨大进步极大地冲击了自然语言接口的研究。因为,图形用户接口解决 了许多人们原来期望自然语言接口才能解决的问题;自然语言处理的诸多困难又 使n l i 与g u i 相比没有优势可言。因此,自那以后,自然语言接口的研究开始受 到冷落。这一点从这些年有关n l i 方面的论文数量上就可以明显看到。 进人九十年代后,尽管自然语言接口方面的研究没有八十年代中期那样轰轰 烈烈,但是依然有一大批学者在从事这方面的研究,也有一些试验性或商用的自 然语言接口系统出现,如b b n 公司的p a r l a n c e ,b i m 公司的l o q u i ,s r i 的c l a r e 、 微软公司在s o ls e r v e r6 5 7 0 中提供的e n g l i s hq u e r y 、加拿大s i m o nf r a s e r 大学开发的s y s t e m x 等。它们除了在系统可用性和可移植性方面有所发展外,在 自然语言接口评价、领域知识的自动获取、系统的体系结构以及探索使用新的理 论( 如h p s g ,人工神经网络、统计与规则相结合) 等方面取得了新的进展。 第一章概论 1 2 2 数据库汉语接口的研究 汉语数据库接口系统的研究起于本世纪七十年代末期。1 9 8 0 年中国社会科学 院语言研究所的范继淹、徐志敏设计实现的r t d 一8 0 汉语人机对话系统,成为国 内第一个汉语接口实验系统。该系统的处理技术以转换生成语法和扩充转移网络 语法为基础。 八十年代初,我国人工智能界的学者开始对汉语人机接口技术予以重视,不 仅设计了一批专用的汉语接口系统,如清华大学陈群秀和赵琦为该校的汽车调度 专家系统设计的汉语专用接口c n l i e s 等;而且在1 9 8 6 年研制出了第一批汉语通 用接口,如清华大学的s p s 和z p s 系统、华中理工大学的e r t v 系统、上海工业大 学的l i g c 系统等。 综观十几年来数据库汉语查询接口的研究,这些实验系统采用的技术主要有: 关键词匹配、句法模式匹配、语义语法、扩充转移网络( a t n ) 等,主流技术基本上 以词汇驱动、句法语义处理一体化为特征,将通用知识库与领域专用知识库相分 离,利用学习模块获取领域专用知识,以此达到一定程度的可移植性。总的说来, 这方面研究的进展缓慢,多数系统只停留在原型系统的水平,未考虑向实用系统 转化。 最近几年,越来越多的学者重新认识到汉语查询接口研究的理论意义和应用 价值。中国人民大学、香港中文大学和北京大学在国家自然科学基金重点项目支 持下,开展了“中文数据库系统及其语言和界面研究”,从查询语言分析、受限处 理、界面管理和领域知识自动提取等方面进行了多方位深入探索,已经取得了一 定的研究成果。 1 2 3 面临的问题 现在自然汉语的数据库查询接口主要面临以下几个方面的问题: 首先是语言的覆盖面问题【4 j i “。尽管数据库查询语言只是自然汉语的一个子 集,但系统使用的句法规则要想覆盖领域内所有的查询语句也是不可能的。这就 像数轴上的一个区间,有限中蕴涵着无限。我们每个人的语言习惯都不尽相同, 同一个查询意图往往有多种不同的表达方式。如果一个系统只允许用户使用非常 有限的句型来表达查询请求,使用其他句型系统就得不到正确结果,那么这样的 系统就很难发挥自然语言接口的优势,也就难以得到用户的普遍接受。这正是目 电子科技大学硕士学位论文 前自然汉语接口没有得到广泛应用的一个主要原因。这方面需要解决的语言问题 有:全称及存在量词的约束范围、与或歧义、复合名词短语、代词指代、成分省略、 否定、短语修饰歧义等。 其次是系统的可用性问题。这直接决定着用户是否会接受系统,在某些方面 还可以弥补系统表达能力的不足。语言的覆盖面直接影响系统的可用性,除此之 外,我们主要考虑人机界面的自然化、人性化,需要解决的问题有:必要的提示及 引导、及时响应的对话能力、查询结果的再加工( 如代码解释、空值n u l l 的处理 等) 、错误恢复、支持一般性查询问题、输入旬文本检查与更正以及与g u i 等接口 技术的有机融合等。 最后是系统的可移植性问题。这里可移植性主要包括四方面内容,即应用领 域可移植性、d b m s 可移植性、自然语言可移植性、硬件和编程语言的可移植性。 目前,自然语言的移植尚难以实现,因此我们所关心的是其他三类可移植性。 1 ) 领域可移植性即要求系统具有获取新领域知识的能力。因为领域知识千 差万别,事先不可能包罗万象。因此只能赋予系统某种适应新环境的能力,以不 变应万变。解决领域可移植性问题要从整个系统范围着手,包括系统的体系结构、 词库的组织、语义模型、知识获取等。 2 ) d b m s 可移植性即要求系统可访问不同的数据库管理系统( d b m s ) 。这是一 个纯数据库问题,解决起来比较容易。由于当前的数据库技术已经很成熟,出现 了标准的数据库接口和语言。只要在系统中采纳这些标准,d b m s 上的移植是不难 实现。 3 ) 硬件和编程语言的可移植性即要求系统能够方便地从一种软硬件平台移 植到另一种平台上。早期的自然语言接口系统一般使用特殊的编程语言在大型机 ( m a i n f r a m e ) 上实现,移植到其他平台时非常困难。后来微型机的出现,以及通 用的人工智能语言p r o l o g ,l i s p 和跨平台的j a v a 语言的出现,为这种可移植性 的实现提供了可能。 1 3 论文的安排 本课题在受限汉语和数据库e r 语义模型的基础上,研究并实现基于自然汉语 的数据库查询接口系统,本文主要针对常用的陈述句型查询语句进行研究。 本文的安排如下: 第一章概论 第一章介绍论文的背景和意义,总结了国内外对数据库自然语言查询接口的 研究现状和面临的主要问题。 第二章介绍本文所基于受限汉语和数据库e r 语义模型,然后提出了一个通用 数据库查询接口系统的模型,并介绍系统使用的陈述句型查询语句的文法规则, 最后探讨了系统的通用知识库和专用知识库。 第三章对已有的分词方法进行了介绍,并提出了本系统使用的分词算法,还 对分词中产生的交集型歧义字段有较深入研究。 第四章重点研究了中间语言的生成过程,先提取出目标短语和条件短语,再 对每一种类型的目标短语和条件短语分别生成相应的查询目标和查询条件。 第五章介绍了s q l 语言,并着重探讨了如何确定查询目标实体和查询条件实 体的关联路径,经过上面各步骤就可以方便地生成s q l 查询语句了。 第六章介绍了在软件上实现该自然汉语的查询接口系统,并进行的实例测试 和分析,最后对全文进行总结并提出系统存在的问题和下一步的工作任务。 9 电子科技大学硕士学位论文 第二章理论基础和系统模型 基于自然汉语的数据库查询接口其核心是对自然汉语的理解问题,但由于汉 语本身的特点使汉语的计算机理解更加困难。汉语理解要解决诸如:语句的歧义 切分问题、未登录词问题、谓语的组成问题、多动词联用问题、词性歧义问题、 句子的词序问题等等难题,所以要完全理解自然汉语还有很多困难。但只针对数 据库查询语句这个自然汉语中的一个子集进行研究,可以发现它具有较好的规律 性,减少了许多歧义问题的出现,且语句中的成分都与数据库有关。再将数据库 的e r 模型结合自然汉语的理解,可大大提高查询接口的可实现性。 在本章中先介绍本文的理论基础受限汉语和数据库e r 语义模型,然后提 出了一个通用数据库查询接口系统的模型,并介绍系统使用的陈述句型查询语句 的文法规则和应用限制,最后探讨了系统的通用知识库和专用知识库。 2 1 受限汉语与e r 模型 使用英语为数据库查询语言的数据库自然语言接口的研究取得了较大的进 步,已经有商业化产品推出【4 】 8 9 】【“。基于自然汉语的数据库查询接1 :3 研究也已经 取得了很大的进步。然而由于汉语自然语言所具有的复杂性和开放性,使人们对 自然汉语本身的完全理解还存在很大的困难,所以很难实现在开放领域内自然汉 语到s q l 真正理解后的转换。现在自然汉语数据库查询接口距离商业实用仍然有 较大距离,其主要原因在于两个方面: 一方面汉语具有不同于西方语言的独有特点,机器处理起来更加困难: 1 ) 切分歧义和未登录词问题; 2 ) 汉语同一词条无任何形态变化便可充当各种句法成分; 3 ) 汉语句子的语序相当灵活,文法的表达和分析很困难。 另一方面以往的研究方法不重视数据库技术( 如数据库e r 模型) 在中文查询 语言理解中的重要作用。 针对以上两点,自然汉语查询接口可采用在受限汉语的基础上结合数据库e r 模型,在受限领域内通过借助于领域特性对领域内的查询句进行分析,提取其特 l o 第二章理论基础和系统模型 征,并限定查询旬语法规则等方式来协助对查询问旬的理解,以降低其理解难度 从而实现自然语言数据库查询。 2 1 1 受限汉语 受限汉语的基本思想是在满足应用领域基本要求的前提下,对自然汉语适当 加以限制,以显著降低复杂性和减少机器处理的困难【1 1 】【1 2 1 。受限汉语用于中文数 据库查询接口是可行的,因为数据库查询句相对简单,表达的语义和查询的内容 是比较明确的,歧义大大减少。用户查询所用字、词、句式和修辞等语言现象不 像文学作品那样复杂和多样,用户也没有必要追求这些东西,因此对添加的限制 是可以接受的。 定义2 1 受限汉语:对汉语自然语言加以一定的规则而得到该自然语言的子 集,称之为受限汉语。 在计算语言学界,受限语言( r e s t r i c t e dl a n g u a g e ) 的思想由来己久 1 3 】f 1 4 】。 1 9 6 8 年z e l l i gh a r r i s 提出了部分语言的概念,近年来英语、日语、法语等相继出 现了适用于机器翻译和自然语言理解的受限语言。如c a t e r p l i a re n g i s h 、x e r o x 公司s y s t r a n 机译用受限语言、t i t u s 的机译用受限语言、日语限制语言( 长尾真) 等等。关于受限汉语,中国工程院陈力为院士在1 9 8 7 年就提出过“规则汉语”的 设想,周锡令,鲁川,俞士汶教授等都研究过“受限汉语”的问题。这些受限语 言有个共同的特点,就是对原语言在词条的数量、词义或短语结构、句法结构以 及语义上加以一定的限制,限制后形成的语言子集在多义性、复杂性和难于理解 性上比原语言显著减少,使计算机处理起来更为有效。 从计算语言学的学科分类来看,受限语言的研究是“计划语言”( p l a n n i n g l a n g u a g e ) 这个学科的一个部门。所谓计划语言,就是为人们特定的目的而研制出 来的语言。它分先验型计划语言和后验型计划语言两种。先验型计划语言的语言 和词汇系统与自然的民族语基本上无关,其语法系统是非常严格而规范的,多从 公理系统的角度来设计。已有约5 0 0 种方案,如e s p e r a n t o ( 1 8 8 7 年由z i m e n h o f 提出) ,已经在全世界广泛使用,甚至成为家庭中的第二语言。后验型系统是经过 修改的民族语,实际上也就是受限的自然语言,即我们所说的“受限语言” ( r e s t r i c t e dl a n g u a g e ) 。受限语言应该在如下四方面区别于非受限的自然语言: 1 ) 非受限自然语言中充满了歧义,而受限语言的歧义应该是可以控制的; 2 ) 非受限自然语言的结构复杂多样,而受限语言的结构应该是相对简单而 电子科技大学硕士学位论文 整齐划一的; 3 ) 非受限自然语言的语义表达是千变万化的,而受限语言的语义应该是加 以严格限制的,基本上作到一词一义,尽量避免多义词或近义词; 4 ) 非受限自然语言的句法和语义之间的联系是错综复杂的,而受限语言的 句法和语义之间的联系应该尽量作到一一对应。 本文所探讨的自然汉语数据库查询语句是一个受限汉语,它仅用于数据库的 查询,它的受限主要表现在以下几个方面: 1 ) 词汇受限:查询语句中的词汇如名词、动词等实词必然与应用领域的数据 库内容相关,其所用概念均与应用领域的数据库相关。 2 ) 句型受限:查询语句使用的句型主要是祈使句和疑问句,而本文主要探讨 祈使句型的查询语句。 3 ) 语义受限:查询语句中所涉及到的语义概念或与应用领域的数据库相关, 或与表达查询的语义概念相关。 4 ) 语用受限:查询的目的是从应用领域的数据库中获取用户所需的信息。每 个数据库自然语言查询语句都表达了要求查询数据库中的某些数据的思想,为此, 查询语句要指明需查询的数据的名称及限定条件。 本文中探讨的陈述句型查询语句的具体受限方式和规则见2 3 节的文法。 2 1 2e r 模型 e r 模型是对现实世界的一种抽象,它的主要成分是实体、联系和属性。实体 是现实世界中区别于其它对象的有形物体或无形事件。每一个实体都有一组属性 值,其中一部分属性值的取值可以唯一地标识实体。联系就是表示多个实体之间 的相互关联,联系也可以包含描述性属性,事物之间的关系抽象为联系。e r 模型 是描述整个事物的概念模型,能够比较充分地反映现实世界的客体及其联系,是 一个非常好的信息模型。它具有简单、通用的特点,而且经过了几十年实际工程 应用的考验。 例如图2 1 可很好地反映老师和学生这两个实体和他们之间教课与被教的联 系。 现在关系数据库占据了数据库市场的主导地位,而e r 模型与关系模型是非常 一致的,无论是从历史发展的角度,还是从市场应用的角度来看,e r 模型和关系 模型都是紧密结合在一起的。通过e r 模型可以方便地转化为关系模型,对于实体 第二章理论基础和系统模型 图2 1 不例e r 图 在关系模型中建立一个与其同名且具有相同属性的关系。而对于联系转化为关系 模型中的关系包括两方面的属性:一是该联系涉及到的每个实体的键码属性,另 一方面是该联系本身具有的属性。 可见e r 模型是与数据库技术紧密相连的,能够十分方便地翻译为关系数据库, 所以可利用e r 模型在自然语言查询语句理解中发挥重要的辅助桥梁作用。 2 1 3 系统实现的可能性 自然语言是一个非常庞大复杂、又在不断发展演变的开放式符号系统,其中 存在着大量的歧义性和模糊性现象,是一个“不规则”系统 4 l “l 。要从根本上整体 上理解处理自然语言目前的理论和技术都还有差距,但把自然语言限制在数据库 查询这个范围内,也就是应用于它的一个子集,同时结合具体的数据库e r 模型, 则应该是完全可行的。吕光楣、陈清波等人曾经总结了这种可能性: 1 ) 数据库中的内容一定是明确的、有限的,而用户的提问又总是围绕着数 据库进行的。因此提问中的名词必为数据库概念模型中定义的词或其同义词、或 可由它们定义的词。提问中的动词一般为数据库操作命令词、或与数据库关系名 属性名有关的领域性动词。 2 )由于是向数据库提问,不可能出现带有感情色彩的词汇,也杜绝了成语 理语的出现。 3 ) 句型有所限制,句法有所简化,例如只剩下了祈使句、疑问旬及相应的 电子科技大学硕士学位论文 省略句。 4 ) 歧义性和上下文相关现象大量减少,且有一定的规则可循。 5 ) 更重要的一点是,由于接口的最终目的是把自然语言转换成数据库内部 查询语言,所以它并不要求完全彻底地去理解语言的深层含义。只要我们从语言 的功能结构和语义的某些特征上去分析处理它,达到转换的目的就行了。 所以受限汉语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论