(计算机应用技术专业论文)数据库检索的中文自然语言接口技术研究.pdf_第1页
(计算机应用技术专业论文)数据库检索的中文自然语言接口技术研究.pdf_第2页
(计算机应用技术专业论文)数据库检索的中文自然语言接口技术研究.pdf_第3页
(计算机应用技术专业论文)数据库检索的中文自然语言接口技术研究.pdf_第4页
(计算机应用技术专业论文)数据库检索的中文自然语言接口技术研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)数据库检索的中文自然语言接口技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学 硕士学位论文摘要 学科、专业:工学计算机应用技术 研究方向:计算机在通信中的应用 作 者:j 塑竺级研究生赵元正指导教师垂丝整 题目:数据库检索的中文自然语言接口技术研究 英文题目: r e s e a r c ho nc h i n e s en a t u r a l l a n g u a g e i n t e r f a c e t e c h n o l o g yo fd a t a b a s er e t r i e v i n g 主题词:中文自然语言处理最大模板匹配算法数据库 查询接口 s q l 语言 k e y w o r d s :c n l pm a x i m u mt e m p l a t em a t c h i n gm e t h o d d a t a b a s e q u e r yi n t e r f a c es q l 南京邮电走学硕士学位论文 摘要 随着互联网络高速发展。从浩瀚的信息中检索到自己所需要的信息己变得非 常重要,直接使用中文自然语言进行信息检索成为人们研究的热点。 本论文主要研究的是对数据库进行检索的中文自然语言接口技术,该接口技 术对终端用户输入的中文自然语言进行处理生成s q l 语句,再使用s q l 语句进行 数据库检索。 首先,介绍了数据库检索的中文自然语言接口技术的背景及概况,以及其 中的技术难点,同时对国内外的研究情况作了说明,并简单介绍了常用的一些算 法。 其次,针对中文自然语言应用在数据库检索这一特殊领域,作者提出了非 常适用于数据库捡索的最大模板匹配法这一新的分词算法,该算法具有速度快、 查准率高等特点。并对该算法的原理、特点、算法及如何实现做了详尽的描述。 最后,以最大模板匹配算法为基础,描述了实现数据库检索的中文自然语 言接口的详细过程。并利用该接口技术实现了校园教职工工资查询系统的一个范 倒。 关键词:中文自然语言处理,最大模板匹配法,数据库,查询接口,s q l , 语言 南京邮电走学硬士学位论文 a b s t r a c t w i t ht h eh i g h s p e e dd e v e l o p m e n to f i n t e r n e t ,i t sg e t t i n gm o r e i m p o r t a n tt or e t r i e v et h ei n f o r m a t i o nw en e e df r o m v o l u m i n o u si n f o r m a t i o n i tb e c o m e st h er e s e a r c h i n gh o t s p o tt h a tr e t r i e v i n gi n f o r m a t i o nb yc h i n e s e n a t u r a ll a n g u a g en o w a d a y s t h i sa r t i c l e m a i n l y r e s e a r c h e st h ei n t e r f a c e t e c h n o l o g yt h a t r e t r i e v e sd a t af r o md a t a b a s eb yc h i n e s en a t u r a ll a n g u a g et h ei n t e r f a c e t e c h n o l o g yp r o c e s s e st h ec h i n e s en a t u r a ll a n g u a g ei n p u tb ye n du s e r ,t h e n g e n e r a t e sas q ls t a t e m e n tw h i c hr e t r i e v e sr e c o r d sf r o md a t a b a s e f i r s t l y ,t h i sa r t i c l ei n t r o d u c e s t h eb a c k g r o u n d ,g e n e r a ls i t u a t i o n a n dt e c h n i c a ld i f f i c u l t i e so ft h ec h i n e s en a t u r a ll a n g u a g ei n t e r f a c e t e c h n 0 1 0 9 yo fd a t a b a s er e t r i e v i n g a 1s ot h ei n t e r n a t i o n a lr e s e a r c h i n g s i t u a t i o ni se x p l a i n e d s o m eg e n e r a la l g o r i t h m sa r ea l s oi n t r o d u c e d s e c o n d l y ,f o rc h i n e s en a t u r a ll a n g u a g ea p p l i c a t i o ni nt h es p e c i a l f i e l d ,d a t a b a s er e t r i e y i n g ,t h ea u t h o ri n t r o d u c e da n e ww o r ds e g m e n t a l g o r i t h m ,m a x i m u mt e m p l a t em a t c ha l g o r i t h m ,w h i e hi sv e r ys u i t a b l ef o r d a t a b a s er e t r i e v i n g t h ea l g o r i t h mh a sh i g h s p e e da n dh i g ha c c u r a c y t h e t h e o r y ,c h a r a c t e r i s t i c ,a l g o r i t h ma n d i m d l e m e n t a t i o no f t h ea l g o r i t h m a r e a 1 1d e s c r i b e di nd e t a i l f i n a l l y ,b a s e do nt h em a x i m u mt e m p l a t em a t c ha l g o r i t h m ,t h ed e t a i l e d i m p l e m e n t i n gp r o c e s so fc h i n e s en a t u r a ll a n g u a g ei n t e r f a c eo fd a t a b a s e r e t r i e y i n gi sd e s c r i b e d as a m p l ei sa l s oi n t r o d u c e d ,t h ec a m p u se m p l o y e e s a l a r yq u e r ys y s t e m ,w h i c ha d o p t st h ei n t e r f a c et e c h n o l o g y k e yw o r d s :c n l p m a x m u mt e m p l a t em a t c h i n gm e t h o d ,d a t a b a s e ,q u e r y i n t e r f a c e ,s q l 南京邮电大学硕士学位论文 前言 日日吾 数据库技术【1 】的发展给用户带来了各种便利,用户可以在设计好的数据 库查询界面上通过各个功能按钮和菜单实现各种查询。设计人员根据用户的需要 设计出各种符合用户需求的数据库查询系统。在传统的已设计好的数据库信息管 理系统中,查询界面的查询内容被设计者作了严格的限制,即用户在数据库中查 找的信息是固定的,用户必须通过设计者给定的查找途径进行相关的查询。这种 数据库查询系统的优点是:由设计入员针对用户常见的查询内容进行设计。只要 用户能够了解系统给出的查询方法,便能查询出相关信息,效率较高;但缺点是: 用户是被动地使用查询系统,并且不能使用人类最直接的交流工具进行人机交流 【2 】。 随着自然语言理解研究的深入,在数据库查询系统中应用自然语言理解的 技术,设计数据库自然语言查询界面,己成为自然语言理解研究的具有广泛应用 前景的方向之一【3 】。随着自然语言理解的研究发展,人们开发了数据库自然语 言界面,这种查询界面只需用户用自然语言输入相应的查询要求,系统便会给出 查询结果。由于语音系统的成熟,更使这种查询系统的研究受到了重视。如果能 够开发出较好的数据库自然语言查询界面,再配合语音技术,便可进行人与系统 之间的人机对话查询。由此可见,这种数据库自然语言查询界面的开发具有广阔 的应用前景。 数据库自然语言查询界面具有以下优点:首先,用户可以用自然语言进行 查询,这种查询是主动的,任意的,就像说话一样:用户在查询时,可以用自然 语言的相关概念,特别是可用一些抽象概念进行查询,实现了系统的智能化。而 在传统的数据库信息查询系统中,是不可能让用户使用抽象概念进行查询的;其 次实现了软件的易用性,使用户完全摆脱了软件使用方法的束缚,用户只需把 查询要求用文字表达出来,系统就可进行处理;再次,交互性,当用户与系统出 现交流困难时。可进行交互,使查询能够进行下去。 在数据库自然语言界面的查询中对用户输入的用自然语言表示的查询语 句的理解是一个关键问题,所以数据库自然语言界面的查询研究工作的重点即是 南京邮电大学硕士学位论文 对汉语查询语句中查询信息的研究。由于对查询语句的理解能力和水平反映了一 个数据库自然语言查询系统的智能水平,所以对汉语查询语句中查询信息的研究 工作具有一定的理论和应用价值。对查询语句中查询信息的研究,主要是对查询 语句中的查询条件和查询目标的识别。 数据库自然语言查询的研究是自然语言理鳃与数据库技术结合的产物,国 外以英语为主要对象,有关数据库自然语言界面的研究始于上世纪六十年代,先 后出现了一些系统,如b a s e b a l l 、l u n a r 、l i f e r 、a s k 、p a r l a n c e 、l o q u i 以及 微软的s q ls e r v e r 中提供的e n g l i s hq u e r y 数据库查询接口等【4 】。 数据库中文自然语言查询界面具有重大的理论意义和实际价值。国内对数 据库汉语查询界面的研究始于上世纪七十年代末期,进行了多种研究和探索,但 进展缓慢,其主要原因是受汉语的自然语言理解问题的限制。自然语言理解,特 别是汉语自然语言理解的研究是一项长期的工作,但把自然语言限制于查询语句 上时。会受到基于e r 模型的数据库的信息知识与查询语句本身句型及语义的 诸多限制。称之为受限汉语【5 】。降低了汉语的复杂程度,使对数据库汉语查询 语句的理解能力的提高有了可能,正是在这种背景下,人们开始了对数据库汉语 查询系统的开发与研究【6 】。目前,己见公布成果有,基于受限汉语的数据库自 然语言接口n l c q i ( 暨南大学,许龙飞等) 【7 】,基于e r 模型和受限汉语的关系 数据库汉语查询语言的计算模型r c h i q l ( 北京大学,崔宗军等) 【8 】,数据库汉 语查询接口系统v t c d i s ( 北京信息工程学院,李保利等) 【9 】【1 0 i ,以及其它一 些系统等。对于汉语查询语句理解的研究工作,一般来说,主要沿着两个方向展 开,第一个方向是对基于e r 模型的数据库中的信息进行尽可能多的查询,其 理想结果是,凡是能用s q l 语句实现的查询,当用户用相应的汉语句子表述后, 系统应能理解并转换为相应的s q l 语句,进而很到相应的查询信息。第二个方向 注重对数据库中隐含知识的研究,即不但能对数据库中的已有信息进行类似于 s q l 语句的查询,还能对数据库中的隐含知识进行理解并给出相应查询体现了 计算机的智能性【1 1 】。对人来说,就像与人交流样,可以使用相应的自然语 言中的概念,真正实现了方便和易用。在这个方向上,也还有较多的工作需要去 做。 本论文主要研究基于中文自然语言的数据库检索技术即直接输入中文语句 6 南京邮电大学硕:l 学位论文 前言 对数据库进行检索( 查询) ,为数据检索提供更为灵活易用的手段。实现的过程 大致如下:首先,对用户输入的中文自然语言采用最大匹配法切分数值,然后, 采用最大匹配法切分与数据库有关的表名、字段名、字段值;其次,递归调用最 大模板匹配法对语句进行匹配直到无法匹配为止:再次,把在匹配过程中切分 出来的词典及模板按照树状结构进行语义分析及组合,生成中间结果链表:最后, 通过分析模块,把中间结果链表转换为s q l 语句再把s q l 语句直接传递给数 据库,把返回的褒询结果显示在查询界面上【1 2 】。 本论文主要提出了适用于数据库检索的最大模板匹配算法,并详细介绍了使 用该算法实现的数据库检索接口技术。在第一章中,主要介绍了数据库检索的中 文自然语言接口技术的背景及概况,以及其中的技术难点,同时对国内外的研究 情况作了说明,并简单介绍了常用的一些分词算法;在第二章中,针对中文自然 语言应用在数据库检索这一特殊领域,提出了模板匹配算法这一新的分词算法, 并对该算法的原理、特点、算法及如何实现做了详尽的描述:在第三章中,以模 板匹配算法为基础,描述了实现数据库检索的中文自然语言接口的详细过程。并 利用该接口技术实现了敦职工工资查询系统的一个范例。 南京邮电大学硕士学位论文第一章 数据库检索的中文自然语言接1 2 1 技术背景研究 第一章数据库检索的中文自然语言接口技术背景 研究 1 1 简介 随着数据库应用及信息检索系统的广泛普及,越来越多的非专业用户需要 一种易于掌握的界面去访问所需的信息。数据库自然语言接口显然最符合这类用 户的要求。它提供了用户直接以人类语言( 而不是人工语言或机器语言) 的方式 向数据库系统发问咀获得所需的信息,从而大大改善了人机交互的容易程度。数 据库自然语言接口【1 3 】【1 4 1 【1 5 】本质上是指允许用户用自然的语言对数据库 的内容提出各种操作要求,然后由系统自动地将其转换为数据库的操作语言,从 而在数据库中查询到正确的信息,提供给用户。它沟通了现实世界与机器世界对 信息的不同理解方式。因此它是多学科交叉的产物涉及数据库系统、自然语言 处理、人工智能、人机界面等多方面研究。许多年来,它作为智能界面的重要组 成部分引起了人们广泛的兴趣,成为具有重要理论价值和巨大实用价值的研究领 域。广义上讲,数据库自然语言接口应当包括数据定义、数据更新和数据查询等 功能,旨在为与数据库有关的各种操作提供一个易于使用的环境【1 6 】。狭义上 讲,数据库自然语言接口仅仅指自然语言查询接口。这主要是因为:对普通用 户而言,查询操作是使用最为频繁和最为重要的;数据库自然语言接口的主要 技术问题都集中在自然语言查询处理的过程中。目前该领域9 0 以上研究工作 都是针对自然语言查询处理的。本文的研究也将以这种狭义上的数据库自然语言 接口为研究对象。因此在下面的讨论中,我们使用数掘库自然语言查询处理来界 定我们的研究。但在一般性讨论中,仍然使用数据库自然语言接口这一用词。 3 0 多年来,数据库自然语言接1 :3 方面的研究取得了很大进步,但迄今为止 还处在研究实验阶段,其系统还没有能够广泛地推广应用,其中还有许多技术问 题需要进一步研究解决。特别在今天,随着自然语言处理技术的不断发展以及计 算机的汉语手写及语音输入技术的同益成熟,数据库自然语言接口系统必然会得 到广泛应用,从而极大地提高数据库系统的易用性。 目前困扰数据库自然语言接1 :3 研究的主要问题可归纳为以下3 方面【1 3 】 旦堕垡型墅燮主兰些然兰 苎二主墼堡垦丝壁塑主兰i 整受宣壁! 垫查! ! 墨笪塞 第一章 数据库检索的中文自然语言接口技术背景 研究 1 1 简介 随着数据库应用及信息检索系统的广泛普及,越来越多的非专业用户需要 一种易于掌握的界面去访问所需的信息。数据库自然语苦接口显然最符合这类用 户的要求。它提供了用户直接以人类语言( 而不是人工语言或机器语言) 的方式 向数据库系统发问蚍获得所需的信息,从而大大改善了人机交互的容易程度。数 据库自然语言接口【1 3 】【1 4 】【1 5 1 本质上是指允许用户用自然的语占对数据库 的内容提出各种操作要求,然后由系统自动地将其转换为数据库的操作语言,从 而在数据库中查询到正确的信息,提供给用户。它沟通了现实世界与机器世界对 信息的不同理解方式。因此它是多学科交叉的产物,涉及数据库系统、自然语言 处理、人工智能、人机界面等多方面研究。许多年来,它作为智能界面的重要组 成部分引起了人们广泛的兴趣,成为具有重要理论价值和巨大实用价值的研究领 域。广义上讲,数据库自然语言接口应当包括数据定义、数据更新和数据查询等 功能,旨在为与数据库有关的各种操作提供一个易于使用的环境【1 6 1 。狭义上 讲,数据库自然语言接口仅仅指自然语言查询接口。这主要是因为:对普通用 户而言查询操作是使用最为频繁和最为重要的;数据库自然语占接口的主要 技术问题都集中在自然语言查询处理的过程中。目前该领域9 0 以上研究工作 都是针对自然语言查询处理的。本文的研究也将以这种狭义上的数据库自然语言 接口为研究对象。凼此在下面的讨论中,我们使用数据库自然语言查询处理来界 定我们的研究。但在一般性讨论中,仍然使用数据库自然语言接口这一用词。 3 0 多年来。数据库自然语言接口方面的研究取得了很大进步,但迄今为止 还处在研究实验阶段,其系统还没有能够广泛地推广应用,其中还有许多技术问 题需要进一步研究解决。特别在今天随着自然语言处理技术的不断发展以及计 算机的汉语手写及语音输入技术的r 益成熟,数据库自然语言接口系统必然会得 到广泛应用从而极大地提高数据库系统的易用性。 目前困扰数据库自然语言接口研究的主要问题可归纳为以下3 方面【1 3 】 目前困扰数据库自然语言接口研究的主要问题可归纳为以下3 方面【1 3 】 复堕塑电大兰坠学位论文 第一章 数据库检索的中文自然语言接口技术背景研究 【1 4 1 【1 5 】【1 6 【1 7 : ( 1 ) 系统的可移植性问题,如应用领域可移植性、d b m s 可移植性和自然语 言可移植性。目前语言的移植尚难以实现。因此我们所关心的是前两类可移植性; ( 2 ) 系统的可用性问题,如语言范畴和系统的概念范畴的在语言处理中的失 配现象、歧义现象以及语言表述中的指代、省略等现象; ( 3 ) 自然语言的受限问题有3 个:受限方式;受限程度:如何让用户 理解这种受限。受限问题解决的好坏直接影响系统的范围失配问题。受限程度过 强,使得系统的语言范围过窄,容易出现范围失配:受限程度过弱系统实现难 度加大,系统可用性同样难以提高。 1 2 数据库自然语言接口研究的可行性 自然语言是人类用来传递信息、交流思想感情的媒介,它是一个非常庞大 复杂、又在不断发展演变的开放式符号系统,其中存在着大量的歧义性和模糊性 现象,是一个“不规则”系统。要从根本上整体上理解处理自然语言目前的理论 和技术都还有差距,但如果把自然语言限制在一定范围内,也就是应用于它的一 个子集。特别是在某一具体的数据库接口上则应该是完全可行的。吕光循、陈清 波等人曾经总结了这神可能性【1 8 1 : ( 1 ) 数据库中的内容一定是明确的、有限的,而用户的提问又总是围绕着 数据库进行的。因此提问中的名词必为数据库概念模式中定义的词或其同义词、 或可由它们定义的词。提问中的动词一般为数据库操作命令词、或与数据库关系 名属性名有关的领域性动词。 ( 2 ) 由于是向数据库提问,不可能出现带有感情色彩的词汇,也杜绝了成 语俚语的出现。 ( 3 ) 句型有所限制句法有所简化,例如只剩下了祈使句、疑问旬及相应 的省略旬。 ( 4 ) 歧义性和上下文相关现象大量减少,且有一定的规则可循。 ( 5 ) 更重要的一点是由于接口的最终目的是把自然语言转换成数据库内 部查询语言,所以它并不要求完全彻底地去理解语言的深层含义。只要我们从语 言的功能结构和语义的某些特征上去分析处理它。达到转换的目的就行了。 9 南京邮电大学硕士学位论文第一章 数据库检索的中文自然语言接口技术背景研究 1 3 国外数据库自然语言接口的研究状况 国外有关数据库自然语言查询接口的研究可以追溯到本世纪六十年代。早 期的代表作是格林的b a s e b a l l 系统 9 1 【1 0 】,这是一个专用数据库接口系 统。该系统的数据库中记载着一年内美国全国棒球联赛的各种信息,系统允许用 户用限定的英语进行查询。与其他早期的自然语言处理系统一样,b a s e b a l l 上对英语的分析策略主要依赖于关键字匹配技术。 美国的伍兹( w a w o o d s ) 设计的l u n a r 系统是七十年代自然语言专用 接口的代表【1 9 1 。该系统利用英语对美国国家兢空和航天管理局提供的一个从 月球上采集的岩石标本的数据库进行查询。l u n a r 系统的一个重要特点是对英 语的句法和语义做出了比较深入的分析,它是借助于扩充转移网络a t n 来处理 句法问题的第一个程序。 尽管b a s e b a l l 、l q a r 和其他一些自然语言专用接口可以出色地完成 指定领域的数据库查询任务,但是要把它们移植到其他应用领域非常困难。因此, 人们开始探索通用接口的设计。所谓通用接口就是一种用来设计和调试各种自然 语言接口的开发工具( 或支撑环境) ,专用接口的建造者利用它可以很快地建立起 特定领域的词典、旬式和相应的响应式。这样做的好处主要是使新系统的设计开 发可以复用已有的成果,从而缩短系统的设计、调试周期,避免大量的重复性劳 动。 1 9 7 8 年美国国际人工智能研究所( s r i ) 的汉德雷斯( c h e n d r i x ) 等人设计的 l i f e r 系统就是一个自然语言通用接口【2 0 】。该系统包括两个主要部分:一组 交互式的语言说明函数,用来定义一种面向应用领域的自然语言子集;一个分析 程序,对输入的自然语言做出解释,即把输入句子翻译成为可以对特定数据库直 接进行查询的命令。这种通过将分析程序与知识库相分离来扩展系统的做法成为 建造通用接1 2 的基本思路。值得指出的是,汉德雷斯在描述语言时采用了“语义 语法”。这种方法提高了自然语言的处理速度,所以后来被许多实时处理的自然 语言系统所采用。在美国利用l i f e r 通用接口已经建立了一批自然语言的专用 接口,如美国海军使用的l a d d e r 系统。 1 9 8 3 年首批自然语言接1 2 系统打进了国际市场,标志着一个具有广阔前景 的语言产业的崛起。如美国人工智能公司( a i c ) 率先推出的i n t e l l e c t 系统美国 o 南塞邮电大学硕士学位论文 第一章 数据库检索的中文自然语言接口技术背景研究 f r e ya s s o c i a t e s 的t h e m i s 系统,美国加利福尼亚工学院的a s k 系统等。 在轰轰烈烈的研究中,一些学者过分乐观地认为自然语言接口的应用会持 续增加,广泛应用的时代即将至0 来。但不幸的是,8 0 年代末、9 0 年代初图形用 户接1 3 技术的巨大进步极大地冲击了自然语言接口的研究。因为,图形用户接口 解决了许多人们原来期望自然语言接口才能解决的问题:自然语言处理的诸多困 难又使n l i ( n a t u r a ll a n g u a g ei n t e r f a c e 自然语言接口) 与g u i ( g r a p h i c su s e r i n t e r f a c e 图形用户接口) 相比没有优势可言。因此:自那以后,自然语言接口的 研究开始受到冷落。这一点从这些年有关n l i 方面的论文数量上就可以明显看 到。 进入九十年代后。尽管自然语言接口方面的研究没有八十年代中期那样轰 轰烈烈,但是依然有一大批学者在从事这方面的研究,也有一些试验性或商用的 自然语言接口系统出现,如b b n 公司的p a r l a n c e 、b i m 公司l o q u i 、s r i 的c l a r e 、微软公司在s q ls e r v e r6 5 7 0 中提供的e n g l i s hq u e r y 、加拿大 s i m o nf r a s e r 大学开发的s y s t e m x 等。它们除了在系统可用性和可移植性方面有 所发展外,在自然语言接口评价、领域知识的自动获取、系统的体系结构以及探 索使用新的理论( 如h p s g 、人工神经网络、统计与规则相结合) 等方面取得了新 的进展。 1 4 国内数据库中文自然语言接口的研究状况 汉语数据库接口系统的研究起于本世纪七十年代未期。1 9 8 0 年中国社会科 学院语言研究所的范继淹、徐志敏设计实现的r j d 一8 0 汉语人机对话系统,成 为国内第一个汉语接口实验系统。该系统的处理技术以转换生成语法和扩充转移 网络语法为基础。 八十年代初,我国人工智能界的学者丌始对汉语人一机接口技术予以重视。 不仅设计了一批专用的汉语接口系统,如清华大学陈群秀和赵琦为该校的汽车调 度专家系统设计的汉语专用接口c n l i e s 等;而且在1 9 8 6 年研制出了第一批汉 语通用接1 2 1 ,如清华大学的s p s 和z p s 系统、华中理工大学的e r t v 系统、 上海工业大学的l i g c 系统等。此外,汉语的人一机接口系统还被列为国家“七 五”科研攻关项目。 查室苎皇盔兰堡圭兰笪堡塞 第一章 数据库检索的中文自然语言接口技术背景研究 综观十几年来数据库中文自然语言查询接口的研究 2 1 】,这些实验系统采 用的技术主要有:关键词匹配、句法模式匹配、语义语法、扩充转移网络( a t n ) 等,主流技术基本上以词汇驱动、句法语义处理一体化为特征,将通用知识库与 领域专用知识库相分离,利用学习模块获取领域专用知识,以此达到一定程度的 可移植性。总的说来,这方面研究的进展缓慢,多数系统只停留在原型系统的水 平,未考虑向实用系统转化。 最近几年,越来越多的学者重新认识到中文自然语言查询接口研究的理论 意义和应用价值。中国人民大学、香港中文大学和北京大学在国家自然科学基金 重点项目支持下,开展了“中文数据库系统及其语言和界面研究”。从查询语言 分析、受限处理、界面管理和领域知识自动提取等方面进行了多方位深入探索, 已经取得了一定的研究成果。 1 5 自然语言处理技术 随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。 自然语言处理是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机 科学特别是从人工智能的观点看,自然语言处理的任务是建立一种计算机模型。 这种计算机模型能够给出象人那样理解、分析并回答自然语言( 即人们日常使用 的各种通俗语言) 的结果。 现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平 而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解 一般是从实用的角度进行评判的。如果计算机实现了人机会话1 2 2 】,或机器翻 译 2 3 】,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言处理 的能力。 1 5 1 自然语言处理技术概述 自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的( 如汉 语、英语) 语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题, 通过对话的方式,用自然语言进行回答。目的在于建立起一种入与机器之闯的密 切而友好的关系,使之能进行高度的信息传递与认知活动。自然语言处理系统可 塞塞塑皇查兰堡圭堂堡堡苎兰二皇 墼塑壁丝塞塑主苎鱼鉴堕宣鳖旦垫查笪墨塑塞 以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机按1 3 ,有 很大的实用价值。 自然语言处理研究在电子计算机问世之初就开始了,并于5 0 年代初开展了 机器翻译试验。当时的研究方法还不能称作带有“智能”。到了6 0 年代乔姆斯基 的转换生成语法得到广泛的认可,生成语法的核心是短语结构规则,分析句子结 构的过程就是利用规则自顶向下或自底向上的句法树生成过程。 由于认识到生成语法缺少表示语义知识的手段,在7 0 年代随着认知科学的 兴盛,研究者又相继提出了语义网络、格框架等语义表示理论。这些语法和语义 理论经过各自的发展,逐渐开始趋于相互结合。到s o 年代一批新的语法理论脱 颢而出。具有代表性的有词汇功能语法l f g ( l e x i c a lf u n c t i o ng r a m m a r ) 、功能 合一语法f u g ( f u n c t i o nu n i t e dg r a m m a r ) 和广义短语结构语法g p s g ( g e n e r a l i z e dp h r a s es t r u c t u r eg r a m m a r ) 等【2 4 】。 这些基于规则的分析方法可以称之为自然语言处理中的“理性主义”。现有 的手段虽然基本上掌握了单个句子的分析技术,但是还很难覆盖全面的语言现 象,特别是对于整个段落或篇章的理解还无从下手。 与“理性主义”相对的是“经验主义”的研究思路,主要是指针对大规模 语料库的研究。语料库是大量文本的集合。计算机出现后,语料可以方便地存贮 起来,利用计算机查找也很容易。随着电子出版物的出现,采集语料也不再成为 困难。最早于6 0 年代编制的b r o w n 和l o b 两个计算机语料库,分别具有1 0 0 万词的规模。进入9 0 年代可以轻易列举出的语料库有几十个之多,如d c i 、e c i 、 i c a m e 、b n c 、l d c 、c l r 等,其规模最高达到1 0 9 数量级。 对语料库的研究分成3 个方面:工具软件的丌发、语料库的标注、基于语 料库的语言分析方法。采集到以后未经处理的生语料不能直接提供有关语言的各 种知识,只有通过词法、句法、语义等多层次的加工才能使知识获取成为可能。 加工的方式就是在语料中标注各种记号标注的内容包括每个词的词性、语义项、 短语结构、句型及旬间关系等。随着标注程度的加深语料库逐渐熟化成为一个 分布的、统计意义上的知识源。利用这个知识源可以进行许多语言分析工作,如 根据从已标注语料中总结出的频度规律可以给新文本逐词标注词性t 划分句子成 分等。 堕塞塑皇查堂堕生学位论文 第一章 数据库检索的中文自然语言接口技术背景研究 语科库提供的知识是用统计强度表示的,而不是确定性的,随着规模的扩 大,旨在覆盖全面的语言现象。但是对于语言中基本的确定性的规则仍然用统计 强度的大小去判断,这与人们的常识相违背。这种“经验主义”研究中的不足要 靠“理性主义”的方法来弥补。两类方法的融合也正是当前自然语言处理发展的 趋势。 1 5 2 自然语言处理系统的发展阶段 自然语言处理系统的发展可以分为第一代系统和第二代系统两个阶段。第 一代系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法:第二 代系统则开始引进语义甚至语用和语境的因素几乎完全抛开了统计技术。 第一代自然语言处理系统又可分为四种类型: ( 1 ) 特殊格式系统 早期的自然语言处理系统大多数是特殊格式系统,根据人机对话内容的特 点,采用特殊的格式来进行人机对话。1 9 6 3 年,林德赛( r l i n d s a y ) 在美国卡 内基技术学院用i p l v 表处理语言设计了s a d - - s a m 系统,就采用了特殊格 式来进行关于亲属关系方面的人机对话,系统内建立了一个关于亲属关系的数据 库,可接收关于亲属关系方面的问题的英语句子提问,用英语做出回答。1 9 6 8 年,波布洛( d b o b r o w ) 在美国麻省理工学院设计了s t u d e n t 系统,这个系 统把高中代数应用题中的英语句子归纳为一些基本模式。由计算机来理解这些应 用题中的英语句子,列出方程求解,并给出答案。六十年代初期,格林( b g r e e n ) 在美国林肯实验室建立了b a s e b a l l 系统,也使用i p l v 表处理语言,系统 的数据库中存贮了关于美国1 9 5 9 年联邦棒球赛得分记录的数据,可回答有关棒 球赛的一些问题。该系统的句法分析能力较差,输入句子十分简单,没有连接词, 也没有比较级形式的形容词和副词,主要靠一部机器词典来进行单词的识别,使 用了1 4 个词类范畴,所有的问题都采用一种特殊的规范表达式回答。 ( 2 ) 以文本为基础的系统 某些研究者不满意在特殊格式系统中的种种格式限制,因为就一个专门领 域来说,最方便的还是使用不受特殊格式结构限制的系统来进行人机对话,这就 出现了以文本为基础的系统,1 9 6 6 年西蒙( r e s i m m o n s ) 、布尔格( j eb u r g e r ) 堕塞坚皇查兰堡圭堂垡笙宴 第一章 数据库检索的中文自然语言接口技米背景研究 和龙格( r e l o n g ) 设计的p r 0 1 d s y n t h e x i 系统,就是以文本信息的存贮 和检索方式工作的。 ( 3 ) 有限逻辑系统 有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自然语 言的句子以某种更加形式化的记号来替代,这些记号自成一个有限逻辑系统,可 以进行某些推理。1 9 6 8 年,拉菲尔( b r a p h a e l ) 在美国麻省理工学院用l is p 语言建立了s i r 系统,针对英语提出了2 4 个匹配模式,把输入的英语句子与这 些模式相匹配,从而识别输入句子的结构,在从存贮知识的数据库到回答问题的 过程中,可以处理人们对话中常用的一些概念,如集合的包含关系、空间关系等 等,并可进行简单逻辑推理。机器并能在对话中进行学习,记住已学过的知识, 从事一些初步的智能活动。1 9 6 5 年,斯莱格勒( j r s l a g l e ) 建立了d e d u c o m 系统,可在情报检索中进行演绎推理。1 9 6 6 年桑普逊( e b t h o m p s o n ) 建立 了d e a c o n 系统,通过英语来管理一个虚构的军用数据库,设计中使用了环结 构和近似英语的概念来进行推理。1 9 6 8 年,凯罗格( c k e l l o g ) 在i b m 3 6 0 6 7 计算机上,建立了c o n v e r s e 系统,该系统能根据关于美国1 2 0 个城市的1 0 0 0 个事实的文件来进行推理。 ( 4 ) 一般演绎系统 一般演绎系统使用某些标准数学符号( 如谓词演算符号) 来表达信息。逻 辑学家们在定理证明工作上取得的全部成就,就可以用来作为建立有效的演绎系 统的根据,从而能够把任何一个问题用定理证明的方式表达出来,并实际地演绎 出所需要的信息,用自然语言做出回答。一般演绎系统可以表达那些在有限逻辑 系统中不容易表达出来的复杂信息,从而进一步提高了自然语言处理系统的能 力。1 9 6 8 1 9 6 9 年,格林和拉菲尔建立的q a 2 。q a 3 系统,采用谓词演算的方 式和格式化的数据( f o r m a t t e dd a t a ) 来进行演绎推理,解答问题,并用英语做出 回答,这是一般演绎系统的典型代表。 1 9 7 0 年以来,出现了一定数量的第二代自然语言处理系统,这些系统绝大 多数是程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的 系统是l u n a r 系统、s h r d l u 系统、m a r g i e 系统、s a m 系统、p a m 系统。 l u n a r 系统是伍兹( w w o o d s ) 于1 9 7 2 年设计的一个自然语言情报检索 南京邮电大学硕士学位论文第一章数据库检索的中文自然语言接口技术背景研究 系统。这个系统采用形式提问语言( f o r m a lq u e r yl a n g u a g e ) 来表示所提问的语义, 从而对提问的句子做出语义解释,最后把形式提问语言执行于数据库,产生出对 问题的回答。 s h r d l u 系统是维诺格拉德( t w i n o g r a d ) 于1 9 7 2 年在美国麻省理工学院 建立了一个用自然语言指挥机器人动作的系统。该系统把句法分析、语义分析、 逻辑推理结合起来。大大地增强了系统在语言分析方面的功能。该系统对话的对 象是一个具有简单的“手”和“眼”的玩具机器人,它可以操作放在桌子上的 具有不同颜色、尺寸和形状的玩具积木,如立方体、棱锥体、盒子等,机器人能 够根据操作人员的命令把这些积木捡起来,移动它们去搭成新的积木结构,在入 机对话过程中,操作人员能获得他发给机器人的各种视觉反馈,实时地观察机器 人理解语言、执行命令的情况。在电视屏幕上还可以显示出这个机器人的模拟形 象以及它同一个真正的活人在电传机上自由地用英语对话的生动情景。 m a r g i e 系统是杉克( r s c h a n k ) 于1 9 7 5 年在美国斯袒福人工智能实验室 研制出来的。该系统的目的在于提供一个自然语言处理的直观模型。系统首先把 英语句子转换为概念依存表达式,然后根据系统中有关信息进行推理,从概念依 存表达式中推演出大量的事实。由于人们在理解甸子时,总要牵涉到比句子的外 部表达多得多的内容,因此,该系统的推理有1 6 种类型,如原因、效应、说明、 功能等等,最后,把推理的结果转换成英语输出。 s a m 系统是阿贝尔森( r a b e l s o n ) 于1 9 7 5 年在美国耶鲁大学建立的。这 个系统采用“脚本”( s c r i p t ) 的办法来理解自然语言写的故事。所谓脚本,就是 用来描述人们活动( 如上饭馆、看病) 的一种标准化的事件系列。 p a m 系统是威林斯基( r w i l e n s k y ) 于1 9 7 8 年在美国耶鲁大学建立的另一 个理解故事的系统。p a m 系统也能解释故事情节,回答问题,进行推论- 做出 摘要。它除了“脚本”中的事件序列之外,还提出了“计划”( p l a n ) 作为理解 故事的基础。所谓“计划”,就是故事中的人物为实现其目的所要采取的手段。 如果要通过“计划”来理解故事,就要找出人物的目的以及为完成这个目的所采 取的行动。系统中设有一个“计划库”( p l a nb o x ) 。存贮着有关各种目的的信息 以及各种手段的信息。这样在理解故事时,只要求出故事中有关情节与计划库 中存贮的信息相重合的部分,就可以理解到这个故事的i f l 的是什么。当把一个一 1 6 个的故事情节与脚本匹配出现障碍时,由于“计划库”中可提供关于一般目的的 信息,就不致造成故事理解的失败。 上述的系统都是书面的自然语言处理系统,输入输出都是用书面文字。1 3 头的自然语言处理系统,还牵涉到语音识别、语音合成等复杂的技术,显然是更 加困难的课题,口头自然语言处理系统的研究近年来也有进展。 自然语言处理技术大致可分为机器翻译、语义理解及人机会话技术几个方 面。其中机器翻译( m a c h i n et r a n s l a t i o n ) ,又称机译( m t ) 2 5 】,是利用计算机把 一种自然语言转变成另一种自然语言的过程。机器翻译的研究工作已经进行了许 多年,虽然目前还没有完全实现机器翻译代替人工翻译的目标,但已经取得了很 大的成就【2 6 】1 2 7 。智能搜索引擎在这一领域的研究将使得用户可以使用母语 搜索非母语的网页,并以母语浏览搜索结果。语义理解通过将语言学的研究成果 和计算机技术结合在一起,实现了对词语在语义层次上的理解。人机会话技术可 以为计算机提供下一代的人机交互接口,实现从文字接口、图形接口到自然语言 接口的革命,同时在家用电器的人性化设计方面有着广泛的应用前景,其技术内 涵主要包括语音识别、语音合成两个核心部分。 在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语 句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提 供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质 量和速度的重要前提。尤里卡的智能分词避免了传统分词技术在拆分时产生的歧 义组合。从而为语义理解的处理提供了良好的原始材料。同时在分词的过程中, 知识库当中的同义词会被逐个匹配著同时提交给语义理解模块使用,这样处理过 的句子,不仅提供了原始的句型,还同时搭载了语句的概念部分。 1 5 3 自然语言处理技术的开发过程 中文与西文相比最大的特点是不以标识进行分词,简单地说就是西文 的字与字之间以空格或标点区分。而汉语是连贯的,只有语句结束,才用标点加 以标识。这就为智能问答技术的本土化带来了一定的难度。事实上相当于独立开 发一套针对中文的系统。n l q ( n a t u r a ll a n g u a g eq u e r y ) 的开发分两个阶段进行。 第一阶段:模型训练 南京邮电大学硕士学位论文 第一章数据库检索的中文自然语盲接口技术背景研究 在这个阶段的工作主要分为以下4 个部分。首先是进行中文分词。如上所 述,中文的特性使“分词”具有定的难度,尤其是对人名和地名的分词,但这 又是比较关键的一步。北极星的研究人员运用了马尔克夫模型算法进行无需词库 的中文分词。准确率可以达到9 9 以上。并且非常好地解决了人名、地名的分 词问题。第二部分为提取关键词。通过对大量文本,如新华字典、百科全书、报 纸新闻等( 如果是企业内部使用,则专门对本企业的数据资源) 进行统计,将出 现频率满足一定条件的词作为关键词提取出来。第三部分为构造特征向量。根据 关键词提取情况,以改进的t f i d f 的算法为每一个问题构造一个特征向量。最 后为向量存储。就是将特征向量以高速多维索引文件的形式存入硬盘,以备索取 和查询。由于其使用了完全自主实现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论