数据库检索的中文自然语言接口技术研究论文.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-24 格式：PDF 页数：57 大小：1.61MB 积分：0 举报 版权申诉

已阅读5页，还剩52页未读，继续免费阅读

数据库检索的中文自然语言接口技术研究论文.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京邮电大学硕士学位论文摘要学科专业工学计算机应用技术研究方向计算机在通信中的应用作者 j 塑竺级研究生赵元正指导教师垂丝整题目数据库检索的中文自然语言接口技术研究英文题目 r e s e a r c ho nc h i n e s en a t u r a l l a n g u a g e i n t e r f a c e t e c h n o l o g yo fd a t a b a s er e t r i e v i n g 主题词中文自然语言处理最大模板匹配算法数据库查询接口 s q l 语言 k e y w o r d s c n l pm a x i m u mt e m p l a t em a t c h i n gm e t h o d d a t a b a s e q u e r yi n t e r f a c es q l 南京邮电走学硕士学位论文摘要随着互联网络高速发展从浩瀚的信息中检索到自己所需要的信息己变得非常重要直接使用中文自然语言进行信息检索成为人们研究的热点本论文主要研究的是对数据库进行检索的中文自然语言接口技术该接口技术对终端用户输入的中文自然语言进行处理生成s q l 语句再使用s q l 语句进行数据库检索首先介绍了数据库检索的中文自然语言接口技术的背景及概况以及其中的技术难点同时对国内外的研究情况作了说明并简单介绍了常用的一些算法其次针对中文自然语言应用在数据库检索这一特殊领域作者提出了非常适用于数据库捡索的最大模板匹配法这一新的分词算法该算法具有速度快查准率高等特点并对该算法的原理特点算法及如何实现做了详尽的描述最后以最大模板匹配算法为基础描述了实现数据库检索的中文自然语言接口的详细过程并利用该接口技术实现了校园教职工工资查询系统的一个范倒关键词中文自然语言处理最大模板匹配法数据库查询接口 s q l 语言南京邮电走学硬士学位论文 a b s t r a c t w i t ht h eh i g h s p e e dd e v e l o p m e n to f i n t e r n e t i t sg e t t i n gm o r e i m p o r t a n tt or e t r i e v et h ei n f o r m a t i o nw en e e df r o m v o l u m i n o u si n f o r m a t i o n i tb e c o m e st h er e s e a r c h i n gh o t s p o tt h a tr e t r i e v i n gi n f o r m a t i o nb yc h i n e s e n a t u r a ll a n g u a g en o w a d a y s t h i sa r t i c l e m a i n l y r e s e a r c h e st h ei n t e r f a c e t e c h n o l o g yt h a t r e t r i e v e sd a t af r o md a t a b a s eb yc h i n e s en a t u r a ll a n g u a g et h ei n t e r f a c e t e c h n o l o g yp r o c e s s e st h ec h i n e s en a t u r a ll a n g u a g ei n p u tb ye n du s e r t h e n g e n e r a t e sas q ls t a t e m e n tw h i c hr e t r i e v e sr e c o r d sf r o md a t a b a s e f i r s t l y t h i sa r t i c l ei n t r o d u c e s t h eb a c k g r o u n d g e n e r a ls i t u a t i o n a n dt e c h n i c a ld i f f i c u l t i e so ft h ec h i n e s en a t u r a ll a n g u a g ei n t e r f a c e t e c h n 0 1 0 9 yo fd a t a b a s er e t r i e v i n g a 1s ot h ei n t e r n a t i o n a lr e s e a r c h i n g s i t u a t i o ni se x p l a i n e d s o m eg e n e r a la l g o r i t h m sa r ea l s oi n t r o d u c e d s e c o n d l y f o rc h i n e s en a t u r a ll a n g u a g ea p p l i c a t i o ni nt h es p e c i a l f i e l d d a t a b a s er e t r i e y i n g t h ea u t h o ri n t r o d u c e da n e ww o r ds e g m e n t a l g o r i t h m m a x i m u mt e m p l a t em a t c ha l g o r i t h m w h i e hi sv e r ys u i t a b l ef o r d a t a b a s er e t r i e v i n g t h ea l g o r i t h mh a sh i g h s p e e da n dh i g ha c c u r a c y t h e t h e o r y c h a r a c t e r i s t i c a l g o r i t h ma n d i m d l e m e n t a t i o no f t h ea l g o r i t h m a r e a 1 1d e s c r i b e di nd e t a i l f i n a l l y b a s e do nt h em a x i m u mt e m p l a t em a t c ha l g o r i t h m t h ed e t a i l e d i m p l e m e n t i n gp r o c e s so fc h i n e s en a t u r a ll a n g u a g ei n t e r f a c eo fd a t a b a s e r e t r i e y i n gi sd e s c r i b e d as a m p l ei sa l s oi n t r o d u c e d t h ec a m p u se m p l o y e e s a l a r yq u e r ys y s t e m w h i c ha d o p t st h ei n t e r f a c et e c h n o l o g y k e yw o r d s c n l p m a x m u mt e m p l a t em a t c h i n gm e t h o d d a t a b a s e q u e r y i n t e r f a c e s q l 南京邮电大学硕士学位论文前言日日吾数据库技术 1 的发展给用户带来了各种便利用户可以在设计好的数据库查询界面上通过各个功能按钮和菜单实现各种查询设计人员根据用户的需要设计出各种符合用户需求的数据库查询系统在传统的已设计好的数据库信息管理系统中查询界面的查询内容被设计者作了严格的限制即用户在数据库中查找的信息是固定的用户必须通过设计者给定的查找途径进行相关的查询这种数据库查询系统的优点是由设计入员针对用户常见的查询内容进行设计只要用户能够了解系统给出的查询方法便能查询出相关信息效率较高但缺点是用户是被动地使用查询系统并且不能使用人类最直接的交流工具进行人机交流 2 随着自然语言理解研究的深入在数据库查询系统中应用自然语言理解的技术设计数据库自然语言查询界面己成为自然语言理解研究的具有广泛应用前景的方向之一 3 随着自然语言理解的研究发展人们开发了数据库自然语言界面这种查询界面只需用户用自然语言输入相应的查询要求系统便会给出查询结果由于语音系统的成熟更使这种查询系统的研究受到了重视如果能够开发出较好的数据库自然语言查询界面再配合语音技术便可进行人与系统之间的人机对话查询由此可见这种数据库自然语言查询界面的开发具有广阔的应用前景数据库自然语言查询界面具有以下优点首先用户可以用自然语言进行查询这种查询是主动的任意的就像说话一样用户在查询时可以用自然语言的相关概念特别是可用一些抽象概念进行查询实现了系统的智能化而在传统的数据库信息查询系统中是不可能让用户使用抽象概念进行查询的其次实现了软件的易用性使用户完全摆脱了软件使用方法的束缚用户只需把查询要求用文字表达出来系统就可进行处理再次交互性当用户与系统出现交流困难时可进行交互使查询能够进行下去在数据库自然语言界面的查询中对用户输入的用自然语言表示的查询语句的理解是一个关键问题所以数据库自然语言界面的查询研究工作的重点即是南京邮电大学硕士学位论文对汉语查询语句中查询信息的研究由于对查询语句的理解能力和水平反映了一个数据库自然语言查询系统的智能水平所以对汉语查询语句中查询信息的研究工作具有一定的理论和应用价值对查询语句中查询信息的研究主要是对查询语句中的查询条件和查询目标的识别数据库自然语言查询的研究是自然语言理鳃与数据库技术结合的产物国外以英语为主要对象有关数据库自然语言界面的研究始于上世纪六十年代先后出现了一些系统如b a s e b a l l l u n a r l i f e r a s k p a r l a n c e l o q u i 以及微软的s q ls e r v e r 中提供的e n g l i s hq u e r y 数据库查询接口等 4 数据库中文自然语言查询界面具有重大的理论意义和实际价值国内对数据库汉语查询界面的研究始于上世纪七十年代末期进行了多种研究和探索但进展缓慢其主要原因是受汉语的自然语言理解问题的限制自然语言理解特别是汉语自然语言理解的研究是一项长期的工作但把自然语言限制于查询语句上时会受到基于e r 模型的数据库的信息知识与查询语句本身句型及语义的诸多限制称之为受限汉语 5 降低了汉语的复杂程度使对数据库汉语查询语句的理解能力的提高有了可能正是在这种背景下人们开始了对数据库汉语查询系统的开发与研究 6 目前己见公布成果有基于受限汉语的数据库自然语言接口n l c q i 暨南大学许龙飞等 7 基于e r 模型和受限汉语的关系数据库汉语查询语言的计算模型r c h i q l 北京大学崔宗军等 8 数据库汉语查询接口系统v t c d i s 北京信息工程学院李保利等 9 1 0 i 以及其它一些系统等对于汉语查询语句理解的研究工作一般来说主要沿着两个方向展开第一个方向是对基于e r 模型的数据库中的信息进行尽可能多的查询其理想结果是凡是能用s q l 语句实现的查询当用户用相应的汉语句子表述后系统应能理解并转换为相应的s q l 语句进而很到相应的查询信息第二个方向注重对数据库中隐含知识的研究即不但能对数据库中的已有信息进行类似于 s q l 语句的查询还能对数据库中的隐含知识进行理解并给出相应查询体现了计算机的智能性 1 1 对人来说就像与人交流样可以使用相应的自然语言中的概念真正实现了方便和易用在这个方向上也还有较多的工作需要去做本论文主要研究基于中文自然语言的数据库检索技术即直接输入中文语句 6 南京邮电大学硕 l 学位论文前言对数据库进行检索查询为数据检索提供更为灵活易用的手段实现的过程大致如下首先对用户输入的中文自然语言采用最大匹配法切分数值然后采用最大匹配法切分与数据库有关的表名字段名字段值其次递归调用最大模板匹配法对语句进行匹配直到无法匹配为止再次把在匹配过程中切分出来的词典及模板按照树状结构进行语义分析及组合生成中间结果链表最后通过分析模块把中间结果链表转换为s q l 语句再把s q l 语句直接传递给数据库把返回的褒询结果显示在查询界面上 1 2 本论文主要提出了适用于数据库检索的最大模板匹配算法并详细介绍了使用该算法实现的数据库检索接口技术在第一章中主要介绍了数据库检索的中文自然语言接口技术的背景及概况以及其中的技术难点同时对国内外的研究情况作了说明并简单介绍了常用的一些分词算法在第二章中针对中文自然语言应用在数据库检索这一特殊领域提出了模板匹配算法这一新的分词算法并对该算法的原理特点算法及如何实现做了详尽的描述在第三章中以模板匹配算法为基础描述了实现数据库检索的中文自然语言接口的详细过程并利用该接口技术实现了敦职工工资查询系统的一个范例南京邮电大学硕士学位论文第一章数据库检索的中文自然语言接1 2 1 技术背景研究第一章数据库检索的中文自然语言接口技术背景研究 1 1 简介随着数据库应用及信息检索系统的广泛普及越来越多的非专业用户需要一种易于掌握的界面去访问所需的信息数据库自然语言接口显然最符合这类用户的要求它提供了用户直接以人类语言而不是人工语言或机器语言的方式向数据库系统发问咀获得所需的信息从而大大改善了人机交互的容易程度数据库自然语言接口 1 3 1 4 1 1 5 本质上是指允许用户用自然的语言对数据库的内容提出各种操作要求然后由系统自动地将其转换为数据库的操作语言从而在数据库中查询到正确的信息提供给用户它沟通了现实世界与机器世界对信息的不同理解方式因此它是多学科交叉的产物涉及数据库系统自然语言处理人工智能人机界面等多方面研究许多年来它作为智能界面的重要组成部分引起了人们广泛的兴趣成为具有重要理论价值和巨大实用价值的研究领域广义上讲数据库自然语言接口应当包括数据定义数据更新和数据查询等功能旨在为与数据库有关的各种操作提供一个易于使用的环境 1 6 狭义上讲数据库自然语言接口仅仅指自然语言查询接口这主要是因为对普通用户而言查询操作是使用最为频繁和最为重要的数据库自然语言接口的主要技术问题都集中在自然语言查询处理的过程中目前该领域9 0 以上研究工作都是针对自然语言查询处理的本文的研究也将以这种狭义上的数据库自然语言接口为研究对象因此在下面的讨论中我们使用数掘库自然语言查询处理来界定我们的研究但在一般性讨论中仍然使用数据库自然语言接口这一用词 3 0 多年来数据库自然语言接1 3 方面的研究取得了很大进步但迄今为止还处在研究实验阶段其系统还没有能够广泛地推广应用其中还有许多技术问题需要进一步研究解决特别在今天随着自然语言处理技术的不断发展以及计算机的汉语手写及语音输入技术的同益成熟数据库自然语言接口系统必然会得到广泛应用从而极大地提高数据库系统的易用性目前困扰数据库自然语言接1 3 研究的主要问题可归纳为以下3 方面 1 3 旦堕垡型墅燮主兰些然兰苎二主墼堡垦丝壁塑主兰i 整受宣壁垫查墨笪塞第一章数据库检索的中文自然语言接口技术背景研究 1 1 简介随着数据库应用及信息检索系统的广泛普及越来越多的非专业用户需要一种易于掌握的界面去访问所需的信息数据库自然语苦接口显然最符合这类用户的要求它提供了用户直接以人类语言而不是人工语言或机器语言的方式向数据库系统发问蚍获得所需的信息从而大大改善了人机交互的容易程度数据库自然语言接口 1 3 1 4 1 5 1 本质上是指允许用户用自然的语占对数据库的内容提出各种操作要求然后由系统自动地将其转换为数据库的操作语言从而在数据库中查询到正确的信息提供给用户它沟通了现实世界与机器世界对信息的不同理解方式因此它是多学科交叉的产物涉及数据库系统自然语言处理人工智能人机界面等多方面研究许多年来它作为智能界面的重要组成部分引起了人们广泛的兴趣成为具有重要理论价值和巨大实用价值的研究领域广义上讲数据库自然语言接口应当包括数据定义数据更新和数据查询等功能旨在为与数据库有关的各种操作提供一个易于使用的环境 1 6 1 狭义上讲数据库自然语言接口仅仅指自然语言查询接口这主要是因为对普通用户而言查询操作是使用最为频繁和最为重要的数据库自然语占接口的主要技术问题都集中在自然语言查询处理的过程中目前该领域9 0 以上研究工作都是针对自然语言查询处理的本文的研究也将以这种狭义上的数据库自然语言接口为研究对象凼此在下面的讨论中我们使用数据库自然语言查询处理来界定我们的研究但在一般性讨论中仍然使用数据库自然语言接口这一用词 3 0 多年来数据库自然语言接口方面的研究取得了很大进步但迄今为止还处在研究实验阶段其系统还没有能够广泛地推广应用其中还有许多技术问题需要进一步研究解决特别在今天随着自然语言处理技术的不断发展以及计算机的汉语手写及语音输入技术的r 益成熟数据库自然语言接口系统必然会得到广泛应用从而极大地提高数据库系统的易用性目前困扰数据库自然语言接口研究的主要问题可归纳为以下3 方面 1 3 目前困扰数据库自然语言接口研究的主要问题可归纳为以下3 方面 1 3 复堕塑电大兰坠学位论文第一章数据库检索的中文自然语言接口技术背景研究 1 4 1 1 5 1 6 1 7 1 系统的可移植性问题如应用领域可移植性 d b m s 可移植性和自然语言可移植性目前语言的移植尚难以实现因此我们所关心的是前两类可移植性 2 系统的可用性问题如语言范畴和系统的概念范畴的在语言处理中的失配现象歧义现象以及语言表述中的指代省略等现象 3 自然语言的受限问题有3 个受限方式受限程度如何让用户理解这种受限受限问题解决的好坏直接影响系统的范围失配问题受限程度过强使得系统的语言范围过窄容易出现范围失配受限程度过弱系统实现难度加大系统可用性同样难以提高 1 2 数据库自然语言接口研究的可行性自然语言是人类用来传递信息交流思想感情的媒介它是一个非常庞大复杂又在不断发展演变的开放式符号系统其中存在着大量的歧义性和模糊性现象是一个不规则系统要从根本上整体上理解处理自然语言目前的理论和技术都还有差距但如果把自然语言限制在一定范围内也就是应用于它的一个子集特别是在某一具体的数据库接口上则应该是完全可行的吕光循陈清波等人曾经总结了这神可能性 1 8 1 1 数据库中的内容一定是明确的有限的而用户的提问又总是围绕着数据库进行的因此提问中的名词必为数据库概念模式中定义的词或其同义词或可由它们定义的词提问中的动词一般为数据库操作命令词或与数据库关系名属性名有关的领域性动词 2 由于是向数据库提问不可能出现带有感情色彩的词汇也杜绝了成语俚语的出现 3 句型有所限制句法有所简化例如只剩下了祈使句疑问旬及相应的省略旬 4 歧义性和上下文相关现象大量减少且有一定的规则可循 5 更重要的一点是由于接口的最终目的是把自然语言转换成数据库内部查询语言所以它并不要求完全彻底地去理解语言的深层含义只要我们从语言的功能结构和语义的某些特征上去分析处理它达到转换的目的就行了 9 南京邮电大学硕士学位论文第一章数据库检索的中文自然语言接口技术背景研究 1 3 国外数据库自然语言接口的研究状况国外有关数据库自然语言查询接口的研究可以追溯到本世纪六十年代早期的代表作是格林的b a s e b a l l 系统 9 1 1 0 这是一个专用数据库接口系统该系统的数据库中记载着一年内美国全国棒球联赛的各种信息系统允许用户用限定的英语进行查询与其他早期的自然语言处理系统一样 b a s e b a l l 上对英语的分析策略主要依赖于关键字匹配技术美国的伍兹 w a w o o d s 设计的l u n a r 系统是七十年代自然语言专用接口的代表 1 9 1 该系统利用英语对美国国家兢空和航天管理局提供的一个从月球上采集的岩石标本的数据库进行查询 l u n a r 系统的一个重要特点是对英语的句法和语义做出了比较深入的分析它是借助于扩充转移网络a t n 来处理句法问题的第一个程序尽管b a s e b a l l l q a r 和其他一些自然语言专用接口可以出色地完成指定领域的数据库查询任务但是要把它们移植到其他应用领域非常困难因此人们开始探索通用接口的设计所谓通用接口就是一种用来设计和调试各种自然语言接口的开发工具或支撑环境专用接口的建造者利用它可以很快地建立起特定领域的词典旬式和相应的响应式这样做的好处主要是使新系统的设计开发可以复用已有的成果从而缩短系统的设计调试周期避免大量的重复性劳动 1 9 7 8 年美国国际人工智能研究所 s r i 的汉德雷斯 c h e n d r i x 等人设计的 l i f e r 系统就是一个自然语言通用接口 2 0 该系统包括两个主要部分一组交互式的语言说明函数用来定义一种面向应用领域的自然语言子集一个分析程序对输入的自然语言做出解释即把输入句子翻译成为可以对特定数据库直接进行查询的命令这种通过将分析程序与知识库相分离来扩展系统的做法成为建造通用接1 2 的基本思路值得指出的是汉德雷斯在描述语言时采用了语义语法这种方法提高了自然语言的处理速度所以后来被许多实时处理的自然语言系统所采用在美国利用l i f e r 通用接口已经建立了一批自然语言的专用接口如美国海军使用的l a d d e r 系统 1 9 8 3 年首批自然语言接1 2 系统打进了国际市场标志着一个具有广阔前景的语言产业的崛起如美国人工智能公司 a i c 率先推出的i n t e l l e c t 系统美国 o 南塞邮电大学硕士学位论文第一章数据库检索的中文自然语言接口技术背景研究 f r e ya s s o c i a t e s 的t h e m i s 系统美国加利福尼亚工学院的a s k 系统等在轰轰烈烈的研究中一些学者过分乐观地认为自然语言接口的应用会持续增加广泛应用的时代即将至0 来但不幸的是 8 0 年代末 9 0 年代初图形用户接1 3 技术的巨大进步极大地冲击了自然语言接口的研究因为图形用户接口解决了许多人们原来期望自然语言接口才能解决的问题自然语言处理的诸多困难又使n l i n a t u r a ll a n g u a g ei n t e r f a c e 自然语言接口与g u i g r a p h i c su s e r i n t e r f a c e 图形用户接口相比没有优势可言因此自那以后自然语言接口的研究开始受到冷落这一点从这些年有关n l i 方面的论文数量上就可以明显看到进入九十年代后尽管自然语言接口方面的研究没有八十年代中期那样轰轰烈烈但是依然有一大批学者在从事这方面的研究也有一些试验性或商用的自然语言接口系统出现如b b n 公司的p a r l a n c e b i m 公司l o q u i s r i 的c l a r e 微软公司在s q ls e r v e r6 5 7 0 中提供的e n g l i s hq u e r y 加拿大 s i m o nf r a s e r 大学开发的s y s t e m x 等它们除了在系统可用性和可移植性方面有所发展外在自然语言接口评价领域知识的自动获取系统的体系结构以及探索使用新的理论如h p s g 人工神经网络统计与规则相结合等方面取得了新的进展 1 4 国内数据库中文自然语言接口的研究状况汉语数据库接口系统的研究起于本世纪七十年代未期 1 9 8 0 年中国社会科学院语言研究所的范继淹徐志敏设计实现的r j d 一8 0 汉语人机对话系统成为国内第一个汉语接口实验系统该系统的处理技术以转换生成语法和扩充转移网络语法为基础八十年代初我国人工智能界的学者丌始对汉语人一机接口技术予以重视不仅设计了一批专用的汉语接口系统如清华大学陈群秀和赵琦为该校的汽车调度专家系统设计的汉语专用接口c n l i e s 等而且在1 9 8 6 年研制出了第一批汉语通用接1 2 1 如清华大学的s p s 和z p s 系统华中理工大学的e r t v 系统上海工业大学的l i g c 系统等此外汉语的人一机接口系统还被列为国家七五科研攻关项目查室苎皇盔兰堡圭兰笪堡塞第一章数据库检索的中文自然语言接口技术背景研究综观十几年来数据库中文自然语言查询接口的研究 2 1 这些实验系统采用的技术主要有关键词匹配句法模式匹配语义语法扩充转移网络 a t n 等主流技术基本上以词汇驱动句法语义处理一体化为特征将通用知识库与领域专用知识库相分离利用学习模块获取领域专用知识以此达到一定程度的可移植性总的说来这方面研究的进展缓慢多数系统只停留在原型系统的水平未考虑向实用系统转化最近几年越来越多的学者重新认识到中文自然语言查询接口研究的理论意义和应用价值中国人民大学香港中文大学和北京大学在国家自然科学基金重点项目支持下开展了中文数据库系统及其语言和界面研究从查询语言分析受限处理界面管理和领域知识自动提取等方面进行了多方位深入探索已经取得了一定的研究成果 1 5 自然语言处理技术随着社会的日益信息化人们越来越强烈地希望用自然语言同计算机交流自然语言处理是计算机科学中的一个引人入胜的富有挑战性的课题从计算机科学特别是从人工智能的观点看自然语言处理的任务是建立一种计算机模型这种计算机模型能够给出象人那样理解分析并回答自然语言即人们日常使用的各种通俗语言的结果现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平而且在可预见的将来也达不到这样的水平因此关于计算机对自然语言的理解一般是从实用的角度进行评判的如果计算机实现了人机会话1 2 2 或机器翻译 2 3 或自动文摘等语言信息处理功能则认为计算机具备了自然语言处理的能力 1 5 1 自然语言处理技术概述自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的如汉语英语语言使得计算机懂得自然语言的含义并对人给计算机提出的问题通过对话的方式用自然语言进行回答目的在于建立起一种入与机器之闯的密切而友好的关系使之能进行高度的信息传递与认知活动自然语言处理系统可塞塞塑皇查兰堡圭堂堡堡苎兰二皇墼塑壁丝塞塑主苎鱼鉴堕宣鳖旦垫查笪墨塑塞以用作专家系统知识工程情报检索办公室自动化的自然语言人机按1 3 有很大的实用价值自然语言处理研究在电子计算机问世之初就开始了并于5 0 年代初开展了机器翻译试验当时的研究方法还不能称作带有智能到了6 0 年代乔姆斯基的转换生成语法得到广泛的认可生成语法的核心是短语结构规则分析句子结构的过程就是利用规则自顶向下或自底向上的句法树生成过程由于认识到生成语法缺少表示语义知识的手段在7 0 年代随着认知科学的兴盛研究者又相继提出了语义网络格框架等语义表示理论这些语法和语义理论经过各自的发展逐渐开始趋于相互结合到s o 年代一批新的语法理论脱颢而出具有代表性的有词汇功能语法l f g l e x i c a lf u n c t i o ng r a m m a r 功能合一语法f u g f u n c t i o nu n i t e dg r a m m a r 和广义短语结构语法g p s g g e n e r a l i z e dp h r a s es t r u c t u r eg r a m m a r 等 2 4 这些基于规则的分析方法可以称之为自然语言处理中的理性主义现有的手段虽然基本上掌握了单个句子的分析技术但是还很难覆盖全面的语言现象特别是对于整个段落或篇章的理解还无从下手与理性主义相对的是经验主义的研究思路主要是指针对大规模语料库的研究语料库是大量文本的集合计算机出现后语料可以方便地存贮起来利用计算机查找也很容易随着电子出版物的出现采集语料也不再成为困难最早于6 0 年代编制的b r o w n 和l o b 两个计算机语料库分别具有1 0 0 万词的规模进入9 0 年代可以轻易列举出的语料库有几十个之多如d c i e c i i c a m e b n c l d c c l r 等其规模最高达到1 0 9 数量级对语料库的研究分成3 个方面工具软件的丌发语料库的标注基于语料库的语言分析方法采集到以后未经处理的生语料不能直接提供有关语言的各种知识只有通过词法句法语义等多层次的加工才能使知识获取成为可能加工的方式就是在语料中标注各种记号标注的内容包括每个词的词性语义项短语结构句型及旬间关系等随着标注程度的加深语料库逐渐熟化成为一个分布的统计意义上的知识源利用这个知识源可以进行许多语言分析工作如根据从已标注语料中总结出的频度规律可以给新文本逐词标注词性t 划分句子成分等堕塞塑皇查堂堕生学位论文第一章数据库检索的中文自然语言接口技术背景研究语科库提供的知识是用统计强度表示的而不是确定性的随着规模的扩大旨在覆盖全面的语言现象但是对于语言中基本的确定性的规则仍然用统计强度的大小去判断这与人们的常识相违背这种经验主义研究中的不足要靠理性主义的方法来弥补两类方法的融合也正是当前自然语言处理发展的趋势 1 5 2 自然语言处理系统的发展阶段自然语言处理系统的发展可以分为第一代系统和第二代系统两个阶段第一代系统建立在对词类和词序分析的基础之上分析中经常使用统计方法第二代系统则开始引进语义甚至语用和语境的因素几乎完全抛开了统计技术第一代自然语言处理系统又可分为四种类型 1 特殊格式系统早期的自然语言处理系统大多数是特殊格式系统根据人机对话内容的特点采用特殊的格式来进行人机对话 1 9 6 3 年林德赛 r l i n d s a y 在美国卡内基技术学院用i p l v 表处理语言设计了s a d s a m 系统就采用了特殊格式来进行关于亲属关系方面的人机对话系统内建立了一个关于亲属关系的数据库可接收关于亲属关系方面的问题的英语句子提问用英语做出回答 1 9 6 8 年波布洛 d b o b r o w 在美国麻省理工学院设计了s t u d e n t 系统这个系统把高中代数应用题中的英语句子归纳为一些基本模式由计算机来理解这些应用题中的英语句子列出方程求解并给出答案六十年代初期格林 b g r e e n 在美国林肯实验室建立了b a s e b a l l 系统也使用i p l v 表处理语言系统的数据库中存贮了关于美国1 9 5 9 年联邦棒球赛得分记录的数据可回答有关棒球赛的一些问题该系统的句法分析能力较差输入句子十分简单没有连接词也没有比较级形式的形容词和副词主要靠一部机器词典来进行单词的识别使用了1 4 个词类范畴所有的问题都采用一种特殊的规范表达式回答 2 以文本为基础的系统某些研究者不满意在特殊格式系统中的种种格式限制因为就一个专门领域来说最方便的还是使用不受特殊格式结构限制的系统来进行人机对话这就出现了以文本为基础的系统 1 9 6 6 年西蒙 r e s i m m o n s 布尔格 j eb u r g e r 堕塞坚皇查兰堡圭堂垡笙宴第一章数据库检索的中文自然语言接口技米背景研究和龙格 r e l o n g 设计的p r 0 1 d s y n t h e x i 系统就是以文本信息的存贮和检索方式工作的 3 有限逻辑系统有限逻辑系统进一步改进了以文本为基础的系统在这种系统中自然语言的句子以某种更加形式化的记号来替代这些记号自成一个有限逻辑系统可以进行某些推理 1 9 6 8 年拉菲尔 b r a p h a e l 在美国麻省理工学院用l is p 语言建立了s i r 系统针对英语提出了2 4 个匹配模式把输入的英语句子与这些模式相匹配从而识别输入句子的结构在从存贮知识的数据库到回答问题的过程中可以处理人们对话中常用的一些概念如集合的包含关系空间关系等等并可进行简单逻辑推理机器并能在对话中进行学习记住已学过的知识从事一些初步的智能活动 1 9 6 5 年斯莱格勒 j r s l a g l e 建立了d e d u c o m 系统可在情报检索中进行演绎推理 1 9 6 6 年桑普逊 e b t h o m p s o n 建立了d e a c o n 系统通过英语来管理一个虚构的军用数据库设计中使用了环结构和近似英语的概念来进行推理 1 9 6 8 年凯罗格 c k e l l o g 在i b m 3 6 0 6 7 计算机上建立了c o n v e r s e 系统该系统能根据关于美国1 2 0 个城市的1 0 0 0 个事实的文件来进行推理 4 一般演绎系统一般演绎系统使用某些标准数学符号如谓词演算符号来表达信息逻辑学家们在定理证明工作上取得的全部成就就可以用来作为建立有效的演绎系统的根据从而能够把任何一个问题用定理证明的方式表达出来并实际地演绎出所需要的信息用自然语言做出回答一般演绎系统可以表达那些在有限逻辑系统中不容易表达出来的复杂信息从而进一步提高了自然语言处理系统的能力 1 9 6 8 1 9 6 9 年格林和拉菲尔建立的q a 2 q a 3 系统采用谓词演算的方式和格式化的数据 f o r m a t t e dd a t a 来进行演绎推理解答问题并用英语做出回答这是一般演绎系统的典型代表 1 9 7 0 年以来出现了一定数量的第二代自然语言处理系统这些系统绝大多数是程序演绎系统大量地进行语义语境以至语用的分析其中比较有名的系统是l u n a r 系统 s h r d l u 系统 m a r g i e 系统 s a m 系统 p a m 系统 l u n a r 系统是伍兹 w w o o d s 于1 9 7 2 年设计的一个自然语言情报检索南京邮电大学硕士学位论文第一章数据库检索的中文自然语言接口技术背景研究系统这个系统采用形式提问语言 f o r m a lq u e r yl a n g u a g e 来表示所提问的语义从而对提问的句子做出语义解释最后把形式提问语言执行于数据库产生出对问题的回答 s h r d l u 系统是维诺格拉德 t w i n o g r a d 于1 9 7 2 年在美国麻省理工学院建立了一个用自然语言指挥机器人动作的系统该系统把句法分析语义分析逻辑推理结合起来大大地增强了系统在语言分析方面的功能该系统对话的对象是一个具有简单的手和眼的玩具机器人它可以操作放在桌子上的具有不同颜色尺寸和形状的玩具积木如立方体棱锥体盒子等机器人能够根据操作人员的命令把这些积木捡起来移动它们去搭成新的积木结构在入机对话过程中操作人员能获得他发给机器人的各种视觉反馈实时地观察机器人理解语言执行命令的情况在电视屏幕上还可以显示出这个机器人的模拟形象以及它同一个真正的活人在电传机上自由地用英语对话的生动情景 m a r g i e 系统是杉克 r s c h a n k 于1 9 7 5 年在美国斯袒福人工智能实验室研制出来的该系统的目的在于提供一个自然语言处理的直观模型系统首先把英语句子转换为概念依存表达式然后根据系统中有关信息进行推理从概念依存表达式中推演出大量的事实由于人们在理解甸子时总要牵涉到比句子的外部表达多得多的内容因此该系统的推理有1 6 种类型如原因效应说明功能等等最后把推理的结果转换成英语输出 s a m 系统是阿贝尔森 r a b e l s o n 于1 9 7 5 年在美国耶鲁大学建立的这个系统采用脚本 s c r i p t 的办法来理解自然语言写的故事所谓脚本就是用来描述人们活动如上饭馆看病的一种标准化的事件系列 p a m 系统是威林斯基 r w i l e n s k y 于1 9 7 8 年在美国耶鲁大学建立的另一个理解故事的系统 p a m 系统也能解释故事情节回答问题进行推论做出摘要它除了脚本中的事件序列之外还提出了计划 p l a n 作为理解故事的基础所谓计划就是故事中的人物为实现其目的所要采取的手段如果要通过计划来理解故事就要找出人物的目的以及为完成这个目的所采取的行动系统中设有一个计划库 p l a nb o x 存贮着有关各种目的的信息以及各种手段的信息这样在理解故事时只要求出故事中有关情节与计划库中存贮的信息相重合的部分就可以理解到这个故事的i f l 的是什么当把一个一 1 6 个的故事情节与脚本匹配出现障碍时由于计划库中可提供关于一般目的的信息就不致造成故事理解的失败上述的系统都是书面的自然语言处理系统输入输出都是用书面文字 1 3 头的自然语言处理系统还牵涉到语音识别语音合成等复杂的技术显然是更加困难的课题口头自然语言处理系统的研究近年来也有进展自然语言处理技术大致可分为机器翻译语义理解及人机会话技术几个方面其中机器翻译 m a c h i n et r a n s l a t i o n 又称机译 m t 2 5 是利用计算机把一种自然语言转变成另一种自然语言的过程机器翻译的研究工作已经进行了许多年虽然目前还没有完全实现机器翻译代替人工翻译的目标但已经取得了很大的成就 2 6 1 2 7 智能搜索引擎在这一领域的研究将使得用户可以使用母语搜索非母语的网页并以母语浏览搜索结果语义理解通过将语言学的研究成果和计算机技术结合在一起实现了对词语在语义层次上的理解人机会话技术可以为计算机提供下一代的人机交互接口实现从文字接口图形接口到自然语言接口的革命同时在家用电器的人性化设计方面有着广泛的应用前景其技术内涵主要包括语音识别语音合成两个核心部分在语义理解的整个过程中智能分词技术是最初的一个环节它将组成语句的核心词提炼出来供语义分析模块使用在分词的过程中如何能够恰当地提供足够的词来供分析程序处理并且过滤掉冗余的信息这是后期语义分析的质量和速度的重要前提尤里卡的智能分词避免了传统分词技术在拆分时产生的歧义组合从而为语义理解的处理提供了良好的原始材料同时在分词的过程中知识库当中的同义词会被逐个匹配著同时提交给语义理解模块使用这样处理过的句子不仅提供了原始的句型还同时搭载了语句的概念部分 1 5 3 自然语言处理技术的开发过程中文与西文相比最大的特点是不以标识进行分词简单地说就是西文的字与字之间以空格或标点区分而汉语是连贯的只有语句结束才用标点加以标识这就为智能问答技术的本土化带来了一定的难度事实上相当于独立开发一套针对中文的系统 n l q n a t u r a ll a n g u a g eq u e r y 的开发分两个阶段进行第一阶段模型训练南京邮电大学硕士学位论文第一章数据库检索的中文自然语盲接口技术背景研究在这个阶段的工作主要分为以下4 个部分首先是进行中文分词如上所述中文的特性使分词具有定的难度尤其是对人名和地名的分词但这又是比较关键的一步北极星的研究人员运用了马尔克夫模型算法进行无需词库的中文分词准确率可以达到9 9 以上并且非常好地解决了人名地名的分词问题第二部分为提取关键词通过对大量文本如新华字典百科全书报纸新闻等如果是企业内部使用则专门对本企业的数据资源进行统计将出现频率满足一定条件的词作为关键词提取出来第三部分为构造特征向量根据关键词提取情况以改进的t f i d f 的算法为每一个问题构造一个特征向量最后为向量存储就是将特征向量以高速多维索引文件的形式存入硬盘以备索取和查询由于其使用了完全自主实现的索引算法所以具有非常好的检索效率第二阶段模型匹配第二阶段的工作除了操作对象不同外最初的三步也是进行分词提取关键词构造特征向量只是最后的两个步骤有所区别第四步为匹配向量之间的距离运用c o s 函数计算出向量之间的距离即相似性在高维的索弓l 文件中可以使用k 近邻算法计算最后步是对相似性进行排序列出前n 名返回给用户用户通常会选择最合适的答案进行浏览将用户选择的结果存入系统则下次当同样的问题出现时系统直接返回给顾客较为精确的答案这样的系统经过一段时间的训练就能达到更好的检索效果对于用户的问题如果知识库中没有找到相似答案则将该问题存入数据库在系统维护时人工添加进去则当下次用户闯同样或者是类似的问题对就能找到满意的答案了中文智能系统的开发过程如附图所示煎蔓塑电盎学硕士学位论文第一章数据库检索的中文自然语言接口技术背景研究 1 6 实例埘i c r o s o f te n g l i s hq u e r y 自从在s q ls e r v e r6 5 e n t e r p r i s ee d i t i o n 中引入了m i c r o s o f t e n g l i s

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据库检索的中文自然语言接口技术研究论文.pdf

文档简介

温馨提示

最新文档

评论

数据库检索的中文自然语言接口技术研究论文.pdf

文档简介

温馨提示

最新文档

评论

相关文档