




已阅读5页,还剩86页未读, 继续免费阅读
(基础数学专业论文)关于数据库汉语查询语句中查询信息的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河南大学硕士学位论文第 工页 摘要 数据库自 然语言界面 ( n l i d b )是自 然语言处理 ( n l p )最早和最广泛的研 究领域之一,它主要涉及到自 然语言处理和数据库系统的研究,是一个具有重大 理论价值和巨大实用价值的研究领域。 在数据库自 然语言查询界面的研究中,对用户输入的查询语句的理解是其关 键部分,而其中的查询条件与查询目 标的理解又是其主要内容。本文的研究工作 即是对查询语句中查询目 标与查询条件的识别的研究。主要工作有: 1 .系统地研究了数据库隐含知识,并给出了相应的知识表示。 数据库隐含知 识是指那些由 于数据之间的相关性引 起的并可通过自 然语言表现出 来, 而在数据 库中虽然存在这一部分数据, 但必须通过某几种操作或逻辑运算才能得到的知识。 数据库隐含知识反映了用户对现实世界的理解,从而用户在进行查询时会使用大 量的数据库隐含知识。一个系统处理数据库隐含知识的能力反映了它的易用性问 题。本文增强了对查询语句中的数据库隐含知识的处理能力。 2 .在查询目 标的识别中, 增强了对数据库隐含知识的处理能力, 对查询目 标 进行了不同的分类,并给出了 相关的变换算法。给出了基于数据库语义的查询语 句中的查询目 标识别的模板,这种模板可识别出不同句型中不同的查询目 标。 3 .在查询条件的识别中, 提出了 基于数据库语义的以域值为中心的查询条件 识别方法,增强了对含数据库隐含知识的查询条件的处理,并对含领域动词的查 询条件项的识别和含否定词的查询条件项的识别等查询条件识别的难点进行了 详 细的研究,给出了解决方法与算法。最后,给出了查询条件识别的一般算法。 关键词:数据库自 然语言界面;查询条件;查询目 标;自 然语言处理; 数据库隐 含知识 河南大学硕士学位论文第 i i贞 abs tract n a t u r a l l a n g u a g e i n t e r f a c e t o d a t a b a s e s y s t e m s ( n l i d b ) i s o n e o f t h e e a r l i e s t a n d b r o a d e s t f i e l d s t h a t h a v e b e e n r e s e a r c h e d i n n a t u r a l l a n g u a g e p r o c e s s ( n l p ) . i t i s t h e f i e l d o f g r e a t t h e o r e t i c a l a n d p r a c ti c a l v a l u e t h a t m a i n ly i n v o l v e s t h e d i s p o s a l o f n a t u r a l l a n g u a g e a n d t h e r e s e a r c h o f d a t a b a s e s y s t e m. i n t h e r e s e a r c h o f t h e q u e r y i n t e r f a c e o f n l i d b , t h e c o m p r e h e n s i o n t o t h e q u e r y s e n t e n c e s e n t e r e d b y t h e u s e r i s t h e k e y p a rt . a n d t h e u n d e r s t a n d i n g o f th e q u e r y c o n d i t i o n a n d t a r g e t a r e t h e m a i n s e c t i o n s o f t h i s k e y p a r t . t h e a i m o f t h i s p a p e r i s t o i n v e s t i g a t e t h e r e c o g n i t i o n o f t h e q u e r y t a r g e t a n d c o n d i t i o n o f t h e q u e ry s e n t e n c e s , w h i c h i n c l u d e s : o n e i s t h e s y s t e m a t i c s t u d y o n t h e i m p l i c i t k n o w l e d g e o f t h e d a t a b a s e . c o r r e s p o n d i n g i n d e x t o th e k n o w l e d g e i s a l s o p r o p o s e d . d a t a b a s e i m p l i c i t k n o w l e d g e r e f e r s t o t h e k n o w l e d g e t h a t c o m e s u p b e c a u s e o f t h e r e l e v a n c e a m o n g t h e d a t a a n d c a n b e r e p r e s e n t e d w i t h n a t u r a l l a n g u a g e . t h i s p a rt o f d a t a e x i s t s i n t h e d a t a b a s e b u t t h e i m p l i c i t k n o w l e d g e c a n o n l y b e g o t t h r o u g h c e rt a i n o p e r a t i o n s o r l o g i c a l c a l c u l a t i o n s . t h e i m p l i c i t k n o w l e d g e o f t h e d a t a b a s e r e fl e c t s t h e c o m p r e h e n s i o n o f t h e u s e r t o t h e r e a l w o r l d . c o n s e q u e n t l y , t h e u s e r w i l l r e s o r t g r e a t a m o u n t o f t h e i m p l i c i t k n o w l e d g e o f t h e d a t a b a s e i n t h e c o u r s e o f q u e ry . t h e a b i l i t y t o d e a l w i t h t h e i m p l i c i t k n o w l e d g e o f t h e d a t a b a s e r e fl e c t s w h e t h e r i t i s e a s y t o u s e . t h i s p a p e r p r o p o s e s h o w t o im p r o v e t h e a b i l i t y o f p r o c e s s i n g t h e im p l ic i t k n o w l e d g e o f t h e d a t a b a s e o f t h e q u e ry s e n t e n c e s . i n t h e r e c o g n i t i o n o f t h e q u e r y t a r g e t , t h e p r o c e s s i n g a b i l i t y o f t h e i m p l ic i t k n o w l e d g e o f t h e d a t a b a s e i s i m p r o v e d . t h e q u e ry t a r g e t s a r e c l a s s i f i e d a n d r e l e v a n t c h a n g i n g w a y s o f c a l c u l a t i o n a r e a l s o p r o p o s e d . t h e q u e r y t a r g e t r e c o g n i t i o n m o d e o f t h e q u e r y s e n t e n c e s b a s e d o n s e m a n t i c s o f t h e d a t a b a s e i s p r e s e n t e d . t h i s m o d e c a n r e c o g n i z e d i ff e r e n t q u e ry t a r g e t s i n d i ff e r e n t s e n t e n c e s t r u c t u r e s i n t h e r e c o g n i t io n o f t h e q u e r y c o n d i t io n , t h e m e t h o d o f r e c o g n i z i n g th e q u e r y c o n d i t i o n t h a t c e n t e r s o n t h e f i e l d v a l u e a n d i s b a s e d o n t h e s e ma n t i c s o f t h e d a t a b a s e i s p r o p o s e d . t h e p r o c e s s i n g o f t h e q u e r y c o n d it i o n t h a t c o n t a i n s i m p l i c i t k n o w l e d g e o f t h e d a t a b a s e i s i m p r o v e d . d e t a i l e d r e s e a r c h i s o n t h e d i f f i c u l t p o i n t s o f t h e r e c o g n i z i n g t h e q u e r y c o n d i t i o n , w h i c h a r e r e c o g n i z i n g t h e q u e ry c o n d i t i o n i t e m s t h a t c o n t a i n d o m a i n v e r b s a n d t h a t c o n t a i n n e g a t i v e w o r d s . s o l u t i o n a n d t h e m e t h o d o f c a l c u l a t i o n a r e p r e s e n t e d . a t la s t , t h e g e n e r a l m e t h o d o f c a l c u l a t i n g t h e r e c o g n i t i o n o f t h e q u e ry c o n d i t i o n i s p r o p o s e d . k e y w o r d s : n l i d b ; q u e r y c o n d i t i o n; q u e r y t a r g e t ; n l p ; i m p l i c i t k n o w l e d g e o f t h e d a t a b a s e 河南大学硕士学位论文第 1 页 第 1 章绪论 数据库技术2 5 ,2 6 的发展给用户带来了各种便利,用户可以 在设计好的 数据库 查询界面上通过各个功能按钮和菜单项实现各种查询。设计人员根据用户的需要 设计出各种符合用户需求的数据库查询系统。 自 然语言理 解1 1 3 1,2 2 1 ,3 7 1 ,4 5 ) 是人工智能的 一个重要分支,主要研究如何 利用计 算机来理解和生成自 然语言。自 然语言是人类交流使用最多、最为方便的 交流工 具,用自 然语言与计算机交流,使计算机能够理解人们的自 然语言,并能使计算 机执行相应的操作,这正是自 然语言理解 ( 也称为计算语言学)的研究所致力达 到的目标之一。 随着自 然语言理解研究的深入,在数据库查询系统中应用自 然语言理解的技 术,设计数据库自 然语言查询界面,己 成为自然语言理解研究的具有广泛应用前 景的方向之一。 数 据 库自 然 语 言 界 面 ( n l i d b ) 8 - 10 1 , 要 求 系 统 对 用 户 输 入 的自 然 语 言 查 询 语 句 进行理解并给出应答。而不是要求用户用数据库查询语言实现查询。用户只需在 设计好的查询界面上用自 然语言输入相应的自 然语言查询语句即可,由系统对用 户的自 然语言查询语句进行分析,并转化为相应的数据库查询语句,在数据库中 进行查询, 再把查询结果返回给用户。 本文中的数据库自 然语言界面中的自然语言指汉语。 1 . 1论文的目的和意义 在传统的已设计好的数据库信息管理系统中,查询界面的查询内容被设计者 作了 严格的限制,即用户在数据库中查找的信息是固定的,用户必须通过设计者 给定的查找途径进行相关的查询。这种数据库查询系统的优点是,由设计人员针 对用户常见的查询内容进行设计,只要用户能够了解系统给出的查询方法,便能 查询出相关信息,效率较高。但缺点是,用户是被动地使用查询系统,并且不能 使用人类最直接的交流工具进行人机交流。 随着自 然语言理解的研究发展,人们开发了数据库自 然语言界面,这种查询 界面只需用户用自 然语言输入相应的查询要求,系统便会给出查询结果。由于语 河南大学硕士学位论文第 2页 音系统的成熟,更使这种查询系统的研究受到了重视。如果能够开发出较好的数 据库自 然语言查询界面,再配合语音技术,便可进行人与系统之间的人机对话查 询。由此可见,这种数据库自 然语言查询界面的开发具有广阔的应用前景。 数据库自 然语言查询界面具有以下优点:首先,用户可以 用自 然语言进行查 询,这种查询是主动的,任意的,就象说话一样;用户在查询时,可以用自 然语 言的相关概念,特别是可用一些抽象概念进行查询,实现了系统的智能化,而在 传统的数据库信息查询系统中,是不可能让用户使用抽象概念进行查询的;其次, 实现了软件的易用性,使用户完全摆脱了软件使用方法的束缚,用户只需把查询 要求用文字表达出来,或说出来,系统就可进行处理。再次,交互性,当用户与 系统出现交流困难时,可进行交互,使查询能够进行下去。 在数据库自 然语言界面的研究中,对用户输入的用自 然语言表示的查询语句 的理解是一个关键问题,本文的研究工作即是对汉语查询语句中查询信息的研究。 由于对查询语句的理解能力和水平反映了一个数据库自 然语言查询系统的智能水 平,所以本文的研究工作具有一定的理论和应用价值。 河南大学计算机信息工程学院自 然语言理解实验室研究设计了数据库自 然语 言查询系统 c inl i s . c i n l i s是一个高校信息自 然语言查询系统,本人的工作是 c inl i s 中的一个组成部分,即是对查询语句中查询信息的 研究, 主要是对查询语 句中的查询条件和查询目 标的识别。 1 . 2国内外研究现状 数 据 库自 然语言界面n - 4 1 的 研究 是自 然语言理 解与数据 库技术结合的 产物, 国 外以英语为主要对象,有关数据库自 然语言界面的研究始于上世纪六十年代,先 后出 现了 一些系统, 如b a s e b a l l , l u n a r , l i f e r , a s k , p a r l a n c e , l o q u i 以 及微软的s q l s e r v e r 中提供的e n g l i s h q u e ry数据库查询接口 等。 数据库汉语查询界面具有重大的理论意义和实际价值,国内对数据库汉语查 询界面的研究始于上世纪七十年代末期,进行了多种研究和探索,但进展缓慢, 其主要原因是受汉语的自 然语言理解问题的限制。 自 然语言理解,特别是汉语自 然语言理解的研究是一项长期的工 _ 作,但把自 然语言限制于查询语句上时,会受到基于 e - r模型的数据库的信息知识与查询语 句本身句型及语义的诸多限制,称之为受限汉语。降低了汉语的复杂程度,使对 河南大学硕士学位论文第 3页 数据库汉语查询语句的理解能力的提高有了可能,正是在这种背景下, 人们开始 了 对 数 据库 汉语 查 询系 统的 开 发 与 研 究 3 4 1,4 6 1,4 9 1 , 目 前, 己 见 公 布成 果 有, 基于 受 限 汉语 的 数 据库自 然 语言 接口n l c q i暨南 大学, 许龙飞 等) 2 8 - 2 9 1,4 1- 4 3 1 , 基 于 e r 模型和受限汉语的关系数据库汉语查询语言的计算模型r c h i q l( 北京大学, 崔宗 军 等) 2 8 - 2 9 1,4 1- 4 3 1 , 数 据库 汉 语查 询 接口 系 统w t c d i s( 北京 信 息工 程 学院 , 李 保 利 等 ) 16 - 171 , 以 及 其 它 一 些 系 统 等 3 0 1,3 5- 3 61,14 81 对于汉语查询语句理解的研究工作,一般来说,主要沿着两个方向展开,第 一个方向是对基于 e - r模型的数据库中的信息进行尽可能多的查询,其理想结果 是, 凡是能用s q l 语句实 现的查询,当 用户用相应的 汉语句子表述后, 系统应能 理解并转换为相应的s q l 语句, 进而得到相应的查询信息。 在这个方向 上,还有 一些问题需要解决。第二个方向 注重对数据库中隐含知识的研究,即不但能对数 据库中的已 有信息进行类似于s q l 语句的查询, 还能对数据库中的隐含知识进行 理解并给出相应查询,体现了计算机的智能性。 对人来说, 就象与人交流一样, 可以使用相应的自 然语言中的概念,真正实现了方便和易用。在这个方向上,也 还有较多的工作需要去做。本文的研究工作主要是在这两个方向上展开。 1 . 3存在的问题 由于汉语相对于英语有其自 身的一些特点,使得关于数据库自 然语言汉语查 询界面的实现有诸多困难。 对数据库隐含知识的处理能力需要加强。由于受汉语语言本身的理解问题的 吮 限制,在数据库自 然语言界面中对数据库隐含知识的处理一直是一个难点,但一 个数据库自 然语言查询系统要真正实现其智能化,必须加强对数据库隐含知识的 处理能力。如果一个数据库自 然语言查询系统对数据库隐含知识的处理能力较弱 的话,则用户在使用数据库汉语查询界面时,只能以系统所允许的概念进行查询, 而不能使用自 然语言中的相关概念进行查询。 在数据库自 然语言查询语句中,对查询目 标的识别能力需要进一步提高,一 般来说,只能识别象 “ 域名”等一些简单目标。而对于一个具有一定智能的数据 库查询界面来说,这些远远不够,还需要能识别不同类型的查询目 标并能进一步 处理。 在数据库自 然语言查询语句中,对查询条件的识别是其关键问颗,但坏有一 河南大学硕士学位论文第 4页 些难点问 题需要解决。如对含数据库隐含知识的查询条件的识别、含领域动词的 查询条件项的识别、含否定词的查询条件项的识别、含分组操作的查询条件的识 别等难点问题的处理能力需要进一步提高。 1 . 4本论文的内容安排 第 1 章 绪论部分 第2 章 数据库自 然语言查询系统的系统模型 本章给出数据库自 然语言查询系统实现的 系统模型,并给出了高校信息自 然 语言查询系统 ( c i n l i s )的计算机处理流程。 第3 章 数据库中的知识与数据库隐含知识 本章讨论了知识的表示,并对数据库隐含知识进行了全面的分析,给出了 c i n l i s 中所用的知识库。 第4 章 数据库汉语查询语句中查询目 标的识别算法 在查询目 标的识别中, c i n l i s 增强了 对含数据库隐含知识的查询目 标的处理 能力,并增强了 对不同句型的查询语句的处理能力。 本章研究了 数据库自 然语言查询语句中的查询目 标的识别问题,由于引入了 数据库隐含知识的概念,增加了查询目 标识别的难度。本章对查询目 标进行了分 类,引入了基于数据库语义的查询目 标识别模板,并给出了查询目 标识别的算法。 第5 章 数据库汉语查询语句中查询条件的识别算法 在查询条件的识别中,提出了基于数据库语义的以域值为中心的查询条件识 别方法,并对含领域动词的查询条件的识别、含数据库隐含知识的查询条件的识 别、含否定词的查询条件的识别以及含分组操作的查询条件的识别等难点问题提 出了解决方法。 河南大学硕士学位论文第5 页 第2 章数据库自然语言查询系统的系统模型 河南大学计算机与信息工程学院自然语言理解实验室研究开发了高校信息自 然语言查询系统( 以下简称c i n l i s ) 。c i n l i s 综合利用了自然语言理解实验室对 数据库自然语言界面的研究成果,是关于数据库自然语言界面的通用模型【5 7 ,口o 在高校信息查询上的一个应用。利用c 1 n l i s 系统可以实现对高校基本信息的自然 语言查询。 本文的工作是数据库自然语言界面研究的个组成部分,即对数据库自然语 言查询语句中查询信息的研究。主要包括查询语句中查询目标与查询条件的理解 与识别。在c i n l i s 系统的实现上也承担了相应的关于查询语句中查询条件与查询 目标的识别的工作。但这部分的工作是与其它部分相联系而存在和作用于整个系 统中的,所以本章先给出一个通用的数据库汉语查询系统的系统模型,再给出 c i n l i s 的实现流程。 2 1 数据库自然语言查询界面与汉语查询语句 2 1 1 数据库自然语言查询界面 用户在使用传统的数据库查询界面时,查询方法和手段只能按照系统设计好 的查询要求进行,但最直接的查询方式是用自然语言迸行查询,即用数据库自然 语言查询界面进行查询。为了区分这两种数据库查询界面,本文把前者称为数据 库图形界面查询系统,把后者称为数据库自然语言查询系统。 定义2 1 1 数据库图形界面查询系统指由软件设计人员设计好的图形界面数 据库查询系统,用户可由界面上拟定好的查询项进行查询。 数据库图形界面查询系统是传统的数据库查询系统,也是人们使用较多的查 询系统。软件设计人员通过对用户的数据库查询要求的分析,事先按不同查询要 求做好相应的查询界面。用户在使用时,放弃自己最常用的自然语言,不得不在 查询界面上寻找自己所需要的功能按钮,然后,按照系统所要求的方法进行查询。 定义2 1 2 数据库自然语言查询系统指查询界面为自然语言的数据库查询系 统。 河南大学硕士学位论文第 6页 数据库自 然语言查询系统是在传统的数据库图形界面查询系统的基础上发展 起来的。用户在查询界面上用自 然语言输入查询要求后,系统便能给出查询结果。 这种查询界面的优点是用户使用非常方便,因为用户是用自 然语言与系统交流, 即通过人机对话完成了用户的查询工作。系统封装了所有需要系统完成的工作, 通过人机对话的方式与用户交流。 定义2 . 1 .3数据库汉语查询系统指自 然语言为汉语的查询系统。 数据库汉语查询系统与自 然语言为英语的数据库查询系统相比,有更多的难 点和困难,象汉语的词的切分问 题与句子的理解问 题等,都有不同的特点。 数据库自 然语言界面系统与传统的数据库图形界面相比,具有以 下特点: 1 . 界面简单 指用户只需在输入区输入自 然语言查询语句即可,而数据库图形 界面需要用户熟悉图形界面中的各种功能。 2 使用方便 用户不需要或只需要极少的培训就可使用。 3 . 内 部处理复杂 就系统内部的处理难度来说,数据库图形界面的处理相对较 为简单,系统设计人员通过对用户的需求分析,设计满足用户各种数据库查询要 求的功能按钮和菜单;而数据库自 然语言 查询界面因接受的是自 然语言,故系统 需要对自 然语言进行理解和分析,这里正是自 然语言理解的难点。 4 . 以人为本 用户在进行数据库查询时,可以根据自己的查询要求使用自 然语 言进行查询,不必关心计算机系统中的具体内 容。而对数据库图形查询系统来说, 用户的操作被系统的功能所限制。 5 , 推广价值较高 数据库自然语言查询界面只要求用户使用用户最熟悉的自然 语言来表达其查询要求,方便了人对计算机工具的使用,具有较高的推广价值。 并且随着语音技术的成熟,通过数据库自 然语言查询系统与语音系统的挂接,可 以实现人机对话。 2 . 1 . 2汉语查询语句 定义 2 . 1 . 4对汉语自 然语言加以一定的规则而得到该自 然语台的子集,称之 受 限 汉 语 281 本文所说的自然语言查询语句是一个受限汉语,它仅用于知识库的查询,受 限主要表现在以下几个方面: 词汇受限:查询语句中的词汇如名词、动词等实词必然与数据库内容相关, 河南大学硕士学位论文第 7页 其所用概念均与具体的数据库相关,而其它词汇与表达查询的目的相关。 句型受限:查询语句使用的句型主要是祈使句和疑问句。 语义受限:查询语句中 所涉及到的概念或与具体的数据库相关, 或与表达查 询的概念相关。 语用受限:查询的目的是从具体的数据库中获取用户所需的信息。 每个数据库自 然语言查询语句都表达了要求查询数据库中的某些数据的思 想,为此,查询语句要指明需查询的数据的名称及限定条件。 本文使用以下几个概念: 定义 2 . 1 . 5查询实体指决定查询语句查询范围的部分。它可能在句子中 显性 出 现,也可能由其它信息间接确定。从计算机实现角度,它就是要操作的应用领 域知识库名。 定义2 . 1 . 6查询目 标指查询语句要查询的并需要推演运算的结果。 定义2 . 1 . 7查询条件指决定知识库中要被操作的哪个或哪些元组的部分。 作为以查询数据库内 容为目的的自 然语言查询语句,主要包括查询实体、查 询条件、查询目标等方面的信息以及语句表达上需要而与查询内容无关的干扰噪 音。 在对数据库自 然语言查询语句的处理中,最主要的也是系统最关心的就是要 分清查询目 标与查询条件,一般的查询语句有以下形式: ( 查询句) : :=( 川】 】 】 ) * ( 查询实体) : :二或间接 ( 条件信息) : := ( 域名) 十 ( 关系符) 十 域值 十环境词 ( 目 标信息) : :=或间接 ( 关系符) : :二 二,#-, gi),任 说明: ( 1 ) 查询语句可由若干个条件信息或目 标信息组成,其中可能有若干干扰噪 声。 的值 ( 2 ) 条件信息中域名和操作符有时可以缺省, 这主要因为域值本身是特定域名 ( 3 ) 仁 表示其内容或者没有或者一次; ( ) 表示其内容可一次;( ) * 表示其内容可重复零次或多次。 河南大学硕士学位论文第 8页 2 . 2数据库汉语人机界面接口通用模型 由于数据库汉语查询语句向数据库进行查询的要求,使得汉语查询语句本身 受到了诸如数据库内容的限制、句型的限制、词语的限制等,降低了汉语理解的 复杂性, 即查询语句本身是一个受限的汉语的子集。 本系统把受限汉语与基于e - r 模型的数据库相结合,完成了数据库汉语查询界面接口的设计。 数据库汉语通用接口模型的体系结构 通用数据库汉语查询接口模型如图 2 - 1 所示,并在高校信息自 然语言查询系 统中得以具体实现。 本模型由各自 独立的两大模块即汉语查询语句的计算机理解模块和知识库模 块组成。汉语查询语句的计算机理解部分包括词法分析、句法分析与语义分析、 自 然语言转化为中间语言、中间语言转化为计算机语言、应答生成几个相对独立 模块:知识库部分分为通用知识库、汉语查询句理解知识库和应用领域专用知识 库。各模块相对独立, 使系统具有较好的可移植性和易扩充性。 本系统各模块的简要分析及主要功能如下: ( 1 ) 词法分析 在自 然语言理解中,对汉语的处理需要首先进行词的切分叫 ,即把整个句子 中的词切分出来。这是汉语不同于英语的特殊问题,也是自 然语言 处理的难点之 一。虽然较好的切分软件的切分的准确率可达百分之九十以上,但由于汉语本身 的复杂性, 如何提高切分的准确率仍是一个正在研究的课题。 由于查询语句总是要查询数据库的信息的,从而查询语句与相关数据库联系 较为紧密,即与具体数据库的实体、域名和域值有较强联系,使这部分词汇有极 为重要的意义,这些词汇是构成查询条件与查询目 标的基础。这正是查询语句不 同于一般的汉语句子的特点。 本系统通过建立多级词典的方法,以反映不同的词对查询语句的重要程度, 从而反映出不同的优先级。此种方法充分利用了汉语查询语句的特点,即在汉语 查询语句中,人们的查询要求一般与具体数据库相关。从而对数据库的域名和域 河南大学硕士学位论文第 9页 自 然语言理解通用知识库 1 、切分标注 c u t b 2 、重叠词r e p e a t b 3 、前后缀a f f i x b 4 、词类共现矩阵c l a s s b 5 、人名统计n a m l b 等3 个 6 、其它知识库 汉语查询句知识库 1 .句型特征s e n t b 2 .语义模板特征s e m a n t b 3 .查询目 标l i m b 4 .查询条件c o n d b 5 .场景参数l p l i n k 6 .标准概念 s t a n t l 7 .同义词s y n o b l 8 查询句分词g c u t b 9 应答模板库 a n s w e r b 标 目 1|询f 查 应用领域知识库 1 .基本知识库 ( 多 个) 2 .实体标识符e n t i i d b 3 .域名标识符f i e l d i d b 4 .标准域值f i e l d v b 5 .复合概念c o m p b 6 .逻辑概念l o g i c b 7 .标准概念s t a n t 2 8 .同 义词s y n o b 2 9 .应用领域分词 d c u t b 图2 - 1通用数据库汉语查询接口 模型 河南大学硕士学位论文第 工 0页 值等给予重视。 本模块把汉语查询句切分成一个个的词,并给出词性;最后结果放入切分链 表w l ( w o r d l i n k ) o ( 2 ) 句法分析与语义分析 句法分析实现对查询语句在句法上的理解11 9 1 . 2 1) , 即 理解句子中 各词之间关系。 一般来说,句法分析的结果是一棵分析树。本系统的 句法分析的结果用本系统所 采用的中间语言的查询成分链表表示。 本系统中的句法分析的功能为: 对切分链表w l 进行同义概念替换、 指代消解、 省略句补充,然后标示标准概念相关信息,补充原查询语句中省略的域名,最后 形成完整的查询成分链表q l ( q u e r y l i n k ) o 语义分析实现在语义层面上对查询语句的理解。一般来说,语义分析的结果 往往用某种形式语言表示。对查询语句的自 然语言理解来说, 只要做到能够识别 出其查询要求,即识别出查询语句的查询目 标、查询条件及查询实体及其之间的 关系,便可转为相关 s q l语句,即可识为已对查询语句进行了理解。而对于查询 语句向某种形式语言的转化问题,本系统放入下一模块。 本系统的语义分析的功能为:识别出查询语句中的查询目 标、查询条件及查 询实体及其关系。 ( 3 )自然语言转化为中间语言表示 本模块把由 句法分析与语义分析的结果转化为中间 语言【y 1 表示。 本系统采用一种专门为查询语句分析设计的中间语言,这种中间语言既适合 表示查询语句语义又容易转换为计算机可执行语句,由查询实体链队列、直接查 询目 标的多级链表、查询条件的二叉树组成的森林等组成。 ( 4 )中间语言转化为程序语句 本模块先把由中间语言表示查询语句表示为 s q l语句,再由s q l 语句的查询 结果转化为回答用户目标。 ( 5 )应答生成 本模块由上模块生成的回答用户目 标生成应答句,以回答用户的查询。 2 . 3 c i n l i s的实现流程 数据库自 然语言查询语句的理解过程可以简化为利用查询语句的语法语义特 河南大学硕士学位论文第 11 页 点从中提取查询目 标和查询条件,最终形成计算机可执行的语句。 c i n l i s 实现计算机理解自 然语言查询语句的流程如下: 第一步接收输入的汉语查询语句 在设计好的数据库汉语查询界面的用户查询句输入区,接受用户输入的完整 的查询语句。 第二步 对查询语句进行词语切分和词性标注并将结果存储到切分链表 w o r k l i n k 中 ( 用到的知识库有: d c u t b , c u t b , 语法规则和统计知识库等) 本步运用汉语切分软件对查询语句进行词语切分, 把其中的词及每词的词性 信息 填入切分链表w o r k l i n k , 第三步建立初始查询成分链表 把切分链表w o r k l i n k 中的 词及词性信息导入到查询成分链表q u e r y l i n k 中的 相应域中。 建立以 链首指针为q 1 的查询成分链表。 第四步标准概念替换 把查询成分链表q u e r y l i n k 中的。 r w o r d 域中的非标准概念替换成标准概念。 扫描s y n o b l , s y n o b 2 知识库, 把遇到的非标准概念替换成相应的标准概念。 第 五 步 指 代 消 解 32 331,(471 指代一般分成回指和共指两种情况。 定义 2 . 3 . 1回指是指当前的指示语与上文出现的词、短语或句子 ( 句群)存 在密切的语义关联性,如,张三是哪里人?他的数据结构多少分? 定义2 . 3 . 2共指主要是指两个名词 ( 包括名词短语) 指向 真实世界中的同 一 参照体。共指关系可以 独立于上下文存在,如, “ 美国总统”和 “ 布什”是共指。 丫 定义 2 . 3 . 3本文中 所说的指代消 解是指把处于等价回指的指示代词替换成它 上文中出现的词、短语或句子。 i n p u t : 查询成分链表q l , 环境参数链表l p l i n k h e a d ; o u t p u t :指代消解后的查询成分链表q 1 指代消解并填入查询成分链表q u e r y l i n k 中( 可能还要进行合并节点 操作) ( 用 到的知识库有:l o c a b 、上句q u e r y l i n k ) 第六步省略补充 把不完整的查询语句补充完整。 省略补充并产生结点插入查询成分链表 q u e r y l i n k中( 用到的知识库有: l o c a b 、上句 q u e r y l i n k ) 。 河南大学硕士学位论文 第 1 2页 在用户进行查询时,有时可进行上下文的省略。如上个查询为: “ 查张三的出 生日 期” ,下个查询为:“ 再查李四的” 。完整的查询为: “ 查李四的出生日期 , 。省 略补充的目的即补充完整的查询语句。 第七步 标准概念相应的实体与域名信息填入 在知识库s t a n b l , s t a n b 2 中,找到查询成分链表q u e r y l i n k 中标准概念对应 实体和域名信息,填入q u e r y l i n k 的相应域中。 第八步 补充域值对应的域名 在汉语查询语句中, 经常会省略域名。 如: “ 查张三的出生日期” 中, 域值“ 张 三” 对应的域名为“ 姓名” 。 在查询成分链表中, 需把域值“ 张三” 对应的域名“ 姓 名”填入相应域。 补充原查询句中省略的域名并产生结点插入到查询成分链表q u e r y l i n k 中。 第九步 现场环境参数置换 由于系统保留上一个查询语句的相应信息,以便处理省略和指代,故需保留 相应信息。当查询句更新时,环境参数亦需重置。 调整查询成分链表并置换现场参数 第十步 查询实体识别并转换为中间语言 在对查询语句进行语义理解时,本系统的模式为:先把自 然语言表示的汉语 查询语句转换为中间语言,再由中间语言转换为s q l 语句。 在转换为中间语言时, 需要识别并用中间语言表示出:查询实体、查询目 标、查询条件。 本步骤即是对数据库汉语查询语句中的查询实体的识别,并用中间语言表示。 i n p u t :完善的查询成分链表q l ,实体标识符知识库e n t i i d b ; o u t p u t :查询实体链队列e q . 本步功能为:确定查询实体并转换为中间语言的相应部分 第十一步确定语义模板号和句型号 本系统在进行语义理解时,通过建立的模板和句型进行分析,因此需要进行 语义模板号与句型号的识别。 i n p u t :查询成分链表q 1 , 查询语句句型特征参数知识库s e n t b ,查询语句语 义模板特征参数知识库s e m a b ; o u t p u t :语义模板号x t e m p n u m 和句型号x s e n t n u m . 第十二步查询目 标识别与中间语言表示 完成查询目标的识别并用中间语言表示。 河南大学硕士学位论文 第 1 3页 这部分内容将在本文第四章详细讨论。 第十三步查询条件与中间语言表示 完成各知识提取目标对应的查询条件并用中间语言表示。 这部分内容将在本文第五章详细讨论。 第十四步中间语言转换为s q l 语言 由 于本系统所采用的中间语言充分考虑到向 s q l语言转换的问 题, 所以由中 间语言向s q l 语言的转换过程并不困难。 本步把各知识提取目 标转化为 s q l语句并执行,若直接查询目 标分多步,逐 步实现。 第十五步 实现回答用户目标 逐步生成回答用户目 标的值。 i n p u t : 1 个实体链队列a n t i l , n 个s e l e c t 子句和n 个* h e r e 子句( n -l ) , 直接查询目 标链表d q a i m l , 复合直接查询目 标化解简单直接查询目 标链表d q c o n c l ( 如果有的话) ,直接逻辑推理目 标链队列 d l o g q ( 如果有的话) ,间接逻辑推理目 标化解直接逻辑推理目 标链表l o g c o n c l ( 如果有的话) , 判断比较目 标链队列。 a i m l ( 如果有的话) ; 查询条件森林f = j t 1 , t 2 ) , . . . , t n , 其中t 月( i = 1 , 2 - . , n )为第i 棵查询条件二叉树根结点的指针;知识库l o g i c b ; o u t p u t :回答用户目 标链表a n s w e r q . 第十六步应答结果生成。 由 上步回答用户目 标的 值, 根据一定策略,生成回 答用户查询句的 应答句子。 i n p u t :回答用户目 标链表 a n s w e r q ,句型号 x s e n t n u m ,应答模板知识库 a n s w e r t b ; o u t p u t :回答句字符串a n s w e r s . 第十七步本次查询分析与应答结束。 结束本次查询,等待下一次查询输入。 2 . 4本章小结 本章首先对数据库自 然语言查询界面的特点进行了分析,讨论了数据库汉语 通用接口 模型的体系结构,给出了汉语查询语句的语义分析,最后,分析了 本系 统的实现流程。 河南大学硕士学位论文 第 1 4页 第3 章数据库中的知识与数据库隐含知识 数据库自 然语言查询系统必须要解决的问题是对用户输入的自 然语言查询语 句的分析和理解,而在自 然语言查询语句中涉及到多种知识,若要对自然语言查 询语句进行理解与分析,必须对自 然语言查询语句中的知识进行研究和处理。 人们之间的对话之所以能够相互理解, 是因为人们具有相应的知识。 具体来晚, 人们建立了一个概念知识系统,这些概念是人们都能理解的,若不理解这些概念, 便无法进行构通。概念可以用各种自然语言表示。 3 . 1知识与知识表示 3 . 1 .1知识 一般来说,把有关信息关联在一起所形成的信息结构称为知识。 3 . 1 .2知识的表示2 2 1 .2 7 1 ,13 1) ,13 7 ) 1 . 一阶谓词逻辑表示 一条知识一般可由具有完整意义的一句话或几句话表示出来,而这些知识要 用谓词逻辑表示出来,一般是一个谓词公式。所谓谓词公式就是用谓词联接符号 将一些谓词联接起来形成的公式。 用谓词公式既可以表示事物的状态、属性、概念等事实性的知识,也可以表 示事物之间因果关系的规则性知识。 2 . 产生式表示 产生式表示法又称为产生式规则表示法。 产生式通常用来表示具有因果关系的知识,其基本形式为; p - q 或者 i f p t h e n q 其中p是产生式的前提, 用于指出 该产生式是否可用的条件;q是一组结论 或操作,用于指出当前提 p被满足时,应该得出的结论或应该执行的操作。整个 产生式的 含义是:如果前题p 被满足,则可推出结论q所规定的操作。 本文中的一些概念采用产生式表示。 河南大学硕士学位论文 第 巧 页
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小班儿歌打卡活动方案
- 小学美术节活动方案
- 小学美育书画活动方案
- 干部宣誓活动方案
- 干果折扣活动策划方案
- 带家属去公司活动方案
- 工友中秋慰问活动方案
- 工会野外远足活动方案
- 小金中学活动方案
- 小小眼科医生活动方案
- 司考行政法-吴鹏新讲义
- 2024年山东省青岛市中考英语试卷附答案
- 2023-2024学年山东省临沂市兰山区八年级(下)期末数学试卷(含答案)
- 材料力学(山东联盟-中国石油大学(华东))智慧树知到期末考试答案章节答案2024年中国石油大学(华东)
- 中国象棋初级习题500例
- 江西省南昌二中心远教育集团九湾学校2023-2024学年八年级下学期期末考试物理试题
- 深入理解Nginx(模块开发与架构解析)
- 水力分析与计算智慧树知到期末考试答案章节答案2024年安徽水利水电职业技术学院
- 初中人教版八年级下册期末物理真题模拟试卷经典套题
- 产品研发合作协议书(二篇)
- JBT 11699-2013 高处作业吊篮安装、拆卸、使用技术规程
评论
0/150
提交评论