




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)数据库自然查询语言的研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 自然语言处理是人工智能的一个重要研究领域,它主要研究如何利用计算机 来理解、处理和生成自然语言。在数据库查询系统中应用自然语言理解技术,设 计数据库自然查询语言接口,己成为自然语言研究中最具有广泛应用前景的方向 之一。 本文主要对受限的数据库自然查询语言进行研究。通过自然语言的相关技术 将受限的数据库查询语句翻译成机器可识别的s q l 语句,最终实现数据库的查 询。本文将关键的技术分为了五个模块,分别是分词模块、数据库语义标注模块、 语法分析模块、e r 图中找连接路径模块、语义依存树生成s q l 语句模块。 其中分词模块所用算法思路是先将所有可能的分词情况找出来,再将这些词 中相邻的词汇作为节点,将两个相邻节点用边连接起来,通过查找二叉词典为边 赋上权值,这样就形成了一个带有权值的图。图中边的权值代表了词汇之间的耦 合程度,耦合度越低证明两个词的独立性越强,两个词重新组词的几率就越小, 当前分词正确率就越高。因此分词的问题就转化为找出该图的最短路径。用 d i j k s t r a 算法即可解决。 第二个模块是数据库语义标注模块,数据库语义即是将数据库的对象分为实 体词,属性词,通用词等8 大类,并将其按照一定的格式存储在词典中,通过查 找词典对分好的词选择适当的数据库对象进行标注。 语法分析模块是利用语法依存树的特点对查询语句进行语法分析。语法依存 树的特点可以更好的体现汉语语法的灵活性,便于查询语句的语法分析。 e r 图中找连接路径模块的主要的作用是用来找出s q l 的条件子句( w h e r e 子 句) 后面的实体连接条件,可以智能的推测出用户的意思。 最后一个模块是语义依存树生成s q l 语句模块,在这个模块中,将语义依存 树划分为若干的语义块,将每一个语义块的目标对象( 0 ) ,表集( t ) 和条件( c ) 提取出来,保存在该语义块中。再对每一个语义块进行递归的合并,最终形成整 个语义依存树的目标对象( o ) ,表集( t ) 和条件( c ) ,最后在简单的合并,即 可形成语义依存树的s o l 语句。 按照上述的理论,实现了基于自然查询语言的数据库搜索系统,并在此系统 的基础上做了大量的实验。实验结果表明,在受限的自然查询语句的识别上,系 统表现良好。而且系统具有易扩充性。对于其他领域的数据库,只需要增加专业 词典而无需修改程序即可实现不同领域的数据库的查询。 关键词自然查询语言分词;语义依存树;数据库语义标注;受限语言 a b s t r a c t a b s t r a c t n l u ( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ) h a sb e c o m eo n eo ft h em o s ti m p o r t a n t f i e l d si na r t i f i c i a li n t e l l i g e n c es t u d y b a s i n gc o m p u t e r , n l um a i n l yi n v o l v e st h e r e s e a r c ho fu n d e r s t a n d i n g ,p r o c e s s i n ga n dp r o d u c i n gn a t u r a ll a n g u a g e u s i n gn l u t e c h n o l o g yi nt h ed a t a b a s eq u e r ys y s t e ma n dd e s i g n i n gn q l i d b ( n a t u r a lq u e r y l a n g u a g ei n t e r f a c eo fd a t a b a s e ) h a sb e c o m eo n eo f t h em o s th o p e f u la p p l i e df i e l d si n t h er e s e a r c ho nn l u t h ea i mo ft h i sp a p e ri st or e s e a r c hr e s t r i c t e dn q l d b ( n a t u r a lq u e r yl a n g u a g eo f d a t a b a s e ) i tt r a n s l a t e sn q l d b i n t os q lt h a tc o m p u t e rc a nr e c o g n i z es ot h a tr e a l i z e d a t a b a s eq u e r yf i n a l l y t h ek e yt e c h n o l o g yo ft h i sp a p e ri sd i v i d e df i v em o d u l e s : p a r t i c i p l em o d u l e ,d a t a b a s es e m a n t i ct a gm o d u l e ,g r a m m a ra n a l y s i sm o d u l e ,f i n d i n g c o n n e c t i o np a t hf r o me rg r a p hm o d u l ea n dp r o d u c i n gs q l s e n t e n c ef r o ms e m a n t i c d e p e n d e n c yt r e em o d u l e t h ea l g o r i t h m i ci d e ao ft h ep a r t i c i p l em o d u l ei sl i k et h i s :f i n do u ta l lt h ep o s s i b l e c o n d i t i o no fp a r t i c i p l ef r o ms e a r c h i n gs e n t e n c ea n dr e g a r dt h ea d ja c e n tw o r d sa s n o d e so fg r a p h ,c o n n e c t i n ge a c ht w oa d j a c e n tn o d e su s i n go n ee d g ea n dt a gv a l u ef o r t h ee d g eu s i n gb i n a r yd i c t i o n a r y t h e nag r a p hh a dv a l u e si sf o r m e d t h ev a l u eo ft h e g r a p hs t a n d sf o rt h et w ow o r d sl e v e lo fc o u p l i n g t h el o w e rl e v e lo fc o u p l i n g ,t h e s t r o n g e ri n d e p e n d e n c eo f t h et w ow o r d s a n di ti sl i t t l ef o r t h ep o s s i b i l i t yt h a tt h et w o w o r d sc o m p o s eo t h e rw o r d sa n di ti sh i 曲f o rt h ec o r r e c tp o s s i b i l i t yo ft h et w ow o r d s t h e r e f o r e ,t h eq u e s t i o ni st r a n s f o r m e dt of i n do u tt h eb e s tp a t hf r o mag r a p ht h a th a s v a l u e s t h eq u e s t i o nc a nb es o l v e db yd i j k s t r aa l g o r i t h m t h es e c o n dm o d u l ei sd a t a b a s es e m a n t i ct a gm o d u l e ,d a t a b a s es e m a n t i cm e a n s t h a td i v i d ed a t a b a s eo b j e c t si n t oe i g h tc l a s s e s ,s u c ha se n t i t yw o r d s ,a t t r i b u t ew o r d s , g e n e r a lw o r d s w r i t et h e s ew o r d si n t ot h ed i c t i o n a r i e sa c c o r d i n gt os o m ef o r m a t s s o , t a gs e a r c h i n gw o r d sa c c o r d i n g t od i c t i o n a r i e st h a tc h o o s ep r o p e rd a t a b a s eo b j e c t g r a m m a ra n a l y s i sm o d u l ei st oa n a l y z eg r a m m a ro fs e a r c h i n gs e n t e n c eu s i n g d e p e n d e n c yt r e e t h ec h a r a c t e r i s t i c o fd e p e n d e n c yt r e ec a nr e f l e c tf l e x i b i l i t yo f c h i n e s eg r a m m a rs ot h a ta n a l y z eg r a m m a ro fs e a r c h i n gs e n t e n c e f i n d i n gc o n n e c t i o np a t hf r o me rg r a p hm o d u l ei st of i n dl i n kc o n d i t i o nb e t w e e n e n t i t i e sb e h i n dt h ec o n d i t i o nc l a u s e ( w h e r ec l a u s e ) i ns q l t h e r e f o r e ,i tc a ns p e c u l a t e u s e r sm e a n i n gi n t e l l i g e n t l y t h el a s tm o d u l ei sp r o d u c i n gs q ls e n t e n c ef r o ms e m a n t i cd e p e n d e n c yt r e e m o d u l e i nt h i sm o d u l e ,d i v i d es e m a n t i cd e p e n d e n c yt r e ei n t os e v e r a ls e m a n t i cb l o c k s i i i 北京丁业火学t 学顾十学位论文 e x t r a c t i n go b j e c t s ,t a b l es e t sa n dc o n d i t i o nf r o me a c hb l o c ka n ds a v i n gi nt h i sb l o c k t h e nm e r g ee v e r ys e m a n t i cb l o c k su s i n gr e c u r s i o nt of o r maw h o l es e m a n t i c d e p e n d e n c yt r e ei n c l u d e do b je c t s ,t a b l es e t sa n dc o n d i t i o n f i n a l l ya f t e rm e r g et h e s e t h r e ep a r t so ft h et r e es i m p l y ,i tc a nf o r mas q ls e n t e n c eo ft h es e m a n t i cd e p e n d e n c y t r e e a c c o r d i n gt oa b o v et h e o r y ,c o m p l e t e ad a t a b a s es e a r c h i n gs y s t e mb a s e do n n q l d ba n dd ol o t so fe x p e r i m e n t sb a s e do nt h i ss y s t e m t h er e s u l to fe x p e r i m e n t r e f l e c t st h a tt h es y s t e mc o i lr e c o g n i z er e s t r i c t e dn q l d bw e l l a n dt h i ss y s t e mh a s g o o de x t e n d i b i l i t y i tc a ns e a r c hd i f f e r e n td a t a b a s eb ya d d i n gs p e c i a l i z e dd i c t i o n a r i e s i n s t e a do f m o d i f y i n gp r o g r a m k e y w o r d sn q l d b ( n a t u r a lq u e r yl a n g u a g eo fd a t a b a s e ) ;p a r t i c i p l e ; s e m a n t i cd e p e n d e n c yt r e e ;d a t a b a s es e m a n t i ct a g ;r e s t r i c t e dl a n g u a g e i v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:熏查鳖导师签名:日期:? ! 皇:鱼:! 篼1 章绪论 第1 章绪论 信息技术的广泛普及使计算机应用进入了一个新的时代。在我国,数据库信 息查询系统广泛地应用于各行各业中。但是,由于数据库技术专业性较强,普及 数据库技术的任务又非常艰巨,直接应用数据库技术对于广大使用者来说存在困 难。所以,通过简单的人机交互处理来完成数据库的复杂技术成为了目前自然语 言处理领域的一个研究难点。中文数据库自然查询语言通用接口可以使数据库的 查询技术方便地应用于各个领域中。因而,深入研究中文数据库自然语言接口是 十分必要的。 1 1 研究背景与研究意义 数据库自然查询语言接口是人工智能与数据库技术相结合的产物涉及到人 工智能、自然语言处理、数据库技术、人机接口等方面的研究。目前所用的人机 接口大多是以窗口、菜单为主的图形用户接口g u i ( g r a p h i c a lu s e ri n t e r f a c e s ) 。 这种接口简洁、直观,用户只用鼠标点击以及少量的键盘操作就能从数据库中获 取所需的信息。但发现有些问题是无法或难以用这种方式表达的,例如“查询李 明同学的成绩”;再者,随着计算机语音识别技术的逐步趋向实用,人们越来越 希望通过自然语言直接与计算机进行沟通。因此,人们非常希望有一种方便的数 据库人机界面,以便更好地查询数据库。但通用的自然语言理解往往是低效的和 难以实现的,而作为数据库人机接口的自然语言界面具有语用目的单一、用词范 围有限等特点,在数据库查询意义上实现自然语言理解是完全可行的。因此,作 为人工智能a i ( a r t i f i c i a li n t e l l i g e n c e ) 中自然语言理解的智能接口部分引起了人 们广泛的兴趣,成为新一代计算机系统研究的重要课题,尤其与汉语的语音识别 的结合研究,成为具有重要理论价值和巨大实用价值的研究领域。对数据库的查 询,使用自然语言描述,较传统的命令菜单或触摸屏的查询方法来得更自然,更 灵活和更全面,而且还无需对用户作任何特别的训练。 随着人工智能领域中自然语言技术的发展,使数据库操作自然语言化成为了 可能。为此,人工智能专家和数据库专家开始致力于数据库自然查询语言的研究。 数据库自然查询语言技术涉及数据库系统、自然语言处理、人工智能、人机界面 等多方面的知识。这也形成研究数据库自然语言接口( n l i d b ) 【l 】【2 】【3 】【4 】的一个 趋势,自然查询语言接口逐渐成为自然语言处理领域研究的一个热点。 就现状而言,数据库自然查询语言接口的9 0 的工作集中在自然查询语言处 理上。随着自然语言处理技术和数据库技术紧密的结合,人们逐渐发现在很多领 域的n l i d b 应用系统中存在大量的相似代码,但是由于领域信息( 关键词、句 北京t 业火学丁学硕一l j 学位论文 法规则等) 的嵌入使这些代码很难从一个领域移植到另个领域的n l i d b 应用 系统中,于是人们开始寻求研究数据库自然语言接口通用性的方法。 具有通用性的数据库自然查询语言接口目前还处在实验的阶段,由于受到自 然语言处理技术的限制,研究进展比较缓慢,但由于实用价值很高,所以一部分 自然语言处理专家仍在进行积极地研究,因而成为了自然语言处理领域的一个研 究的难点。 1 2 国内外研究情况 1 2 1 国外研究情况 国外有关数据库自然语言查询接口的研究可以追溯到2 0 世纪6 0 年代。这一 时期的几个著名系统有b a s e b a l l 5 1 ,s i r ,s t u d e n t 和e l i z a 等。这一时期 的代表作是格林的b a s e b a l l 系统,这是一个专用数据库接口系统。该系统的 数据库中记载着一年内美国全国棒球联赛的各种信息,系统允许用户用限定的英 语句子进行查询。与其他早期的自然语言处理系统一样,b a s e b a l l 对英语的 分析策略主要依赖于关键字匹配技术,这期间研究的系统大都没有真正的意义上 的语法分析。这类系统的最大优点是允许查询语言是不规范的语法句子。但这种 分析技术的不精确性也正是这种方法的主要弱点,它往往导致错误的分析【6 】【7 】【8 】o 2 0 世纪7 0 年代语法分析在深度和难度方面都比早期系统有了很大的进步, 是以句法一一语义分析为主流的时期。这一时期的典型系统有l u n a r 9 1 , s h r d l u 和m a r g l e 。美国的伍兹( w a w o o d s ) 设计的l u n a r 系统是二十 世纪七十年代自然语言专用接口的代表。该系统利用英语对美国国家航空和航天 管理局提供的一个从月球上采集的岩石标本的数据库进行查询。l u n a r 系统的 一个重要特点是对英语的句法和语义做出了比较深入的分析,它是借助于扩充转 移网络a t n 来处理句法问题的第一个程序【l o 】f l l 】f 1 2 】。 尽管b a s e b a l l 、l u n a r 和其他一些自然语言专用接口可以完成指定领域 的数据库查询任务,但是要把它们移植到其他应用领域非常困难。因此,人们开 始探索通用接口的设计。 1 9 7 8 年美国国际人工智能研究所( s r i ) 的汉得雷斯( c h e n d r i x ) 等人设计 的l i f e r 系统就是一个自然语言通用接口。该系统包括两个主要部分:一组交 互式的语言说明函数,用来定义一种面向应用领域的自然语言子集:一个分析程 序,对输入的自然语言作出解释,即将输入句子翻译成为可以对特定数据库直接 进行查询的命令。这种通过将分析程序与知识库相分离来扩展系统的做法成为建 造通用接口的基本思路。值得指出的是,汉德雷斯在描述语言。时采用了“语义语 2 第l 章绪论 法”。这种方法提高了自然语言的处理速度,所以后来被许多实时处理的自然语 言系统所采用。在美国,利用l i f e r 通用接口已经建立了一批自然语言的专用 接口,如美国海军使用的l a d d e r t l 3 】系统。 2 0 世纪8 0 年代年首批自然语言接口系统打进了国际市场,标志着一个具有 广阔前景的语言产业的崛起。如美国人工智能公司( a i c ) 率先推出的英语人机 接口系统i n t e l l e c t ,美国弗雷公司( f r e ya s s o c i a t e s ) 生产的t h e m i s 人机接口系 统,美国加利福尼亚工学院的a s k 系统,日本日立公司开发的h i c a l t s 英日、 日英翻译系统等等【1 4 】【1 5 】。 八十年代中期,n l i d b 成为了热门的研究领域,涌现出一大批原型系统,如 m a s q u e 1 6 】【1 7 】、t e a m 【1 8 】【1 9 】、a s k 2 0 】【2 l 】、j a n u s 2 2 1 、d a t a l o g 2 3 1 、e u f i d 2 4 1 、 l d c 2 5 1 、t q a t 2 6 1 、t e l i 2 7 1 等等。这段时期对n l i d b 的可移植性研究取得了一定 的成果,但还没有从根本上解决问题,这是由于语言理解技术制约了n l i d b 的 发展。 在轰轰烈烈的研究中,一些学者过分乐观地认为自然语言接口( n l i ) 的应 用会持续增加,广泛应用的时代即将到来。但不幸的是,从8 0 年代末到9 0 年代 初图形用户接口技术的巨大进步极大地冲击了自然语言接口的研究。因为,图形 用户接口( g u i ) 解决了许多人们原来期望自然语言接口才能解决的问题:自然语 言处理的诸多困难又使n l i 与g u i 相比没有优势可言。 因此,自那以后,自然语言接口的研究开始受到冷落。进入2 0 世纪9 0 年代 后,尽管自然语言接口方面的研究没有8 0 年代中期那样轰轰烈烈,但是依然有 一大批学者在从事这方面的研究,也有一些试验性或商用的自然语言接口系统出 现,如b b n 公司的p a r l a n c e 、i b m 公司的l o q u i 、s r i 的c l a r e 、微软公 司在s q l s e r v e r 6 5 7 中提供的e n g l i s hq u e r y 、加拿大s i m o n f r a s e r 大学开发的 s y s t e l - n x 等【2 8 】【2 9 】。它们除了在系统可用性和可移植性方面有所发展外,在自然 语言接口评价、领域知识的自动获取、系统的体系结构以及探索使用新的理论( 如 人工神经网络、统计与规则相结合) 等方面取得了新的进展【3 0 】。 1 9 9 1 年设立了“l o e b n e r 奖”,奖励首次通过图灵测试的设计者,许多著名的 人机对话系统参加了比赛,但迄今为止,没有任何一个系统通过“图灵测试”。 1 2 2 国内研究情况 我国在这方面研究基本是在汉语自然语言查询界面的范畴下展开的,以体现 我国用户使用汉语的特色。国内在从事数据库汉语查询界面的研究有了一些进 展,如吕光媚等人设计的c q i d 系统【3 l 】,吴照林等设计的c d s a 模型【3 2 】,张亚 南等设计的e a a d 模型【3 3 】,顾国良的系统【3 4 1 ,曹礼德基于泛关系的系统3 5 1 ,等 等。 北京_ t g k 大学丁学硕:i :学位论文 综观这些数据库汉语查询界面的研究,其采用的技术主要有关键词匹配、句 法模式匹配、扩充转移网络,语义语法、概念依存理论等,主流技术基本上以词 汇驱动、句法语义处理一体化为特征。总的来说,这方面的研究进展缓慢,且不 够系统,多属一些摸索性工作。特别在系统建设方面只停留在原型系统的水平, 难以见到一些成熟的系统。 最近几年,越来越多的学者重新认识到汉语查询界面研究的理论意义和应用 价值。国家也投入了大量的人力物力来支持相关课题的研究。 1 3 论文的研究内容及结构 第1 章为绪论部分,简要介绍了数据库自然查询语言接口的研究意义和国内 外研究情况,并在最后介绍了论文的研究内容及结构。 第2 章为自然查询语言处理的概述,首先介绍了受限的自然查询语言,然后 介绍了自然查询语言处理的核心部分及其研究方案的特点。 第3 章介绍了数据库语义标注时所用的词典以及词典的组织结构和访问方 式,是第4 章所述基于数据库语义的标注部分的基础和铺垫。 第4 章介绍了自动分词系统和基于数据库语义的标注模型的研究,其中自动 分词系统是中文处理系统必不可少的“工序”,分词的准确性直接影响着后续查 询语句的分析。数据库语义的标注部分主要介绍了数据库语义的标注过程以及数 据库语义的排歧算法。 第5 章介绍了语义依存关系及语义依存树的生成。首先介绍了依存语法的概 念和特点,其次介绍了依存关系及依存树的生成方法。最后介绍了语义依存树的 节点类型。 第6 章介绍了如何从语义依存树转化为s q l 语句的方法。利用“分而治之” 的思想首先将语义依存树划分为若干个语义集合块,再将集合块分别转化为对应 的s q l 语句,最后通过集合块之间的连接条件将s q l 子语句连接为一个完整的 s q l 语句。 第7 章介绍了所实现系统的界面,并通过实验数据说明系统的优点及存在的 不足之处。 最后为结论,总结本文的工作,探讨下一步可以开展的研究工作。 4 第2 章自然查询语言处理的概述 第2 章自然查询语言处理的概述 自然查询语言并非要求对所有的自然语言都能进行识别,这样做会大大提高 计算机处理的复杂性,而且会降低效率,因此应当找到一个子集,使在用户可以 接受的情况下对该子集进行处理,这样就涉及到自然查询语言的受限分析问题, 下面首先介绍自然查询语言的受限分析,然后概述对受限的查询语句的处理方 法,最后说明该处理方法的特点。 2 1 自然查询语言的受限分析 受限汉语的基本思想是在满足应用领域基本要求的前提下,对自然汉语适当 加以限制,以显著降低复杂性和减少机器处理的困难【3 6 【3 7 】。受限汉语用于中文 数据库查询接口是可行的,因为数据库查询句相对简单,表达的语义和查询的内 容是比较明确的,歧义大大减少。用户查询所用字、词、句式和修辞等语言现象 不像文学作品那样复杂和多样,用户也没有必要追求这些东西,因此对添加的限 制是可以接受的。 定义2 1 受限汉语:对汉语自然语言加以一定的规则而得到该自然语言的子 集,称之为受限汉语。 在计算语言学界,受限语言( r e s t r i c t e dl a n g u a g e ) 的思想由来己久【3 8 j 【3 圳。 1 9 6 8 年z e l l i gh a r r i s 提出了部分语言的概念,近年来英语、日语、法语等相继出 现了适用于机器翻译和自然语言理解的受限语言。如c a t e r p l i a re n g l i s h 、x e r o x 公司s y s t r a n 机译用受限语言、t i t u s 的机译用受限语言、日语限制语言( 长 尾真) 等等。关于受限汉语,中国工程院陈力为院士在1 9 8 7 年就提出过“规则 汉语”的设想,周锡令、鲁川、俞士汶教授等都研究过“受限汉语”的问题。这 些受限语言有个共同的特点,就是对原语言在词条的数量、词义或短语结构、句 法结构以及语义上加以一定的限制,限制后形成的语言子集在多义性、复杂性和 难于理解性上比原语言显著减少,使计算机处理起来更为有效。 从计算语言学的学科分类来看,受限语言的研究是“计划语言”( p l a n n i n g l a n g u a g e ) 这个学科的一个部门。所谓计划语言,就是为人们特定的目的而研制 出来的语言。它分先验型计划语言和后验型计划语言两种。先验型计划语言的语 言和词汇系统与自然的民族语基本上无关,其语法系统是非常严格而规范的,多 从公理系统的角度来设计。已有约5 0 0 种方案,如e s p e r a n t o ( 1 8 8 7 年由z i m e n h o f 提出) ,已经在全世界广泛使用,甚至成为家庭中的第二语言。后验型系统是经 过修改的民族语,实际上也就是受限的自然语言,即所说的“受限语言”( r e s t r i c t e d 北京工业人学工学硕一f j 学位论文 l a n g u a g e ) 。受限语言应该在如下四方面区别于非受限的自然语言: ( 1 ) 非受限自然语言中充满了歧义,而受限语言的歧义应该是可以控制的; ( 2 ) 非受限自然语言的结构复杂多样,而受限语言的结构应该是相对简单 而整齐划一的; ( 3 ) 非受限自然语言的语义表达是千变万化的,而受限语言的语义应该是 加以严格限制的,基本上作到一词一义,尽量避免多义词或近义词; ( 4 ) 非受限自然语言的句法和语义之间的联系是错综复杂的,而受限语言 的句法和语义之间的联系应该尽量作到一一对应。 本文所探讨的自然汉语数据库查询语句是一个受限汉语,它仅用于数据库的 查询,它的受限主要表现在以下几个方面: ( 1 ) 词汇受限:查询语句中的词汇如名词、动词等实词必然与应用领域的 数据库内容相关,其所用概念均与应用领域的数据库相关。 ( 2 ) 句型受限:查询语句使用的句型主要是祈使句和疑问旬,而本文主要 探讨祈使句型的查询语句。 ( 3 ) 语义受限:查询语句中所涉及到的语义概念或与应用领域的数据库相 关,或与表达查询的语义概念相关。 ( 4 ) 语用受限:查询的目的是从应用领域的数据库中获取用户所需的信息。 每个数据库自然语言查询语句都表达了要求查询数据库中的某些数据的思想,为 此查询语句需要指明查询的数据的名称及限定条件。 2 2 自然查询语言处理的核心部分 自然查询语言处理主要由五个核心部分组成。即:自动分词,基于数据库语 义的词性标注,基于数据库语义的依存树的生成,从实体关系图中找出最佳的连 接路径及通过语义依存树生成s q l 。下面先简要的介绍一下各部分,在后续的 各章节中会详细的介绍各部分的内容。 1 汉语的分词 分词方法主要分为基于规则的分词和基于统计的分词。目前,由于基于统计 的分词有较好的处理歧义的能力且通用性较好,可以通过扩充和修改词典而无需 修改程序来提高分词系统的识别效率。因此系统采用基于统计的分词算法利用实 现分词和词性标注。核心算法是最短路径算法【4 0 】【4 i 】【4 2 1 和v i t e r b i 算法【4 3 1 1 4 4 1 。 2 汉语的语义标注 将数据库的对象分为实体词,属性词,通用词等8 大类【4 5 1 ,并将其按照一定 的格式存储在词典中,词典访问也有一定的顺序,通过查找词典的方式标注查询 语句的语义。 3 汉语的语法分析 6 第2 章自然食询语言处理的概述 语法分析用的是语义依存树【4 6 1 ,依存树可以更好的体现汉语语法的灵活性。 具体的依存关系可分为7 类。而且依存的强度也可以分为三个等级,如实体和属 性值的依存关系的等级要优先于“的”字结构的依存强度。当一个词支配了另一 个词,则这个词将作为该依存子树的核心词,代表该依存子树与其他依存子树生 成更大的依存子树。最终结束是当所有的节点不再会有任何的依存关系。 4 从实体关系图中找出最佳的连接路径 由于自然查询语句的随意性,会导致语义不全,主要体现在实体与实体之间 的连接条件上。如:学生李明的课程,由于没有给出联系词,所以无法得知学生 和课程之间是如何连接的。因此需要系统能自动找出实体之间的连接关系。这个 部分的作用就是从实体关系图中找出实体间的连接关系。 5 语义依存树生成s q l 将语义依存树划分为若干的集合块【4 5 】 4 7 】【4 8 】,将每一个语义块的目标对象 ( o ) ,表集( t ) 和条件( c ) 提取出来,保存在该语义块中。再对每一个语义 块进行递归的合并,最终形成整个语义依存树的目标对象( o ) ,表集( t ) 和条 件( c ) ,最后再简单的合并,即可形成语义依存树的s q l 语句。 下面用状态图的形式来表现五个核心部分及他们之间的关系,如图2 1 所示: 图2 1 核心部分之间的状态关系 f i g u r e2 - 1r e l a t i o n s h i po fs t a t eb e t w e e nc o r ep a r t s 7 北京t _ , d k 大学工学硕卜学位论文 2 3 自然查询语言处理的研究方案的特点 1 算法与知识库分离 算法与知识库相分离,可以增强系统的通用性和可移植性,当程序需要应用 到其他领域时只需要更换知识库而不用修改算法。 2 采用依存语法进行句法分析 依存语法没有规定好的语法规则,而是依据句子中词之间的依存关系展开分 析,这对短语规则短语结构语法和句子成分规则句子成分分析法不是很明确的汉 语来说,采用依存语法是最为适合的。 3 采用“分而治之”的策略 先将依存树分为若干个集合块,再将每个集合块转化为s q l 语句,最后将 s q l 语句拼接起来,这样使得一个复杂的转换问题转变为一系列简单的转换问 题。 4 在实体一联系图中采用基于边查找表集和连接路径 在实体一联系图中采用基于边而不是基于节点来查找表集和连接路径,这样做 可以处理两个节点之间有多条边的情况,增强了程序的适应性。 5 程序通用性 将自然查询语言系统与知识库分开各自独立进行设计,增强程序的通用性和 可移植性。 6 字典构建方便 专业词典建立简便,采用自动或半自动的方式。通用字典一次建立,会有很 少的变动。 7 对用户要求不高 采用自然语言查询方式,无须对用户有较高的数据库知识的要求。 8 方便快捷 采用手机短信平台,充分发挥手机随身携带、普及率高、费用低廉、使用简 单的特点。 2 4 本章小结 本章首先对自然查询语言的受限性加以分析,给出了受限汉语的定义,通过 对查询语句进行限制降低计算机处理的复杂性,同时也提高了处理的效率。接下 来简要介绍了自然查询语言处理的五个核心部分及其之间的关系,这也是后续章 节主要阐述的内容。最后概括了自然查询语言处理的研究方案的特点。 第3 章词典的组织 第3 章词典的组织 系统主要将词典分为通用词典和专用词典两大类。其中通用词典主要记录常 用词及其数据库语义,如“是”词、比较词、连词、查询词、量词等。通用词词 典一般使用于各种领域;专用词典则记录了在某一应用领域中常用词的语义,当 系统从一个领域移植到另一个领域中时,专用词典必须重新构造。 3 1 通用词词典 表3 1 通用词词典结构 table31s t r u c t u r eo fg e n e r a ld i c t i o n a r y 标准名称通用词语义 表3 1 为通用词词典结构图,其中“标准名称 为待查询词通过同义词词典 查询后所得到的统一名称。“通用词语义”一般可分为如下几种:“是 词、“有” 词、比较词、连词、查询词j 量词等。 3 2 专业词词典 3 2 1 同义词词典 表3 2 同义词词典结构 t a b l e 3 2s t r u c t u r eo fs y n o n y m yd i c t i o n a r y 标识| 词的标准名称i 同义词 表3 2 为同义词词典结构,其中“标识”说明待查询词属于哪种词典。“词的 标准名称”是将待查询的词规范化后的词。“同义词”为数据库查询语句中所能 包含的各种类型的词。 同义词词典主要作用是将查询语句中的各个词的名称进行标准化并映射到 相应的词典中。 3 2 2 属性词词典 表3 - 3 同义词词典结构 t a b l e 3 3s t r u c t u r eo fs y n o n y m yd i c t i o n a r y 表3 3 为属性词词典结构,其中“数据类型”为属性的数据类型,如:整型, 字符型等。“概念类型 为属性所属的概念范畴,如:人,地名,时间等。 9 北京t 业大学工学硕二l ! 学位论文 3 2 3 实体词词典 表3 - 4 实体词词典结构 t a b l e 3 4s t r u c t u r eo fe n t i t yd i c t i o n a r y 实体名主键中属 主键( 属性外键个数 对应外键的主键 缺省 性的个数 或属性集) 属性,外键所在属性 的实体,外键 表3 4 为实体词词典结构,其中“主键中属性的个数”和“外键个数”字段 为大于等于零的整数。口代表该字段有n 个域( n = o ) 。其中 主键( 属性或属性 集 为主键所包含的属性( 集) ,具体数目由“主键中属性的个数”字段决定。 对 应外键的主键属性,外键所在的实体,外键】为主键的属性所对应的外键,具体 数目由“外键个数”字段决定。“缺省属性”为在查询语句中未明确指明实体词 的具体属性时所用。如:查询1 8 岁的运动员。在这条查询语句中,没有指明最 终需要查询的属性,但如果“缺省属性”默认为“姓名”字段,则默认所需查询 的属性为“姓名”。即查询1 8 岁的运动员的“姓名”。 3 2 4h i n t 词词典 表3 5h i n t 词词典结构 t a b l e 3 5s t r u c t u r eo fh i n td i c t i o n a r y h i n t 词l 所表示属性的表名i 所表示的属性 表3 5 为h i n t 词词典结构。h i n t 词即为暗示词,用于说明其前面的属性值的 含义,即该属性值所属属性。如:18 岁,在这里“岁”说明1 8 是个年龄,应属 于年龄字段,而不是其他字段。 3 2 5 疑问词词典 表3 6 疑问词词典结构 t a b l e 3 - 6s t r u c t u r eo fq u e s t i o nd i c t i o n a r y 疑问词l 所表示属性的表名i 所表示的属性 表3 - 6 为疑问词词典结构。疑问词词典用于说明该疑问词的属性值的含义, 即该疑问词所属属性。如:谁参加游泳比赛,在这里“谁”说明该词是“姓名” 字段,而不是其他字段。 3 3 词典的组织结构 由于涉及的词典较多,而且有些词典无法一次性标识数据库语义,还需对其 l o 第3 章词典的组织 他词典进行查找,因此需要按照一定的顺序对词典进行访问。词典访问的顺序如 图3 1 所示: 图3 - 1 词典之间关系和访问次序 f i g u r e3 - 1r e l a t i o n s h i pa n dq u e r yo r d e rb e t w e e nd i c t i o n a r i e s 由上图可知,对数据库语义的查找是从同义词词典开始的,这是由于同义词 词典记录了其他词典的信息,类似于个索引,待查词语可以通过同义词词典找 到该词属于哪个词典,再到相应的词典查找。如果该词属于实体词词典、属性词 词典、通用词词典或动词词典,则直接返回相应的语义。如果该词属于h i n t 词 典、疑问词词典或枚举词典,由于这三类词典只是标识该词属于哪类数据库对象, 并没有该词的确切的数据库语义,因此还需要通过这三类词典进一步查询该词的 数据库语义。一般情况下,这三类词典标识的数据库对象为属性或属性值,因此 进一步查询数据库语义的词典应为属性词词典。 3 4 本章小结 本章主要介绍数据库语义标注词典的分类及其组织结构。其中数据库语义标 注词典主要分为通用词典和专业词典两大类。这样可以提高系统的灵活性,在不 需要改变程序和通用词典而只需更换专业词典的情况下即可进行不同领域的数 据库查询。词典是通过一定的顺序进行访问的,这样可以提高访问的效率。该词 典存储了大量的关于数据库语义的信息,是数据库语义标注的基础。词典的提取 主要是通过自动和半自动方式进行的。对于像实体词典、属性词典,可以直接通 过数据库中的数据词典提取出来。而像同义词词典、h i n t 词典、疑问词词典可以 通过提取系统的提示由用户输入各个字段的信息。 第4 章自动分词和基于数据库语义的标沣 第4 章自动分词和基于数据库语义的标注 汉语自动分词和词性标注是任何自然汉语处理系统都难以回避的前两道基 本“工序”,其作用是怎么估计都不会过分的。只有逾越这个障碍,各种汉语处 理系统才称得上初步打上了“智能”的印记,构建于词平面之上的各种后续语言 分析手段才有展示身手的舞台。同样本文所探讨的数据库自然语言查询接口先要 完成分词和词性标注,但不同于传统的自动分词和词性标注,该接口系统对分词 后的查询语句加入了数据库语义标注。 4 1 自动分词 本系统的自动分词主要用到了i c t c l a s 分词系统的基本思想,分词系统是 由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,该系统 开放了源代码,下面就其分词思想做一个介绍。 该分词系统的主要思想是先通过c h m m ( 层叠形马尔可夫模型) 进行分词, 通过分层,既增加了分词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年MVR蒸汽机械行业当前发展趋势与投资机遇洞察报告
- 收营员基础知识培训总结课件
- 2025年网络安全及信息安全防护基础知识考试题与答案
- 2025年广东省网格员招聘考试题库及答案解析
- 2025年建筑三类人员岗位职业技能资格知识考试题库(附含答案)
- 2025年氧化工艺实操考试题带答案
- 2025年跨境电商岗位职业理论及技能资格知识考试题与答案
- 2025年幼师考试《幼儿综合素质》试题及答案
- 2024年上海市浦东新区高东镇先锋社区工作人员考试模拟试题及答案
- 摔跤讲解课件
- 2024年装修合同示范文本
- 关于供应室课件
- 传媒公司会场服务方案
- 电影企业管理会计体系构建
- 职校开学第一课课件:谁说职业没前途
- 铝合金模板施工施工方法及工艺要求
- 2024年国家电网公司华中分部招聘历年(高频重点提升专题训练)共500题附带答案详解
- 大型医院巡查经济管理部分巡查内容
- 2021-2022学年北京市海淀区九年级上期末数学试卷及答案解析
- (高清版)DZT 0388-2021 矿区地下水监测规范
- 《医德医风培训》课件
评论
0/150
提交评论