(系统工程专业论文)基于领域知识的中文短信理解模型研究.pdf_第1页
(系统工程专业论文)基于领域知识的中文短信理解模型研究.pdf_第2页
(系统工程专业论文)基于领域知识的中文短信理解模型研究.pdf_第3页
(系统工程专业论文)基于领域知识的中文短信理解模型研究.pdf_第4页
(系统工程专业论文)基于领域知识的中文短信理解模型研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(系统工程专业论文)基于领域知识的中文短信理解模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理j l :人学硕士学位论文 摘要 随着中国移动短信业务的迅猛增长,用短信对数据库中的信息进行查询已经成为一 种十分便利的信息查询方式。但现在大部分短信查询系统都要求用户按照规定的格式编 写短信,这给用户的查询带来了许多不便。数据库自然语言查询系统可以使用自然语言 灵活的编写短信,但自然语言理解方面遇到的困难使得中文自然语言短信查询系统迟迟 未能达到实用水平。因此,研究中文自然语言查询短信的理解方法,对数据库中文查询 系统的早曰实用化有着十分积极的作用。本文根据中文查询短信的特点,提出了基于领 域知识的中文短信理解方法,具体的工作内容包括如下几点: 1 词法分析方面,针对铁路票务领域查询句中词汇的特点,对词汇进行重新划分, 构造了具有领域特征的分词词典。在分词词典的基础上,应用逆向最大匹配算法,完成 对中文查询句的切分。 2 句法分析中,通过对查询句中查询目标和查询条件详细的分析,设计了能够覆盖 铁路票务领域内大部分查询问旬的语义文法。提出了图结构自顶向下分析算法同数据库 语义相结合的方法,以此来完成句子结构的分析和句法成分数据库语义的获得。 3 在s q l 命令的生成中,提出把具有数据库语义的语法树作为自然语言向s q l 查询命 令转化的中间形式,通过深度优先搜索算法搜索语法树,提取语法树中相应结点的信息, 完成s q l 查询命令的构造。 4 问答旬生成方面,根据不同的的查询目标设计出相应的问答句模版,通过查询结 果与问答旬模版的组合形成问答句。 本文在总结了其它数据库中文查询句的理解方法后,针对铁路票务领域内的数据库 中文查询问旬提出了一套切实可行的理解方法,这一理解方法不仅适用于铁路票务领域 内的数据库中文查询句,同时,也为其它领域中中文查询句的理解提供了一种思路。 关键词:中文短信;领域知识;语义句法树;数据库中文接口;s q l 命令 贾萌:基于领域知识的中文短信理解模型研究 r e s e a r c ho nd o m a i nk n o w l e d g eb a s e dc h i n e s es h o r tm e s s a g e u n d e r s t a n d i n gm o d e l a b s t r a c t w i t ht h ew i d ea p p l i c a t i o no fs m s ( s h o r tm e s s a g es e r v i c e ) i nc h i n aa n dr a p i di n c r e a s e o fa m o u n to fs m su s e r s ,a l le x p e c t a n ti n f o r m a t i o nq u e r yi nad a t a b a s ew i t hs m sh a sa l r e a d y b e c o m eo n ev e r yc o n v e n i e n tw a yo fe x t r a c t i n gi n f o r m a t i o nb e t w e e nu s e r sa n da p p l i c a t i o n d a t a b a s e b u tt h em a j o r i t i e so ft h ei n t e r f a c eo fd a t a b a s eq u e r yr e q u i r et h eu s e r st ow r i t e s e v e r a ls h o r tm e s s a g e si naf i x e df o r m ,w h i c hb r i n g sm a n yt r o u b l e sa n di n c o n v e n i e n c et o u s e r sq u e r y n a t u r a ll a n g u a g ei n t e r f a c eo fd a t a b a s eq u e r yd o e s n tn e e dt h eu s e rt ow r i t es h o r t m e s s a g e si nt h ef i x e df o r m b u tt h ed i f f i c u l t i e si nu n d e r s t a n d i n gn a t u r a ll a n g u a g ee n a b l et h e c h i n e s ei n t e r f a c eo fq u e r y i n gd a t a b a s es l o w l yt oa c h i e v et h ep r a c t i c a ll e v e l t h e r e f o r e ,t h er e s e a r c ho nu n d e r s t a n d i n gc h i n e s es h o r tm e s s a g eo fq u e r y i n gd a t a b a s e h a sap o s i t i v ef u n c t i o nf o rt h ec h i n e s ei n t e r f a c eo fd a t a b a s eq u e r yt oa c h i e v ep r a c t i c a ll e v e l s o o n e r t h ew o r ki nt h ed i s s e r t a t i o na sf o l l o w i n g s : i nt h ev i e wo fc h a r a c t e r i s t i co ft h ew o r d si nq u e r ys e n t e n c ei nt h er a i l r o a dt i c k e ts e r v i c e d o m a i n ,t h ew o r d sr e l a t e dt ot h ea p p l i c a t i o na r ed i v i d e di n t od i f f e r e n tc l a s s e st of o r ms e v e r a l d o m a i nd i c t i o n a r i e sw h i c he m b o d yc h a r a c t e r i s t i c so ft h ed o m a i n h e r e i n ,ar e v e r s i o n m a x i m u mm a t c ha l g o r i t h mi su s e dt od i v i d ea u t o m a t i c a l l yt h eq u e r ys e n t e n c ei n t os o m e s i n g l ew o r d s i nt h es y n t a xs t r u c t u r ea n a l y s i s ,ag r a m m a rd e f i n i t i o nt h a th a sb e e na b l et oc o v e rt h e m a j o r i t i e so ft h eq u e r ys e n t e n c ep a t t e r n si nt h er a i l r o a dt i c k e ts e r v i c ed o m a i ni sd e s i g n e db y a n a l y z i n gc a r e f u l l yq u e r yg o a la n dt h eq u e r yc o n d i t i o ni nt h eq u e r ys e n t e n c e i ti sp r o p o s e d t h a tat o p d o w np a r s i n ga l g o r i t h mw i t hac h a r ts t r u c t u r ei s i n t e g r a t e dw i t has e m a n t i c a l d a t a b a s e t h es e m a n t i c a ld a t a b a s ei so b t a i n e dw h i l et h es y n t a xi n g r e d i e n ti sa n a l y z e db yt h i s m e t h o d i nt h es q lc o m m a n dc o n s t r u c t i o n ,ag r a m m a ra n a l y s i st r e ew i t ht h ed a t a b a s es e m a n t i c s i sc o n s t r u c t e da sam i d d l et ot r a n s f o r man a t u r a ll a n g u a g es e n t e n c ei n t oas q lc o m m a n d b y s e a r c h i n gt h es y n t a xt r e ei np r i o r i t yo fd e p t h o ft h es y n t a xt r e e ,t h ec o r r e s p o n d i n gi n f o r m a t i o n i se x t r a c t e df r o mt h en o d ei nt h eg r a m m a rt r e e ,a n dt h e nt h es o lc o m m a n di sc o n s t r u c t e d aa n s w e rt e m p l a t ei sd e s i g n e dt oc o n s t r u c tt h ea n s w e rs e n t e n c ee o r r e s p o n d i n g l y a c c o r d i n gt ot h ed i f f e r e n tq u e r ya i m s a tl a s t ,t h ea n s w e rs e n t e n c ei sc r e a t e db yc o m b i n i n g t h et e m p l a t ea n dt h eq u e r yr e s u l t s t l 盔堑里王查堂堡主堂笪堡苎 一 a f t e rs u m m a r i z i n gt h ea l g o r i t h m so fu n d e r s t a n d i n gc h i n e s es e n t e n c e sq u e r yi n t e r f a c e o f d a t a b a s e as e to fp r a c t i c a la n df e a s i b l eu n d e r s t a n d i n gm o d e l sa r ep r o p o s e di na r a i l r o a dt i c k e t s e n ,i c ed o m a i n t h i sm o d e lc a bp r o v i d eak i n do fs o l u t i o nf o rc h i n e s en a t u r a ll a n g u a g eb a s e d d a t a b a s eq u e r ys y s t e mi no t h e rd o m a i n se x c e p tc h i n e s en a t u r a ll a n g u a g e b a s e dr a i l r 0 8 dt i c k e t s e r v i c ed a t a b a s eq u e r y k e y w o r d :c h i n e s es h o r tm e s s a g e :d o m a i nk n o w l e d g e ;c h i n e s e i n t e r f a c eo fd a t a b a s e ; s y n t a xt r e ew i t hd a t a b a s es e m a n t i c ;s q l c o m m a n d 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。 作者签名:嗫矿日期:塑苎:! 墨 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名: 霭韵 聊虢j 弛尘 坦年业月卫日 大连理1 _ 大学硕士学位论文 1 引言 1 1 研究背景与意义 2 0 0 0 年,中国移动中国联通先后在国内开展了移动短信息服务;2 0 0 1 年1 1 月,中国 电信开始提供固网短信息服务;2 0 0 2 年4 月,中国电信又开通了固定无线短信息服务。 这些都预示着中国的手机行业正在走进一个短信息时代“1 。随着手机短信息业务的普及, 利用自然语言查询数据库中信息的研究具有了更重要的实际意义。 自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成 自然语言。自然语言是人类交流使用最多、最为方便的交流工具,用自然语言与计算机 交流,使计算机能够理解人们的自然语言,并能使计算机执行相应的操作,这正是自然 语言理解( 也称为计算语言学) 的研究所致力达到的目标之一。随着手机业务的不断扩 展,设计数据库自然语言查询系统,通过自然语言查询短信获得数据库中的信息,己成 为自然语言理解领域中极具应用前景的方向之一。 在当前的数据库查询系统中,查询短信的书写格式被设计者作了严格的限制,即用 户必须按照设计者给定的查询短信格式进行相关信息的查询。这种数据库查询系统的优 点是,由设计人员针对用户常见的查询内容进行设计,只要用户能够了解数据库查询系 统给出的查询格式,便能查询出相关信息,效率较高。但缺点是,大多数用户并不了解 查询系统规定的查询短信格式,并且也无法方便快捷的获得这些查询格式,因此,往往 并不能按照规定的格式编写短信对数据库中的信息进行查询,这就导致了许多用户并不 能通过查询短信及时的获得需要的信息。 数据库自然语言查询系统并不要求用户按照固定的格式编写短信实现查询。用户只 需输入与数据库查询语言相应的自然语言查询语句,由查询系统对用户的查询语句进行 分析,并转化为相应的数据库查询语句在数据库中进行查询,最后把查询结果返回给用 户。与当前的数据库查询系统相比数据库自然语言查询系统具有以下优点:首先,用户 在用自然语言进行查询时,可以不必了解设计者规定的查询格式,查询短信的编写格式 就和平时说话的方式一样,这使得查询更加方便、任意,实现了系统的智能化,而在当 前的数据库查询系统中,是不可能让用户按平时的说话方式进行查询的;其次实现了查 询系统的易用性,使用户完全摆脱了使用方法的束缚,用户只需把查询要求用自然语言 表达出来,数据库查询系统就可进行处理。 在数据库自然语言查询系统中,对用户输入的用自然语言表示的查询短信的理解是 一个关键问题,本文的研究工作即是对某一领域范围内信息查询过程中自然语言查询短 信的理解。由于对查询短信的理解能力和水平反映了一个数据库自然语言查询系统的智 能水平,所以本文的研究工作具有一定的理论和应用价值。 贾萌:基于领域知识的中文短信理解模型研究 1 2 国内外研究现状及趋势 1 2 1 国外研究现状及趋势 国外有关数据库自然语言查询旬理解系统的研究可以追溯到本世纪六十年代。早期 的代表怍是格林的b a s e b a l l 系统,这是一个专用数据库查询句理解系统”。该系统的数 据库中记载着一年内美圜全国棒球联赛的各种信息,系统允许用户用限定的英语进行查 询。与其他早期的自然语言处理系统群,b a s e b a l l 对英语的分析策略主要依赖于关键 字匹配技术。 美国的伍兹设计的l u n a r 系统是七十年代自然语言理解专用系统的代表。该系统利 用英语对美国国家航空和航天管理局提供的一个从月球上采集的岩石标本的数据库进 行查询。l u n a r 系统的一个重要特点是对英语的句法和语义做出了比较深入的分析,它 是借助于扩充转移网络a t n 来处理句法问题的第一程序。 尽管b a s e b a l l 、l u n a r 和其它自然语言专用理解系统可以出色地完成指定领域的数 据库查询任务,但是要把他们移植到其他应用领域非常困难。因此,人们开始探索通用 理解系统的设计。所谓通用理解系统就是一种用来设计和调试各种自然语言理解系统的 开发工具( 或支持环境) ,专用理解系统的建造着利用它可以很快地建立起特定领域的 词典、句式和相应的响应式。这样做的好处主要是使新系统的设计开发可以复用已有的 成果,从而缩短系统的设计、调试周期,避免大量的重复性劳动。 1 9 7 8 年美国国际人工智能研究所( s r i ) 的汉德雷斯等人设计的l i f e r 系统就是一 个自然语言通用理解系统。该系统包括两个主要部分:一组交互式的语言说明函数,用 来定义一种面向应用领域的自然语言子集;一个分析程序,对输入的自然语言作出解释, 即把输入句子翻译成为可以对特定数据库直接进行查询的命令。这种通过将分析程序与 知识库相分离来扩展系统的做法成为建造通用理解系统的基本思路。值得指出的是,汉 德雷斯在描述语言时采用了“语义语法”。这种方法提高了自然语言的处理速度,所以 后来被许多实时处理的自然语言系统所采用。在美国利用l i f e r 通用理解系统已经建立 了一批自然语言的专用理解系统,如美国海军实用的l a d d e r 系统。 1 9 8 3 年首批自然语言理解系统打进了国际市场,标志着一个具有广阔前景的语言产 业的崛起。如美国人工智能公司率先推出的i n t e l l e c t 系统,美f r e ya s s o c i a t e s 的 t h e r n i s 系统,美国加利福尼亚1 学院的a s k 系统等。1 。 在轰轰烈烈的研究中,些学者过分乐观的认为自然语言理解系统的应用会持续增 长,f 。泛应用的时代即将到来。但不幸的是,8 0 年代末、9 0 年代初图形用户接口技术 的巨大进步极大地冲击了自然语言理解系统的研究。因为,图形用户接口解决了许多人 们原来期望自然语言接【_ i 才能解决的问题;自然语言处理的诸多困难又使n l i 接口的研 究丌始受到冷落。这一点从这些年有关n i t 方面的论文就可以明湿的看到。 大连理工大学硕士学位论文 进入九十年代后,尽管自然语言理解系统方面的研究没有八十年代中期那样轰轰烈 烈,但是依然有一大批学者在从事这方面的研究,也有一些试验性或商用的自然语言理 解系统出现,如b b n 公司的p a r l a n c e 、b i m 公司的l o q u i 、s r i 的c l a r e 、微软公司在 s q ls e r v e r 6 5 7 0 种提供的e n g l i s hq u e r y 、加拿大s i m o nf r a s e r 大学开发的s y s t e m x 等。它们除了在系统可用性和可移植行方面有所发展外,在自然语言理解系统评价、领 域知识的自动获取、系统的体系结构以及探索使用新的理论( 如h p s g 、人工神经网络、 统计与规则相结合) 等方面取得了新的进展。 1 2 2 我国的研究现状与不足 数据库中文查询理解系统具有重大的理论意义和实际价值。国内对数据库中文查询 理解系统的研究始于上世纪七十年代末期,进行了多种研究和探索,但进展缓慢,其主 要原因是受中文的自然语言理解问题的限制“1 。自然语言理解,特别是中文自然语言理 解的研究是一项长期的工作,但把自然语言限制于查询语句上时,就会使其受到基于e r 模型的数据库的信息知识与查询语句本身句型及语义的诸多限制,这在一定程度上降低 了中文的复杂程度,使对数据库中文查询语句的理解能力的提高有了可能,正是在这种 背景下,人们开始了对数据库中文查询系统的开发与研究。 对于中文查询语句理解的研究工作,一般来说,主要沿着两个方向展开,第一个方 向是对基于e r 模型的数据库中的信息进行尽可能多的查询,其理想结果是,凡是能用 s q l 语句实现的查询,当用户用相应的中文句子表述后,系统应能理解并转换为相应的 s q l 语句,进而得到相应的查询信息。第二个方向注重对数据库中隐含知识的研究,即 不但能对数据库中的已有信息进行类似于s q l 语句的查询,还能对数据库中的隐含知识 进行理解并给出相应查询,体现了计算机的智能性。对人来说,就像与人交流一样,可 以使用相应的自然语言中的概念,真正实现了方便和易用。在这个方向上,也还有较多 的工作需要去做。 2 0 世纪8 0 年代初,在研究国外开发成果的基础上,根据中文的特点,国内也相继推 出了一些中文数据库查询理解系统,不仅设计了一批专用的中文理解系统,如清华大学 陈群秀和赵琦为该校的汽车调度专家系统设计的中文专用接 3 c n l i e s 等;而且在1 9 8 6 年 研制出了第一批中文通用理解系统,如清华大学的s p s 和u s 系统、华中理工大学的er t v 系统、上海工业大学的l i g c 系统等“1 。近几年公布成果有,基于受限中文的数据库自然 语言接 3 n l c q i ( 暨南大学,许龙飞等) ,基于e r 模型和受限中文的关系数据库中文查 询语言的计算模型r c h i q l ( 北京大学,崔宗军等) ,数据库中文查询接口系统w t c d i s ( 北 京信息工程学院,李保利等) ,以及其它一些系统等“。 综观: 年来数据库中文查询理解系统的研究”】,这些实验系统采用的技术主要有: 关键词匹配、句法模式匹配、语义语法、扩充转移网络( ( a t n ) 等、主流技术主要有基于 数据库的f r 中文理解模型、类关系代数逻辑式的中问语言转换、以条件为中心的句型 3 贾萌:基于领域知识的中文短信理解模矾研究 匹配以及多语句组合模板等方法,将通用知识库与领域专用知识库相分离,利用学习模 块获取领域专用知识,以此达到一定程度的可移植性。1 。总的说来,这方面研究的进展 缓慢,多数系统只停留在原型系统的水平,未考虑向实用系统转化。 由于中文相对于英语有其自身的一些特点,使得关于数据库中文查询理解系统的实 现有诸多困难0 1 。对数据库隐含知识的处理能力需要加强。由于受中文语言本身的理解 问题的限制,在数据库自然语言理解系统中对数据库隐含知识的处理一直是一个难点, 但一个数据库自然语言查询系统要真正实现其智能化,必须加强对数据库隐含知识的处 理能力“。如果一个数据库自然语言查询系统对数据库隐含知识的处理能力较弱的话, 则用户在使用数据库中文查询理解系统时,只能以系统所允许的概念进行查询,而不能 使用自然语言中的相关概念进行查询。在数据库自然语言查询语句中,对查询目标的识 别能力需要进步提高,一般来说,只能识别像“域名”等一些简单目标。而对于一个 具有一定智能的数据库查询系统来说,这些远远不够,还需要能识别不同类型的查询目 标并能进一步处理。在数据库自然语言查询语句中,对查询条件的识别是其关键问颗, 但还有一些难点问题需要解决。如对含数据库隐含知识的查询条件的识别、隐含分组操 作的查询条件的识别、隐含否定词的查询条件项的识别等难点问题的处理能力需要进一 步提高。 1 3 研究内容及方法 1 3 1 研究内容 本文旨在通过对中文查询短信的自然语言理解,利用词法分析、句法分析与语义分 析、中间语言转化为s q l 命令、应答生成几个相对独立的部分把中文查询短信转化成标 准的s q l 畚日令,并获得查询结果返回给用户。本文根据查询短信自然语言理解的需要, 主要进行一下几部分工作: ( 1 ) 词法分析 在自然语言理解中,对中文的处理需要首先进行词的切分,即把整个句子中的词切 分出来。这是中文不同于英语的特殊问题,也是自然语言处理的难点之一。 ( 2 ) 句法分析与语义分析 句法分析实现对查询语句在句法上的理解即理解句子中各词之间关系。语义分析实 现在语义层面上对查询语句的理解。本系统根据对句型和奄询目标查询条件的分析构造 一部语义语法,通过自顶向下的图结构句法分析方法,结合领域的文法知识库,对查询 句进行句法和语义的分析。 ( 3 ) s q i i 奇询命令的生成 语法语义分析的结果往往用某种形式语言表示。本系统把语法语义分析后生成的具 有数据库语义语法树作为中间转化形式,通过对语法树的搜索算法获得年目应的信息,根 一4 一 大连理工大学硕十学位论文 据s q l 的转换规则形成最后的s q l 查询命令。 ( 4 ) 应答生成 本系统构造回答问句模版,通过查询目标与回答问句模版的对应关系,结合查询结 果构成问答句。 1 3 2 本文篇章结构设计 第一章引言:这一章主要是就国内外对数据库自然语言查询理解系统的研究情况 进行了一下综述。主要是从问题的产生、国内外的主要研究方法以及国内这方面研究的 不足几方面进行了一下阐述。同时,提出了本文的研究内容。 第二章系统的总体模型:这章从总体上描述了一下数据库中文查询短信理解模 型的总体结构。 第三章系统的词典与知识库设计:介绍分词词典的构造和以及知识库的设计。 第四章这一章主要介绍中文查询短信理解模型的分析和设计词法分析中,通过逆 向最大匹配算法对查询句进行切分,通过词汇的重新分类控制歧义切分。句法语义分析 主要是介绍查询句的句法语义分析中语义语法的构造、句法分析算法的设计。s q l 命令 的构建和回答句生成是对查询旬至i j s q l 查询命令的转化方法以及问答旬的生成方法进 行分析和讨论。 第五章数据库中文查询短信理解系统的实现:这一章主要是阐述数据库中文查询 短信理解系统的具体实现以及对本文所做工作和尚存在的问题进行总结。 贾萌:基于领域知识的中文短信理解模型研究 2 中文查询短信理解系统的总体模型 2 1 中文查询短信的数据库接口 定义中文查询短信的数据库接口指自然语言为中文的短信查询系统。 中文查询短信的数据库接口与自然语言为英语的数据库查询接口相比,有更多的难 点和困难,象中文的词的切分问题与句子的理解问题等,都有不同的特点“。数据库自 然语言接口与当前使用规定查询短信格式进行查询的的数据库接口相比,具有以下特 点: ( 1 ) 使用方便。用户不需要或只需要极少的培训就可使用。 ( 2 ) 内部处理复杂。就查询系统内部的处理难度来说,规定查询短信格式的数据库 查询系统处理相对较为简单,系统只需按照格式提取相应信息就可以进行查询“。而数 据库自然语言查询系统因接受的是自然语言,故系统需要对自然语言进行理解和分析, 这里正是自然语言查询系统的难点。 ( 3 ) 以人为本。用户在进行数据库查询时,可以根据自己的查询要求使用自然语言 进行查询,不必关心计算机系统中的具体内容。而对规定格式的数据库查询系统来说, 用户的查询短信被系统的查询格式所限制。 ( 4 ) 推广价值较高。数据库自然语言查询系统只要求用户使用用户最熟悉的自然语 言来表达其查询要求,方便了人对计算机工具的使用,具有较高的推广价值。 2 2 中文查询语句 定义对中文自然语言加以一定的规则而得到该自然语言的子集,称之受限中文。 本文所说的自然语言查询语句是一个受限中文“”,它仅用于数据库中信息的查询。我们 试图在保证输入的中文查询语言比较自然的前提下,给出的对中文的限制,即受限中文 的文法与规则,其中中文查询旬受限主要表现在以下几个方面: 词汇受限:查询语句中的词汇如名词、动词等实词必然与数据库内容相关,其所用 概念均与具体的数据库相关,而其它词汇与表达奄询的目的相关。 句型受限:查询使用的句型以祈使句和疑问句为主,一般没有兼语句、连动句等难 以处理的句型。 语义受限:查询语句中所涉及到的概念或与具体的数据库相关,或与表达查询的概 念相关。 语用受限:查询的目的是从具体的数据库中获取用户所需的信息“。每个数据库自 然语言查询语句都表达了要求查询数据库中的某些数据的思想,为此,查询语句要指明 需查洵的数据的名称及限定条件。 大连理工大学硕士学位论文 作为以查询数据库内容为目的的自然语言查询语句,主要包括查询条件、查询目标 等方面的信息以及语句表达上需要而与查询内容无关的干扰噪音“。因此,在对数据库 自然语言查询语句的处理中,最主要的也是我们最关心的就是要分清查询目标与查询条 件。 2 3 数据库中文查询短信理解模型 由于数据库中文查询短信是向数据库进行查询的要求,使得中文查询短信本身受到 了诸如数据库内容的限制、句型的限制、词语的限制等,降低了中文理解的复杂性。本 系统把受限中文与基于e r 模型的数据库语义以及相关领域的背景知识相结合“,完成 了数据库中文查询短信理解模型的设计。数据库中文查询短信理解模型的体系结构图2 1 所示,并在铁路票务数据库中文查询短信理解系统中得以具体实现。 查询短信 词法分析 切分阔串 句法分析与语义分析 树 s q l 命令生成 s q l i 命令 d b m s 查询结果 问答句生成 回答句 分词词典 1 通用词典 2 域值词典 3 关系词典 4 标准域名词典 5 非标准域名词典 知识库 1 文法规则知识库 2 文法规则数据库语 义知识库 3 回答模板知识库 图2 1 数据库中文壳询短信理解模型 f i g u r e 2 1m o d e lo f c h i n e s es h o r tm e s s a g eo f q u e r yd a t a b a s e 中文查询短信的自然语言理解主要分为词法分析、句法分析与语义分析、自然语古 贾萌:基丁- 领域知识的中文短信理解模型研究 转化为中间语言、中间语言转化为s q l 命令、应答生成几个相对独立模块;各模块相对 独立,使系统具有较好的可移植性和易扩充性。本系统各模块的简要分析及主要功能如 下: ( 1 ) 词法分析 在自然语言理解中,对中文的处理需要首先进行词的切分。即把整个句子中的词切 分出来。这是中文不同于英语的特殊问题,也是自然语言处理的难点之一“。由于查询 语句总是要查询数据库中的信息,从而查询语句中的词与相关数据库联系较为紧密,即 与具体数据库的表名、域名和域值有较强联系,因此,这部分词汇有极为重要的意义, 它们构成了查询条件与查询目标的基础“。这f 是查询语句不同于一般的中文句子的特 点。 本系统通过建立多个词典的方法,根据领域信息中的组词特点重新划分词汇的分 类,以此来更有利于词法分析。此种方法充分利用了领域知识和中文查询语句的特点, 即在中文查询语句中,人们的查询要求一般与数据库中的具体信息相关,因此,对数据 库的域名和域值等给予重视。本模块把中文查询句切分成一个个的词,并给出词性,最 后结果放入切分链表。 ( 2 ) 句法与语义分析 句法分析实现对查询语句在句法上的理解,即理解句子中各词之间关系。句法分析 的结果是一棵分析树。语义分析实现在语义层面上对查询语句的理解”。一般来说,语 义分析的结果往往用某种形式语言表示。对查询语句的自然语言理解来说,只要做到能 够识别出其查询要求,即识别出查询语句的查询目标、查询条件及其之间的关系,便可 转为相关s q l 语句,即可识为已对查询语句进行了理解。 本系统根据特定领域内数据库查询语句的这一特点,采用语义语法作为查询语句的 语法规则,即以领域内语义范畴为语法结构单元定义语法。然后利用基于图结构的自顶 向下句法分析方法对查询旬进行分析,在分析过程中不但获得了查询句的句法结构,而 且也获得了相应成分的语义信息,最后,形成棵具有数据库语义的句法分析树。树巾 的结点分别代表了查询条件、查询目标的相关信息。 ( 3 ) s q l 命令的生成 由于自然语言理解的复杂性,无论是对西文还是中文的理解,数据库查询句理解系 统都设置了一种从源语言到数据库查询语言的中间语言形式,又称中问语言。0 1 。在本系 统中我们把具有语义信息的句法分析树作为向s q l 命令转化的中问形式。通过深度优先 搜索对语法树进行遍历,根据各个结点类型的不同提取相应的信息,最后把获得的信息 组合成完整的s q l 命令。 ( 4 ) 应答生成 我们设计 厂一个问答句模版知识库,通过查询目标与问答句的对应关系米确定问答 大连理j 二人学硕十学位论文 句模版的内容。生成的s q l 命令送给d b m s 执行后得到相应的查询结果,把查询结果进 行一定的转化后结合问答句模版知识库生成相应的应答句返回给用户。 贾萌:基于领域知识的中文短信理解模型研究 3 分词词典与知识库构建 3 1 词类的划分 词是中文查询句的基本成分。从查询句的观点来讲其基本语言成分有:查找词、连 词、语助词、条件类比较词( 大于、小于、等于、在之间、像等) 、聚集操作词( 平 均、最大、最小、总和、个数等) 等等,这些成分在任何应用的查询语句中都会出现, 相对固定,我们称之为通用词类。“。另外根据数据库中信息的具体应用领域,又可以增 加一些与领域相关的词类,例如本系统是基于铁路票务领域的,那么可以归纳出如下一 些词类:日期时间词( 明天、后天、某月某日) 、模糊时间词( 8 - 晨、下午) 、地 点词( 上海、北京) 等等,这些词基本上都和数据库中的属性值、对象名和领域动词 有关,不同应用领域的查询语句中,这些成分各不相同,我们把这几种成分称为领域词 类。在实际的数据库查询旬中,通用词类和领域词类在一起,构成了查询语句中有意义 的最小成分。为了分词和提取信息的方便,我们把不同的词类放在不同的词典当中。 3 1 1 通用词汇词典 通用词汇中的词都是与具体的应用领域无关,是分析任何查询句都必须具备的词 。“。通用词汇中的词又可以细分成两类。第一类是为了语句上的表达需要而与查询内容 毫无关系的词,如:助词( 的) 、查询词( 请问、查一下) 等等,我们把这类词放在通 用普通词汇词典中。第二类是在查询中应用到的比较词,如:条件比较词( 大于、小于、 等于、在之间等) 、聚集操作词( 平均、最大、最小、总和、个数等) 等等,我们把这 类词放在关系词汇词典中。根据这两类词的特点不同,这两个词典的结构也有些区别。 普通词汇词典结构如图3 1 : 图3 1 背通词典结构图 f i g u r e 3 ,ls t r u c t u r eo fc o m m o nd i c t i o n a r y 其中的词形代表该词的原形,词性代号是为了方便分词处理,用英文表示该词的词 性。例如“的”的词形就是“的”,词性为助词,词性代号为“d e ” 关系词汇词典结构如图3 2 : 蚓3 2 关系词典结构矧 f i g u r e 3 2s t r u c t u r eo fr e l a t i o nd i c t i o n a r y i j 大连理r 大学硕十学位论文 其中词形、词性、词性代号与通用词汇的相同,内部表示是对该词在s q i j 命令中的 符号表示,例如,词“大于”的词类为条件比较词,内部表示为“ ”。 3 1 2 领域词汇词典 领域词汇都是与具体数据库e r 模型及应用领域相关的词,这些词构成了查询目标、 查询条件的基本成分。这些词又具体的分为两类。第一类是数据库中域值的可能取值或 转化后相当于域值取值的词,如:“上海”、“今天”等等,其中“上海”是标准的域 值取值,而“今天”则要经过转化成“2 0 0 5 1 0 3 0 ”之后才成为域值的可能取值,我们把 这类词放在域值词汇词典中。第二类是和域值组合在一起,形成一个确定的查询条件。 如“到达北京”中的“到达”,如果仅仅说“北京”这个域值,它对应了不止一个域名, 但和“到达”组合在一起,就可以确定是“到达站”这一域名中的域值。这类词相当于 一个语义环境词,我们把这类词放在结构词汇词典中。以下是这两个词典的结构: 域值词汇词典结构如图3 3 : 图3 ,3 域值词典结构图 f i g u r e 3 3s t r u c t u r eo f f i e l d v a l u ed i c t i o n a r y 其中词形、词性、词性代号与普通词汇词典中的意义相同,由于有些词需要通过一 定的变化才能转化为域值,例如“今天”需要转化为“2 0 0 5 1 0 3 0 ”才可以与域值相对应, 转化标志代表了转化该类词的需要调用的转化函数标志。 表名域名词汇词典结构如图3 4 : 倒3 4 域名词典结构图 f i g u r e 3 4s t r u c t u r eo ff i e l d n a m ed i c t i o n a r y 标准词形是数据库中标准的表名、域名。 结构词汇词典结构如图3 5 : 词形词性词性代号注释 图3 5 结构词典结构图 f i g u r e 3 5s t r u c t u r eo fs t r u c t u r ed i c t i o n a r y 贾萌:基于领域知彭 的中文短信理解模型研究 词形、词性、词性代号同普通词汇词典中的意义相同,注释中表明了该结构词汇所 暗示的语义环境。 3 13 非标准词汇词典 非标准词词典中存放的仍是与具体的数据库有关的词,但这些词不是数据库模型中 定义的词,而是它的同义词或这些词的刁i 规范表达方式。建立非标准词词典就能将这些 不规范的词与标准的表名、域名对应起来,这样对用户的查询文法的限制就放宽了许多, 不要求用户必须使用数据库中的标准词语进行查询,用户可以使用自己的语言对数据库 发问,真正实现了用较自然的语言进行查询的目的。非标准词词典的结构如图3 6 : 图3 6 非标准词典结构图 f i g u r e 3 6s t r u c t u r eo fn o n _ n o r m a lf i e l d n a m ed i c t i o n a r y 3 2 知识库的设计 在对数据库自然语言查询语句进行理解时,其实质是对其所含的知识进行理解。因 此,系统必须有某些相关知识才能理解查询语句。本系统的知识库基本上包含了铁路票 务领域内数据库中文查询短信理解系统所应具有的知识。正是因为有了知识库中这些与 领域相关的基础知识,系统才能对数据库自然语言查询语句进行理解,即进行数据库自 然语言查询语句的查询目标与查询条件的识别与分析。也就是说,系统具有与领域相关 的以知识库为存储形式的知识,是系统进行数据库自然语言查询语句分析和理解的基 础。 3 2 1 模糊时间知识库 在数据库中文查询短信理解系统中,用户进行查询时,往往涉及到一些模糊词的使 用。如果系统不对这些词进行精确化,将使奄询无法准确的表达。在本系统中经常出现 时问方面的模糊词,如:“下午”、“晚上”等,因此本系统建立一个模糊时间知识库, 通过这个知识库对模糊时间进行精确化处理,该知识库结构如图3 7 : 图37 模糊时间转化戋识库结构图 f i g u r e 3 7s t r u c t u r eo ff u z z yt i m et r a n s f o r mk b 通过该知识库可以把一个模糊时问精确化为一个时间段,起始时问点和终止时问点 一1 2 大连理工大学硕士学位论文 分别表示时间段的两个端点。 3 22 文法知识库 本系统在句法分析与语义分析中采用语义语法,利用上下文无关文法进行表示,每 个文法规则用一个文法产生式表示,文法产生式存放在结构如图3 8 文法规则知识库中: f i g u r e 3 8s t r u c t u r eo fg r a m m a r r u l eb a s e 其中规则右部文法符号中存放多个文法符号,文法符号间用“,”分开。 由于语义语法有意识地把大量的语义信息控入到词法和句法描述中去,使用各种各 样自定义的语义标签来代替传统语法中的句法标签,使得词的分类和句式的成分都具有 很强的语义范畴的约束。因此,本系统用数据库语义知识库来存放各个文法符号所对应 的数据库语义,知识库结构如图3 9 : f i g u r e 3 9s t r u c t u r eo fd a t a b a s es e m a n t i c o fg r a m m a rs y m b o lb a s e 规则序号表示该文法符号在哪一条文法规则中,表名、域名代表了该文法符号对应 的数据库语义,同一文法符号在不同的文法规则中可能代表不同的数据库语义。 贾萌:基丁领域知识的中文短信理解模e 4 研究 4 数据库中文查询短信理解模型的分析与设计 4 1 词法分析 英语等西方语言的书面形式以空格作为词与词之间分隔标志,而中文的书面形式却 是连续的汉字串。因此,理解中文查询短信的首要任务就是把连续的汉字串分割成词的 序列。词的正确切分是准确理解中文查询短信的必要条件。汉字的构词非常灵活,因此 也产生了许多分词方法,目前采用的分词方法主要有:最大匹配法、逆向最大匹配法、 双向最大匹配法、最佳匹配法、逐词遍历匹配法等等“。其中最大匹配法、逆向最大匹 配法、逐词遍历匹配法是最基本的也是最常用的机械匹配切词方法,机械匹配分词方法 通常都与另一些辅助方法结合使用已达到较好的分词效果。由于本系统是对在某一领域 内的数据库中文查询短信进行理解,涉及到的词汇并没有那么复杂,因此本系统采用机 械匹配分词方法中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论