中文数据库自然语言接口(NLIDB)技术调研.ppt_第1页
中文数据库自然语言接口(NLIDB)技术调研.ppt_第2页
中文数据库自然语言接口(NLIDB)技术调研.ppt_第3页
中文数据库自然语言接口(NLIDB)技术调研.ppt_第4页
中文数据库自然语言接口(NLIDB)技术调研.ppt_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文数据库自然语言接口技术调研,张文斌 2010-07-05,提纲,研究现状 规则流派 统计流派 总结思考,提纲,研究现状 规则流派 统计流派 总结思考,国外研究现状,国外数据库自然语言接口(NLIDB)的研究可追溯到20世纪60年代,80年代最为活跃 进入20世纪九十年代,研究热度减弱 出现了许多试验性和商用系统 如微软的English Query, BIM的LOQUI,IBM的LANGUAGEACCESS等 在NLIDB的可用性和可移植性研究中都取得了很大的进展,国内研究现状,中文NLIDB的研究始于20世纪70年代末期 20世纪90年代出现了许多实验系统或模型 由于中文的特殊性,一些国外

2、的理论不能直接移植过来 总体来说,在理论和技术上都取得了一些进步,但研究进展缓慢,且不够系统,多属摸索性工作,尚未出现比较完善的理论和技术,中文NLIDB系统概览,中文数据库自然语言查询系统NChiql 人民大学,孟小峰等 基于受限汉语的数据库自然语言接口NLCQI 暨南大学,许龙飞等 基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL 北京大学,崔宗军等 数据库汉语查询接口WTCDIS 北京信息工程学院,李保利等,主流技术,以词汇驱动,句法语义处理一体化 主要步骤 词法分析 语法分析 语义分析 生成SQL语句,提纲,研究现状 规则流派 统计流派 总结思考,规则流派的特征,基

3、于规则 人工总结文法、转换规则 受限汉语,规则流派的系统,NChiql NLCQI RChiQL WTCDIS,RChiQL模型简介,北京大学的崔宗军、唐世渭、杨冬青 论文 基于ER模型的数据库受限汉语查询界面RChiQL的文法分析系统研究J. 中文信息学报, 2000,(04) 基于ER模型和受限汉语的数据库中文查询语言研究J. 中文信息学报, 2001,(04) .,RChiQL系统结构及流程图,RChiQL模型,基于受限汉语和ER模型的数据库查询语言模型RChiQL是一个六元组 RChiQL=(RCZ, RCW, RCS, RCWC, RCYY, ER-Model) 其中RCZ是受限汉语

4、字典, RCW是受限汉语词典, RCS是受限汉语语法词典,RCWC是受限汉语搭配词典, RCYY是受限汉语语义规则词典, ER-Model是ER语义模型。,词法分析,基于数据库ER语义的全匹配算法 采用长词优先、短词等待的完全匹配策略,保证发现所有的切分歧义 效率不如最大匹配法, 但在实践中可行 例子 输入 “列出把乒乓球拍卖给北京工程的上海或深圳公司” 输出 I.“列出/把/乒乓球/拍/卖/给/北京/工程/的/上海/或/深圳/公司” II.“列出/把/乒乓球拍/卖/给/北京/工程/的/上海/或/深圳/公司” III.“列出/把/乒乓球/拍卖/给/北京/工程/的/上海/或/深圳/公司”,语法分

5、析,RChiQL中的文法分析子系统G=(Vn,Vt,S,P,Y,A) Vn=VnsVng; Vns为ER语义符号集合,如E表示实体,A表示属性等; Vng为现代汉语有关文法符号集合,如D表示助词; Vt=受限汉语词典; S为开始符号; P=, ; Vn, VnVt * ; =,为语义搭配集合,其中为短语中心词序列; Y=,; ,为歧义短语文法,为优先系数; A为文法分析算法。,语法分析,受限汉语查询句必须符合三段式祈使句 查询动词修饰短语目标短语 ER语义特征文法规则 研究了一千多个受限汉语查询句的基础上总结提炼而出,语义分析,将语法分析树转换为表达查询句语义的中间语言 语义分析子系统包括 语

6、义规则库 ER语义库的建立和维护工具 语义分析算法 遇到系统不能处理的情况时,交互模块要给出ER模型下的歧义语义关系图,用户选择出正确语义,系统记录并完成处理,生成SQL语句,SQL语句生成子系统主要参考ER模型、数据库模式及各成分之间的映射关系并依据中间语言到SQL语句的格式转换规则把中间语言转换为当前DBMS能够执行的SQL语句,提纲,研究现状 规则流派 统计流派 总结思考,统计流派,陈力在中文信息处理丛书序言指出: “汉语的语法尚未形成规范化,而且人们习惯于非规范化的语法” 介绍一种方法 基于查询语义的数据库中文界面研究 中科院计算所,张凯等 全国第七届计算语言学联合学术会议,2003,

7、词法分析,分词词典 词链 对词标记类型和辅助信息 实体名E,属性名A,属性值Va,查询动词Vq等等 请/列出/广州/的/供应商/为/上海/的/工程/提供/的/零件 列出-广州-供应商-上海-工程-提供-零件,可能查询语义的生成,查询目标的生成 三段式:查询动词+查询条件+目标短语 目标短语模式 查询实体(如零件) 查询实体+属性组(如零件的零件号和零件名) 查询条件的生成 以属性值为核心,语义结构及其与SQL的转换,语义结构是一种中间表示 语义结构表示 查询目标表名,列名 条件的数组,条件信息包括表名、属性名、比较符、属性值 注意 统计涉及的表名,并保证在ER图上的连通性 填写连接属性条件,语

8、义可能性计算,考虑因素 词链在查询句的覆盖长度越长越好 例如:列出广州所有的供应商号 列出-广州-供应商号(最佳) 列出-广州-供应商 列出-广州-供应 查询所涉及的表的个数越少越好 修饰距离和越短越好,运行实例,数据库 供应商S(sno,city),工程J(jno,city),零件P(pno,name),供应关系SPJ(sno,jno,pno,num) 查询:帮我找一下广州的供应商提供给上海的工程的零件 找词链 找(Vq)-广州(Va,S,city)-供应商(E,S)-提供(V,SPJ)-上海(Va,S,city)-工程(E,J)-零件(E,P) 找-广州-供应-提供-上海-工程-零件,运行实例,生成语义结构 属性值有“广州”、“上海”,找到2个条件 语义可能性计算 “广州”修饰“供应商”,“上海”修饰“工程”,Select P.* From S, P, J, SPJ Where S.city=广州 and J.city=上海 and S.sno=SPJ.sno and P.pno and J.jno=SPJ.jno,提纲,研究现状 规则流派 统计流派 总结思考,质问规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论