CN110704479A 任务处理方法、装置、电子设备及存储介质 (新华三大数据技术有限公司)_第1页
CN110704479A 任务处理方法、装置、电子设备及存储介质 (新华三大数据技术有限公司)_第2页
CN110704479A 任务处理方法、装置、电子设备及存储介质 (新华三大数据技术有限公司)_第3页
CN110704479A 任务处理方法、装置、电子设备及存储介质 (新华三大数据技术有限公司)_第4页
CN110704479A 任务处理方法、装置、电子设备及存储介质 (新华三大数据技术有限公司)_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

获取SQL语句对应的待执行任务,以及与待执行置对应的计算引擎,在确定了目标数据源类型2解析输入的结构化查询语言SQL语句,获得所述SQL语句根据所述目标数据源的属性信息确定所述目标数据源的类采用所述目标引擎从所述目标数据源中拉取数据,并根根据所述目标数据源的标识和/或所述目标数据源对应的地址确定所述目标数据源的创建元数据管理库,所述元数据管理库包括:表的标所述解析输入的结构化查询语言SQL语句,获得所述SQL语句对所述SQL语句进行语义解析,获得可识别的待执行任务和所述待执行任务的表的标根据所述表的标识以及所述元数据管理库,根据所述目标数据源的标识和/或所述目标数据源对应的地址,判断所述目标数据源所述解析模块,用于解析输入的结构化查询语言SQL语句,所述启动模块,用于根据所述目标数据源的属性3所述启动模块,具体用于根据所述目标数据源的标识和/或所述目标数据源对应的地据源的标识和/或所述目标数据源对应的地址,判断所述目标数据源的类型是否为流式数所述转化模块,用于若启动Flink引擎,则将所述待执行任被处理器运行时执行如权利要求1至5任一所述4标数据源对应的地址,所述根据所述目标数据源的属性信息确定所述目标数据源的类型,[0011]根据所述目标数据源的标识和/或所述目标数据源对应的地址确定所述目标数据[0015]对所述SQL语句进行语义解析,获得可识别的待执行任务和所述待执行任务的表5[0018]根据所述目标数据源的标识和/或所述目标数据源对应的地址,判断所述目标数[0021]若启动Flink引擎,则将所述待执行任务转化为所述Fli[0024]所述启动模块,用于根据所述目标数据源的属性信息确定所述目标数据源的类[0027]所述启动模块,具体用于根据所述目标数据源的标识和/或所述目标数据源对应67[0054]SparkSQL:SparkSQL是基于Spark的分布式结构化查询语言SQL引擎,支持SQL语[0058]Hadoop:实现了一个分布式文件系统(HadoopDistributedFileSystem,简称供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largethrift服务器监听端口(thriftServer)、应用程序编程接口(ApplicationProgramming8[0064]计算框架层可以包括:流式数据源分析框架Spark和非流式数据源分析框架[0068]图2为本申请实施例提供的一种任务处理方法流程示意图,该任务处理方法的执为目标语言语法定义所同意的序列。antlr解析器同意我们定义识别字符流的词法规则和的词法/语法分析器。用户能够利用他们将输入的文本进行编译,并转换成其它形式(如9[0077]在一些实施例中,上述通过语义解析获取到该SQL语句对应的目标数据源的属性性信息对应于A数据源,而A数据源对应的数据源类型为B,那么根据目标数据源的属性信和待执行任务对应的目标数据源的地址、目标数据源的类型,也即通过对SQL语句进行解数据源的属性信息。通过采用元数据管理库对各数据源所包含的属性信息进行统一管理,[0108]可选地,若启动Flink引擎,则可以将待执行任务转化为DataStream(流式数据的DataStream对象,SQL语句中的filter(裁剪)等操作转化为DataStream对象的方法。比[0109]Filter(key>20)->project(kakfatable,key,name),然后通过类似于newKafkaDataStream(kakfatable)方法,将project转化为Flink引擎识别的数据集[0111]而当启动的为Spark引擎时,可以将待执行任务转化为RDD((Resilient[0112]图6为本申请实施例提供的一种流式数据源类型处理方法流程示意图,如图6所有在streamTableEnv中注册,执行streamTableEnv.registerTableSink(将数据源向streamTableEnv中注册为数据接收端)或者streamTableEnv.registerTableSource(将式数据源集合)中注册,若目标数据源的表没有在batchTableEnv中注册,执行batchTableEnv.registerTableSink(将数据源向batchTableEnv中注册为数据输入端)或者batchTableEnv.registerTableSource(将数据源向batchTableEnv中注册为数据输出端)。其中,batchTableEnv指示非流式数据源集合,对于非流式数据源,首先需要注册。streamTableEnv.registerTableSourcee注册到str[0125]在一些实施例中,解析SQL语句后获取的待执行任务中可能仅包括对于一个数据[0126]为了对各个数据源中的数据进行联合处理,可以根据解析的SQL语句对应的待执但实际操作的是各个数据源中的数据,如果数据源本身不支持更新功能,则不能使用[0133]ANTLR4语法解析工具按照语法定义自动生成更新列表visitUpdateTable(UpdateTableContext更新表上下文对象)方法;在SQLParser解析器中实现visitUpdate架将逻辑计划转化为物理计划,并调用运行run方法执行更新任务UpdateTask,Update通过不同访问接口,例如:CLI(command-lineinterface,命令行界面)、JDBC(Java式数据源类型,若语义树中包含流式数据源类型,分析语义树,将其转化为包含Flink[0149]上述装置可用于执行上述方法实施例提供的方法,具体实现方式和技术效果类合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论