




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
. . . .Linux公社(LinuxIDC.com)于2006年9月25日注册并开通网站,Linux现在已经成为一种广受关注和支持的一种操作系统,IDC是互联网数据中心,LinuxIDC就是关于Linux的数据中心。LinuxIDC.com提供包括Ubuntu,Fedora,SUSE技术,以及最新IT资讯等Linux专业类网站。DataX插件开发指南版本号修改内容修改日期修改人V0.1创建2011-09-08何健超目录一、概述4二、Reader插件开发(以httpreader为例)51、确定插件所需配置的参数52、构建相应包和类结构53、实现重载方法74、自定义split方法10三、Writer插件开发(以streamwriter为例)131、确定插件参数、构建相应包和类结构132、实现重载方法14四、插件运行配置(以httpreader为例)161、注册插件162、修改build.xml文件,打包16一、 概述DataX是一个在不同类型的数据库(文件系统)之间交换数据的工具,采用“框架+插件”的结构,框架相当于一个数据中转平台,而插件则为访问不同类型的数据库(文件系统)提供实现。DataX插件分为Reader和Writer两类。Reader负责从数据源端读取数据到Storage(交换空间),Writer负责将Storage中的数据写入到数据目的端。Storage可以适配不同种类的Reader和Writer,从而实现数据同步。目前DataX版本已经提供的Reader插件如下:1、 hdfsreader : 支持从hdfs文件系统获取数据。2、 mysqlreader: 支持从mysql数据库获取数据。3、 sqlserverreader: 支持从sqlserver数据库获取数据。4、 oraclereader : 支持从oracle数据库获取数据。5、 streamreader: 支持从stream流获取数据(常用于测试)6、 httpreader : 支持从http URL获取数据。提供的Writer插件如下:1、 hdfswriter :支持向hdbf写入数据。2、 mysqlwriter :支持向mysql写入数据。3、 sqlserverwriter:支持向sqlserver写入数据。4、 oraclewriter :支持向oracle写入数据。5、 streamwriter :支持向stream流写入数据。(常用于测试)用户可以根据需要开发自己的Reader & Writer插件。现在以HttpReader 和StreamWriter插件为例,使用eclipse分别说明Reader和Writer插件开发过程。二、 Reader插件开发(以httpreader为例)1、 确定插件所需配置的参数确定插件参数,并在common.plugin.ParamsKey.java中,创建静态类HttpReader,尤其注意对参数的注释尽量参照源码规范,DataX运行时,会根据此处声明的参数和注释生成对应的模板Job_xml.此处参数设置非常重要,如图:图 12、 构建相应包和类结构在源码文件的plugins.reader包下构建httpreader包,再在httpreader包下创建类HttpReader,并让之继承common.plugin.Reader.图 2图 33、 实现重载方法获得图3所示效果:现在开始分别实现init( ), connectToDb( ), startRead(LineSender sender), finish( ) 四个方法。(1) Init( ):通过从Reader间接继承自DefaultPlugin的PluginParam类型的参数param获取配置httpreader插件的参数(此处可以对参数进行检查和格式处理等操作),如图:图 4(2) connectToDb( ): 本插件不需要此操作,函数为空实现。(在数据库相关插件中,主要操作是通过DbSource.getConnection(keyId)获取connection),如在mysqlreader中,该函数为:图 5(3) startRead(LineSender sender):根据init( )初始化的参数,连接相应的http URL, 获取其中数据并用BufferedReader封装,循环处理每行数据,调用sender.createLine() 产生line,并通过line.addField(fieldStr)把每行数据切分成字段后组装成Line中的field,调用sender.sendToWriter(line)将此行数据写入Storage。如图:图 6(4) finish():本插件不需要此操作,函数实现为空。(在数据库相关插件中,主要完成关闭connection操作。)如在mysqlreader中,该函数为:图 74、 自定义split方法截止到目前,已经实现了一个简单的httpreader(从一个http URL读取数据),目前还未实现读取多个http URL的功能,为此,可以在common.plugin.ParamsKey.java中的静态类HttpReader中,添加如下两项:图 8然后让httpreader插件覆盖默认的split(PluginParam param)方法。操作如下:(1) split(PluginParam param)方法对param按照规则切分,生成List,DataX框架会根据此List产生插件实例执行任务。图 9(2) 为了清晰结构或者切分规则复杂,建议再构建类HttpURLSplitter辅助split方法实现切分,该类需要继承Splitter:图 10图 11实现init( )方法和split( )方法即可:图 12三、 Writer插件开发(以streamwriter为例)1、 确定插件参数、构建相应包和类结构与Reader插件类似,略过,截图如下:图 1图 2图 32、 实现重载方法(1) init( ) 、connectToDb()、finish( )三个方法与Reader中意义相似,此处略过。(2) commint( ) :本插件不需要此操作,函数实现为空。(在数据库相关插件中,主要完成提交任务操作。)(3) startWrite(LineReceiver linereceiver) :根据init( )初始化的参数,按照streamwriter插件配置信息,把linereceiver从Storage获取的数据通过xxx方法写入line中,循环处理每行数据(此处处理方式为直接输出),即可。如图:图 4四、 插件运行配置(以httpreader为例)1、 注册插件在conf/plugins.xml中,添加如下配置项,以注册插件:图 12、 修改build.xml文件,打包图 21. 若不给自己设限,则人生中就没有限制你发挥的藩篱。2. 若不是心宽似海,哪有人生风平浪静。在纷杂的尘世里,为自己留下一片纯静的心灵空间,不管是潮起潮落,也不管是阴晴圆缺,你都可以免去浮躁,义无反顾,勇往直前,轻松自如地走好人生路上的每一步3. 花一些时间,总会看清一些事。用一些事情,总会看清一些人。有时候觉得自己像个神经病。既纠结了自己,又打扰了别人。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学英语名词单复数专项测试
- 法学入学面试题及答案
- 民航消防面试题及答案
- 2024年广告设计师考试独特视角试题及答案
- 出国劳务面试题目及答案
- 餐馆收银面试题目及答案
- 2024国际美术设计师考试整合知识点试题及答案
- 2024教育学试题及答案
- 2024年纺织品设计师证书考试与行业标准试题及答案
- 创意思维在广告中的应用试题及答案
- GB/T 14981-2009热轧圆盘条尺寸、外形、重量及允许偏差
- 绳据法钢筋混凝土护栏切割破除方案计划
- 高压开关柜基础知识培训课件
- 企业临时用工合同范本(5篇)
- 2023年武汉民政职业学院单招考试面试模拟试题及答案解析
- 中国军事发展简述课件
- 碧桂园物业案场私宴接待操作规程
- 核医学工作中辐射防护课件
- 路基路面平整度试验检测记录表(三米直尺法)
- GB-T 1040.2-2022 塑料 拉伸性能的测定 第2部分:模塑和挤塑塑料的试验条件
- 广东开放大学计算机应用技术(互联网营销)专业毕业设计0
评论
0/150
提交评论