版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流dataX3.0安装使用手册.精品文档.DataX3.0使用手册目录一、dataX概述11dataX作用12DataX3.0框架设计23DataX3.0插件体系2二、dataX安装31创建用户组及用户32环境变量配置43安装python4三、dataX使用41生成配置文件模板42配置定时任务73常见问题及处理8四、dataX插件开发及安装81.Reader插件开发82.Writter插件开发93.插件部署10一、 dataX概述1 dataX作用DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)
2、、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。2 DataX3.0框架设计DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Fram
3、ework。Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。3 DataX3.0插件体系类型数据源Reader(读)Writer(写)RDBMS 关系型数据库MySQL Oracle SQL Server PostgreSQL 达梦 通用RDBMS(支持所有关系型数据库)阿里云数仓数据存储MaxCompute(原ODPS) Analyti
4、c DB(原ADS) OSS 云数据库Memcache版(原OCS)HiveNoSQL数据存储Table Store(原OTS) Hbase0.94 Hbase1.1 MongoDB无结构化数据存储TxtFileJsonFile FTP HDFS二、 dataX安装1 创建用户组及用户roothmaster-hdfs:/home/ubuntu# groupadd dataxroothmaster-hdfs:/home/ubuntu# useradd -g datax datax -m -d /home/datax
5、roothmaster-hdfs:/home/ubuntu# passwd dataxEnter new UNIX password: Retype new UNIX password: passwd: password updated successfullyroothmaster-hdfs:/home/ubuntu# usermod -G adm -a dataxroothmaster-hdfs:/home/ubuntu# su - dataxdataxhmaster-hdfs:$ iduid=1004(datax) gid=1000(ubuntu) groups=1000(ubuntu)
6、,4(adm),1002(datax)2 环境变量配置export JAVA_HOME=/usr/java/jdk1.7.0_80export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/libexport PATH=$JAVA_HOME/binexport LANG=zh_CN.UTF-83 安装pythondataxhmaster-hdfs:/home/ubuntu$ pythonPython 2.7.6 (default, Jun 22 2015, 17:58:13) GCC 4.8.2 on li
7、nux2Type "help", "copyright", "credits" or "license" for more information.三、 dataX使用1 生成配置文件模板命令:bin/python datax.py -r YOUR_READER -w YOUR_WRITER案例1:mysqlreader-> mysqlwriterdataxhmaster-hdfs:/datax3/datax/bin$ python datax.py -r mysqlreader -w mysqlwriter
8、DataX (DATAX-OPENSOURCE-1.0), From Alibaba !Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.Please refer to the mysqlreader document: Please refer to the mysqlwriter document: Please save the following configuration as a json file and use python DATAX_HOME/bin/datax.py JSON_FILE_NAME.jso
9、n to run the job. "job": "content": "reader": "name": "mysqlreader", "parameter": "column": , "connection": "jdbcUrl": , "table": , "password": "", "username": "&quo
10、t;, "where": "" , "writer": "name": "mysqlwriter", "parameter": "column": , "connection": "jdbcUrl": "", "table": , "password": "", "preSql": , "session&qu
11、ot;: , "username": "", "writeMode": "" , "setting": "speed": "channel": "" 案例2:jsonfilereader-> hbasewriterdataxhmaster-hdfs:/datax3/datax/bin$ python datax.py -r jsonfilereader -w hbasewriter DataX (DATAX-OPENSOURCE-
12、1.0), From Alibaba !Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.Please refer to the jsonfilereader document: Please refer to the hbasewriter document: Please save the following configuration as a json file and use python DATAX_HOME/bin/datax.py JSON_FILE_NAME.json to run the job. &qu
13、ot;job": "content": "reader": "name": "jsonfilereader", "parameter": "column": , "compress": "zip", "encoding": "", "path": , "writer": "name": "hbase11xwriter&
14、quot;, "parameter": "column": , "encoding": "", "hbaseConfig": "hbase.cluster.distributed": "", "hbase.rootdir": "", "hbase.zookeeper.quorum": "" , "mode": "", "rowk
15、eyColumn": , "table": "", "versionColumn": "index": "", "value": "" , "setting": "speed": "channel": "" 2 配置定时任务1.1 创建任务列表文件dataxhmaster-hdfs:/datax3/datax/task$ vi crontab.tasks.txt 20
16、,30,40 0-23 * * * /usr/bin/python /home/datax/datax3/datax/bin/datax.py /home/datax/datax3/datax/job/jsonfile2hbase_fullry_log.terminal_log.json >/data/datax/log/datax.crontab.out.log 2>&11.2 crontab加载系统任务列表文件dataxhmaster-hdfs:/datax3/datax/task$ crontab crontab.tasks.txt dataxhmaster-hdfs
17、:/datax3/datax/task$ crontab -l20,30,40 0-23 * * * /usr/bin/python /home/datax/datax3/datax/bin/datax.py /home/datax/datax3/datax/job/jsonfile2hbase_fullry_log.terminal_log.json >/data/datax/log/datax.crontab.out.log 2>&13 常见问题及处理1.1 /bin/sh: 1: java: not found原因:/home/datax/datax3/datax/b
18、in/ datax.py未取到JAVA_HOME环境变量值四、 dataX插件开发及安装1. Reader插件开发public class JsonFileReader extends Readerpublic static class Job extends Reader.Job Overridepublic void init() / TODO Auto-generated method stubOverridepublic void destroy() / TODO Auto-generated method stubOverridepublic List<Configuratio
19、n> split(int adviceNumber) / TODO Auto-generated method stubreturn null;public static class Task extends Reader.TaskOverridepublic void init() / TODO Auto-generated method stubOverridepublic void destroy() / TODO Auto-generated method stubOverridepublic void startRead(RecordSender recordSender) /
20、 TODO Auto-generated method stub2. Writter插件开发public class JsonFileWriter extends Writer public static class Job extends Writer.Job Overridepublic void init() / TODO Auto-generated method stubOverridepublic void destroy() / TODO Auto-generated method stubOverridepublic List<Configuration> spli
21、t(int mandatoryNumber) / TODO Auto-generated method stubreturn null;public static class Task extends Writer.Task Overridepublic void init() / TODO Auto-generated method stubOverridepublic void destroy() / TODO Auto-generated method stubOverridepublic void startWrite(RecordReceiver lineReceiver) / TO
22、DO Auto-generated method stub3. 插件部署目录及文件说明dataxhmaster-hdfs:/datax3/datax/plugin/reader/jsonfilereader$ lltotal 56drwxr-xr-x 3 datax ubuntu 4096 Jul 6 16:10 ./drwxr-xr-x 21 datax ubuntu 4096 Jun 21 11:05 ./-rw-r-r- 1 datax ubuntu 36348 Jun 22 17:52 jsonfilereader.jardrwxr-xr-x 2 datax ubuntu 4096 May 16 12:46 libs/-rw- 1 datax ubuntu 315 May 16 11:24 plugin.json-rw- 1 datax ubuntu 149 May 15 18:24 plugin_job_template.jsonl jsonfilereader.jar 插件J
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宏观经济学期末复习题库及答案
- 某食品公司安全生产规章制度及安全操作规程
- 运输企业物流信息系统管理制度
- 学校食堂场所环境卫生管理制度
- 黑龙江省佳木斯市高职单招职业适应性测试考试试题及答案
- 2026年福建省厦门市社区工作者考试试题题库及答案
- 2025年山东(专升本)理科考试真题及答案
- 林下丹参种植技术指导师岗位招聘考试试卷及答案
- 瞬时特征加密方法
- 船舶航行与安全管理指南
- 血液灌流在维持性血液透析患者中的临床应用专家共识(2025年版)
- 菏泽医专综评试题及答案
- 2026年交管12123驾照学法减分题库(考试直接用)
- 传染病影像学课件
- 国企投融资课件
- 人工智能优化血管血流动力学随访管理策略
- 青岛市预拌混凝土质量追踪及动态监管系统操作手册2023
- 2025年高考英语复习热点题型专项训练:阅读理解主旨大意题(解析版)
- 2025 年山东烟台、德州、东营高考诊断性测试(一模)政治试题(含答案)
- 集成电路测试指南
- 八年级语文下册必背古诗文(字帖描红)
评论
0/150
提交评论