


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
百分点宣布开源其大数据平台(BD-OS)中数据整合组件代码,并将陆续开源多项组件。在此之后将投入力量持续参与开源社区,贡献更多的代码和经验。在 百分点的大数据实践过程中,经常遇到这样一个问题:如何快速的将企业传统关系型数据库的数据导入百分点 BD-OS ,或者反之。由 Apache 开源的 Sqoop 是这方面的利器,但是在实际的生产环境应用中它却表现出了一些不足,百分点解决了这些问题,形成自己的针对企业级大数据平台的 Sqoop 版本。此版本的 Sqoop 作为 BD-OS 的重要组件之一,在实际环境中得以广泛应用。新增功能1.SQL Server 2000 支持在 百分点的客户中,有一些用户在原有系统中广泛采用 Mircrosoft SQL Server 2000 作为基础数据库管理系统。现有的 Apache Sqoop 不支持 Mircrosoft SQL Server 2000,如果无法打通用户数据,之后的统计、分析和建模更无从谈起。由于 Sqoop 的是根据用户命令动态生成临时 mapper 任务,并通过它完成数据导入导出工作。通过修改了其中的预处理机制,使 Sqoop 支持 Microsoft SQL Server 2000 与 Hadoop 的双向数据打通。2.大批量表导入,自动化的失败处理对 于企业级关系型数据库来说,每个库中有成百上千张表是太正常不过了。在进行数据整合的过程中,批量的导入成百上千张表的数据到 BD-OS 通常是首项工作。当使用 Sqoop 进行批量导入1000张表,如果导入到第500张表的时候由于网络或者权限等其他的原因导致该表导入失败了。那么此次 Apache Sqoop 导入将会终止,会导致即使后面的500张表可以导入成功但也没有机会导入了。此时需要人工找到上次导入成功的500张表并且在下次批量导入的时候排除出 去,然后再次继续之前的工作。要排除之前导入成功的表是一件十分繁琐并且容易出错误的事情,多数实际情况下是不能保证导入是一次成功的,这使得我们可能需 要多次重复该工作,进而造成效率底下,人力成本过高。因此针对这样的问题我们对 Sqoop 的批量导入增加了一种功能:在批量导入的过程中,当中间某张表因为某种不确定的因素导入失败时,我们会自动跳过该表的导入,并记录下导入失败的表名,在导入完成后将所有导入成功和失败的表集中显示出来,以便后续处理。有了这种功能,我们就很容易的可以通过脚本自动化导入、统计和报警。3.多层分区的支持将 传统数据库数据导入 Hive,对 Hive 表分区是可以极大的提高 Hive 的查询效率,分区也被广泛的使用。在实际项目中常需要直接将关系型数据库中的数据导入到 Hive 的指定分区中。如果需要将关系型数据中的数据导入到 Hive 的多分区时(大于1个分区), Apache Sqoop 就显得力不从心了。一般的做法是通过 Sqoop 先将关系型数据库中的数据导入到 HDFS 上,通过手动创建 Hive 分区,然后手动加载的方式将数据加载到 Hive 指定的多分区中。但这样对大量表的操作显然效率相当低下并很容易导致重复操作。百分点在 Apache Sqoop 基础上增加了 Sqoop 直接导入 Hive 多分区的功能。4.非法数据清洗在 使用 Sqoop 进行数据整合到 Hive 中,如果数据库中的数据本身带有特殊字符比如 t、n等,而 Hive 又使用了这些字符作为分隔符,Hive 中的数据就会出现错位的情况。导致数据分析的时候分析不准确。对此,增加了在导入 Hive 时可以通过参数指定需要替换的分隔符功能。优势特性百 分点通过在大数据行业的实际开发、应用经验,结合业务中遇到的场景深度优化了 Sqoop,使得其适用性更广泛、数据交换能力更强大、系统自动化程度更高,从而大大的节约了人力成本,降低故障的发生率,增强了数据的实时性。本着反哺 社区的精神,百分点将该组件开源出来,希望其可以提升大数据工作者的工作效率,优化工作方式。PATCH列表 支持 Microsoft SQL Server 2000 数据库到 HDFS/Hive 的导入和导出 支持在批量导入过程中,如果中间某张表导入失败会自动跳过继续导其余的表,不会中途退出 支持数据导入到 Hive 多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年新教材高中历史 第九单元 当代世界发展的特点与主要趋势 第23课 和平发展合作共赢的时代潮流(1)说课稿 新人教版必修《中外历史纲要(下)》
- 3.2 代数式的值说课稿-2025-2026学年初中数学华东师大版2012七年级上册-华东师大版2012
- 奇怪的花瓶黏土课件
- 福建成人高考考试题库及答案
- 民政局定制离婚协议书样本及权益保障指南
- 钢结构工程安全施工合同
- 消防安全检测与维保及消防系统改造升级合同
- 企业员工创新项目启动资金借款合同模板
- 担保人责任明确的带担保贷款合同
- 高新技术研发项目合同招标主管任职要求及职责
- 安全经验分享食物中毒
- 四年级上册数学教案 -平行与垂直 人教版
- 2022年工程机械行业发展现状分析
- 《函数的奇偶性》教学课件与导学案
- DB11-T 1796-2020文物建筑三维信息采集技术规程
- (完整版)工程流体力学课件(第四版)
- RCEP的机遇与挑战研究报告
- 非常规油气勘探开发
- 小学科学课堂存在的问题与解决方法
- 陕西污水处理定价成本监审办法
- 公司级安全技术交底内容
评论
0/150
提交评论