首页 技术 正文
技术 2022年11月24日
0 收藏 650 点赞 4,712 浏览 712 个字

本文转载自: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html

最近由于项目需要,对Apache Sqoop和Taobao DataX工具进行了调研,这里是对二者功能的初步梳理,不会涉及技术细节和使用方法,留作日后选型参考。

Sqoop是Apache下的顶级项目,用来将Hadoop和关系型数据库中的数据相互转移,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSQL等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。目前在各个公司应用广泛,且发展前景比较乐观。其特点在于:

1)专门为Hadoop而生,随Hadoop版本更新支持程度好,且原本即是从CDH版本孵化出来的开源项目,支持CDH4应该没问题。

2)支持并行导入,宣称速度很快(由于时间紧,未来得及进行真实环境的测试),可以指定按某个字段进行拆分并行化导入过程。

3)支持按字段进行导入与导出。

4)自带的辅助工具比较丰富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。

DataX是淘宝开源的数据导入导出的工具,支持HDFS集群与各种关系型数据库之间的数据交换。其特点在于:

1)官方版本支持的Hadoop版本较低(0.19),暂不支持高版本(如CDH4)。

2)支持从一个HDFS集群到另一个HDFS集群之间的数据导入导出。

3)支持数据不落地的并行导入导出。

注:以上并非是对这两个工具很全面的对比分析,仅供参考,欢迎拍砖。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:7,948
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:4,824
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:5,651
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:5,517
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:6,718
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,188