开源ETL工具与商业ETL工具对比

开源ETL工具与商业ETL工具对比,第1张

几种 ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica等)

四种工具的比较主要从以下几方面进行比对:

1、成本:

软件成本包括多方面,主要包括软件产品, 售前培训, 售后咨询, 技术支持等。

开源产品本身是免费的,成本主要是培训和咨询,所以成本会一直维持在一个较低水平。

商业产品本身价格很高,但是一般会提供几次免费的咨询或支持,所以采用商用软件最初成本很高,但是逐渐下降。

手工编码最初成本不高,主要是人力成本,但后期维护的工作量会越来越大。

2、易用性:

DataPipeline: 有非常容易使用的 GUI,具有丰富的可视化监控;

Kettle: GUI+Coding;

Informatica: GUI+Coding,有GUI,但是要专门的训练;

Talend:GUI+Coding,有 GUI 图形界面但是以 Eclipse 的插件方式提供;

3、技能要求:

DataPipeline:操作简单,无技术要求;

Kettle: ETL设计, SQL, 数据建模 ;

Informatica: ETL设计, SQL, 数据建模;

Talend:需要写Java;

4、底层架构:

DataPipeline:分布式,可水平扩展;

Kettle:主从结构非高可用;

Informatica:分布式;

Talend:分布式;

5、数据实时性:

DataPipeline:支持异构数据源的实时同步,速度非常快;

Kettle:不支持实时数据同步;

Informatica:支持实时,效率较低;

Talend:支持实时处理,需要购买高级版本,价格贵;

6、技术支持:

DataPipeline:本地化原厂技术支持;

Kettle:无;

Informatica:主要在美国;

Talend:主要在美国;

7、自动断点续传:

DataPipeline:支持;

Kettle:不支持;

Informatica:不支持;

Talend:不支持;

引言

作为资深的DBA同胞你是否在工作中也存在这样的情况呢?公司要搭建数据平台,首要的工作就是把旧库的数据导入到新库中,虽然各种数据库都提供了导入导出的工具,但是数据需要存储到各个地方,MongoDB、HBase、MySQL、Oracle等各种各样的不同数据库,同步起来就有一些困难了。那么如何做好两个数据库之间、不同类型的数据库之间的相互迁移转换呢?

今天小编就常用的数据库同步、迁移转换工具进行一个汇总,以便大家在需要的时候,选择到合适的工具完成自己的工作~

一、SQLyog

SQLyog简介

SQLyog是业界著名的Webyog公司出品的一款简洁高效、功能强大的图形化MySQL数据库管理工具。使用SQLyog可以快速直观地让你从世界的任何角落通过网络来维护远端的MySQL数据库。它也是小编工作一直使用的MySQL管理客户端工具哦。

SQLyog特点

方便快捷的数据库同步与数据库结构同步工具;

易用的数据库、数据表备份与还原功能;

支持导入与导出XML、HTML、CSV等多种格式的数据;

直接运行批量SQL脚本文件,速度极快;

新版本更是增加了强大的数据迁移

二、Navicat

Navicat简介

Navicat是一套快速、可靠并且价格相当便宜的数据库管理工具,Navicat提供多达 7 种语言供客户选择,被认为是最受欢迎的数据库前端用户界面工具。它可以用来对本地或远程的 MySQL、SQL Server、SQLite、Oracle 及 PostgreSQL 数据库进行管理及开发。

Navicat支持功能

数据模型

数据传输

数据同步

结构同步

导入、导出、备份、还原、报表创建工具及计划以协助管理数据

三、Ottor

Ottor简介

Otttor是由阿里巴巴开源的一个数据同步产品,它的最初的目的是为了解决跨国异地整个机房的架构为双A,两边均可写。开发时间长达7年,并持续到现在。目前阿里巴巴B2B内部的本地/异地机房的同步需求基本全上了Otter。Otter基于数据库增量日志解析,支持mysql/oracle数据库进行同步,在最新的v4213已经支持mysql57以及阿里云提供的RDS数据库。小编已经在实际项目中使用。

Ottor特点

基于Canal开源产品,获取数据库增量日志数据。 (什么是Canal,详情查看https://githubcom/alibaba/canal)。

典型管理系统架构,manager(web管理)+node(工作节点),manager运行时推送同步配置到node节点,node节点将同步状态反馈到manager上。

基于zookeeper,解决分布式状态调度的,允许多node节点之间协同工作(otter node依赖于zookeeper进行分布式调度,需要安装一个zookeeper节点或者集群)。

Ottor运行原理

db : 数据源以及需要同步到的库

Canal : 用户获取数据库增量日志,目前主要支持mysql

manager : 配置同步规则设置数据源同步源等

zookeeper : 协调node进行协调工作

node : 负责任务处理处理接受到的部分同步工作

四、ESF Database Migration

ESF Database Migration简介

ESF Database Convert是一款强大的商业数据库转换工具。支持常见数据库之间相互转换,目前网上能找到“免费”版本,如有不同数据库相互转的需求,可以用此工具解决你的问题。

官方地址为:https://wwweasyfromnet/

ESF Database Migration特点

它支持Oracle, MySQL, SQL Server, PostgreSQL, Visual Foxpro, FireBird, InterBase, Access, Excel, Paradox, Lotus, dBase, Text之间互相转换

五、DB2DB

DB2DB简介

DB2DB 是目前经过测试速度最快、最稳定实现多种数据库之间进行数据转换的工具。支持 SQL Server、MySQL、SQLite、Access 等多种数据库类型,通过该工具可以把原来的系统,方便快速地部署在不同的数据库甚至是云端数据库下。在大数据情况下(千万级别以上),处理速度比国内外同类软件要高出300%以上。并针对云端数据库中使用最多的 MySQL 数据库进行优化,使得从源数据库复制到新数据库时保留更多的数据表属性设置。这样大大减少程序员、DBA、实施人员将大型数据库进行迁移时的等待、测试和调试时间,减少公司为了测试某系统转换到新数据库系统时的人力成本。

官方地址:http://wwwszmesoftcom/DB2DB

DB2DB支持功能

任意类型数据库间进行转换;

数据库表结构自动同步;

数据表索引自动同步;

数据表字段默认值自动同步;

支持对二进制字段数据的同步;

支持各种数据库中自增型字段的处理;

支持同步前对数据表进行检查,避免出现由于数据库自身限制的原因而导致同步失败的情况;

支持把同步内容导出为 SQL 文件的功能;

支持自定义选择需要同步的数据表;

支持将配置保存为方案,以方便日后重新使用;

针对不同的机器配置,可以选择单线程或多线程同步方式。

通过灵活的方式(可按月/周/天/小时/分钟)设定程序不限次定时执行同步动作。

六、 Kettle

Kettle简介

Kettle是一款国外开源的ETL工具,使用突破性的元数据驱动方法提供强大的提取,转换和加载(ETL)功能。在Windows、Linux、Unix上均可运行,数据抽取高效稳定。Kettle 中文名称叫水壶,它凭借图形化,拖放式设计环境以及可扩展、数据集成等特点,越来越成为组织的选择。

Kettle特点

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

七、SyncNavigator

SyncNavigator简介

号称国内做的最好的数据库同步软件,傻瓜式同步数据库,只需要你设置好来源数据库和目标数据库的账号和密码,一键开启,后台自动同步,断点续传,增量同步,几乎不占内存和CPU资源。并且还支持异构数据库,也可以同步部分表或者部分字段,都可以进行更为精准的设置操作。

syncnavigator特点

是一款专业的SQLSERVER,MySQL数据库同步软件,它为你提供一种简单智能的方式完成复杂的数据库数据同步,分发操作。

支持同构数据库同步,异构数据库同步,定时同步,增量同步,断点续传

完整支持Microsoft SQL Server 2000,2005,2008

支持Mysql41,50,54,55

支持大容量数据库快速同步。

八、DataX30

DataX30特点

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。

DataX30特点

DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。

Reader:Reader 为数据采集模块,负责采集数据源的数据,将数据发送给Framework。

Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。

Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

支持的数据库:

经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:

大家如有更好的工具推荐,欢迎在留言区补充~

数据库表:当需要将两个数据库表中的记录按照某种关联条件进行合并时,可以使用合并记录步骤。例如,需要将客户信息表和订单信息表中的记录按照客户编号进行合并,以便进行统计分析。

文件数据源:若要将两个文件中的记录按照某种关联条件进行合并,则可使用合并记录步骤。例如,需要将销售记录文件和顾客信息文件中的记录按照顾客ID进行合并,以便进行销售分析。

Web API:当需要从多个 Web API 中获取数据,并将它们按照某种关联条件进行合并时,可以使用合并记录步骤。例如,在电子商务平台中,可能需要从多个第三方接口获取商品价格、库存和评价等信息,并将它们按照商品 ID 进行合并显示给用户

可以尝试不同的etl工具针对该部分进行操作,datax、etlcloud都不错的,希望能帮到你

kettle是指可以加热的,jug是一般的盛水的容器

你说的这款在网上的评价是很高的,无论是牌子还是价格方面也很合适,整体来说是非常不错的;

但是买东西还是要多看看同类的品牌,要本着只选对的不买贵的为原则才行呀~还得注意别买到假货啦,可以去实体店或者网上比较知名的网店、旗舰店购买!

欢迎分享,转载请注明来源:浪漫分享网

原文地址:https://hunlipic.com/meirong/11322460.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-11-28
下一篇2023-11-28

发表评论

登录后才能评论

评论列表(0条)

    保存