数据集成支持批量数据迁移、实时数据集成和数据库实时同步,支持30+异构数据源(文本、消息、API、关系型和非关系型数据等),流程图式配置和管理,支持单表、整库、增量、周期性数据集成。
海量多源异构数据接入:支持丰富的数据源类型,涵盖Oracle、SQL Server等关系型数据库,Greenplum、Vertica等大数据分析型数据库, HDFS、HBase、Hive2等大数据组件, GBase8a、达梦、 Kingbase8 等常见的国产数据库。
丰富的数据处理组件:数据集成具备70+数据处理组件,提高数据处理效率,降低人工成本。
包含20+数据抽取组件,涵盖常用的数据抽取场景。
具备40+数据转换组件,可以支持对数字、日期、字符串、文件等类型的数据进行处理。
包含24+数据加载组件,满足各类数据沉淀场景需求。
包含存储过程、发送邮件、FTP下载等11种数据快捷处理工具。
可视化ETL工作流配置:数据集成提供可视化的ETL工作流设计环境;开发人员只需要在图形化界面中通过托拉拽的方式就可以轻松实现复杂的任务配置;不需做任何编码,业务人员即可轻松掌控数据流向,应对各种复杂数据处理任务,降低数据集成难度及使用门槛。
图-2 可视化工作流配置
数据集成利用调度和执行分离的模式实现ETL作业的执行节点的横向扩展,利用集群机制保证调度中心的可靠性,智能调度算法实现作业的合理分配。
源端数据库支持MySQL、Oracle和DRDS,目标端支持关系型数据库、NoSQL、大数据(OLAP)等数据源;集数据迁移、订阅及实时同步功能于一体,解决增量数据实时捕获、数据实时分析等场景。
图-3 实时数据采集和订阅