图-1 数据工厂产品架构
数据工厂(Data Factory)覆盖数据采集、存储、计算、分析、挖掘、可视化等环节的大数据全链路处理能力,降低用户使用大数据的门槛,帮助用户快速构建大数据处理体系。主要功能有:
数据探索:以可视化方式,为用户提供管理HDFS文件系统功能,也可在线查看Hive、Impala等库表信息,并支持在线数据查询及可视化分析;并可通过Notebook直接和HBase,Elasticsearch和Spark服务进行交互。
数据开发:以可视化拖拽方式构建任务流,按照时间和依赖关系进行任务调度管理,轻松解决Spark、Shell、HDFS、MapReduce、Java、SparkSQL、Hive等任务之间的协同依赖难题。同时提供图表形式展示工作流周期运行状况,方便用户对工作流进行监控分析。
连接管理:包含主机连接与数据源连接,方便用户在进行数据探索与数据开发时,对外部源进行有效管理。实现用户一次配置,到处使用各种连接源。