组件列表

大数据平台中支持安装的组件列表如-1所示。

表-1 大数据平台组件列表

组件

版本

描述

Hadoop

3.0.0

针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN

ZooKeeper

3.4.53.6.3

分布式应用程序协调服务,为集群提供一致性服务

【说明】新建Hadoop集群、Solr集群、Kafka集群时,安装的ZooKeeper版本为3.4.5;新建ClickHouse集群时,安装的ZooKeeper版本为3.6.3

Hive

2.1.1

建立在Hadoop上的数据仓库框架,提供HQL语言进行数据离线分析处理

Spark2

2.4.0

基于内存的分布式计算框架,提供批量处理、流式计算、SQL以及机器学习的能力

Impala

3.4.0

基于HadoopMPP计算框架,具备交互式查询分析能力

Sqoop

1.4.7

用于Hadoop与传统关系型数据库间数据迁移的工具

HBase

2.1.0

基于Hadoop的分布式NoSQL数据库,具备高并发、低延迟的实时查询能力

HBase Indexer

1.5

HBase异步索引组件,利用SolrHBase提供二级索引能力

Oozie

5.1.0

用于Hadoop平台的开源的工作流调度引擎

Redis

6.2.1

基于内存的分布式缓存数据库,满足高性能读写的业务需求

Presto

1.5.0

一款高性能数据虚拟化引擎,提供统一SQL接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景

DLH

1.0.0

基于Hive的数据湖仓库服务,融合批处理、交互式及流处理,具备数据协同分析能力

Storm

1.2.1

一种分布式流式数据处理系统,支持毫秒级级别的实时数据处理,具有良好的稳定性和吞吐量

Kafka

2.7.2

高吞吐量的分布式消息队列系统,具有出色的性能和可靠性

Flink

1.13.6

一种统一流处理和批处理的分布式计算引擎,支持亚秒级的流式处理延迟,提供批流统一的SQL功能,具有极佳的稳定性

Flume

1.9.0

一种分布式、高可靠、高可用的系统,用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区

Elasticsearch

7.10.0

基于Lucene的分布式搜索和分析引擎,提供大数据集的实时搜索、分析和探索的能力

Solr

7.4.0

基于Lucene的高性能全文搜索引擎, 具备强大的搜索和近实时的索引能力

ClickHouse

22.8.8.3

一款在线分析处理查询(OLAP)的高性能列式数据库管理系统