大数据平台中支持安装的组件列表如表-1所示。
|
组件 |
版本 |
描述 |
|
Hadoop |
3.0.0 |
针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN |
|
ZooKeeper |
3.4.5、3.6.3 |
分布式应用程序协调服务,为集群提供一致性服务 【说明】新建Hadoop集群、Solr集群、Kafka集群时,安装的ZooKeeper版本为3.4.5;新建ClickHouse集群时,安装的ZooKeeper版本为3.6.3 |
|
Hive |
2.1.1 |
建立在Hadoop上的数据仓库框架,提供HQL语言进行数据离线分析处理 |
|
Spark2 |
2.4.0 |
基于内存的分布式计算框架,提供批量处理、流式计算、SQL以及机器学习的能力 |
|
Impala |
3.4.0 |
基于Hadoop的MPP计算框架,具备交互式查询分析能力 |
|
Sqoop |
1.4.7 |
用于Hadoop与传统关系型数据库间数据迁移的工具 |
|
HBase |
2.1.0 |
基于Hadoop的分布式NoSQL数据库,具备高并发、低延迟的实时查询能力 |
|
HBase Indexer |
1.5 |
HBase异步索引组件,利用Solr为HBase提供二级索引能力 |
|
Oozie |
5.1.0 |
用于Hadoop平台的开源的工作流调度引擎 |
|
Redis |
6.2.1 |
基于内存的分布式缓存数据库,满足高性能读写的业务需求 |
|
Presto |
1.5.0 |
一款高性能数据虚拟化引擎,提供统一SQL接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景 |
|
DLH |
1.0.0 |
基于Hive的数据湖仓库服务,融合批处理、交互式及流处理,具备数据协同分析能力 |
|
Storm |
1.2.1 |
一种分布式流式数据处理系统,支持毫秒级级别的实时数据处理,具有良好的稳定性和吞吐量 |
|
Kafka |
2.7.2 |
高吞吐量的分布式消息队列系统,具有出色的性能和可靠性 |
|
Flink |
1.13.6 |
一种统一流处理和批处理的分布式计算引擎,支持亚秒级的流式处理延迟,提供批流统一的SQL功能,具有极佳的稳定性 |
|
Flume |
1.9.0 |
一种分布式、高可靠、高可用的系统,用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区 |
|
Elasticsearch |
7.10.0 |
基于Lucene的分布式搜索和分析引擎,提供大数据集的实时搜索、分析和探索的能力 |
|
Solr |
7.4.0 |
基于Lucene的高性能全文搜索引擎, 具备强大的搜索和近实时的索引能力 |
|
ClickHouse |
22.8.8.3 |
一款在线分析处理查询(OLAP)的高性能列式数据库管理系统 |