组件列表

大数据平台中支持安装的组件列表如表-1所示。

组件	版本	描述
Hadoop	3.0.0	针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN
ZooKeeper	3.4.5、3.6.3	分布式应用程序协调服务，为集群提供一致性服务【说明】新建Hadoop集群、Solr集群、Kafka集群时，安装的ZooKeeper版本为3.4.5；新建ClickHouse集群时，安装的ZooKeeper版本为3.6.3
Hive	2.1.1	建立在Hadoop上的数据仓库框架，提供HQL语言进行数据离线分析处理
Spark2	2.4.0	基于内存的分布式计算框架，提供批量处理、流式计算、SQL以及机器学习的能力
Impala	3.4.0	基于Hadoop的MPP计算框架，具备交互式查询分析能力
Sqoop	1.4.7	用于Hadoop与传统关系型数据库间数据迁移的工具
HBase	2.1.0	基于Hadoop的分布式NoSQL数据库，具备高并发、低延迟的实时查询能力
HBase Indexer	1.5	HBase异步索引组件，利用Solr为HBase提供二级索引能力
Oozie	5.1.0	用于Hadoop平台的开源的工作流调度引擎
Redis	6.2.1	基于内存的分布式缓存数据库，满足高性能读写的业务需求
Presto	1.5.0	一款高性能数据虚拟化引擎，提供统一SQL接口，具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景
DLH	1.0.0	基于Hive的数据湖仓库服务，融合批处理、交互式及流处理，具备数据协同分析能力
Storm	1.2.1	一种分布式流式数据处理系统，支持毫秒级级别的实时数据处理，具有良好的稳定性和吞吐量
Kafka	2.7.2	高吞吐量的分布式消息队列系统，具有出色的性能和可靠性
Flink	1.13.6	一种统一流处理和批处理的分布式计算引擎，支持亚秒级的流式处理延迟，提供批流统一的SQL功能，具有极佳的稳定性
Flume	1.9.0	一种分布式、高可靠、高可用的系统，用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区
Elasticsearch	7.10.0	基于Lucene的分布式搜索和分析引擎，提供大数据集的实时搜索、分析和探索的能力
Solr	7.4.0	基于Lucene的高性能全文搜索引擎，具备强大的搜索和近实时的索引能力
ClickHouse	22.8.8.3	一款在线分析处理查询（OLAP）的高性能列式数据库管理系统