欢迎user
大数据平台提供一体化的安装运维管理界面,通过Web界面化的方式实现一站式安装部署、监控告警、参数配置、服务管理、日志审计、用户管理、多集群管理等功能,避免用户在多个管理界面间切换;对集群的各项服务做集中式管理,提供启动服务、停止服务、修改属性和设定运行参数等功能,实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控,保障集群稳定运行。
H3C DataEngine大数据平台支持旧版本历史集群或第三方大数据平台集群中HDFS、Hive、HBase、Elasticsearch等组件业务数据以全量/增量方式迁移到H3C DataEngine大数据平台集群中。
迁移场景 | 源平台类型 | 目的平台 | 迁移方式 |
HDP -> HDP | 华为 | 新华三 | 全量/增量 |
开源CDH | 新华三 | 全量/增量 | |
星环 | 新华三 | 全量/增量 | |
浪潮 | 新华三 | 全量/增量 | |
阿里 | 新华三 | 全量/增量 | |
新华三 | 新华三 | 全量/增量 |
HDP迁移方案:确定业务使用组件及版本以及需要迁移的数据,制定对应的迁移方案和迁移步骤。开启安全的集群需要首先配置互信,HDFS/Hive使用distcp命令迁移,增量采用update参数、HBase使用快照方式迁移,增量采用update参数、ES使用快照方式迁移,增量采用update参数。数据迁移后要进行数据验证:生成源端和目的端文件的列表,交叉检查,以确认迁移是否成功。
使用场景:
备份:
在集群内,将其全部或者部分数据集合从应用主机的硬盘或阵列,复制到集群内其它存储介质的过程。
容灾:
在相隔较远的异地,建立两套以上相同的系统,互相之间可以进行监视健康状态和功能切换。当一处统因意外停止工作时,整个应用系统切换到另一处,确保该系统能够正常运转。
主集群遭遇灾难性断电异常时,重点业务切换至备集群继续运转。
H3C DataEngine大数据平台备份恢复提供了大数据平台跨集群之间的数据同步功能,可视化的同步任务管理,操作简单、易用,支持对HDFS、HBase、Kafka、Hive异地双集群容灾与备份,保障数据不丢失。
HDS、Hive采用distcp方式周期性备份数据,支持增量和全量备份,其中HDFS增量数据通过创建HDFS快照对比上一个HDFS快照找出、Hive元数据进行周期导出导入实现对HDFS、Hive组件数据的同步。
HBase数据同步采用HLog机制准实时同步数据。
Kafka数据通过MirrorMaker工具实现数据的实施同步。
DataEngine提供MapReduce、Spark和Flink三种分布式处理框架,分别满足稳定、高效、快速迭代三类应用场景,同时支持Hive、SparkSQL等SQL on Hadoop工具,简化计算任务编写过程,快速进行数据开发工作。
Hive默认执行引擎采用Tez计算框架,将多个具有依赖的作业转换为DAG作业,避免复杂任务多次读写HDFS过程,大幅提升作业运行性能,复杂计算场景下相比MapReduce作业能够提升10倍以上性能。
提供Spark内存计算框架,通过RDD之间的血缘关系管理算子之间依赖关系,确保数据能够快速恢复并重新计算,中间结果数据支持灵活选择内存、SSD等缓存模式,在迭代式计算场景提供更高性能的算力,计算性能可达MapReduce的10-100倍。
采用Flink计算框架统一流批处理,一个计算引擎可同时满足流计算业务和批处理业务,支持自实现状态管理和Exactly-Once语义,具有容错机制,保证数据零丢失,具有极佳的吞吐量及亚秒级延迟性能。同时支持完善Flink SQL语法,快速实现双流join、流批join等业务场景,降低流式作业开发难度 。
基于Hadoop 3.0版本,与开源社区的版本、接口保持一致,不采用私有架构。提供分布式文件存储、海量数据处理、实时数据分析、交互式查询、数据检索、安全认证与权限管理等功能。软件服务组成及功能描述如下:
组件 | 版本号 | 描述 |
Hadoop | 3.2.3 | 针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN |
ZooKeeper | 3.6.3 | 分布式应用程序协调服务,为集群提供一致性服务 |
Hive | 3.1.3 | 建立在Hadoop上的数据仓库框架,提供HQL语言进行数据离线分析处理 |
Spark | 3.3.2 | 基于内存的分布式计算框架,提供批量处理、流式计算、SQL以及机器学习的能力 |
Impala | 4.2.0 | 基于Hadoop的MPP计算框架,具备交互式查询分析能力 |
Sqoop | 1.4.7 | 用于Hadoop与传统关系型数据库间数据迁移的工具 |
HBase | 2.4.13 | 基于Hadoop的分布式NoSQL数据库,具备高并发、低延迟的实时查询能力 |
HBase_Indexer | 1.5 | HBase异步索引组件,利用Solr为HBase提供二级索引能力 |
Oozie | 5.1.0 | 用于Hadoop平台的开源的工作流调度引擎 |
Redis | 7.0.5 | 基于内存的分布式缓存数据库,满足高性能读写的业务需求 |
Presto | 1.8.0 | 一款高性能数据虚拟化引擎,提供统一SQL接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景 |
DLH | 1.0-3.1.3 | 基于Hive的数据湖仓库服务,融合批处理、交互式及流处理,具备数据协同分析能力 |
Storm | 1.2.1 | 一种分布式流式数据处理系统,支持毫秒级级别的实时数据处理,具有良好的稳定性和吞吐量 |
Kafka | 2.7.2 | 高吞吐量的分布式消息队列系统,具有出色的性能和可靠性 |
Flink | 1.17.1 | 一种统一流处理和批处理的分布式计算引擎,支持亚秒级的流式处理延迟,提供批流统一的SQL功能,具有极佳的稳定性 |
Flume | 1.9.0 | 一种分布式、高可靠、高可用的系统,用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区 |
Elasticsearch | 7.10.0 | 基于Lucene的分布式搜索和分析引擎,提供大数据集的实时搜索、分析和探索的能力 |
Solr | 7.4.0 | 基于Lucene的高性能全文搜索引擎, 具备强大的搜索和近实时的索引能力 |
ClickHouse | 22.8.8.3 | 一款在线分析处理查询(OLAP)的高性能列式数据库管理系统 |
DLH(数据湖仓库)结合数据湖和数据仓库的优势,在数据湖存储上实现了与数据仓库类似的数据结构和数据管理功能,提供“湖仓一体化”的能力。
DLH以HDFS和ONEStor作为数据湖的集中存储库,能够存储结构化、半结构化和非结构化的数据。借助数据集成服务能够将外部系统中数据接入到数据湖内,建立统一管理的数据目录、元数据信息及血缘关系展示等。同时,通过统一SQL接口能够对湖内数据进行离线查询、交互式分析、跨源分析、实时流计算以及机器学习算法训练等。
DLH架构图所示,说明如下:
DLH基于Hive提供统一SQL入口,不同场景下SQL语句底层执行引擎可自动进行切换,所有计算任务统一由YARN进行资源调度。
存储端支持多种存储格式和数据增量插入、增量查询等能力,并提供简单便捷的数据入湖工具。
通过统一的元数据管理界面,能够可视化管理库表结构信息及表数据量或外部数据源大小,并提供血缘关系展示等功能。
依赖大数据平台的认证/权限管理、加密管理、审计管理等模板保证DLH组件安全可靠。
为应对云原生大数据发展趋势,解决传统存储和计算一体化的大数据集群存在资源利用率低、资源扩容不灵活等问题,DataEngine 大数据平台支持存算分离架构,扩展原生Hadoop能力,支持对接我司ONEStor存储及第三方对象存储,存储和计算资源灵活配置,根据业务需要各自独立进行弹性扩展,使得大数据集群资源利用率大幅提升。
DataEngine 大数据平台存算分离完全兼容HDFS读写接口以及原生权限管理模型,上层业务无感知,同时充分利用对象存储的高带宽、高并发特点,对数据访问效率和并行计算进行深度优化,相比原生HDFS,存算分离写性能提升20%左右,读性能相当。
多模数据库服务 支持图、时序、时空、宽表等计算引擎,提供灵活、高效的多种数据计算模式,满足物联网、工业互联网、日志、监控、交通、时空分析等多种业务场景。
图数据库
面向海量具有关联关系点和边的图形结构数据,提供强大的查询和分析遍历能力,应用于社交分析、反欺诈、风控、智能推荐等场景。
时序数据库
面向IoT、监控等场景存储和处理量测数据、设备运行数据等时序数据,支持海量数据的多维查询和聚合计算,支持降采样和预聚合
时空数据库
面向海量空间/时空数据的存储和处理,具备高效的时空多维索引和时空分析能力,适用于交通、人物轨迹、物流等时空场景。
实时数仓ClickHouse
ClickHouse(全称Click Stream,Data WareHouse),是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),其基于列存储,具有极致的查询性能。
ClickHouse的特点及优势如下:
拥有完备的DBMS功能
适合在线实时查询
支持向量化执行引擎
真正的列式存储
支持多核心并行处理及多服务器分布式处理
支持实时数据写入及批量数据更新
具备完善的SQL支持和函数