功能特性

- 分享
  - 新浪微博
  - 腾讯微博
  - 豆瓣空间
  - 搜狐微博
  - QQ空间
  - 腾讯朋友
  - 网易微博
  - 百度搜藏
  - 开心网
  - 告诉聊友
推荐
打印
收藏

功能特性

可视化安装运维管理

大数据平台提供一体化的安装运维管理界面，通过Web界面化的方式实现一站式安装部署、监控告警、参数配置、服务管理、日志审计、用户管理、多集群管理等功能，避免用户在多个管理界面间切换；对集群的各项服务做集中式管理，提供启动服务、停止服务、修改属性和设定运行参数等功能，实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控，保障集群稳定运行。

集群数据迁移和备份恢复

H3C DataEngine大数据平台支持旧版本历史集群或第三方大数据平台集群中HDFS、Hive、HBase、Elasticsearch等组件业务数据以全量/增量方式迁移到H3C DataEngine大数据平台集群中。

迁移场景	源平台类型	目的平台	迁移方式
HDP -> HDP	华为	新华三	全量/增量
	开源CDH	新华三	全量/增量
	星环	新华三	全量/增量
	浪潮	新华三	全量/增量
	阿里	新华三	全量/增量
	新华三	新华三	全量/增量

HDP迁移方案：确定业务使用组件及版本以及需要迁移的数据，制定对应的迁移方案和迁移步骤。开启安全的集群需要首先配置互信，HDFS/Hive使用distcp命令迁移，增量采用update参数、HBase使用快照方式迁移，增量采用update参数、ES使用快照方式迁移，增量采用update参数。数据迁移后要进行数据验证：生成源端和目的端文件的列表，交叉检查，以确认迁移是否成功。

使用场景：

备份：

在集群内，将其全部或者部分数据集合从应用主机的硬盘或阵列，复制到集群内其它存储介质的过程。

容灾：

在相隔较远的异地，建立两套以上相同的系统，互相之间可以进行监视健康状态和功能切换。当一处统因意外停止工作时，整个应用系统切换到另一处，确保该系统能够正常运转。

主集群遭遇灾难性断电异常时，重点业务切换至备集群继续运转。

H3C DataEngine大数据平台备份恢复提供了大数据平台跨集群之间的数据同步功能，可视化的同步任务管理，操作简单、易用，支持对HDFS、HBase、Kafka、Hive异地双集群容灾与备份，保障数据不丢失。

HDS、Hive采用distcp方式周期性备份数据，支持增量和全量备份，其中HDFS增量数据通过创建HDFS快照对比上一个HDFS快照找出、Hive元数据进行周期导出导入实现对HDFS、Hive组件数据的同步。

HBase数据同步采用HLog机制准实时同步数据。

Kafka数据通过MirrorMaker工具实现数据的实施同步。

多样化分布式计算框架

DataEngine提供MapReduce、Spark和Flink三种分布式处理框架，分别满足稳定、高效、快速迭代三类应用场景，同时支持Hive、SparkSQL等SQL on Hadoop工具，简化计算任务编写过程，快速进行数据开发工作。

Hive默认执行引擎采用Tez计算框架，将多个具有依赖的作业转换为DAG作业，避免复杂任务多次读写HDFS过程，大幅提升作业运行性能，复杂计算场景下相比MapReduce作业能够提升10倍以上性能。

提供Spark内存计算框架，通过RDD之间的血缘关系管理算子之间依赖关系，确保数据能够快速恢复并重新计算，中间结果数据支持灵活选择内存、SSD等缓存模式，在迭代式计算场景提供更高性能的算力，计算性能可达MapReduce的10-100倍。

采用Flink计算框架统一流批处理，一个计算引擎可同时满足流计算业务和批处理业务，支持自实现状态管理和Exactly-Once语义，具有容错机制，保证数据零丢失，具有极佳的吞吐量及亚秒级延迟性能。同时支持完善Flink SQL语法，快速实现双流join、流批join等业务场景，降低流式作业开发难度。

大数据组件全面升级

基于Hadoop 3.0版本，与开源社区的版本、接口保持一致，不采用私有架构。提供分布式文件存储、海量数据处理、实时数据分析、交互式查询、数据检索、安全认证与权限管理等功能。软件服务组成及功能描述如下：

组件	版本号	描述
Hadoop	3.2.3	针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN
ZooKeeper	3.6.3	分布式应用程序协调服务，为集群提供一致性服务
Hive	3.1.3	建立在Hadoop上的数据仓库框架，提供HQL语言进行数据离线分析处理
Spark	3.3.2	基于内存的分布式计算框架,提供批量处理、流式计算、SQL以及机器学习的能力
Impala	4.2.0	基于Hadoop的MPP计算框架，具备交互式查询分析能力
Sqoop	1.4.7	用于Hadoop与传统关系型数据库间数据迁移的工具
HBase	2.4.13	基于Hadoop的分布式NoSQL数据库，具备高并发、低延迟的实时查询能力
HBase_Indexer	1.5	HBase异步索引组件，利用Solr为HBase提供二级索引能力
Oozie	5.1.0	用于Hadoop平台的开源的工作流调度引擎
Redis	7.0.5	基于内存的分布式缓存数据库，满足高性能读写的业务需求
Presto	1.8.0	一款高性能数据虚拟化引擎，提供统一SQL接口，具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景
DLH	1.0-3.1.3	基于Hive的数据湖仓库服务，融合批处理、交互式及流处理，具备数据协同分析能力
Storm	1.2.1	一种分布式流式数据处理系统，支持毫秒级级别的实时数据处理，具有良好的稳定性和吞吐量
Kafka	2.7.2	高吞吐量的分布式消息队列系统，具有出色的性能和可靠性
Flink	1.17.1	一种统一流处理和批处理的分布式计算引擎，支持亚秒级的流式处理延迟，提供批流统一的SQL功能，具有极佳的稳定性
Flume	1.9.0	一种分布式、高可靠、高可用的系统，用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区
Elasticsearch	7.10.0	基于Lucene的分布式搜索和分析引擎，提供大数据集的实时搜索、分析和探索的能力
Solr	7.4.0	基于Lucene的高性能全文搜索引擎，具备强大的搜索和近实时的索引能力
ClickHouse	22.8.8.3	一款在线分析处理查询(OLAP)的高性能列式数据库管理系统

湖仓一体引擎DLH

DLH（数据湖仓库）结合数据湖和数据仓库的优势，在数据湖存储上实现了与数据仓库类似的数据结构和数据管理功能，提供“湖仓一体化”的能力。

DLH以HDFS和ONEStor作为数据湖的集中存储库，能够存储结构化、半结构化和非结构化的数据。借助数据集成服务能够将外部系统中数据接入到数据湖内，建立统一管理的数据目录、元数据信息及血缘关系展示等。同时，通过统一SQL接口能够对湖内数据进行离线查询、交互式分析、跨源分析、实时流计算以及机器学习算法训练等。

DLH架构图所示，说明如下：

DLH基于Hive提供统一SQL入口，不同场景下SQL语句底层执行引擎可自动进行切换，所有计算任务统一由YARN进行资源调度。

存储端支持多种存储格式和数据增量插入、增量查询等能力，并提供简单便捷的数据入湖工具。

通过统一的元数据管理界面，能够可视化管理库表结构信息及表数据量或外部数据源大小，并提供血缘关系展示等功能。

依赖大数据平台的认证/权限管理、加密管理、审计管理等模板保证DLH组件安全可靠。

存算分离

为应对云原生大数据发展趋势，解决传统存储和计算一体化的大数据集群存在资源利用率低、资源扩容不灵活等问题，DataEngine 大数据平台支持存算分离架构，扩展原生Hadoop能力，支持对接我司ONEStor存储及第三方对象存储，存储和计算资源灵活配置，根据业务需要各自独立进行弹性扩展，使得大数据集群资源利用率大幅提升。

DataEngine 大数据平台存算分离完全兼容HDFS读写接口以及原生权限管理模型，上层业务无感知，同时充分利用对象存储的高带宽、高并发特点，对数据访问效率和并行计算进行深度优化，相比原生HDFS，存算分离写性能提升20%左右，读性能相当。

多模数据库

多模数据库服务支持图、时序、时空、宽表等计算引擎，提供灵活、高效的多种数据计算模式，满足物联网、工业互联网、日志、监控、交通、时空分析等多种业务场景。

图数据库

面向海量具有关联关系点和边的图形结构数据，提供强大的查询和分析遍历能力，应用于社交分析、反欺诈、风控、智能推荐等场景。

时序数据库

面向IoT、监控等场景存储和处理量测数据、设备运行数据等时序数据，支持海量数据的多维查询和聚合计算，支持降采样和预聚合

时空数据库

面向海量空间/时空数据的存储和处理，具备高效的时空多维索引和时空分析能力，适用于交通、人物轨迹、物流等时空场景。

实时数仓ClickHouse

ClickHouse（全称Click Stream，Data WareHouse），是一个用于联机分析（OLAP）的列式数据库管理系统（DBMS），其基于列存储，具有极致的查询性能。

ClickHouse的特点及优势如下：

拥有完备的DBMS功能

适合在线实时查询

支持向量化执行引擎

真正的列式存储

支持多核心并行处理及多服务器分布式处理

支持实时数据写入及批量数据更新

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

技术支持

自助服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

功能特性

功能特性

可视化安装运维管理

集群数据迁移和备份恢复

多样化分布式计算框架

大数据组件全面升级

湖仓一体引擎DLH

存算分离

多模数据库