• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 关于我们
Product_SideBar(7002)NotFound.

功能特性

      • 分享到...

      • 新浪微博
      • 腾讯微博
      • 推荐到豆瓣 豆瓣空间
      • 分享到搜狐微博 搜狐微博
      • 分享到QQ空间 QQ空间
      • 分享到腾讯朋友 腾讯朋友
      • 网易微博分享 网易微博
      • 添加到百度搜藏 百度搜藏
      • 转贴到开心网 开心网
      • 转发好友 告诉聊友
  • 推荐
  • 打印
  • 收藏

功能特性

可视化安装运维管理

大数据平台提供一体化的安装运维管理界面,通过Web界面化的方式实现一站式安装部署、监控告警、参数配置、服务管理、日志审计、用户管理、多集群管理等功能,避免用户在多个管理界面间切换;对集群的各项服务做集中式管理,提供启动服务、停止服务、修改属性和设定运行参数等功能,实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控,保障集群稳定运行。

集群数据迁移和备份恢复

H3C DataEngine大数据平台支持旧版本历史集群或第三方大数据平台集群中HDFS、Hive、HBase、Elasticsearch等组件业务数据以全量/增量方式迁移到H3C DataEngine大数据平台集群中。

迁移场景

源平台类型

目的平台

迁移方式

HDP -> HDP

华为

新华三

全量/增量

开源CDH

新华三

全量/增量

星环

新华三

全量/增量

浪潮

新华三

全量/增量

阿里

新华三

全量/增量

新华三

新华三

全量/增量

HDP迁移方案:确定业务使用组件及版本以及需要迁移的数据,制定对应的迁移方案和迁移步骤。开启安全的集群需要首先配置互信,HDFS/Hive使用distcp命令迁移,增量采用update参数、HBase使用快照方式迁移,增量采用update参数、ES使用快照方式迁移,增量采用update参数。数据迁移后要进行数据验证:生成源端和目的端文件的列表,交叉检查,以确认迁移是否成功。

使用场景:

* 备份:

在集群内,将其全部或者部分数据集合从应用主机的硬盘或阵列,复制到集群内其它存储介质的过程。

* 容灾:

在相隔较远的异地,建立两套以上相同的系统,互相之间可以进行监视健康状态和功能切换。当一处统因意外停止工作时,整个应用系统切换到另一处,确保该系统能够正常运转。

主集群遭遇灾难性断电异常时,重点业务切换至备集群继续运转。

H3C DataEngine大数据平台备份恢复提供了大数据平台跨集群之间的数据同步功能,可视化的同步任务管理,操作简单、易用,支持对HDFS、HBase、Kafka、Hive异地双集群容灾与备份,保障数据不丢失。

HDS、Hive采用distcp方式周期性备份数据,支持增量和全量备份,其中HDFS增量数据通过创建HDFS快照对比上一个HDFS快照找出、Hive元数据进行周期导出导入实现对HDFS、Hive组件数据的同步。

HBase数据同步采用HLog机制准实时同步数据。

Kafka数据通过MirrorMaker工具实现数据的实施同步。

多样化分布式计算框架

DataEngine提供MapReduce、Spark和Flink三种分布式处理框架,分别满足稳定、高效、快速迭代三类应用场景,同时支持Hive、SparkSQL等SQL on Hadoop工具,简化计算任务编写过程,快速进行数据开发工作。

Hive默认执行引擎采用Tez计算框架,将多个具有依赖的作业转换为DAG作业,避免复杂任务多次读写HDFS过程,大幅提升作业运行性能,复杂计算场景下相比MapReduce作业能够提升10倍以上性能。

提供Spark内存计算框架,通过RDD之间的血缘关系管理算子之间依赖关系,确保数据能够快速恢复并重新计算,中间结果数据支持灵活选择内存、SSD等缓存模式,在迭代式计算场景提供更高性能的算力,计算性能可达MapReduce的10-100倍。

采用Flink计算框架统一流批处理,一个计算引擎可同时满足流计算业务和批处理业务,支持自实现状态管理和Exactly-Once语义,具有容错机制,保证数据零丢失,具有极佳的吞吐量及亚秒级延迟性能。同时支持完善Flink SQL语法,快速实现双流join、流批join等业务场景,降低流式作业开发难度 。

大数据组件全面升级

基于Hadoop 3.0版本,与开源社区的版本、接口保持一致,不采用私有架构。提供分布式文件存储、海量数据处理、实时数据分析、交互式查询、数据检索、安全认证与权限管理等功能。软件服务组成及功能描述如下:

组件

版本号

描述

Hadoop

3.2.3

针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN

ZooKeeper

3.6.3

分布式应用程序协调服务,为集群提供一致性服务

Hive

3.1.3

建立在Hadoop上的数据仓库框架,提供HQL语言进行数据离线分析处理

Spark

3.3.2

基于内存的分布式计算框架,提供批量处理、流式计算、SQL以及机器学习的能力

Impala

4.2.0

基于Hadoop的MPP计算框架,具备交互式查询分析能力

Sqoop

1.4.7

用于Hadoop与传统关系型数据库间数据迁移的工具

HBase

2.4.13

基于Hadoop的分布式NoSQL数据库,具备高并发、低延迟的实时查询能力

HBase_Indexer

1.5

HBase异步索引组件,利用Solr为HBase提供二级索引能力

Oozie

5.1.0

用于Hadoop平台的开源的工作流调度引擎

Redis

7.0.5

基于内存的分布式缓存数据库,满足高性能读写的业务需求

Presto

1.8.0

一款高性能数据虚拟化引擎,提供统一SQL接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景

DLH

1.0-3.1.3

基于Hive的数据湖仓库服务,融合批处理、交互式及流处理,具备数据协同分析能力

Storm

1.2.1

一种分布式流式数据处理系统,支持毫秒级级别的实时数据处理,具有良好的稳定性和吞吐量

Kafka

2.7.2

高吞吐量的分布式消息队列系统,具有出色的性能和可靠性

Flink

1.17.1

一种统一流处理和批处理的分布式计算引擎,支持亚秒级的流式处理延迟,提供批流统一的SQL功能,具有极佳的稳定性

Flume

1.9.0

一种分布式、高可靠、高可用的系统,用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区

Elasticsearch

7.10.0

基于Lucene的分布式搜索和分析引擎,提供大数据集的实时搜索、分析和探索的能力

Solr

7.4.0

基于Lucene的高性能全文搜索引擎, 具备强大的搜索和近实时的索引能力

ClickHouse

22.8.8.3

一款在线分析处理查询(OLAP)的高性能列式数据库管理系统

湖仓一体引擎DLH

DLH(数据湖仓库)结合数据湖和数据仓库的优势,在数据湖存储上实现了与数据仓库类似的数据结构和数据管理功能,提供“湖仓一体化”的能力。

DLH以HDFS和ONEStor作为数据湖的集中存储库,能够存储结构化、半结构化和非结构化的数据。借助数据集成服务能够将外部系统中数据接入到数据湖内,建立统一管理的数据目录、元数据信息及血缘关系展示等。同时,通过统一SQL接口能够对湖内数据进行离线查询、交互式分析、跨源分析、实时流计算以及机器学习算法训练等。

DLH架构图所示,说明如下:

* DLH基于Hive提供统一SQL入口,不同场景下SQL语句底层执行引擎可自动进行切换,所有计算任务统一由YARN进行资源调度。

* 存储端支持多种存储格式和数据增量插入、增量查询等能力,并提供简单便捷的数据入湖工具。

* 通过统一的元数据管理界面,能够可视化管理库表结构信息及表数据量或外部数据源大小,并提供血缘关系展示等功能。

* 依赖大数据平台的认证/权限管理、加密管理、审计管理等模板保证DLH组件安全可靠。

存算分离

为应对云原生大数据发展趋势,解决传统存储和计算一体化的大数据集群存在资源利用率低、资源扩容不灵活等问题,DataEngine 大数据平台支持存算分离架构,扩展原生Hadoop能力,支持对接我司ONEStor存储及第三方对象存储,存储和计算资源灵活配置,根据业务需要各自独立进行弹性扩展,使得大数据集群资源利用率大幅提升。

DataEngine 大数据平台存算分离完全兼容HDFS读写接口以及原生权限管理模型,上层业务无感知,同时充分利用对象存储的高带宽、高并发特点,对数据访问效率和并行计算进行深度优化,相比原生HDFS,存算分离写性能提升20%左右,读性能相当。

多模数据库

多模数据库服务 支持图、时序、时空、宽表等计算引擎,提供灵活、高效的多种数据计算模式,满足物联网、工业互联网、日志、监控、交通、时空分析等多种业务场景。

图数据库

面向海量具有关联关系点和边的图形结构数据,提供强大的查询和分析遍历能力,应用于社交分析、反欺诈、风控、智能推荐等场景。

时序数据库

面向IoT、监控等场景存储和处理量测数据、设备运行数据等时序数据,支持海量数据的多维查询和聚合计算,支持降采样和预聚合

时空数据库

面向海量空间/时空数据的存储和处理,具备高效的时空多维索引和时空分析能力,适用于交通、人物轨迹、物流等时空场景。

实时数仓ClickHouse

ClickHouse(全称Click Stream,Data WareHouse),是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),其基于列存储,具有极致的查询性能。

ClickHouse的特点及优势如下:

* 拥有完备的DBMS功能

* 适合在线实时查询

* 支持向量化执行引擎

* 真正的列式存储

* 支持多核心并行处理及多服务器分布式处理

* 支持实时数据写入及批量数据更新

* 具备完善的SQL支持和函数


顶端