• 产品与解决方案
  • 行业解决方案
  • 服务
  • 支持
  • 合作伙伴
  • 新华三人才研学中心
  • 关于我们

H3C DataEngine 3.0 大数据平台

H3C DataEngine大数据平台整合基础资源服务(IaaS)、平台服务(PaaS)、数据服务(DaaS)一站式数据解决方案, 支持物理机、裸金属服务器以及虚拟机多种资源服务模式,深度定制大数据生态系统,打通数据全链路开发处理流程和数据全域管理能力,助力用户数据业务快速创新。

* 系统管理:大数据平台系统管理提供数据平台运行的服务支撑能力,包括控制台管理框架、统一用户管理、流程管理、操作日志以及License服务、系统升级等。

* 大数据组件服务:提供丰富的大数据组件即服务,包括但不限于分布式文件系统、NoSQL数据库服务、内存数据库服务、离线计算、流式计算、内存计算、SQL on Hadoop等服务,同时还提供自研统一SQL服务,可兼容标准SQL,对外提供统一的数据查询/分析服务,提升平台的整体易用性。

* 管理中心:提供可视化安装部署、监控告警、主机扩容、大数据组件、日志统一等管理能力,大幅提升大数据平台运维效率。

* 安全中心:提供基于Kerberos安全认证体系以及基于角色的用户权限管理体系:对用户进行合法认证,拒绝非法用户访问,恶意用户“进不来”;对用户、组件、读写等操作进行不同维度的审计,非法用户“逃不掉”;通过角色绑定大数据集群各组件操作权限,数据“拿不走”;将密钥的权限与用户绑定,对数据进行加/解密,数据“看不懂”。

* 数据工厂:提供一站式可视化的数据开发环境,全托管的数据处理流程调度,实现一整套完整的数据集成、数据表及文件管理、数据处理脚本程序开发、拖拽式工作流及调度、作业状态监控运维等全生命周期数据开发服务。


易用的平台管理界面

H3C DataEngine提供可视化的集群安装部署界面,方便快捷的进行资源管理,主机分配等操作,支持组件服务一键安装、升级和图形化运维,实时监测各项服务的健康状态以及运行指标,超过一定配置阈值后进行告警并邮件通知管理员,大幅提升运维效率。

数据协同服务

传统Hadoop数仓通常以Hive为基础进行建设底层作业执行通过MapReduce或Spark框架运行,性能往往在分钟级别,无法支持秒级交互式查询,并难以对数据湖内多种数据源进行统一访问。

DataEngine 大数据平台自研DataLake House(DLH)服务,提供统一SQL 访问入口,在不改变原生Hive使用方式和语法前提下,业务无需变动,底层融合交互式及批处理引擎,根据SQL语句复杂度及计算数据量,自动选择最优执行引擎,在TB级别数据量下计算性能提升10倍以上。

DLH支持访问Hadoop、关系数据库、MPP数据库、对象存储等多种数据源,形成统一数据湖存储,通过SQL方式完成数据湖与已有数据仓库的协同处理,打破数据孤岛,避免数据搬迁。

高效的工作流调度引擎

数据工厂中支持可视化的工作流任务编排,并提供强大的工作流调度引擎。用户可以调试运行工作流,也可以周期运行工作流。在周期调度设置中,支持多维度的调度方式,即可以按照年、月、周、日、小时、分钟的方式进行工作流执行周期的设置。同时支持工作流的优先级与并发数设置,用户可以针对不同工作流设置不同的优先级,或者针对工作流实际运行需求来设置并发数。

通用数据服务接口

提供统一SQL服务和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。数据服务接口主要包括SQL接口、MapReduce/Spark/Storm/Flink等多种计算框架的可编程API、全文搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据分析、综合查询等业务应用的需要。提供接口文档、二次开发指导手册与二次开发示例程序,满足开发人员的使用需求。

安全的数据管控中心

H3C DataEngine基于安全协议Kerberos实现安全认证,使用LDAP作为账户管理系统;同时利用Range提供统一的用户和角色的管理体系,遵从RBAC(Role-Based Access Control)模型规范,通过角色绑定用户进行权限管理。此外DataEngine还支持用户对各组件的审计日志及检索能力,全组件管理界面均支持单点登录,使得平台真正做到安全可靠。

智能数据分析挖掘

支持R语言,集成机器学习算法库Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。

多形态部署模式

数据平台支持独立模式和共享模式两种资源划分模式,满足不同场景下业务需求。共享模式下可以创建一个大集群,不同用户申请集群的共享存储和计算资源,并通过权限进行隔离,适合对资源管控严格且各二级部门数据交换频繁的企业使用。独立模式下不同用户可申请创建单独的集群,独享集群的所有资源,不同集群之前使用网络进行隔离,适用于资源比较充分且各二级部门之间业务相对独立的企业。

此外为满足企业稳定性要求,DataEngine还提供了常用服务的独立产品模式,包括NoSQL数据库HBase、内存数据库Redis、消息中间件Kafka、搜索服务Solr和Elasticsearch,避免不同组件之间资源抢占影响集群稳定性。

完善的信创解决方案

1.异构混合部署应用价值:

支持完整的信创解决方案,从服务器硬件、国产操作系统到上层合作伙伴,完全国产化交付

支持多种混合部署方案,不同CPU架构(x86、arm),不同硬件规格(cpu核数不同、内存大小不同,硬盘容量不同),不同操作系统之间混合部署

2.异构混合部署优化特性:

全组件的arm版本支持,基于ARM指令操作集,更改组件的底层依赖,增加ARM内存操作指令,使其能够在ARM服务器上运行

根据ARM架构特性,调整组件的默认配置参数,使其拥有更好的读写性能

保持与ISV对接的固定版本,完全适配ISV业务,无需现场适配,直接交付


可视化安装运维管理

大数据平台提供一体化的安装运维管理界面,通过Web界面化的方式实现一站式安装部署、监控告警、参数配置、服务管理、日志审计、用户管理、多集群管理等功能,避免用户在多个管理界面间切换;对集群的各项服务做集中式管理,提供启动服务、停止服务、修改属性和设定运行参数等功能,实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控,保障集群稳定运行。

集群数据迁移和备份恢复

H3C DataEngine大数据平台支持旧版本历史集群或第三方大数据平台集群中HDFS、Hive、HBase、Elasticsearch等组件业务数据以全量/增量方式迁移到H3C DataEngine大数据平台集群中。

迁移场景

源平台类型

目的平台

迁移方式

HDP -> HDP

华为

新华三

全量/增量

开源CDH

新华三

全量/增量

星环

新华三

全量/增量

浪潮

新华三

全量/增量

阿里

新华三

全量/增量

新华三

新华三

全量/增量

HDP迁移方案:确定业务使用组件及版本以及需要迁移的数据,制定对应的迁移方案和迁移步骤。开启安全的集群需要首先配置互信,HDFS/Hive使用distcp命令迁移,增量采用update参数、HBase使用快照方式迁移,增量采用update参数、ES使用快照方式迁移,增量采用update参数。数据迁移后要进行数据验证:生成源端和目的端文件的列表,交叉检查,以确认迁移是否成功。

使用场景:

* 备份:

在集群内,将其全部或者部分数据集合从应用主机的硬盘或阵列,复制到集群内其它存储介质的过程。

* 容灾:

在相隔较远的异地,建立两套以上相同的系统,互相之间可以进行监视健康状态和功能切换。当一处统因意外停止工作时,整个应用系统切换到另一处,确保该系统能够正常运转。

主集群遭遇灾难性断电异常时,重点业务切换至备集群继续运转。

H3C DataEngine大数据平台备份恢复提供了大数据平台跨集群之间的数据同步功能,可视化的同步任务管理,操作简单、易用,支持对HDFS、HBase、Kafka、Hive异地双集群容灾与备份,保障数据不丢失。

HDS、Hive采用distcp方式周期性备份数据,支持增量和全量备份,其中HDFS增量数据通过创建HDFS快照对比上一个HDFS快照找出、Hive元数据进行周期导出导入实现对HDFS、Hive组件数据的同步。

HBase数据同步采用HLog机制准实时同步数据。

Kafka数据通过MirrorMaker工具实现数据的实施同步。

多样化分布式计算框架

DataEngine提供MapReduce、Spark和Flink三种分布式处理框架,分别满足稳定、高效、快速迭代三类应用场景,同时支持Hive、SparkSQL等SQL on Hadoop工具,简化计算任务编写过程,快速进行数据开发工作。

Hive默认执行引擎采用Tez计算框架,将多个具有依赖的作业转换为DAG作业,避免复杂任务多次读写HDFS过程,大幅提升作业运行性能,复杂计算场景下相比MapReduce作业能够提升10倍以上性能。

提供Spark内存计算框架,通过RDD之间的血缘关系管理算子之间依赖关系,确保数据能够快速恢复并重新计算,中间结果数据支持灵活选择内存、SSD等缓存模式,在迭代式计算场景提供更高性能的算力,计算性能可达MapReduce的10-100倍。

采用Flink计算框架统一流批处理,一个计算引擎可同时满足流计算业务和批处理业务,支持自实现状态管理和Exactly-Once语义,具有容错机制,保证数据零丢失,具有极佳的吞吐量及亚秒级延迟性能。同时支持完善Flink SQL语法,快速实现双流join、流批join等业务场景,降低流式作业开发难度 。

大数据组件全面升级

基于Hadoop 3.0版本,与开源社区的版本、接口保持一致,不采用私有架构。提供分布式文件存储、海量数据处理、实时数据分析、交互式查询、数据检索、安全认证与权限管理等功能。软件服务组成及功能描述如下:

组件

版本号

描述

Hadoop

3.2.3

针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN

ZooKeeper

3.6.3

分布式应用程序协调服务,为集群提供一致性服务

Hive

3.1.3

建立在Hadoop上的数据仓库框架,提供HQL语言进行数据离线分析处理

Spark

3.3.2

基于内存的分布式计算框架,提供批量处理、流式计算、SQL以及机器学习的能力

Impala

4.2.0

基于Hadoop的MPP计算框架,具备交互式查询分析能力

Sqoop

1.4.7

用于Hadoop与传统关系型数据库间数据迁移的工具

HBase

2.4.13

基于Hadoop的分布式NoSQL数据库,具备高并发、低延迟的实时查询能力

HBase_Indexer

1.5

HBase异步索引组件,利用Solr为HBase提供二级索引能力

Oozie

5.1.0

用于Hadoop平台的开源的工作流调度引擎

Redis

7.0.5

基于内存的分布式缓存数据库,满足高性能读写的业务需求

Presto

1.8.0

一款高性能数据虚拟化引擎,提供统一SQL接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景

DLH

1.0-3.1.3

基于Hive的数据湖仓库服务,融合批处理、交互式及流处理,具备数据协同分析能力

Storm

1.2.1

一种分布式流式数据处理系统,支持毫秒级级别的实时数据处理,具有良好的稳定性和吞吐量

Kafka

2.7.2

高吞吐量的分布式消息队列系统,具有出色的性能和可靠性

Flink

1.17.1

一种统一流处理和批处理的分布式计算引擎,支持亚秒级的流式处理延迟,提供批流统一的SQL功能,具有极佳的稳定性

Flume

1.9.0

一种分布式、高可靠、高可用的系统,用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区

Elasticsearch

7.10.0

基于Lucene的分布式搜索和分析引擎,提供大数据集的实时搜索、分析和探索的能力

Solr

7.4.0

基于Lucene的高性能全文搜索引擎, 具备强大的搜索和近实时的索引能力

ClickHouse

22.8.8.3

一款在线分析处理查询(OLAP)的高性能列式数据库管理系统

湖仓一体引擎DLH

DLH(数据湖仓库)结合数据湖和数据仓库的优势,在数据湖存储上实现了与数据仓库类似的数据结构和数据管理功能,提供“湖仓一体化”的能力。

DLH以HDFS和ONEStor作为数据湖的集中存储库,能够存储结构化、半结构化和非结构化的数据。借助数据集成服务能够将外部系统中数据接入到数据湖内,建立统一管理的数据目录、元数据信息及血缘关系展示等。同时,通过统一SQL接口能够对湖内数据进行离线查询、交互式分析、跨源分析、实时流计算以及机器学习算法训练等。

DLH架构图所示,说明如下:

* DLH基于Hive提供统一SQL入口,不同场景下SQL语句底层执行引擎可自动进行切换,所有计算任务统一由YARN进行资源调度。

* 存储端支持多种存储格式和数据增量插入、增量查询等能力,并提供简单便捷的数据入湖工具。

* 通过统一的元数据管理界面,能够可视化管理库表结构信息及表数据量或外部数据源大小,并提供血缘关系展示等功能。

* 依赖大数据平台的认证/权限管理、加密管理、审计管理等模板保证DLH组件安全可靠。

存算分离

为应对云原生大数据发展趋势,解决传统存储和计算一体化的大数据集群存在资源利用率低、资源扩容不灵活等问题,DataEngine 大数据平台支持存算分离架构,扩展原生Hadoop能力,支持对接我司ONEStor存储及第三方对象存储,存储和计算资源灵活配置,根据业务需要各自独立进行弹性扩展,使得大数据集群资源利用率大幅提升。

DataEngine 大数据平台存算分离完全兼容HDFS读写接口以及原生权限管理模型,上层业务无感知,同时充分利用对象存储的高带宽、高并发特点,对数据访问效率和并行计算进行深度优化,相比原生HDFS,存算分离写性能提升20%左右,读性能相当。

多模数据库

多模数据库服务 支持图、时序、时空、宽表等计算引擎,提供灵活、高效的多种数据计算模式,满足物联网、工业互联网、日志、监控、交通、时空分析等多种业务场景。

图数据库

面向海量具有关联关系点和边的图形结构数据,提供强大的查询和分析遍历能力,应用于社交分析、反欺诈、风控、智能推荐等场景。

时序数据库

面向IoT、监控等场景存储和处理量测数据、设备运行数据等时序数据,支持海量数据的多维查询和聚合计算,支持降采样和预聚合

时空数据库

面向海量空间/时空数据的存储和处理,具备高效的时空多维索引和时空分析能力,适用于交通、人物轨迹、物流等时空场景。

实时数仓ClickHouse

ClickHouse(全称Click Stream,Data WareHouse),是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),其基于列存储,具有极致的查询性能。

ClickHouse的特点及优势如下:

* 拥有完备的DBMS功能

* 适合在线实时查询

* 支持向量化执行引擎

* 真正的列式存储

* 支持多核心并行处理及多服务器分布式处理

* 支持实时数据写入及批量数据更新

* 具备完善的SQL支持和函数


属性

最低配置

推荐配置

CPU

2路× 10核,2.0Ghz

2路× 12核,2.2Ghz及以上

内存

128GB DDR3

256GB及以上DDR4 DIMM插槽

系统盘

10krpm 600G SAS盘,2块RAID1

10krpm 600G SAS盘及以上,2块RAID1

数据盘

7.2krpm SATA盘,单盘容量不超过4T

10krpm SAS盘及以上,单盘容量不超过2T

网卡

千兆网卡

万兆网卡聚合

操作系统

CentOS 7.3(64位)

CentOS 7.3(64位)

选配信息

项目

描述

H3C DataEngine EMapReduce服务License-1节点

必配,3节点起配,建议6节点部署

H3C DataEngine 数据工厂服务功能License

选配,与EmapReduce融合部署

H3C DataEngine 容灾备份功能License

选配,根据备份需求

H3C DataEngine 多模数据库功能License

选配,3节点起配

H3C DataEngine 湖仓一体功能License

选配,与EmapReduce融合部署

大数据平台部署服务

必配

获取更多资源与支持

需要技术帮助?

如果您需要更多更准确的技术帮助

去往技术论坛 >

新华三官网
联系我们