系统管理:大数据平台系统管理提供数据平台运行的服务支撑能力,包括控制台管理框架、统一用户管理、流程管理、操作日志以及License服务、系统升级等。
大数据组件服务:提供丰富的大数据组件即服务,包括但不限于分布式文件系统、NoSQL数据库服务、内存数据库服务、离线计算、流式计算、内存计算、SQL on Hadoop等服务,同时还提供自研统一SQL服务,可兼容标准SQL,对外提供统一的数据查询/分析服务,提升平台的整体易用性。
管理中心:提供可视化安装部署、监控告警、主机扩容、大数据组件、日志统一等管理能力,大幅提升大数据平台运维效率。
安全中心:提供基于Kerberos安全认证体系以及基于角色的用户权限管理体系:对用户进行合法认证,拒绝非法用户访问,恶意用户“进不来”;对用户、组件、读写等操作进行不同维度的审计,非法用户“逃不掉”;通过角色绑定大数据集群各组件操作权限,数据“拿不走”;将密钥的权限与用户绑定,对数据进行加/解密,数据“看不懂”。
数据工厂:提供一站式可视化的数据开发环境,全托管的数据处理流程调度,实现一整套完整的数据集成、数据表及文件管理、数据处理脚本程序开发、拖拽式工作流及调度、作业状态监控运维等全生命周期数据开发服务。
H3C DataEngine提供可视化的集群安装部署界面,方便快捷的进行资源管理,主机分配等操作,支持组件服务一键安装、升级和图形化运维,实时监测各项服务的健康状态以及运行指标,超过一定配置阈值后进行告警并邮件通知管理员,大幅提升运维效率。
传统Hadoop数仓通常以Hive为基础进行建设底层作业执行通过MapReduce或Spark框架运行,性能往往在分钟级别,无法支持秒级交互式查询,并难以对数据湖内多种数据源进行统一访问。
DataEngine 大数据平台自研DataLake House(DLH)服务,提供统一SQL 访问入口,在不改变原生Hive使用方式和语法前提下,业务无需变动,底层融合交互式及批处理引擎,根据SQL语句复杂度及计算数据量,自动选择最优执行引擎,在TB级别数据量下计算性能提升10倍以上。
DLH支持访问Hadoop、关系数据库、MPP数据库、对象存储等多种数据源,形成统一数据湖存储,通过SQL方式完成数据湖与已有数据仓库的协同处理,打破数据孤岛,避免数据搬迁。
数据工厂中支持可视化的工作流任务编排,并提供强大的工作流调度引擎。用户可以调试运行工作流,也可以周期运行工作流。在周期调度设置中,支持多维度的调度方式,即可以按照年、月、周、日、小时、分钟的方式进行工作流执行周期的设置。同时支持工作流的优先级与并发数设置,用户可以针对不同工作流设置不同的优先级,或者针对工作流实际运行需求来设置并发数。
提供统一SQL服务和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。数据服务接口主要包括SQL接口、MapReduce/Spark/Storm/Flink等多种计算框架的可编程API、全文搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据分析、综合查询等业务应用的需要。提供接口文档、二次开发指导手册与二次开发示例程序,满足开发人员的使用需求。
H3C DataEngine基于安全协议Kerberos实现安全认证,使用LDAP作为账户管理系统;同时利用Range提供统一的用户和角色的管理体系,遵从RBAC(Role-Based Access Control)模型规范,通过角色绑定用户进行权限管理。此外DataEngine还支持用户对各组件的审计日志及检索能力,全组件管理界面均支持单点登录,使得平台真正做到安全可靠。
支持R语言,集成机器学习算法库Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。
数据平台支持独立模式和共享模式两种资源划分模式,满足不同场景下业务需求。共享模式下可以创建一个大集群,不同用户申请集群的共享存储和计算资源,并通过权限进行隔离,适合对资源管控严格且各二级部门数据交换频繁的企业使用。独立模式下不同用户可申请创建单独的集群,独享集群的所有资源,不同集群之前使用网络进行隔离,适用于资源比较充分且各二级部门之间业务相对独立的企业。
此外为满足企业稳定性要求,DataEngine还提供了常用服务的独立产品模式,包括NoSQL数据库HBase、内存数据库Redis、消息中间件Kafka、搜索服务Solr和Elasticsearch,避免不同组件之间资源抢占影响集群稳定性。
1.异构混合部署应用价值:
支持完整的国产化解决方案,从服务器硬件、国产操作系统到上层合作伙伴,完全国产化交付
支持多种混合部署方案,不同CPU架构(x86、arm),不同硬件规格(cpu核数不同、内存大小不同,硬盘容量不同),不同操作系统之间混合部署
2.异构混合部署优化特性:
全组件的arm版本支持,基于ARM指令操作集,更改组件的底层依赖,增加ARM内存操作指令,使其能够在ARM服务器上运行
根据ARM架构特性,调整组件的默认配置参数,使其拥有更好的读写性能
保持与ISV对接的固定版本,完全适配ISV业务,无需现场适配,直接交付
大数据平台提供一体化的安装运维管理界面,通过Web界面化的方式实现一站式安装部署、监控告警、参数配置、服务管理、日志审计、用户管理、多集群管理等功能,避免用户在多个管理界面间切换;对集群的各项服务做集中式管理,提供启动服务、停止服务、修改属性和设定运行参数等功能,实现集群各项服务运行状态(基本信息、告警、运行健康状态)实时监控,保障集群稳定运行。
H3C DataEngine大数据平台支持旧版本历史集群或第三方大数据平台集群中HDFS、Hive、HBase、Elasticsearch等组件业务数据以全量/增量方式迁移到H3C DataEngine大数据平台集群中。
迁移场景 | 源平台类型 | 目的平台 | 迁移方式 |
HDP -> HDP | 华为 | 新华三 | 全量/增量 |
开源CDH | 新华三 | 全量/增量 | |
星环 | 新华三 | 全量/增量 | |
浪潮 | 新华三 | 全量/增量 | |
阿里 | 新华三 | 全量/增量 | |
新华三 | 新华三 | 全量/增量 |
HDP迁移方案:确定业务使用组件及版本以及需要迁移的数据,制定对应的迁移方案和迁移步骤。开启安全的集群需要首先配置互信,HDFS/Hive使用distcp命令迁移,增量采用update参数、HBase使用快照方式迁移,增量采用update参数、ES使用快照方式迁移,增量采用update参数。数据迁移后要进行数据验证:生成源端和目的端文件的列表,交叉检查,以确认迁移是否成功。
使用场景:
备份:
在集群内,将其全部或者部分数据集合从应用主机的硬盘或阵列,复制到集群内其它存储介质的过程。
容灾:
在相隔较远的异地,建立两套以上相同的系统,互相之间可以进行监视健康状态和功能切换。当一处统因意外停止工作时,整个应用系统切换到另一处,确保该系统能够正常运转。
主集群遭遇灾难性断电异常时,重点业务切换至备集群继续运转。
H3C DataEngine大数据平台备份恢复提供了大数据平台跨集群之间的数据同步功能,可视化的同步任务管理,操作简单、易用,支持对HDFS、HBase、Kafka、Hive异地双集群容灾与备份,保障数据不丢失。
HDS、Hive采用distcp方式周期性备份数据,支持增量和全量备份,其中HDFS增量数据通过创建HDFS快照对比上一个HDFS快照找出、Hive元数据进行周期导出导入实现对HDFS、Hive组件数据的同步。
HBase数据同步采用HLog机制准实时同步数据。
Kafka数据通过MirrorMaker工具实现数据的实施同步。
DataEngine提供MapReduce、Spark和Flink三种分布式处理框架,分别满足稳定、高效、快速迭代三类应用场景,同时支持Hive、SparkSQL等SQL on Hadoop工具,简化计算任务编写过程,快速进行数据开发工作。
Hive默认执行引擎采用Tez计算框架,将多个具有依赖的作业转换为DAG作业,避免复杂任务多次读写HDFS过程,大幅提升作业运行性能,复杂计算场景下相比MapReduce作业能够提升10倍以上性能。
提供Spark内存计算框架,通过RDD之间的血缘关系管理算子之间依赖关系,确保数据能够快速恢复并重新计算,中间结果数据支持灵活选择内存、SSD等缓存模式,在迭代式计算场景提供更高性能的算力,计算性能可达MapReduce的10-100倍。
采用Flink计算框架统一流批处理,一个计算引擎可同时满足流计算业务和批处理业务,支持自实现状态管理和Exactly-Once语义,具有容错机制,保证数据零丢失,具有极佳的吞吐量及亚秒级延迟性能。同时支持完善Flink SQL语法,快速实现双流join、流批join等业务场景,降低流式作业开发难度 。
基于Hadoop 3.0版本,与开源社区的版本、接口保持一致,不采用私有架构。提供分布式文件存储、海量数据处理、实时数据分析、交互式查询、数据检索、安全认证与权限管理等功能。软件服务组成及功能描述如下:
组件 | 版本号 | 描述 |
Hadoop | 3.2.3 | 针对大数据集的分布式数据存储HDFS、离线计算MapReduce、统一资源调度框架YARN |
ZooKeeper | 3.6.3 | 分布式应用程序协调服务,为集群提供一致性服务 |
Hive | 3.1.3 | 建立在Hadoop上的数据仓库框架,提供HQL语言进行数据离线分析处理 |
Spark | 3.3.2 | 基于内存的分布式计算框架,提供批量处理、流式计算、SQL以及机器学习的能力 |
Impala | 4.2.0 | 基于Hadoop的MPP计算框架,具备交互式查询分析能力 |
Sqoop | 1.4.7 | 用于Hadoop与传统关系型数据库间数据迁移的工具 |
HBase | 2.4.13 | 基于Hadoop的分布式NoSQL数据库,具备高并发、低延迟的实时查询能力 |
HBase_Indexer | 1.5 | HBase异步索引组件,利用Solr为HBase提供二级索引能力 |
Oozie | 5.1.0 | 用于Hadoop平台的开源的工作流调度引擎 |
Redis | 7.0.5 | 基于内存的分布式缓存数据库,满足高性能读写的业务需求 |
Presto | 1.8.0 | 一款高性能数据虚拟化引擎,提供统一SQL接口,具备跨数据源/数据中心分析能力以及面向交互式、批、流等融合查询场景 |
DLH | 1.0-3.1.3 | 基于Hive的数据湖仓库服务,融合批处理、交互式及流处理,具备数据协同分析能力 |
Storm | 1.2.1 | 一种分布式流式数据处理系统,支持毫秒级级别的实时数据处理,具有良好的稳定性和吞吐量 |
Kafka | 2.7.2 | 高吞吐量的分布式消息队列系统,具有出色的性能和可靠性 |
Flink | 1.17.1 | 一种统一流处理和批处理的分布式计算引擎,支持亚秒级的流式处理延迟,提供批流统一的SQL功能,具有极佳的稳定性 |
Flume | 1.9.0 | 一种分布式、高可靠、高可用的系统,用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区 |
Elasticsearch | 7.10.0 | 基于Lucene的分布式搜索和分析引擎,提供大数据集的实时搜索、分析和探索的能力 |
Solr | 7.4.0 | 基于Lucene的高性能全文搜索引擎, 具备强大的搜索和近实时的索引能力 |
ClickHouse | 22.8.8.3 | 一款在线分析处理查询(OLAP)的高性能列式数据库管理系统 |
DLH(数据湖仓库)结合数据湖和数据仓库的优势,在数据湖存储上实现了与数据仓库类似的数据结构和数据管理功能,提供“湖仓一体化”的能力。
DLH以HDFS和ONEStor作为数据湖的集中存储库,能够存储结构化、半结构化和非结构化的数据。借助数据集成服务能够将外部系统中数据接入到数据湖内,建立统一管理的数据目录、元数据信息及血缘关系展示等。同时,通过统一SQL接口能够对湖内数据进行离线查询、交互式分析、跨源分析、实时流计算以及机器学习算法训练等。
DLH架构图所示,说明如下:
DLH基于Hive提供统一SQL入口,不同场景下SQL语句底层执行引擎可自动进行切换,所有计算任务统一由YARN进行资源调度。
存储端支持多种存储格式和数据增量插入、增量查询等能力,并提供简单便捷的数据入湖工具。
通过统一的元数据管理界面,能够可视化管理库表结构信息及表数据量或外部数据源大小,并提供血缘关系展示等功能。
依赖大数据平台的认证/权限管理、加密管理、审计管理等模板保证DLH组件安全可靠。
为应对云原生大数据发展趋势,解决传统存储和计算一体化的大数据集群存在资源利用率低、资源扩容不灵活等问题,DataEngine 大数据平台支持存算分离架构,扩展原生Hadoop能力,支持对接我司ONEStor存储及第三方对象存储,存储和计算资源灵活配置,根据业务需要各自独立进行弹性扩展,使得大数据集群资源利用率大幅提升。
DataEngine 大数据平台存算分离完全兼容HDFS读写接口以及原生权限管理模型,上层业务无感知,同时充分利用对象存储的高带宽、高并发特点,对数据访问效率和并行计算进行深度优化,相比原生HDFS,存算分离写性能提升20%左右,读性能相当。
多模数据库服务 支持图、时序、时空、宽表等计算引擎,提供灵活、高效的多种数据计算模式,满足物联网、工业互联网、日志、监控、交通、时空分析等多种业务场景。
图数据库
面向海量具有关联关系点和边的图形结构数据,提供强大的查询和分析遍历能力,应用于社交分析、反欺诈、风控、智能推荐等场景。
时序数据库
面向IoT、监控等场景存储和处理量测数据、设备运行数据等时序数据,支持海量数据的多维查询和聚合计算,支持降采样和预聚合
时空数据库
面向海量空间/时空数据的存储和处理,具备高效的时空多维索引和时空分析能力,适用于交通、人物轨迹、物流等时空场景。
实时数仓ClickHouse
ClickHouse(全称Click Stream,Data WareHouse),是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),其基于列存储,具有极致的查询性能。
ClickHouse的特点及优势如下:
拥有完备的DBMS功能
适合在线实时查询
支持向量化执行引擎
真正的列式存储
支持多核心并行处理及多服务器分布式处理
支持实时数据写入及批量数据更新
具备完善的SQL支持和函数
属性 | 最低配置 | 推荐配置 |
CPU | 2路× 10核,2.0Ghz | 2路× 12核,2.2Ghz及以上 |
内存 | 128GB DDR3 | 256GB及以上DDR4 DIMM插槽 |
系统盘 | 10krpm 600G SAS盘,2块RAID1 | 10krpm 600G SAS盘及以上,2块RAID1 |
数据盘 | 7.2krpm SATA盘,单盘容量不超过4T | 10krpm SAS盘及以上,单盘容量不超过2T |
网卡 | 千兆网卡 | 万兆网卡聚合 |
操作系统 | CentOS 7.3(64位) | CentOS 7.3(64位) |
描述 | |
H3C DataEngine EMapReduce服务License-1节点 | 必配,3节点起配,建议6节点部署 |
H3C DataEngine 数据工厂服务功能License | 选配,与EmapReduce融合部署 |
H3C DataEngine 容灾备份功能License | 选配,根据备份需求 |
H3C DataEngine 多模数据库功能License | 选配,3节点起配 |
H3C DataEngine 湖仓一体功能License | 选配,与EmapReduce融合部署 |
大数据平台部署服务 | 必配 |