大数据平台架构如图-1所示,说明如下:
系统管理:系统管理提供数据平台运行的支撑能力,包括统一用户管理、流程管理、操作日志、软件授权、系统升级等。大数据平台支持部署在物理机或虚拟机上,用户可以根据实际业务场景需求灵活选择。
大数据集群:提供丰富的大数据组件即服务,包括但不限于分布式文件系统、NoSQL数据库服务、内存数据库服务、离线计算、流式计算、内存计算、SQL on Hadoop等服务,同时还提供自研统一SQL服务,可兼容标准SQL,对外提供统一的数据查询/分析服务,提升平台的整体易用性。
管理中心:提供可视化安装部署、监控告警、主机扩容、大数据组件、日志统一等管理能力,大幅提升大数据平台运维效率。
安全中心:提供基于Kerberos安全认证体系以及基于角色的用户权限管理体系。对用户身份进行认证,拒绝非法用户访问,恶意用户“进不来”;对用户操作行为进行不同维度的审计,非法用户“逃不掉”;通过角色绑定用户授予访问不同组件数据的权限,数据“拿不走”;将密钥的权限与用户绑定,对数据进行透明加密,数据“看不懂”。
数据集成:将异构数据源集成过程封装为数据服务单元的形式对外提供服务,形成四通八达的数据传输服务,让数据不再成为孤岛。支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据,并将处理结果快速存入到大数据平台中,使得用户不用再关注底层数据的传输过程,专注于上层平台应用的开发,轻松易用。
数据工厂:提供一站式可视化的数据开发环境,全托管的数据处理流程调度,实现一整套完整的数据集成、数据表及文件管理、数据处理脚本程序开发、拖拽式工作流及调度、作业状态监控运维等全生命周期数据开发服务。