H3C大数据术语表-5W100

01-A~G

A

1. ACID

ACID是一组确保数据库事务可靠处理的属性，代表原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）。原子性保证事务要么全部完成，要么完全不执行；一致性确保事务完成后数据库从一个有效状态转变到另一个有效状态；隔离性确保并发事务之间不会互相影响，表现为事务的操作彼此独立执行；持久性保证事务一旦提交，即使系统故障数据也不会丢失。这些属性共同确保数据库系统的可靠性和数据完整性，尤其在金融等关键应用中尤为重要。

2. Alluxio

Alluxio是一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁，同时提高应用程序对数据的访问速度。Alluxio通过在内存中构建数据的缓存层，减少了应用程序与底层存储系统（如HDFS、S3、Azure Blob Store等）之间的延迟和I/O开销，在大数据和机器学习场景中显得尤为重要。

3. 安全加固

安全加固是对系统、网络或应用程序实施一系列安全措施的过程，旨在增强其防御能力，减少安全漏洞和风险。这包括更新和打补丁程序、配置管理、访问控制和加密措施等。通过对设备和软件环境的深入审查和持续改进，安全加固能够有效防止未授权访问和数据泄露，提升整体安全性。

4. API（Application Programming Interface，应用程序编程接口）

API是一套预定义的规则和协议，用于不同软件程序之间的交互。它允许软件应用相互“对话”，共享数据和功能，而无需了解对方的内部工作机制。API定义了请求的格式、数据类型、可用操作和通信协议，从而简化了开发过程，加快了软件开发速度，并促进了技术生态系统的互操作性和扩展性。

5. Application

一个软件应用程序或系统，用于处理大数据、进行数据分析和实现特定业务逻辑。这些应用程序可以基于大数据处理框架（如Apache Hadoop、Spark等）开发，用于从海量数据中提取有用信息、进行复杂计算和生成报告。

6. ApplicationMaster

YARN中每个应用程序（Application）生命周期内的专用管理服务，负责管理应用程序的资源请求、向ResourceManager请求资源、在各个节点上协调和调度任务，以及处理任务的失败和重试。

B

1. 半结构化数据

半结构化数据是介于结构化数据与非结构化数据之间的一种数据形式。这类数据通常不符合传统的关系型数据库表格结构，但又具备比非结构化数据更丰富的描述性信息。它们具有自己特定的标签格式，既可以根据需要按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。由于能够处理多种数据结构和类型，半结构化数据在大数据分析、文档存储和内容管理等领域具有重要应用价值，为数据管理和分析提供了更大的灵活性和适应性。

2. 备份恢复

大数据集群的备份恢复功能是指对集群数据和配置进行定期备份，并在数据丢失或系统故障时能够迅速恢复的能力。备份恢复功能可确保数据的持续性和业务的稳定运行，通过复制数据至安全的存储位置，实现灾难恢复和数据恢复。备份恢复功能对于维护大数据应用的高可用性和数据完整性至关重要。

3. 本地授权

本地授权是指在设备上直接进行的软件授权和许可操作。

4. 边（Edge）

JanusGraph中的边用于表示顶点之间的关系或连接，它描述了顶点之间的关联关系。

5. Broker

Kafka中的Broker是集群中的一个服务器节点，每个节点就是一个独立的Broker。Broker接收来自Producer的消息，并将它们存储在分区中，同时也处理来自Consumer的读取请求。

C

1. CAS（Central Authentication Service，中央认证服务）

CAS是一种单点登录（Single Sign-On, SSO）协议，最早由耶鲁大学开发。它提供了一种安全、可靠的机制，使用户在多个应用系统之间无缝切换，而不需要在每个系统中重新进行认证。CAS 通过集中管理用户身份验证，增强了安全性，简化了用户体验，并提高了系统之间的兼容性和管理效率。

2. CBO（Cost-Based Optimization）

基于代价的优化器，是优化查询计划的一种方法，CBO通过评估不同查询计划的执行成本（如CPU、I/O等资源消耗）来选择最优的执行计划。作为现代数据库系统中广泛应用的优化技术，CBO依赖于对数据的统计信息进行分析，以便更准确地估算执行成本。其灵活性和高效性使其能够根据数据特征和查询模式的变化动态调整优化策略，从而提升查询性能，尤其在复杂查询和大规模数据处理中表现突出。

3. CDC（Change Data Capture，变更数据捕获）

CDC是一种技术，用于实时或接近实时地识别和捕获源数据系统中的数据变更（如插入、更新和删除操作），然后将这些变更传输到目标系统或数据仓库中。

4. ClickHouse

ClickHouse是一款开源的列式存储的数据库管理系统，专为处理和分析大规模数据集而设计。它以非常高的性能、实时数据处理能力和对SQL的支持著称。ClickHouse的重要性在于其极快的查询速度和较低的资源消耗，使其非常适合于在线分析处理（OLAP）任务，如用户行为分析、实时报告和数据可视化等应用场景。其简洁的语法支持复杂的数据聚合和过滤，使得它在进行大数据分析时非常高效，能够处理PB级别的数据。

5. Client实例

在大数据集群中，用于对读写请求进行负载均衡的实例。Client实例既不参与主节点选举，也不存储数据，仅负责转发读写请求。

6. Connector

Presto中的Connector是连接器，Presto通过多种多样的Connector来访问多种不同的数据源，可以将Connector当做Presto 访问各种不同数据源的驱动程序。

7. Coordinator

Presto中的Coordinator是协调节点，用于接收REST请求，解析SQL语句，然后生成查询执行计划，分发执行任务给Worker节点执行，并管理worker节点的状态。

D

1. DAG（Directed Acyclic Graph，有向无环图）

DAG用于描述数据处理流程。在Tez中，一个DAG由多个顶点和边构成，每个顶点代表一个具体的计算任务，边则表示数据在任务之间的流动。Tez允许用户创建任意复杂的DAG，以表示复杂的工作流和数据管道。

2. DataNode

HDFS的工作节点，存储实际的数据块（Block）。HDFS中的Block是分割文件的最小存储单元，默认大小为128MB，并且每个Block在HDFS系统内都会有多个副本（默认情况下是3个副本），这些副本会被存储在不同的DataNode上，以确保数据的可靠性和容错性。

3. 大数据集群

通过DataEngine大数据平台部署/管理的大数据集群，是由多个主机节点组成的集合，支持部署分布式文件系统、NoSQL数据库、离线计算、流式计算、内存计算等服务，旨在存储、处理和分析大规模数据集。这些主机通过高速网络相连，共同工作以高效执行大数据任务，从而提供可扩展、高可用的数据存储和计算能力。

4. Data实例（核心实例）

在大数据集群中，用来存储数据和处理数据的实例，主要部署各组件的数据进程等，如HDFS的DataNode，YARN的NodeManager等。

5. DBaaS

DBaaS（Database as a Service，数据库即服务）是云计算服务模型之一，用于将数据库作为服务提供给用户使用。DBaaS为用户提供了在云平台上部署、管理和维护数据库所需的一切资源，包括硬件、软件以及数据库管理功能。通过DBaaS，用户可以使用云服务商提供的接口或工具，方便地获取弹性的数据库资源，按需进行扩展或缩减，且仅需为实际使用的资源付费，而无需关心数据库服务器的配置和维护工作。

6. 地理空间分析

地理空间分析是对地理空间数据进行处理和分析的过程，旨在理解和解释空间上的关系和模式。它利用地理信息系统（GIS）、遥感和其他技术来分析数据，如地形、气候、人口密度、交通网络和土地使用。通过这些技术，地理空间分析能够揭示地理现象的空间分布和动态变化，支持城市规划、环境保护、资源管理、灾害响应和市场定位等领域的决策。

7. 调度器

调度器用于接收服务端下发的作业，并将作业中的环节调度到具体的执行器中运行。每个作业设计完成之后，都通过调度器采用特定的负载均衡算法将作业中的任务均匀地发送给各个执行器。同时，调度器提供故障切换服务，当调度器发生故障时，该调度器上调度的任务会自动分配到其他运行正常的调度器上进行调度，保证业务运行正常。

8. 顶点（Vertex）

JanusGraph中的顶点用于表示图中的实体，可以是任何事物或概念的实例，比如一个人、地点、事件等。

9. 定时作业

定时作业是指在预定的时间执行的任务或者操作。在技术领域中，定时作业通常指的是定时任务，是一种自动执行的计划任务。通过设定执行的时间、频率和相关参数，定时作业能够在无需人工干预的情况下按照预定的计划执行相应的操作，可以用于定时备份、数据清理、系统维护等场景。

10. DLH

DLH是一种基于Hive的数据湖仓库服务，旨在结合传统数据仓库的优点和数据湖的灵活性。它通过融合批处理、交互式查询及流处理能力，支持多种工作负载，具备优秀的数据协同分析能力。DLH的重要性在于其统一平台可以处理结构化和非结构化数据，允许企业更有效地利用大数据集进行深入分析和机器学习，广泛适用于各类大数据分析、数据科学研究和实时数据处理等场景。

11. Docker

Docker是一个用于开发、交付和运行应用程序的开源平台。Docker采用轻量级的容器化技术，能够将应用程序及其所有依赖资源（如代码、运行时、系统工具、系统库等）打包成相应的容器，并运行在单个Linux操作系统的实例上，使得应用程序能够在不同的环境中以相似的方式运行，无需关心底层的操作系统差异。Docker使得应用程序的开发人员、系统管理员和运维人员能够无缝协作，为应用程序的开发、交付和运维带来了更高的效率和便利性。

12. 独立模式

独立模式允许用户创建多个独立集群，每个租户在独立的集群中运行，独享集群内的所有资源，且网络和资源相互隔离，确保了高安全性和资源的专用性。

13. 对象存储

将数据作为单独的对象进行存储，是一种分布式存储架构。每个对象包含数据本身、可扩展的元数据以及一个全局唯一的标识符，使得数据可以在全球范围内被存储和检索。对象存储提供了高度的可扩展性、耐用性和可用性，适合云存储、大数据存储和内容分发等场景。

E

1. Elasticsearch

Elasticsearch是一个开源的分布式搜索和分析引擎，基于Apache Lucene构建，专为处理大规模数据的全文搜索、日志分析和实时数据流而设计。它提供了强大的搜索功能，包括全文搜索、结构化搜索和分析功能，支持多种数据类型和复杂查询。Elasticsearch具有水平可扩展性，能够通过分片和副本机制在集群中分布数据，保证高可用性和故障恢复。它使用RESTful API进行数据交互，易于集成到各种应用中。Elasticsearch的广泛应用场景包括网站搜索、日志和事件数据分析、实时监控和商业智能等，适合需要快速和高效数据检索的行业。

2. Elasticsearch索引

在Elasticsearch中，索引是一个用来存储、组织和管理数据的结构。它类似于关系型数据库中的数据库概念，但专门用于全文搜索和分析。一个索引由多个文档（类似于表中的行）组成，每个文档包含多个字段（类似于列）。索引通过分片（shard）机制分布在集群中的不同节点上，实现水平扩展和高可用性。每个索引可以有多个副本（replica），以增强数据的冗余和故障恢复能力。索引的使用使得Elasticsearch能够快速地查找和检索数据，适合处理大规模数据集的实时搜索、分析和可视化需求。

3. ETL（Extract、Transform、Load，提取、转换、加载）

ETL是一种数据仓库技术，主要用于将数据从多个异构数据源提取出来，经过必要的清洗和转换处理，最终加载到目标数据仓库中。

F

1. 防火墙

防火墙是一种网络安全设备或软件，用于监控和控制进出网络的流量，根据预先设定的安全规则决定是否允许或阻止数据包的通过。其核心功能是保护内部网络免受外部威胁，阻止未经授权的访问，形成企业网络与互联网之间的安全屏障。通过过滤流量、拦截恶意攻击和记录网络活动，防火墙显著提高了网络的安全性和稳定性。作为抵御网络威胁的第一道防线，防火墙在企业、机构以及个人用户的网络环境中扮演着至关重要的角色。

2. 非结构化数据

非结构化数据是指不遵循特定格式或模型的数据，难以用传统数据库的二维表来表示。这类数据包括各种格式的办公文档、文本文件、图像、XML页面、HTML页面、各类报表，以及音频和视频内容等。由于其不规则和多样性，存储和处理非结构化数据通常需要特殊的技术和工具来解析和管理。尽管非结构化数据在存储、搜索和分析方面面临挑战，但它的多样性和复杂性也使其成为大数据分析、自然语言处理和多媒体信息管理等领域的核心要素。

3. 分布式流处理

流处理是一种关键的大数据处理技术，用于实时处理和分析来自多个数据源的连续数据流。通过在多个节点上分布式地处理数据，分布式流处理系统能够快速响应动态数据变化。它提供了低延迟和高吞吐量能力，使企业能在数据生成时即时获取洞察和作出决策，广泛应用于物联网、金融市场分析、实时监控、社交媒体分析及网络安全监控等领域，常见的实现框架包括Apache Kafka、Apache Flink和Apache Storm。

4. 分布式数据库

分布式数据库是一种将数据分布存储在多个物理位置的数据库系统。这些位置可以是同一网络内的不同服务器，也可以是地理上分散的不同数据中心。分布式数据库通过网络协调这些分布式数据，以便实现数据的统一管理和访问。其主要优点包括提高数据的可用性、可扩展性和容错能力。分布式数据库通常使用分片（Sharding）、复制（Replication）等技术来确保数据的一致性和可靠性，适用于需要高可用性和快速响应的大型应用程序和企业级解决方案。

5. 分片（Shard）

分片是一种数据库设计技术，用于将大型数据库分成更小、更易于管理的部分，以提高性能和可扩展性。每个分片是数据库的一个独立部分，包含数据的一个子集，通常基于某种特定的规则（如地理位置、用户ID等）进行划分。通过分片，数据库可以分布在多个服务器或节点上，减少单个节点的负载，提高整体系统的吞吐量和响应速度。分片适用于需要处理大规模数据的应用，如电子商务平台和社交媒体网站。

6. 分区（Partition）

Kafka通过将消息主题（Topic）分割成多个分区来实现分布式存储和处理消息的能力。每个分区都负责存储部分消息数据，并分布在Kafka集群中的不同Broker上。

7. Flink

Flink是一个开源的流处理框架，专为分布式数据流和批处理应用而设计。Flink提供了一个统一的流处理和批处理模型，支持事件时间语义和状态管理，能够处理无界和有界数据流。Flink的核心特性包括低延迟、高吞吐量和精确一次（exactly-once）状态一致性保证，适合复杂的事件驱动应用和实时分析任务。其强大的API支持Java、Scala和Python等编程语言，广泛应用于金融、物联网、互联网等领域的大规模实时数据处理场景。

8. Flume

Flume是一个分布式、高可靠、高可用的系统，用于有效地从多种数据源收集、聚合、移动日志数据到统一存储区，被广泛用于将日志数据等大量流数据从各种源传输到集中化的数据存储中，如HDFS、Kafka等。

9. 副本（Replica）

在大数据领域中，副本通常指的是数据的备份，为了提高数据的可靠性和容错能力，通常会将数据复制多个副本存储在不同的节点上。这样即使其中一个节点发生故障，系统仍然可以继续访问副本数据，确保数据的可用性和一致性。

10. 服务编排

服务编排（Service Orchestration）是一种管理和调度多个服务和应用程序的过程，以确保它们以协调和高效的方式工作。在绿洲平台中，服务编排将数据、应用、AI模型、设备等各类技术和资源进行整合打包成“积木”，根据不同业务场景进行部分或全部联动并对外开放接口。

11. 服务集成

服务集成支持将已有后端服务、数据源和自定义函数封装成标准的RESTful API并对外开放，并且支持文件资源的开放。通过RESTful API，不同的服务和应用程序可以以标准化的方式进行通信和数据交换。

12. 负载均衡

负载均衡是一种优化技术，用于分配网络或应用程序流量到多个服务器或资源上，以提高吞吐量、减少响应时间并确保系统的可用性和可靠性。通过分散工作负载，负载均衡器能够防止某一服务器过载，进而提高整体系统性能和用户体验。它支持多种策略，如轮询、最少连接和基于响应时间的分配。负载均衡通常用于高可用性架构中，确保即使某些服务器出现故障，系统仍能正常运行。

G

1. 高可用（High Availability，HA）

在大数据集群中，高可用是指通过冗余配置和故障转移机制确保系统的持续运行和服务的不间断。高可用性设计旨在减少单点故障，提供快速恢复路径，从而最小化系统停机时间。这通常通过部署多个副本、进行数据复制和实施自动故障转移来实现。这样，即使在部分组件发生故障的情况下，大数据集群也能继续提供服务，保证业务连续性和数据完整性。

热门推荐

热门推荐

H3C服务器

HPE服务器

热门推荐

H3C存储

HPE存储

热门推荐

商用台式机

商用笔记本

商用显示器

配件

热门推荐

热门推荐

智能终端

技术解决方案

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

专业安全服务

安全运营服务

热门推荐

热门推荐

热门推荐

热门推荐

热门推荐

技术支持

自助服务

热门推荐

热门推荐

热门推荐

热门推荐

合作伙伴培训与认证

热门推荐

热门推荐

公司刊物

加入我们

国家/地区

H3C大数据术语表-5W100

目录

01-A~G

4. API（Application Programming Interface，应用程序编程接口）

4. 边（Edge）

1. CAS（Central Authentication Service，中央认证服务）

2. CBO（Cost-Based Optimization）

3. CDC（Change Data Capture，变更数据捕获）

5. Client实例

1. DAG（Directed Acyclic Graph，有向无环图）

4. Data实例（核心实例）

8. 顶点（Vertex）

2. Elasticsearch索引

3. ETL（Extract、Transform、Load，提取、转换、加载）

5. 分片（Shard）

6. 分区（Partition）

9. 副本（Replica）

1. 高可用（High Availability，HA）

联系我们