管理集群节点

管理集群节点包括如下操作:

查看节点详情

可查看节点所在子网、所属标签、基础监控信息、节点上运行的Pod和事件信息。

  1. 单击[全部服务]图标,选择[容器服务/云容器引擎]菜单项,进入云容器引擎服务页面。

  2. 在左侧导航树中单击[集群]菜单项,进入集群管理页面。

  3. 单击待查看详情的集群名称链接,进入集群详情页面。

  4. 单击“节点”页签,进入节点管理页面。

  5. 单击待查看的节点名称链接,进入节点详情页面,查看节点信息。

    • 基本信息:包括节点类型、操作系统、Pod数量上限以及正在运行的数量、计算可用域名称、所在网络、标签等。

    • 基础监控:可以查看某一时间段内该节点的CPU/内存使用率、发送/接受的网络流量、磁盘写入/读取的速率。

    • Pods:可以查看该节点上运行的所有Pod以及Pod中所有容器的详细信息,支持通过命名空间、状态和名称进行查找。

      • Pod信息:包括重启的次数、命名空间、所属的工作负载、IP地址、所属节点。

      • 单击<查看YAML>按钮,可以查看该Pod的YAML文件,包括Pod基本信息和Pod中各容器的信息,例如名称、端口、路经、环境变量等。

      • 单击<日志>按钮,页面跳转到Pod详情的[日志]页签,可以查看Pod的运行日志。

      • 单击<删除>按钮,并在确认对话框单击<确定>按钮,可以删除Pod。

      • 单击Pod的名称链接,页面跳转到Pod详情页面,页面中分未基本信息、容器信息、监控信息、日志、事件四个页签,可以查看Pod中容器的详细运行情况,其中,基本信息展示了Pod的所在节点、容器实例总个数、状态正常的个数、所属集群、创建时间、命名空间、IP地址、重启次数、最后一次重启的时间/原因;容器展示了容器的名称、状态、镜像、重启次数、创建时间,支持单击<下载文件>按钮下载文件到本地,支持单击<远程>按钮远程连接Pod;监控展示了容器的资源使用率和网络流量监控数据;日志页签展示了容器的运行日志;事件页签展示了事件信息。

添加节点

当集群节点资源不足以支撑业务时可为集群扩展节点。普通用户为申请操作,需要所属组织的组织管理员审批后方可创建成功。

  1. 单击[全部服务]图标,选择[容器服务/云容器引擎]菜单项,进入云容器引擎服务页面。

  2. 在左侧导航树中单击[集群]菜单项,进入集群管理页面。

  3. 单击待查看详情的集群名称链接,进入集群详情页面。

  4. 单击“节点”页签,进入节点管理页面。

  5. 单击<新建>按钮,弹出添加节点窗口。

  6. 配置参数,如下表所示。对于裸金属集群,在添加节点时,只能选择节点,无法对节点进行配置。

    表-1 参数说明

    参数

    说明

    节点名称

    本节点在本系统的显示名称。

    节点规格

    配置本节点的CPU、内存、系统盘规格。

    节点数

    支持批量创建多个相同规格的节点。

    IP

    选择自动分配IP地址或手动设置各节点的IP地址。

    认证信息

    登录本节点的用户名和密码。

  7. 单击<确定>按钮,完成操作。

节点启用/退出维护模式

执行本操作可以使节点进入维护模式,即不处理请求。您可以选择是否将该节点上的容器驱散到其他节点上。

  1. 单击[全部服务]图标,选择[容器服务/云容器引擎]菜单项,进入云容器引擎服务页面。

  2. 在左侧导航树中单击[集群]菜单项,进入集群管理页面。

  3. 单击待查看详情的集群名称链接,进入集群详情页面。

  4. 单击“节点”页签,进入节点管理页面。

  5. 单击待更改维护模式的节点操作栏的<启用维护模式>或<退出维护模式>按钮,弹出启用/退出维护模式窗口。

  6. 确认提示信息,选择是否“驱散容器”,勾选“已充分了解本操作造成的结果”。

  7. 单击<确定>按钮,完成操作。

管理节点标签

当使用独享集群资源创建应用时,在配置“节点亲和性”参数时需选择此处配置的标签键/值来定义容器的节点亲和性规则,容器即会部署在所选标签键/值对应的节点上。

仅“运行”状态的节点可进行标签管理。

  1. 单击[全部服务]图标,选择[容器服务/云容器引擎]菜单项,进入云容器引擎服务页面。

  2. 在左侧导航树中单击[集群]菜单项,进入集群管理页面。

  3. 单击待查看详情的集群名称链接,进入集群详情页面。

  4. 单击“节点”页签,进入节点管理页面。

  5. 单击待配置标签的节点操作栏的<标签管理>按钮,弹出标签管理窗口。

  6. 对节点标签进行管理:

    • 新增标签:在标签键和标签值参数框中填写内容。单击<添加>按钮将标签键值添加给节点。单击<确定>按钮完成操作。

    • 删除标签:单击标签右侧的叉号位置,将标签移除,单击<确定>按钮完成操作。

恢复节点

当集群中某一控制节点发生物理故障,或因操作人员误删除节点或实例,导致节点异常时(其他两个控制节点需为“运行中”状态),可尝试执行本操作恢复该节点。

  • 恢复节点前,需先记录故障节点对应云主机的配置信息、所有者、所属组织机构等信息(可在【计算-云主机-实例】页面中查看),然后再删除该云主机,之后在同一组织下由同一用户(被删除云主机的所有者)在该组织下新建与故障节点名称、可用域、规格、镜像、IP、安全组等配置信息均相同的云主机,并等待该新建的云主机运行之后,再单击<恢复>按钮,才能恢复成功。

  • 当故障的节点的类型为裸金属时,新节点可以沿用该裸金属节点,但需首先解决物理故障或重新部署实例。

  • 节点恢复过程预计需要40分钟,期间集群将无法进行任何操作,请合理选择时间进行节点恢复。

  • 本操作并不涵盖节点所有的异常场景,某些未知的异常可能无法恢复。

  • 当前版本仅支持对1.14.5~1.19.10版本集群中的控制节点进行恢复。

  1. 单击[全部服务]图标,选择[容器服务/云容器引擎]菜单项,进入云容器引擎服务页面。

  2. 在左侧导航树中单击[集群]菜单项,进入集群管理页面。

  3. 单击待查看详情的集群名称链接,进入集群详情页面。

  4. 单击“节点”页签,进入节点管理页面。

  5. 选择待恢复的节点,单击<恢复>按钮。

  6. 输入新节点的SSH密码,勾选“已充分了解本操作造成的结果”。

  7. 单击<确定>按钮,完成操作。

删除节点

删除节点可能造成业务重启或中断,请谨慎操作。

  1. 单击[全部服务]图标,选择[容器服务/云容器引擎]菜单项,进入云容器引擎服务页面。

  2. 在左侧导航树中单击[集群]菜单项,进入集群管理页面。

  3. 单击待查看详情的集群名称链接,进入集群详情页面。

  4. 单击“节点”页签,进入节点管理页面。

  5. 选择一个或多个待删除的节点,单击<删除>按钮,弹出删除确认窗口。

  6. 输入密码进行二次校验后完成删除操作。