阿里云文档 2025-04-03

创建和管理托管节点池以及开启自动化运维能力

ACK提供了节点池功能对节点进行分组管理。节点池是具有相同属性(例如实例规格、操作系统、标签和污点等)的一组节点的逻辑集合。一个集群中可以创建多个不同配置和类型的节点池。您可以创建节点池,实现对节点进行统一的运维和管理。

阿里云文档 2025-03-21

启用托管节点池中节点的自愈功能

节点池开启托管能力后,支持启用节点自愈功能,即由ACK自动监控节点状态,并在节点发生异常时自动执行自愈任务,以简化节点运维工作。但由于故障的复杂性,自愈任务无法修复所有的故障场景,部分复杂故障可能仍需人工修复。

阿里云文档 2025-03-12

如何在ACK集群中进行自动化执行RayJob

企业在管理集群资源时面临的主要挑战是任务量庞大而资源有限。为解决这一问题,需要优先将资源分配给关键部门或个人,并保持高度的灵活性以随时调整资源分配。本文将介绍如何提高企业集群资源的利用率,并通过统一的任务管理平台自动化处理来自不同部门的大量RayJob,支持任务插队和动态优先级调整,确保高优先级任务能够优先获得资源。

阿里云文档 2024-12-26

基于自动化运维能力开启节点池节点故障自动恢复

托管节点池自动监控节点状态,确保节点正常运行。当节点发生异常时,ACK会自动执行恢复操作。将节点池设置为托管模式会为所有节点同时开启自动恢复功能,简化节点运维工作。本文介绍节点自动恢复的应用场景和处理流程。

文章 2024-07-15 来自:开发者社区

云原生架构的核心组成部分通常包括容器化(如Docker)、容器编排(如Kubernetes)、微服务架构、服务网格、持续集成/持续部署(CI/CD)、自动化运维(如Prometheus监控和Grafana可视化)等。

云原生架构的核心组成部分通常包括容器化(如Docker)、容器编排(如Kubernetes)、微服务架构、服务网格、持续集成/持续部署(CI/CD)、自动化运维(如Prometheus监控和Grafana可视化)等。Python作为一种流行的编程语言,在云原生开发中扮演着...

阿里云文档 2024-04-09

授权灵骏AI助手进行灵骏节点自动化运维

PAI AIMaster+灵骏AI助手是一套全自动的故障快速恢复系统。该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。

文章 2023-11-16 来自:开发者社区

探索云原生容器编排技术:如Kubernetes如何为大数据处理和AI模型的自动化部署带来便利

Kubernetes是一个强大的容器编排和自动化部署工具,它为大数据处理和AI模型的自动化部署提供了许多便利。以下是Kubernetes如何为这些应用领域带来便利的一些关键方面:1. 弹性伸缩大数据处理和AI模型训练通常需要大量计算资源。Kubernetes允许你根据负载情况自动扩展容器,确保足够的计算资源可用。这意味着你可以在需要时动态地增加或减少计算节点,以适应工作负载的波动。2. 容器化K....

探索云原生容器编排技术:如Kubernetes如何为大数据处理和AI模型的自动化部署带来便利
文章 2022-02-17 来自:开发者社区

阿里云容器服务Kubernetes之Jenkins X(2)-自动化CICD实践篇

在云栖博客 阿里云容器服务Kubernetes之Jenkins X(1)-安装部署实践篇 中, 我们基于 阿里云r容器服务Kubernetes 搭建了自己的Jenkins-X-Platform, 本文将以一个Spring Boot应用为例继续演示如何使用Jenkins-X-Platform构建、发布和管理自己的应用。 在创建Spring Boot应用之前, 还需要对Jenkins-X-Platf....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注