阿里云文档 2026-01-07

调用DescribeAckClusterNamespaces接口查询ACK集群的命名空间列表-云防火墙-阿里云

查询阿里云K8S容器服务(ACK)集群命名空间。

阿里云文档 2025-10-23

在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务

当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。

阿里云文档 2025-10-17

为GPU应用配置节点自动伸缩

在进行AI模型训练、推理或科学计算等GPU计算密集型任务时,工作负载常呈现显著波动,同时GPU硬件成本较高。通过为集群创建支持自动伸缩的GPU节点池,可根据实际资源需求动态增减节点数量,实现按需使用与弹性调度,有效提升GPU资源利用率并降低运维成本。

阿里云文档 2025-10-17

使用DRA调度GPU

在AI训练和推理场景中,当多个应用需要共享GPU资源时,为突破传统设备插件的调度限制,可在ACK集群中部署NVIDIA DRA驱动,通过Kubernetes DRA API实现Pod间GPU动态分配与细粒度资源控制,提升GPU利用率并降低成本。

文章 2024-05-30 来自:开发者社区

Kubernetes 集群的监控与维护最佳实践

随着Docker等容器技术的普及,Kubernetes作为容器编排的事实标准,被广泛应用于各种规模的企业中。然而,随着集群规模的增长和应用复杂度的提升,如何保持集群的健康状态和高效运行成为一大挑战。接下来,我们将探讨针对Kubernetes集群的监控与维护策略。 首先,监控是确保集群健康的基础。选择合适的监控工具...

文章 2024-05-25 来自:开发者社区

Kubernetes 集群的监控与维护最佳实践

随着企业越来越多地采纳云原生技术,基于Kubernetes(K8s)的容器化应用部署已经成为常态。然而,随之而来的是对于集群稳定性和性能的持续监控需求。为了确保高可用性和服务的连续性,运维团队必须采用先进的工具和策略来管理和监控他们的Kubernetes环境。以下是关于如何有效实施监控和维护的一些建议。 首先,选...

文章 2024-05-23 来自:开发者社区

Kubernetes 集群的监控与日志管理最佳实践

随着 Kubernetes 成为容器编排的事实标准,其在现代 IT 架构中扮演着至关重要的角色。然而,随之增加的是管理的复杂性,尤其是关于集群的监控和日志管理。一个良好的监控体系可以帮助运维团队及时发现并解决潜在的问题,而高效的日志管理则对于追踪问题和审计至关重要。 首先,我们来谈谈监控。Prometheus 是一个广受欢迎的...

文章 2024-05-20 来自:开发者社区

Kubernetes 集群的监控与日志管理最佳实践

随着企业越来越多地采用容器化技术和微服务架构,Kubernetes作为容器编排的事实标准,其集群的健康状态监控和日志管理成为维护系统高可用性的重要方面。有效的监控可以提前发现潜在问题,而良好的日志管理则有助于故障发生时的快速定位和解决。 首先,监控Kubernetes集群通常涉及对节点的硬件资源使用情况(如CPU、内存和磁盘I...

文章 2024-02-05 来自:开发者社区

Velero 系列文章(五):基于 Velero 的 Kubernetes 集群备份容灾生产最佳实践

Velero 考量维度 基于 CSI 快照 基于 Restic 文件复制 ...

Velero 系列文章(五):基于 Velero 的 Kubernetes 集群备份容灾生产最佳实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注