阿里云文档 2026-02-11

GPU异常检测与自动隔离

ACK通过ack-node-problem-detector(NPD)组件监测GPU资源的健康状态。当GPU节点出现XID/SXID错误等异常时,NPD组件自动检测并隔离异常GPU卡,此时其他正常的GPU可以继续提供服务,以尽可能减少业务上的损失,提高集群的可靠性和运维效率。

文章 2025-10-25 来自:开发者社区

Kubernetes集群中,部分使用GPU资源的Pod出现UnexpectedAdmissionError问题的解决方案。

在Kubernetes集群中,UnexpectedAdmissionError 通常是由于在尝试将Pod调度到具有GPU资源的节点时,Kubernetes集群在准入控制阶段遇到了意料之外的错误。这种问题的调查和解决通常需要集中在资源请求和分配的配置上,以及确保集群中存在正确配置的节点以支持GPU。 首先,确认集群有足够的GPU资源ÿ...

文章 2025-10-21 来自:开发者社区

阿里云ACK托管集群Pro版共享GPU调度操作指南

本文详细介绍了在阿里云容器服务ACK托管集群Pro版中,通过共享GPU调度实现GPU显存和算力精细化分配的操作指南。 一、核心功能概述 ACK托管集群Pro版支持为应用申请GPU显存和算力资源,实现以下两种任务模式: • 仅申请显存 • 同时申请显存和算力 注意: 两种任务模式不能共存于同一节点。 二、...

阿里云文档 2025-10-17

为GPU应用配置节点自动伸缩

在进行AI模型训练、推理或科学计算等GPU计算密集型任务时,工作负载常呈现显著波动,同时GPU硬件成本较高。通过为集群创建支持自动伸缩的GPU节点池,可根据实际资源需求动态增减节点数量,实现按需使用与弹性调度,有效提升GPU资源利用率并降低运维成本。

阿里云文档 2025-10-17

使用DRA调度GPU

在AI训练和推理场景中,当多个应用需要共享GPU资源时,为突破传统设备插件的调度限制,可在ACK集群中部署NVIDIA DRA驱动,通过Kubernetes DRA API实现Pod间GPU动态分配与细粒度资源控制,提升GPU利用率并降低成本。

文章 2025-10-14 来自:开发者社区

ACK One 注册集群云端节点池升级:IDC 集群一键接入云端 GPU 算力,接入效率提升 80%

引言:从“脚本依赖”到“一键接入”的突破 在 K8s 集群中,节点的创建和管理一直是客户面临的核心挑战,尤其是在将云上节点加入数据中心的 K8s 集群时。早期在 ACK One 注册集群 [1]节点池创建流程中,客户需要手动编写 join 脚本,并在脚本中集成 GPU 驱动安装、CUDA 工具包配置、容器运行时初始化等复杂操作,这一过程不仅耗时耗力,还因操作...

ACK One 注册集群云端节点池升级:IDC 集群一键接入云端 GPU 算力,接入效率提升 80%
阿里云文档 2025-07-17

ACK Edge集群GPU资源监控最佳实践

ACK Edge集群可以纳管数据中心和边缘侧的GPU节点,统一管理多地域、多环境的异构算力。您可以在ACK Edge集群中接入阿里云Prometheus监控,使数据中心和边缘计算的GPU节点拥有与云上一致的可观测能力。

阿里云文档 2025-03-19

eRDMA GPU集群最佳实践

随着人工智能和高性能计算(HPC)应用的快速发展,GPU集群的需求日益增长。为了提升集群内部通信效率,远程直接内存访问(RDMA)技术被广泛应用。eRDMA(增强型RDMA)进一步优化了这一技术,尤其在大规模分布式训练和数据处理任务中表现出色。本文将探讨如何在GPU集群中充分利用eRDMA技术,以实现最佳性能和资源利用率。

文章 2025-02-10 来自:开发者社区

exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! 微信公众号|搜一搜:蚝油菜花 大家好,我是蚝油菜花,今天跟大家分享一下 exo 这个开源项目,它能让你利用家中的日常设备构建强大的 AI 集群。 快速阅读 exo 是一个开源项目,旨在让你利用家中的日常设备(如 iPhone...

exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
文章 2023-08-01 来自:开发者社区

基于ACK One注册集群实现IDC中K8s集群以Serverless方式使用云上CPU/GPU资源

在前一篇文章《基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点》中,我们介绍了如何为IDC中K8s集群添加云上节点,应对业务流量的增长,通过多级弹性调度,灵活使用云上资源,并通过自动弹性伸缩,提高使用率,降低云上成本。 这种直接添加节点的方式,适合需要自定义配...

基于ACK One注册集群实现IDC中K8s集群以Serverless方式使用云上CPU/GPU资源

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注