阿里云文档 2025-07-17

ACK Edge集群GPU资源监控最佳实践

ACK Edge集群可以纳管数据中心和边缘侧的GPU节点,统一管理多地域、多环境的异构算力。您可以在ACK Edge集群中接入阿里云Prometheus监控,使数据中心和边缘计算的GPU节点拥有与云上一致的可观测能力。

阿里云文档 2025-06-23

GPU故障检测与自动隔离

本文介绍如何正确安装、配置和使用ACK GPU故障检测组件,以便更好地管理和维护ACK环境中的GPU资源。通过本文内容,您可以了解如何监测GPU资源的健康状态,提高集群的可靠性和效率。

阿里云文档 2025-06-11

在ACK Edge集群中使用共享GPU调度能力

通过共享GPU调度能力,您可以将多个Pod调度到同一张GPU卡上,以共享GPU的计算资源,从而提高GPU的利用率并节省成本。在实现GPU共享调度的同时,确保运行在同一张GPU上的多个容器之间能够互相隔离,并根据各自申请的资源使用量运行,避免某个容器的资源使用量超标,进而影响其他容器的正常工作。本文介绍如何在ACK Edge集群中使用共享GPU调度能力。

阿里云文档 2025-03-12

为ACS GPU Pod指定GPU型号和驱动版本

阿里云容器计算服务ACS以Serverless形态提供容器算力,在使用GPU资源时,支持在Pod上声明GPU型号和ACS支持的驱动版本,极大降低了业务的基础设施管理和运维成本。本文主要介绍如何在创建Pod时指定GPU型号和驱动版本。

阿里云文档 2025-02-19

ACK One注册集群使用ACS GPU算力构建DeepSeek蒸馏模型推理服务

DeepSeek是一款基于深度学习的智能推理模型,因其在自然语言处理和图像识别等领域的卓越表现而迅速受到了广泛关注。无论是企业级应用还是学术研究,DeepSeek都展现出了强大的潜力。然而,随着其应用场景的不断扩展,数据中心的算力瓶颈问题逐渐凸显。为应对这一挑战,阿里云推出了ACK One注册集群为企业提供灵活、高效的解决方案。通过将本地数据中心的Kubernetes集群接入ACK One注册集群...

文章 2024-09-10 来自:开发者社区

Kubernetes与GPU的调度:前世今生

 目录 一、引言 1.1 Kubernetes的重要性 1.2 GPU的重要性 1.3 Kubernetes与GPU的关联性 二、Kubernetes简介 2.1 Kubernetes的起源和发展 2.2 Kubernetes的核心概念和基本架构 2.3 Kubernetes如何简化容器化应用程序的管理和扩展 三、...

Kubernetes与GPU的调度:前世今生
问答 2022-02-15 来自:开发者社区

节点管理如何利用阿里云Kubernetes的GPU节点标签进行调度?

节点管理如何利用阿里云Kubernetes的GPU节点标签进行调度?

问答 2022-02-15 来自:开发者社区

节点管理如何Kubernetes 集群支持轻量级 GPU 调度?

节点管理如何Kubernetes 集群支持轻量级 GPU 调度?

问答 2022-02-15 来自:开发者社区

节点管理如何Kubernetes GPU 集群支持 GPU 调度?

节点管理如何Kubernetes GPU 集群支持 GPU 调度?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注