阿里云文档 2025-09-02

阿里云GPU云服务器(gn/vgn/sgn系列)

GPU云服务器提供GPU加速计算能力,实现GPU计算资源的即开即用和弹性伸缩。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。

阿里云文档 2025-06-25

基于GPU指标实现弹性伸缩

Kubernetes提供了Custom Metrics机制,该机制可以对接阿里云Prometheus监控来采集GPU指标。本文介绍如何部署阿里云Prometheus监控,并结合示例说明如何通过阿里云Prometheus监控观测GPU指标,实现容器的弹性伸缩。

阿里云文档 2025-02-14

在阿里云GPU云服务器上基于Alpaca大模型搭建个人版“对话大模型”

本教程介绍如何在阿里云GPU云服务器上基于Alpaca大模型快速搭建个人版“对话大模型”。

阿里云文档 2025-01-23

GPU及神行工具包(DeepGPU)的优势

阿里云GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式,神行工具包(DeepGPU)是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的优势。

阿里云文档 2025-01-08

介绍阿里云异构计算产品家族

阿里云异构计算产品为您提供了软件与硬件结合的完整服务体系,助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。

文章 2022-11-07 来自:开发者社区

阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽

容器服务GPU监控2.0提供了监控NVLINK带宽的指标,本篇文章将简单介绍一下如何查看这些指标。前提条件为了达到演示效果,本篇文章将利用阿里云容器服务拓扑感知调度能力,在K8S集群中提交一个拓扑感知任务。集群环境准备请参考阿里云容器服务拓扑感知调度,这里将不再说明。提交任务使用Arena向k8s集群提交一个tensorflow任务...

阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽
文章 2022-09-09 来自:开发者社区

阿里云容器服务GPU监控2.0基础篇1:基本功能使用

容器服务GPU监控2.0基于NVIDIA DCGM实现对集群GPU节点的全方位监控,您可以通过它监控:集群维度的GPU资源使用情况,包括利用率、显存使用、XID错误检测等节点池维度的GPU资源使用情况,包括利用率、显存使用、XID错误检测等节点维度的GPU资源使用情况,包括利用率、显存使用、温度与功率、Profiling等Po...

阿里云容器服务GPU监控2.0基础篇1:基本功能使用
文章 2022-09-09 来自:开发者社区

阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误

XID错误消息是NVIDIA驱动报告的错误信息,一般会将错误消息记录在/var/log/messages(或使用dmesg -T查看),如果一个节点有XID错误消息,说明节点发生了与GPU有关的错误,这个错误有可能是由于GPU硬件故障引起,也有可能是软件问题引起的(比如:...

阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误
文章 2022-09-09 来自:开发者社区

阿里云容器服务GPU监控2.0进阶篇2:学会剖析(Profiling)您的GPU使用情况

本系列相关文章:阿里云容器服务GPU监控2.0基础篇1:基本功能使用阿里云容器服务GPU监控2.0基础篇2:监控NVLINK带宽阿里云容器服务GPU监控2.0基础篇3:监控NVIDIA XID错误阿里云容器服务GPU监控2.0进阶篇1:剖析(Profiling)GPU使用情况必备知识阿里云容器服务G...

阿里云容器服务GPU监控2.0进阶篇2:学会剖析(Profiling)您的GPU使用情况
文章 2022-09-09 来自:开发者社区

阿里云容器服务共享GPU调度支持算力分配

ACK Pro集群支持为应用申请GPU显存和算力,能够帮助您更精细化的使用GPU的显存和算力资源。本文介绍如何使用算力分配功能。前提条件已创建ACK Pro版集群,且集群版本为1.20.11。关于Kubernetes的升级操作,请参见升级ACK集群K8s版本。已安装共享GPU组件,且Chart版本>1.2.0。关于安装共享GPU组件的...

阿里云容器服务共享GPU调度支持算力分配

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注