阿里云文档 2025-04-23

部署GPU共享推理服务

在某些场景下,您可能需要将多个模型推理任务共享在同一块GPU以提高GPU的利用率。本文以模型类型为Qwen1.5-0.5B-Chat,GPU类型为V100卡为例,演示如何使用KServe部署GPU共享的模型推理服务。

阿里云文档 2025-01-13

升级共享GPU调度组件ack-ai-installer

当您的集群已经安装共享GPU调度组件,但节点GPU驱动版本与集群中已存在的cGPU版本不兼容,或者节点操作系统版本与集群中已存在的cGPU版本不兼容时,您需要将共享GPU调度组件升级到最新版本。

阿里云文档 2024-07-18

利用DCGM实现GPU的性能分析

NVIDIA GPU上存在一些硬件计数器,这些计数器可以用来收集一些设备级别的性能指标,例如GPU利用率、内存使用情况等。借助NVIDIA提供的NVML(NVIDIA Management Library)库或DCGM(Data Center GPU Manager)工具能够查询这些硬件层提供的指标。本文介绍硬件层Profiling的优缺点,以及运维人员和开发人员利用DCGM实现GPU性能分析的使...

阿里云文档 2024-05-17

使用NVIDIA GPU部署AI容器镜像Qwen-7B-Chat

本文聊天机器人为例,介绍如何使用Alibaba Cloud AI Containers(简称AC2)提供的AI容器镜像在NVIDIA GPU上部署通义千问Qwen-7B-Chat。背景信息通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模模型。Qwen-7B是基于Tra...

阿里云文档 2024-05-09

AI通信加速库DeepNCCL的架构、性能以及优化原理

DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍DeepNCCL的架构、优化原理和性能说明。

文章 2020-01-16 来自:开发者社区

GPU AI 模型训练

场景描述 适用于 AI 图片训练场景,使用 CPFS/NAS 作为共享存储,利用容器服务 Kubernetes 版管理 GPU 云服务器集群进行图片 AI 训练。 解决问题 搭建 AI 图片训练基础环境 使用 CPFS 存储训练数据 使用飞天 AI 加速训练服务加速训练 使用 Arena 一键提交作业 产品列表 容器服务 ACK 共享存储 CPFS 文件存储 NAS GPU 云服...

GPU AI 模型训练
文章 2020-01-16 来自:开发者社区

GPU AI 模型训练

直达最佳实践:【GPU AI 模型训练】最佳实践频道:【点击查看更多上云最佳实践】这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 适用于 AI 图片训练场景,使用 CPFS/NAS 作为共享存储,利用容器服务 Kubernetes 版管理 GPU 云服务器集群进行图片 AI 训练。 解决问题 搭建 AI 图片训练基础...

GPU AI 模型训练

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"productCardStyle","productCode":"aliyun","productCardInfo":{"productTitle":"阿里云 AI","productDescription":"从 AI 应用构建,模型部署到训练,一站式了解阿里云经典的 AI 应用场景和解决方案。","productContentLink":"https://www.aliyun.com/solution/tech-solution/ai","isDisplayProductIcon":true,"productButton1":{"productButtonText":"查看详情","productButtonLink":"https://www.aliyun.com/solution/tech-solution/ai"},"productButton2":{"productButtonText":"联系 AI 专家","productButtonLink":"https://page.aliyun.com/form/act933288178/index.htm?spm=5176.29311086.J_RY_4Q8--sru4dMV7o3lqS.2.22ec5297YL7w86"},"productButton3":{"productButtonText":"立即体验","productButtonLink":"https://bailian.console.aliyun.com/?spm=5176.28326591.0.0.56136ee1bpor89#/efm/model_experience_center"},"productPromotionInfoBlock":[{"$id":"0","productPromotionGroupingTitle":"热门体验","productPromotionInfoFirstText":"文生文应用","productPromotionInfoFirstLink":"https://bailian.console.aliyun.com/?spm=5176.29311086.J__xR9sQs7AmaTHLBTgN3VS.1.22ec52978mJi5p#/home","productPromotionInfoSecondText":"文生图应用","productPromotionInfoSecondLink":"https://bailian.console.aliyun.com/?spm=5176.29311086.J__xR9sQs7AmaTHLBTgN3VS.2.22ec52978mJi5p#/efm/model_experience_center?modelId=wanx-v1"},{"$id":"1","productPromotionGroupingTitle":"热门产品","productPromotionInfoFirstText":"大模型服务平台百炼","productPromotionInfoFirstLink":"https://www.aliyun.com/product/bailian","productPromotionInfoSecondText":"人工智能平台 PAI","productPromotionInfoSecondLink":"https://www.aliyun.com/product/bigdata/learn"},{"$id":"2","productPromotionGroupingTitle":"技术解决方案","productPromotionInfoFirstText":"向量检索与通义千问搭建专属问答服务","productPromotionInfoFirstLink":"https://www.aliyun.com/solution/tech-solution/dashvector","productPromotionInfoSecondText":"创意加速器:AI 绘画创作","productPromotionInfoSecondLink":"https://www.aliyun.com/solution/tech-solution/tongyi-wanxiang"},{"$id":"3","productPromotionGroupingTitle":"热门模型","productPromotionInfoFirstText":"通义千问","productPromotionInfoFirstLink":"https://tongyi.aliyun.com","productPromotionInfoSecondText":"通义万相","productPromotionInfoSecondLink":"https://tongyi.aliyun.com/wanxiang"}],"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"","activityDescription":"","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock","activityPromotionInfoBlock":[]}}

阿里云机器学习平台PAI

阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。

+关注