一键训练模型及部署GPU共享推理服务
通过使用云原生 AI 套件帮助企业完成模型训练
提高资源利用率
通过 GPU 共享调度,多个推理服务可以部署在同一张GPU 卡上共享显存,提升 GPU 利用率。还可以结合阿里云 GPU 技术实现显存和错误隔离。
简化运维
基于容器服务 ACK 对 GPU 等异构资源进行统一管理、运维和分配,提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力。
提升AI工程效率
通过命令行工具 Arena,屏蔽底层资源、Kubernetes、运行环境等复杂度,以统一的方式管理系统、任务,模型开发、训练、推理等全生命周期。
一键训练大模型及部署 GPU 共享推理服务

通过创建 ACK 集群 Pro 版,您可以为集群挂载 NAS 实例作为集群的共享存储卷,用于存放模型训练数据。集群中部署云原生 AI 套件后,您可以基于其能力提交 Bloom 模型训练任务进行模型训练,并通过 GPU 显存共享调度的能力,将多个推理服务部署在同一块 GPU 卡上以提高 GPU 的利用率。
部署时长:80 分钟
预估费用:16 元(假设您配置 ACK 集群、云原生 AI 套件和 NAS 实例时选择本文指导的规格资源,且资源运行时间不超过 1 小时。实际情况可能会因您操作过程中使用的资源规格和流量差异,而导致费用有所变化,请以控制台显示的实际报价以及最终账单为准)
技术解决方案的广泛应用背景

持续优化异构资源效率
对云上各种异构计算资源(如CPU、GPU、NPU、VPU、FPGA)、存储(OSS、NAS、CPFS、HDFS)、网络(TCP、RDMA)资源,通过弹性和软硬协同优化,持续提升资源利用率。

高效运行AI等异构工作负载
云原生AI套件兼容 Tensorflow、Pytorch、Horovod、Spark、Flink 等主流开源或用户自有的计算引擎,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。
阿里云为您提供云产品免费试用
该文章对您有帮助吗?