一键训练模型及部署GPU共享推理服务

通过创建 ACK 集群 Pro 版,使用云原生 AI 套件提交模型微调训练任务与部署 GPU 共享推理服务。支持快速创建 Kubernetes 集群,白屏配置任务数据共享存储和下载,并通过命令行工具 Arena 快速提交模型训练任务、部署推理服务。使用云原生 AI 套件可以让模型训练和推理提效,提高 GPU 资源利用率。

适用客户
  • 需要高效管理 GPU 资源进行模型训练与推理的团队
  • 需要快速迭代与部署 AI 模型的企业
  • 方案优势
  • 架构与部署
  • 应用背景
  • 免费试用
  • 推荐解决方案
  • 方案优势

    通过使用云原生 AI 套件帮助企业完成模型训练

    提高资源利用率

    通过 GPU 共享调度,多个推理服务可以部署在同一张GPU 卡上共享显存,提升 GPU 利用率。还可以结合阿里云 GPU 技术实现显存和错误隔离。

    简化运维

    基于容器服务 ACK 对 GPU 等异构资源进行统一管理、运维和分配,提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力。

    提升AI工程效率

    通过命令行工具 Arena,屏蔽底层资源、Kubernetes、运行环境等复杂度,以统一的方式管理系统、任务,模型开发、训练、推理等全生命周期。

    架构与部署

    一键训练大模型及部署 GPU 共享推理服务

    通过创建 ACK 集群 Pro 版,您可以为集群挂载 NAS 实例作为集群的共享存储卷,用于存放模型训练数据。集群中部署云原生 AI 套件后,您可以基于其能力提交 Bloom 模型训练任务进行模型训练,并通过 GPU 显存共享调度的能力,将多个推理服务部署在同一块 GPU 卡上以提高 GPU 的利用率。

    部署时长:80 分钟
    预估费用:16 元(假设您配置 ACK 集群、云原生 AI 套件和 NAS 实例时选择本文指导的规格资源,且资源运行时间不超过 1 小时。实际情况可能会因您操作过程中使用的资源规格和流量差异,而导致费用有所变化,请以控制台显示的实际报价以及最终账单为准)
    应用背景

    技术解决方案的广泛应用背景

  • 持续优化异构资源效率

    对云上各种异构计算资源(如CPU、GPU、NPU、VPU、FPGA)、存储(OSS、NAS、CPFS、HDFS)、网络(TCP、RDMA)资源,通过弹性和软硬协同优化,持续提升资源利用率。

  • 高效运行AI等异构工作负载

    云原生AI套件兼容 Tensorflow、Pytorch、Horovod、Spark、Flink 等主流开源或用户自有的计算引擎,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。

  • 免费试用

    阿里云为您提供云产品免费试用

    技术解决方案咨询
    立即咨询