通过 GPU 共享调度,多个推理服务可以部署在同一张GPU 卡上共享显存,提升 GPU 利用率。还可以结合阿里云 GPU 技术实现显存和错误隔离。
基于容器服务 ACK 对 GPU 等异构资源进行统一管理、运维和分配,提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力。
通过命令行工具 Arena,屏蔽底层资源、Kubernetes、运行环境等复杂度,以统一的方式管理系统、任务,模型开发、训练、推理等全生命周期。
通过创建 ACK 集群 Pro 版,您可以为集群挂载 NAS 实例作为集群的共享存储卷,用于存放模型训练数据。集群中部署云原生 AI 套件后,您可以基于其能力提交 Bloom 模型训练任务进行模型训练,并通过 GPU 显存共享调度的能力,将多个推理服务部署在同一块 GPU 卡上以提高 GPU 的利用率。
对云上各种异构计算资源(如CPU、GPU、NPU、VPU、FPGA)、存储(OSS、NAS、CPFS、HDFS)、网络(TCP、RDMA)资源,通过弹性和软硬协同优化,持续提升资源利用率。
云原生AI套件兼容 Tensorflow、Pytorch、Horovod、Spark、Flink 等主流开源或用户自有的计算引擎,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。
开源推理新巅峰,性能媲美 OpenAI o3。传统方式部署 DeepSeek-R1-0528 需耗时十几小时手动下载 672 GB 模型,本方案支持零代码接入阿里云百炼的模型 API,也支持一键部署至人工智能平台 PAI(最快 35 分钟)以及 GPU 云服务器部署(最快 60 分钟),部署效率提升 10 倍以上。
DeepSeek 是热门的推理模型,能在少量标注数据下显著提升推理能力,尤其擅长数学、代码和自然语言等复杂任务。本方案涵盖云上调用 DeepSeek-R1 满血版的 API 及部署各尺寸模型的方式,无需编码,最快 5 分钟、最低 0 元即可实现。