[帮助文档] 在ACK集群上通过容器化部署并运行Slurm

容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)通过提供Slurm on Kubernetes解决方案及ack-slurm-operator应用组件,使得您能够在阿里云的ACK集群上便捷、高效地部署和管理Slurm(Simple Linu...

[帮助文档] 使用Arena进行模型微调和模型管理

本文以大语言模型Qwen-7B-Chat为例,并结合Arena工具,演示如何在提交模型微调作业的同时,对模型微调作业所产生的模型进行管理。

AI情绪鼓励师模型微调实操教学

1 课时 |
135 人已学 |
免费

跨越N次元 一键变身AI漫画人

1 课时 |
277 人已学 |
免费

AI人像动漫画实操教学

1 课时 |
205 人已学 |
免费
开发者课程背景图

[帮助文档] 什么是KServe

KServe是一个开源的云原生模型服务平台,旨在简化在Kubernetes上部署和运行机器学习模型的过程,支持多种机器学习框架、具备弹性扩容能力。KServe通过定义简单的YAML文件,提供声明式的API来部署模型,使得配置和管理模型服务变得更加容易。

[帮助文档] 基于KServe为服务配置弹性扩缩容策略

在部署与管理KServe模型服务过程中,需应对模型推理服务面临的高度动态负载波动。KServe通过集成Kubernetes原生的HPA(Horizontal Pod Autoscaler)技术及扩缩容控制器,实现了根据CPU利用率、内存占用情况、GPU利用率以及自定义性能指标,自动灵活地调整模型服务...

[帮助文档] 部署vLLM推理应用

vLLM(Vectorized Large Language Model)是一个高性能的大型语言模型推理库,支持多种模型格式和后端加速,适用于大规模语言模型的推理服务部署。本文以Qwen-7B-Chat-Int8模型、GPU类型为V100卡为例,演示如何部署一个vLLM推理服务。

《云原生架构白皮书2022新版》——各个行业面临的挑战及解决方案——vivo AI计算平台的ACK混合云实践

《云原生架构白皮书2022新版》——各个行业面临的挑战及解决方案——vivo AI计算平台的ACK混合云实践

各个行业面临的挑战及解决方案vivo AI计算平台的ACK混合云实践2、业务容器创建失败,报找不到 loopback 插件。terway 没有像 calico-node 一样在 /opt/cni/bin/ 目录下部署 loopback 插件 ( 创建回环网络接口 )。我们给 terway daemo...

《云原生架构容器&微服务优秀案例集》——01 互联网——vivo AI 计算平台的 ACK One 混合云实践

《云原生架构容器&微服务优秀案例集》——01 互联网——vivo AI 计算平台的 ACK One 混合云实践

客户简介vivo 是一家以设计驱动创造产品,以智能终端和智慧服务为核心的科技公司。客户痛点资源交付周期长 : 此前使用自建机房, 新增资源的采购流程复杂, 周期长,无法及时响应业务临时的大量算力需求, 例如大规模参数模型的训练和在线服务的节假日活动扩容。同时由于服务器供应链形势严峻,网卡、硬盘、GP...

《2023云原生实战案例集》——01 汽车/制造——VIVO   AI计算平台的ACK One混合云实践

《2023云原生实战案例集》——01 汽车/制造——VIVO AI计算平台的ACK One混合云实践

 客户简介vivo是一家以设计驱动创造产品/以智能终端和智慧服务为核心的科技公司。客户痛点•资源交付周期长:此前使用自建机房/新增资源的采购流程复杂/周期长/无法及时 响应业务临时的大量算力需求,例如大规模参数模型的训练和在线服务的节假日活动 扩容。同时由于服务器供应链形势严峻,网卡、硬盘...

vivo AI计算平台的ACK混合云实践中,是如何降低专线压力的?

vivo AI计算平台的ACK混合云实践中,是如何降低专线压力的?

vivo AI 计算平台的 ACK 混合云实践

vivo AI 计算平台的 ACK 混合云实践

作者|刘东阳、吴梓洋2018 年底,vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。经过两年多的持续迭代,平台建设和落地取得了很大进展,成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主,到现在演进成包...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云机器学习平台PAI
阿里云机器学习平台PAI
阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。
2435+人已加入
加入
相关电子书
更多
阿里云云原生技术实践营 AI 原生应用架构专场·北京站
飞天技术沙龙 AI 原生应用架构专场·北京站
智算时代,基于 ACK 落地云原生AI
立即下载 立即下载 立即下载