阿里云文档 2025-07-07

在DLC中使用EPL实现训练加速

EPL(Easy Parallel Library)是高效易用的分布式模型训练框架,深度集成多种训练优化技术,提供了简单易用的API实现各种并行化策略。您可以使用EPL实现低成本、高性能分布式模型训练。本文为您介绍如何在DLC中使用EPL高效地进行分布式TensorFlow训练。前提条件在开始执行操...

文章 2022-02-17 来自:开发者社区

在 Kubernetes 上弹性深度学习训练利器 -- Elastic Training Operator

作者 | 徐晓舟(萧元)来源|阿里巴巴云原生公众号背景由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建 AI 系统,而以容器、Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于 Kubernetes 构建 AI 平台已经成为趋势。当面临较复杂的模型训练或者数据量大时,单机的计算能力往往无法满足算力要求。通过使用阿里的 AiACC ...

在 Kubernetes 上弹性深度学习训练利器 -- Elastic Training Operator
文章 2022-02-17 来自:开发者社区

Elastic Training Operator: Kubernetes 上运行弹性深度学习训练任务

背景 由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建AI系统,而以容器,Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于Kubernetes 构建AI平台已经成为趋势。 当面临较复杂的模型训练或者数据量大时,单机的计算能力往往无法满足算力要求。 通过使用 阿里的AiACC 或者社区的 horovod 等分布式训练框架,仅需修改几行代码....

Elastic Training Operator: Kubernetes 上运行弹性深度学习训练任务
文章 2022-02-17 来自:开发者社区

阿里云容器服务团队实践——Alluxio优化数倍提升云上Kubernetes深度学习训练性能

AI训练新趋势:基于Kubernetes的云上深度学习作者简介车漾,阿里云高级技术专家,从事Kubernetes和容器相关产品的开发。尤其关注利用云原生技术构建机器学习平台系统,是GPU共享调度的主要作者和维护者。顾荣,南京大学副研究员,Alluxio项目核心开发者,研究方向大数据处理,2016年获南京大学博士学位,曾在微软亚洲研究院、英特尔、百度从事大数据系统实习研发。背景介绍近些年,以深度学....

阿里云容器服务团队实践——Alluxio优化数倍提升云上Kubernetes深度学习训练性能

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

智能引擎技术

AI Online Serving,阿里巴巴集团搜推广算法与工程技术的大本营,大数据深度学习时代的创新主场。

+关注