阿里云文档 2025-07-07

在DLC中使用EPL实现训练加速

EPL(Easy Parallel Library)是高效易用的分布式模型训练框架,深度集成多种训练优化技术,提供了简单易用的API实现各种并行化策略。您可以使用EPL实现低成本、高性能分布式模型训练。本文为您介绍如何在DLC中使用EPL高效地进行分布式TensorFlow训练。前提条件在开始执行操...

文章 2020-06-22 来自:开发者社区

深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

AI 训练新趋势:基于 Kubernetes 的云上深度学习 1.背景介绍 近些年,以深度学习为代表的人工智能技术取得了飞速的发展,正落地应用于各行各业。随着深度学习的广泛应用,众多领域产生了大量强烈的高效便捷训练人工智能模型方面的需求。另外,在云计算时代,以 Docker、Kubernetes 以主的容器及其编排技术在应用服务自动化部署的软件开发运维浪潮中取得了长足的发展。Kubernetes....

深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化
文章 2020-05-13 来自:开发者社区

深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7 年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟。然而,随着云原生人工智能(Cloud Native AI)的兴起,灵活的计算存储分离架构大行其道。在此背景下,用户在云上训练大规.....

深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化
文章 2020-05-13 来自:开发者社区

深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化

作者 | 车漾(阿里云高级技术专家)、顾荣(南京大学 副研究员) 导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7 年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟。然而,随着云原生人工智能(Cloud Native AI)的兴起,灵活的计算存储分离架构大行其道。在此背景下,用户在云上训练大规模深度学习模型引发的数据缓存需求日益....

深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化
文章 2020-04-15 来自:开发者社区

阿里云容器服务团队实践——Alluxio优化数倍提升云上Kubernetes深度学习训练性能

AI训练新趋势:基于Kubernetes的云上深度学习作者简介车漾,阿里云高级技术专家,从事Kubernetes和容器相关产品的开发。尤其关注利用云原生技术构建机器学习平台系统,是GPU共享调度的主要作者和维护者。顾荣,南京大学副研究员,Alluxio项目核心开发者,研究方向大数据处理,2016年获南京大学博士学位,曾在微软亚洲研究院、英特尔、百度从事大数据系统实习研发。背景介绍近些年,以深度学....

阿里云容器服务团队实践——Alluxio优化数倍提升云上Kubernetes深度学习训练性能

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

智能引擎技术

AI Online Serving,阿里巴巴集团搜推广算法与工程技术的大本营,大数据深度学习时代的创新主场。

+关注