阿里云文档 2026-05-13

在分布式训练(DLC)中挂载OSS

在提交DLC训练任务时,您可以通过代码配置或挂载的方式配置OSS、NAS、CPFS或MaxCompute存储,从而方便地在训练过程中直接读写相应存储中的数据。本文为您介绍如何在DLC训练任务中进行OSS、MaxCompute、NAS或CPFS的存储配置。

阿里云文档 2026-04-23

使用eRDMA网络进行分布式训练

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里云自研的云上弹性RDMA网络。PAI通用计算资源中的部分GPU机型已支持eRDMA能力,您只需使用特定镜像提交基于这些GPU机型的DLC任务,系统将自动在容器内挂载eRDMA网卡,从而加速分布式训练过程。

阿里云文档 2026-01-27

分布式训练 DLC 快速入门

DLC可以快捷地创建分布式或单机训练任务。其底层基于Kubernetes,省去您手动购买机器并配置运行环境,无需改变使用习惯即可快速使用。本文以 MNIST 手写体识别为例,介绍如何使用DLC进行单机单卡训练,或多机多卡的分布式训练。

阿里云文档 2026-01-15

实例互联进行分布式训练

DSW提供了多实例互联的功能,帮助您在DSW中实现多机多卡的分布式开发和训练。

阿里云文档 2025-02-13

使用DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。

文章 2024-12-30 来自:开发者社区

分布式大模型训练的性能建模与调优

由阿里云智能集团弹性计算高级技术专家林立翔先生分享分布式大模型训练的性能建模与调优。 大模型分布训练的性能建模与优化主要分为四类。首先大模型对AI基础设施的性能挑战,帮助感受性能建模在AI的大模型训练中的重要性。第二部分大模型训练的性能分析和建模,如何去做大模型的分析和建模,反哺客户具体的实践工作,第三部分基于大模型建模分析的性能优化介绍工作的意义与价值。第四部分宣传阿里云的整个AI技术...

文章 2024-08-31 来自:开发者社区

深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略

处理离线状态下的用户体验是任何现代应用开发中不可或缺的一部分。当用户在网络连接不稳定或完全断开的情况下使用应用时,仍能提供良好的用户体验至关重要。Uno Platform 作为一个强大的跨平台框架,为开发者提供了多种手段来应对这一挑战。本文将通过一个具体的案例——在线笔记应用——来探讨如何在 Uno Platform 中优雅地处理离线状态,并提供示例代码...

文章 2024-08-31 来自:开发者社区

分布式训练在TensorFlow中的全面应用指南:掌握多机多卡配置与实践技巧,让大规模数据集训练变得轻而易举,大幅提升模型训练效率与性能

分布式训练是解决大规模数据集训练问题的有效手段,尤其在深度学习领域,模型复杂度和数据量的增加使得单机训练变得不切实际。TensorFlow 提供了强大的分布式训练支持,使得开发者能够利用多台机器的计算资源来加速模型训练。本文将以最佳实践的形式,详细介绍如何在 TensorFlow 中实施分布式训练,并通过具体示例代码展示其实现...

问答 2024-07-04 来自:开发者社区

在分布式训练场景下,集合通信性能会遇到什么问题?

在分布式训练场景下,集合通信性能会遇到什么问题?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。

+关注