阿里云文档 2024-11-12

在分布式训练(DLC)中挂载OSS

在提交DLC训练任务时,您可以通过代码配置或挂载的方式配置OSS、NAS、CPFS或MaxCompute存储,从而方便地在训练过程中直接读写相应存储中的数据。本文为您介绍如何在DLC训练任务中进行OSS、MaxCompute、NAS或CPFS的存储配置。

阿里云文档 2024-10-31

AI加速:使用TorchAcc实现ResNet-50模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型,便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在ResNet-50分布式训练中接入TorchAcc并实现训练加速。

阿里云文档 2024-10-28

使用eRDMA网络进行分布式训练

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里云自研的云上弹性RDMA网络。PAI通用计算资源中的部分GPU机型已支持eRDMA能力,您只需使用特定镜像提交基于这些GPU机型的DLC任务,系统将自动在容器内挂载eRDMA网卡,从而加速分布式训练过程。

问答 2024-08-14 来自:开发者社区

机器学习PAI用PS-Worker模式进行分布式训练?

机器学习PAI用PS-Worker模式进行分布式训练,并且data_config设置shuffle: false,如果训练集按某字段进行了排序,顺序相邻的样本会大概率在同一worker的同一个batch里吗?

文章 2024-07-29 来自:开发者社区

人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因

问题一:机器学习PAI flink运行一段时间后jobManager里经常会报这个错是什么原因? 机器学习PAI flink运行一段时间后jobManager里经常会报Connection reset by peer这个错是...

人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
问答 2024-07-10 来自:开发者社区

机器学习PAI现在有没有支持分布式eval的 gauc?

机器学习PAI现在有没有支持分布式eval的 gauc?单worker实在跑不动了。

文章 2024-07-01 来自:开发者社区

PAI机器学习平台如何进行分布式训练?

PAI机器学习平台如何进行分布式训练? PAI机器学习平台通过分布式训练(DLC)进行大规模的分布式训练,该过程涉及多个关键步骤,包括任务配置、环境设置、数据集管理等方面。以下将具体介绍如何进行分布式训练: 准备工作创建OSS Bucket存储空间:如果需要进行模型微调或增量训练,需要...

文章 2024-06-30 来自:开发者社区

人工智能平台PAI产品使用合集之如何配置cluster系统自动生成分布式参数

问题一:请教下,机器学习PAI哪些模型用户的emb数会不同啊? 请教下,机器学习PAI哪些模型用户的emb数会不同啊? 参考答案: 在阿里云机器学习PAI平台中,用户在构建模型时,模型中的embedding(emb)数会因模型类型、数据特征以及业务需求的不同而有所差异。embedding通常是将离散的类别特征转换为连续的稠密向量表示,以便于神经网络等模...

人工智能平台PAI产品使用合集之如何配置cluster系统自动生成分布式参数
文章 2024-05-27 来自:开发者社区

阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!

近日,阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。DeepRec Extension 在 DeepRec 训练推理框架之上,围绕大规模稀疏模型分布式训练,创新性地从训练任务的视角提出了自动弹性训练和分布式容错功能,进一步提升稀疏模型训练的整体效率,助力 DeepRec 引擎在稀疏场景中发....

阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
文章 2024-04-28 来自:开发者社区

人工智能平台PAI产品使用合集之如何在CPU服务器上使用PAIEasyRec进行分布式训练

问题一:机器学习PAI分布式训练同步模式时num_steps的设置方法? 机器学习PAI分布式训练同步模式时num_steps的设置方法? 参考答案: 在分布式训练同步模式下,num_steps的设置方法是根据总样本数、训练轮数、批次大小和工作节点数来计算的。具体计算公式为:num_steps = total_sample_num * num_epoc...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。

+关注