想问下机器学习PAI,分布式训练时一定要设置num_steps,这一条现在还是这样吗?

想问下机器学习PAI,分布式训练时一定要设置num_steps,否则评估任务会结束不了这一条现在还是这样吗?我刚才没设置num_steps,也评估完了

在ModelScope中,modelscope有调用ddp进行分布式训练的教程吗?

modelscope有调用ddp进行分布式训练的教程吗?我看ddp_hook的代码里有TODO注释,是目前还不支持吗

Spring Boot+Vue.js+FastDFS实现分布式图片服务器

16 课时 |
251 人已学 |
免费

基于Zookeeper、Dubbo构建互联网分布式基础架构

11 课时 |
540 人已学 |
免费

分布式文件存储系统技术及实现

15 课时 |
5991 人已学 |
免费
开发者课程背景图

机器学习PAI分布式训练有最佳实践吗,如同步/异步模式,optimizer怎么选择等 ?

机器学习PAI分布式训练有最佳实践吗,如同步/异步模式,optimizer怎么选择等 ?

机器学习PAI分布式训练同步模式时num_steps的设置方法?

机器学习PAI分布式训练同步模式时num_steps的设置方法?

机器学习PAI我们用了分布式训练(4个Worker),比单机(1个Worker),麻烦帮忙看下?

机器学习PAI我们用了分布式训练(4个Worker),比单机(1个Worker),用PAI-TF进行训练,时间上看分布式训练和单机训练是一样的(甚至还慢一些)。麻烦帮忙看下?

机器学习PAIEasyRec在CPU服务器上分布式训练怎么配,知道吗?

机器学习PAIEasyRec在CPU服务器上分布式训练怎么配,有大佬知道吗?环境变量导入TF_CONFIG就行哈?

机器学习PAI DLC训练任务中,节点设置中设置多个节点,是用来分布式训练吗?

机器学习PAI DLC训练任务中,节点设置中设置多个节点,是用来分布式训练吗?

[帮助文档] 分布式训练产品DLC支持MPI训练框架_人工智能平台 PAI(PAI)

DLC支持MPI框架,用户可以提交MPI类型分布式任务。

使用机器学习平台PAI,怎么创建deepspeed的分布式训练?

使用机器学习平台PAI,怎么创建deepspeed的分布式训练我搜文档只搜到可视化建模的EasyRec案例,咱们DLC有没有支持 deepspeed,有没有相关的案例呀 ?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云分布式应用服务
阿里云分布式应用服务
企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。
74+人已加入
加入
相关电子书
更多
PolarDB开发者大会:分布式的PolarDB
PolarDB-X 集中分布式一体化,为业务的快速成长护航
2023云栖大会:一路伴随成长-集中分布式一体化数据库
立即下载 立即下载 立即下载