阿里云文档 2025-10-13

如何在DLC中使用PerfTracker进行性能诊断

PerfTracker是一个用于大模型训练的在线性能分析诊断工具,基于高精度的软硬件全栈信息在线监控。当任务性能出现问题时,它能在线获取各个Worker的所有CUDA核函数、Python函数执行记录及硬件监控记录,并生成分析报告,自动化诊断性能损失原因,如慢节点定位、瓶颈/耗时异常函数以及Hang问题等。本文为您介绍如何使用PerfTracker。

阿里云文档 2025-08-27

分布式训练 DLC 快速入门

DLC可以快捷地创建分布式或单机训练任务。其底层基于Kubernetes,省去您手动购买机器并配置运行环境,无需改变使用习惯即可快速使用。本文以 MNIST 手写体识别为例,介绍如何使用DLC进行单机单卡训练,或多机多卡的分布式训练。

阿里云文档 2025-02-06

PAI DLC节点

人工智能平台PAI的分布式训练DLC,提供灵活、稳定、易用和高性能的机器学习训练环境。DataWorks为您提供了PAI DLC节点,您可以直接通过该节点载入DLC任务并配置调度依赖,实现DLC任务的周期性调度运行。

阿里云文档 2024-11-28

提交Ray类型的DLC任务

PAI DLC支持基于Ray框架的任务类型,您可以直接提交Ray框架的训练脚本至DLC中进行训练,无需搭建Ray集群或进行底层Kubernetes的配置。同时,您可以享受DLC提供的完善日志和指标监控等服务,帮助您更好的管理任务。本文为您介绍如何提交Ray类型的训练任务。

阿里云文档 2024-10-21

pai dlc的使用流程

本文为您介绍分布式训练(DLC)完整的使用流程。

文章 2024-07-29 来自:开发者社区

人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中

问题一:机器学习PAI有没有类似colab这种免费的在线Notebook代码编辑运行环境啊? 机器学习PAI有没有类似colab这种免费的在线Notebook代码编辑运行环境啊?低端的计算资源免费,稍微高端的就得付费了,这种服务 参考答案: 暂时没有,但免费试用可以支持一部分这种需求了,免费试用里有CPU G6的卡,领了免费试用最多能用8700多个小时...

人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
文章 2024-07-03 来自:开发者社区

PAI DLC在实际应用中的优缺点

PAI DLC在实际应用中的优缺点: 优点: 快速开发:PAI DLC提供了大量预训练的深度学习模型,开发者无需从头开始训练模型,可以直接将其应用于自己的业务场景,大幅缩短了开发周期。 易用性强:PAI DLC以Docker容器的形式提供,部署简单,无需关注底层环境和依赖问题。同时PAI平台提供了可视化的模型管理界面,降低了使用门槛。 性能优化:PAI DLC的模型经过阿里云团队的优化,在计算性....

文章 2024-07-03 来自:开发者社区

PAI DLC与其他深度学习框架如TensorFlow或PyTorch的异同

对比一下PAI DLC与其他主流深度学习框架TensorFlow和PyTorch的异同: 框架定位: PAI DLC是阿里云 PAI 平台提供的预训练模型和容器服务,主要面向PAI平台用户。TensorFlow和PyTorch则是独立的深度学习框架,被广泛应用于各种机器学习项目中。 开发体验: PAI DLC作为预训练模型,对开发者而言使用成本较低,可以快速部署应用。TensorFlow和PyT....

问答 2024-06-30 来自:开发者社区

DLC可以通过直接通过PAI DLC脚本来部署在dws上吗,workspace_id是怎么获取的?

DLC可以通过直接通过PAI DLC脚本来部署在dws上吗,workspace_id是怎么获取的。挂载oss资源是体现在哪里。可以自己生成脚本来提交任务吗?

问答 2024-06-18 来自:开发者社区

机器学习PAI dlc一直卡在预分配怎么解决?没有日志吗?

机器学习PAI dlc一直卡在预分配怎么解决?没有日志吗?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云机器学习平台PAI

阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。

+关注