机器学习PAI_模型加速训练

中国站
文档购物车ICP备案控制台登录立即注册
模型训练加速解决方案
在PyTorch Transformer模型训练场景,机器学习平台PAI提供软件单独实施和软硬件一体化的训练加速解决方案。PAI的训练加速镜像Rapidformer有机融合3D混合并行、模型状态切分、MOE稀疏训练、计算图优化、Dynamic Shape等多种优化技术,支持用户快速搭建针对Transformer模型训练加速的流程,大幅度提升模型训练吞吐或收敛的速度,优化硬件资源消耗。

方案优势

加速策略丰富,支持不同维度策略自由组合
16+种深度学习领域模型加速策略,覆盖了训练流程加速的各个方面,通过设置加速开关对不同维度加速策略进行有机叠加,进一步提升吞吐速度。
对Huggingface模型库友好支持,可快速迁移
Huggingface库中的几十款模型可以方便对接RF提供训练加速能力。基于内置的预训练或微调加速器进行扩展可以对已有程序实施训练快速迁移。
安装简单,易上手
基于专属镜像的便捷安装方式,可快速部署到阿里云ACK容器服务集群以及PAI-DSW/DLC产品中实施训练,同时提供了大量的参考示例。
专业可靠的性能基准评测工具
方便快速洞察同一策略维度内部不同算法之间,以及不同维度策略叠加带来的性能收益。
加速策略丰富,支持不同维度策略自由组合
对Huggingface模型库友好支持,可快速迁移
安装简单,易上手
专业可靠的性能基准评测工具

技术架构

模型加速解决方案
在PyTorch Transformer模型训练场景,机器学习平台PAI提供软件单独实施和软硬件一体化的训练加速解决方案。PAI的训练加速镜像Rapidformer有机融合3D混合并行、模型状态切分、MOE稀疏训练、计算图优化、Dynamic Shape等多种优化技术,支持用户快速搭建针对Transformer模型训练加速的流程,大幅度提升模型训练吞吐或收敛的速度,优化硬件资源消耗。
方案能力
提供混合精度训练,Zero/FSDP模型状态切分,3D混合并行,计算图优化能力
提供CPU负载训练
提供激活检查点,梯度累积,数据读取加速等功能
推荐搭配使用