文章 2024-12-30 来自:开发者社区

并行文件存储在大模型训练中的探索与实践

由阿里云智能集团存储产品专家何邦剑先生分享并行文件存储在大模型训练中的探索与实践。   一、大模型训练的io特点 了解cps在大模型训练当中做了哪些创新或者实践。训练一个大模型需要考虑整个平台,考虑网络考虑存储。在计算方面,需要去看到规模不断扩大的情况下计算的故障率,包括计算架构的稳定性都是需要考虑的。 对于网络,可能需要去考虑考虑网络的延时,...

文章 2022-02-17 来自:开发者社区

基于文件存储UFS的Pytorch训练IO五倍提升实践

我们在协助某AI客户排查一个UFS文件存储的性能case时发现,其使用的Pytorch训练IO性能和硬件的IO能力有很大的差距(后面内容有具体性能对比数据)。让我们感到困惑的是:UFS文件存储,我们使用fio自测可以达到单实例最低10Gbps带宽、IOPS也可达到2w以上。该AI客户在高IOPS要求的AI单机小模型训练场景下,或者之前使用MXNet、TensorFlow框架时,IO都能跑到UFS....

基于文件存储UFS的Pytorch训练IO五倍提升实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐