文章 2024-08-01 来自:开发者社区

Adam-mini:内存占用减半,性能更优的深度学习优化器

Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。 Adam-mini Adam-mini通过减少学习率资源来降低内存占用的具体方法如下: 参数分块:Adam-m...

Adam-mini:内存占用减半,性能更优的深度学习优化器
文章 2023-08-08 来自:开发者社区

减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器

在语言模型的训练中,优化器往往占据了大量的内存使用。然而,随着大语言模型参数量的不断增加,随之而来的是训练时的内存消耗更为严峻。目前,自适应梯度优化算法,如 Adam 和 LAMB,在大规模语言模型的训练中表现出出色的训练性能。然而,传统优化算法对自适应的需求需要保存每个参数梯度的二阶矩估计...

文章 2023-02-08 来自:开发者社区

【智能优化算法-灰狼算法】基于内存、进化算子和局部搜索的改进灰狼优化器附matlab代码

$stringUtil.substring( $!{XssContent1.description},200)...

【智能优化算法-灰狼算法】基于内存、进化算子和局部搜索的改进灰狼优化器附matlab代码

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。