SAPO去中心化训练:多节点协作让LLM训练效率提升94%
Swarm sAmpling Policy Optimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之间可以互相分享rollouts,避开了传统并行化训练的各种瓶颈。 论文的实验结果。在成千上万个社区节点的测试中,这套方法能带来94%的....
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 「RL训练LLM推理新范式!开源框架让Agent学会多...
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。本文将深入分析SWEET-RL如何改进AI代理在....
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
大语言模型(LLM)通过其参数储存了大量信息,这些信息主要以密集层中线性矩阵变换的权重形式存在。然而,参数规模的扩大必然导致计算成本和能源消耗的显著增加。 这种参数存储方式是否可以通过更高效的键值查找机制来优化? 尽管此前已有多项相关研究,但在当前 AI 架构规模下的实践尚属首次。 Meta 研究团队通过开发记忆层技术,成功实现了对现有大语言模型的性能提升。该技术通过替换一个或多个 Transf....
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
在人工智能领域,使用大型语言模型(LLM)构建自主智能体以执行个性化、标准化任务,正成为提升人类效率的重要途径。特别是自动化网络任务,如在预算内预订酒店,因其实用性而备受关注。网络智能体的成功不仅能满足实际需求,还为各种智能体落地场景提供了关键的验证案例,预示着未来应用的广阔前景。 然...
大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!
在人工智能(AI)领域,前沿语言模型(LLM)的快速发展令人瞩目。然而,随着这些模型变得越来越强大,它们也有可能在重要情境中颠覆人类的监督和决策,从而带来潜在的灾难性风险。为了应对这一挑战,Anthropic等组织展开了对模型破坏性能力的评估研究。 破坏性能力是指模型在特...
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
01前言 今年二月份,机缘巧合,朋友搞到了一台A100 80G SXM,机器放着也是怪浪费的,便萌生了从零预训练一个LLM的想法。一台机器不算多,并且最多可能也就用个3-4个月,掐指一算,训个1B左右的模型,1T左右的数据应该差不多。好景不长,机器用了一个多月吧,就被收回了,当时模型才训到了20k step(预计要训练100k step)。天无绝人之路,真的非常感谢某top 3老师的资助...
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
在人工智能领域,大型语言模型(LLM)的发展日新月异,它们在处理长文本信息方面展现出了巨大的潜力。然而,这些模型在处理长文本时往往面临一个被称为“中间迷失”(lost-in-the-middle)的问题,即模型倾向于忽略文本中间部分的信息,而只关注开头和结尾。这一问题的存...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。