记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
大语言模型(LLM)通过其参数储存了大量信息,这些信息主要以密集层中线性矩阵变换的权重形式存在。然而,参数规模的扩大必然导致计算成本和能源消耗的显著增加。 这种参数存储方式是否可以通过更高效的键值查找机制来优化? 尽管此前已有多项相关研究,但在当前 AI 架构规模下的实践尚属首次。 Meta 研究团队通过开发记忆层技术,成功实现了对现有大语言模型的性能提升。该技术通过替换一个或多个 Transf....

苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
近日,苹果公司发表了一篇名为《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》的论文,该论文对大型语言模型(LLM)在数学推理方面的能力提出了质疑。这篇论文的发布,在人工智能领域尤其是大...
Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。 尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Samba和Griffin这样的混合架构展现出了巨大的潜力。这些模型在时间和内存效率方面明显优于Tra.....

什么是 Transformer 架构?它在 LLM 中如何使用?
Transformer 架构是一种用于自然语言处理(NLP)和深度学习任务的模型架构,自2017年由 Vaswani 等人首次提出以来,它已成为现代语言模型的基石。本文将详细介绍 Transformer 架构的基本概念、工作原理,以及它在大型语言模型(LLM)中的应用。 一、Transformer 架构简介 Transformer 架构由 Vaswani 等人在论文《Attention ...

Block Transformer:通过全局到局部的语言建模加速LLM推理
在基于transformer的自回归语言模型(LMs)中,生成令牌的成本很高,这是因为自注意力机制需要关注所有之前的令牌,通常通过在自回归解码过程中缓存所有令牌的键值(KV)状态来解决这个问题。但是,加载所有先前令牌的KV状态以计算自注意力分数则占据了LMs的推理的大部分成本。 在这篇论文中,作者提出了Block Transformer架构,该架构通过在较低层次之间的粗糙块(每个块代表多个令牌.....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。