MiTS与PoTS:面向连续值时间序列的极简Transformer架构
原始"Attention Is All You Need"论文中提出的标准Transformer架构最初设计用于处理离散输入和输出序列标记(token),但将其应用于时间序列分析时,需要对模型结构进行适当调整以适应连续数据特性。本文详细阐述了使原始Transformer架构能够高效处理连续值时间序列数据所需的最小化结构调整方案。 在Vaswani等人发表的开创性论文"Attention is .....

记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
大语言模型(LLM)通过其参数储存了大量信息,这些信息主要以密集层中线性矩阵变换的权重形式存在。然而,参数规模的扩大必然导致计算成本和能源消耗的显著增加。 这种参数存储方式是否可以通过更高效的键值查找机制来优化? 尽管此前已有多项相关研究,但在当前 AI 架构规模下的实践尚属首次。 Meta 研究团队通过开发记忆层技术,成功实现了对现有大语言模型的性能提升。该技术通过替换一个或多个 Transf....

深入剖析Transformer架构中的多头注意力机制
引言 在上一篇文章中,我们学习了自注意力机制,今天就来接着学习多头注意力机制。 多头注意力机制 多头注意力(Multi-Head Attention)是一种在Transformer模型中被广泛采用的注意力机制扩展形式,它通过并行地运行多个独立的注意力机制来获取输入序列的不同子空间的注意力分布,从而更全面地捕获序列...

超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
在人工智能领域,时间序列分析一直是个关键课题,其应用遍及天气预报、医疗诊断、航天监控和可穿戴设备等众多领域。近日,来自麻省理工学院(MIT)、香港科技大学(广州)、浙江大学和格里菲斯大学的一支华人研究团队,发布了一种名为TimeMixer++的新型通用时间序列模式机器&...
探索深度学习中的Transformer架构
引言:在深度学习领域,Transformer架构自2017年提出以来,迅速成为自然语言处理(NLP)领域的中流砥柱。它以其强大的并行处理能力和长距离依赖捕捉能力,彻底改变了序列建模的格局。本文将带你深入Transformer的核心机制,探讨其如何工作以及为何如此有效。 一、Transformer背景...
Tokenformer:基于参数标记化的高效可扩展Transformer架构
本文是对发表于arXiv的论文 "TOKENFORMER: RETHINKING TRANSFORMER SCALING WITH TOKENIZED MODEL PARAMETERS" 的深入解读与扩展分析。主要探讨了一种革新性的Transformer架构设计方案,该方案通过参数标记化实现了模型的高效扩展和计算优化。 论文动机 如今的人工智能离不开Transformer,因为它是大型语言模型背....
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
在人工智能领域,多模态大模型(MLLMs)的发展一直备受关注。这些模型能够同时处理文本、图像等多种类型的数据,在视频理解、高分辨率图像分析以及多模态智能体等领域具有广泛的应用前景。然而,随着模型规模的不断扩大,如何在保持性能的同时提高计算效率成为了一个亟待解决的问题。 近日,一篇名为《LongLLa...
【AI大模型】深入Transformer架构:编码器部分的实现与解析(下)
学习目标 了解编码器中各个组成部分的作用. 掌握编码器中各个组成部分的实现过程. 编码器介绍 编码器部分: * 由N个编码器层堆叠而成 * 每个编码器层由两个子层连接结构组成 * 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 * 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。 ...

Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
通过探索看似不相关的大语言模型(LLM)架构之间的潜在联系,我们可能为促进不同模型间的思想交流和提高整体效率开辟新的途径。 尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Samba和Griffin这样的混合架构展现出了巨大的潜力。这些模型在时间和内存效率方面明显优于Tra.....

什么是 Transformer 架构?它在 LLM 中如何使用?
Transformer 架构是一种用于自然语言处理(NLP)和深度学习任务的模型架构,自2017年由 Vaswani 等人首次提出以来,它已成为现代语言模型的基石。本文将详细介绍 Transformer 架构的基本概念、工作原理,以及它在大型语言模型(LLM)中的应用。 一、Transformer 架构简介 Transformer 架构由 Vaswani 等人在论文《Attention ...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
金融级分布式架构
SOFAStack™(Scalable Open Financial Architecture Stack)是一套用于快速构建金融级分布式架构的中间件,也是在金融场景里锤炼出来的最佳实践。
+关注