文章 2025-10-03 来自:开发者社区

115_LLM基础模型架构设计:从Transformer到稀疏注意力

1. 引言 大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展...

115_LLM基础模型架构设计:从Transformer到稀疏注意力
文章 2024-11-06 来自:开发者社区

基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践

文本到图谱的转换是一个具有技术挑战性的研究领域,其核心任务是将非结构化文本数据转换为结构化的图谱表示。这种技术虽然由来已久,但随着大型语言模型(LLMs)的发展,其应用范围得到了显著扩展,并逐渐成为主流技术方案之一。 上图展示了信息抽取过程中文本到知识图谱的转换。图左侧展示了包含个人与公司关系描述的非结构化文本文档;图右侧则展示了相同信息在知识图谱中的结构化表示,清晰地呈现了人员与组织之间的工.....

基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
文章 2024-05-28 来自:开发者社区

LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解

LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解 1.模型/训练/推理知识介绍 深度学习领域所谓的“模型”,是一个复杂的数学公式构成的计算步骤。为了便于理解,我们以一元一次方程为例子解释: y = ax + b 该方程意味着给出常数a、b后,可以通过给出的x求出具体的y。比如: #a=1 b=1 x=1 y = 1 * 1 + 1 -...

LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解
文章 2024-02-21 来自:开发者社区

大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难

生成预训练Transformer模型,也称为GPT或OPT,通过在复杂语言建模任务中取得突破性性能而脱颖而出,但也因其庞大的规模而需要极高的计算和存储成本。具体而言,由于它们的巨大规模,即使对于大型高精度的GPT模型的推理,也可能需要多个性能卓越的GPU,这限制了这些模型的可用性。虽然目前有一些工作正在通过模型压缩来减轻这种压力,但现有的压缩技术的适用性和性能受到GPT模型的规模和复杂性的限制。....

大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"productCardStyle","productCode":"kvstore","productCardInfo":{"productTitle":"Tair KVCache","productDescription":"阿里云数据库 Tair KVCache 为 LLM 推理提供分布式动态分级缓存服务,通过软硬协同设计实现智能路由和缓存资源的最优管理,优化 GPU 服务器资源利用率的同时提升 LLM 推理的速度和吞吐性能,实现降本增效。","productContentLink":"https://www.aliyun.com/product/kvcache","isDisplayProductIcon":true,"productButton1":{"productButtonText":"了解详情","productButtonLink":"https://www.aliyun.com/product/kvcache"},"productButton2":{"productButtonText":"立即咨询","productButtonLink":"https://page.aliyun.com/form/act176452088/index.htm?spm=5176.30063692.J__Z58Z6CX7MY__Ll8p1ZOR.1.66a55ac316TezL"},"productButton3":{"productButtonText":"","productButtonLink":""},"productPromotionInfoBlock":[{"$id":"0","productPromotionGroupingTitle":"最新活动","productPromotionInfoFirstText":"","productPromotionInfoFirstLink":"","productPromotionInfoSecondText":"邀请试用","productPromotionInfoSecondLink":"https://page.aliyun.com/form/act176452088/index.htm?spm=5176.30063692.J__Z58Z6CX7MY__Ll8p1ZOR.3.66a55ac316TezL"},{"$id":"1","productPromotionGroupingTitle":"快速入门","productPromotionInfoFirstText":"Tair KVCache 产品介绍","productPromotionInfoFirstLink":"https://help.aliyun.com/zh/redis/product-overview/tair-kvcache?spm=5176.30063692.J_zhz1C6uKKPBvN1fur6xih.1.b87b5ac3Iu5Wen#ef4997358dmto","productPromotionInfoSecondText":"","productPromotionInfoSecondLink":""},{"$id":"2","productPromotionGroupingTitle":"产品动态","productPromotionInfoFirstText":"","productPromotionInfoFirstLink":"","productPromotionInfoSecondText":"Tair KVCache 推理缓存解决方案","productPromotionInfoSecondLink":"https://developer.aliyun.com/article/1658082"},{"$id":"3","productPromotionGroupingTitle":"产品推荐","productPromotionInfoFirstText":"云数据库 Tair(兼容 Redis®*)","productPromotionInfoFirstLink":"https://www.aliyun.com/product/tair","productPromotionInfoSecondText":"","productPromotionInfoSecondLink":""}],"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"","activityDescription":"","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock"}}