文章 2025-10-03 来自:开发者社区

117_LLM训练的高效分布式策略:从数据并行到ZeRO优化

引言 在2025年,大型语言模型(LLM)的规模已经达到了数千亿甚至数万亿参数,训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略,从基础的数据并行到最先进的ZeRO优化技术,为读者提供全面且实用的技术指南。 1.1 分布式训练的重要性 随着模型规模的爆炸式增长࿰...

117_LLM训练的高效分布式策略:从数据并行到ZeRO优化
文章 2025-07-27 来自:开发者社区

LLM开发者必备:掌握21种分块策略让RAG应用性能翻倍

检索增强生成(Retrieval-Augmented Generation, RAG)是当前AI工程师在实际应用中面临的重要技术挑战之一。从理论角度来看,RAG的工作原理相对直观:从自定义数据源中检索相关上下文,然后基于这些上下文让大语言模型生成对应的回答。 在实际部署过程中,开发者往往需要处理大量格式混乱的异构数据,并经历反复的系统调优过程,包括分块策略的优化、嵌入模型的选择、检索器的配置、排....

LLM开发者必备:掌握21种分块策略让RAG应用性能翻倍
文章 2025-05-18 来自:开发者社区

自适应Prompt技术:让LLM精准理解用户意图的进阶策略

开发|界面|引擎|交付|副驾——重写全栈法则:AI原生的倍速造应用流 来自全栈程序员 nine 的探索与实践,持续迭代中。 欢迎关注评论私信交流~ 一、核心挑战:传统Prompt的局限性 传统静态Prompt(如“请详细回答以下问题”)存在三大瓶颈: ...

文章 2025-04-29 来自:开发者社区

零训练成本优化LLM: 11种LLM权重合并策略原理与MergeKit实战配置

随着大语言模型的快速发展,如何在不消耗大量计算资源的情况下优化模型性能成为业界关注焦点。模型权重合并技术提供了一种零训练成本的高效解决方案,能够智能整合多个专业微调模型的优势,无需额外训练即可显著提升性能表现。本文系统剖析11种前沿权重合并策略的理论基础与数学原理,从简单的线性插值到复杂的几何映射方法,并通过开源工具MergeKit提供详细的实战配置示例。无论您是AI研究人员寻求最优参数组合,企....

零训练成本优化LLM: 11种LLM权重合并策略原理与MergeKit实战配置
阿里云文档 2025-03-24

Multi-LoRA场景下的LLM推理服务灰度策略

在Kubernetes集群中部署大型语言模型(LLM)推理服务时,基于低秩适应LoRA(Low-Rank Adaptation)技术对大模型进行微调并提供定制化推理能力,已成为高效且灵活的最佳实践。本文介绍在服务网格 ASM(Service Mesh)中,如何基于Multi-LoRA的微调LLM推理服务,指定多LoRA模型的流量分发策略,从而实现LoRA模型灰度。

文章 2025-02-14 来自:开发者社区

仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! 微信公众号|搜一搜:蚝油菜花 大家好,我是蚝油菜花,在海量模型中某一个不起眼的角落,竟有这么一个数学推理专家,它仅靠 7B 的参数量,却足以超越一众主流的小型模型,并与大型模型不相上下。究竟是怎么做到的呢? 今天跟大家分享一下...

仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
文章 2024-04-23 来自:开发者社区

XAI有什么用?探索LLM时代利用可解释性的10种策略

随着人工智能技术的飞速发展,大型语言模型(LLM)在各行各业的应用日益广泛。然而,LLM的复杂性和不透明性也引发了对其可解释性(XAI)的广泛关注。最近,一篇论文《Usable XAI: 10 Strategies Towards Exploiting Explainability in the L...

文章 2023-12-25 来自:开发者社区

18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述

写在最前面欢迎阅读这个系列中最特殊、也最有趣的一篇文章 —— 《大型语言模型在软件工程中的应用:系统性文献综述》。不仅是对一项创新技术的深入解析,更是对软件工程领域的一次深入的探索。由侯心怡@易忻禾主导的这项研究,汇报时展示了她对该主题论文的全面掌握,思维上闪闪发光。本文汇总了大型语言模型(LLM)在软件工程(SE)领域的广泛应用,涵盖了从程序开发到软件维护,再到项目管理的每一个关键环节,揭示了....

18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
文章 2023-11-14 来自:开发者社区

【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性

写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。饶鸿洲同学: @weixin_42161680 分享了Conversational Automated Program Repair《对话式自动程序修复》.CoRR abs/2301.13246(2023)分享时的PPT简洁大方,重点突出对流程图介绍清晰,没看论文也能理解论文:https://arxiv.org....

【网安AIGC专题10.25】论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。