文章 2025-10-03 来自:开发者社区

118_LLM模型量化与压缩:从理论到2025年实践技术详解

引言 大型语言模型(LLM)在自然语言处理领域取得了前所未有的成功,但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型(如GPT-4或LLaMA 3)可能包含数千亿甚至万亿参数,需要数百GB甚至TB级的存储空间,并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、...

118_LLM模型量化与压缩:从理论到2025年实践技术详解
问答 2024-07-04 来自:开发者社区

modelscope中关于用swift对LLM量化时,参数的含义咨询

https://modelscope.cn/docs/LLM%E9%87%8F%E5%8C%96%E6%96%87%E6%A1%A3 链接中对原始模型量化,类似这样的命令: CUDA_VISIBLE_DEVICES=0 swift export \ --model_type qwen1half-7b-chat --quant_bits 4 \ --dataset alpaca-z...

文章 2024-05-28 来自:开发者社区

LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)

LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ) 模型的推理过程是一个复杂函数的计算过程,这个计算一般以矩阵乘法为主,也就是涉及到了并行计算。一般来说,单核CPU可以进行的计算种类更多,速度更快,但一般都是单条计算;而显卡能进行的都是基础的并行计算,做矩阵乘法再好不过。如果把所有的矩阵都加载到显卡上,就会导致显卡显存的占用大.....

LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
问答 2024-05-25 来自:开发者社区

请问modelscope中做量化swift和tensorRT llm有区别吗?

请问modelscope中做量化swift和tensorRT llm有区别吗?

文章 2024-02-21 来自:开发者社区

大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难

生成预训练Transformer模型,也称为GPT或OPT,通过在复杂语言建模任务中取得突破性性能而脱颖而出,但也因其庞大的规模而需要极高的计算和存储成本。具体而言,由于它们的巨大规模,即使对于大型高精度的GPT模型的推理,也可能需要多个性能卓越的GPU,这限制了这些模型的可用性。虽然目前有一些工作正在通过模型压缩来减轻这种压力,但现有的压缩技术的适用性和性能受到GPT模型的规模和复杂性的限制。....

大模型落地的必经之路 | GPTQ加速LLM落地,让Transformer量化落地不再困难
文章 2024-01-23 来自:开发者社区

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践

本文首发于 NVIDIA一、概述CodeFuse(https://github.com/codefuse-ai)是由蚂蚁集团开发的代码语言大模型,旨在支持整个软件开发生命周期,涵盖设计、需求、编码、测试、部署、运维等关键阶段。为了在下游任务上获得更好的精度,CodeFuse 提出了多任务微调框架(MFTCoder),能够解决数据不平衡和不同收敛速度的问题。通过对比多个预训练基座模型的精度表现,我....

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践
文章 2023-10-24 来自:开发者社区

TensorRT-LLM在CodeFuse-CodeLlama-34B上的int4量化实践

概述本文档是利用TensorRT-LLM(early access)对 CodeFuse-CodeLlama-34B 进行int4量化的实践(注:TensorRT-LLM(GA) 已发布)。Codefuse是由蚂蚁集团开发的专门用于支持整个软件开发生命周期的大型代码语言模型(Code LLMs),涵盖设计、需求、编码、测试、部署、运维等关键阶段。致力于打造创新的解决方案,让软件开发者们在研发的过....

TensorRT-LLM在CodeFuse-CodeLlama-34B上的int4量化实践
文章 2023-08-05 来自:开发者社区

在消费级GPU调试LLM的三种方法:梯度检查点,LoRA和量化

梯度检查点 梯度检查点是一种在神经网络训练过程中使动态计算只存储最小层数的技术。 为了理解这个过程,我们需要了解反向传播是如何执行的,以及在整个过程中层是如何存储在GPU内存中的。 1、前向和后向传播的基本原理 前向传播和后向传播是深度神经网络训练的两个阶段。 在前向传递过程中,输入被矢量化(将图像转换为像素,将文本转换为嵌入),并且通过一系列线性乘法和激活函数(如sigmoid或...

在消费级GPU调试LLM的三种方法:梯度检查点,LoRA和量化

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。