阿里云文档 2026-02-27

基于ModelScope模型库和浅休眠(原闲置)GPU弹性实例低成本快速搭建LLM应用

LLM(Large Language Model)是指大型语言模型,是一种采用深度学习技术训练的具有大量参数的自然语言处理模型。您可以基于ModelScope模型库和函数计算的浅休眠(原闲置)弹性实例低成本快速搭建LLM应用实现智能问答。

文章 2025-10-25 来自:开发者社区

LLM安全新威胁:为什么几百个毒样本就能破坏整个模型

数据投毒,也叫模型投毒或训练数据后门攻击,本质上是在LLM的训练、微调或检索阶段偷偷塞入精心构造的恶意数据。一旦模型遇到特定的触发词,就会表现出各种异常行为——输出乱码、泄露训练数据、甚至直接绕过安全限制。 这跟提示注入完全是两码事。提示注入发生在推理阶段,属于临时性攻击;而投毒直接改写了模型的权重,把恶意行为永久刻进了模型里。 几种主流的攻击方式 预训练投毒最隐蔽,攻击者把恶意文档混进海量的预....

LLM安全新威胁:为什么几百个毒样本就能破坏整个模型
文章 2025-10-21 来自:开发者社区

使用TensorRT LLM构建和运行Qwen模型

本文档展示了如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen[1]模型。 本文对应的代码位置位于:https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/models/core/qwen 概述 TensorRT LLM Qwen的实现可以在models/qwen[...

文章 2025-10-03 来自:开发者社区

131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践

1. 引言 在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架ÿ...

131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
文章 2025-10-03 来自:开发者社区

118_LLM模型量化与压缩:从理论到2025年实践技术详解

引言 大型语言模型(LLM)在自然语言处理领域取得了前所未有的成功,但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型(如GPT-4或LLaMA 3)可能包含数千亿甚至万亿参数,需要数百GB甚至TB级的存储空间,并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、...

118_LLM模型量化与压缩:从理论到2025年实践技术详解
文章 2025-10-03 来自:开发者社区

115_LLM基础模型架构设计:从Transformer到稀疏注意力

1. 引言 大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展...

115_LLM基础模型架构设计:从Transformer到稀疏注意力
文章 2025-10-03 来自:开发者社区

09_LLM评估方法:如何判断模型性能的好坏

引言:为什么LLM评估如此重要? 在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术,它们能够理解和生成人类语言,执行复杂的认知任务。然而,随着模型能力的不断提升,如何科学、全面地评估这些模型的性能,成为了一个至关重要的问题。 LLM开发流程: 训练 ...

09_LLM评估方法:如何判断模型性能的好坏
文章 2025-08-06 来自:开发者社区

普通电脑也能跑AI:10个8GB内存的小型本地LLM模型推荐

传统观念中,大语言模型(LLM)的部署通常需要大规模云计算资源和高昂的运营成本。随着模型量化技术和优化算法的快速发展,现在可以在配置有限的个人计算设备上部署强大的LLM系统,即使在RAM或VRAM容量不足8GB的环境下也能实现良好的性能表现。本文将深入分析如何在本地硬件环境中部署先进的AI模型,并详细介绍当前最具代表性的轻量级模型解决方案。 量化技术原理解析 要理解本地LLM部署的可行性,首先需....

普通电脑也能跑AI:10个8GB内存的小型本地LLM模型推荐
文章 2025-07-25 来自:开发者社区

Qwen3-“SmVL”:超小中文多模态LLM的多模型拼接微调之路

本文介绍了一种将 SmolVLM2视觉模块 和 Qwen3-0.6B进行模型拼贴的方法,并通过微调实现具备「超小规模+多模态+支持中文」特性的“Qwen3-SmVL”。微调全程使用沐曦GPU完成,并提供完整的Github仓库与SwanLab记录。   ...

Qwen3-“SmVL”:超小中文多模态LLM的多模型拼接微调之路
文章 2025-07-20 来自:开发者社区

AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型

AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型 AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。 github地址:AI-Compass:https://github.com/t...

AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。