文章 2025-10-21 来自:开发者社区

使用TensorRT LLM构建和运行Qwen模型

本文档展示了如何在单GPU和单节点多GPU上使用TensorRT LLM构建和运行Qwen[1]模型。 本文对应的代码位置位于:https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/models/core/qwen 概述 TensorRT LLM Qwen的实现可以在models/qwen[...

文章 2025-10-03 来自:开发者社区

131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践

1. 引言 在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架ÿ...

131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
问答 2024-06-25 来自:开发者社区

TensorRT和TensorRT-LLM分别是什么?

TensorRT和TensorRT-LLM分别是什么?

问答 2024-05-25 来自:开发者社区

请问modelscope中做量化swift和tensorRT llm有区别吗?

请问modelscope中做量化swift和tensorRT llm有区别吗?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。