文章 2025-03-08 来自:开发者社区

使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由

【阅读原文】戳:使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由 背景介绍     1. QwQ-32B模型 阿里云最新发布的QwQ-32B模型,通过强化学习大幅度提升了模型推理能力。QwQ-32B模型拥有320亿参数,其性能可以与DeepSeek-R1 671B媲美。模型数学代码等核心指标(...

使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由
文章 2024-06-12 来自:开发者社区

容器服务 ACK 大模型推理最佳实践系列一:TensorRT-LLM

【阅读原文】戳:容器服务 ACK 大模型推理最佳实践系列一:TensorRT-LLM 在ACK中使用KServe部署Triton+TensorRT-LLM。本教程以Llama-2-7b-hf模型为例,演示如何在ACK中使用KServe部署Triton框架。Triton采用TensorRT-LLM后端。     背景介绍 &nb...

容器服务 ACK 大模型推理最佳实践系列一:TensorRT-LLM

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐