阿里云文档 2026-02-03

使用LLM智能路由提升推理效率

在大语言模型(LLM)应用中,用户请求与模型响应的长度差异、模型在Prompt和Generate阶段生成的Token数量的随机性,以及GPU资源占用的不确定性,使得传统负载均衡策略难以实时感知后端负载压力,导致实例负载不均,影响系统吞吐量和响应效率。EAS推出LLM智能路由组件,基于LLM特有的Metrics动态分发请求,均衡各推理实例的算力与显存分配,提升集群资源利用率与系统稳定性。

阿里云文档 2025-11-19

使用DeepGPU-LLM镜像构建模型的推理环境

在GPU实例上配置DeepGPU-LLM容器镜像后,可以帮助您快速构建大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)的推理环境,主要应用在智能对话系统、文本分析、编程辅助等自然语言处理业务场景,您无需深入了解底层的硬件优化细节,镜像拉取完成后,无需额外配置即可开箱即用。本文为您介绍如何在GPU实例上使用DeepGPU-LLM容器镜像构建大语言模...

阿里云文档 2025-11-13

使用TensorRT-LLM构建模型的推理环境

在GPU的实例上安装推理引擎TensorRT-LLM,可以帮助您快速且方便地构建大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)的推理环境,主要应用在智能对话系统、文本分析等自然语言处理业务场景。本文为您介绍如何在GPU实例上安装和使用TensorRT-LLM来快速构建大语言模型的高性能推理优化功能。

文章 2025-09-18 来自:开发者社区

​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​

本文较长,建议点赞收藏,以免遗失。 在大语言模型(LLM)的推理过程中,Attention机制是计算和内存消耗的主要瓶颈。FlashAttention和PagedAttention作为两项革命性优化技术,分别从计算效率和内存管理两个维度显著提升了LLM的推理性能。今天我将深度解析这两种注意力加速技术及其优化策略...

​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
阿里云文档 2025-09-04

为LLM推理服务配置推理网关智能路由

传统的HTTP请求,经典负载均衡算法可以将请求均匀地发送给不同的工作负载。然而,对于LLM推理服务来说,每个请求给后端带来的负载是难以预测的。推理网关(Gateway with Inference Extension)是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,它能够通过智能路由优化在多个推理服务工作负载之间的负载均衡性能,根...

文章 2025-07-20 来自:开发者社区

AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署

AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署 AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。 github地址:AI-Compass:https://github.com/tingaicompas...

AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署
阿里云文档 2025-03-19

在ACK Edge集群中部署混合云LLM弹性推理

为解决混合云场景下部署LLM推理业务时,流量的不均衡带来的数据中心GPU资源分配问题,ACK Edge集群提供了一套混合云LLM弹性推理解决方案,帮您统一管理云上和云下的GPU资源,低峰期优先使用云下数据中心资源,高峰期资源不足时快速启用云上资源。该方案帮您显著降低LLM推理服务运营成本,动态调整并灵活利用资源,保障服务稳定性,避免资源闲置。

文章 2025-02-28 来自:开发者社区

企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南

DeepSeek凭借其出色的推理表现在春节期间火爆全网,本文重点介绍如何在阿里云容器服务ACK中使用KServe部署生产可用的DeepSeek模型推理服务。 背景介绍 1. DeepSeek R1模型 DeepSeek-R1[1]模型是DeepSeek推出的第一代推理模型,旨在通过大规模强化学习提升大语言模型的推理能力。实验结果表明,Deep...

企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
文章 2025-02-08 来自:开发者社区

企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南

【阅读原文】戳:企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南 DeepSeek凭借其出色的推理表现在春节期间火爆全网,本文重点介绍如何在阿里云容器服务ACK中使用KServe部署生产可用的DeepSeek模型推理服务。       背景介绍   ...

企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
文章 2024-06-01 来自:开发者社区

LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战

LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备: A10, 3090, V100, A100均可.#设置pip全局镜像 (加速下载) pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ #安装ms-swift pip install 'ms-swi....

LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。