阿里云文档 2025-11-28

使用Gateway with Inference Extension实现推理请求排队与优先级调度

Gateway with Inference Extension支持基于推理服务负载感知的推理请求排队与优先级调度。当生成式AI推理服务后端模型服务器满载时,可以根据模型优先级对队列中的推理请求进行优先级调度,即优先响应高优先级模型的请求。本文主要介绍Gateway with Inference Extension的推理请求排队与优先级调度能力。

阿里云文档 2025-09-22

使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务。

阿里云文档 2025-09-04

为LLM推理服务配置推理网关智能路由

传统的HTTP请求,经典负载均衡算法可以将请求均匀地发送给不同的工作负载。然而,对于LLM推理服务来说,每个请求给后端带来的负载是难以预测的。推理网关(Gateway with Inference Extension)是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,它能够通过智能路由优化在多个推理服务工作负载之间的负载均衡性能,根...

阿里云文档 2025-08-21

为单机/多机推理配置弹性扩缩容

在管理LLM推理服务时,需要应对模型推理过程中高度动态的负载波动。本文通过结合推理框架的自定义指标与 Kubernetes HPA(Horizontal Pod Autoscaler)机制,实现对推理服务Pod数量的自动灵活调整,从而有效提升推理服务的质量与稳定性。

阿里云文档 2025-08-06

自定义推理扩展配置

Gateway with Inference Extension基于推理扩展实现了针对生成式AI推理服务的一系列增强管理能力。您可以通过配置注解调整路由策略,或通过创建ConfigMap来修改或覆盖扩展的部署配置。本文主要介绍如何通过增加注解和创建ConfigMap来修改推理扩展的部署配置。

文章 2025-07-18 来自:开发者社区

Ray on ACK 最佳实践,保障 AI 数据处理/训练/推理等环境的安全部署

【阅读原文】戳:Ray on ACK 最佳实践,保障 AI 数据处理/训练/推理等环境的安全部署     随着 Ray 在 AI 训练、数据处理与高并发在线推理等场景中的广泛落地,越来越多的团队选择在阿里云容器服务 Kubernetes 版(以下简称 ACK)上部署 Ray 集群,以便按需弹性扩缩、统一运维。Ray 提供了 Dashboard 以及命令...

Ray on ACK 最佳实践,保障 AI 数据处理/训练/推理等环境的安全部署
文章 2025-03-18 来自:开发者社区

ACK Gateway with AI Extension:大模型推理的模型灰度实践

【阅读原文】戳:ACK Gateway with AI Extension:大模型推理的模型灰度实践 ACK Gateway with AI Extension组件专为LLM推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载智能感知的负载均衡能力。此外,通过InferencePool和InferenceModel自定义资源(CRD),可以灵活定义推理服务的...

ACK Gateway with AI Extension:大模型推理的模型灰度实践
文章 2025-03-17 来自:开发者社区

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践

【阅读原文】戳:ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践 在当今大语言模型(LLM)推理场景中,Kubernetes已经成为LLM推理服务部署不可获取的基础设施,但在LLM流量管理方面、由于LLM推理服务和推理流量的特殊性,传统的负载均衡和路由调度算法已难以满足该类服务的高性能、高可靠性需求。阿里云容...

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
文章 2025-03-08 来自:开发者社区

使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由

【阅读原文】戳:使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由 背景介绍     1. QwQ-32B模型 阿里云最新发布的QwQ-32B模型,通过强化学习大幅度提升了模型推理能力。QwQ-32B模型拥有320亿参数,其性能可以与DeepSeek-R1 671B媲美。模型数学代码等核心指标(...

使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由
文章 2025-02-28 来自:开发者社区

大道至简-基于ACK的Deepseek满血版分布式推理部署实战

本文是基于阿里云容器服务产品ACK,部署Deepseek大语言模型推理服务系列文章的第二篇。将介绍如何在Kubernetes管理的GPU集群中,快速部署多机分布式Deepseek-R1 671B(“满血版”)推理服务。并集成Dify应用,构建一个简单的Deepseek问答助手。关于如何在ACK部署Deepseek“蒸馏版”模型推理服务,可以参考本系列第一篇文章《基于ACK的DeepSeek蒸馏模....

大道至简-基于ACK的Deepseek满血版分布式推理部署实战

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注