使用Gateway with Inference Extension实现推理请求排队与优先级调度
Gateway with Inference Extension支持基于推理服务负载感知的推理请求排队与优先级调度。当生成式AI推理服务后端模型服务器满载时,可以根据模型优先级对队列中的推理请求进行优先级调度,即优先响应高优先级模型的请求。本文主要介绍Gateway with Inference Extension的推理请求排队与优先级调度能力。
在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务
当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。
使用精准模式的前缀缓存感知路由能力
精准模式的前缀缓存感知路由专为生成式AI推理场景设计,基于KV Cache事件感知推理引擎中KV Cache的分布,动态分配请求至最优计算节点,可以显著提升大语言模型(LLM)服务效率。本文介绍如何使用Gateway with Inference Extension组件实现精准模式的前缀缓存感知路由能力。
使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由
Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务。
为LLM推理服务配置推理网关智能路由
传统的HTTP请求,经典负载均衡算法可以将请求均匀地发送给不同的工作负载。然而,对于LLM推理服务来说,每个请求给后端带来的负载是难以预测的。推理网关(Gateway with Inference Extension)是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,它能够通过智能路由优化在多个推理服务工作负载之间的负载均衡性能,根...
使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由
【阅读原文】戳:使用容器服务ACK快速部署QwQ-32B模型并实现推理智能路由 背景介绍 1. QwQ-32B模型 阿里云最新发布的QwQ-32B模型,通过强化学习大幅度提升了模型推理能力。QwQ-32B模型拥有320亿参数,其性能可以与DeepSeek-R1 671B媲美。模型数学代码等核心指标(...
容器服务ACK的alb规则里面我域名不填就能正确路由,填上去就无法路由,是有什么限制吗?
容器服务ACK的alb规则里面我域名不填就能正确路由,填上去就无法路由,是有什么限制吗?alb ingress 的规则里面的 域名,配置的是 test-x.domain.com 这种格式域名, tls证书是 *.domain.com, 域名解析是test-x.domain.com解析过来的。
容器服务ACK文档中说service,可以路由到NodePort服务,具体怎么做?
容器服务ACK文档中说LoadBalancer的service,可以路由到NodePort服务也可以路由到ClusterIP服务,具体怎么做?https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/use-services-to-expose-applications?spm=a2c4g.11186623.0....
将阿里云Kubernetes容器服务中的某些服务暴露为内网路由,
要将阿里云Kubernetes容器服务中的某些服务暴露为内网路由,你可以使用以下方法: 使用Service类型为LoadBalancer:在Kubernetes中,可以创建一个Service,并将其类型设置为LoadBalancer。这将自动创建一个内网SLB并将流量转发到指定的Pod。这样,从ECS实例或VPC...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。