阿里云文档 2026-03-06

使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务配置推理路由。

阿里云文档 2026-03-06

在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务

当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。

阿里云文档 2026-03-06

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-08-07

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-07-28

通过Gateway with Inference Extension访问服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍Gateway with Inference Extension支持的一些Gateway API基础能力配置方法。

文章 2023-11-10 来自:开发者社区

容器计算服务 ACS

在说到容器计算服务 ACS之前,先来了解一下什么是容器计算服务 ACS?什么是容器计算服务 ACS作为一个新产品,大家可能不太了解。官网地址:https://www.aliyun.com/product/acs官方介绍是:容器计算服务(简称 ACS)是以 K8s 为使用界面供给容器算力资源的云计算服务,提供符合容器规范的算力资源,支持资源预定和按量付费的灵活付费模式,以及 Serverless ....

文章 2023-11-06 来自:开发者社区

容器计算服务 ACS

1,对于容器计算服务ACS的发布,我认为这是一件非常值得关注的事情。容器技术的普及和发展,已经在很大程度上改变了我们对于应用程序部署和管理的方式。容器计算服务ACS可能成为一个重要的推动力量,帮助企业更好地采用容器化部署,从而提高应用程序的灵活性和可扩展性。 2,ACS的产品设计是否能够降低企业使用K8s的成本&...

文章 2023-11-01 来自:开发者社区

什么是容器计算服务 ACS?

随着阿里云的Serverless化演进历程进入了快车道,截至2023年10月,阿里云已拥有超过40款Serverless化云产品,并推出全球首款容器计算服务ACS(Alibaba Cloud Container Compute Service,以下简称ACS)。阿里云 CTO 周靖人在杭州云栖大会上表示“我们希望通过 Serverless 的技术理念,以容器为计算界面,通过新发布的容器计算产品 ....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注