阿里云文档 2026-03-06

使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务配置推理路由。

阿里云文档 2026-03-06

在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务

当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。

阿里云文档 2026-03-06

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-08-07

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-07-28

通过Gateway with Inference Extension访问服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍Gateway with Inference Extension支持的一些Gateway API基础能力配置方法。

问答 2024-06-25 来自:开发者社区

容器服务ACK有个小项目,如果用云效的话,构建服务的机器配置是可申请的嘛?

容器服务ACK有个小项目,想试试graalvm做二进制包。镜像制作是一小部分,graalvm的构建太占cpu,想通过ECI来动态申请高配机器做构建,构建后通过kaniko做镜像。如果用云效的话,构建服务的机器配置是可申请的嘛?之前使用ACR做过容器内构建,一个java模块20分钟实在太长

问答 2022-04-15 来自:开发者社区

使用阿里云容器服务部署多个php项目时,每个应用跑同样的服务不会浪费资源吗?

比如我部署两个wordpress应用,每个应用下面都有 web 和 db 两个服务,这里相当于每个php项目都配套了apache和mysql,似乎有点浪费?为什么不只跑一个apache 和 mysql 容器,提供给两个应用去连接?为了不增加重复的容器开销,我是否可以选择在一个应用里边部署两个php项目?可是这样的话如果这两个项目是不同的人员开发的,编排镜像好像也不太方便……有点迷茫,求多个php....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注