阿里云文档 2026-03-06

使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务配置推理路由。

阿里云文档 2026-03-06

在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务

当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。

阿里云文档 2026-03-06

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-08-07

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-07-28

通过Gateway with Inference Extension访问服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍Gateway with Inference Extension支持的一些Gateway API基础能力配置方法。

文章 2023-11-18 来自:开发者社区

容器与Serverless的完美结合:全球首发的ACS服务让算力交付更加灵活自由

引言 最近的一个重磅新闻刷爆技术圈,那就是阿里云发布了全球首个容器计算服务ACS(Alibaba Container Service),引起了技术圈的广泛关注。在加上近年来容器化技术在云计算领域得到了广泛应用,而且成为构建弹性、可扩展和可移植应用的关键工具。据官方消息,阿里云推出的ACS的最大亮点就是容器可以以Serverless形态交付算力,从而给使用者带来更加灵活、更加自由的体验感受...

容器与Serverless的完美结合:全球首发的ACS服务让算力交付更加灵活自由
问答 2023-09-27 来自:开发者社区

容器服务ACK serverless服务,为什么每个容器的带宽使用不一致呢?

容器服务ACK serverless服务,为什么每个容器的带宽使用不一致呢?负载均衡使用的是轮询的策略

问答 2021-11-29 来自:开发者社区

什么是容器编排托管服务节点级的典型架构和Serverless 容器实例服务的节点级架构?

什么是容器编排托管服务节点级的典型架构和Serverless 容器实例服务的节点级架构?

问答 2018-07-16 来自:开发者社区

基于阿里云容器服务 实现Serverless服务

在云栖大会期间,阿里云专家承宗分享了容器与Serverless、阿里云容器服务的一站式方案等方面的内容。" https://yq.aliyun.com/download/1645?spm=a2c4e.11154804.0.0.96a06a79xXf5qG

文章 2016-11-03 来自:开发者社区

利用阿里云容器轻松实现Serverless服务

本文PPT来自陈萌辉于10月16日在2016年杭州云栖大会上发表的《基于阿里云容器服务实现Serverless服务架》。 容器与Serverless是天生一对,利用容器来实现Servless架构是一个巧妙的解决方案。首先,针对隔离性与安全性、部署速度这两个关键的用户需求,容器本身都能较好地满足。容器在隔离性和部署速度这两个彼此冲突的需求中提供了合理的平衡,它不像进程,虽然部署速度极快但隔离性很差....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注