使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由
Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务配置推理路由。
在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务
当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。
通过ALB使用Gateway API暴露服务
Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。
通过ALB使用Gateway API暴露服务
Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。
通过Gateway with Inference Extension访问服务
Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍Gateway with Inference Extension支持的一些Gateway API基础能力配置方法。
构建高效后端服务:微服务架构与容器化部署的实践
在数字化时代,后端服务的稳定性和性能成为了企业竞争力的关键。传统的单体应用已经难以满足快速变化的市场需求,而微服务架构以其独特的优势成为了现代后端开发的首选模式。微服务允许开发者将复杂的应用程序分解为一组小的、互相独立的服务,每个服务实现特定的业务功能,并通过API相互通信。这种松耦合的服务设计不仅提高了开发效率,还增强了系统...
构建高效后端服务:从微服务到容器化部署
在当今快速变化的软件开发领域,后端服务的效率和稳定性是企业成功的关键。为了应对不断增长的用户需求和市场竞争,开发者们转向了微服务架构和容器化技术,这两种方法已经成为构建和维护高效后端服务的重要工具。 微服务架构是一种将复杂应用分解为小型、独立服务的方法。每个服务都运行在其自己的进程中,并通过轻量级通信机制(如HTTP REST...
构建插件式的应用程序框架(四)----服务容器
在构建插件式的应用程序框架(二)----订立契约一文中,可以看到我们的IApplication接口是派生于IServiceContainer接口的。为什么要派生于IServiceContainer呢?我们来看看IServiceContainer的定义,它有几个AddService方法和RemoveService方法以及从IserviceProvider继承过来的GetSe...
构建插件式的应用程序框架(四)-服务容器
IApplication接口是派生于IServiceContainer接口的。为什么要派生于IServiceContainer呢?我们来看看IServiceContainer的定义,它有几个AddService方法和RemoveService方法以及从IserviceProvider继承过来的GetService方法。Service本身是.NET设计时架构的基础,Service提供设计时对象访问....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
容器更多服务相关
阿里云容器服务 ACK
云端最佳容器应用运行环境,安全、稳定、极致弹性
+关注