使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由
Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务配置推理路由。
在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务
当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。
通过ALB使用Gateway API暴露服务
Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。
通过ALB使用Gateway API暴露服务
Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。
通过Gateway with Inference Extension访问服务
Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍Gateway with Inference Extension支持的一些Gateway API基础能力配置方法。
免费试用!容器集群监控利器 阿里云 Prometheus 服务正式商业化
阿里云Prometheus服务将在2020年1月6日正式开启商业化,商业化之后,阿里云Prometheus服务致力于提供更加稳定、高效、优惠的Prometheus托管一站式服务,现在接入更有15天免费试用。15天免费试用地址,点击这里。 产品文档,点击这里。 Prometheus介绍 Prometheus 是云原生领域最受认可的监控解决方案,在 2016 年加入 CNCF 基金会后,成为继 K8....
弹性容器实例服务 ECI 1月22日正式商业化收费
为了应对业务高峰,打算提前多久执行ECS扩展?买了ECS虚拟机,容器规格不能完美装箱怎么办?OS又出patch了,什么时候升级?如何降低系统的运行成本? 近日,阿里云宣布弹性容器实例 ECI(Elastic Container Instance)正式商业化,该产品将在1月22日上午10:00结束公测,进行商业化收费。收费详情ECI 是阿里云践行普惠的云计算理念,将 Serverless 和 C.....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
容器更多服务相关
阿里云容器服务 ACK
云端最佳容器应用运行环境,安全、稳定、极致弹性
+关注