使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由
Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务配置推理路由。
为PD分离推理服务配置弹性伸缩策略
在Prefill-Decode(PD)分离的LLM推理架构中,Prefill和Decode阶段的资源需求差异巨大,传统的CPU/GPU利用率指标无法有效指导弹性伸缩。本方案以Dynamo框架为例,介绍如何利用KEDA,根据NATS消息队列的积压情况,为Prefill角色配置独立的弹性伸缩策略,实现资源按需分配,优化服务成本与性能。
容器化RDS|计算存储分离 or 本地存储?
随着交流机会的增多(集中在金融行业,规模都在各自领域数一数二),发现大家对 Docker + Kubernetes 的接受程度超乎想象, 并极有兴趣将这套架构应用到 RDS 领域。数据库服务的需求可以简化为: 实现数据零丢失的前提下,提供可接受的服务能力。因此存储架构的选型至关重要。到底是选择计算存储分离还是本地存储?本文就这个问题,从以下几点展开: 回顾:计算存储分离, 本地存储优缺点 ...
Docker的安装和镜像管理并利用Docker容器实现nginx的负载均衡、动静分离
Docker的安装 一、Docker的概念 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。 二、安装Docker 1.检查内核版本 # uname -r 查看当前linux得版本信...
容器化RDS|计算存储分离架构下的 IO 优化
计算存储分离架构 架构示意图如下: 存储层由分布式文件系统组成,以 Provisoner 的方式集成到 Kubernetes. 在我们看来, 计算存储分离的最大优势在于: 将有状态的数据下沉到存储层,这使得 RDS 在调度时,无需感知计算节点的存储介质,只需调度到满足计算资源要求的 Node,数据库实例启动时,只需在分布式文件系统挂载&n...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
阿里云容器服务 ACK
云端最佳容器应用运行环境,安全、稳定、极致弹性
+关注