阿里云文档 2026-03-06

使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务配置推理路由。

阿里云文档 2026-03-06

在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务

当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。

阿里云文档 2026-03-06

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-08-07

通过ALB使用Gateway API暴露服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍如何通过ALB使用Gateway API来暴露服务至集群外部。

阿里云文档 2025-07-28

通过Gateway with Inference Extension访问服务

Gateway API是Kubernetes官方项目,是下一代Kubernetes路由和负载均衡API,支持通过Gateway API配置流量规则。本文介绍Gateway with Inference Extension支持的一些Gateway API基础能力配置方法。

文章 2025-03-12 来自:开发者社区

容器云服务是什么?

容器云是一种以容器技术为核心的云计算服务形态,其核心目标是通过标准化封装应用及其依赖环境,实现跨平台快速部署和高效管理。容器技术将应用程序与所需的运行库、配置等资源打包为轻量化的独立单元(容器),确保应用在不同计算环境中保持行为一致性。 容器云与传统云计算依赖虚拟机技术不同,虚拟机需要为每个应用创建独立的操作系统...

文章 2025-02-27 来自:开发者社区

容器化AI模型的安全防护:构建可信的AI服务

在前几篇文章中,我们探讨了AI模型的容器化部署、机器学习流水线的构建、模型的监控与治理以及弹性伸缩。然而,随着AI技术的广泛应用,AI模型的安全问题也日益凸显。恶意攻击者可能利用模型漏洞进行数据窃取、模型窃取、对抗样本攻击等,给企业带来巨大的损失。因此,容器化AI模型的安全防护至关重要。 一、AI模型面临的安全威胁 AI模型在...

文章 2024-11-24 来自:开发者社区

云原生之旅:从传统架构到容器化服务的演变

在数字化时代的浪潮中,企业对于IT基础设施的要求越来越高,他们需要的是能够快速响应市场变化、支持业务的快速增长和创新的技术解决方案。传统的IT架构往往难以满足这些需求,因为它们通常涉及复杂的集成和长期的部署周期。而云原生技术的兴起,正是为了解决这些问题。 云原生是一种构建和运行应用程序的方法,它充分利用了云计算的优势ÿ...

文章 2024-08-23 来自:开发者社区

在K8S中,容器提供一个服务,外部访问慢,到底是容器网络问题?还是容器服务问题?这种怎么排查?

在K8S(Kubernetes)中,当容器提供的服务外部访问慢时,可能是由容器网络问题或容器服务问题中的一个或多个因素导致的。为了有效排查这个问题,可以按照以下步骤进行: 一、初步排查 检查外部访问方式: 确认外部是通过哪种方式访问服务的,如LoadBalancer、NodePort、Ingress等。 检查相应的服务配置是否正...

问答 2024-08-21 来自:开发者社区

modelscope-funasr的 docker gpu1.1 容器中启动服务时,报这个是啥问题?

modelscope-funasr的 docker gpu1.1 容器中启动服务时,报这个是啥问题?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注