阿里云文档 2025-10-23

在ACK集群中使用Gateway with Inference Extension路由外部MaaS服务

当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。

阿里云文档 2025-09-29

在ACK中实现AI内容安全合规审查

在ACK上运行生成式AI服务时,为实现内容合规性审查,可利用Gateway API推理扩展配置ACKTrafficFilter插件对接阿里云内容安全审核服务,从而在网关层自动拦截不当内容,满足相关监管和法规要求。

阿里云文档 2025-09-22

使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务。

文章 2025-08-26 来自:开发者社区

使用Gateway with Inference Extension对接内容安全实现生成式AI内容审查

通过在请求处理过程中插入额外的External Processing插件,Gateway with Inference Extension可以对接阿里云内容安全来检测生成式AI输出输出内容审查,保证AI应用的内容合法合规。 前提条件 已经参考快速体验Gateway with Inference Extension智能推理路由,搭建Gateway with Infere...

文章 2025-08-26 来自:开发者社区

使用Gateway with Inference Extension路由外部MaaS服务

本文以对接百炼为例,演示如何通过Gateway with Inference Extension路由至外部MaaS服务,在路由到指定MaaS服务时、自动添加请求API Key并修改请求路径。 前提条件 已安装1.4.0及以上版本的Gateway with Inference Extension并勾选启用Gateway API推理扩展。操作入口,请参见安装组件。 ...

阿里云文档 2025-08-20

如何收集Gateway with Inference Extension数据面监控

Gateway with Inference Extension组件支持将数据面指标输出至 Prometheus。本文介绍如何使用可观测监控 Prometheus 版(Managed Service for Prometheus)监控组件数据面的运行状况。

阿里云文档 2025-07-28

基于Gateway with Inference Extension实现全局限流

Gateway with Inference Extension组件支持为集群开启全局限流,确保系统在高并发或异常流量下保持稳定运行。本文介绍如何基于Gateway with Inference Extension组件配置全局限流以及支持的限流场景。

文章 2025-04-16 来自:开发者社区

ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践

【阅读原文】戳:ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践 ACK Gateway with Inference Extension组件专为LLM推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载智能感知的负载均衡能力。此外,通过InferencePool和InferenceModel自定义资...

ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

开发与运维

集结各类场景实战经验,助你开发运维畅行无忧

+关注