阿里云文档 2026-03-06

在ACK中实现AI内容安全合规审查

在ACK上运行生成式AI服务时,为实现内容合规性审查,可利用Gateway API推理扩展配置ACKTrafficFilter插件对接阿里云内容安全审核服务,从而在网关层自动拦截不当内容,满足相关监管和法规要求。

阿里云文档 2025-09-23

ack-cgpu组件介绍与变更说明

ack-cgpu是ACK专有集群上支持共享GPU调度能力的组件,通过GPU共享调度框架,实现多个容器共享同一GPU设备,进而降低使用成本。本文介绍ack-cgpu变更记录。

阿里云文档 2025-09-04

为LLM推理服务配置推理网关智能路由

传统的HTTP请求,经典负载均衡算法可以将请求均匀地发送给不同的工作负载。然而,对于LLM推理服务来说,每个请求给后端带来的负载是难以预测的。推理网关(Gateway with Inference Extension)是基于Kubernetes社区Gateway API及其Inference Extension规范实现的增强型组件,它能够通过智能路由优化在多个推理服务工作负载之间的负载均衡性能,根...

阿里云文档 2025-08-21

为单机/多机推理配置弹性扩缩容

在管理LLM推理服务时,需要应对模型推理过程中高度动态的负载波动。本文通过结合推理框架的自定义指标与 Kubernetes HPA(Horizontal Pod Autoscaler)机制,实现对推理服务Pod数量的自动灵活调整,从而有效提升推理服务的质量与稳定性。

阿里云文档 2025-08-21

为LLM推理服务配置监控

在生产环境中LLM推理服务的可观测性是至关重要的,可以监控LLM推理服务、推理服务Pod及相关GPU的性能指标,有效发现性能瓶颈,帮助定位故障。本文介绍如何为LLM推理服务配置监控。

文章 2025-07-18 来自:开发者社区

Ray on ACK 最佳实践,保障 AI 数据处理/训练/推理等环境的安全部署

【阅读原文】戳:Ray on ACK 最佳实践,保障 AI 数据处理/训练/推理等环境的安全部署     随着 Ray 在 AI 训练、数据处理与高并发在线推理等场景中的广泛落地,越来越多的团队选择在阿里云容器服务 Kubernetes 版(以下简称 ACK)上部署 Ray 集群,以便按需弹性扩缩、统一运维。Ray 提供了 Dashboard 以及命令...

Ray on ACK 最佳实践,保障 AI 数据处理/训练/推理等环境的安全部署
文章 2025-05-01 来自:开发者社区

ACK AI Profiling:从黑箱到透明的问题剖析

【阅读原文】戳:ACK AI Profiling:从黑箱到透明的问题剖析 01. 背景   Kubernetes 作为 AI 时代下主要的操作系统,承载了绝大多数的 LLM 训练和推理的业务负载,这些 LLM 负载的普及推动了对 AI 训练与推理的精细化性能检测与调优需求,那么如何对一个在线的 AI 业务负载进行精细化的 Profi...

ACK AI Profiling:从黑箱到透明的问题剖析
文章 2025-03-18 来自:开发者社区

ACK Gateway with AI Extension:大模型推理的模型灰度实践

【阅读原文】戳:ACK Gateway with AI Extension:大模型推理的模型灰度实践 ACK Gateway with AI Extension组件专为LLM推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载智能感知的负载均衡能力。此外,通过InferencePool和InferenceModel自定义资源(CRD),可以灵活定义推理服务的...

ACK Gateway with AI Extension:大模型推理的模型灰度实践
文章 2025-03-17 来自:开发者社区

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践

【阅读原文】戳:ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践 在当今大语言模型(LLM)推理场景中,Kubernetes已经成为LLM推理服务部署不可获取的基础设施,但在LLM流量管理方面、由于LLM推理服务和推理流量的特殊性,传统的负载均衡和路由调度算法已难以满足该类服务的高性能、高可靠性需求。阿里云容...

ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
文章 2025-03-13 来自:开发者社区

打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度

【阅读原文】戳:打破资源边界、告别资源浪费:ACK One多集群Spark和AI作业调度   概述       在云原生时代,随着业务的发展(如业务遍布全球、已达单一集群承载上限)、容灾需求的迫切、安全合规的要求等原因,越来越多的用户采用多Kubernetes集群来承载业务。而在Kubernetes...

打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

{"cardStyle":"activityCardStyle","productCardInfo":{"productTitle":"","productDescription":"","productContentLink":"","isDisplayProductIcon":true,"isOfficialLogo":false},"activityCardInfo":{"activityTitle":"AI 编码","activityDescription":"百万 Qwen-coder 大模型 tokens 免费体验,灵码79元起,加速 AI 应用落地 ","cardContentBackgroundMode":"LightMode","activityContentBackgroundImageLink":"","activityCardBottomInfoSelect":"activityPromotionInfoBlock","activityButton1":{"activityButtonText":"查看详情","activityButtonLink":"https://www.aliyun.com/benefit/scene/coding"},"activityButton2":{"activityButtonText":"立即体验","activityButtonLink":"https://bailian.console.aliyun.com/?spm=5176.30202035.J_VanPN1KXIVRyCVhZMwQ6t.6.1b791e71pokqL0&tab=model#/efm/model_experience_center/text?currentTab=textChat&modelId=qwen3-coder-plus"},"activityButton3":{"activityButtonText":"立即购买","activityButtonLink":"https://www.aliyun.com/benefit/scene/coding#J_1"}}}
AI 编码
百万 Qwen-coder 大模型 tokens 免费体验,灵码79元起,加速 AI 应用落地

阿里云机器学习平台PAI

阿里云机器学习PAI(Platform of Artificial Intelligence)面向企业及开发者,提供轻量化、高性价比的云原生机器学习平台,涵盖PAI-iTAG智能标注平台、PAI-Designer(原Studio)可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台,支持千亿特征、万亿样本规模加速训练,百余落地场景,全面提升工程效率。

+关注