阿里云文档 2025-12-25

为PD分离推理服务配置弹性伸缩策略

在Prefill-Decode(PD)分离的LLM推理架构中,Prefill和Decode阶段的资源需求差异巨大,传统的CPU/GPU利用率指标无法有效指导弹性伸缩。本方案以Dynamo框架为例,介绍如何利用KEDA,根据NATS消息队列的积压情况,为Prefill角色配置独立的弹性伸缩策略,实现资源按需分配,优化服务成本与性能。

阿里云文档 2025-12-22

DescribePolicyGovernanceInCluster:查询集群策略治理的审计日志与违规情况-容器服务 Kubernetes 版 ACK-阿里云

ACK集群容器安全策略供了种类丰富的内置规则库,包括Compliance、Infra、K8s-general和PSP,旨在确保容器在生产环境中的安全运行。您可以调用DescribePolicyGovernanceInCluster接口,查询目标集群策略治理的详细信息,例如集群当前启用的不同等级策略计数统计、策略治理审计日志、拦截和告警情况等。

阿里云文档 2025-12-22

调用DeletePolicyInstance删除策略规则实例-容器服务 Kubernetes 版 ACK-阿里云

您可以调用DeletePolicyInstance接口,在指定集群中删除策略规则实例。

阿里云文档 2025-12-22

调用DeployPolicyInstance API部署策略规则实例-容器服务 Kubernetes 版 ACK-阿里云

您可以在ACK集群中选择安全策略类型,配置策略实例的治理动作(告警或拦截)、作用的命名空间范围等,以创建并部署一个策略实例。您可以调用DeployPolicyInstance接口,在指定集群的命名空间中部署策略规则实例。

阿里云文档 2025-06-09

使用Gateway with Inference Extension实现生成式AI推理服务灰度发布

通过Gateway with Inference Extension组件,您可以在生成式AI推理服务中实现更换、升级使用的基础模型或者对多个LoRA模型进行灰度更新,将服务中断的时间降至最低。本文介绍如何使用Gateway with Inference Extension组件对生成式AI推理服务进行渐进式灰度发布。

文章 2024-08-19 来自:开发者社区

在k8S中,deployment升级策略是什么?

在Kubernetes (k8s) 中,Deployment 的升级策略主要指的是在更新 Pod 副本以部署新的容器镜像或配置时所采用的方法。主要有两种内置的升级策略: 滚动更新(RollingUpdate): 这是 Deployment 默认使用的升级策略。 在滚动更新中,Deployment 控制器会按批次替换现有的 Pod,每次只...

文章 2023-08-22 来自:开发者社区

k8s--deployment 控制器、扩缩容、升级策略

介绍Deployment 表示用户对 K8S 集群的一次更新操作。Deployment 是一个比 RS( Replica Set, RS) 应用模型更广的 API 对象,可以是创建一个新的服务,更新一个新的服务,也可以是滚动升级一个服务。滚动升级一个服务,实际是创建一个新的 RS,然后逐渐将新 RS 中副本数增加到理想状态,将旧 RS 中的副本数减少到 0 的复合操作。这样一个复合操作用一个 R....

k8s--deployment 控制器、扩缩容、升级策略
问答 2022-05-11 来自:开发者社区

Kubernetes 提供的升级或是扩容策略有什么用?

Kubernetes 提供的升级或是扩容策略有什么用?

问答 2021-11-07 来自:开发者社区

Kubernetes deployment中的RollingUpdate升级策略是什么呢?

Kubernetes deployment中的RollingUpdate升级策略是什么呢?

问答 2021-11-07 来自:开发者社区

Kubernetes deployment中的Recreate升级策略是什么呢?

Kubernetes deployment中的Recreate升级策略是什么呢?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注