阿里云文档 2025-12-25

为PD分离推理服务配置弹性伸缩策略

在Prefill-Decode(PD)分离的LLM推理架构中,Prefill和Decode阶段的资源需求差异巨大,传统的CPU/GPU利用率指标无法有效指导弹性伸缩。本方案以Dynamo框架为例,介绍如何利用KEDA,根据NATS消息队列的积压情况,为Prefill角色配置独立的弹性伸缩策略,实现资源按需分配,优化服务成本与性能。

阿里云文档 2025-12-22

DescribePolicyGovernanceInCluster:查询集群策略治理的审计日志与违规情况-容器服务 Kubernetes 版 ACK-阿里云

ACK集群容器安全策略供了种类丰富的内置规则库,包括Compliance、Infra、K8s-general和PSP,旨在确保容器在生产环境中的安全运行。您可以调用DescribePolicyGovernanceInCluster接口,查询目标集群策略治理的详细信息,例如集群当前启用的不同等级策略计数统计、策略治理审计日志、拦截和告警情况等。

阿里云文档 2025-12-22

调用DeletePolicyInstance删除策略规则实例-容器服务 Kubernetes 版 ACK-阿里云

您可以调用DeletePolicyInstance接口,在指定集群中删除策略规则实例。

阿里云文档 2025-12-22

调用DeployPolicyInstance API部署策略规则实例-容器服务 Kubernetes 版 ACK-阿里云

您可以在ACK集群中选择安全策略类型,配置策略实例的治理动作(告警或拦截)、作用的命名空间范围等,以创建并部署一个策略实例。您可以调用DeployPolicyInstance接口,在指定集群的命名空间中部署策略规则实例。

阿里云文档 2025-06-09

使用Gateway with Inference Extension实现生成式AI推理服务灰度发布

通过Gateway with Inference Extension组件,您可以在生成式AI推理服务中实现更换、升级使用的基础模型或者对多个LoRA模型进行灰度更新,将服务中断的时间降至最低。本文介绍如何使用Gateway with Inference Extension组件对生成式AI推理服务进行渐进式灰度发布。

文章 2023-01-30 来自:开发者社区

Kubernetes的 pod 重启策略、Pod状态、生命周期

Pod的重启策略Pod的重启策略指的是当Pod中的容器终止退出后,重启容器的策略。需要注意的是,因为Docker容器的轻量级,重启容器的做法实际上是直接重建容器,所以容器中的数据将会丢失,如有需要持久化的数据,那么需要使用数据卷进行持久化设置。重启策略是通过Pod定义中的.spec.restartPolicy 进行设置的,目前支持以下3种策略。Always:当容器终止退出后,总是重启容器,默认策....

文章 2022-02-14 来自:开发者社区

KUBERNETES04_下载策略、私有仓库下载、env、command、生命周期容器钩子、资源限制(四)

⑤. 资源限制①. 查看具体的使用步骤:[root@k8s-master k8syaml]# kubectl explain pod.spec.containers.resources KIND: Pod VERSION: v1 RESOURCE: resources <Object> DESCRIPTION: Compute Resources required...

文章 2022-02-14 来自:开发者社区

KUBERNETES04_下载策略、私有仓库下载、env、command、生命周期容器钩子、资源限制(三)

④. 生命周期容器钩子①. Kubernetes中为容器提供了两个hook(钩子函数)②. PostStart:此钩子函数在容器创建后将立刻执行。但是,并不能保证该钩子函数在容器ENTRYPOINT之前执行。该钩子函数没有输入参数③. PreStop:此钩子函数在容器被terminate(终止)之前执行,例如通过接口调用删除容器所在Pod某些管理事件的发生:健康检查失败、资源紧缺等如果容器已经被....

KUBERNETES04_下载策略、私有仓库下载、env、command、生命周期容器钩子、资源限制(三)
文章 2022-02-14 来自:开发者社区

KUBERNETES04_下载策略、私有仓库下载、env、command、生命周期容器钩子、资源限制(二)

③. env、command①. env指定环境变量,这里以一个部署MYSQL为例kind: Pod apiVersion: v1 metadata: name: my-mysql namespace: hello labels: name: tangzhi spec: # 指定规格信息 containers: # 指定要启动一个什么样的容器 ## docker...

KUBERNETES04_下载策略、私有仓库下载、env、command、生命周期容器钩子、资源限制(二)
文章 2022-02-14 来自:开发者社区

KUBERNETES04_下载策略、私有仓库下载、env、command、生命周期容器钩子、资源限制(一)

①. 下载策略imagePullPolicy①. Always:总是去下载:(默认)先看网上有没有,有了就下载,(本机也有,docker就相当于不用下载了)②. Never:总不去下载,一定保证当前Pod所在的机器有这个镜像;直接看本机③. IfNotPresent:如果本机没有就去下载;先看本机,再看远程[root@k8s-master k8syaml]# kubectl explain po....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注