阿里云文档 2025-10-17

为GPU应用配置节点自动伸缩

在进行AI模型训练、推理或科学计算等GPU计算密集型任务时,工作负载常呈现显著波动,同时GPU硬件成本较高。通过为集群创建支持自动伸缩的GPU节点池,可根据实际资源需求动态增减节点数量,实现按需使用与弹性调度,有效提升GPU资源利用率并降低运维成本。

阿里云文档 2025-09-25

ACK集群巡检APIServer绑定的CLB端口监听配置正常

ACK集群巡检的检测项“APIServer CLB 6443 端口监听配置异常”无风险,视为“合规”。规则通过获取最后一次巡检报告结果作为检测依据,如果集群未开通巡检配置评估为“不适用”;如果集群开通了配置,但是运行的巡检任务不存在或者运行最后一次任务未结束,评估为“无数据”。

阿里云文档 2025-09-25

ACK集群节点池伸缩配置可用性检测

检测ACK集群巡检中的“节点池伸缩配置不可用”风险项。当此巡检项无风险时,视为“合规”。规则通过获取最后一次巡检报告结果作为检测依据,如果集群未开通巡检配置评估为“不适用”。

阿里云文档 2025-09-25

配置混合云节点池DNS解析

混合云节点池如通过云上CoreDNS解析域名,频繁的访问会加重专线负载,还可能出现因专线不稳定导致的域名解析失败,配置NodeLocal DNSCache可减少这些问题的影响。

阿里云文档 2025-09-22

使用Gateway with Inference Extension为SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。本文以Qwen3-32B模型为例,演示如何通过Gateway with Inference Extension为部署在ACK中的SGLang PD分离架构模型推理服务。

问答 2024-03-27 来自:开发者社区

阿里云ARMS和ack里边的prometheus 监控是一套么?报警配置方式不一样?

阿里云ARMS和ack里边的prometheus 监控是一套么?报警配置方式不一样?

问答 2023-11-01 来自:开发者社区

在容器服务ACK如果用了ack-prometheus-operator,如何配置带签名的钉钉告警?

在容器服务ACK如果用了ack-prometheus-operator,如何配置带签名的钉钉告警?

文章 2023-05-21 来自:开发者社区

《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(上)

 ACK Net-Exporter 是以守护进程的方式部署在集群中,相关的指标采集后可以上报至Prometheus 进行处理并在Grafana上展示出来。ACK  Net-Exporter支持 指标上报至第三方Prometheus,或者上报至阿里云ARMS,自动化一键展示。 1) 自建Prometheus + GrafanaKubernetes 可以根据annota....

《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(上)
文章 2023-05-21 来自:开发者社区

《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(下)

更多精彩内容,欢迎观看:《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(上):https://developer.aliyun.com/article/1221325?spm=a2c6h.13148508.setting.20.15f94f0eRr2vYu自建Grafana指标已经成功的被采集到了Prom....

《云原生网络数据面可观测性最佳实践》——四、ACK Net-Exporter 快速上手——1.Prometheus + Grafana配置(下)
文章 2022-12-22 来自:开发者社区

(二)ACK prometheus-operator之 配置自定义组件监控

本文以etcd监控配置为重点介绍示例,介绍两种配置方式:servicemonitor动态发现和prometheus-operator的additionalScrapeConfigs静态配置,配置过程中也会点出配置失误带来的异常现象和注意事项。共完成 5 部分组件的配置,分别处理了各自特殊情况:etcd :客户端证书tls认证,servicemonitor+addtionalconfig两种配置方....

(二)ACK prometheus-operator之 配置自定义组件监控

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注