如何收集Gateway with Inference Extension数据面监控
Gateway with Inference Extension组件支持将数据面指标输出至 Prometheus。本文介绍如何使用可观测监控 Prometheus 版(Managed Service for Prometheus)监控组件数据面的运行状况。
ACS GPU-HPN节点故障处理
AI训练任务的运行过程中,当GPU节点发生故障时,会导致任务卡住甚至异常终止,影响任务的运行效率。ACS集群提供了对GPU-HPN节点的故障监控能力,当节点出现异常时,ACS会标记节点,并通过Kubernetes事件(Event)、状态(Condition)等方式上报。本文介绍GPU-HPN节点的故障监控项、数据获取方式以及修复流程。
如何在Kubernetes环境下使用第三方监控系统监控Docker容器性能?
在Kubernetes(K8s)环境下监控Docker容器性能,需结合K8s的集群特性(如Pod、Deployment、Node架构)与第三方监控系统,实现“容器- Pod - Node - 集群”多层级的指标采集、可视化与告警。以下是基于主流第三方工具的完整实现方案,覆盖开源与商业选型...
如何使用第三方监控系统监控Docker容器性能?
使用第三方监控系统监控Docker容器性能,能实现更全面的指标采集、可视化分析和告警功能,尤其适合生产环境中大规模容器集群的管理。以下是基于主流第三方工具的具体实现方案: 一、核心监控目标 在选择工具前,需明确监控维度: 容器基础资源:CPU使用率、内存占用、磁盘I/O、网络吞吐量。 容器状态:...
为LLM推理服务配置监控
在生产环境中LLM推理服务的可观测性是至关重要的,可以监控LLM推理服务、推理服务Pod及相关GPU的性能指标,有效发现性能瓶颈,帮助定位故障。本文介绍如何为LLM推理服务配置监控。
如何通过阿里云注册集群和Prometheus实现多云容器集群监控
本文为您介绍容器集群可观测现状、多云容器集群可观测挑战、以及应对这些挑战可选的实现方案,并且以具体多云容器集群场景案例为您介绍如何使用阿里云可观测监控 Prometheus 版和阿里云注册集群的结合实现多云容器集群的纳管监控。
使用阿里云容器监控服务与第三方监控框架集成搭建自己的容器看板
一、概述 阿里云容器监控服务日前正式上线,容器监控服务提供了非常简单快速地与第三方开源监控方案集成的能力。本篇文章就带领大家一起试用阿里云容器监控服务,并使用目前比较流行的第三方开源监控框架做集成,搭建自己的监控看板。 二、操作 1. 编排模板与注意事项 version: '2' services: #定义influxdb influxdb: image: tutum/influ...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
阿里云容器服务 ACK
云端最佳容器应用运行环境,安全、稳定、极致弹性
+关注