ACS GPU-HPN节点故障处理
AI训练任务的运行过程中,当GPU节点发生故障时,会导致任务卡住甚至异常终止,影响任务的运行效率。ACS集群提供了对GPU-HPN节点的故障监控能力,当节点出现异常时,ACS会标记节点,并通过Kubernetes事件(Event)、状态(Condition)等方式上报。本文介绍GPU-HPN节点的故障监控项、数据获取方式以及修复流程。
如何在Kubernetes环境下使用第三方监控系统监控Docker容器性能?
在Kubernetes(K8s)环境下监控Docker容器性能,需结合K8s的集群特性(如Pod、Deployment、Node架构)与第三方监控系统,实现“容器- Pod - Node - 集群”多层级的指标采集、可视化与告警。以下是基于主流第三方工具的完整实现方案,覆盖开源与商业选型...
如何使用第三方监控系统监控Docker容器性能?
使用第三方监控系统监控Docker容器性能,能实现更全面的指标采集、可视化分析和告警功能,尤其适合生产环境中大规模容器集群的管理。以下是基于主流第三方工具的具体实现方案: 一、核心监控目标 在选择工具前,需明确监控维度: 容器基础资源:CPU使用率、内存占用、磁盘I/O、网络吞吐量。 容器状态:...
为LLM推理服务配置监控
在生产环境中LLM推理服务的可观测性是至关重要的,可以监控LLM推理服务、推理服务Pod及相关GPU的性能指标,有效发现性能瓶颈,帮助定位故障。本文介绍如何为LLM推理服务配置监控。
如何收集Gateway with Inference Extension数据面监控
Gateway with Inference Extension组件支持将数据面指标输出至 Prometheus。本文介绍如何使用可观测监控 Prometheus 版(Managed Service for Prometheus)监控组件数据面的运行状况。
如何通过阿里云注册集群和Prometheus实现多云容器集群监控
本文为您介绍容器集群可观测现状、多云容器集群可观测挑战、以及应对这些挑战可选的实现方案,并且以具体多云容器集群场景案例为您介绍如何使用阿里云可观测监控 Prometheus 版和阿里云注册集群的结合实现多云容器集群的纳管监控。
docker安装prometheus+Granfan并监控容器
以下是在 Docker 中安装 Prometheus 和 Grafana 并监控容器的步骤: 一、安装 Prometheus 创建一个目录用于存储 Prometheus 的配置文件: mkdir prometheus &...
应用监控eBPF版使用应用监控eBPF版监控容器JAVA程序,有没有JAVA信息监控和JAVA线程池
应用监控eBPF版使用应用监控eBPF版监控容器JAVA程序,有没有JAVA信息监控和JAVA线程池监控?
性能监控之 JMX 监控 Docker 容器中的 Java 应用
一、前言 今天在配置 docker 和 JMX 监控的时候,看到有一个细节和非容器环境中的 JMX 配置不太一样。所以在这里写一下,以备其他人查阅。 二、遇到的问题 1、问题现象 一般情况下,我们配置 JMX 只要写上下面这些参数就可以了。 以下是无密码监控时的 JMX 配置参数(有密码监控的配置和常规监控无异) -Dcom.sun.management.jmxremote -Dco...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
阿里云容器服务 ACK
云端最佳容器应用运行环境,安全、稳定、极致弹性
+关注