阿里云文档 2025-03-11

GPU故障检测

本文提供了一份指南,帮助您正确安装、配置和使用ACK GPU故障检测组件,以便更好地管理和维护ACK环境中的GPU资源。通过本文内容,您可以了解如何监测GPU资源的健康状态,提高集群的可靠性和效率。

阿里云文档 2025-01-09

GPU配置故障告警及修复方案

ACK集群针对GPU节点的坏卡场景,提供了多维度的监控、诊断、告警与恢复机制。本文将介绍GPU节点故障的具体排查步骤及恢复方案。

阿里云文档 2024-12-26

基于自动化运维能力开启节点池节点故障自动恢复

托管节点池自动监控节点状态,确保节点正常运行。当节点发生异常时,ACK会自动执行恢复操作。将节点池设置为托管模式会为所有节点同时开启自动恢复功能,简化节点运维工作。本文介绍节点自动恢复的应用场景和处理流程。

问答 2024-08-21 来自:开发者社区

chaosblade k8s场景对pod网络注入故障

在对特定pod进行网络故障注入时,如网络延迟,在目标pod与宿主节点ip一致,也即共享网络配置(配置yaml中hostNetwork字段为true)时,对其注入会导致宿主node拥有相同的网络故障,请问在不改变这种配置的情况下,有什么解决办法吗?想要注入pod而不影响node

问答 2024-06-09 来自:开发者社区

ChaosBlade在box上成功对k8s注入过故障吗?

ChaosBlade在box上成功对k8s注入过故障吗?

问答 2024-05-13 来自:开发者社区

ChaosBlade对k8s注入内存占用故障,执行成功,这个有没有排查的方向?

ChaosBlade对k8s注入内存占用故障,执行成功,box和operator都没有异常日志,但是容器里查看内存没有变化,也没有chaos的进程在,cpu和网络延迟已经验证可以的,这个有没有排查的方向?

问答 2024-01-24 来自:开发者社区

想在k8s的pod里,注入JVM的一些故障,比如异常和时延,ChaosBlade有没有指导手册呀?

想在k8s的pod里,注入JVM的一些故障,比如异常和时延,ChaosBlade有没有指导手册呀?或者说这个场景能支持吗?

阿里云文档 2023-09-13

使用Serverless容器集群ASK时可能遇到的故障以及解决方案_容器服务 Serverless 版_容器服务Kubernetes版(ACK)

本文介绍您在使用ACK Serverless集群时可能遇到的故障以及解决方案。

问答 2023-08-24 来自:开发者社区

我想问一下通过box怎么向k8s注入oom或者gc的故障啊,我在演练里没找到这个分类欸

我想问一下通过box怎么向k8s注入oom或者gc的故障啊,我在演练里没找到这个分类欸

问答 2023-08-18 来自:开发者社区

我想问一下,我在K8s里注入jvm故障的时候出现了unexpected status, expect

我想问一下,我在K8s里注入jvm故障的时候出现了unexpected status, expected status: create, but the real status: Initialized, please wait!问题,请问这是为什么啊 这是我的命令 blade create k8s container-jvm oom --area HEAP --namespace a --na....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注