阿里云文档 2026-03-06

ACK集群节点初始化流程介绍

ACK提供稳定、高效、可预测的节点管理能力。无论是创建新节点还是对已有节点池进行扩容,ACK都遵循一套标准化的初始化流程,按照节点池的配置完成软件安装和配置,加入到Kubernetes集群中。

阿里云文档 2026-03-06

关于使用Terway时部分Linux节点偶发CPU利用率异常升高问题的公告

受Linux社区内核补丁对eBPF程序的影响,若集群使用了Terway容器网络插件,并开启了基于eBPF技术的DataPath V2 (含开启NetworkPolicy)功能,可能出现节点CPU利用率偶发异常升高的情况。

阿里云文档 2025-12-29

Pod在灵骏节点使用RDMA网络

本文档介绍如何在ACK托管集群Pro版的灵骏节点中配置和使用RDMA(RemoteDirect Memory Access)技术,实现高性能容器网络通信。RDMA技术可显著降低网络延迟并提升吞吐量,适用于高性能计算(HPC)、AI训练、分布式存储等对网络性能要求严苛的场景。

阿里云文档 2025-10-17

为GPU应用配置节点自动伸缩

在进行AI模型训练、推理或科学计算等GPU计算密集型任务时,工作负载常呈现显著波动,同时GPU硬件成本较高。通过为集群创建支持自动伸缩的GPU节点池,可根据实际资源需求动态增减节点数量,实现按需使用与弹性调度,有效提升GPU资源利用率并降低运维成本。

阿里云文档 2025-09-25

ACK集群节点Kubelet版本一致性检测

检测ACK集群巡检中的“节点Kubelet组件版本落后于控制面”风险项。当此巡检项无风险时,视为“合规”。规则通过获取最后一次巡检报告结果作为检测依据,如果集群未开通巡检配置评估为“不适用”。

文章 2024-08-24 来自:开发者社区

在K8S中,节点故障pod驱逐pod过程,时间怎么定义的?

在Kubernetes(K8S)中,节点故障导致Pod驱逐的过程是一个涉及多个组件和参数协同工作的复杂流程。这个过程的时间定义主要通过一系列参数来配置和确定。以下是该过程的详细解释以及时间定义的说明: 一、节点故障检测 节点控制器(Node Controller)检查间隔: node-monitor-period:这是节点控制器检查每个节...

文章 2024-08-19 来自:开发者社区

在K8S中,节点故障驱逐pod过程时间怎么定义?

在Kubernetes中,节点故障驱逐Pod的过程涉及多个参数和组件的相互作用。以下是该过程的简要概述: 默认设置:在默认配置下,节点故障时,工作负载的调度周期约为6分钟。 关键参数: node-monitor-period:节点控制器(node controller)检查每个节点的间隔,默认值为5秒。 node-monito...

问答 2024-05-28 来自:开发者社区

ChaosBlade通过daemonset方式,对k8s节点执行节点网络丢包故障注入怎么办?

"ChaosBlade通过daemonset方式,对k8s节点执行节点网络丢包故障注入。虽然故障注入的时候设置了排除10250、6433端口,但是执行blade destroy命令恢复的时候报错?提示访问10250端口超时,导致恢复失败。报错日志如下:time=""2024-05-09T05:55:31Z"" level=error msg=""Invoke exec command error....

问答 2023-06-12 来自:开发者社区

无法将k8s注入节点CPU故障

问题描述 [root@kube-master-192-168-131-12 ~/chaosblade-0.4.0]$ ./blade create k8s node-cpu fullload --names kube-node-192-168-131-16 --cpu-percent 80 --kubeconfig ~/.kube/config {"code":504,"success":fal....

问答 2023-04-06 来自:开发者社区

请问一下 我对k8s集群的某一个节点 执行内存满负载实验 过几分钟故障自己恢复了 但是我无法手动销毁

请问一下 我对k8s集群的某一个节点 执行内存满负载实验 过几分钟故障自己恢复了 但是我无法手动销毁实验 是怎么回事呢?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。