Pod异常问题排查

类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常问题处理 ...

Pod异常问题排查

类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常问题处理 ...

常见问题

Zookeeper读写数据问题处理方法请参见 RM处于Standby状态,无法自动恢复Active状态,该如何处理?SUBMITTED:该状态极少遇到,可能原因为Node Update请求太多造成Capacity Scheduler内部抢锁堵塞,通常发生在大规模集群,需优化相关流程...

K8s任务

离在线混布 对于诸如订单处理等对实时性要求较高的在线定时任务,可在同一进程内直接调用方法进行高效处理在线业务无缝集成。而对于实时性要求较低但资源消耗较大的离线定时任务,如报表定时导出,可通过编写脚本并以启动独立Pod的方式...

Pod诊断

Pod的部分容器进程处于D状态,通常为容器进程卡在磁盘IO中,您可以加入钉钉群 44325004118反馈处理。Pod初始化状态 检查Pod是否正常初始化。请检查Pod状态及日志。更多信息,请参见 Pod异常问题排查。Pod申请的GPU资源 检查Pod是否申请GPU...

Pod诊断

类别 支持的异常场景 Pod诊断 Pod未被调度处理。Pod不满足调度约束无法被调度。Pod已调度但未被Kubelet处理。Pod等待存储卷就绪。Pod被驱逐。Pod的Sandbox容器创建失败。Pod长期处于terminating状态。Pod中容器发生OOM异常。Pod中容器...

Pod诊断

节点出现进程Hung问题,请收集节点日志并 提交工单 处理。关于收集节点日志操作,请参见 一键采集节点的诊断日志。存在unregister_netdevice 检查内核是否出现unregister_netdevice。节点存在unregister_netdevice问题,请收集节点日志并 ...

使用Gang scheduling

功能介绍 Gang scheduling策略可在并发系统中将多个相关联的进程调度到不同处理器上同时运行。最主要的原则是保证所有相关联的进程能够同时启动,防止部分进程的异常,避免整个关联进程组的阻塞。例如,当您提交一个包含多个任务的批量Job...

使用Gang scheduling

功能介绍 Gang scheduling策略可在并发系统中将多个相关联的进程调度到不同处理器上同时运行。最主要的原则是保证所有相关联的进程能够同时启动,防止部分进程的异常,避免整个关联进程组的阻塞。例如,当您提交一个包含多个任务的批量Job...

2019年

DB清理工作流任务实例,导致工作流无法恢复调度问题。Spring方式启动,不支持kill。无 1.0.3,2019-06-06 变更类型 功能描述 相关文档 新增 MapReduce模型支持返回所有子任务的结果,由Reduce处理。分布式模型支持拉模型,解决因为单机性能...

历史记录

修复用户重启后,秒级任务会停止调度问题。2020-05-27 新特性 HTTP任务增强。HTTP任务支持Post参数。HTTP任务支持通过Header获取任务基本信息。HTTP任务超时时间上限支持到30秒。pop API增强,新版本aliyun-java-sdk-schedulerx2-1.0.3。...

离线同步任务运维

任务调度与管理 离线同步依托DataWorks强大的调度能力,为您实现离线任务的周期性自动调度执行,同时,可以结合DataWorks调度参数,实现增量数据和全量数据写入到目标表对应分区,离线同步任务的运维操作其他离线调度任务操作一致,支持...

节点异常问题排查

DiskPressure 节点IP资源不足-InvalidVSwitchId.IpNotEnough 节点网络异常处理 节点网络异常 节点其他异常处理 节点异常重启 如何解决auditd进程占用大量磁盘IO或者系统日志中出现audit:backlog limit exceeded错误的问题 诊断流程 查看...

节点异常问题排查

DiskPressure 节点IP资源不足-InvalidVSwitchId.IpNotEnough 节点网络异常处理 节点网络异常 节点其他异常处理 节点异常重启 如何解决auditd进程占用大量磁盘IO或者系统日志中出现audit:backlog limit exceeded错误的问题 诊断流程 查看...

Java SDK

本文介绍SchedulerX产品的Java SDK发布的功能变更,包括新增功能、功能优化、重要问题修复等,帮助您了解SchedulerX的Java SDK发布动态。发布记录 1.11.4,2024-03-20 功能名称 变更类型 功能描述 相关文档 工作流 新增 JobContext可以获取...

开发PyODPS 2任务

使用限制 DataWorks建议您在PyODPS节点内获取到本地处理的数据不超过50 MB,该操作受限于DataWorks执行资源的不同规格(包括公共调度资源组和独享调度资源组),处理的本地数据过多并超出操作系统阈值时可能发生OOM(Got killed)错误。...

节点诊断

节点出现进程Hung问题,请收集节点日志并 提交工单 处理。关于收集节点日志操作,请参见 一键采集节点的诊断日志。存在unregister_netdevice 检查内核是否出现unregister_netdevice。节点存在unregister_netdevice问题,请收集节点日志并 ...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

开发PyODPS 2任务

使用限制 DataWorks建议您在PyODPS节点内获取到本地处理的数据不超过50 MB,该操作受限于DataWorks执行资源的不同规格(包括公共调度资源组和独享调度资源组),处理的本地数据过多并超出操作系统阈值时可能发生OOM(Got killed)错误。...

通过向导模式配置离线同步任务

数据集成提供向导式的开发引导,您无需编写任何代码,通过在界面勾选数据来源去向,并结合DataWorks调度参数,实现将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍向导模式配置离线同步任务的常规配置,各...

自定义资源组

本文为您介绍自定义资源组有哪些应用场景、自定义资源组有哪些使用限制、如何使用自定义资源组等常见问题。为什么找不到自定义资源组使用入口?自定义资源组已经不再支持,请使用独享资源组。目录 如何安装监控?如何处理添加自定义调度...

消息 Mesh

消息 Mesh 流量调度 消息 Mesh 的流量调度,示例如下:流量调度流程说明如下:控制平面会将流量调度相关的规则下发至 MOSN,规则主要包含该应用下所有容器节点的 IP 地址流量权重,这是能够进行精细化流量调度的前提。当 MOSN 收到消息...

石墨文档

本文以石墨文档为例,介绍如何借助函数...提高效率:石墨文档借助函数计算,开发人员只需集中精力产品团队合作,无需考虑CPU密集型计算的负载均衡问题,不断提升业务价值,加快项目的迭代上线的步伐,极大地提高了开发效率和进程稳定性。

如何使用Prometheus监控Windows

由于Windows对进程拥有的句柄数量有限制,如果进程存在句柄泄露问题,当申请句柄数超过上限时,进程将无法获得资源。进程线程数 Recommend WMI(ThreadCount)一个进程包含n个线程。该指标可以判断指定进程的线程数是否符合预期。进程内存...

石墨文档

本文以石墨文档为例,介绍如何借助函数...提高效率:石墨文档借助函数计算,开发人员只需集中精力产品团队合作,无需考虑CPU密集型计算的负载均衡问题,不断提升业务价值,加快项目的迭代上线的步伐,极大地提高了开发效率和进程稳定性。

如何使用Prometheus监控Windows

由于Windows对进程拥有的句柄数量有限制,如果进程存在句柄泄露问题,当申请句柄数超过上限时,进程将无法获得资源。进程线程数 Recommend WMI(ThreadCount)一个进程包含n个线程。该指标可以判断指定进程的线程数是否符合预期。进程内存...

启用节点自动伸缩

当集群的容量规划无法满足应用Pod调度时,您可以使用 节点自动伸缩 方案实现节点的自动扩缩。节点自动伸缩 适用于扩容规模较小(例如开启弹性的节点池数量少于20,或对应节点池中的节点数量少于100),工作负载批次较为稳定,以单次伸缩为...

云盘存储卷FAQ

本文介绍在ACK集群中使用云盘存储卷遇到的常见问题处理方法。类型 问题 云盘创建 动态创建PV失败且提示InvalidDataDiskCatagory.NotSupported 动态创建PV失败且提示The specified AZone inventory is insufficient 动态创建PV失败且提示...

创建有状态工作负载StatefulSet

此一致性Pod相关,调度到哪个节点无关。稳定的持久化存储 通过VolumeClaimTemplate为每个Pod创建一个PV。删除或减少副本不会删除相关的存储卷。稳定的网络标志 Pod的 hostname 模式为:(StatefulSet名称)-(序号)。稳定的次序 ...

通过脚本模式配置离线同步任务

当您需要实现更精细化的配置管理时,您可以使用脚本模式配置离线同步任务,通过编写数据同步的JSON脚本并结合DataWorks调度参数使用,将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务...

CPU拓扑感知调度

Kubernetes虽然有CPU Manager解决方案处理以上问题,但是因为CPU Manager特性是节点级别的CPU调度选择,所以无法在集群维度中选择最优的CPU Core组合。同时CPU Manager特性要求Pod是Guaranteed时(Pod中的每个容器必须指定CPU请求和CPU限制...

SysOM内核层容器监控

该指标提供了CPU调度相关的统计数据,包括在当前CPU的调度队列中等待被调度运行的进程的消耗时间,以及当前CPU中运行的时间片长度。sysom_cpu_dist gauge-查看节点的总体调度情况。该指标提供了从进程让出CPU到下一次被调度到CPU上运行...

使用Prometheus配置报警规则的最佳实践

最近3分钟被限流CPU时间片>25%CPU时间片限流(CPU Throttling)会减少容器内进程获得的CPU时间片,影响容器内进程运行时长,有可能导致容器进程的业务行为变慢。针对这种情况,您需要确定Pod的CPU resource limit 是否配置过小。推荐使用...

性能监控指标

比如当进程向磁盘写数据时,如果被打断,就可能出现磁盘数据与进程数据不一致。不可中断态,本质上是系统对进程和硬件设备的一种保护机制。在Linux系统下,使用top命令查看平均负载,可以得到如下信息:load average:1.09,1.12,1.52 这3个...

RPC

Service Mesh 解决了在 SOA(Service-Oriented Architecture)下面存在的亟待解决的如下问题:基础架构和业务研发耦合问题 业务透明的稳定性高可用性等问题 使用 Service Mesh 前状态 在没有 Service Mesh 之前,整个 SOFAStack 技术演进...

Group Identity功能说明

Alibaba Cloud Linux 2(内核版本 4.19.91-24.al7 开始)和Alibaba Cloud Linux 3(内核版本 5.10.46-7.al8 开始)支持Group Identity功能,您可以通过该功能为每一个CPU cgroup设置不同的身份标识,以区分不同CPU cgroup中进程任务的优先...

Shared Server

支持配置Shared Server调试日志,方便排查后端进程调度相关的任何问题。参数说明 Shared Server的典型配置参数说明如下:参数 说明 polar_enable_shm_aset 是否开启全局共享内存。默认关闭,重启生效。取值如下:on:开启全局共享内存。off...

调度周期:分钟调度

分钟调度即每天指定的时间段内,调度任务按 N*指定分钟 的时间间隔运行一次。使用限制 分钟调度的时间间隔最小粒度只能设置为 5 分钟。配置示例 配置路径 您需要进入数据开发节点的编辑页面,单击右侧导航栏的 调度配置,在 调度配置>时间...

数据开发常见问题

调度配置常见问题 调度参数常见问题 典型配置场景 如何处理表的分区格式年月日时分秒间带空格情况:pt=yyyy-mm-dd hh24:mi:ss 如何配置ODPS Spark节点中的时间参数?如何对不便于进行二次处理调度参数返回值的节点进行取值?如何定义调度...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
媒体处理 视频直播 日志服务 对象存储 视频点播 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用