Linux实例负载高问题排查和异常处理

内存使用率过高,可能会出现系统卡顿、内部服务响应速度变慢等问题。I/O使用率过高:一般来说,当前I/O读写≥该云盘I/O的80%时,定义为I/O使用率过高。I/O使用率过高,可能会出现文件读写变慢、应用性能下降或报错等问题问题排查 您可以...

集群版-单副本

纯缓存应用 单副本集群版的分片服务器由单节点组成,分片服务器某节点出现故障时,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,数据将会丢失,有可能流量被冲击到后端数据库,需要做好应用程序的预热保护机制...

Linux系统的ECS实例运行卡顿,在/var/log/messages...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

在使用阿里云服务的过程中我应该避免哪些操作?

6)重置以及更换系统务必要了解的事项 重置以及更换系统会导致被操作磁盘数据跟快照丢失并不可找回,如有重要数据一定要提前备份,谨慎操作。7)Linux系统下不能开启NetWorkManager服务 linux系统请不要开启NetWorkManager服务,该服务会跟...

ECS实例操作系统内部(GuestOS)常见问题与修复方案

本文介绍ECS实例操作系统内部(GuestOS)的常见问题,以及对应的修复方案。...检查磁盘容量 Windows系统有时会出现C盘的磁盘空间不断减小的情况,导致系统不能正常操作。具体操作,请参见 Windows系统临时文件占用过多磁盘空间。

浏览器兼容性和已知问题

Webkit issue iOS15.x使用蓝牙耳机播放音频时有概率失真,建议增加提示使用用户蓝牙耳机可能会出现问题,或升级系统版本。Webkit issue iOS 15.0 至 15.3 上的浏览器及内嵌 WKWebView 的应用听到远端音频音量低,建议升级系统版本。Webkit ...

ack-node-repairer

当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

常见问题概览

下载备份文件 性能、空间与内存 热点问题 其他常见问题 如何排查MongoDB实例负载过高的问题 MongoDB实例内存使用率高问题 MongoDB实例的CPU使用率高问题 MongoDB实例IOPS使用率高问题 MongoDB实例空间使用率高问题什么高可用系统会触发...

如何解决备份客户端OOM问题

背景信息 使用 云备份 备份数据时,在极端大数据量以及系统资源不足的备份场景,备份客户端会占用较多的系统资源,可能会出现OOM问题,即备份进程触发OOM被系统终止而导致备份失败。重要 当遇到OOM问题时,您可以根据实际情况为备份客户端...

基于Kubernetes容器集群的容灾架构与方案

备份与恢复(Backup-Restore)如上图所示,在备份与恢复模式下,系统运行时会备份应用和数据,故障或灾难发生时,系统会将备份的应用和数据在另一地点进行恢复,并切换业务流量。由于数据无法实时备份,在恢复数据时会有一定的数据丢失,...

如何解决Alibaba Cloud Linux 2中polkit内存泄露问题...

问题现象 符合以下版本的Alibaba Cloud Linux 2操作系统,可能会出现polkit内存泄露,使用的内存可能会超过14 GiB。aliyun_2_1903_x64_20G_alibase_20211216.vhd之前的镜像版本。4.19.91-25.1.al7.x86_64之前的内核版本。问题原因 polkit...

内核统一异常框架(UKFEF)

Normal:当前应用进程可能会出现异常。建议对当前应用采取措施,例如 kill、重启或迁移。Fatal:可能会对系统产生致命影响。建议立即进行业务迁移。事件报告 UKFEF将通过以下方式输出事件报告:通过内核日志输出单次事件的详细信息。信息...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

标准版-双副本

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

标准架构

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控,能够如实的反应应用运行状态,通过配置报警规则,用户可以在发现系统出现故障(内存泄露或者 CPU 热点等)趋势时,通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

修改实例维护属性

当宿主机存在故障风险和出现突发故障时,阿里云通过系统事件方式通知宿主机上的用户,您可以响应该系统事件。在您响应该系统事件时,ECS实例的默认行为是自动重启。如果您希望在这种情况下不自动重启ECS实例,可以通过修改维护属性来调整...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

升级Linux ECS实例内核

升级须知 升级操作系统内核是一个比较复杂和风险较高的操作,可能导致系统不稳定或出现兼容性问题。在进行升级前,建议备份重要数据,了解升级过程和可能出现问题,并谨慎操作。操作步骤 以CentOS和Debian系列操作系统为例,指导您如何...

解决Windows实例中无法查看数据盘问题

磁盘显示为 外部 或 脱机 将Windows的系统更换到更高版本的系统后,可能会出现看不到数据盘的情况。在运行窗口输入 diskmgmt.msc 命令,运行磁盘管理,磁盘可能会显示为 外部 或 脱机。请参考如下步骤修复磁盘。显示为 外部 的磁盘,在磁盘...

围绕混沌工程的平台实践

基于监控指标的自动恢复,如果指标触发了恢复规则,系统会自动执行演练恢复操作。基于演练时长的自动恢复。更多信息 关于AHAS Chaos的更多信息,请参见 Chaos Engineering的历史、原则以及实践 和 混沌工程实践经验:如何让系统在生产环境...

通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

如何查看Linux系统I/O负载情况?

当循环的向ext3文件系统写数据时,会使Journal size不断增大,到达设置的Journal size时,就会出现问题。解决方案 远程连接Linux系统的ECS实例。具体操作,请参见 连接方式概述。执行如下命令,查看相应分区的Journal size大小。dumpe2fs...

Windows实例系统盘异常如何解决?

当磁盘异常时,检测结果将会出现错误提示,以系统盘文件损坏为例,检测结果如下:解决方案 您可以执行以下操作,手动修复系统盘异常。远程连接ECS实例。具体操作,请参见 连接方式概述。以管理员身份,打开CMD命令行窗口。执行如下命令,...

实例启动异常常见错误与对应解决方案

问题原因 该问题可能是因为Windows系统引导配置数据(Boot Configuration Data,BCD)配置异常或者磁盘文件系统故障,导致系统无法加载。解决方案 在存有快照的情况下,您可以使用快照来恢复系统盘。具体操作如下:警告 回滚云盘是不可逆...

常见问题

更多产品定价常见问题 挂载访问FAQ Linux挂载NFS文件系统常见问题 Windows挂载SMB文件系统常见问题 Linux挂载SMB文件系统常见问题 Windows挂载NFS文件系统常见问题什么卸载旧NAS并重新挂载新NAS后,容器Pod仍将数据写入旧NAS?...

访问Windows IIS网站显示"503 Service Unavailable...

问题原因 一般出现该报错可以先从系统和应用层的日志查看是否有相关记录信息,原因可能有多种。解决方案 ISAPI筛选器加载的扩展项失败。检查ISAPI筛选器中的加载项不能正常加载。应用程序池启动失败,这个问题的原因较多。可能的情况如下。...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

更新软件

重要 由于该命令可能更新系统内核,导致出现系统无法启动、内核与软件不兼容等问题。建议您完成不升级系统内核的配置后,再运行该命令。yum update 执行以下命令,查看软件版本号。软件名>-V#请将<软件名>替换为您需要查看版本号的软件 ...

概述

数据库治理的常见问题 系统对外提供查询接口,由于SQL语句涉及多表Join,因此可能触发慢查询,最终导致DB连接池/Tomcat线程池满,应用整体不可用。在应用启动时,数据库Druid连接池处于初始化,同时伴有大量请求进入,可能导致Dubbo的...

重置系统

背景信息 警告 重置或更换系统会清除轻量应用服务器上的磁盘数据,请您根据需要做好数据备份。重置系统后,可能会导致监控失效。如果监控出现问题,您可以手动安装云监控插件。远程连接服务器安装:具体操作,请参见 安装和卸载云监控插件...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

Windows 系统内相关目录图标出现小黄锁

问题现象 有时在 ECS Windows 系统内发现相关目录或文件上会出现如下图所示小黄锁安全图标。问题分析 该问题出现的原因通常是由于 Windows 的系统数据保护机制导致。当用户对相应文件或文件夹取消共享,或做了一些其它方面的权限调整时,...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

基础管理FAQ

为防止再次出现这类异常问题,建议您在删除文件系统实例前,先在操作系统中卸载文件系统,然后再删除文件系统。如果还开启了自动挂载配置,您还需要删除或修改自动挂载,取消开机自动挂载文件系统。具体操作,请参见 通过NAS控制台卸载挂载...

什么是全局流量管理?

故障切换:指当健康检查结果发现用户访问的默认地址池出现整体不可用时,系统会自动把用户访问流量切换到备用地址上,可确保应用服务地址故障时,能够用备用地址池来响应用户的DNS查询请求,从而实现降低业务中断的风险,保障业务的稳定...

什么是全局流量管理?

4、故障切换 指当健康检查结果发现用户访问的主地址池集合出现整体不可用时,系统会自动将用户访问流量切换到备地址集合上,可确保应用服务地址故障时,能够用备地址池集合来响应用户的DNS查询请求,从而实现降低业务中断的风险,保障业务...

访问云虚拟主机上的网站提示“Internal Server Error...

说明 如果Linux操作系统云虚拟主机上安装了WordPress网站后,修改WordPress网站中主题的某些变量时,也会出现上述报错信息。Windows操作系统云虚拟主机:访问该主机上的网站时提示“Internal Server Error”相关报错,具体信息如下所示:...

SSH服务未设置开机时自启动

在临时挂载的修复盘中,问题实例原有系统盘的文件系统会被挂载到某一临时目录下。您可以通过以下任一方式查看所在的临时目录信息:通过ECS控制台的实例健康诊断结果获取,对应的信息格式示例如下所示:/tmp/ecs-offline-diagnose_disk-bp19...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 商标服务 云安全中心 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用