一键诊断

A:RDS MySQL的计算公式如下:线程使用率=活跃线程数/最大线程数 连接数使用率=当前连接数/实例规格最大连接数 最大线程数=thread_pool_size*(thread_pool_oversubscribe+1)Q:为什么会出现线程使用率超过100%的情况?A:按照线程使用率的...

慢日志分析

常见问题 Q:为什么会出现慢日志记录的SQL执行完成时间与SQL语句的实际执行时间不同?A:通常情况下是执行SQL语句修改了时区。慢日志记录的SQL执行时间的时区,存在会话级别、数据库级别和系统级别。慢日志时间设置逻辑为:当数据库存在...

慢日志

常见问题 Q:为什么会出现慢日志记录的SQL执行完成时间与SQL语句的实际执行时间不同?A:通常情况下是执行SQL语句修改了时区。慢日志记录的SQL执行时间的时区,存在会话级别、数据库级别和系统级别。慢日志时间设置逻辑为:当数据库存在...

慢日志

常见问题 Q:为什么会出现慢日志记录的SQL执行完成时间与SQL语句的实际执行时间不同?A:通常情况下是执行SQL语句修改了时区。慢日志记录的SQL执行时间的时区,存在会话级别、数据库级别和系统级别。慢日志时间设置逻辑为:当数据库存在...

CLB实例诊断

部分场景可能会出现流量达不到带宽峰值但是出现丢包的现象,详细原因及解决方法请参考 在部分特殊场景中,为什么会出现连接达不到带宽峰值的现象?最大支持连接数:检查是否存在丢弃连接或并发连接数超85%限额(15分钟内)。最大新建连接数...

慢日志分析

常见问题 Q:对于 RDS MySQL 和 PolarDB MySQL版 数据库实例,为什么会出现慢日志记录的SQL执行完成时间与SQL语句的实际执行时间不同?A:通常情况下是执行SQL语句修改了时区。慢日志记录的SQL执行时间的时区,存在会话级别、数据库级别和...

等待资源

什么会出现等待资源?为什么任务一直在等待gateway调度资源?为什么数据集成任务一直显示wait?为什么会出现等待资源?问题现象 调度将任务下发到对应执行引擎上,此过程可能会出现以下等待资源问题:等待调度资源组。数据集成任务等待...

主从(备)切换

注意事项 实例切换过程中会出现闪断,请确保您的应用程序具有自动重连机制。实例切换后,只读实例的数据会有几分钟的延迟,因为需要重建复制链路、同步增量数据等。手动切换主备实例 说明 仅 MyBase MySQL 高可用版实例支持主备切换。登录 ...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

产品架构

日常巡检、业务监控、故障诊断发现风险事件,并将其上报至风险管理中心,由风险管理中心进行统一调度,如触发故障诊断、应急预案等。运行总览集中展示整个平台的运行状态、风险情况。部署架构 HAS 部署时,需要依赖以下底层服务:数据库 ...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

什么是高可用管理平台

事前:通过应用巡检、故障诊断以及和监控平台的联动,实现应用运行风险的主动发现。事中:通过故障诊断、应急预案、容灾切换实现风险事件快速定位和恢复。事后:通过风险定级、回溯,实现风险事件的闭环管理。有效提升 IT 技术风险防御水平...

基本步骤

请参考具体章节查看详细信息:创建应用 runtime 与 agenthub 部署 启动应用 设置报警 观察监控指标 故障诊断 更新 runtime 版本

功能特性

提供故障诊断和运维监控,便于现场解决问题。与云端交付平台联动 线上集成、验证、出包,一步到位。柔性版本管理、故障回流差异。中间件统一供应 提供足够丰富的中间件(包括数据库),帮助产品加速实现完全容器化。对接入的中间件进行可运...

自动故障剔除

自动故障剔除功能自动监控 RPC 调用的情况,当某个节点出现故障时,可对故障节点进行权重降级,并在节点恢复健康时进行权重恢复。目前支持 Bolt 协议。配置方式 将自动故障剔除的参数配置到 SOFABoot 中的 application.properties 即可。...

应用场景

同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。故障演练 为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在...

诊断决策树

在左侧导航栏上,单击 故障诊断>诊断决策树。单击 新建,在 创建诊断决策树 页面,配置诊断决策树信息,包括决策树名称、描述,超时时间以及标签。单击 确认。编辑诊断决策树,否则节点将无法执行。单击目标诊断决策树名称进入详情页,开始...

故障排查

如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常问题排查 集群检查项及修复方案(包括升级集群、迁移集群、安装组件、...

自动故障转移和读写分离

libpq实现自动故障转移和读写分离 通过libpq函数连接多个数据库,当出现故障自动切换到可用的数据库。命令 postgresql:/[user[:password]@][netloc][:port][,.][/dbname]?param1=value1&.]示例 如下示例为连接1个RDS PostgreSQL主实例...

如何管理故障

本文档主要介绍如何管理故障故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障故障...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

支持计划-服务报告

服务范围不包含:代码开发 不在附录列表的第三方软件配置指导以及故障排查 所有第三方软件的安装、补丁更新、测试、故障诊断、优化等日常运维服务 注:对于不在阿里云服务范围内的第三方软件问题,客户可登录阿里云社区获取免费咨询,或...

应用场景

如果现有计算资源突然出现故障导致业务受到影响,很难及时进行故障修复或者替换。您可以利用弹性伸缩的高可用优势,开启健康检查模式。阿里云自动检查实例的健康状态,当发现存在实例不健康时,自动增加实例替换不健康的实例,确保...

Spark应用性能诊断

大规模应用负载均衡:Spark应用在高并发负载运行时,可能会出现性能问题,例如:数据倾斜、长尾任务、负载不均衡。对Spark应用进行性能诊断,可以快速定位问题,便于您优化Spark应用。使用限制 仅支持诊断14天以内且执行成功的Spark应用。...

任务运行诊断

任务实际执行时,除了受数据开发(DataStudio)中定义的定时调度时间影响外,还受多方因素影响。例如,上游任务的定时时间、上游任务实际执行完成时间、...说明 仅当任务配置了监控报警时,才会出现诊断信息。详情请参见 任务报警信息诊断

自助诊断系统

由于存在未支付订单时不能升级配置,因此会出现 错误提示,您可以利用自主诊断系统排查错误原因。有关如何正确升级实例配置,请参见 包年包月实例升级配置。步骤一:提交自动诊断 完成以下操作,提交自动诊断:登录 ECS管理控制台。在左侧...

阿里云上稳定性保障服务(容灾)内容说明

第三方软件的安装、测试、故障诊断、优化等日常运维服务。注:对于不在阿里云云上容灾服务范围内的第三方软件问题,客户可登录阿里云社区获取免费咨询,或联系云市场商家寻求帮助。3.前提条件 客户应提前至少10个工作日申请该服务,以便于...

客户端版本发布记录

2.0.4 2022-05-30 支持在未登录情况下进行故障诊断。支持DNS切换功能。修复部分问题。1.0.0 2020-10-22 首个版本发布。macOS 发布版本 发布时间 功能描述 3.3.1 2023-07-12 应用诊断展示源站IP。用户体验优化。安全性提升。客户端错误弹窗...

功能特性

查看同域流量分析 网络监测与诊断 帮助用户在云上运维阶段更高效地监测网络业务变化和故障诊断排查。功能集 功能 功能描述 参考文档 事件中心 问题事件 展示已经造成业务受损,并且7天内状态一直处于进行中的异常事件列表。查看问题事件 ...

分析视图简介

接下来问题诊断部分将gc日志中应用存在的较为严重的问题,标在时间轴上,下方指出这些问题中最严重,最应该优先解决的问题,给出问题发生的时间段(可通过点击时间来查看该时间段的数据以便于分析问题),然后给出常见的排查和调优方法...

回切至本地VMware

本文主要介绍如何利用阿里云连续复制型容灾(CDR)服务,在本地虚拟机出现问题后把云上恢复出来的ECS回切到云下VMware环境中。前提条件 已部署CDR网关。更多信息,请参见 步骤三:部署CDR网关。已在被保护的Windows服务器上安装阿里云复制...

同步Redis后出现数据不一致

如下图:可能原因 单靠 info keyspace 的 expires 来判断数据是否一致会出现偏差。其统计信息的统计值不是精确值,有一定的误差。info keyspace 的输出结果中:keys 表示所有keys的数据量。expires 表示带有过期keys的数据量,包含未过期和...

使用Cloud Toolkit诊断微服务

当微服务诊断成功时,会出现类似下图所示的日志信息。诊断日志 诊断是否能够连接到注册中心 通过日志可诊断本机到注册中心的网络状况,如果无法连接到注册中心,将会出现下图所示报错信息。当出现上图所示报错日志时,请核对注册中心IP和...

Linux系统的ECS实例系统无响应,系统日志中出现“BUG:...

soft lockup-CPU#0 stuck for 61s 问题原因 该问题通常是由于ECS实例中,系统内核长时间占用CPU资源导致出现软死锁(soft lockup)故障,内核长时间占用CPU资源可能有以下原因:系统负载过高 内核死循环或死锁 内核调度问题 内核出现故障 ...

在/var/log/messages日志中出现“INFO:task jbd2/vda1...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障。系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

自动SQL优化

说明 当慢SQL优化完成后,可能会出现全局性能变差的问题,为了提升 SQL自动优化 的准确率,建议开启 SQL洞察和审计。操作步骤 访问 RDS实例列表,在上方选择地域,然后单击目标实例ID。进入 自治功能管理 页面。在左侧导航栏中,选择 自治...

云盒故障服务器维修流程

本文介绍当云盒内的服务器出现故障时,阿里云如何进行更换和维修,保证数据安全。背景信息 当云盒内的服务器出现故障,需要更换和维修时,出于客户成本考虑,云盒内没有部署数据擦除服务,阿里云不在客户现场进行数据擦除。重要 在您购买...

基本概念

概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...

2023年

无 缺陷修复 修复智能诊断功能统计表大小时可能会出现数字溢出的问题,现已将统计表大小的列由integer数据类型修改为bigint数据类型。修复分区表UPDATE分布键列时出现 tuple already updated by self 错误信息的问题。修复Master节点不回收...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 数据库自治服务 商标服务 Node.js 性能平台 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用