基本概念

资源管理 资源管理,实现系统资产和配置管理功能,提供各类资源及其相关属性的维护管理,范围不仅包括设备、服务器和IoT之类物理资源,也包括IP地址、业务链路等逻辑资源。设备 一般指IP数通类网络通信设备,比如交换机、路由器、防火墙...

常见问题-FAQ

说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。重要 标准版最快可在4分钟左右准确发现故障并切换 故障发现时间:GTM可保障故障发现时间,目前...

FAQs

说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、以及在不同的测试时间,全网生效测试结果会发生变化。重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确...

故障管理

故障管理 故障管理是单独针对故障的一整套完成的应急相应流程机制,包括:故障应急、故障收敛、故障追踪、故障复盘、故障改进等核心功能。通过建立故障应急机制,可保证服务稳定运行、服务体验保证等。故障管理也可以理解为重大事件的升级...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

什么是应用实时监控服务ARMS?

完整再现用户操作过程,从页面打开速度(测速)、请求服务调用(API)和故障分析(JS错误、网络错误等)稳定性(JS错误、崩溃、ANR 等)方面监测前端应用性能表现情况,并支持日志数据查询,帮助您快速跟踪定位故障原因,提升用户体验。...

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

AccessGatewayFailover

告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。icmsDocProps={'productMethod':'created','language':'zh-CN',};

GTM如何实现异地容灾

在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云解析DNS,也可以使用全局流量管理...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

产品简介

报警、事件、故障全链路数据在线化管理,实现业务运营的可视化、在线化、智能化管理。升级策略 针对所有事件,按照不同优先级、影响程度,制定系列不同时间、通知策略的规则合集。通过灵活自定义的升级通知策略,帮助用户及时关注并解决...

故障应急

故障管理体系是围绕故障生命周期采取的一系列控制流程,包括故障基础数据管理故障等级定义、应急场景监控覆盖、服务组&值班表管理故障订阅管理),故障发现(7*24监控值班、智能基线告警),故障应急协同(故障通告及更新、故障应急...

专家成长计划技术培训课程

本课程亮点在于在介绍上述云网络产品运维和故障排查的同时,还包含SLB、VPC、VPN、云企业、高速通道、云解析等产品链路的故障排查动手操作实验,使得学员对课程理论有更直观和深入的理解(我们将为学员准备实验环境及账号信息)。...

附录:SOFAStack 产品目录

运维管理 SOFAStack CAFE(Cloud Application Fabric Engine)云应用引擎,提供应用管理、发布部署、运维编排、监控分析、容灾应急等生命周期管理的 PaaS 平台产品,满足金融场景中经典架构和云原生架构的运维需求,帮助传统架构平滑过渡...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

K8s应用运维管理最佳实践

建议用 性能测试PTS 对应用做链路压测,根据压测水位提前预估好所需Pod和Node数量,在高并发前完成扩容;还需要评估存储和网络带宽,提升存储空间和负载均衡的规格或网络带宽;如果还需要用到应用路由,请注意查看Ingress Controller的...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的计算服务状态、存储服务状态、网络服务状态、实例配置管理和实例操作系统内相关配置进行方位的诊断,帮助您了解实例的健康情况,及时发现并解决常见的问题。本文介绍轻量应用服务器支持...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

动态与公告

功能/版本 历史版本GTM标准版 新版GTM标准版 新版GTM旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

常见问题旧版索引

排查故障的经典步骤与常见原因 如何通过查看日志排查故障?产品FAQ 授权管理FAQ 集群管理FAQ 节点与节点池FAQ 容器网络FAQ Service FAQ Ingress FAQ DNS FAQ 应用FAQ 存储FAQ-CSI 存储FAQ-Flexvolume 容器安全FAQ 为什么可观测监控 ...

如何管理故障

故障过程 故障过程用于记录管理故障处理的过程。当故障处于处理中/已恢复状态时,故障详情默认进入故障过程tab页;可以对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、编辑,并同步更新通告及故障...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

一键诊断

相关文档 通过一键诊断了解数据库性能情况的全貌后,您可以使用如下功能对数据库进行全面细致的诊断,准确定位故障原因,并解决故障。会话管理 性能趋势 锁分析 慢SQL 空间分析 常见问题 Q:一键诊断中,如何计算会话的线程使用率、连接数...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

产品优势

本文档描述产品的主要使用优势。主要优势 多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、...阿里巴巴故障管理最佳实践输出:帮助云上企业构建故障管理体系,持续提升业务连续性。

GTM如何实现同城容灾

在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云解析DNS,也可以使用全局流量管理...

GTM实现跨访问加速与故障切换

在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云解析DNS,也可以使用全局流量管理...

运营阶段

通过前期的设计,到构建,服务进入日常运营环节。在这个阶段往往会产生大量的运营事件,比如日常的资源申请。企业在持续运营过程中也会产生或大或小的生产故障,需要做好线上故障管理,提升服务SLA。

常见问题FAQ

10.右上角固网/WIFI局域连接异常 故障示意图如下:设备显示固网/WIFI局域连接异常。该问题为设备与路由器之间的本地连接故障。如是固网接入。请按顺序检查:1.设备与路由器两端的RJ45插头是否松动。2.更换一根网线。3.重启路由器。4....

产品价格

版本配置 功能项 标准版 旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右可以全网生效,但实际情况取决...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
弹性公网IP 商标服务 云安全中心 负载均衡 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用