捷顺

DAS服务自动SQL限流和自动SQL调优,帮助DBA从救火员转向数据库架构师,有更多时间和精力帮助研发优化系统架构,审核数据库的变更和各种操作,进一步降低系统故障的概率。DAS服务自动对数据库实例进行治理,帮助捷顺科技把数据库的运维成本...

通过集群故障诊断功能定位集群问题

阿里云容器服务ACK提供一键故障诊断能力,包括节点诊断、Pod诊断、网络诊断,可以辅助您定位集群中出现的问题。本文主要介绍如何在ACK集群中使用故障诊断功能。前提条件 已创建Kubernetes集群。具体操作,请参见创建Kubernetes托管版集群。...

应用场景

一站式运维事件管理应用场景满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。能够解决多源监控集成:支持多个常见监控系统...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

管理集群

如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动替换故障主机。手动替换主机:用户需要手动替换故障主机。资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配...

管理集群

如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动替换故障主机。手动替换主机:用户需要手动替换故障主机。资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配...

配置备份管理

登录云盾堡垒机Web管理页面,定位系统>系统备份管理,单击手动备份,自动生成一条备份记录。共享备份 登录云盾堡垒机Web管理页面,定位系统> 配置备份管理,选中允许同阿里云账户下的其他堡垒机使用本机备份,单击保存设置。使用该账号...

耗资源(客户程序故障)常见问题

当您的站点出现耗资源导致运行速度下降或服务器性能降低时,系统通过耗资源(客户程序故障)的影响程度采取不同的处理方法: 程度较轻:重启程序池或站点。程度较重:关停站点。每月为您提供至多三次耗资源导致站点关停后重启站点的...

管理PostgreSQL集群

如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换故障主机。手动替换主机:用户需要手动替换故障主机。资源分配策略 专属集群资源调度的默认分配策略:均衡分配:最大化追求更稳定的系统表现,优先从未分配资源...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

主备切换

除了因系统故障自动进行主备切换外,您也可以手动进行主备切换,指定一个只读节点为新的主节点。适用于高可用演练,或者需要指定某个节点为主节点的场景。注意事项 PolarDB集群进行主备切换时,可能会出现30秒左右的闪断,请尽量在业务低峰...

主备切换

除了因系统故障自动进行主备切换外,您也可以手动进行主备切换,指定一个只读节点为新的主节点。适用于高可用演练,或者需要指定某个节点为主节点的场景。注意事项 PolarDB集群进行主备切换时,可能会出现30秒左右的闪断,请尽量在业务低峰...

演练场景说明

网络故障场景包含网络延迟、网络丢包和篡改域名解析,网络故障系统运行过程中时常遇到的问题,所以需要提升系统在网络异常的情况下容错能力。Java Kubernetes类场景 场景名称 特性 虚拟机场景 故障演练支持的虚拟机场景。代码逻辑场景 ...

目标检测介绍

车辆仪表盘识别 识别车辆仪表盘上故障灯等信息。机动检测 检测图像中的机动主体,返回该机动主体的区域位置/坐标信息。车险图片分类 对输入的车险图片进行分类。车辆拥堵检测 根据图片中的车辆,判断是否发生拥堵。车辆违停检测 可...

系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见 《云栖社区》博客操作系统有异常?诊断日志来帮忙。您可以通过控制台实例详情页、控制台...

应用场景

问题分析与快速定位在分布式场景下,服务调用错综复杂,问题分析与定位非常困难,分布式链路跟踪系统能迅速定位到有问题的服务,协助快速解决问题节点。完整的应用调用拓扑关系:自动发现该服务的历史调用,以及对所有中间件的调用,绘制...

故障取消

故障取消 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST problem/...

故障详情

故障详情 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST problem/...

查看指定报警规则的报警历史

您可以查看指定阈值和自定义事件报警规则下的所有故障资源详情和报警图表,便于您及时定位并处理资源故障。查看阈值报警规则的报警历史 登录云监控控制台。在左侧导航栏,单击报警服务>报警规则。在阈值报警页面,单击阈值报警规则对应操作...

创建MongoDB集群

如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换故障主机。手动替换主机:用户需要手动替换故障主机。开放OS权限 专属集群MongoDB引擎的主机不提供操作系统(OS)权限,默认为关闭。首次使用该阿里云账号创建专...

功能优势

本文向您介绍故障演练产品的功能优势,故障演练以下简称 AHAS Chaos。灵活的流程编排 AHAS Chaos 将故障演练的环节分为了准备、注入、检查以及恢复四个阶段,每个阶段除了系统初始化完成的必要节点之外,您也可以根据需要添加所需的流程...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务...当故障演练自动结束、您主动终止或者演练中的任何环节出现异常后,系统都会进入恢复阶段,自动清除相应的故障,使故障演练对象恢复演练前的状态。

什么是容器报警演练

容器演练是针对Kubernetes集群定制的故障演练,可以对Kubernetes集群中至关重要的高可用特性进行验证。目前AHAS仅支持容器演练中的报警演练。本文主要介绍容器演练中的报警演练功能。报警演练功能概述 Kubernetes集群的自动报警功能是保障...

设备无法上电

问题现象 设备的系统指示灯SYS和电源指示灯都不亮。可能原因 未打开设备电源开关。设备电源线缆没有插牢。设备的外接电源有故障。设备的电源适配器有故障。解决方案 确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认外接电源是否...

服务管控和治理

故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。更多信息,请参见 故障隔离。透明劫持应用开启透明劫持功能后,出入应用的业务流量将会被 Sidecar Proxy 自动拦截,继而按照您在控制...

什么是ECS容灾

主系统和容灾系统部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。详情请参见跨地域容灾。当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软...

什么是应用高可用服务AHAS

流量防护工作流程 故障演练 故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景实现,能够帮助分布式系统提升容错性和可恢复性。流程故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查...

诊断规则

故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本文将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则提供多种诊断能力,包括巡检、监控告警、变更查询。新建诊断规则从左侧导航栏进入 故障诊断>诊断...

ack-node-repairer

Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。本文介绍如何安装和配置ACK...

产品简介

事件中心统一的报警、事件、故障任务流转处理事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件、故障。管理系统历史的所有报警记录,报警消息第一时间通知订阅对象,帮助企业实时发现问题,规避风险;...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作了。应用容灾的流程 通常情况下,应用容灾的流程如下:启动容灾复制,将服务器复制到云...

查看指定报警规则的报警历史

您可以查看指定阈值和自定义事件报警规则下的所有故障资源详情和报警图表,便于您及时定位并处理资源故障。查看阈值报警规则的报警历史 登录云监控控制台。在左侧导航栏,单击报警服务>报警规则。在阈值报警页面,单击阈值报警规则对应操作...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新阿里云、蚂蚁技术风险团队基于域内、域外...

畅捷通

畅捷通通过日志服务的异常预测函数,从海量指标中快速定位异常,将有问题的地方显示出来,快速发现系统故障。畅捷通通过日志服务将各块汇集过来的数据进行标记后,与应用的配置信息进行关联和整合,通过时序发现故障的根,从而可以实现...

API概览

系统规则 系统规则的相关API如下表。API 描述 CreateSystemRule 调用CreateSystemRule接口创建系统规则。DeleteSystemRule 调用DeleteSystemRule接口删除系统规则。DisableSystemRule 调用DisableSystemRule接口关闭系统规则。...

联网实时监控方案

在这个应用场景案例中,上海某联网行业方案提供商采用基于ARMS的方案统计车辆在线情况。由于数据量巨大(每秒10万级的车辆信息),无法基于数据库对原始数据进行多维度统计。基于ARMS的联网行业监控方案 总体架构如下图所示: 企平台...

故障复盘改进详情

Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 recentActivity String 2 最近活动 码表:PROBLEM_RECENT_ACTIVITY injectionMode String 3 注入方式 码表:PROBLEM_INJECTION_MODE recoveryMode ...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折