管理SQL Server集群

主机故障处理策略 主机发生故障时系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

混沌工程缓存实战系列-Redis

客户端 因素 模拟手段 可能后果 可能影响指标 网络延迟 6379端口网络延迟 读写请求RT变长 连接池满 QPS RT 成功率 网络中断 6379端口网络丢包 读写失败 无法连接 QPS RT 成功率 单次查询耗时过长 如果Key过多,可以模拟Keys*查询 单次请求...

混沌工程缓存实战系列-Redis

客户端 因素 模拟手段 可能后果 可能影响指标 网络延迟 6379端口网络延迟 读写请求RT变长 连接池满 QPS RT 成功率 网络中断 6379端口网络丢包 读写失败 无法连接 QPS RT 成功率 单次查询耗时过长 如果Key过多,可以模拟Keys*查询 单次请求...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

诊断决策树

您可以通过诊断决策树,编排故障排查的过程。对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树从...

功能更新记录

本文介绍故障演练Chaos历次发布涉及的功能变更,帮助您了解故障演练的发布动态。2021年9月 功能名称 功能概述 支持资源包类型 支持地域 发布时间 可视化演练 可视化演练是基于架构视图来控制爆炸半径,并通过可视化的交付方式,直接面向...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

故障排查

Kubernetes集群创建失败的解决方法 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 ...

网络类场景

网络类场景包含网络延迟、网络丢包和篡改域名解析等场景。帮助您在网络异常的情况下验证应用或服务的容错能力。网络延迟 网络延迟场景可以指定网络延迟因素(例如网卡、本地端口、远程端口、目标 IP 等)和延迟时间,对应用或服务注入网络...

安装探针概述

为您的主机等资源安装 应用高可用探针(即AHAS探针)后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、...

设备无法上电

设备的外接电源有故障。设备的电源适配器有故障。解决方案 确认设备电源开关是否打开。确认设备电源线缆是否插牢。确认外接电源是否有故障。更换其它可以正常供电的外接电源,如果设备可以正常上电,则可以确认是设备的外接电源有故障。...

产品功能

帮助您监控网络流量和排查网络故障。此外,您可以通过流日志分析业务构成,指导业务优化。详情请参见流日志概述。健康检查 智能接入网关支持健康检查功能,创建健康检查后智能接入网关设备可发送探测报文检测目的连通性。详情请参见创建...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

连接VPC

云企业网 云企业网(Cloud Enterprise Network,简称CEN)帮助您在VPC间搭建私网通信通道,通过自动路由分发及学习,提高网络的快速收敛和跨网络通信的质量和安全性,实现全网资源的互通。更多信息,请参见云企业网。您可以通过云企业网...

灾备规划

RTO和RPO一般由业务部门提出要求,与IT部门共同商议,基于技术可行性、对现有系统影响、成本等多方面综合考量综合得出。RTO和RPO标准的高低与基础设施成本往往有线性关系。您也可以参考国家和行业标准来制定RTO、RPO目标。GB/T 20988-2007...

微服务应用问题定位及故障演练

本文介绍微服务应用问题定位及故障演练的场景描述、解决问题、架构图及操作参考链接。场景描述 您微服务架构应用基于阿里云容器服务Kubernetes(ACK)部署,通过阿里云业务实时监控ARMS发现微服务应用的容错能力是否健壮、容器编排配置是否...

Node 演练场景

Kubernetes 集群中 Node 资源故障场景,包含 CPU、网络和进程等基础资源类演练场景。每个 Node 场景下都包含通用的 Node 筛选参数,用于查找目标 Node。通用参数说明 参数名称 参数说明 节点名称 节点资源名,选择多个节点资源时资源名之间...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内ping其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至2。请检查设备本身是否上电。电源状态指示灯...

常见问题

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途 集群管理 创建Kubernetes集群失败 容器服务ACK集群故障排查 添加Kubernetes集群节点的常见问题 删除Kubernetes集群失败 通过...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

连接本地IDC

您可以通过VPN网关、高速通道物理专线或智能接入网关将本地数据中心和云上专有网络打通,构建混合云。概述 您可以在本地数据中心和阿里云专有网络间建立私网通信,构建混合云。然后将本地的IT基础架构无缝地扩展到阿里云上,借助阿里云海量...

应用场景

由于不同地区网络情况不同,网络访问一般会受到距离等因素的影响,因此,企业会选择在几个大区的核心位置建立服务接入点,使不同区域的用户访问各自区域的核心接入点,从而获得最佳的访问体验。使用 GTM 时,可以通过DNS的智能解析功能,向...

产品优势

安全可靠 计算巢安全可靠,具有以下优势:极简网络联通设计,打通服务商与用户之间的网络,解决在运维时需要手动修改网络配置、交换登录凭证的困扰,杜绝安全隐患。计算巢通过安全授权和自动鉴权的方式,完成服务商和用户之间的授权,为...

更新故障详情

更新故障详情 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

如何选择私网类产品?

专有网络VPC(Virtual Private Cloud)是您专有的云上私有网络。阿里云提供了针对不同场景的VPC私网接入产品和服务,如高速通道、VPN网关、云企业网和智能接入网关等。本文介绍了下表中各场景的私网接入方案。VPC互连 产品 描述 优点 限制 ...

什么是云网管

标准化变更流程,有效控制变更风险 观测平台(Observation Platform)基础设施运行状态维护和管理,包含性能数据和告警数据,实现对各类监控对象的异常数据判定,网络故障的发现、分析、定位等维护管理。高效采集,分钟级故障定位发现 ...

安装故障演练探针

对指定机器进行演练时,需要在机器上面安装故障演练探针,探针的作用是下发故障演练执行命令。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 操作步骤 登录AHAS控制台。在左侧导航栏选择...

智能卡产品简介

在线长:与人不同,设备没有“睡觉”的时候,需要7*24小时连网,对网络中断几乎零容忍,需要有网络备份•运维难:随着设备分布在全国各地,不管是提前勘测网络信号人工筛选还是当前网络故障后人工现场修复,都导致这些行业的运维管理成本极...

快速创建RDS专属集群实例

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

故障动态

PROBLEM_IN_REVIEW 完结 PROBLEM_REOPENED 取消 PROBLEM_CANCEL 更新故障通告 PROBLEM_UPDATE_NOTIFY 添加故障小计 PROBLEM_ADD_SUBTOTAL 更新故障 PROBLEM_UPDATE problemId Long 12312 故障Id problemName String 这是一个故障 故障名称 ...

故障演练快速入门

为验证系统的容错性和可恢复性等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。本文以 CPU 满载演练为例,介绍如何使用故障演练功能。步骤一:安装探针 进入 AHAS 产品主页,开通 AHAS ...

什么是消息演练

各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环,这些消息服务之前并没有实际在系统中经历过真实流量考验,很难发现一些其中隐患或缺陷,急需通过故障演练来评测高可用性。AHAS提供了强大且高灵活度的故障演练...

基本概念

概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>...

通过集群故障诊断功能定位集群问题

阿里云容器服务ACK提供一键故障诊断能力,包括节点诊断、Pod诊断、网络诊断,可以辅助您定位集群中出现的问题。本文主要介绍如何在ACK集群中使用故障诊断功能。前提条件 已创建Kubernetes集群。具体操作,请参见创建Kubernetes托管版集群。...

服务管控和治理

服务治理服务治理包含服务限流、服务路由、服务鉴权、服务熔断、故障注入、故障隔离、透明劫持、服务拓扑和实时监控相关服务治理。服务限流在高并发场景下,为保证在现有资源条件下服务正常运行,您可以使用服务限流让请求和并发在应用可...

演练方案

演练方案指针对不同故障场景设计、编排的一套容灾演练计划。故障演练模块支持创建、编辑、发布、复用、删除、导出演练方案,以及查看演练记录,下面逐一进行操作说明。创建演练方案在左侧导航栏上,单击 故障演练>演练方案,进入故障...
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 物联网无线连接服务 SSL证书 轻量应用服务器 商标 短信服务
这些文档可能帮助您
添加TCP监听 ALB计费项概述 什么是传统型负载均衡CLB CLB实例概述 负载均衡SLB产品家族介绍 绑定ECS实例

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折