雪崩-雪崩文档介绍内容-阿里云

死信消息

典型错误使用死信消息场景处理死信消息时，如果将死信消息多层流转，转储回原Topic，会引起死信消息再次被循环重试，可能会引起雪崩效应。死信策略什么时候消息会转为死信状态消息重试达到最大重试次数后还没有被成功消费，消息将不再被...

容灾恢复

解决了服务故障持续影响业务的问题，避免了雪崩效应，提高系统可用率。功能原理单机故障剔除会统计一个时间窗口内的调用次数和异常次数，并计算每个服务对应 IP 的异常率和该服务的平均异常率。当 IP 的异常率大于服务平均异常率，且达到...

过载保护

背景当用户做促销活动时，数据库主库的CPU资源容易负载过高，这时就需要对数据库进行变配（升级），但变配的过程中整个集群的请求可能都会路由到主节点，导致主节点CPU资源超负载甚至雪崩，从而影响用户业务的连续性。为了缓解此种情况的...

体验中心

场景二：双 11 大促中，电商系统面临着短时间内业务量的迅速增长，为避免业务峰值给系统带来极大的压力，防止服务器宕机、服务超时、用户无法访问、服务雪崩等问题，可以对服务进行以下治理操作：服务限流：为高访问的订单服务（Order）...

数据操作篇

本文将为您提供关于数据操作的最佳实践。拆分属性列访问热度差异大的表如果行...建议应用程序遇到此类错误时等待一段时间后再进行重试，每两次重试之间应该加大时间间隔或引入随机时间间隔，避免重试的请求堆积到一个时间点上引发雪崩效应。

应用防护规则适用场景

避免局部不稳定因素（某个慢调用、异常服务）导致整体的雪崩，例如切断某个RT高的第三方服务调用，或针对某个ID的慢SQL访问进行熔断。配置熔断规则热点防护规则自动识别热点参数并控制每个热点值的访问频次或并发量，可以有效地防止过...

流量防护规则适用场景

配置并发隔离规则熔断规则对不稳定的弱依赖调用进行自动熔断降级，暂时切断下游不稳定的调用，避免局部不稳定因素导致整体的雪崩。避免局部不稳定因素（某个慢调用、异常服务）导致整体的雪崩，例如切断某个RT高的第三方服务调用。配置熔...

管理服务

建议您设置为能承载最大流量的最少节点数的所占比例，例如您有10个实例节点，最少有6个节点就可以承载最大流量，低于6个节点就可能会导致雪崩，则保护阈值为0.6。当实例来源为服务治理注册时，您还需要配置以下参数。说明通过服务治理...

功能概览

提供默认断路器和自定义降级策略配置，避免极端情况下雪崩效应；支持精细化的流量控制，既能粗粒度的针对API访问频率、APP的请求频率进行流控设置，也能可针对HTTP请求、系统上下文中获取参数并加以逻辑判断，进行参数流控；监控告警快速...

服务管控和治理

服务熔断当为服务中的服务端接口不稳定，出现频繁超时或错误时，可能会引起服务调用雪崩。您可以对应用开启服务熔断功能，使有故障的服务端及时返回错误，并释放系统资源，提高用户体验和系统性能。更多信息，请参见服务熔断。故障注入 ...

混沌工程缓存实战系列-Redis

缓存命中率缓存未命中可能会在大流量下引发穿透、击穿、雪崩等问题，如果业务没有做好应急处理，很容易压垮数据库。穿透：Key对应的数据在数据源并不存在，每次针对此Key的请求从缓存获取不到，请求都会到数据源，从而可能压垮数据源。...

TCP连接超时时间配置

警告如果不按照这个原则进行配置，那么在用户后端服务延时较大的情况下，客户端会在API网关返回应答前提前关闭TCP连接，导致API网关在应答的时候找不到可用的TCP连接报N502RE的错误，严重的时候可能会产生雪崩效应。这个配置请务必关注。...

基本概念

限流通过控制流量，可以有效防止外部请求容量超过后端服务能够承载的压力，从而避免发生级联雪崩。黑名单通过配置IP黑名单拒绝某个来源的API请求，提高安全防护能力，负责控制请求的调用来源 IP（支持IP段）。跨域资源共享允许Web应用...

为Dubbo服务配置服务降级

背景信息开源已有的Sentinel、Hystrix等开源的熔断降级，主要是对不稳定的弱依赖服务调用进行熔断降级，暂时切断不稳定调用，避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段，通常在服务消费端进行配置。服务降级功能既...

服务熔断

当服务中的服务端接口不稳定，出现频繁超时或错误时，可能会引起服务调用雪崩。您可以对应用开启服务熔断功能，使有故障的服务端及时返回错误，并释放系统资源，提高用户体验和系统性能。功能简介您可以通过下述操作让故障处于可控范围：...

为Spring Cloud服务配置服务降级

背景信息已有的Sentinel、Hystrix等开源的熔断降级，主要针对不稳定的弱依赖服务调用进行熔断降级，暂时切断不稳定调用，避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段，通常配置在服务消费端。服务降级功能既支持在服务...

附录：服务状态码说明

说明队列限长在一定程度上也是一种限流保护，避免大流量导致服务雪崩。处理方法：当返回的状态码有少量450时，因为服务端的实例是相互独立的，您可以通过重试调度到其他相对空闲的实例上，避免客户端感知，但不能无限重试，否则限流的保护...

服务熔断

当服务中的服务端接口不稳定，出现频繁超时或错误时，可能会引起服务调用雪崩。您可以对应用开启服务熔断功能，使有故障的服务端及时返回错误，并释放系统资源，提高用户体验和系统性能。功能简介您可以通过下述操作让故障处于可控范围：...

产品优势

架构上难以支撑百万级的设备规模，设备并发连接很多时难以保证平台稳定性，同时大量设备上下线会导致平台雪崩。扩展性可选多种付费模式：按量付费、包年包月。随业务规模增长，可无感扩容。需一次性投入购买IaaS资源。随着业务规模增长，...

健康检查最佳实践

由于当前实例重启，可能会导致更长的时间无法负载流量，甚至出现雪崩。例如，对于Java应用，Spring Boot框架提供了内置的健康检查。该健康检查会检测多个组件的情况，例如与Redis、Nacos等组件连接与心跳是否正常，并判断是否需要重启应用...

存储资源

除以上五点外，常见的存储资源风险点还有“挂载卷无法访问”、“云盘读写IO Hang”、“依赖文件不存在”、“缓存雪崩”、“配置推送错误”、“数据库IO不足”、“数据库存储空间不足”、“数据库副本丢失”等。可以使用自动检测与恢复、...

产品架构

服务熔断服务熔断主要目的是当某个服务故障或者异常时，如果该服务触发熔断，可以防止其他调用方一直等待所导致的超时或者故障，从而防止雪崩。产品架构如下：Provider App：指服务提供端发布服务，并向注册中心注册。Consumer App：指...

排查CPU使用率高的问题

极端情况下，甚至可能导致实例被整体阻塞，引发应用超时中断或流量跳过缓存层直接到达后端的数据库侧，引发雪崩效应。通过性能监控功能，确认CPU使用率高的具体时间段。具体操作，请参见查看监控数据。通过下述方法，找出高消耗的命令：...

【产品变更】SAE限流降级功能从集成AHAS变更为MSE

应用高可用服务 AHAS（Application High Availability Service）流量防护功能已全面迁移至微服务引擎 MSE（Microservices Engine）微服务...如果是微服务应用，可能还会造成雪崩效应，可以通过配置并管理限流降级规则，对应用实施保护措施。

限流配置

集群调度资源或底层计算资源有限，可能导致大规模的任务等待运行，继而引发计算引擎雪崩。具备限流配置的能力后，可以达到以下目标：控制同时下发到计算引擎侧的任务数，保证计算引擎不会出现并发过高、请求过多等原因导致的系统性崩溃，...

SAE微服务相关概念和能力

如果是微服务应用，可能还会造成雪崩效应，因此有必要去做一些保护措施。SAE 集成阿里云应用高可用服务（Application High Availability Service，简称AHAS），能够方便地配置和管理限流降级规则。具体操作，请参见限流降级。[返回顶部]...

限流配置

集群调度资源或底层计算资源有限，可能导致大规模的任务等待运行，继而引发计算引擎雪崩。具备限流配置的能力后，可以达到以下目标：控制同时下发到计算引擎侧的任务数，保证计算引擎不会出现并发过高、请求过多等原因导致的系统性崩溃，...

PolarDB代理配置与流量异常

PolarDB 集群支持读写分离方式接入业务，但在实际业务场景中，经常出现节点上流量负载不均，可能导致单节点承担大量的流量从而被拖垮，最终造成整个集群雪崩。本文主要描述 PolarDB 代理的配置方法以及流量不均时如何定位处理。数据库代理...

从Spring Cloud到服务网格体系的结合与迁移

支持限流、熔断避免应用服务调用时出现雪崩。基于YAML配置支持限流、熔断能力。基于Hystrix实现，需要一定的代码注入。南北向流量支持入口和出口网关为客户端请求的入口，以及对外访问的出口网关。基于Istio Ingress实现入口网关功能，...

MSE注册配置中心高可用最佳实践

服务提供者（Provider）服务提供者（Provider）容灾保护主要用于避免集群在异常流量下出现雪崩。说明 nacos-java-client 2.x版本注册的Provider暂时不支持Provider侧的容灾。无容灾保护当来自Consumer端的请求量突然增加时，如果Provider...

配置限流策略

限流是流量控制中最常用的手段之一，能有效地防止外部请求超出后端服务的承载能力，从而避免发生级联雪崩。在高并发场景下，限流可以通过阻止一部分请求来保证后端服务一直可用。云原生网关支持路由级别的限流策略，可以精确地控制某个路由...

Tair开发运维规范

如果超时重试时间设置的非常短（例如200毫秒以下），可能引发重试风暴，极易引发业务层雪崩。更多信息，请参见 Tair客户端重连指南。命令使用规范重要程度规范说明★避免执行范围查询（例如 KEYS*），使用多次单点查询或 SCAN 命令来...

配置限流策略

限流是流量控制中最常用的手段之一，能有效地防止外部请求超出后端服务的承载能力，从而避免发生级联雪崩。在高并发场景下，限流可以通过阻止一部分请求来保证后端服务一直可用。云原生网关支持路由级别的限流策略，可以精确地控制某个路由...

配置自动调优

外部系统故障或访问变慢时，会导致作业并发度增大，加重外部系统的压力，导致外部系统雪崩。常见的外部系统问题如下：数据总线DataHub分区不足或消息队列RocketMQ吞吐量不足。Sink性能问题。云数据库RDS死锁。智能调优和定时调优都支持基础...

排查Redis实例CPU使用率高的问题

极端情况下，甚至可能导致实例被整体阻塞，引发应用超时中断或流量跳过缓存层直接到达后端的数据库侧，引发雪崩效应。说明关于各命令对应的时间复杂度信息，请参见 Redis官网。热Key：某个或某部分Key的请求访问次数显著超过其他Key时，...

云数据库Redis开发运维规范

如果超时重试时间设置的非常短（例如200毫秒以下），可能引发重试风暴，极易引发业务层雪崩。更多信息，请参见 Redis客户端重连指南。命令使用规范重要程度规范说明★避免执行范围查询（例如 KEYS*），使用多次单点查询或 SCAN 命令来...

横向网关产品特性汇总

过载保护：在网关数据面节点的CPU或Memory达到预警值后拒绝接受新建链接，保证数据面服务持续可用，防止压力过大整个集群雪崩。推空保护：在网关控制面因非预期原因推送给数据面空数据时，数据面拒绝执行更新，以保证数据面服务持续可用。...

使用弹性供应组API批量创建ECS实例

避免某一种实例规格对应的实例回收，造成计算能力产生雪崩效应。CreateAutoProvisioningGroup最佳实践本章节提供CreateAutoProvisioningGroup接口对应的Java代码示例，使您快速了解该接口的使用方式。安装ECS Java SDK以及阿里云核心库。...

为什么要升级到MongoDB的新版本

缓解了之前版本中数据库异常后因请求堆积而导致雪崩的问题相关文档 MongoDB Software Lifecycle Schedules MongoDB产品生命周期策略升级数据库大版本 MongoDB 5.0新特性概览 MongoDB 6.0新特性概览 MongoDB 7.0新特性概览

EMR Kafka磁盘故障运维

这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降，单块盘故障甚至有可能因为IO处理能力下降导致集群出现雪崩效应、引起重大生产事故。因此需要对磁盘故障进行有效监控以便及时发现故障。当磁盘发生故障时，应及时...

雪崩

新品推荐