负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。

运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

故障演练常见问题

例如:对 10 台 ECS 注入 CPU 满载和磁盘填充两种故障,则故障注入次数为 10(ECS数)×2故障场景数)=20次,那么故障规则下发次数即为 20 次。挂载 JavaAgent 是否计费?仅针对故障规则下发次数进行计费,挂载 JavaAgent 为故障注入的...

常见问题

运维管理 容器应用服务常见问题经典应用服务常见问题 中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM微服务故障排查之限流微服务故障排查之 RPC服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪常见问题...

功能特性

通过日常巡检功能,可以例行化、自动化地对系统稳定性、可用性进行巡查,并将巡检结果实时同步推送至指定的钉钉群中,便于运维人员一时间了解应用风险;同时支持生成巡检报告,供运维人员统一归档。巡检插件支持多种类型,包括 python、...

应用场景

报警事件分级管理:系统触发的报警、事件、故障无分级,不能一时间区分任务的紧急和影响程度导致重要紧急的任务未及时处理,加大业务损失。打破数据烟囱:同一个业务运营下所有层级的报警数据统一汇聚,不同监控源数据互联互通,真实反应...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 Kubernetes集群创建失败的解决方法 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 ...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

实例的节点故障处理机制

本文档介绍云数据库MongoDB版实例的节点故障处理机制。单节点实例 由于单节点实例架构的特殊性,单节点实例仅拥有一个节点。当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于...

功能优势

丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,包括了以下场景:常见的基础设施资源例如CPU、内存、磁盘等。应用级别的故障注入,目前只支持 Java 应用,后续将陆续推出对于 NodeJs 和 C++ 的应用故障注入。云原生领域的演练...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环。这些消息服务之前并没有在系统中实际经历过真实流量考验,其中某些隐患或缺陷很难被发现...

常见问题

更多产品定价常见问题 挂载访问FAQ Linux挂载NFS文件系统常见问题 Windows挂载SMB文件系统常见问题 Linux挂载SMB文件系统常见问题 Windows挂载NFS文件系统常见问题 更多挂载访问常见问题 性能测试FAQ 文件系统的读写性能与什么相关?...

管理集群

主机故障处理策略 设置主机故障系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 设置主机故障系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

网站耗资源(客户程序故障常见问题

本文汇总了使用云虚拟主机出现网站耗资源(客户程序故障)时的常见问题。什么是网站耗资源(客户程序故障)?网站程序占用CPU及内存过多,是对资源的一种浪费。当您使用普通版共享云虚拟主机建站后,可能会因为网站程序编写不合理、代码...

跨地域容灾

容灾系统部署在阿里云上两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,可靠性更高,有效避免了地域性灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的...

容灾恢复

解决了服务故障持续影响业务的问题,避免了雪崩效应,提高系统可用率。功能原理单机故障剔除会统计一个时间窗口内的调用次数和异常次数,并计算每个服务对应 IP 的异常率和该服务的平均异常率。当 IP 的异常率大于服务平均异常率,且达到...

什么是容器报警演练

不同于其他故障演练模块对系统注入真实故障,报警演练只会对集群的API Server投递事件,由事件触发报警链路,不会对系统造成真实故障。无侵入。无需在用户集群中安装探针以注入故障,所有事件投递都是通过API Server来进行网络请求。

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

故障隔离

某个服务故障或者异常时,如果该服务触发熔断会造成整个服务的不可用。而故障隔离能够定位到异常的服务实例,实现实例级别精细化的隔离和摘流,使故障影响的范围更小、更可控。配置故障隔离规则登录 SOFAStack 控制台。在左侧菜单栏选择 ...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在故障详情页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障通告...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

产品简介

管理系统历史所有(系统自动触发和手动新增的)事件任务,事件任务一时间分派给所属人员,支持转交、响应、处理完结、升级故障等操作;管理系统历史所有升级的故障(人为手动升级或系统自动触发);支持故障全生命周期管理,包括通知、...

常见问题

本文介绍容器服务ACK的常见问题。您在使用容器服务ACK时如果收到容器服务ACK返回的错误信息,可查阅容器服务错误代码汇总匹配解决方案。如果您没有收到具体的错误信息,可根据以下问题分类匹配问题场景和解决方案。入门FAQ 方案规划 容器...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。一次完整的故障...

围绕混沌工程的平台实践

原则2多样化真实世界的事件 在故障演练开始之前,您需要思考以下问题,在现实生活中,系统已经发生过哪些问题?可能会发生什么样的新问题?有哪些问题是正在解决中的?这些问题可以帮助您在设计演练流程时选择和系统业务有关的更优场景。...

阿里云售后服务说明

阿里云售后服务范围:关于阿里云服务与产品功能的咨询使用、配置阿里云产品的建议阿里云的产品相关的技术问题、故障诊断阿里云API 和阿里云SDK问题的故障诊断与阿里云资源相关的操作或系统问题的故障诊断与阿里云的管理控制台或其他阿里云...

应用故障自动诊断

常见故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,可以检测该应用的消费者处理异常情况的能力,从而提高系统的健壮性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录MSE治理中心控制台。在左侧导航栏选择微...

什么是故障

本文主要介绍什么是故障。定义在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

API概览

系统规则 系统规则的相关API如下表。API 描述 CreateSystemRule 调用CreateSystemRule接口创建系统规则。DeleteSystemRule 调用DeleteSystemRule接口删除系统规则。DisableSystemRule 调用DisableSystemRule接口关闭系统规则。...

为多语言应用配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力,然后通过提升处理该异常情况能力的方式来提高系统的稳定性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录EDAS...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折