应用高可用服务 AHAS

应用高可用服务AHAS是一款专注于提高应用高可能力的SaaS产品,提供应用架构自动探测、故障注入式高可能力演练、一键应用防护和增加功能开关等功能,可以快速低成本地提升应用可用性。

运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

性能分析

性能分析服务为移动 App 提供实时线上性能数据的...性能分析服务支持 Android/iOS 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与崩溃分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

崩溃分析

崩溃分析服务为移动 App 提供实时线上稳定性相关...崩溃分析服务支持 Android/iOS/H5 应用类型,帮助客户建立 5 分钟线上故障感知能力,并与性能分析/远程日志服务配合使用,构建异常“感知-定位-恢复”的运维能力闭环,提升 App 使用体验。

Node.js 性能平台

Node.js 性能平台(Node.js Performance Platform)是面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。\nNode.js 性能平台凭借对 Node.js 内核深入的理解,提供完善的工具链和服务,协助客户主动、...

云数据库 OceanBase

OceanBase 是阿里巴巴和蚂蚁金服 100%自主研发的金融级分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了 6100万次/秒处理峰值的业内纪录,...

数据库自治服务 DAS

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

什么故障

本文主要介绍什么故障。定义在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服...

如何管理故障

改进分析改进分析用于记录管理故障恢复后的故障复盘。当故障处于 复盘中/已复盘 状态时,故障详情默认进入故障改进分析tab页;可对故障根因进行原因检查并结构化录入,检查包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装案例云复制服务。更多信息,请参见步骤四:安装阿里云复制服务。操作...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO/RPO核心指标...

跨地域容灾

容灾系统部署在阿里云上两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,可靠性更高,有效避免了地域性灾害导致的系统故障。准备工作 在实现跨地域容灾之前,您需要选择一个不同于生产环境的...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。一次完整的故障...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO...

故障演练常见问题

仅对下发成功的故障规则进行计费,所以执行一次演练的费用是在演练执行成功后进行计算的,会去除下发失败的故障规则。故障不生效是否计费?计费。故障不生效的原因较多,可能是参数配置不正确或无对应的请求命中,但故障规则已成功下发,故...

故障注入

运行模式配置故障注入规则的运行模式,取值如下:拦截模式:满足条件的故障注入请求会被注入。观察者模式:满足条件的故障注入请求不会被注入,只会在 MOSN 里打印日志。故障类型故障注入支持注入错误或者超时等事件,方便服务的异常测试,...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障...

配置故障注入

故障类型 故障注入规则支持的故障类型,包括异常类和延迟类。百分比 设置该应用的请求注入故障的百分比。异常状态码 当故障类型选择异常类,设置触发异常类故障时返回的状态码,状态码有效范围为:200~599。固定延迟时间 当故障类型选择...

应用场景

体系化故障闭环管理应用场景基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

故障注入

运行模式配置故障注入规则的运行模式,取值如下:拦截模式:满足条件的故障注入请求会被注入。观察者模式:满足条件的故障注入请求不会被注入,只会在 MOSN 里打印日志。故障类型故障注入支持注入错误或者超时等事件,方便服务的异常测试,...

为多语言应用配置故障注入

故障类型 故障注入规则支持的故障类型,包括异常类和延迟类。异常状态码 当故障类型选择异常类,设置触发异常类故障时返回的状态码,状态码有效范围为:200-599。固定延迟时间 当故障类型选择延迟类,设置触发延迟类故障时延迟的时间,请求...

API概览

API 描述 CreateProblem 故障升级 GetProblemImprovement 故障复盘改进详情 GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 ...

常见问题-FAQ

全局流量管理(GTM)和负载均衡(SLB)有什么区别?答:首先 GTM 是通过DNS将域名解析到多个IP地址,不同用户访问不同的IP地址,来实现应用服务流量的分配。同时通过健康检查动态更新DNS解析IP列表,实现故障隔离以及故障切换。最终用户的...

读多写少型业务场景多活实践

与许多企业一样,该电商业务首次开始考虑容灾建设,是源于一次商品应用的故障,导致导购页面长时间无法访问,电商业务瘫痪。虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始考虑...

读多写少型业务场景多活实践

与许多企业一样,该电商业务首次开始考虑容灾建设,是源于一次商品应用的故障,导致导购页面长时间无法访问,电商业务瘫痪。虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始考虑...

故障隔离

配置示例某应用有 A、B、C 三台服务器,三台服务的状态如下:A:正常B:异常,异常率 20%C:异常,异常率 40%已配置的故障隔离规则如下:时间窗口大小:10时间窗口内最少调用次数:20异常比例阈值:20异常比例倍数:1最大隔离数量:1如果 ...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可能力。

FAQs

全局流量管理(GTM)和负载均衡(SLB)有什么区别?答:首先 GTM 是通过DNS将域名解析到多个IP地址,不同用户访问不同的IP地址,来实现应用服务流量的分配。同时通过健康检查动态更新DNS解析IP列表,实现故障隔离以及故障切换。最终用户的...

DDH故障迁移

一台DDH基于一台指定的物理服务器,可能会因为故障而自动停机。为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。您可以在创建DDH时或创建DDH后配置DDH故障迁移。创建DDH时,在其他设置区域,选中宿主机故障时自动迁移。...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:com.alibaba.service.XxxService。如果模拟接口故障,需...

同城多活架构实践

应用场景:针对可用区级的故障、灾难,期望业务具备分钟级恢复能力的场景。应用多可区部署的情况下,期望RPC调用可用区内封闭,以避免跨可用区网络请求带来的RT增长。建设原则:保证冗余。保持对等。保持封闭。建设难点:流量管理难度高...

同城多活架构实践

应用场景:针对可用区级的故障、灾难,期望业务具备分钟级恢复能力的场景。应用多可区部署的情况下,期望RPC调用可用区内封闭,以避免跨可用区网络请求带来的RT增长。建设原则:保证冗余。保持对等。保持封闭。建设难点:流量管理难度高...

如何管理事件

故障等级:设置当前需要升级的故障等级 P1-P4。P1最高优,P4最低优;故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的服务;...

流水单据型业务场景多活实践

复现故障 改造完成容灾架构后,还需验证容灾能力是否符合预期,接下来将历史故障进行复现,通过制造真实的故障来验证容灾恢复能力。演练准备。登录AHAS控制台。在控制台左侧导航栏选择多活容灾。在左侧导航栏选择监控大盘,在顶部菜单栏,...

流水单据型业务场景多活实践

复现故障 改造完成容灾架构后,还需验证容灾能力是否符合预期,接下来将历史故障进行复现,通过制造真实的故障来验证容灾恢复能力。演练准备。登录AHAS控制台。在控制台左侧导航栏选择多活容灾。在左侧导航栏选择监控大盘,在顶部菜单栏,...

演练场景

一个完整的故障演练过程为 创建故障原子服务>创建故障演练场景>创建并发布演练方案>创建演练执行单并执行>查看演练报告>导出演练方案。演练场景模块允许您根据容灾需要,自行设计故障演练场景,并对已创建的演练场景进行...

功能优势

AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折