运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

数据管理 DMS

数据管理DMS是一种集数据管理、结构管理、用户授权、安全审计、数据趋势、数据追踪、BI图表、性能与优化和服务器管理于一体的数据管理服务。

应用配置管理 ACM

应用配置管理(Application Configuration Management,简称 ACM),是一款在分布式架构环境中对应用配置进行集中管理和推送的工具类产品。基于该产品,您可以在微服务、DevOps、大数据等场景下极大地减轻配置管理的工作量,增强配置管理的...

物联网络管理平台

物联网络管理平台,是阿里云面向物联网领域开发人员推出的网络管理平台,旨在帮助开发者搭建无线空口数据通道,实现终端(如传感器等)数据通过无线技术上报云端。\n作为物联网络管理平台可与阿里云物联网平台搭配使用,确保参与物联网开发...

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

资源管理

阿里云资源管理(Resource Management)服务是一系列企业IT治理产品和服务的集合,主要包括资源目录、资源共享、资源组和标签。

智能媒体管理

阿里云智能媒体管理(Intelligent Media Management,简称 IMM),是阿里云提供的针对媒体数据的高级、智能管理服务。它具有与平台无关的 RESTful API 接口,为阿里云上的非结构化存储数据(例如,OSS 中的视频、图片、文档等数据)提供快捷...

智联车管理云平台

智联车管理云平台(IoV Command Center)是阿里云专门为智联车厂商推出的面向智联车的一站式全生命周期云端管理平台。旨在赋能整车厂转型出行服务商,降低厂商自建成本。

智能数据构建与管理 Dataphin

Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎,为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据构建及管理服务。

密钥管理服务

密钥管理服务KMS(Key Management Service)提供密钥的安全托管及密码运算等服务。借助KMS,您可以安全、便捷的使用密钥,专注于开发加解密等功能场景。

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在故障详情页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障通告...

应用场景

体系化故障闭环管理应用场景基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

常见问题-FAQ

两者的对比如下表所示:对比项网络层后端地址加权轮询跨Region难度故障隔离时间会话保持全局流量管理3层域名、IP支持简单分钟级不支持负载均衡SLB4层、7层IP支持困难秒级支持全局流量管理(GTM)、云解析DNS、全局负载均衡(GSLB)有什么...

FAQs

两者的对比如下表所示:对比项网络层后端地址加权轮询跨Region难度故障隔离时间会话保持全局流量管理3层域名、IP支持简单分钟级不支持负载均衡SLB4层、7层IP支持困难秒级支持全局流量管理(GTM)、云解析DNS、全局负载均衡(GSLB)有什么...

产品简介

什么是运维事件中心运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>...

什么是故障

故障追踪:支持对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、协同,基于统一视角协同处理故障,提升故障处理效率;故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上...

产品架构

产品架构如下图所示:AHAS Agent AHAS Agent 安装在指定的目标机器上,用来执行服务端下发的故障注入命令以及采集演练相关的必要信息,比如 CPU、内存占用等,主要有以下特点:快捷高效 支持在控制台一键安装 AHAS Agent,如果是公网则需要...

如何管理事件

本文档主要介绍如何管理事件。事件来源通过流转规则触发的系统事件;通过手动新增的人工事件。事件的状态已分配:事件已分配处理人,可点击“响应”按钮进行接手;已响应:事件已被处理人接手响应,在处理完事件后,可点击“完结”按钮进行...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。功能简介故障注入流程如下所示:在微服务中,其实现方式为:管控台...

演练方案

演练方案指针对不同故障场景设计、编排的一套容灾演练计划。故障演练模块支持创建、编辑、发布、复用、删除、导出演练方案,以及查看演练记录,下面逐一进行操作说明。创建演练方案在左侧导航栏上,单击 故障演练>演练方案,进入故障...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

产品优势

本文档描述产品的主要使用优势。主要优势多监控系统集成:支持10+常见监控系统集成,简单配置即可快速完成对接;灵活的报警降噪能力:支持横向抑制、...阿里巴巴故障管理最佳实践输出:帮助云上企业构建故障管理体系,持续提升业务连续性。

配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,可以检测该应用的消费者处理异常情况的能力,从而提高系统的健壮性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录MSE治理中心控制台。在左侧导航栏选择微...

故障注入

您可以通过故障注入功能向测试应用注入故障,检测应用面对异常时的处理情况。您可以根据检测的情况调整您的应用,以减少应用在正式使用时出现的异常问题。多用于测试环境。配置故障注入规则登录 SOFAStack 控制台。在左侧菜单栏选择 中间件...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

为多语言应用配置故障注入

故障注入是一种模拟应用异常行为的技术,通过给应用注入特定故障,来检测该应用的消费者处理异常情况的能力,然后通过提升处理该异常情况能力的方式来提高系统的稳定性。本文介绍如何为多语言应用配置服务故障。创建故障注入规则 登录EDAS...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装案例云复制服务。更多信息,请参见步骤四:安装阿里云复制服务。操作...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

API概览

GetProblemPreview 获取故障通知预览 UpdateProblemImprovement 更新故障复盘改进详情 CancelProblem 取消故障 CreateProblemSubtotal 故障新增备注小计 FinishProblem 故障完结 ListProblemSubtotals 故障小计列表 RecoverProblem 故障...

什么是故障演练

故障演练是一款遵循混沌工程实验原理并融合了阿里巴巴内部实践的产品,提供丰富故障场景,能够帮助分布式系统提升容错性和可恢复性。流程 故障演练建立了一套标准的演练流程,包含准备阶段、执行阶段、检查阶段和恢复阶段。通过四阶段的...

代码逻辑场景

本文列出了故障演练支持的代码逻辑场景。篡改Java方法返回值 修改Java指定方法的返回值,返回指定的值。参数名称 是否必选 默认值 参数说明 类名 是 无 完整的类名,包含包名。例如:com.alibaba.service.XxxService。如果模拟接口故障,需...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

什么是应用高可用服务AHAS

应用高可用服务(Application High Availability Service)是一款专注于提高应用高可用能力的SaaS产品,包含架构感知、流量防护、故障演练和功能开关四大独立的功能模块。架构感知:自动感知应用的拓扑结构。以可视化的方式直观呈现应用对...

管理PostgreSQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

修改DDH故障迁移配置

为了降低物理故障对您业务的影响,阿里云为您提供DDH故障迁移服务。本章节介绍在创建DDH后如何修改DDH故障迁移配置。背景信息 故障迁移服务开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启DDH故障迁移服务,DDH发生故障停机...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。一次完整的故障...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

ChaosBlade是一款简单易用且功能强大的混沌实验实施工具,AHAS CHAOS故障演练是ChaosBlade的商业化产品。本文介绍AHAS CHAOS故障演练与开源ChaosBlade的能力对比。产品简介 开源ChaosBlade与商业化AHAS CHAOS故障演练的特点如下:开源...
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 物联网无线连接服务 SSL证书 轻量应用服务器 块存储 商标
这些文档可能帮助您
在线扩容云盘(Linux系统) 主实例规格列表 什么是传统型负载均衡CLB 价格、收费项与计费方式 阿里云NTP服务器 建站零基础入门

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折