运维事件中心

提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更连续的业务体验。

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

应用场景

体系化故障闭环管理应用场景基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。能够解决故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息...

常见问题

运维管理 容器应用服务常见问题经典应用服务常见问题 中间件 SOFABoot 常见问题微服务常见问题微服务故障排查之 DRM微服务故障排查之限流微服务故障排查之 RPC服务网格-故障排查消息队列常见问题任务调度常见问题分布式链路跟踪常见问题...

编辑群体名称

根据业务需要,当前群体名称不能代表业务属性,则需要通过修改群体名称实现业务属性重新匹配。本文介绍如何修改群体名称。前提条件已有群体,具体操作,请参见新建群体。操作步骤登录数据资源平台控制台。在页面左上角,单击图标,选择数据...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

为什么需要多活容灾?

多活容灾MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复和故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复,助⼒企业...

功能简介

通过数据标准的管理功能,模型设计者可通过设计标准数据元素,定义关键业务对象、业务对象属性及值域定义,并规范标准数据字典,制定并管理平台遵循的统一数据标准,帮助平台管理者和数据管理者管控治理后数据的一致性和数据质量。...

我是系统集成商

输入属性组名称以及从业务属性类型的属性模版:也可以单击批量添加,直接选择业务属性类型的属性模版添加业务属性:单击属性组前面的加号,可以展开查看属性组下面的业务属性列表:可以切换到技术属性页签,单击批量添加,直接从技术属性...

同城多活常见问题

本文介绍同城多活的常见问题以及解决方案。假设数据库主备,ECS双可用区部署,是否就是同城多活?和EDAS、MSE集群流量同可用区优先的差异和优势?消息是基于Shutdown机制实现多活么?数据库是两个机房各一个主备,还是主机房一主一备,备...

数据标准

维度管理:支持对维度表的统一管理,通过分析业务流程、抽象关键业务对象、业务对象属性,配置维度属性的字段类型、长度、质量校验函数和引用数据字典,为模型标准化设计及数据治理过程中的质量检测提供依据,并提供导入、导出、删除、编辑...

故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在故障详情页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障通告...

什么是故障

本文主要介绍什么是故障。定义在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生。

应用故障自动诊断

常见故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

元数据管理

数字工厂会根据入驻时候选择所在的行业提供初始化的元数据,一般包括常用的人员、物料组、物料类型、物料、设备类型、设备型号和生产设备等元主数据,这些数据是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在...

元数据配置

属性类型中除了常规的类型以为,还有两类特殊的属性类型:属性类型-主数据 属性类型中先选择主数据,然后在关联的主数据列表中选择一种元数据,将定义这个属性关联到另一类主数据中去,例如说物料的采购负责人,将关联到人员主数据,将...

微服务应用问题定位及故障演练

场景描述 您微服务架构应用基于阿里云容器服务Kubernetes(ACK)部署,通过阿里云业务实时监控ARMS发现微服务应用的容错能力是否健壮、容器编排配置是否合理、节点故障引发的问题等。方案通过AHAS故障注入模拟生产环境产生的故障,通过ARMS...

添加维度属性

通过添加维度属性,配置维度属性的字段类型、长度、质量校验函数和引用数据字典,为数据模型标准化设计及数据治理过程中的质量检测提供依据。本文介绍如何添加维度属性。前提条件已新建维度,具体操作,请参见新建维度。背景信息在模型字段...

应用场景

机房级容灾同城双活同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当一个机房故障,不影响另外一个机房业务使用。异地主备满足容灾需求,两地不同城市分别建设两个...

新建业务修饰

指标属性包括时间修饰、业务修饰和度量,通过自定义时间修饰、业务修饰、度量等指标属性,为新建指标做准备。本文介绍如何新建业务修饰的指标属性。背景信息系统通过指标属性组合成指标,自动生成规范的指标命名和指标编码,保证指标的唯一...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

使用场景

场景一:面向大中型企业的多地容灾高可用网络架构 当本地数据中心的关键业务对可用性要求极高时,建议在多个接入点建立专线连接,该拓扑确保了因光纤切断、设备故障或接入点位置故障导致的连接故障的恢复能力。自主申请专线和共享合作伙伴...

迁移有潜在故障风险的DDH

您可以自主迁移有潜在故障风险的DDH到其他物理机,避免相关业务因DDH故障受到影响。前提条件 请先将DDH上的ECS实例全部停机,否则迁移会失败。操作步骤 登录ECS管理控制台。在左侧导航栏,单击实例与镜像>专有宿主机 DDH。在顶部菜单栏...

配置故障注入

故障注入是一种模拟应用异常...故障注入规则配置完成且开启后,请根据实际业务验证故障注入规则是否生效。相关操作 故障注入规则创建完成后,您还可以编辑规则以及根据规则的不同状态关闭规则或开启规则。当不再需要故障注入时,删除规则。

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可用能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。一次完整的故障...

产品简介

一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障恢复时长、更连续的业务运营体验。产品架构功能概况您可以在运维事件中心获得以下功能的入口:模块能力概述功能描述服务管理企业的各个服务(Service)...

故障排查

本文介绍阿里云容器服务ACK集群在使用过程中常见问题的故障分析和排查流程。ACK集群异常 Kubernetes集群创建失败的解决方法 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 ...

客户属性

客户属性是绘制用户画像的基本数据来源之一,通过这些数据可以有效地对客户进行画像分析,客户属性主要是利用一些字段来完善客户的信息数据,例如性别、姓名、手机号等。一般记录客户属性数据的来源有引导注册、完善个人资料等。客户属性将...

OEE

质量合格率输出属性:将实时计算的质量合格率百分比结果写回到该属性 理想生产周期输出属性:将设备设定的理想生产周期写回到该属性 产量输出属性:将实时计算的当班最新产量统计写回到该属性 次品输出属性:将实时计算的当班最新次品总量...

操作常见问题

更改资源属性顺序在更改应用架构资源属性时,需要从外向内更改,因为内层资源属性值依赖于外层资源属性值。当所有配置更改完成后,再次修改外层资源属性时,需要再次打开应用架构的内部资源属性配置框,让其资源更改的属性值可以同步到内层...

跨可用区容灾

当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO/RPO核心指标...

混沌工程缓存实战系列-Redis

由于要观测演练前和故障注入后系统的业务情况,因此除了故障注入节点之外,还需要增加业务探活的节点。故障演练提供了类似K8s的探活功能,可以通过访问指定接口来判断业务是否可用。参数配置说明如下:参数 描述 示例值 failureThreshold ...

混沌工程缓存实战系列-Redis

由于要观测演练前和故障注入后系统的业务情况,因此除了故障注入节点之外,还需要增加业务探活的节点。故障演练提供了类似K8s的探活功能,可以通过访问指定接口来判断业务是否可用。参数配置说明如下:参数 描述 示例值 failureThreshold ...

为多语言应用配置故障注入

故障注入是一种模拟应用异常...故障注入规则配置完成且开启后,请根据实际业务验证故障注入规则是否生效。相关操作 故障注入规则创建完成后,您还可以编辑规则以及根据规则的不同状态关闭规则或开启规则。当不再需要故障注入时,删除规则。
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折