功能特性

高可用管理平台 HAS 定位于 IT 技术风险防控。...利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

ADP底座介绍

常见故障场景自动诊断:内置长期经验沉淀的运维知识库,自动识别常见故障问题,并提供故障处置建议。自动化巡检和告警通知:内置基础告警策略并可灵活配置,可对接多种告警通知方式,定期巡检,及时感知问题。业务数据的存储备份及还原:...

syslog日志查询

您可以通过输入设备名称、设备地址、关键字以及选择时间范围,检索和查询相关的设备日志,同时也可以配置解析规则触发事件告警,目前CMN内置了常见厂家的“端口Down”、“BGP邻居中断”、“ISIS协议变化”等常见故障的触发规则。...

开启混沌工程

关于ACK常见故障的排除方法,请参见故障排除。相关文档 混沌工程概述 容器报警演练 Pod OOM故障演练 Service异常问题排查 Nginx Ingress异常问题排查 DNS解析异常问题排查 使用DNSTAP Analyser诊断异常 Pod异常问题排查 集群巡检与诊断

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

基础版实例

以下内容为AnalyticDB PostgreSQL版实例常见故障场景中基础版和高可用版的对比:恢复(Recovery)模式根据以往AnalyticDB PostgreSQL版运行情况,恢复模式为出现概率最大的故障场景,远大于另外两种场景,该场景下基础版恢复速度远高于高...

ADP底座/本地运维控制台

针对常见故障场景,提供修复方案和处理建议。组件运维操作可视化:本地运维控制台新增以下几项白屏化运维操作prometheus、loki、local:新增水平扩容、垂直扩容、PVC存储扩缩容所有谐云中间件:新增水平扩容、垂直扩容、PVC存储扩缩容、主...

图像处理概述

下表为您列出了图像处理常见的适用场景,适用场景较多,不仅限于以下场景。适用场景 说明 电商平台 多种样式处理满足多终端图片显示场景,图片编辑更加高效便捷。可对商品、图片评论等进行压缩,缩小图片质量,达到省流的目的。支持添加...

故障演练

ADP提供基于线下交付经验设计的丰富故障演练场景,对基础设施、底座、中间件的常见故障场景进行覆盖,涵盖了集群级别的大规模故障以及节点、pod级别的资源故障。部分演练场景为破坏性场景(如机器重启、网卡损坏),可能导致环境状态异常、...

图像处理方法及优势

下表为您列出了图像处理常见的适用场景,适用场景较多,不仅限于以下场景。适用场景 说明 电商平台 多种样式处理满足多终端图片显示场景,图片编辑更加高效便捷。可对商品、图片评论等进行压缩,缩小图片质量,达到省流的目的。支持添加...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 ...

应用故障自动诊断

常见故障自动诊断场景RT突增 下游业务导致的本应用的RT突增,您可以联系下游业务的负责人进行排查。应用变更导致的RT突增,您可以查看此次变更的具体变更进行排查。应用的某个服务导致RT突增,可以排查以下情况:服务是否在此时有发生...

虚拟机场景

本文列出了虚拟机常见故障演练场景。JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满会直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不...故障注入不是目的,演练的目的是加深对系统的理解,这样当真实的问题来临时候,才能更加有信心地去处理。

GTM如何实现异地容灾

概述方案介绍异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

容器服务ACK集群故障排查

下表罗列了一部分ACK集群常见故障原因以及处理方法:故障场景 处理方法 API Server组件停止或Master组件停止: 不能创建(停止、更新)Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常工作,除非该Pod或Service需要调用...

GTM如何实现同城容灾

概述方案介绍同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

GTM实现跨网访问加速与故障切换

概述方案介绍大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障切换...

新手指引

管理控制台常见问题 网站耗资源(客户程序故障常见问题 更多常见问题,请参见常见问题和故障排除汇总。反馈与建议 在使用阿里云云虚拟主机时,如果有任何疑问或建议,您可以通过以下渠道进行反馈: 如果您在文档使用中遇到以下问题,您...

耗资源用户处理流程

为了保证您的站点能够安全、稳定...关于网站耗资源的原因以及排查方法,更多信息,请参见网站耗资源(客户程序故障常见问题。增强版共享虚拟主机和独享虚拟主机可以更好地应对耗资源问题,避免站点被关停。更多信息,请参见云虚拟主机官网。

图像搜索

Search)是以深度学习和大规模机器学习技术为核心,通过图像识别和搜索功能,实现以搜图的和以文搜图的智能图像搜索产品。图像搜索服务在基于图像识别技术基础上,结合不同行业应用和业务场景,帮助用户实现相同或相似图片搜索。

RPC 常见问题

本文汇总梳理了 RPC 使用过程中遇到的常见问题及排查思路。使用 RPC 客户端调用服务时报错调用服务时报“RPC-02306:没有获得服务[{0}] 的调用地址,请检查服务是否已经推送”错误排查思路如下:检查服务地址是否推送。登录客户端,查看 ...

常见问题

网站耗资源的原因及解决方法 云虚拟主机被爬虫访问耗费大量流量的解决方法 网站耗资源(客户程序故障常见问题 通过Robots协议屏蔽搜索引擎抓取网站内容 流量统计常见问题 云虚拟主机可以升级到云服务器ECS吗?如何取消云虚拟主机的自动...

Pod异常问题排查

检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常问题处理 诊断流程 查看Pod是否处于异常状态,具体操作,请参见检查...

Pod异常问题排查

检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常问题处理 诊断流程 查看Pod是否处于异常状态,具体操作,请参见检查...

运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更...

城市视觉智能引擎(文档停止维护)

城市视觉智能引擎依托于阿里云分布式计算和存储平台,利用先进的视频图像、图形学处理技术和深度学习算法,建立城市级人工智能模型,实现对整个城市视觉数据(枪机、球机等摄像头数据以及遥感、卫星、无人机采集的图像数据)的接入、计算、...

故障排查

本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...

全局流量管理

全局流量管理通过DNS实现应用服务的就近访问接入、多地址负载均摊,同时根据健康检查进行DNS Failover,实现应用服务的同城多活故障隔离和异地容灾。

负载均衡

负载均衡SLB(Server Load Balancer)是一种对流量进行按需分发的服务,通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,并且可以消除系统中的单点故障,提升应用系统的可用性。

GPU云服务器

GPU云服务器提供GPU加速计算能力,实现GPU计算资源的即开即用和弹性伸缩。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。

智能视觉生产(文档停止维护)

以视觉AI能力为基础,结合平台能力及业务数据积累,面向传媒娱乐、工业制造、数字营销等行业提供视频、模型、图像等视觉内容的智能化生产服务,帮助客户提升生产效率,压缩生产周期,打通生态闭环。

应用高可用服务 AHAS

应用高可用服务AHAS是一款专注于提高应用高可用能力的SaaS产品,提供应用架构自动探测、故障注入式高可用能力演练、一键应用防护和增加功能开关等功能,可以快速低成本地提升应用可用性。

数据库自治服务 DAS

数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助您消除人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。

智能视觉

使用智能视觉可以让零算法基础的开发者和企业快速享受到AI视觉计算能力带来的便利,智能视觉面向存储在线上环境的图片、视频文件提供包括图像分类、物体检测、事件检测、物体识别等能力,可应用于家庭监控、明厨亮灶、智慧工地等各种场景。

工业大脑开放平台

工业大脑是基于阿里云大数据的一体化计算平台,通过数据工厂对企业系统数据、工厂设备数据、传感器数据、人员管理数据等多方工业企业数据进行汇集,借助语音交互、图像/视频识别、机器学习和人工智能算法,激活海量数据价值,为解决工业...

虚拟数字人开放平台

虚拟数字人开放平台,是由阿里云所提供的数字人 PaaS&SaaS 解决方案,它集成了自然语言处理、图形图像、语音等算法能力,提供给客户标准的 PaaS 接口与 SaaS 运营工具,方便客户将数字人能力集成进不同的终端与场景。主要面对的行业包括新...

网络质量分析器

网络质量分析器(Internet Performace Analyzer)可以提供互联网全链路的网络质量分析能力。本服务提供的SDK集成到用户应用程序或者SDK中,配合云端配置的...可以结合业务场景进行网络故障的定界定位、网络质量的优化以及与其他云产品联动。

云数据库 OceanBase

自主研发的原生分布式关系数据库,在普通硬件上实现金融级高可用,在金融行业首创“三地五中心”城市级故障自动无损容灾新标准,同时具备在线水平扩展能力,创造了 6100万次/秒处理峰值的业内纪录,在功能、稳定性、可扩展性、性能方面都...

IoT固件安全检测

IoT固件安全检测是专门针对物联网设备固件提供安全风险检测、安全漏洞扫描的服务,覆盖16类常见的高危风险。
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用