大规模ACK Pro集群使用建议

分类 说明 隔离性 使用多个集群可以确保不同集群(例如生产集群和测试集群)的隔离性,避免某个集群的问题影响全部业务,降低故障爆炸半径。位置 某些服务需要部署在离终端用户更近的特定地理位置,以满足可用性、低延时的需求。在此场景下...

常见问题旧版索引

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途 集群管理 容器服务ACK集群故障排查 添加Kubernetes集群节点的常见问题 删除Kubernetes集群失败 通过CloudShell管理集群出现超时问题 ...

故障排查与常见问题

故障排查索引 集群类型 相关文档 托管版与专有版容器集群ACK 使用OpenAPI诊断工具进行故障排查 Service异常问题排查 Nginx Ingress异常问题排查 DNS解析异常问题排查 使用DNSTAP Analyser诊断异常 Pod异常问题排查 节点异常问题排查 存储...

查看集群概况

智能运维系统通过红黄绿3种颜色来展示集群的健康状况:红色:表示集群已经出现了很严重的问题或者很严重的隐患,已经影响了您的使用,需要立即处理,否则会存在数据丢失,集群故障等问题。黄色:表示集群存在较严重的问题或隐患,可能会...

通过CCR跨集群复制解决跨集群容灾场景

Elasticsearch(简称ES)集群出现灾难性事件,例如,硬件故障、软件错误、数据中心故障、自然灾害或其他导致服务中断的情况,可使用跨集群复制CCR(Cross Cluster Replication)实现跨地域或跨资源的容灾能力,本文分别介绍新老网络架构下...

通过云原生网关管理多个ACK集群

例如,集群A部署在可用区A,集群B部署在可用区B,A与B两个集群部署的服务一致,当其中一个集群故障时可以快速切换流量。云原生网关为了支持业务的高可用部署诉求,提供了多ACK集群接入功能。即用一个云原生网关实例同时关联A、B两个集群,...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,可在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

历史功能发布记录(2022年)

全部 创建集群 ACK Serverless支持集群故障诊断和集群巡检 ACK Serverless集群 巡检可以定时扫描集群运行状况,发现集群中潜在的风险,如云资源配额余量、Kuberrnetes集群关键资源水位等。ACK Serverless集群 故障诊断包括Pod诊断、网络...

安装云原生AI套件

云原生AI套件支持安装在ACK Pro版集群、ACK Serverless集群Pro版、ACK Edge集群Pro版,且集群版本为1.18及以上。本文介绍如何安装云原生AI套件,以及如何安装配置云原生AI运维控制台和开发控制台。前提条件 已创建ACK Pro版集群、ACK ...

集群巡检项及解决方案

NAT网关连接数过高 vSwitch剩余IP不足 Ingress Controller SLB新建连接速率检查 Ingress Controller SLB QPS检查 版本证书 Versions&Certificates 集群版本过低 集群证书即将过期 CoreDNS版本过低 Ingress版本过低 集群组件更新检查 集群...

节点诊断

容器智能运维平台 提供节点诊断功能,帮助您诊断集群中存在异常的节点。本文介绍节点诊断对应的检查项以及修复方案。容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能...

使用集群API Server审计功能

ACK集群提供API Server的审计日志,帮助集群管理人员排查“什么人在什么时间对什么资源做了什么操作”,可用于追溯集群操作历史、排查集群故障等,降低集群安全运维压力。使用说明 本文仅适用于 ACK托管集群、ACK专有集群、ACK Serverless...

使用集群API Server审计功能

ACK集群提供API Server的审计日志,帮助集群管理人员排查“什么人在什么时间对什么资源做了什么操作”,可用于追溯集群操作历史、排查集群故障等,降低集群安全运维压力。使用说明 本文仅适用于 ACK托管集群、ACK专有集群、ACK Serverless...

集群巡检项及解决方案

NAT网关连接数过高 vSwitch剩余IP不足 Ingress Controller SLB新建连接速率检查 Ingress Controller SLB QPS检查 版本证书 Versions&Certificates 集群版本过低 集群证书即将过期 CoreDNS版本过低 Ingress版本过低 集群组件更新检查 集群...

通过kubectl实现集群应用的备份和恢复

excludedResources 可选,排除集群资源类型。重要 为避免非预期备份结果,includedResources 和 excludedResources 您只需配置一项。当两者均为空时,表示备份所有资源类型。matchLabels 可选,指定标签,只备份符合的资源。...

什么是容器报警演练

容器演练是针对Kubernetes集群定制的故障演练,可以对Kubernetes集群中至关重要的高可用特性进行验证。目前AHAS仅支持容器演练中的报警演练。本文主要介绍容器演练中的报警演练功能。报警演练功能概述 Kubernetes集群的自动报警功能是保障...

故障排查

ACK集群异常 添加Kubernetes集群节点的常见问题 容器镜像仓库构建服务失败问题排查 容器镜像服务源码绑定失败问题排查 Kubernetes集群如何指定安全组 Kubernetes集群网络异常的排查方法 容器服务ACK应用故障排查 如何升级集群?排查故障的...

跨地域灾备

当主集群发生故障后,阿里云确认主集群不可恢复,开放将项目切换到备份集群所在地域的能力,切换按钮可用,由您选择触发切换,操作步骤如下。重要 您需要谨慎操作切换功能。因为备份非实时,不支持PiTR,所以切换可能会有数据丢失。如果...

故障排查

本文介绍您在使用 ACK Serverless集群 时可能遇到的故障以及解决方案。如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常...

运维命令概览

当您的阿里云Elasticsearch(简称ES)集群出现故障时,可通过本文提供的命令进行排查。说明 以下命令均可在Kibana控制台中执行,详情请参见 登录Kibana控制台。集群 命令 说明 GET/_cat/health?v 查看集群的健康状态。集群状态包括green、...

独享集群最佳实践

独享集群和公共集群对比 对比项 WAF公共集群 WAF独享集群 集群地区 公共集群在全球共部署14个防护节点,分布在以下地区:北京、上海、杭州、深圳、中国香港、新加坡、马来西亚、美西、澳洲、德国、印度、印尼、迪拜、日本。业务接入公共...

ModifyDBCluster-修改集群功能配置

修改PolarDB MySQL集群的功能配置。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

创建集群

集群模板资源组 根据需要选择已有的资源组,方便对模板进行分组管理。如果需要创建新的资源组,您可以单击下方的 创建资源组,详情请参见 创建资源组。单击 确定。即会在 管理集群模板 面板中新增一个集群模板。集群模板的详细信息,请参见...

CLB释放和挂载

当您在使用ClickHouse集群实例进行大规模数据处理并希望确保高效负载均衡时,云数据库ClickHouse集群会默认为您挂载CLB。挂载CLB后,ClickHouse集群将实现自动故障转移,通过健康检查分配流量至正常节点,确保集群高可用。挂载CLB属于依赖...

产品高可用

最佳实践:会话同步可以保证长连接不受集群内服务器故障的影响,但是对于短连接或连接未触发会话同步规则时(未完成三次握手),集群内的服务器故障仍可能会影响用户请求。为了防止集群中某台机器故障导致的会话中断,您可以在业务逻辑中...

集群监控告警说明

集群监控 进入【集群管理-集群监控】可以查看集群整体的监控大盘。上面4个选项卡可以切换图表,分别查看:集群监控大盘、集群巡检结果、底座组件监控、Yoda PV存储监控。集群告警 集群告警策略 集群告警主要包含所有K8s内核以及集群节点...

高可用和容灾设计

可通过集群可读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群可读地址中移除,同时清除该备节点上的可读连接,此时集群可读地址会发生闪断。故障主节点从集群读写...

部署和使用跨可用区实例

跨可用区部署可提升集群的容灾能力,系统会自动选择库存充足的可用区创建集群。在索引配置了副本的情况下,当某一可用区出现故障时,剩余的可用区依然可以不间断地提供服务,显著增强了集群的可用性。同时,您可以通过控制台的切流操作,将...

自动切换可用区

概述 PolarDB 开启跨可用区自动切换后,当主可用区故障(例如,主可用区所有计算节点同时故障)时,集群会自动进行主备可用区切换,备可用区中的备库升级为新的主库,恢复集群的可用性。同时,PolarDB 还提供了半同步模式来进行跨可用区的...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...

组复制简介

例如,5个节点的集群,3个节点收到Binlog,2个节点未收到Binlog,此时有2个节点故障:如果故障的2个节点是收到Binlog的节点,那至少还有1个节点上有数据。如果故障的2个节点是没收到Binlog的节点,那至少还有3个节点上有数据。说明 多数派...

产品架构

因而负载均衡集群支持热升级,并且在机器故障集群维护时最大程度对用户透明,不影响用户业务。说明 对于连接未建立(三次握手未完成),或者已建立连接但未触发会话同步机制,热升级不保证连接不中断,需要依靠客户端重新发起连接。入网...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

产品简介

集群管理 功能项 说明 集群创建 ACS集群与资源一体化,您无需运维管理集群和节点。通过YAML文件或控制台简单配置,即可快速创建部署业务,大幅降低使用K8s和云的门槛。更多信息,请参见 创建ACS集群。连接集群 通过获取KubeConfig并使用...

集群管理FAQ

本文主要为您介绍集群管理的常见问题。Alibaba Cloud Linux操作系统的集群兼容CentOS的容器镜像吗?Kubernetes集群扩容常见问题的排查及解决方法 为何删除Kubernetes集群失败?通过CloudShell管理集群出现超时问题 创建集群选择了...

管理从集群

全球数据库网络(Global Database Network,简称GDN)是由分布在同一个国家不同地域的多个 PolarDB 集群组成的网络,网络中所有集群的数据保持同步。当您的业务部署在多个地域时,利用GDN可以实现应用访问数据库的低延迟和高稳定性。本文...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

Pod诊断

重要 使用故障诊断功能时,系统将在您的集群 节点上 执行数据采集程序并收集检查结果。采集的信息包括系统版本,以及负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。诊断支持的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 云数据库专属集群 云数据库 Redis 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用