文章 2023-05-22 来自:开发者社区

SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(上)

 大数据运维在阿里云实时计算集群的落地实践:以数智为内核驱动的实时计算运维体系,解决稳定性、成本、效率三大运维领域需求。 摘要:本文整理自阿里云计算平台事业部实时计算高级运维专家王华(尚付)在FlinkForward Asia 2021生产实践专场的演讲。 一、 演进历史和运维挑战   阿里的实时计算经历了近10年的快速发展&a...

SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(上)
文章 2023-05-22 来自:开发者社区

SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(中)

二、 集群运维Flink Cluster • 一方面,Flink平台上运行着一个非常典型的业务,就是双11大促当天GMV媒体成交翻牌器,也就是家喻户晓的成交额大屏,这个业务对于稳定性要求非常高。除了GMV翻牌器,Flink还承载了阿里内部全部重要的实时计算业务,包括阿里妈妈、广告计量计费、搜索推荐、机器学习平台等...

SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(中)

智能运维赛(复赛):利用数据和算法,快速定位系统异常并进行根因分析

1 课时 |
49 人已学 |
免费

存储的降本增效与运维

14 课时 |
349 人已学 |
免费

企业运维训练营之云上监控运维最佳实践课程

4 课时 |
1376 人已学 |
免费
开发者课程背景图
文章 2023-05-22 来自:开发者社区

SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(下)

三、 应用运维Flink Job   伴随着实时计算的大趋势,Flink的用户和作业数经历了飞速增长,现在平台上的作业数已经达到了几万个。但是众所周知Flink作业的运维是一个非常复杂的问题,列举一些日常用户最高频的咨询,比如为什么我的作业启动慢,为什么Failover,为什么反压,为什么延时&#x...

SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(下)
文章 2022-02-15 来自:开发者社区

Redis开发运维实践高可用和集群架构与实践(五)

11.1.5 其他问题 11.1.5.1 只读性 主从复制架构下,默认Slave是只读的,如果写入则会报错: 127.0.0.1:6379> set foo bar (error) READONLY You can't write against a read only slave. 注意这个行为是可以修改的,虽然这样的修改没有意义: 127.0.0.1:6379> CONFIG .....

文章 2022-02-15 来自:开发者社区

Redis开发运维实践高可用和集群架构与实践(四)

11.1.4 高可用和异常测试 11.1.4.1 测试环境介绍 sentinel的消息可以通过sentinel日志(/redis/log/sentinel.log)以及sentinel:hello订阅此频道进行查看。 11.1.4.2 手动切换测试 集群情况,2.128为主 发起主动切换: 查看sentinel日志: 在2.129上看,集群已经切换过来: 11.1.4.3 主实例宕...

文章 2022-02-15 来自:开发者社区

Redis开发运维实践高可用和集群架构与实践(三)

11.1.3 维护操作 11.1.3.1 完整启动 supervisord -c /redis/conf/redis-supervisord.conf 会自动拉起本机的redis和sentinel 11.1.3.2 启停redis supervisorctl -c /redis/conf/redis-supervisord.conf start redis supervisorctl -c /r....

文章 2022-02-15 来自:开发者社区

Redis开发运维实践高可用和集群架构与实践(二)

11.1.2 环境搭建 11.1.2.1 部署架构 部署架构上采用三台机器,一个Master接受写请求,两个Slave进行数据同步,三台机器上都部署sentinel(一般为奇数个,因为需要绝大部分进行投票才能failover)。(官方示例)具体架构如下图: 注意:如果有条件可以将sentinel多部署几个在客户端所在的应用服务器上,而不是与从节点部署在一起,这样避免整机宕机后sentinel和.....

文章 2022-02-15 来自:开发者社区

Redis开发运维实践高可用和集群简述

10.1 概念 在本文档中,高可用主要指的是解决尽可能在不丢失数据的前提下不间断服务问题,由于redis是异步复制,因此不保证数据完全不丢失,在这个场景下并不实现动态横向扩容,只能进行纵向扩容,你只要加内存,启动redis,设置maxmemory即可。而分片(Sharding)主要指的是解决在线动态横向扩容缩容问题,当然为了稳定也进行高可用部署配置,即包含成对的主从关系。 10.2 高可用主要场....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐