SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(上)
大数据运维在阿里云实时计算集群的落地实践:以数智为内核驱动的实时计算运维体系,解决稳定性、成本、效率三大运维领域需求。 摘要:本文整理自阿里云计算平台事业部实时计算高级运维专家王华(尚付)在FlinkForward Asia 2021生产实践专场的演讲。 一、 演进历史和运维挑战 阿里的实时计算经历了近10年的快速发展,总体来说可....
SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(中)
二、 集群运维Flink Cluster • 一方面,Flink平台上运行着一个非常典型的业务,就是双11大促当天GMV媒体成交翻牌器,也就是家喻户晓的成交额大屏,这个业务对于稳定性要求非常高。除了GMV翻牌器,Flink还承载了阿里内部全部重要的实时计算业务,包括阿里妈妈、广告计量计费、搜索推荐、机器学习平台等核心电商业务的实时场景。这些实时场景既重要又实时敏感,稳定性是第一大挑战。....
SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(下)
三、 应用运维Flink Job 伴随着实时计算的大趋势,Flink的用户和作业数经历了飞速增长,现在平台上的作业数已经达到了几万个。但是众所周知Flink作业的运维是一个非常复杂的问题,列举一些日常用户最高频的咨询,比如为什么我的作业启动慢,为什么Failover,为什么反压,为什么延时,如何调整资源配置来减少成本?这些看似简单的问题其实都非常复杂。 Flink....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。