SREWorks云原生数智运维工程实践-Kubernetes 资源编排篇-Kubernetes 资源编排之五:OAM 篇(上)
Kubernetes资源编排之五:OAM篇 作者:雪尧(郭耀星)、炯思(钟炯恩) 前文我们提到了Helm/Kustomize/CRD+Operator这些方式,都可以在各自的领域很好的承载一个组件(Component)的概念。但是都没有解决一个完整的面向业务场景的应用(Application)的问题。 OAM(Open Application Model)是2019....
SREWorks云原生数智运维工程实践-Kubernetes 资源编排篇-Kubernetes 资源编排之五:OAM 篇(下)
二、 SREWorks的OAM落地实践 SREWorks作为阿里大数据运维平台,在设计之初,云原生应用管理在满足内部业务需求时候,遇到了这样一些问题和挑战: • 需要应用异地多活,避免单Region故障。• 需要环境分离,区分开发测试与生产环境。• 需要一定的集群扩展性,突破单一集群容量上限。• 需要多云部署,避免受限于单一云底座,或降低成本。• 开发者花费了太多的时间在基础....
SREWorks云原生数智运维工程实践-云原生运维实战篇-SREWorks持续交付云原生化:镜像构建(上)
作者:菲克(邓洋杰) 一、 背景 在应用运维领域中,CI/CD已逐步演化成持续集成(Continous Integration)、持续交付(Continous Delivery)和持续部署(Continous Deployment)三个核心阶段,以支持更加复杂的大型系统建设。 CI依然代表应用开发人员的开发、测试、合并等自动化阶段,而CD已分化成持续交付....
SREWorks云原生数智运维工程实践-云原生运维实战篇-SREWorks持续交付云原生化:镜像构建(中)
二、 架构演进 1. Docker build机制 按照Docker官方文档给出的架构图,Docker主要分为Client,Host,Registry三个部分。 Docker按照C/S架构,通过Client与Host进行通信。Host作为后端,负责处理所有Client请求以及后端模块的调度及管理工作。Registry作为中心化的镜像仓库,存储所有需要保存....
SREWorks云原生数智运维工程实践-云原生运维实战篇-SREWorks持续交付云原生化:镜像构建(下)
三、 基于Kaniko的设计实现 目前支持在容器内部进行镜像构建的开源技术有很多:Kaniko,BuildKit,Img等,其中Kaniko作为Google官方开源的容器化构建解决方案,目前收获了最高的star数量,社区活跃度也最高。排名其后的BuildKit和Img也通过其自身的技术优点吸引了一大批粉丝。 从架构上看,BuildKit和Img都是通过内置一个非Root权限的....
SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(上)
大数据运维在阿里云实时计算集群的落地实践:以数智为内核驱动的实时计算运维体系,解决稳定性、成本、效率三大运维领域需求。 摘要:本文整理自阿里云计算平台事业部实时计算高级运维专家王华(尚付)在FlinkForward Asia 2021生产实践专场的演讲。 一、 演进历史和运维挑战 阿里的实时计算经历了近10年的快速发展,总体来说可....
SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(中)
二、 集群运维Flink Cluster • 一方面,Flink平台上运行着一个非常典型的业务,就是双11大促当天GMV媒体成交翻牌器,也就是家喻户晓的成交额大屏,这个业务对于稳定性要求非常高。除了GMV翻牌器,Flink还承载了阿里内部全部重要的实时计算业务,包括阿里妈妈、广告计量计费、搜索推荐、机器学习平台等核心电商业务的实时场景。这些实时场景既重要又实时敏感,稳定性是第一大挑战。....
SREWorks云原生数智运维工程实践-云原生运维实战篇-阿里超大规模Flink集群运维实践(下)
三、 应用运维Flink Job 伴随着实时计算的大趋势,Flink的用户和作业数经历了飞速增长,现在平台上的作业数已经达到了几万个。但是众所周知Flink作业的运维是一个非常复杂的问题,列举一些日常用户最高频的咨询,比如为什么我的作业启动慢,为什么Failover,为什么反压,为什么延时,如何调整资源配置来减少成本?这些看似简单的问题其实都非常复杂。 Flink....
云原生场景的智能化运维演进和实践 | 学习笔记(二)
开发者学堂课程【云原生架构实践:云原生场景的智能化运维演进和实践】学习笔记(二),与课程紧密连接,让用户快速学习知识。课程地址:https://developer.aliyun.com/learning/course/1054/detail/15303云原生场景的智能化运维演进和实践 内容分析:一、云原生技术和架构二、云原生基础设施演进三、云原生“操作系统”涌现四、云原生运维的痛点和挑....
KubeNode:阿里巴巴云原生 容器基础设施运维实践
作者 | 周涛 阿里云技术专家来源 | 阿里巴巴云原生公众号阿里巴巴节点运维的挑战在阿里巴巴的场景下,做节点运维面临的挑战主要来自于这几个方面:规模、复杂性、稳定性。首先是规模大。从 18 年第一个集群的搭建,到现在线上共运行着数百个 ASI 集群、数十万个节点,其中单集群的节点数最多有超过1万台。在这之上,运行着阿里巴巴集团数万个不同的应用,比如,大家熟知的淘宝、天猫等,总...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。