阿里云文档 2025-03-06

基于Serverless Argo构建大规模高效低成本CI Pipeline

ACK One的分布式工作流Argo集群(简称工作流集群)作为一款完全遵循社区规范的全托管式Argo Workflows服务,致力于处理大规模计算密集型作业,通过集成阿里云ECI实现自动扩展、按需扩容以及弹性扩缩容,并支持使用Spot ECI(抢占式ECI实例)可以大幅降低使用成本。本文为您介绍基于工作流集群构建的CI Pipeline方案的优势、解决的问题、方案架构及最佳实践操作。

文章 2025-03-02 来自:开发者社区

OpenAI故障复盘丨如何保障大规模K8s集群稳定性

作者: 阿里云容器服务团队:佳旭、行疾 阿里云可观测团队:凌竹、丹雀、左知 01前言 Cloud Native Kubernetes(K8s)架构已经是当今IT架构的主流与事实标准[CNCF Survey][1]。随着承接的业务规模越来越大,用户也在使用越来越大的K8s集群。Kubernetes官方建议的最大集群规模是5000节点[2]...

OpenAI故障复盘丨如何保障大规模K8s集群稳定性
文章 2024-12-25 来自:开发者社区

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

【阅读原文】戳:OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性 本文作者: 容器服务团队:刘佳旭、冯诗淳 可观测团队:竺夏栋、麻嘉豪、隋吉智     1. 前言   Kubernetes(K8s)架构已经是当今IT架构的主流与事实标准(CNCF Survey...

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
阿里云文档 2024-12-13

使用PythonSDK构建大规模Argo Workflows

Argo Workflows广泛应用于定时任务、机器学习和ETL数据处理等场景,但当对Kubernetes不太熟练时,YAML定义工作流程可能会增加学习难度。Hera Python SDK提供了一种简洁易用的替代方案,允许以Python代码构建工作流,支持复杂任务场景,易于测试,并与Python生态无缝集成。

阿里云文档 2024-10-16

使用PythonSDK构建大规模Argo Workflows

Argo Workflows是一个强大的工作流管理工具,广泛应用于定时任务、机器学习和ETL数据处理等场景,但是使用YAML定义工作流程可能会增加学习难度。Hera Python SDK提供了一种简洁易用的替代方案,Hera允许用户以Python代码构建工作流,支持复杂任务,易于测试,并与Python生态无缝集成,显著降低了工作流设计的门槛。本文将介绍如何使用Python SDK构建大规模Argo...

阿里云文档 2024-08-27

使用PythonSDK构建大规模Argo Workflows

Argo Workflows是一个强大的工作流管理工具,广泛应用于定时任务、机器学习和ETL数据处理等场景,但是使用YAML定义工作流程可能会增加学习难度。Hera Python SDK提供了一种简洁易用的替代方案,Hera允许用户以Python代码构建工作流,支持复杂任务,易于测试,并与Python生态无缝集成,显著降低了工作流设计的门槛。本文将介绍如何使用Python SDK构建大规模Argo...

阿里云文档 2024-01-02

将argo工作流状态信息offload到mysql数据库

工作流在工作流集群中被存储为Kubernetes资源,该资源大小不能超过1 MB。工作流资源中包含每个子任务的状态,该状态被存储在资源的/status/nodes字段中,当工作流的子任务很多时,资源的总大小可能超过1 MB,此时工作流的状态更新会出现异常。为解决此问题,您可以将工作流的状态信息存储在外部SQL数据库中,以突破1 MB的限制。本文介绍如何使用阿里云RDS MySQL存储工作流的状态信...

文章 2023-11-27 来自:开发者社区

阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战

1.引言2023 年 7 月,阿里云容器服务 ACK 成为首批通过中国信通院“云服务稳定运行能力-容器集群稳定性”评估的产品, 并荣获“先进级”认证。随着 ACK 在生产环境中的采用率越来越高,稳定性保障已成为基本诉求。本文基于 ACK 稳定性保障实践经验,帮助用户全面理解 ACK 稳定性理论和优化策略,并了解如何使用相应的工具和服务进行稳定性保障。2.K8s 集群稳定性和大规模场景下的挑战2.....

阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战
文章 2023-03-20 来自:开发者社区

OpenKruise 成为 CNCF 孵化项目:为大规模采用 Kubernetes 打开大门

作者:OpenKruise 社区近期,CNCF Technical Oversight Committee(TOC)根据 OpenKruise 的发展以及社区的接受程度,通过投票决定将 OpenKruise 升级为 CNCF 孵化项目。OpenKruise[1]是一个扩展的组件套件,专注于应用程序自动化,如部署、升级、运维和可用性保护等方面。OpenKruise 提供的大多数功能都是基于 CRD....

OpenKruise 成为 CNCF 孵化项目:为大规模采用 Kubernetes 打开大门
文章 2023-01-11 来自:开发者社区

大规模 Kubernetes 集群故障注入的利器-ChaosBlade

作者:叶飞ChaosBlade随着云原生的发展,云原生应用一致性、可靠性、灵活编排的能力让大部分企业选择将应用往云上迁移,但同时云基础设施在稳定性、可观测、也接受的强大的考验。ChaosBlade 是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的容错能力,并且在企业上云或往云原生系统迁移过程中业务连续性保障。ChaosBlade Operator 是 k....

大规模 Kubernetes 集群故障注入的利器-ChaosBlade

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云容器服务 ACK

云端最佳容器应用运行环境,安全、稳定、极致弹性

+关注