阿里云文档 2024-10-16

使用PythonSDK构建大规模Argo Workflows

Argo Workflows是一个强大的工作流管理工具,广泛应用于定时任务、机器学习和ETL数据处理等场景,但是使用YAML定义工作流程可能会增加学习难度。Hera Python SDK提供了一种简洁易用的替代方案,Hera允许用户以Python代码构建工作流,支持复杂任务,易于测试,并与Python生态无缝集成,显著降低了工作流设计的门槛。本文将介绍如何使用Python SDK构建大规模Argo...

阿里云文档 2024-10-15

大规模ACK Pro集群使用建议

ACK集群的性能和可用性与集群资源数量、资源访问频率、访问模式等紧密相关。不同变量组合下,API Server承载的压力和性能差异不同。在大规模的ACK集群Pro版(通常为超过500个节点或者10,000个Pod的集群)中,集群管理者需要根据业务实际状况合理规划和使用规模化集群,密切关注监控指标,确保集群的稳定性和可用性。

阿里云文档 2024-08-27

使用PythonSDK构建大规模Argo Workflows

Argo Workflows是一个强大的工作流管理工具,广泛应用于定时任务、机器学习和ETL数据处理等场景,但是使用YAML定义工作流程可能会增加学习难度。Hera Python SDK提供了一种简洁易用的替代方案,Hera允许用户以Python代码构建工作流,支持复杂任务,易于测试,并与Python生态无缝集成,显著降低了工作流设计的门槛。本文将介绍如何使用Python SDK构建大规模Argo...

阿里云文档 2024-06-06

基于Serverless Argo构建大规模高效低成本CI Pipeline

ACK One的分布式工作流Argo集群(简称工作流集群)作为一款完全遵循社区规范的全托管式Argo Workflows服务,致力于应对大规模计算密集型作业,通过集成阿里云ECI实现自动扩展、按需扩容以及弹性扩缩容,并支持使用Spot ECI(抢占式ECI实例)可以大幅降低使用成本。基于工作流集群可以帮助您构建更加云原生、大规模、高效率和低成本的CI Pipeline。本文为您介绍基于工作流集群构...

阿里云文档 2024-01-02

将argo工作流状态信息offload到mysql数据库

工作流在工作流集群中被存储为Kubernetes资源,该资源大小不能超过1 MB。工作流资源中包含每个子任务的状态,该状态被存储在资源的/status/nodes字段中,当工作流的子任务很多时,资源的总大小可能超过1 MB,此时工作流的状态更新会出现异常。为解决此问题,您可以将工作流的状态信息存储在外部SQL数据库中,以突破1 MB的限制。本文介绍如何使用阿里云RDS MySQL存储工作流的状态信...

文章 2023-11-27 来自:开发者社区

阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战

1.引言2023 年 7 月,阿里云容器服务 ACK 成为首批通过中国信通院“云服务稳定运行能力-容器集群稳定性”评估的产品, 并荣获“先进级”认证。随着 ACK 在生产环境中的采用率越来越高,稳定性保障已成为基本诉求。本文基于 ACK 稳定性保障实践经验,帮助用户全面理解 ACK 稳定性理论和优化策略,并了解如何使用相应的工具和服务进行稳定性保障。2.K8s 集群稳定性和大规模场景下的挑战2.....

阿里云 ACK 云上大规模 Kubernetes 集群高可靠性保障实战
文章 2023-03-20 来自:开发者社区

OpenKruise 成为 CNCF 孵化项目:为大规模采用 Kubernetes 打开大门

作者:OpenKruise 社区近期,CNCF Technical Oversight Committee(TOC)根据 OpenKruise 的发展以及社区的接受程度,通过投票决定将 OpenKruise 升级为 CNCF 孵化项目。OpenKruise[1]是一个扩展的组件套件,专注于应用程序自动化,如部署、升级、运维和可用性保护等方面。OpenKruise 提供的大多数功能都是基于 CRD....

OpenKruise 成为 CNCF 孵化项目:为大规模采用 Kubernetes 打开大门
文章 2023-01-11 来自:开发者社区

大规模 Kubernetes 集群故障注入的利器-ChaosBlade

作者:叶飞ChaosBlade随着云原生的发展,云原生应用一致性、可靠性、灵活编排的能力让大部分企业选择将应用往云上迁移,但同时云基础设施在稳定性、可观测、也接受的强大的考验。ChaosBlade 是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具,帮助企业提升分布式系统的容错能力,并且在企业上云或往云原生系统迁移过程中业务连续性保障。ChaosBlade Operator 是 k....

大规模 Kubernetes 集群故障注入的利器-ChaosBlade
文章 2022-05-17 来自:开发者社区

用更云原生的方式做诊断|大规模 K8s 集群诊断利器深度解析

背景通常而言,集群的稳定性决定了一个平台的服务质量以及对外口碑,当一个平台管理了相当规模数量的 Kubernetes 集群之后,在稳定性这件事上也许会“稍显被动”。我们可能经常会遇到这样的场景:客户一个电话,火急火燎地说业务出现问题了,你们平台快帮忙查询一下是不是哪里出了问题呀?技术同学连忙放下手头工作,上去一通操作加安抚客户……看似专业且厉害,急用户之所急,细想之后实则无章无法,一地鸡毛。通常....

用更云原生的方式做诊断|大规模 K8s 集群诊断利器深度解析
文章 2022-02-08 来自:开发者社区

蚂蚁大规模 Kubernetes 集群无损升级实践指南【探索篇】

文|王连平(花名:烨川 )蚂蚁集团高级开发工程师负责蚂蚁 Kubernetes 集群容器交付,专注于集群交付能力、交付性能及交付 Trace 等相关领域本文 12623 字 阅读 20 分钟—— 庖丁解牛,让升级不再烦恼PART. 1 背 景蚂蚁 Sigma 作为蚂蚁集团核心的基础设施,经过多年的发展其规模已经处于业界领先位置,大规模集群对 Kubernetes 的稳定性及功能性提出更高的要求。....

蚂蚁大规模 Kubernetes 集群无损升级实践指南【探索篇】

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

容器服务

国内唯一 Forrester 公共云容器平台领导者象限。

+关注
相关镜像