文章 2025-03-02 来自:开发者社区

OpenAI 全球宕机思考:谈谈可观测采集稳定性建设

背景 Cloud Native 12月11日,OpenAI 出现了全球范围内的不可用故障,影响了 ChatGPT,API,Sora,Playground 和 Labs 等服务。影响范围从 12 月 11 日下午 3:16 至晚上 7:38 期间,持续时间超过四个小时,产生显著影响。 从官方复盘[1]中摘取根因分析如下: ...

OpenAI 全球宕机思考:谈谈可观测采集稳定性建设
文章 2025-03-02 来自:开发者社区

OpenAI故障复盘丨如何保障大规模K8s集群稳定性

作者: 阿里云容器服务团队:佳旭、行疾 阿里云可观测团队:凌竹、丹雀、左知 01前言 Cloud Native Kubernetes(K8s)架构已经是当今IT架构的主流与事实标准[CNCF Survey][1]。随着承接的业务规模越来越大,用户也在使用越来越大的K8s集群。Kubernetes官方建议的最大集群规模是5000节点[2]...

OpenAI故障复盘丨如何保障大规模K8s集群稳定性
文章 2024-12-27 来自:开发者社区

OpenAI全球宕机思考:谈谈可观测采集稳定性建设

背景 12月11日,OpenAI 出现了全球范围内的不可用故障,影响了 ChatGPT,API,Sora,Playground 和 Labs 等服务。影响范围从 12 月 11 日下午 3:16 至晚上 7:38 期间,持续时间超过四个小时,产生显著影响。 从官方复盘[1]中摘取根因分析如下: ...

OpenAI全球宕机思考:谈谈可观测采集稳定性建设
文章 2024-12-25 来自:开发者社区

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

【阅读原文】戳:OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性 本文作者: 容器服务团队:刘佳旭、冯诗淳 可观测团队:竺夏栋、麻嘉豪、隋吉智     1. 前言   Kubernetes(K8s)架构已经是当今IT架构的主流与事实标准(CNCF Survey...

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。