文章 2025-01-06 来自:开发者社区

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

作者:王建伟(正己) 12 月 11 日,OpenAI 旗下 AI 聊天机器人平台 ChatGPT、视频生成工具 Sora 及其面向开发人员的 API 自太平洋时间下午 3 点左右起发生严重中断,耗费约三个小时才顺利恢复所有服务。 OpenAI 在事后报告中写道,“该问题源自新部署的遥测服务,此项服务无意间压垮了 Kubernetes 控制平面,导致关键系统发...

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施
文章 2024-12-27 来自:开发者社区

OpenAI全球宕机思考:谈谈可观测采集稳定性建设

背景 12月11日,OpenAI 出现了全球范围内的不可用故障,影响了 ChatGPT,API,Sora,Playground 和 Labs 等服务。影响范围从 12 月 11 日下午 3:16 至晚上 7:38 期间,持续时间超过四个小时,产生显著影响。 从官方复盘[1]中摘取根因分析如下: ...

OpenAI全球宕机思考:谈谈可观测采集稳定性建设

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。