小鹏汽车成立于 2014 年,是一家专注未来出行的科技公司。该公司一直坚持饱和式研发投入,构建全栈自研的核心能力。如今,小鹏汽车已经成为中国领先的智能电动汽车公司之一。
自动驾驶车联网数据链路长且数据增长快,无法满足对数据时效性的高要求。
缺乏有效的 AI 模型 GPU 训练和推理优化。
前端 Web 和后端服务缺乏有效的监控和分析,同时自建 Prometheus 稳定性不佳。
技术平台需要支持多种业务,并且需要建设多个工具平台,例如 Workflow CI 工作流、SRE 运维体系等,技术栈较为复杂。
通过容器服务 ACK 运行数据处理和数据脱敏任务,为实时任务提供了弹性算力。
云原生 AI 套件不仅支持了小鹏汽车的自动驾驶大规模训练和仿真任务的调度和管理,提高了训练和仿真资源的利用率,还支持了小鹏汽车的互联网技术中台和鹏行业务的自然语言处理(Natural Language Processing,NLP)、自动语音识别(Automatic Speech Recognition,ASR)等推理业务。ACK GPU 共享调度和隔离能力成倍地提高了 GPU 资源的利用率。
小鹏汽车将全量业务托管在容器服务 ACK,采用阿里云可观测监控 Prometheus 版服务,搭配前端监控和 APM 等工具实现全链路监控系统,可以有效洞察业务稳定性风险,保障业务稳定性。
小鹏的业务众多,不仅有仿真、音视频转码、视频截图、图片处理、数据处理等 AI 类业务,还有工作流、SRE 等平台运维任务。其中,通过容器服务 ACK,小鹏汽车还使用了诸多技术处理工作流,例如 Airflow 工作流、分布式工作流 Argo 集群 Workflow、Kubeflow Pipelines、Arena 等。通过采用统一的技术栈运行各业务及其支撑系统,容器服务 ACK 帮助小鹏汽车大大降低了运维的复杂度。
整体方案如下图所示:
小鹏汽车和阿里云携手共建自动驾驶智算中心“扶摇”,为小鹏全场景智能辅助驾驶系统的训练奠定算力基础,相信跟阿里云一起能够更快更好更强的发挥作用。阿里云的技术支持,使小鹏的成本降低,在过去及未来的时间里,阿里云的可靠性和稳定性,都是小鹏汽车最好的选择。