融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
在深度学习的背景下,NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性,导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格,2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群,实现对所有可用GPU资源的充分调度,不受制于供应商限制。 本文将深入探讨如何混合AMD/NVIDIA GPU集群以支持PyTorch分....

面向AI的服务器计算软硬件架构实践和创新
一、面向未来的新一代通用计算服务器设计 这部分主要介绍阿里云在基础架构设施里服务器领域新一代的通用计算服务器设计。 1.处理器芯片核心数迅速增长 首先提到通用计算的服务器,最核心的部分是处理器芯片,处理器芯片从整个趋势来看,从最早期摩尔定律的制成还在继续演进,还有各种封装的技术使能多样化,提升了单位socket封装下的核心数,整体来看,通用计算服务器领域,它的处...
本手册旨在提供产品战略和功能、集成架构和模式、运营模式、以及中国实践等四方面的指导和建议, 帮助客户在阿里云上构建面向中国市场的“Salesforce中国客户360”。
背景信息阿里云携手 Salesforce,已将 Customer 360 引入中国。阿里云上的 Salesforce 包含两个部分:Salesforce Connected Experiences Gateway(互联网关CXG),专为中国打造的本地化扩展组件Salesforce 的全球核心产品,包...
蚂蚁集团服务网格落地实践的核心部分
2019 年双十一是蚂蚁集团架构云化的关键时间节点,Service Mesh 是应用云化非常重要的一环。业务与基础设施层的解耦势在必行,Mesh 化为这层解耦带来了实际可落地的解决方案。本文主要介绍蚂蚁集团 Service Mesh 落地实践的核心部分。
OCP China Day 2022:vODLA异构计算资源池化技术架构和实践
OCP会议信息8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技...

实时特征计算平台架构方法论和实践
作者 | 卢冕,第四范式开源机器学习数据库 OpenMLDB PMC core member审校 | 刘燕在机器学习从开发到上线的闭环中,实时特征计算是其中的重要一环,用于完成数据的实时特征加工。由于其高时效性需求,数据科学家完成特征脚本离线开发以后,往往还需要工程化团队通过大量的优化才能完成上线。另一方面,由于存在离线开发和工程化上线两个流程,线上线下计算一致性验证成为一个必要步骤,并且会耗费....

ECS计算与存储分离架构实践
阿里云高级技术专家刘荣在2017杭州云栖大会中做了题为《ECS计算与存储分离架构实践》的分享,就块存储融合架构,块存储分离架构概述及技术演进做了深入的分析。 https://yq.aliyun.com/download/1857?spm=a2c4e.11154804.0.0.78306a79JjFPIb
什么是Operator,Operator有哪些实践
Service Mesh 是蚂蚁集团下一代技术架构的核心,也是蚂蚁集团内部双十一应用云化的重要一环,本文主要分享在蚂蚁集团当前的体量下,如何支撑应用从现有微服务体系大规模演进到 Service Mesh 架构,并平稳落地。
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
架构更多实践相关
金融级分布式架构
SOFAStack™(Scalable Open Financial Architecture Stack)是一套用于快速构建金融级分布式架构的中间件,也是在金融场景里锤炼出来的最佳实践。
+关注