基于eRDMA部署弹性高性能计算集群
本文介绍如何开通适配eRDMA的E-HPC Cluster(原E-HPC NEXT),并以OSU-Benchmark应用为例,提供配置运行时参数以使用eRDMA技术加速多节点HPC应用的通信。
eRDMA GPU集群最佳实践
随着人工智能和高性能计算(HPC)应用的快速发展,GPU集群的需求日益增长。为了提升集群内部通信效率,远程直接内存访问(RDMA)技术被广泛应用。eRDMA(增强型RDMA)进一步优化了这一技术,尤其在大规模分布式训练和数据处理任务中表现出色。本文将探讨如何在GPU集群中充分利用eRDMA技术,以实现最佳性能和资源利用率。
Ray,Ray集群,Pytorch图像分类批量推理
本文基于E-HPC自定义Ray集群方案,给出了具体的Ray集群环境部署过程,并基于搭建好的Ray集群,介绍了基于PyTorch的图像分类批量推理基础实践。对于Ray分布式计算框架而言,其不仅适用于AI场景的分布式训练、仿真评估、策略服务执行任务,也可通用于大数据及各类大规模批量计算场景,支持用户结合具体业务场景进行灵活的功能定制研发。
升降配E-HPC集群
创建标准版E-HPC集群后,如果当前集群管理节点配置无法满足您的业务需求,您可以修改集群管理节点的实例规格(vCPU和内存)来提高集群性能。本文介绍如何通过ECS控制台升降配标准版E-HPC集群的管理节点。
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。