阿里云文档 2024-07-17

使用TensorRT-LLM优化大语言模型在GPU上的推理性能

在处理大语言模型任务时,您可以选择在GPU云服务器环境下安装推理引擎TensorRT-LLM,然后通过使用TensorRT-LLM工具实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型等)在GPU上的高性能推理优化功能。

阿里云文档 2024-05-13

使用AI通信加速库DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。

云原生AI套件:一键训练大模型及部署GPU共享推理服务

1 课时 |
57 人已学 |
免费
开发者课程背景图
阿里云文档 2024-05-09

AI通信加速库DeepNCCL的架构、性能以及优化原理

DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍DeepNCCL的架构、优化原理和性能说明。

阿里云文档 2024-04-15

AIACC-ACSpeed的性能数据展示

相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。本文为您展示了AIACC-ACSpeed的部分典型模型的训练性能数据。

阿里云文档 2023-10-27

展示AIACC-AGSpeed性能数据和性能效果

本文展示了AIACC-AGSpeed(简称AGSpeed)的部分性能数据,相比较通过PyTorch原生Eager模式训练模型后的性能数据,使用AGSpeed训练多个模型时,性能具有明显提升。

文章 2022-02-17 来自:开发者社区

阿里云超算集谛优化GPU异构并行性能:GROMACS

作者:慕笛“集谛”是一款内置于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)的云上性能监控与分析引擎,支持集群资源利用情况的实时监控和用户作业运行情况的在线分析。对于采用GPU加速的异构计算应用场景,“集谛”除了监控节点host端资源外还能监控GPU device端的资源利用情况,给出GPU利用率、显存利用率和PCI-E数据传输带宽等性能....

文章 2022-02-15 来自:开发者社区

《多核与GPU编程:工具、方法及实践》----1.5 并行程序性能的预测与测量

本节书摘来自华章出版社《多核与GPU编程:工具、方法及实践》一书中的第1章,第1.5节, 作 者 Multicore and GPU Programming: An Integrated Approach[阿联酋]杰拉西莫斯·巴拉斯(Gerassimos Barlas) 著,张云泉 贾海鹏 李士刚 袁良 等译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.5 并行程序性能的预...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云服务器ECS

做技术先进、性能优异、稳如磐石的弹性计算!

+关注