[帮助文档] 使用TensorRT-LLM优化大语言模型在GPU上的推理性能

在处理大语言模型任务时,您可以选择在GPU云服务器环境下安装推理引擎TensorRT-LLM,然后通过使用TensorRT-LLM工具实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型等)在GPU上的高性能推理优化功能。

[帮助文档] 使用AI通信加速库DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操...

[帮助文档] AI通信加速库Deepnccl的架构、性能以及优化原理_GPU云服务器(EGS)

Deepnccl是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。

[帮助文档] AIACC-ACSpeed的部分性能数据_GPU云服务器(EGS)

本文展示了AIACC-ACSpeed的部分性能数据,相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。

购买的GPU服务器 但是打开实例里进入云主机里 在性能里没有GPU 怎么才能让里面云主机能显示出?

我选择的是GPU虚拟化型实例规格族vgn7i-vws 采用NVIDIA A10 GPU卡 处理器:2.9 GHz主频的Intel ® Xeon ® 可扩展处理器(Ice Lake),全核睿频3.5 GHz镜像:Windows Server 2022数据中心版64位中文版

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)

技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)

背景GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。传统上,当数据需要在 GPU 和另一个设备之间传输时,数据必须通过 CPU,从而导致潜在的瓶颈并增加延迟。使用 GPU...

[帮助文档] 展示AIACC-AGSpeed性能数据和性能效果_GPU云服务器(EGS)

本文展示了AIACC-AGSpeed(简称AGSpeed)的部分性能数据,相比较通过PyTorch原生Eager模式训练模型后的性能数据,使用AGSpeed训练多个模型时,性能具有明显提升。

将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可

将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可

机器之心编译编辑:袁铭怿我们可以压缩大型语言模型以获得更好的性能吗?本文中,研究者提出了剪枝技术 SparseGPT,可以一次性修剪至少 50% 的稀疏性,而无需任何重新训练,并且准确率损失最小。GPT 家族的大型语言模型(LLMs)在诸多任务中取得了出色的表现,但模型庞...

AI训练性能提升30%,阿里云发布GPU计算裸金属实例ebmgn7ex

AI训练性能提升30%,阿里云发布GPU计算裸金属实例ebmgn7ex

ChatGPT、AIGC(人工智能生成内容)等技术潮流快速兴起,让普通人也感受到了人工智能技术应用落地对用户体验带来的巨大改变。应用的快速落地,离不开背后基础设施的支撑。人工智能模型的训练场景,往往要求高算力、高吞吐、低延时,可以大大加快训练速度,加速模型迭代。近日,阿里云发布最新一代...

GPU实例中T4和A10两款性能差别多大?另外如何在s.yaml中指定GPU型号呢?

GPU实例中T4和A10两款性能差别多大?另外如何在s.yaml中指定GPU型号呢?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

云服务器ECS
云服务器ECS
做技术先进、性能优异、稳如磐石的弹性计算!
418277+人已加入
加入
相关电子书
更多
端到端GPU性能在深度学学习场景下的应用实践
DeepStream: GPU加速海量视频数据智能处理
阿里巴巴高性能GPU架构与应用
立即下载 立即下载 立即下载