阿里云文档 2024-09-11

通过PAI - 灵骏分布式训练和部署Llama 2模型

灵骏支持业界各类流行的开源大语言模型,包括Llama2系列、Bloom系列、Falcon系列、GLM/ChatGLM系列,以及领域大模型galactica等的高效训练和部署。本方案整体可用于企业样本标注、创意文本生成、智能对话助手、文本类创作辅助等场景。

阿里云文档 2024-05-13

使用AI通信加速库DeepNCCL加速模型的分布式训练或推理性能

DeepNCCL是阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL进行通信算子调用的分布式训练或多卡推理等任务。开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。

阿里云文档 2024-05-10

分布式可视化MapReduce编程模型

可视化MapReduce模型在MapReduce模型的基础上,新增了可视化可运维的能力。您无需修改后端代码,只需在SchedulerX控制台将分布式模型改为可视化MapReduce,即可新增一个子任务列表页面,并且可以查看每个子任务的详情、结果和日志,同时支持每个子任务级别的重跑。

阿里云文档 2024-01-09

AI加速:使用TorchAcc实现Stable Diffusion模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型,便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Stable Diffusion分布式训练中接入TorchAcc并实现训练加速。

阿里云文档 2023-11-03

AI加速:使用TorchAcc实现Swin Transformer模型分布式训练加速

阿里云PAI为您提供了部分典型场景下的示例模型,便于您便捷地接入TorchAcc进行训练加速。本文为您介绍如何在Swin Transformer分布式训练中接入TorchAcc并实现训练加速。

问答 2017-08-17 来自:开发者社区

【PDF下载】大数据峰会之PAI分布式机器学习平台计算模型演进之路

讲师介绍 九丰 阿里云大数据事业部高级专家,14年加入阿里云,一直从事PAI机器学习平台的建设。 直播简介 议题简介:随着训练数据规模的持续扩大,模型特征的持续增长,常用的机器学习算法面临着越来越多的挑战。从很多人熟悉的R语言,到基于MPI的多机的计算框架,再到支持超大规模 特征的Parameter Server架构,再到如今的深度学习计算框架,机器学习平台上的编程模...

文章 2017-06-20 来自:开发者社区

PAI分布式机器学习平台编程模型演进之路

$stringUtil.substring( $!{XssContent1.description},200)...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。

+关注