阿里云文档 2025-04-18

如何使用分布式训练框架StarServer进行分布式训练

分布式训练框架用于加速模型训练、处理海量数据并提高系统稳定性和资源利用率。它通过将模型分布在多个计算节点上实现并行计算,从而缩短训练时间,适应大数据集和大模型的训练需求。本文介绍如何使用分布式训练框架StarServer进行分布式训练。

文章 2024-08-26 来自:开发者社区

自研分布式训练框架EPL问题之帮助加速Bert Large模型的训练如何解决

问题一:相比业界传统方法,使用EPL训练万亿M6模型有哪些优势? 相比业界传统方法,使用EPL训练万亿M6模型有哪些优势? 参考回答: 相比业界传统方法,使用EPL训练万亿M6模型的优势在于显著降低了算力资源需求(节省超80%),并且训练效率提升近11倍。具体来说,在480张V100 32G GPU上,EPL框架在3天内就成功完成了万亿M6模型的预训练...

自研分布式训练框架EPL问题之帮助加速Bert Large模型的训练如何解决
问答 2024-07-04 来自:开发者社区

有哪些成熟的分布式训练框架可以解决模型装载和并行的问题?

有哪些成熟的分布式训练框架可以解决模型装载和并行的问题?

文章 2024-04-12 来自:开发者社区

Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)

1. 概述 同 HDFS 一样,Hadoop MapReduce 也采用了 Master/Slave(M/S)架构,具体如图所示。它主要由以下几个组件组成:Client、JobTracker、TaskTracker 和 Task。 下面分别对这几个组件进行介绍。 Client 我们将编写的 MapReduce 程序通过 Client 提交到 JobTracker 端;同时也可通过 Clie...

Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
阿里云文档 2024-01-30

如何使用分布式通信框架gRPC++进行分布式训练

使用DLC进行深度学习训练时,您可以使用gRPC++分布式训练,从而加速模型训练。本文介绍如何开启分布式通信框架gRPC++。

阿里云文档 2023-12-26

如何在SpringBoot框架下使用消息队列收发消息

本文介绍如何在 SpringBoot 框架下用 SOFAStack 消息队列收发消息。

阿里云文档 2023-09-03

Spring框架存在远程命令执行漏洞攻击风险通告和解决方案_企业级分布式应用服务(EDAS)

本文介绍Spring框架存在远程命令执行漏洞攻击风险以及如何解决。

阿里云文档 2023-04-17

如何在ECS中创建和部署Java微服务框架的应用

在EDAS的ECS集群中,可以创建和部署基于Java微服务框架开发的应用。

文章 2022-02-17 来自:开发者社区

分布式事务框架 seata-golang 通信模型详解

作者 | 刘晓敏 于雨 一、简介 Java 的世界里,大家广泛使用的一个高性能网络通信框架 netty,很多 RPC 框架都是基于 netty 来实现的。在 golang 的世界里,getty 也是一个类似 netty 的高性能网络通信库。getty 最初由 dubbogo 项目负责人于雨开发,作为底层通信库在 dubbo-go 中使用。随着 dubbo-go 捐献给 apache 基金会,在社....

分布式事务框架 seata-golang 通信模型详解

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。

+关注