阿里云文档 2026-05-08

使用GitOps高可用模式运行Argo CD

ACK One GitOps支持以高可用模式运行Argo CD。相比默认模式,高可用模式会运行更多的Deployment,确保Argo CD各组件资源充足,并对各组件参数进行调优。当关联集群数量超过20个或Application数量超过200个时,建议使用GitOps高可用模式来发布应用。

阿里云文档 2026-03-06

通过虚拟节点将Pod调度到ACS上运行

容器计算服务 ACS(Container Compute Service)已集成至ACK One注册集群,您可以通过ACK One注册集群快速使用ACS提供的容器算力。本文介绍ACK One注册集群如何接入ACS算力。

阿里云文档 2025-12-26

使用OperateStopJobExecution停止正在运行的任务实例-分布式任务调度-阿里云

停止正在运行的任务实例。

阿里云文档 2025-12-25

使用高性能网络RDMA运行应用

在大规模的AI计算应用中,需要考虑任务间的通信效率,以充分发挥GPU算力的性能。ACK One注册集群接入ACS算力后,提供了低延迟、大吞吐、高弹性的高性能RDMA(Remote Direct Memory Access)网络服务。本文为您介绍如何使用高性能网络RDMA运行应用。

文章 2024-09-03 来自:开发者社区

在YARN集群上运行部署MapReduce分布式计算框架

作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任。   本篇博客主要讲解在YARN集群上配置Mapreduce分布式计算框架。与此同时,启动HistoryServer服务,便于在RM Web UI界面查看聚合日志内容。 一.本地运行一个MapReduce程序 1>.准备数据 [root@hadoop101.yinzhengjie.com ~]# vim hadoop...

在YARN集群上运行部署MapReduce分布式计算框架
文章 2024-08-29 来自:开发者社区

探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式

Hadoop是一个开源框架,由Apache软件基金会管理,使用户能够利用简单的编程模型处理跨计算机集群的大数据集。Hadoop设计用于从单台服务器扩展到数千台机器,每台机器都提供本地计算和存储。Hadoop框架由存储部分(Hadoop分布式文件系统,HDFS)和处理部分(MapReduceÿ...

问答 2023-07-31 来自:开发者社区

机器学习PAI使用DeepRec运行estimator分布式训练,protocol 使用star_?

机器学习PAI使用DeepRec运行estimator分布式训练,protocol 使用star_server ,tf_config:1个ps 1个chief 2个worker,其中一个worker训练正常结束,其他节点还在尝试连接该worker,进程一直不会正常退出 Seastar conn timeout for: xxx:3333, now do retry with max retry ....

问答 2023-03-13 来自:开发者社区

在ModelScope中有没有同学在运行分布式GPT时遇到这个问题?

在ModelScope中有没有同学在运行分布式GPT时遇到这个问题?

文章 2022-10-31 来自:开发者社区

如何运行 TensorFlow 分布式训练|学习笔记

开发者学堂课程【阿里云容器服务使用教程:如何运行 TensorFlow 分布式训练】学习笔记,与课程紧密联系,让用户快速学习知识。课程地址:https://developer.aliyun.com/learning/course/438/detail/5428如何运行 TensorFlow 分布式训练使用包含GPU资源节点的容器服务悬着【容器服务】——【解决方案】——【模型训练】选择基于 Ten....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。

+关注