阿里云文档 2025-04-21

基于eRDMA部署3FS高性能分布式存储集群

3FS是深度求索(DeepSeek)公司自主研发的高性能分布式存储系统,专为AI大模型训练、大数据分析及高性能计算(HPC)场景优化设计。在3FS中,融合现代SSD存储与RDMA网络技术,突破传统网络的性能瓶颈。本文介绍如何基于阿里云自研的云上弹性RDMA网络部署3FS集群,实现低延迟与高吞吐数据传输,支撑AI训练和大规模数据分析的高性能需求。

阿里云文档 2025-04-07

集群巡检

本文介绍EDAS对K8s集群的集群巡检功能,旨在指导您完成集群巡检功能的相关操作,包括手动触发巡检、设置周期性自动触发巡检,并提供查看下载巡检报告的相关配置步骤和注意事项。

阿里云文档 2025-04-01

基于ACK One与云效快速构建多集群CD

云效是阿里云提供的一站式DevOps平台,涵盖软件研发全生命周期的工具链和服务管理,可以通过流水线Flow将应用部署到ACK集群中。分布式云容器平台ACK One的应用分发功能可以根据多样的策略(静态权重、动态资源调度、Gang调度等)将Kubernetes资源灵活分配到多个集群,并具备重调度和故障迁移等能力。结合云效自身的CD能力和ACK One的应用分发功能,您可以快速将单集群持续交付构建成多...

阿里云文档 2025-04-01

基于实际剩余资源的多集群Spark作业调度与分发

如果您已经拥有多个正在运行在线服务的ACK集群,并希望在不影响这些服务的情况下,充分利用集群的空闲资源来运行Spark作业,您可以利用ACK One舰队的多集群Spark作业调度和分发能力来提高资源利用率。本文将介绍如何通过ACK One舰队和ACK Koordinator组件,根据各集群实际剩余资源(而非请求资源)来调度和分发多集群Spark作业,帮助您最大化多集群中闲置资源的利用效率,并通过优...

阿里云文档 2025-03-31

多集群舰队组件统一管理

ACK仅支持单集群的组件管理,您需手动维护各个集群中组件的版本,维护成本较高,也增加了由于组件升级引发的稳定性问题。ACK One舰队为集群运维人员提供了统一且自动化的组件管理能力,可以定义包含多个组件及其版本的基线,并将其部署到多个集群,同时支持组件配置、部署批次和回滚等功能,从而提升系统的稳定性。本文将介绍如何在多集群场景中统一安装和管理组件。

文章 2025-03-19 来自:开发者社区

融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践

在深度学习的背景下,NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性,导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格,2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群,实现对所有可用GPU资源的充分调度,不受制于供应商限制。 本文将深入探讨如何混合AMD/NVIDIA GPU集群以支持PyTorch分....

融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
文章 2024-10-13 来自:开发者社区

Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer

章节内容 上节我们顺利完成了: Sqoop CDC ChangeDataCapture 差量数据捕获 CDC的几种类型 侵入式和非侵入式 Sqoop 数据差量更新导入 从 MySQL 到 Hive Sqoop目前就算告一段落了,接下来我们将开始 ZooKeeper!!! 背景介绍 这里是三台公网云服务器,每台 2C4G,...

Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云分布式应用服务

企业级分布式应用服务 EDAS(Enterprise Distributed Application Service)是应用全生命周期管理和监控的一站式PaaS平台,支持部署于 Kubernetes/ECS,无侵入支持Java/Go/Python/PHP/.NetCore 等多语言应用的发布运行和服务治理 ,Java支持Spring Cloud、Apache Dubbo近五年所有版本,多语言应用一键开启Service Mesh。

+关注