整体架构图

技术特色

  • CPU、GPU等异构资源的高效利用与统一管理。
  • 支持主流开源框架、用户自有计算框架。
  • 可快速构建模型开发、训练和预测的运行环境。
  • 统一容器化管理,多维度监控告警和运维平台。
  • 轻松集成,深度整合阿里云资源与服务。
  • 基于大规模GPU集群的经验,提供端到端的最佳实践。

推荐搭配使用

方案业务场景及优势

  • 大规模围棋离线训练
  • GPU调度与运维管理
  • 深度整合阿里云

如何最小化搭建深度学习环境

  • 1 高效计算力: 强大GPU计算能力快速反馈训练结果,并且可以根据框架和网络特点调整参数,达到最优训练性能。
  • 2 强大存储: 将训练前后的数据存放在共享存储服务中,一键上传、直接调用;还可以选择备份阶段性数据和训练模型。
  • 3 无缝整合 :无缝对接阿里云资源,支持深度学习能力服务化,与云上应用的轻松集成。

推荐搭配使用

GPU监控运维

  • 1 通过解决方案的控制台,提供资源管理一致的体验。
  • 2 多维度的监控、告警和运维平台。
  • 3 增强资源类型抽象、GPU监控和调度能力。
  • 4 配合容器镜像服务,高效管控。

推荐搭配使用

快捷而完整的方案

  • 可快速构建模型开发、训练和预测的运行环境。
  • 集成各种阿里云资源,如存储、网络、负载均衡、弹性、监控、日志、镜像和EMR大数据处理等。
  • 提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。

推荐搭配使用

大规模围棋离线训练

如何最小化搭建深度学习环境

  • 1 高效计算力: 强大GPU计算能力快速反馈训练结果,并且可以根据框架和网络特点调整参数,达到最优训练性能。
  • 2 强大存储: 将训练前后的数据存放在共享存储服务中,一键上传、直接调用;还可以选择备份阶段性数据和训练模型。
  • 3 无缝整合 :无缝对接阿里云资源,支持深度学习能力服务化,与云上应用的轻松集成。

推荐搭配使用

GPU调度与运维管理

GPU监控运维

  • 1 通过解决方案的控制台,提供资源管理一致的体验。
  • 2 多维度的监控、告警和运维平台。
  • 3 增强资源类型抽象、GPU监控和调度能力。
  • 4 配合容器镜像服务,高效管控。

推荐搭配使用

深度整合阿里云

快捷而完整的方案

  • 可快速构建模型开发、训练和预测的运行环境。
  • 集成各种阿里云资源,如存储、网络、负载均衡、弹性、监控、日志、镜像和EMR大数据处理等。
  • 提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。

推荐搭配使用

全周期覆盖

  • 1. 环境搭建及底层准备
  • 2. 数据准备
  • 3. 模型开发
  • 4. 模型训练
  • 5. 模型预测

方案提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。


  • 一致的配置:一样的方式配置GPU和CPU资源。
  • 一键化部署:无需逐个部署,一键完成整个集群构建。
  • 简单且高效:无需手动安装TensorFlow、MXNet、Keras深度学习框架及Python工具,并且自动化统一管理和调度。

  • 数据科学家和算法工程师不必关心底层GPU、CPU的管理、调度和运维。
  • 无需手动记录与管控,无需Make、Bazel、pip或者容器镜像安装,无需通过SSH登录到每台机器上手工部署,无需手动记录管理或整机分配,告别低使用效率。

高效便捷的数据管理

  • 数据共享和管理:可存储在阿里云OSS中一键上传、直接调用。
  • 数据加载效率:可将用户数据集准换成Tensorflow推荐的TFRecord格式。

  • 无需手动拷贝数据到每台机器上。 无需手动调整格式。

支持主流开发模式

  • 开发环境:最常用的方式 开发模型训练代码,包括自动启动Jupyter和Tensorboard开发工具。
  • 调试方式:使用Tensorflow提供的tfdbg进行模型调试。
  • 模型确定:在模型训练使用的集群中快速发布、更新、同步训练代码。

  • 支持Tensorflow / MXNet + Jupyter 开发 + Tensorboard 训练监控 + SSH。大众最常用开发模式,不再需要更改习惯,不再需要手动安装。

全方位适配模型训练

  • 多模式支持:支持单机和分布式(单机多卡,多机多卡)。
  • 极简更新:通过修改配置的方式更新训练集群环境(包括软件版本、数据存储、集群拓扑)。
  • 实时监控:通过修改配置的方式使用基于tensorboard的模型训练监控能力,以实时了解训练状态、及时调整集群配置。
  • 数据保存:最终模型数据自动保存,以备后用和共享;还可以选择备份阶段性数据和训练模型 ,下次使用时再恢复模型状态并继续训练。
  • 问题诊断:通过查看日志,了解训练过程。

  • 支持基于TensorFlow serving 的模型滚动更新、蓝绿发布,负载均衡和弹性伸缩。集成了阿里云OSS,NAS,HDFS等数据服务来存储训练数据集、模型、checkpoint。

易用、稳定、高效的预测服务

  • 发布预测:可以选择特定版本到特定集群,以支持不同体验需求。
  • 调整控制:实时且记录监控预测集群资源使用状况和预测服务的健康状况,提供控制台管理服务及服务实例状态。
  • 易用稳定:支持统一域名访问,访问可以做到负载均衡、自动扩容。
  • 高效运行:支持batching prediction,以提高预测服务执行效率和资源使用率。

  • 按版本导出对应的预测程序,并保存在阿里云OSS中,这样用户可以基于不同目标进行预测。用户还可以根据状况及时调整和管控,享受易用、稳定、高效的预测服务。

1. 环境搭建及底层准备

方案提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。


  • 一致的配置:一样的方式配置GPU和CPU资源。
  • 一键化部署:无需逐个部署,一键完成整个集群构建。
  • 简单且高效:无需手动安装TensorFlow、MXNet、Keras深度学习框架及Python工具,并且自动化统一管理和调度。

  • 数据科学家和算法工程师不必关心底层GPU、CPU的管理、调度和运维。
  • 无需手动记录与管控,无需Make、Bazel、pip或者容器镜像安装,无需通过SSH登录到每台机器上手工部署,无需手动记录管理或整机分配,告别低使用效率。

2. 数据准备

高效便捷的数据管理

  • 数据共享和管理:可存储在阿里云OSS中一键上传、直接调用。
  • 数据加载效率:可将用户数据集准换成Tensorflow推荐的TFRecord格式。

  • 无需手动拷贝数据到每台机器上。 无需手动调整格式。

3. 模型开发

支持主流开发模式

  • 开发环境:最常用的方式 开发模型训练代码,包括自动启动Jupyter和Tensorboard开发工具。
  • 调试方式:使用Tensorflow提供的tfdbg进行模型调试。
  • 模型确定:在模型训练使用的集群中快速发布、更新、同步训练代码。

  • 支持Tensorflow / MXNet + Jupyter 开发 + Tensorboard 训练监控 + SSH。大众最常用开发模式,不再需要更改习惯,不再需要手动安装。

4. 模型训练

全方位适配模型训练

  • 多模式支持:支持单机和分布式(单机多卡,多机多卡)。
  • 极简更新:通过修改配置的方式更新训练集群环境(包括软件版本、数据存储、集群拓扑)。
  • 实时监控:通过修改配置的方式使用基于tensorboard的模型训练监控能力,以实时了解训练状态、及时调整集群配置。
  • 数据保存:最终模型数据自动保存,以备后用和共享;还可以选择备份阶段性数据和训练模型 ,下次使用时再恢复模型状态并继续训练。
  • 问题诊断:通过查看日志,了解训练过程。

  • 支持基于TensorFlow serving 的模型滚动更新、蓝绿发布,负载均衡和弹性伸缩。集成了阿里云OSS,NAS,HDFS等数据服务来存储训练数据集、模型、checkpoint。

5. 模型预测

易用、稳定、高效的预测服务

  • 发布预测:可以选择特定版本到特定集群,以支持不同体验需求。
  • 调整控制:实时且记录监控预测集群资源使用状况和预测服务的健康状况,提供控制台管理服务及服务实例状态。
  • 易用稳定:支持统一域名访问,访问可以做到负载均衡、自动扩容。
  • 高效运行:支持batching prediction,以提高预测服务执行效率和资源使用率。

  • 按版本导出对应的预测程序,并保存在阿里云OSS中,这样用户可以基于不同目标进行预测。用户还可以根据状况及时调整和管控,享受易用、稳定、高效的预测服务。