.
架构介绍
  • 云原生AI

简单开放

支持主流框架(如Tensorflow、PyTorch,Keras、caffe、MXNet等)和多种环境,屏蔽底层差异并承担非算法相关工作,提供全生命周期方案与一站式管控。

高效可靠

极致弹性,提升异构资源使用效率;快速按需构建,加速重复性模型开发;支持多维度监控报警、异常发现与自动修复。

深度整合

基于大规模GPU集群部署运维经验,充分利用阿里云计算资源(如ECS、 EGS)与数据服务能力(如OSS、NAS、CPFS、EMR等),提供端到端的最佳实践。

轻松集成

支持深度学习能力一键服务化发布,与云上应用的轻松集成。

了解容器服务ACK

场景优势

  • 大规模围棋离线训练
  • GPU 高效运维
  • 深度整合阿里云

如何最小化搭建深度学习环境

  • 1 高效计算力: 强大GPU计算能力快速反馈训练结果,并且可以根据框架(如Tensorflow)和网络特点调整参数,达到最优训练性能。
  • 2 强大存储: 将训练前后的数据存放在共享存储服务中,一键上传、直接调用;还可以选择备份阶段性数据和训练模型。
  • 3 无缝整合 :无缝对接阿里云资源,支持深度学习能力服务化,与云上应用的轻松集成。

推荐搭配使用

GPU 调度与监控

  • 1 通过深度学习解决方案Arena命令行或控制台,提供作业、资源管理一致的体验。
  • 2 多维度的监控、告警和运维平台。
  • 3 增强资源类型抽象、GPU多策略调度能力。
  • 4 支持GPU共享调度,大力优化成本。
  • 5 自动弹性伸缩,削峰填谷。

推荐搭配使用

快捷而完整的方案

  • 可快速构建模型开发、训练和预测的运行环境。
  • 集成各种阿里云资源,如存储、网络、负载均衡、弹性、监控、日志、镜像和EMR大数据处理等。
  • 提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。

推荐搭配使用

大规模围棋离线训练

如何最小化搭建深度学习环境

  • 1 高效计算力: 强大GPU计算能力快速反馈训练结果,并且可以根据框架(如Tensorflow)和网络特点调整参数,达到最优训练性能。
  • 2 强大存储: 将训练前后的数据存放在共享存储服务中,一键上传、直接调用;还可以选择备份阶段性数据和训练模型。
  • 3 无缝整合 :无缝对接阿里云资源,支持深度学习能力服务化,与云上应用的轻松集成。

推荐搭配使用

GPU 高效运维

GPU 调度与监控

  • 1 通过深度学习解决方案Arena命令行或控制台,提供作业、资源管理一致的体验。
  • 2 多维度的监控、告警和运维平台。
  • 3 增强资源类型抽象、GPU多策略调度能力。
  • 4 支持GPU共享调度,大力优化成本。
  • 5 自动弹性伸缩,削峰填谷。

推荐搭配使用

深度整合阿里云

快捷而完整的方案

  • 可快速构建模型开发、训练和预测的运行环境。
  • 集成各种阿里云资源,如存储、网络、负载均衡、弹性、监控、日志、镜像和EMR大数据处理等。
  • 提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的工作支持。

推荐搭配使用

方案使用指南

环境搭建及底层准备

不必关心底资源管理、调度和运维。 无需手动记录、管控、配置或部署,告别低使用效率。

数据准备

在阿里云OSS中一键上传、直接调用。 数据集准换成Tensorflow推荐的TFRecord格式。

模型开发

支持Tensorflow / MXNet + Jupyter 开发 + Tensorboard 训练监控 + SSH。

模型训练

支持基于TensorFlow serving 的模型滚动更新、蓝绿发布,负载均衡和弹性伸缩。集成多款产品。

模型预测

按版本导出对应预测程序,并存于OSS,支持基于不同目标进行预测,可随状况及时调整和管控。

环境搭建及底层准备

不必关心底资源管理、调度和运维。 无需手动记录、管控、配置或部署,告别低使用效率。

数据准备

在阿里云OSS中一键上传、直接调用。 数据集准换成Tensorflow推荐的TFRecord格式。

模型开发

支持Tensorflow / MXNet + Jupyter 开发 + Tensorboard 训练监控 + SSH。

模型训练

支持基于TensorFlow serving 的模型滚动更新、蓝绿发布,负载均衡和弹性伸缩。集成多款产品。

模型预测

按版本导出对应预测程序,并存于OSS,支持基于不同目标进行预测,可随状况及时调整和管控。

推荐云产品

容器服务

高性能可伸缩的容器应用管理能力,企业级 Kubernetes 容器化应用的全生命周期管理

容器镜像

简化Registry的搭建运维工作,支持多地域的镜像托管

云服务器ECS

适用于海量数据的存储,强大的技术保障为您提供数据高可靠性保障

GPU云服务器

GPU实例、强大的计算性能、弹性按需扩展。

FPGA 云服务器

FPGA实例、低时延可编程硬件加速服务。

高性能计算 HPC

支持RDMA提供极致并行计算性能实例规格。

对象存储 OSS

比传统方式成本下降25%~75%强安全企业级

文件存储 NAS

支持NFS、CIFS协议的可共享文件存储

更多资料

最佳实践