阿里云文档 2025-03-12

基于Kubernetes使用TensorFlow进行分布式训练

本文展示如何使用Arena提交TensorFlow基于PS-Worker模式的分布式训练作业,并通过TensorBoard可视化查看训练作业。

阿里云文档 2025-03-12

基于Kubernetes使用TensorFlow进行单机训练

本文展示如何使用Arena提交TensorFlow的单机训练作业,并通过TensorBoard可视化查看训练作业。

阿里云文档 2024-07-19

使用ECI运行TensorFlow任务

您可以将AI训练任务所需的软件环境容器化,然后在ECI上执行训练任务,在解决环境搭建复杂问题的同时,可以只为运行时间付费,从而降低成本,提升效率。本文以一个Github上基于GPU的TensorFlow训练任务为例,介绍如何基于ACK Serverless集群,使用ECI来运行训练任务。

阿里云文档 2024-01-03

如何使用Blade优化通过TensorFlow训练的BERT模型

BERT(Bidirectional Encoder Representation from Transformers)是一个预训练的语言表征模型。作为NLP领域近年来重要的突破,BERT模型在多个自然语言处理的任务中取得了最优结果。然而BERT模型存在巨大的参数规模和计算量,因此实际生产中对该模型具有强烈的优化需求。本文主要介绍如何使用Blade优化通过TensorFlow训练的BERT模型。

文章 2023-01-19 来自:开发者社区

TensorFlow指定每个epoch训练多少个批次的数据

如果我们的数据量过大,我们需要将数据转化成Dataset实例,但是这样我们无法指定需要训练的数据,因为所有数据已经被封装在一个迭代器里面,是多个批次数据所以针对这个问题,fit()函数中有个参数可以指定我们每轮训练多少个批次的数据steps_per_epoch:这个参数的意思就是我们每个epoch训练多少个batch的数据model.fit(train_dataset, epochs=3, st....

文章 2017-05-24 来自:开发者社区

利用TFRecord和HDFS准备TensorFlow训练数据

本系列将利用阿里云容器服务的机器学习解决方案,帮助您了解和掌握TensorFlow,MXNet等深度学习库,开启您的深度学习之旅。第一篇: 打造深度学习的云端实验室第二篇: GPU资源的监控和报警,支撑高效深度学习的利器第三篇: 利用TFRecord和HDFS准备TensorFlow训练数据数据准备和预处理是一个深度学习训练过程中扮演着非常重要的角色,它影响着模型训练的速度和质量。而Tensor....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

人工智能

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

+关注