文章 2018-01-08 来自:开发者社区

OpenAI发布新强化学习算法:近端策略优化

本文来自AI新媒体量子位(QbitAI) OpenAI今天发布一类新的强化学习算法:近端策略优化(Proximal Policy Optimization,PPO)。因为易于使用和表现良好,PPO已经成为OpenAI默认的强化学习算法。 PPO让我们在根据挑战性的环境中训练AI策略,例如上面所示的Roboschool训练场中,智能体(agent)的任务是追逐粉红色的球体,并在期间学习走路、...

OpenAI发布新强化学习算法:近端策略优化
文章 2017-08-01 来自:开发者社区

从一个失败的强化学习训练说起:OpenAI 探讨应该如何设计奖励函数?

在当下,强化学习算法以一种惊奇、不可思议的方式进入到了我们的视野中。雷锋网(公众号:雷锋网)此前也做过不少相关的覆盖和报道,而在 OpenAI 的这篇文章中,Dario Amodei 与 Jack Clark 将会探讨一个失败的强化学习模型。这个模型为何失败?原因就在于你没有指明你的奖励函数。雷锋网编译,未经许可不得转载。 我们最近在 OpenAI 上使用 Universe 来进行强化学习的实验....

从一个失败的强化学习训练说起:OpenAI 探讨应该如何设计奖励函数?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。