文章 2024-01-25 来自:开发者社区

TensorFlow 强化学习:11~15

十一、机器人技术中的强化学习到目前为止,我们已经看到了强化学习在 AlphaGo,自动驾驶,项目组合管理等方面的进步。 研究表明,强化学习可以提供认知特征,例如动物行为。与认知科学的紧密比较将是动态机器人系统和自动驾驶中强化学习的许多成功实现。 他们证明了将强化学习算法用于物理系统实时控制的理论。在深度 Q 网络和策略梯度中使用神经网络可消除对人工设计的策略和状态表示的使用。 在深度强化学习中直....

文章 2024-01-25 来自:开发者社区

TensorFlow 强化学习:6~10

六、异步方法到目前为止,我们已经涵盖了大多数重要主题,例如马尔可夫决策过程,值迭代,Q 学习,策略梯度,深度 Q 网络和参与者批评算法。 这些构成了强化学习算法的核心。 在本章中,我们将继续从演员评论家算法中停止的地方继续搜索,并深入研究用于深度强化学习的高级异步方法及其最著名的变体异步优势演员评论家算法,通常称为 A3C 算法。但是,在开始使用 A3C 算法之前,让我们修改第 4 章和“策略梯....

文章 2024-01-25 来自:开发者社区

TensorFlow 强化学习:1~5

一、深度学习–架构和框架人工神经网络是一种计算系统,为我们提供了解决诸如图像识别到语音翻译等具有挑战性的机器学习任务的重要工具。 最近的突破,例如 Google DeepMind 的 AlphaGo 击败了最好的围棋玩家,或者卡内基梅隆大学的 Libratus 击败了世界上最好的职业扑克玩家,都证明了算法的进步。 这些算法像人类一样学习狭窄的智能,并达到超人水平的表现。 用通俗易懂的话说,人工神....

文章 2022-02-17 来自:开发者社区

TensorFlow 2.0深度强化学习指南

在本教程中,我将通过实施Advantage Actor-Critic(演员-评论家,A2C)代理来解决经典的CartPole-v0环境,通过深度强化学习(DRL)展示即将推出的TensorFlow2.0特性。虽然我们的目标是展示TensorFlow2.0,但我将尽最大努力让DRL的讲解更加平易近人,包括对该领域的简要概述。 事实上,由于2.0版本的焦点是让开发人员的生活变得更轻松,所以我认为现在....

文章 2019-02-14 来自:开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习(上)

本文来自云栖社区官方钉群“Python技术进阶”,了解相关信息可以关注“Python技术进阶”。 评价行为:信用分配问题 如果我们知道每一步的最佳动作,我们可以像通常一样训练神经网络,通过最小化估计概率和目标概率之间的交叉熵。这只是通常的监督学习。然而,在强化学习中,智能体获得的指导的唯一途径是通过奖励,奖励通常是稀疏的和延迟的。例如,如果智能体在 100 个步骤内设法平衡杆,它怎么知道它采取的....

文章 2019-02-14 来自:开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习(下)

本文来自云栖社区官方钉群“Python技术进阶”,了解相关信息可以关注“Python技术进阶”。 时间差分学习与 Q 学习 具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程,但是智能体最初不知道转移概率是什么(它不知道T),并且它不知道奖励会是什么(它不知道R)。它必须经历每一个状态和每一次转变并且至少知道一次奖励,并且如果要对转移概率进行合理的估计,就必须经历多次。 时间差分学习(T....

文章 2018-07-10 来自:开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习(下)

时间差分学习与 Q 学习 具有离散动作的强化学习问题通常可以被建模为马尔可夫决策过程,但是智能体最初不知道转移概率是什么(它不知道T),并且它不知道奖励会是什么(它不知道R)。它必须经历每一个状态和每一次转变并且至少知道一次奖励,并且如果要对转移概率进行合理的估计,就必须经历多次。 时间差分学习(TD 学习)算法与数值迭代算法非常类似,但考虑到智能体仅具有 MDP 的部分知识。一般来说,我们假设....

文章 2018-07-09 来自:开发者社区

【翻译】Sklearn与TensorFlow机器学习实用指南 —— 第16章 强化学习(中)

评价行为:信用分配问题 如果我们知道每一步的最佳动作,我们可以像通常一样训练神经网络,通过最小化估计概率和目标概率之间的交叉熵。这只是通常的监督学习。然而,在强化学习中,智能体获得的指导的唯一途径是通过奖励,奖励通常是稀疏的和延迟的。例如,如果智能体在 100 个步骤内设法平衡杆,它怎么知道它采取的 100 个行动中的哪一个是好的,哪些是坏的?它所知道的是,在最后一次行动之后,杆子坠落了,但最后....

文章 2018-05-16 来自:开发者社区

《Scikit-Learn与TensorFlow机器学习实用指南》第16章 强化学习

第16章 强化学习 来源:ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目 译者:@friedhelm739 校对:@飞龙 强化学习(RL)如今是机器学习的一大令人激动的领域,当然之前也是。自从 1950 年被发明出来后,它在这些年产生了一些有趣的应用,尤其是在游戏(例如 TD-Gammon,一个西洋双陆棋程序)和及其控制领域...

文章 2018-01-09 来自:开发者社区

无人机送货充电包教包会!TensorFlow复合目标强化学习教程

本文来自AI新媒体量子位(QbitAI) 本文用到的所有python代码都在GitHub上: https://github.com/awjuliani/dfp 强化学习(Reinforcment Learning,RL)的主要内容就是不断训练agent完成任务,我们认为这会让agent学会做这件事情。 举例来说,假如我们希望训练一个会开门的机器人,或者叫agent,以强化学习为框架,就可以让...

无人机送货充电包教包会!TensorFlow复合目标强化学习教程

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

人工智能

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

+关注