View code on Github

#

强化学习算法

近端策略优化
这是一个在 Atari Breakout 上运行 PPO 代理的实验。
广义优势估计
Deep Q 网络
这是一个在 Atari Breakout 上运行 DQN 代理的实验。
带决斗网络的模型
优先体验重播缓冲区

这是 OpenAI 游戏封装器使用的实现multiprocessing 。

labml.ai