home rl

Github Twitter

View code on Github

#

强化学习算法

  • 近端策略优化
  • 这是一个在 Atari Breakout 上运行 PPO 代理的实验。
  • 广义优势估计
  • Deep Q 网络
  • 这是一个在 Atari Breakout 上运行 DQN 代理的实验。
  • 带决斗网络的模型
  • 优先体验重播缓冲区

这是 OpenAI 游戏封装器使用的实现multiprocessing 。

labml.ai