home
rl
View code on Github
#
强化学习算法
近端策略优化
这是一个在 Atari Breakout 上运行 PPO 代理的实验
。
广义优势估计
Deep Q 网络
这是一个在 Atari Breakout 上运行 DQN 代理的实验
。
带决斗网络的
模型
优先体验重播缓冲区
这是 OpenAI 游戏封装器使用的实现
multiprocessing
。