home
rl
View code on Github
#
強化学習アルゴリズム
近接ポリシー最適化
これは、アタリブレイクアウトで PPO エージェントを実行する実験です
。
一般化されたアドバンテージ推定
ディープQネットワーク
これは、Atari ブレイクアウトで DQN エージェントを実行する実験です
。
デュエルネットワーク搭載モデル
優先体験リプレイバッファ
OpenAI ゲームラッパーを使用する場合の実装です
。
multiprocessing