View code on Github

#

強化学習アルゴリズム

近接ポリシー最適化
これは、アタリブレイクアウトで PPO エージェントを実行する実験です。
一般化されたアドバンテージ推定
ディープQネットワーク
これは、Atari ブレイクアウトで DQN エージェントを実行する実験です。
デュエルネットワーク搭載モデル
優先体験リプレイバッファ

OpenAI ゲームラッパーを使用する場合の実装です。multiprocessing

Trending Research Papers labml.ai