home rl

Github Twitter

View code on Github

#

強化学習アルゴリズム

  • 近接ポリシー最適化
  • これは、アタリブレイクアウトで PPO エージェントを実行する実験です。
  • 一般化されたアドバンテージ推定
  • ディープQネットワーク
  • これは、Atari ブレイクアウトで DQN エージェントを実行する実験です。
  • デュエルネットワーク搭載モデル
  • 優先体験リプレイバッファ

OpenAI ゲームラッパーを使用する場合の実装です。multiprocessing

Trending Research Papers labml.ai