#

深度 Q 网络 (DQN)

这是 PyTorch 实现的 PyTorch 使用深度强化学习玩雅达利以及决斗网络、优先回放和 Double Q Network。

这是实验和模型实现。

24from typing import Tuple
25
26import torch
27from torch import nn
28
29from labml import tracker
30from labml_helpers.module import Module
31from labml_nn.rl.dqn.replay_buffer import ReplayBuffer

#

训练模型

我们想找到最佳的动作值函数。

Q^{*} (s, a) Q^{*} (s, a) = π max E [r_{t} + γ r_{t + 1} + γ^{2} r_{t + 2} + ...∣ s_{t} = s, a_{t} = a, π] = E_{s^{'} \sim ε} [r + γ a^{'} max Q^{*} (s^{'}, a^{'}) ∣ s, a]

目标网络 🎯

为了提高稳定性，我们使用经验回放，从以前的经验中随机抽样 $U (D)$ 。我们还使用具有一组单独参数的 Q 网络 $θ_{i}^{-}$ 来计算目标。 $θ_{i}^{-}$ 定期更新。这是根据论文《通过深度强化学习进行人体水平控制》得出的。

所以损失函数是， $L_{i} (θ_{i}) = E_{(s, a, r, s^{'}) \sim U (D)} [(r + γ a^{'} max Q (s^{'}, a^{'}; θ_{i}^{-}) - Q (s, a; θ_{i}))^{2}]$

双 $Q$ 重学习

上述计算中的最大值运算符使用相同的网络来选择最佳动作和评估值。也就是说， $a^{'} max Q (s^{'}, a^{'}; θ) = Q (s^{'}, a r gm a x_{a^{'}} Q (s^{'}, a^{'}; θ); θ)$ 我们使用双重Q-L $a r gm a x$ earning $θ_{i}$ ，其中取自值，取自值 $θ_{i}^{-}$ 。

损失函数变成，

L_{i} (θ_{i}) = E_{(s, a, r, s^{'}) \sim U (D)} [(- r + γ Q (s^{'}, a r gm a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}); θ_{i}^{-}) Q (s, a; θ_{i}))^{2}]

34class QFuncLoss(Module):

#

102    def __init__(self, gamma: float):
103        super().__init__()
104        self.gamma = gamma
105        self.huber_loss = nn.SmoothL1Loss(reduction='none')

#

q - $Q (s; θ_{i})$
action - $a$
double_q - $Q (s^{'}; θ_{i})$
target_q - $Q (s^{'}; θ_{i}^{-})$
done -游戏在采取行动后是否结束
reward - $r$

weights -来自有经验的优先重播的样本的权重

107    def forward(self, q: torch.Tensor, action: torch.Tensor, double_q: torch.Tensor,
108                target_q: torch.Tensor, done: torch.Tensor, reward: torch.Tensor,
109                weights: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:

#

$Q (s, a; θ_{i})$

121        q_sampled_action = q.gather(-1, action.to(torch.long).unsqueeze(-1)).squeeze(-1)
122        tracker.add('q_sampled_action', q_sampled_action)

#

渐变不应传播渐变 $r + γ Q (s^{'}, a r gm a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}); θ_{i}^{-})$

130        with torch.no_grad():

#

在州内采取最佳行动 $s^{'}$ $a r gm a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i})$

134            best_next_action = torch.argmax(double_q, -1)

#

从目标网络获取 q 值，以便在州内采取最佳行动 $s^{'}$ $Q (s^{'}, a r gm a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}); θ_{i}^{-})$

140            best_next_q_value = target_q.gather(-1, best_next_action.unsqueeze(-1)).squeeze(-1)

#

计算所需的 Q 值。如果游戏结束，我们将乘(1 - done) 以将下一个状态 Q 值归零。

$r + γ Q (s^{'}, a r gm a x_{a^{'}} Q (s^{'}, a^{'}; θ_{i}); θ_{i}^{-})$

151            q_update = reward + self.gamma * best_next_q_value * (1 - done)
152            tracker.add('q_update', q_update)

#

时差误差 $δ$ 用于称量重放缓冲区中的样本

155            td_error = q_sampled_action - q_update
156            tracker.add('td_error', td_error)

#

我们采用 Huber 损失而不是均方误差损失，因为它对异常值不太敏感

160        losses = self.huber_loss(q_sampled_action, q_update)

#

获取加权均值

162        loss = torch.mean(weights * losses)
163        tracker.add('loss', loss)
164
165        return td_error, loss

深度 Q 网络 (DQN)

训练模型

目标网络 🎯

双Q重学习

双 $Q$ 重学习