ar-tu-do/html/train__q__learning_8py_source.html

 #!/usr/bin/env python
 # coding: utf-8

 from training_node import TrainingNode, device
 import random
 import math
 from collections import deque
 from parameters_q_learning import *

 import torch

 import simulation_tools.reset_car as reset_car
 from simulation_tools.track import track
 BATCH_INDICES = torch.arange(0, BATCH_SIZE, device=device, dtype=torch.long)


 class QLearningTrainingNode(TrainingNode):
     ''' ROS node to train the Q-Learning model
     '''

     def __init__(self):
         TrainingNode.__init__(
             self,
             NeuralQEstimator().to(device),
             ACTIONS,
             LASER_SAMPLE_COUNT,
             MAX_EPISODE_LENGTH,
             LEARNING_RATE)

         self.memory = deque(maxlen=MEMORY_SIZE)
         self.optimization_step_count = 0

         if CONTINUE:
             self.policy.load()

     def replay(self):
         if len(self.memory) < 500 or len(self.memory) < BATCH_SIZE:
             return

         if self.optimization_step_count == 0:
             rospy.loginfo("Model optimization started.")

         transitions = random.sample(self.memory, BATCH_SIZE)  # nopep8
         states, actions, rewards, next_states, is_terminal = tuple(zip(*transitions))  # nopep8

         states = torch.stack(states)
         actions = torch.tensor(actions, device=device, dtype=torch.long)
         rewards = torch.tensor(rewards, device=device, dtype=torch.float)
         next_states = torch.stack(next_states)
         is_terminal = torch.tensor(
             is_terminal, device=device, dtype=torch.uint8)

         next_state_values = self.policy.forward(next_states).max(1)[0].detach()
         q_updates = rewards + next_state_values * DISCOUNT_FACTOR
         q_updates[is_terminal] = rewards[is_terminal]

         self.optimizer.zero_grad()
         net_output = self.policy.forward(states)
         loss = F.smooth_l1_loss(net_output[BATCH_INDICES, actions], q_updates)
         loss.backward()
         for param in self.policy.parameters():
             param.grad.data.clamp_(-1, 1)
         self.optimizer.step()
         self.optimization_step_count += 1

     def get_epsilon_greedy_threshold(self):
         return EPS_END + (EPS_START - EPS_END) * \
             math.exp(-1. * self.total_step_count / EPS_DECAY)

     def select_action(self, state):
         use_epsilon_greedy = self.episode_count % 2 == 0
         if use_epsilon_greedy and random.random() < self.get_epsilon_greedy_threshold():
             return random.randrange(ACTION_COUNT)

         with torch.no_grad():
             output = self.policy(state)
             if self.episode_length < 10:
                 self.net_output_debug_string = ", ".join(
                     ["{0:.1f}".format(v).rjust(5) for v in output.tolist()])
             return output.max(0)[1].item()

     def get_reward(self):
         track_position = track.localize(self.car_position)
         distance = abs(track_position.distance_to_center)

         if distance < 0.2:
             return 1
         elif distance < 0.4:
             return 0.7
         else:
             return 0.4

     def get_episode_summary(self):
         return TrainingNode.get_episode_summary(self) + ' ' \
             + ("memory: {0:d} / {1:d}, ".format(len(self.memory), MEMORY_SIZE) if len(self.memory) < MEMORY_SIZE else "") \
             + "ε-greedy: " + str(int(self.get_epsilon_greedy_threshold() * 100)) + "% random, " \
             + "replays: " + str(self.optimization_step_count) + ", " \
             + "q: [" + self.net_output_debug_string + "], "

     def on_complete_step(self, state, action, reward, next_state):
         self.memory.append((state, action, reward, next_state, self.is_terminal_step))  # nopep8
         self.replay()


 rospy.init_node('q_learning_training', anonymous=True)
 node = QLearningTrainingNode()
 rospy.spin()
training_node.TrainingNode.total_step_count
total_step_count
Definition: training_node.py:40

train_q_learning.QLearningTrainingNode.get_reward
def get_reward(self)
Definition: train_q_learning.py:82

train_q_learning.QLearningTrainingNode.on_complete_step
def on_complete_step(self, state, action, reward, next_state)
Definition: train_q_learning.py:100

training_node.TrainingNode.episode_length
episode_length
Definition: training_node.py:39

train_q_learning.QLearningTrainingNode.replay
def replay(self)
Definition: train_q_learning.py:36

training_node.TrainingNode.episode_count
episode_count
Definition: training_node.py:38

train_q_learning.QLearningTrainingNode.get_episode_summary
def get_episode_summary(self)
Definition: train_q_learning.py:93

training_node.TrainingNode
Definition: training_node.py:21

simulation_tools.track
Definition: track.py:1

simulation_tools.reset_car
Definition: reset_car.py:1

train_q_learning.QLearningTrainingNode
Definition: train_q_learning.py:17

train_q_learning.QLearningTrainingNode.__init__
def __init__(self)
Definition: train_q_learning.py:21

train_q_learning.QLearningTrainingNode.memory
memory
Definition: train_q_learning.py:30

training_node.TrainingNode.is_terminal_step
is_terminal_step
Definition: training_node.py:42

train_q_learning.QLearningTrainingNode.get_epsilon_greedy_threshold
def get_epsilon_greedy_threshold(self)
Definition: train_q_learning.py:66

train_q_learning.QLearningTrainingNode.select_action
def select_action(self, state)
Definition: train_q_learning.py:70

train_q_learning.QLearningTrainingNode.net_output_debug_string
net_output_debug_string
Definition: train_q_learning.py:78

training_node.TrainingNode.car_position
car_position
Definition: training_node.py:50

train_q_learning.QLearningTrainingNode.optimization_step_count
optimization_step_count
Definition: train_q_learning.py:31

training_node.TrainingNode.policy
policy
Definition: training_node.py:35

parameters_q_learning.NeuralQEstimator
Definition: parameters_q_learning.py:46