Ects : 2
Enseignant responsable : GABRIEL TURINICI
Volume horaire : 21
Description du contenu de l'enseignement :
Introduction au reinforcement learning
Formalisme théorique : « Markov decision processes » (MDP), function valeur ( équation de Belman et Hamilton- Jacobi – Bellman) etc.
Stratégies usuelles, sur l’exemple de “multi-armed bandit”
Stratégies en deep learning: Q-learning et DQN
Stratégies en deep learning: SARSA et variantes
Stratégies en deep learning: Actor-Critic et variantes
Implémentations Python variées
Perspectives.
Compétences à acquérir :
Introduction au deep reinforcement learning, avec une vision machine learning empirique: principaux algorithmes, implementations pratiques (gym)