Option AR – Apprentissage par Renforcement

Cette option a pour objectif d’acquérir les bases en apprentissage par renforcement, qui est un cadre différent de ceux étudiés dans le reste du master (apprentissage supervisé, non-supervisé, etc.). En apprentissage par renforcement, on considère un agent qui évolue dans un environnement : l’agent apprend grâce aux interactions avec l’environnement, notamment via un système de récompenses qu’il reçoit en fonction des actions qu’il choisit. Ces situations se retrouvent dans des applications variées telles que les joueurs artificiels, la robotique, les systèmes de recommandation et la publicité sur internet.

L’UE comprend l’étude des bases mathématiques de ce domaine, notamment statistiques, les concepts fondamentaux tels que le compromis exploration-exploitation, les algorithmes les plus connus et leur programmation dans des cas pratiques.

Une première partie de l’UE est consacrée aux problèmes dits de bandits, déterminants pour comprendre l’essence de l’apprentissage par renforcement. La seconde partie de l’UE est consacrée au cadre général des processus de décision de Markov et aux deux algorithmes emblématiques SARSA et Q-learning.