{"id":616,"date":"2020-02-14T12:18:44","date_gmt":"2020-02-14T11:18:44","guid":{"rendered":"https:\/\/iaaa.lis-lab.fr\/?page_id=616"},"modified":"2020-02-14T12:21:18","modified_gmt":"2020-02-14T11:21:18","slug":"option-ar-apprentissage-par-renforcement","status":"publish","type":"page","link":"https:\/\/iaaa.lis-lab.fr\/?page_id=616","title":{"rendered":"Option AR &#8211; Apprentissage par Renforcement"},"content":{"rendered":"<h1>Option AR &#8211; Apprentissage par Renforcement<\/h1>\n<p>Cette option a pour objectif d&rsquo;acqu\u00e9rir les bases en apprentissage par renforcement, qui est un cadre diff\u00e9rent de ceux \u00e9tudi\u00e9s dans le reste du master (apprentissage supervis\u00e9, non-supervis\u00e9, etc.). En apprentissage par renforcement, on consid\u00e8re un agent qui \u00e9volue dans un environnement : l&rsquo;agent apprend gr\u00e2ce aux interactions avec l&rsquo;environnement, notamment via un syst\u00e8me de r\u00e9compenses qu&rsquo;il re\u00e7oit en fonction des actions qu&rsquo;il choisit. Ces situations se retrouvent dans des applications vari\u00e9es telles que les joueurs artificiels, la robotique, les syst\u00e8mes de recommandation et la publicit\u00e9 sur internet.<\/p>\n<p>L&rsquo;UE comprend l&rsquo;\u00e9tude des bases math\u00e9matiques de ce domaine, notamment statistiques, les concepts fondamentaux tels que le compromis exploration-exploitation, les algorithmes les plus connus et leur programmation dans des cas pratiques.<\/p>\n<p>Une premi\u00e8re partie de l&rsquo;UE est consacr\u00e9e aux probl\u00e8mes dits de bandits, d\u00e9terminants pour comprendre l&rsquo;essence de l&rsquo;apprentissage par renforcement. La seconde partie de l&rsquo;UE est consacr\u00e9e au cadre g\u00e9n\u00e9ral des processus de d\u00e9cision de Markov et aux deux algorithmes embl\u00e9matiques SARSA et Q-learning.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Option AR &#8211; Apprentissage par Renforcement Cette option a pour objectif d&rsquo;acqu\u00e9rir les bases en apprentissage par renforcement, qui est un cadre diff\u00e9rent de ceux \u00e9tudi\u00e9s dans le reste du master (apprentissage supervis\u00e9, non-supervis\u00e9, etc.). En apprentissage par renforcement, on consid\u00e8re un agent qui \u00e9volue dans un environnement : l&rsquo;agent apprend gr\u00e2ce aux interactions avec&hellip;<\/p>\n","protected":false},"author":4,"featured_media":0,"parent":44,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-616","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=\/wp\/v2\/pages\/616","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=616"}],"version-history":[{"count":4,"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=\/wp\/v2\/pages\/616\/revisions"}],"predecessor-version":[{"id":621,"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=\/wp\/v2\/pages\/616\/revisions\/621"}],"up":[{"embeddable":true,"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=\/wp\/v2\/pages\/44"}],"wp:attachment":[{"href":"https:\/\/iaaa.lis-lab.fr\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=616"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}