« Théorème du gradient de politique » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(2 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 13 : Ligne 13 :
==Sources==
==Sources==


[https://lilianweng.github.io/posts/2018-04-08-policy-gradient/#proof-of-policy-gradient-theorem - Lilian Weng Blog, Proof of Policy Gradient Theorem]
[https://lilianweng.github.io/posts/2018-04-08-policy-gradient/#proof-of-policy-gradient-theorem Lilian Weng Blog - Policy Gradient Theorem]


[[Categorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:Publication]]

Dernière version du 28 avril 2025 à 10:02

Définition

En apprentissage par renforcement, le théorème du gradient de politique permet de simplifier l'apprentissage d'une [politique d'action] en établissant que le gradient (ou dérivée) de la récompense attendue en suivant une [politique d'action] est l'espérance du produit de la récompense attendue par le gradient (ou dérivée) du logarithme de la [politique d'action]. La [politique d'action] est généralement exprimée sous la forme d'une distribution de probabilité.

Français

théorème du gradient de politique

Anglais

policy gradient theorem

Sources

Lilian Weng Blog - Policy Gradient Theorem

Contributeurs: Claude Coulombe, wiki