Théorème du gradient de politique
(Redirigé depuis Policy Gradient Theorem)
Définition
En apprentissage par renforcement, le théorème du gradient de politique permet de simplifier l'apprentissage d'une [politique d'action] en établissant que le gradient (ou dérivée) de la récompense attendue en suivant une [politique d'action] est l'espérance du produit de la récompense attendue par le gradient (ou dérivée) du logarithme de la [politique d'action]. La [politique d'action] est généralement exprimée sous la forme d'une distribution de probabilité.
Français
théorème du gradient de politique
Anglais
policy gradient theorem
Sources
Contributeurs: Claude Coulombe, wiki
