Théorème du gradient de politique


Révision datée du 25 avril 2025 à 03:53 par Claude COULOMBE (discussion | contributions) (Page créée avec « ==Définition== En apprentissage par renforcement, le théorème du gradient de politique permet de simplifier l'apprentissage d'une [politique d'action] en établissant que le gradient (ou dérivée) de la récompense attendue en suivant une [politique d'action] est l'espérance du produit de la récompense attendue par le gradient (ou dérivée) du logarithme de la [politique d'action]. La [politique d'action] est généralement exprimée sous la forme d'u... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

En apprentissage par renforcement, le théorème du gradient de politique permet de simplifier l'apprentissage d'une [politique d'action] en établissant que le gradient (ou dérivée) de la récompense attendue en suivant une [politique d'action] est l'espérance du produit de la récompense attendue par le gradient (ou dérivée) du logarithme de la [politique d'action]. La [politique d'action] est généralement exprimée sous la forme d'une distribution de probabilité.

Français

théorème du gradient de politique

Anglais

policy gradient theorem

Sources

- Proof of Policy Gradient Theorem

Categorie:GRAND LEXIQUE FRANÇAIS

Contributeurs: Claude Coulombe, wiki