« Théorème du gradient de politique » : différence entre les versions
(Page créée avec « ==Définition== En apprentissage par renforcement, le théorème du gradient de politique permet de simplifier l'apprentissage d'une [politique d'action] en établissant que le gradient (ou dérivée) de la récompense attendue en suivant une [politique d'action] est l'espérance du produit de la récompense attendue par le gradient (ou dérivée) du logarithme de la [politique d'action]. La [politique d'action] est généralement exprimée sous la forme d'u... ») |
Aucun résumé des modifications |
||
Ligne 13 : | Ligne 13 : | ||
==Sources== | ==Sources== | ||
[https://lilianweng.github.io/posts/2018-04-08-policy-gradient/#proof-of-policy-gradient-theorem - Proof of Policy Gradient Theorem] | [https://lilianweng.github.io/posts/2018-04-08-policy-gradient/#proof-of-policy-gradient-theorem - Lilian Weng Blog, Proof of Policy Gradient Theorem] | ||
[[Categorie:GRAND LEXIQUE FRANÇAIS]] | [[Categorie:GRAND LEXIQUE FRANÇAIS]] | ||
[[Catégorie:Publication]] | [[Catégorie:Publication]] |
Version du 25 avril 2025 à 03:54
Définition
En apprentissage par renforcement, le théorème du gradient de politique permet de simplifier l'apprentissage d'une [politique d'action] en établissant que le gradient (ou dérivée) de la récompense attendue en suivant une [politique d'action] est l'espérance du produit de la récompense attendue par le gradient (ou dérivée) du logarithme de la [politique d'action]. La [politique d'action] est généralement exprimée sous la forme d'une distribution de probabilité.
Français
théorème du gradient de politique
Anglais
policy gradient theorem
Sources
Contributeurs: Claude Coulombe, wiki
