« Méthode du gradient de politique » : différence entre les versions
Aucun résumé des modifications |
m (Claude COULOMBE a déplacé la page Méthode à gradient de politique vers Méthode du gradient de politique) |
(Aucune différence)
|
Version du 25 avril 2025 à 02:09
Définition
En apprentissage par renforcement une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
Compléments
Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même.
Typiquement, la méthode du gradient de politique est associée à de l'apprentissage par renforcement sans modèle
Français
méthode du gradient de politique
méthode à gradient de politique
méthode de gradient de politique
algorithme du gradient de politique
Anglais
policy gradient
policy gradient method
policy gradient algorithm
Sources
Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique
Contributeurs: Claude Coulombe, wiki
