« Méthode du gradient de politique » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 19 : | Ligne 19 : | ||
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement#Politique Wikipédia - Apprentissage par renforcement] | [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement#Politique Wikipédia - Apprentissage par renforcement] | ||
[https://hal.science/hal-04115352/document/ ] | [https://hal.science/hal-04115352/document/ Rapport du LISIC] | ||
[[Categorie:GRAND LEXIQUE FRANÇAIS]] | [[Categorie:GRAND LEXIQUE FRANÇAIS]] | ||
[[Catégorie:Publication]] | [[Catégorie:Publication]] |
Version du 25 avril 2025 à 01:19
Définition
En apprentissage par renforcement une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
Compléments
Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.
Typiquement, une méthode à gradient de politique est associée à de l'apprentissage par renforcement sans modèle
Français
méthode à gradient de politique
Anglais
policy gradient
Sources
Contributeurs: Claude Coulombe, wiki
