« Méthode du gradient de politique » : différence entre les versions
m (Claude COULOMBE a déplacé la page Policy gradient vers Méthode à gradient de politique) |
Aucun résumé des modifications |
||
Ligne 1 : | Ligne 1 : | ||
==Définition== | ==Définition== | ||
En [[apprentissage par renforcement]] | En [[apprentissage par renforcement]] une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement. | ||
== Compléments == | == Compléments == | ||
Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition d’une action entreprise par un agent dans un certain état, | Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même. | ||
<hr/> | |||
Typiquement, une méthode à gradient de politique est associée à de l'[[apprentissage par renforcement sans modèle]] | |||
==Français== | ==Français== |
Version du 25 avril 2025 à 00:54
Définition
En apprentissage par renforcement une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
Compléments
Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.
Typiquement, une méthode à gradient de politique est associée à de l'apprentissage par renforcement sans modèle
Français
méthode à gradient de politique
Anglais
policy gradient
Sources
[https://hal.science/hal-04115352/document Rapport du LISIC, Franck Vandewièle & Samuel Delepoulle LISIC - méthode à gradient de politique]
Contributeurs: Claude Coulombe, wiki
