« Méthode du gradient de politique » : différence entre les versions


m (Claude COULOMBE a déplacé la page Policy gradient vers Méthode à gradient de politique)
Aucun résumé des modifications
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
En [[apprentissage par renforcement]] la méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
En [[apprentissage par renforcement]] une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.


== Compléments ==
== Compléments ==


Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition d’une action entreprise par un agent dans un certain état, la méthode à gradient de politique prédit directement l’action elle-même.
Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.
<hr/>
Typiquement, une méthode à gradient de politique est associée à de l'[[apprentissage par renforcement sans modèle]]


==Français==
==Français==

Version du 25 avril 2025 à 00:54

Définition

En apprentissage par renforcement une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.

Compléments

Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.


Typiquement, une méthode à gradient de politique est associée à de l'apprentissage par renforcement sans modèle

Français

méthode à gradient de politique

Anglais

policy gradient

Sources

[https://hal.science/hal-04115352/document Rapport du LISIC, Franck Vandewièle & Samuel Delepoulle LISIC - méthode à gradient de politique]

Categorie:GRAND LEXIQUE FRANÇAIS

Contributeurs: Claude Coulombe, wiki