« Méthode du gradient de politique » : différence entre les versions

Version du 25 avril 2025 à 01:19

Définition

En apprentissage par renforcement une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.

Compléments

Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.

Typiquement, une méthode à gradient de politique est associée à de l'apprentissage par renforcement sans modèle

Français

méthode à gradient de politique

Anglais

policy gradient

Sources

Wikipédia - Apprentissage par renforcement

Rapport du LISIC

Categorie:GRAND LEXIQUE FRANÇAIS

@@ Ligne 19 : / Ligne 19 : @@
 [https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement#Politique  Wikipédia - Apprentissage par renforcement]
-[https://hal.science/hal-04115352/document/ ]
+[https://hal.science/hal-04115352/document/ Rapport du LISIC]
 [[Categorie:GRAND LEXIQUE FRANÇAIS]]
 [[Catégorie:Publication]]

« Méthode du gradient de politique » : différence entre les versions