« Méthode du gradient de politique » : différence entre les versions

Version du 25 avril 2025 à 02:09

Définition

En apprentissage par renforcement une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.

Compléments

Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même.

Typiquement, la méthode du gradient de politique est associée à de l'apprentissage par renforcement sans modèle

Français

méthode du gradient de politique

méthode à gradient de politique

méthode de gradient de politique

algorithme du gradient de politique

Anglais

policy gradient

policy gradient method

policy gradient algorithm

Sources

Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique

Thèse - Gavin McCracken - méthode de gradient de politique

Categorie:GRAND LEXIQUE FRANÇAIS

@@ Ligne 1 : / Ligne 1 : @@
 ==Définition==
-En [[apprentissage par renforcement]] une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
+En [[apprentissage par renforcement]] une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
 == Compléments ==
-Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.
+Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même.
 <hr/>
-Typiquement, une méthode à gradient de politique est associée à de l'[[apprentissage par renforcement sans modèle]]
+Typiquement, la méthode du gradient de politique est associée à de l'[[apprentissage par renforcement sans modèle]]
 ==Français==
+'''méthode du gradient de politique'''
 '''méthode à gradient de politique'''
-'''algorithme à gradient de politique'''
+'''méthode de gradient de politique'''
+'''algorithme du gradient de politique'''
 ==Anglais==
@@ Ligne 23 : / Ligne 27 : @@
 [https://hal.science/hal-04115352/document/ Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique]
+[https://escholarship.mcgill.ca/concern/theses/k930c3222/ Thèse - Gavin McCracken - méthode de gradient de politique]
 [[Categorie:GRAND LEXIQUE FRANÇAIS]]
 [[Catégorie:Publication]]

« Méthode du gradient de politique » : différence entre les versions