« Méthode du gradient de politique » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 10 : Ligne 10 :


'''méthode à gradient de politique'''
'''méthode à gradient de politique'''
'''algorithme à gradient de politique'''


==Anglais==
==Anglais==


'''policy gradient'''
'''policy gradient'''
'''policy gradient method'''
'''policy gradient algorithm'''


==Sources==
==Sources==

Version du 25 avril 2025 à 01:52

Définition

En apprentissage par renforcement une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.

Compléments

Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.


Typiquement, une méthode à gradient de politique est associée à de l'apprentissage par renforcement sans modèle

Français

méthode à gradient de politique

algorithme à gradient de politique


Anglais

policy gradient

policy gradient method

policy gradient algorithm

Sources

Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique

Categorie:GRAND LEXIQUE FRANÇAIS

Contributeurs: Claude Coulombe, wiki