« Méthode du gradient de politique » : différence entre les versions

Version du 1 mai 2025 à 10:41

Définition

En apprentissage par renforcement une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.

Compléments

Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même.

Typiquement, la méthode du gradient de politique est associée à de l'apprentissage par renforcement sans modèle

Français

méthode du gradient de politique

méthode à gradient de politique

méthode de gradient de politique

algorithme du gradient de politique

Anglais

policy gradient

policy-gradient

policy gradient method

policy-gradient method

policy gradient algorithm

policy-gradient algorithm

Sources

Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique

Thèse - Gavin McCracken - méthode de gradient de politique

Hugging Face - policy-gradient method

Categorie:GRAND LEXIQUE FRANÇAIS

Version du 25 avril 2025 à 02:45 (voir la source) Claude COULOMBE (discussion \| contributions) Aucun résumé des modifications ← Modification précédente		Version du 1 mai 2025 à 10:41 (voir la source) Pitpitt (discussion \| contributions) Aucun résumé des modifications Modification suivante →
Ligne 39 :		Ligne 39 :

	[[Categorie:GRAND LEXIQUE FRANÇAIS]]		[[Categorie:GRAND LEXIQUE FRANÇAIS]]
	~~[[Catégorie:Publication]]~~

« Méthode du gradient de politique » : différence entre les versions