« Méthode du gradient de politique » : différence entre les versions
| Aucun résumé des modifications | Aucun résumé des modifications | ||
| (12 versions intermédiaires par un autre utilisateur non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
| ==Définition== | ==Définition== | ||
| En [[apprentissage par renforcement]] une méthode  | En [[apprentissage par renforcement]] une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement. | ||
| == Compléments == | == Compléments == | ||
| Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même. | |||
| Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état,  | |||
| <hr/> | <hr/> | ||
| Typiquement,  | Typiquement, la méthode du gradient de politique est associée à de l'[[apprentissage par renforcement sans modèle]] | ||
| ==Français== | ==Français== | ||
| '''méthode du gradient de politique''' | |||
| '''méthode à gradient de politique''' | '''méthode à gradient de politique''' | ||
| '''méthode de gradient de politique''' | |||
| '''algorithme du gradient de politique''' | |||
| ==Anglais== | ==Anglais== | ||
| '''policy gradient''' | '''policy gradient''' | ||
| '''policy-gradient''' | |||
| '''policy gradient method''' | |||
| '''policy-gradient method''' | |||
| '''policy gradient algorithm''' | |||
| '''policy-gradient algorithm''' | |||
| ==Sources== | ==Sources== | ||
| [https://hal.science/hal-04115352/document Rapport du LISIC | [https://hal.science/hal-04115352/document/ Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique] | ||
| [https://escholarship.mcgill.ca/concern/theses/k930c3222/ Thèse - Gavin McCracken - méthode de gradient de politique] | |||
| [https://huggingface.co/learn/deep-rl-course/en/unit4/policy-gradient/ Hugging Face - policy-gradient method] | |||
| [[Categorie:GRAND LEXIQUE FRANÇAIS]] | [[Categorie:GRAND LEXIQUE FRANÇAIS]] | ||
Dernière version du 1 mai 2025 à 10:41
Définition
En apprentissage par renforcement une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
Compléments
Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même.
Typiquement, la méthode du gradient de politique est associée à de l'apprentissage par renforcement sans modèle
Français
méthode du gradient de politique
méthode à gradient de politique
méthode de gradient de politique
algorithme du gradient de politique
Anglais
policy gradient
policy-gradient
policy gradient method
policy-gradient method
policy gradient algorithm
policy-gradient algorithm
Sources
Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique
Thèse - Gavin McCracken - méthode de gradient de politique
Contributeurs: Claude Coulombe, wiki
 
		
		 
	


 
 

 
 

 
  
 