« Méthode du gradient de politique » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(4 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
==Définition==
==Définition==
En [[apprentissage par renforcement]] une méthode à gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.
En [[apprentissage par renforcement]] une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.


== Compléments ==
== Compléments ==
Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, une méthode à gradient de politique prédit directement l’action elle-même.
Alors que l’[[apprentissage par fonction Q]] vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même.
<hr/>
<hr/>
Typiquement, une méthode à gradient de politique est associée à de l'[[apprentissage par renforcement sans modèle]]
Typiquement, la méthode du gradient de politique est associée à de l'[[apprentissage par renforcement sans modèle]]


==Français==
==Français==
'''méthode du gradient de politique'''


'''méthode à gradient de politique'''
'''méthode à gradient de politique'''


'''algorithme à gradient de politique'''
'''méthode de gradient de politique'''


'''algorithme du gradient de politique'''


==Anglais==
==Anglais==


'''policy gradient'''
'''policy gradient'''
'''policy-gradient'''


'''policy gradient method'''
'''policy gradient method'''
'''policy-gradient method'''


'''policy gradient algorithm'''
'''policy gradient algorithm'''
'''policy-gradient algorithm'''


==Sources==
==Sources==


[https://hal.science/hal-04115352/document/ Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique]
[https://hal.science/hal-04115352/document/ Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique]
[https://escholarship.mcgill.ca/concern/theses/k930c3222/ Thèse - Gavin McCracken - méthode de gradient de politique]
[https://huggingface.co/learn/deep-rl-course/en/unit4/policy-gradient/ Hugging Face - policy-gradient method]


[[Categorie:GRAND LEXIQUE FRANÇAIS]]
[[Categorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:Publication]]

Dernière version du 1 mai 2025 à 10:41

Définition

En apprentissage par renforcement une méthode du gradient de politique permet de prévoir la meilleure action à accomplir par un agent dans un état donné de l'environnement.

Compléments

Alors que l’apprentissage par fonction Q vise à prévoir la valeur de la récompense ou la punition résultant d’une action entreprise par un agent dans un certain état, la méthode du gradient de politique prédit directement l’action elle-même.


Typiquement, la méthode du gradient de politique est associée à de l'apprentissage par renforcement sans modèle

Français

méthode du gradient de politique

méthode à gradient de politique

méthode de gradient de politique

algorithme du gradient de politique

Anglais

policy gradient

policy-gradient

policy gradient method

policy-gradient method

policy gradient algorithm

policy-gradient algorithm

Sources

Rapport du LISIC - Franck Vandewièle et Samuel Delepoulle - méthode à gradient de politique

Thèse - Gavin McCracken - méthode de gradient de politique

Hugging Face - policy-gradient method

Categorie:GRAND LEXIQUE FRANÇAIS

Contributeurs: Claude Coulombe, wiki