« Apprentissage par renforcement vérifiable » : différence entre les versions
m (Patrickdrouin a déplacé la page Reinforcement Learning with Verifiable Rewards vers Apprentissage par renforcement vérifiable) |
Aucun résumé des modifications |
||
(3 versions intermédiaires par un autre utilisateur non affichées) | |||
Ligne 21 : | Ligne 21 : | ||
'''verifiable reinforcement learning''' | '''verifiable reinforcement learning''' | ||
''' VRL''' | |||
'''reinforcement learning in verifiable domains''' | '''reinforcement learning in verifiable domains''' | ||
==Sources== | ==Sources== | ||
Ligne 30 : | Ligne 30 : | ||
[https://arxiv.org/abs/2506.14245 Wen et al. (2025) - reinforcement learning with verifiable rewards] | [https://arxiv.org/abs/2506.14245 Wen et al. (2025) - reinforcement learning with verifiable rewards] | ||
[[Catégorie: | [https://arxiv.org/pdf/2309.06420 - Neary et al. (2023) - Verifiable Reinforcement Learning | ||
[[Catégorie:GRAND_LEXIQUE_FRANÇAIS]] |
Dernière version du 7 octobre 2025 à 17:24
En construction
Définition
Apprentissage par renforcement qui utilise des modèles qui apprennent à résoudre des problèmes dans des domaines tels que la programmation et les mathématiques en recevant des récompenses ou des pénalités sur leurs réponses qui sont vérifiées par des systèmes externes fiables.
Compléments
Cette approche améliore les capacités de l'IA en permettant aux agents de tester leurs propres solutions, d'apprendre de leurs erreurs et de s'améliorer grâce à un cycle d'autocorrection, ce qui conduit à des comportements émergents et à des compétences sophistiquées en matière de résolution de problèmes.
Puisque ce ne sont pas les récompenses qui sont vérifiables, mais les résultats de l'apprentissage, nous proposons apprentissage par renforcement vérifiable.
Français
apprentissage par renforcement vérifiable
apprentissage par renforcement à partir de résultats vérifiables
apprentissage par renforcement à partir de récompenses vérifiables (traduction littérale à éviter).
Anglais
reinforcement learning with verifiable rewards
RLVR
verifiable reinforcement learning
VRL
reinforcement learning in verifiable domains
Sources
Wen et al. (2025) - reinforcement learning with verifiable rewards
[https://arxiv.org/pdf/2309.06420 - Neary et al. (2023) - Verifiable Reinforcement Learning
Contributeurs: Claude Coulombe, Patrick Drouin, wiki
