« Apprentissage par renforcement avec rétroaction humaine » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 60 : | Ligne 60 : | ||
[https://www.journaldunet.com/solutions/dsi/1518637-chatgpt-l-intelligence-artificielle-peut-elle-tenir-ses-promesses/ Source : Journal du Net] | [https://www.journaldunet.com/solutions/dsi/1518637-chatgpt-l-intelligence-artificielle-peut-elle-tenir-ses-promesses/ Source : Journal du Net] | ||
{{Modèle:101}} | |||
[[Catégorie:Intelligence artificielle]] | [[Catégorie:Intelligence artificielle]] | ||
[[Catégorie:GRAND LEXIQUE FRANÇAIS]] | [[Catégorie:GRAND LEXIQUE FRANÇAIS]] | ||
[[Catégorie:101]] | [[Catégorie:101]] |
Dernière version du 21 juillet 2025 à 15:06
Définition
En apprentissage automatique, l'apprentissage par renforcement avec rétroaction humaine (ARRH) est une technique d'amélioration des performances d'un agent à partir de rétroactions humaines.
On commence par entraîner un modèle de récompense sur des résultats annotés par des rétroactions humaines. Ensuite, on utilise ce modèle comme fonction de récompense pour améliorer la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.
Compléments
Ce type d'apprentissage est utilisé dans les jeux AlphaGo et les générateurs de texte fondés sur les grands modèles de langues.
Le modèle de récompense est pré-entraîné pour que la politique soit optimisée afin de prédire si une sortie est bonne (récompense élevée) ou mauvaise (récompense faible ou pénalité).
Français
apprentissage par renforcement avec rétroaction humaine
apprentissage par renforcement avec retour humain
apprentissage par renforcement et rétroaction humaine
apprentissage par renforcement à partir de la rétroaction humaine
ARRH
apprentissage par renforcement basée sur la rétroaction humaine
ARBRH
apprentissage par renforcement avec retour d'information humain
Anglais
reinforcement learning from human feedback
RLHF
reinforcement learning from human preferences
Español
aprendizaje por refuerzo a partir de la retroalimentación humana
En el ámbito del aprendizaje automático, el aprendizaje por refuerzo de la retroalimentación humana es una técnica para mejorar el rendimiento de un agente utilizando la retroalimentación humana.
Se empieza por entrenar un modelo de recompensa a partir de resultados anotados con comentarios humanos. A continuación, este modelo se utiliza como función de recompensa para mejorar la política de un agente mediante el aprendizaje por refuerzo con un algoritmo de optimización.
Sources
101 MOTS DE L' IA -
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle »
Contributeurs: Arianne , Claude Coulombe, Espanol: Jean-Sébastien Zavalone, Patrick Drouin, wiki
