« Apprentissage par renforcement avec rétroaction humaine » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
 
(5 versions intermédiaires par 2 utilisateurs non affichées)
Ligne 5 : Ligne 5 :


==Compléments==
==Compléments==
Ce type d'apprentissage est utilisé dans les jeux [[AlphaGo]] et les générateurs de texte fondés sur les [[grand modèle de langues|grands modèles de langues]].
Ce type d'apprentissage est utilisé dans les jeux [[AlphaGo]] et les [[Robot conversationnel génératif|robots conversationnels génératifs]] ou [[générateurs automatique de textes]] basés sur les [[grand modèle de langues|grands modèles de langues]].
<hr/>
<hr/>
Le [[Modèle de récompense|modèle de récompense]] est pré-entraîné pour que la politique soit optimisée afin de prédire si une sortie est bonne (récompense élevée) ou mauvaise (récompense faible ou pénalité).
Le [[Modèle de récompense|modèle de récompense]] est pré-entraîné pour que la politique soit optimisée afin de prédire si une sortie est bonne (récompense élevée) ou mauvaise (récompense faible ou pénalité).
Ligne 12 : Ligne 12 :


'''apprentissage par renforcement avec rétroaction humaine'''
'''apprentissage par renforcement avec rétroaction humaine'''
'''apprentissage par renforcement à partir de rétroaction humaine'''
'''apprentissage par renforcement à partir de retours humains'''


'''apprentissage par renforcement avec retour humain'''
'''apprentissage par renforcement avec retour humain'''
Ligne 39 : Ligne 43 :
   ---
   ---
  Learning from instructions and human feedback are thought to be at the core of recent advances in instruction following large language models (LLMs). While recent efforts such as Open Assistant, Vicuna, and Alpaca have advanced our understanding of instruction fine-tuning, the same cannot be said for RLHF-style algorithms that learn directly from human feedback. AlpacaFarm aims to address this gap by enabling fast, low-cost research and development on methods that learn from human feedback. We identify three main difficulties with studying RLHF-style algorithms: the high cost of human preference data, the lack of trustworthy evaluation, and the absence of reference implementations. -->
  Learning from instructions and human feedback are thought to be at the core of recent advances in instruction following large language models (LLMs). While recent efforts such as Open Assistant, Vicuna, and Alpaca have advanced our understanding of instruction fine-tuning, the same cannot be said for RLHF-style algorithms that learn directly from human feedback. AlpacaFarm aims to address this gap by enabling fast, low-cost research and development on methods that learn from human feedback. We identify three main difficulties with studying RLHF-style algorithms: the high cost of human preference data, the lack of trustworthy evaluation, and the absence of reference implementations. -->


==Español==
==Español==
Ligne 53 : Ligne 56 :
==Sources==
==Sources==


[https://huyenchip.com/2023/05/02/rlhf.html   Source : huyenchip]
[https://fr.wikipedia.org/wiki/Apprentissage_par_renforcement_%C3%A0_partir_de_r%C3%A9troaction_humaine  Wikipedia - apprentissage par renforcement à partir de rétroaction humaine]
 
[https://www.journaldunet.com/solutions/dsi/1518637-chatgpt-l-intelligence-artificielle-peut-elle-tenir-ses-promesses/  Journal du Net]
 
[https://www.obvia.ca/sites/obvia.ca/files/ressources/202501-OBV-Out-Glossaire_Obvia.pdf Glossaire de l'Obvia - apprentissage par renforcement à partir de retours humains]
 
[https://huyenchip.com/2023/05/02/rlhf.html huyenchip]


[https://crfm.stanford.edu/2023/05/22/alpaca-farm.html  Source : stanford]
[https://crfm.stanford.edu/2023/05/22/alpaca-farm.html  Stanford]


[https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback  Source: Wikipedia]
[https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback  Wikipedia - reinforcement learning from human feedback]


[https://www.journaldunet.com/solutions/dsi/1518637-chatgpt-l-intelligence-artificielle-peut-elle-tenir-ses-promesses/  Source : Journal du Net]
{{Modèle:101}}
{{Modèle:101}}
[[Catégorie:Intelligence artificielle]]
[[Catégorie:Intelligence artificielle]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]
[[Catégorie:101]]
[[Catégorie:101]]

Dernière version du 20 août 2025 à 19:51

Définition

En apprentissage automatique, l'apprentissage par renforcement avec rétroaction humaine (ARRH) est une technique d'amélioration des performances d'un agent à partir de rétroactions humaines.

On commence par entraîner un modèle de récompense sur des résultats annotés par des rétroactions humaines. Ensuite, on utilise ce modèle comme fonction de récompense pour améliorer la politique d'un agent à l'aide de l'apprentissage par renforcement grâce à un algorithme d'optimisation.

Compléments

Ce type d'apprentissage est utilisé dans les jeux AlphaGo et les robots conversationnels génératifs ou générateurs automatique de textes basés sur les grands modèles de langues.


Le modèle de récompense est pré-entraîné pour que la politique soit optimisée afin de prédire si une sortie est bonne (récompense élevée) ou mauvaise (récompense faible ou pénalité).

Français

apprentissage par renforcement avec rétroaction humaine

apprentissage par renforcement à partir de rétroaction humaine

apprentissage par renforcement à partir de retours humains

apprentissage par renforcement avec retour humain

apprentissage par renforcement et rétroaction humaine

apprentissage par renforcement à partir de la rétroaction humaine

ARRH

apprentissage par renforcement basée sur la rétroaction humaine

ARBRH

apprentissage par renforcement avec retour d'information humain


Anglais

reinforcement learning from human feedback

RLHF

reinforcement learning from human preferences

Español

aprendizaje por refuerzo a partir de la retroalimentación humana

En el ámbito del aprendizaje automático, el aprendizaje por refuerzo de la retroalimentación humana es una técnica para mejorar el rendimiento de un agente utilizando la retroalimentación humana.

Se empieza por entrenar un modelo de recompensa a partir de resultados anotados con comentarios humanos. A continuación, este modelo se utiliza como función de recompensa para mejorar la política de un agente mediante el aprendizaje por refuerzo con un algoritmo de optimización.


Sources

Wikipedia - apprentissage par renforcement à partir de rétroaction humaine

Journal du Net

Glossaire de l'Obvia - apprentissage par renforcement à partir de retours humains

huyenchip

Stanford

Wikipedia - reinforcement learning from human feedback

101 MOTS DE L' IA
Ce terme est sélectionné pour le livre « Les 101 mots de l'intelligence artificielle » Ligne bleue2.jpg