Reward Hacking Problem
en construction
Définition
Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.
Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.
Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense
Français
Problème du piratage des récompenses
Piratage des récompenses
Anglais
Reward Hacking Problem
Reward Hacking
Specification Gaming
Sources
Contributeurs: Arianne
