Piratage des récompenses
Définition
Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.
Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.
Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense
Français
Problème du piratage des récompenses
Piratage des récompenses
Anglais
Reward Hacking Problem
Reward Hacking
Specification Gaming
Sources
Contributeurs: Arianne Arel, wiki
