Reward Hacking Problem

en construction

Définition

Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.

Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.

Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense

Français

Problème du piratage des récompenses

Piratage des récompenses

Anglais

Reward Hacking Problem

Reward Hacking

Specification Gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia