Piratage des récompenses


Révision datée du 19 août 2025 à 17:29 par Arianne (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

Définition

Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.

Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.

Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense

Français

problème du piratage des récompenses

piratage des récompenses

Anglais

reward hacking problem

reward hacking

specification gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia

Contributeurs: Arianne Arel, wiki