Reward Hacking Problem


Révision datée du 8 juillet 2025 à 15:48 par Arianne (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.

Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.

Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense

Français

Problème du piratage des récompenses

Piratage des récompenses

Anglais

Reward Hacking Problem

Reward Hacking

Specification Gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia

Contributeurs: Arianne