« Reward Hacking Problem » : différence entre les versions

Dernière version du 8 juillet 2025 à 15:48

en construction

Définition

Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.

Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.

Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense

Français

Problème du piratage des récompenses

Piratage des récompenses

Anglais

Reward Hacking Problem

Reward Hacking

Specification Gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-xxxxxxx
+Phénomène qui se produit lorsqu'une '''[[Intelligence artificielle|IA]]''' entraînée par l''''[[apprentissage par renforcement]]''' optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.
-Voir aussi '''[[Best-of-N Strategy]]'''
+Dans le contexte de '''[[Grand modèle de langues|grands modèles de langues]]''', comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.
+Voir aussi '''[[alignement de l'IA]]''', '''[[Best-of-N Strategy]]''' et '''[[modèle de récompense]]'''
 == Français ==
-''' XXXXXX'''
+''' Problème du piratage des récompenses'''
+''' Piratage des récompenses'''
 == Anglais ==

« Reward Hacking Problem » : différence entre les versions