« Reward Hacking Problem » : différence entre les versions


(Page créée avec « == en construction == == Définition == xxxxxxx Voir aussi '''Best-of-N Strategy''' == Français == ''' XXXXXX''' == Anglais == ''' Reward Hacking Problem''' ''' Reward Hacking''' ''' Specification Gaming''' == Sources == [https://arxiv.org/html/2502.12668v1 Source : arxiv] [https://medium.com/@prdeepak.babu/reward-hacking-in-large-language-models-llms-c57abbc0cde7 Source : Medium] [https://en.wikipedia.org/wiki/Reward_hacking Source : Wikipedi... »)
 
Aucun résumé des modifications
 
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
xxxxxxx
Phénomène qui se produit lorsqu'une '''[[Intelligence artificielle|IA]]''' entraînée par l''''[[apprentissage par renforcement]]''' optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.


Voir aussi '''[[Best-of-N Strategy]]'''
Dans le contexte de '''[[Grand modèle de langues|grands modèles de langues]]''', comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.
 
Voir aussi '''[[alignement de l'IA]]''', '''[[Best-of-N Strategy]]''' et '''[[modèle de récompense]]'''


== Français ==
== Français ==
''' XXXXXX'''
''' Problème du piratage des récompenses'''
 
''' Piratage des récompenses'''


== Anglais ==
== Anglais ==

Dernière version du 8 juillet 2025 à 15:48

en construction

Définition

Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.

Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.

Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense

Français

Problème du piratage des récompenses

Piratage des récompenses

Anglais

Reward Hacking Problem

Reward Hacking

Specification Gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia

Contributeurs: Arianne