« Reward Hacking Problem » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxxxx Voir aussi '''Best-of-N Strategy''' == Français == ''' XXXXXX''' == Anglais == ''' Reward Hacking Problem''' ''' Reward Hacking''' ''' Specification Gaming''' == Sources == [https://arxiv.org/html/2502.12668v1 Source : arxiv] [https://medium.com/@prdeepak.babu/reward-hacking-in-large-language-models-llms-c57abbc0cde7 Source : Medium] [https://en.wikipedia.org/wiki/Reward_hacking Source : Wikipedi... ») |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Phénomène qui se produit lorsqu'une '''[[Intelligence artificielle|IA]]''' entraînée par l''''[[apprentissage par renforcement]]''' optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction. | |||
Voir aussi '''[[Best-of-N Strategy]]''' | Dans le contexte de '''[[Grand modèle de langues|grands modèles de langues]]''', comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate. | ||
Voir aussi '''[[alignement de l'IA]]''', '''[[Best-of-N Strategy]]''' et '''[[modèle de récompense]]''' | |||
== Français == | == Français == | ||
''' | ''' Problème du piratage des récompenses''' | ||
''' Piratage des récompenses''' | |||
== Anglais == | == Anglais == |
Dernière version du 8 juillet 2025 à 15:48
en construction
Définition
Phénomène qui se produit lorsqu'une IA entraînée par l'apprentissage par renforcement optimise une fonction objective sans réellement atteindre le résultat voulu par les programmeurs, c'est-à-dire en exploitant des failles ou des comportements non voulus de la fonction.
Dans le contexte de grands modèles de langues, comme GPT-4, ce phénomène peut se manifester sous la forme d'un excès de prudence ou de l'imitation d'un style sans pour autant donner une réponse adéquate.
Voir aussi alignement de l'IA, Best-of-N Strategy et modèle de récompense
Français
Problème du piratage des récompenses
Piratage des récompenses
Anglais
Reward Hacking Problem
Reward Hacking
Specification Gaming
Sources
Contributeurs: Arianne
