Reward Hacking Problem


Révision datée du 8 juillet 2025 à 13:13 par Arianne (discussion | contributions) (Page créée avec « == en construction == == Définition == xxxxxxx Voir aussi '''Best-of-N Strategy''' == Français == ''' XXXXXX''' == Anglais == ''' Reward Hacking Problem''' ''' Reward Hacking''' ''' Specification Gaming''' == Sources == [https://arxiv.org/html/2502.12668v1 Source : arxiv] [https://medium.com/@prdeepak.babu/reward-hacking-in-large-language-models-llms-c57abbc0cde7 Source : Medium] [https://en.wikipedia.org/wiki/Reward_hacking Source : Wikipedi... »)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

xxxxxxx

Voir aussi Best-of-N Strategy

Français

XXXXXX

Anglais

Reward Hacking Problem

Reward Hacking

Specification Gaming

Sources

Source : arxiv

Source : Medium

Source : Wikipedia

Contributeurs: Arianne