« Best-of-N Strategy » : historique des versions


Sélection du diff : cochez les boutons radio des versions à comparer et appuyez sur entrée ou sur le bouton en bas.
Légende : (actu) = différence avec la dernière version, (diff) = différence avec la version précédente, m = modification mineure.

29 juin 2025

26 juin 2025

  • actudiff 12:4826 juin 2025 à 12:48Arianne discussion contributions 2 330 octets +1 035 Aucun résumé des modifications
  • actudiff 10:5126 juin 2025 à 10:51Arianne discussion contributions 1 295 octets +1 295 Page créée avec « == en construction == == Définition == xxxxxxx == Français == ''' XXXXXX''' Voir aussi '''reward hacking problem''' == Compléments == '' à faire'' <!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher qua... »