Best-of-N Strategy


Révision datée du 29 juin 2025 à 14:52 par Arianne (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

Stratégie d'échantillonnage qui consiste à générer N sorties à partir d'un modèle et à sélectionner la meilleure sortie parmi les N échantillons à l'aide d'une fonction de récompense ou d'un critère prédéfini selon un modèle de récompense. Cette méthode ne nécessite pas de phase d'entraînement supplémentaire.

Voir aussi reward hacking problem et fonction de distance de Kullback-Leibler

Français

XXXXXX

Compléments

Cette stratégie ne s'adapte pas au nombre d'échantillons N en raison du problème de piratage de la récompense. Cela est particulièrement important dans les scénarios où le modèle d'intelligence artificielle ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.


Ses applications sont multiples : génération automatique de textes, reconnaissance vocale ou synthèse d'images.

Anglais

Best-of-N Strategy

Best-of-N

BoN

Sources

Source : arxiv

Source : arxiv

Source : Envisioning.io

Contributeurs: Arianne