Best-of-N Strategy
en construction
Définition
Stratégie d'échantillonnage qui consiste à générer N sorties à partir d'un modèle et à sélectionner la meilleure sortie parmi les N échantillons à l'aide d'une fonction de récompense ou d'un critère prédéfini selon un modèle de récompense. Cette méthode ne nécessite pas de phase d'entraînement supplémentaire.
Voir aussi reward hacking problem
Français
XXXXXX
Compléments
Cette stratégie ne s'adapte pas au nombre d'échantillons N en raison du problème de piratage de la récompense. Cela est particulièrement important dans les scénarios où le modèle d'intelligence artificielle ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.
Ses applications sont multiples : génération automatique de textes, reconnaissance vocale ou synthèse d'images.
Anglais
Best-of-N Strategy
Best-of-N
BoN
Sources
Contributeurs: Arianne
