« Best-of-N Strategy » : différence entre les versions

Dernière version du 29 juin 2025 à 14:52

en construction

Définition

Stratégie d'échantillonnage qui consiste à générer N sorties à partir d'un modèle et à sélectionner la meilleure sortie parmi les N échantillons à l'aide d'une fonction de récompense ou d'un critère prédéfini selon un modèle de récompense. Cette méthode ne nécessite pas de phase d'entraînement supplémentaire.

Voir aussi reward hacking problem et fonction de distance de Kullback-Leibler

Français

XXXXXX

Compléments

Cette stratégie ne s'adapte pas au nombre d'échantillons N en raison du problème de piratage de la récompense. Cela est particulièrement important dans les scénarios où le modèle d'intelligence artificielle ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.

Ses applications sont multiples : génération automatique de textes, reconnaissance vocale ou synthèse d'images.

Anglais

Best-of-N Strategy

Best-of-N

BoN

Sources

Source : arxiv

Source : Envisioning.io

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-xxxxxxx
+Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire.
+Voir aussi '''reward hacking problem''' et '''[[fonction de distance de Kullback-Leibler]]'''
 == Français ==
 ''' XXXXXX'''
-Voir aussi '''reward hacking problem'''
 == Compléments ==
-'' à faire''
+Cette stratégie ne s'adapte pas au nombre d'échantillons ''N'' en raison du problème de '''piratage de la récompense'''. Cela est particulièrement important dans les scénarios où le '''[[Intelligence artificielle|modèle d'intelligence artificielle]]''' ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.
-<!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher quality or more contextually relevant result.
+<hr/>
+Ses applications sont multiples : '''[[génération automatique de textes]]''', '''[[Reconnaissance automatique de la parole|reconnaissance vocale]]''' ou synthèse d'images.
-Its applications are broad, including text generation, voice recognition, or image synthesis, where the diversity among outputs can lead to significant improvements in performance or user satisfaction.-->
 == Anglais ==
 ''' Best-of-N Strategy'''
@@ Ligne 21 : / Ligne 21 : @@
 ''' BoN'''
 <!--Sampling strategy that involves generating N outputs from a model and selecting the most preferred output among the N samples with the help of a reward function or predefined criterion according to a process reward model. This method does not require an additional training phase.-->
+<!--The BoN strategy does not scale with the number of samples N due to the reward hacking problem. Particularly significant in scenarios where the AI model may not have a singularly deterministic output but can benefit from generating a spectrum of possibilities to increase the chance of achieving a higher quality or more contextually relevant result.
+Its applications are broad, including text generation, voice recognition, or image synthesis, where the diversity among outputs can lead to significant improvements in performance or user satisfaction.-->
 == Sources ==
 [https://arxiv.org/html/2502.12668v1   Source : arxiv]

« Best-of-N Strategy » : différence entre les versions