« Best-of-N Strategy » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
Ligne 4 : | Ligne 4 : | ||
Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire. | Stratégie d'échantillonnage qui consiste à générer ''N'' sorties à partir d'un '''[[modèle]]''' et à sélectionner la meilleure sortie parmi les ''N'' échantillons à l'aide d'une '''[[fonction de récompense]]''' ou d'un critère prédéfini selon un '''[[modèle de récompense]]'''. Cette méthode ne nécessite pas de phase d''''[[entraînement]]''' supplémentaire. | ||
Voir aussi '''reward hacking problem''' | Voir aussi '''reward hacking problem''' et '''[[fonction de distance de Kullback-Leibler]]''' | ||
== Français == | == Français == |
Dernière version du 29 juin 2025 à 14:52
en construction
Définition
Stratégie d'échantillonnage qui consiste à générer N sorties à partir d'un modèle et à sélectionner la meilleure sortie parmi les N échantillons à l'aide d'une fonction de récompense ou d'un critère prédéfini selon un modèle de récompense. Cette méthode ne nécessite pas de phase d'entraînement supplémentaire.
Voir aussi reward hacking problem et fonction de distance de Kullback-Leibler
Français
XXXXXX
Compléments
Cette stratégie ne s'adapte pas au nombre d'échantillons N en raison du problème de piratage de la récompense. Cela est particulièrement important dans les scénarios où le modèle d'intelligence artificielle ne peut avoir un résultat déterministe unique, mais peut bénéficier de la génération d'un spectre de possibilités pour augmenter les chances d'obtenir un résultat de meilleure qualité ou plus pertinent sur le plan contextuel.
Ses applications sont multiples : génération automatique de textes, reconnaissance vocale ou synthèse d'images.
Anglais
Best-of-N Strategy
Best-of-N
BoN
Sources
Contributeurs: Arianne
