Self-play fine-tuning
en construction
Définition
Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un self-play mechanism, permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles « enseignants » plus puissants.
Voir aussi GRPO
Français
XXXXXX
Anglais
self-play fine-tuning
self-play fine tuning
SPIN
Sources
Contributeurs: Arianne Arel





