« Self-play fine-tuning » : différence entre les versions

Dernière version du 27 janvier 2026 à 17:50

en construction

Définition

Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un self-play mechanism, permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles « enseignants » plus puissants.

Voir aussi GRPO

Français

XXXXXX

Anglais

self-play fine-tuning

self-play fine tuning

SPIN

Sources

Source : arxiv

Source : GitHub

Source: verl

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-xxxxx
+Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un ''self-play mechanism'', permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des '''[[Modèle d'intelligence artificielle|modèles]]''' « enseignants » plus puissants.
-Voir '''[[Group Relative Policy Optimization|GRPO]]'''
+Voir aussi '''[[Group Relative Policy Optimization|GRPO]]'''
 == Français ==

« Self-play fine-tuning » : différence entre les versions