« Self-play fine-tuning » : différence entre les versions


(Page créée avec « == en construction == == Définition == xxxxx Voir '''GRPO''' == Français == ''' XXXXXX''' == Anglais == ''' self-play fine-tuning''' ''' self-play fine tuning''' ''' SPIN''' <!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference da... »)
 
Aucun résumé des modifications
 
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
xxxxx
Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un ''self-play mechanism'', permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des '''[[Modèle d'intelligence artificielle|modèles]]''' « enseignants » plus puissants.


Voir '''[[Group Relative Policy Optimization|GRPO]]'''
Voir aussi '''[[Group Relative Policy Optimization|GRPO]]'''


== Français ==
== Français ==

Dernière version du 27 janvier 2026 à 16:50

en construction

Définition

Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un self-play mechanism, permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles « enseignants » plus puissants.

Voir aussi GRPO

Français

XXXXXX

Anglais

self-play fine-tuning

self-play fine tuning

SPIN


Sources

Source : arxiv

Source : GitHub

Source: verl

Contributeurs: Arianne Arel