« Self-play fine-tuning » : différence entre les versions
(Page créée avec « == en construction == == Définition == xxxxx Voir '''GRPO''' == Français == ''' XXXXXX''' == Anglais == ''' self-play fine-tuning''' ''' self-play fine tuning''' ''' SPIN''' <!--A language model finetuning algorithm for large language models that utilizes a self-play mechanism, allowing LLMs to improve themselves by playing against their previous iterations. This techinique reduces reliance on external preference da... ») |
Aucun résumé des modifications |
||
| Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un ''self-play mechanism'', permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des '''[[Modèle d'intelligence artificielle|modèles]]''' « enseignants » plus puissants. | |||
Voir '''[[Group Relative Policy Optimization|GRPO]]''' | Voir aussi '''[[Group Relative Policy Optimization|GRPO]]''' | ||
== Français == | == Français == | ||
Dernière version du 27 janvier 2026 à 16:50
en construction
Définition
Algorithme de peaufinage pour les grands modèles de langues (GML) qui utilise un self-play mechanism, permettant aux GML de s'améliorer en jouant contre leurs itérations précédentes. Cette technique réduit la dépendance vis-à-vis des jeux de données externes ou des modèles « enseignants » plus puissants.
Voir aussi GRPO
Français
XXXXXX
Anglais
self-play fine-tuning
self-play fine tuning
SPIN
Sources
Contributeurs: Arianne Arel





