« SPIRAL » : différence entre les versions
(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' SPIRAL''' == Anglais == '''SPIRAL''' A framework where language models develop reasoning skills by playing zero-sum games against themselves, removing the need for human-supervised datA == Source == [https://arxiv.org/pdf/2506.24119 Source : arxiv] Catégorie:vocabulary ») |
Aucun résumé des modifications |
||
Ligne 2 : | Ligne 2 : | ||
== Définition == | == Définition == | ||
Architecture dans laquelle les '''[[Modèle|modèles]]''' apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine. | |||
Voir aussi '''[[apprentissage par renforcement avec rétroaction humaine]]''' | |||
== Français == | == Français == | ||
Ligne 10 : | Ligne 12 : | ||
'''SPIRAL''' | '''SPIRAL''' | ||
''A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.'' | |||
== | == Sources == | ||
[https://arxiv.org/pdf/2506.24119 Source : arxiv] | |||
[https:// | [https://github.com/spiral-rl/spiral Source : GitHub] | ||
[[Catégorie:vocabulary]] | [[Catégorie:vocabulary]] |
Dernière version du 9 octobre 2025 à 16:32
en construction
Définition
Architecture dans laquelle les modèles apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.
Voir aussi apprentissage par renforcement avec rétroaction humaine
Français
SPIRAL
Anglais
SPIRAL
A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.
Sources
Contributeurs: Arianne Arel, wiki
