« SPIRAL » : différence entre les versions


(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' SPIRAL''' == Anglais == '''SPIRAL''' A framework where language models develop reasoning skills by playing zero-sum games against themselves, removing the need for human-supervised datA == Source == [https://arxiv.org/pdf/2506.24119 Source : arxiv] Catégorie:vocabulary »)
 
Aucun résumé des modifications
 
Ligne 2 : Ligne 2 :


== Définition ==
== Définition ==
XXXXXXXXX
Architecture dans laquelle les '''[[Modèle|modèles]]''' apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.
 
Voir aussi '''[[apprentissage par renforcement avec rétroaction humaine]]'''


== Français ==
== Français ==
Ligne 10 : Ligne 12 :
'''SPIRAL'''
'''SPIRAL'''


A framework where language models develop reasoning skills by playing zero-sum games against themselves, removing the need for human-supervised datA
''A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.''


== Source ==
== Sources ==
[https://arxiv.org/pdf/2506.24119  Source : arxiv]


[https://arxiv.org/pdf/2506.24119  Source : arxiv]
[https://github.com/spiral-rl/spiral  Source : GitHub]




[[Catégorie:vocabulary]]
[[Catégorie:vocabulary]]

Dernière version du 9 octobre 2025 à 16:32

en construction

Définition

Architecture dans laquelle les modèles apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.

Voir aussi apprentissage par renforcement avec rétroaction humaine

Français

SPIRAL

Anglais

SPIRAL

A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.

Sources

Source : arxiv

Source : GitHub

Contributeurs: Arianne Arel, wiki