« SPIRAL » : différence entre les versions


(Page créée avec « ==en construction== == Définition == XXXXXXXXX == Français == ''' SPIRAL''' == Anglais == '''SPIRAL''' A framework where language models develop reasoning skills by playing zero-sum games against themselves, removing the need for human-supervised datA == Source == [https://arxiv.org/pdf/2506.24119 Source : arxiv] Catégorie:vocabulary »)
 
Aucun résumé des modifications
 
(2 versions intermédiaires par un autre utilisateur non affichées)
Ligne 1 : Ligne 1 :
==en construction==
== Définition ==
Architecture dans laquelle les '''[[Modèle|modèles]]''' apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.


== Définition ==
Voir aussi '''[[apprentissage par renforcement avec rétroaction humaine]]'''
XXXXXXXXX


== Français ==
== Français ==
Ligne 10 : Ligne 10 :
'''SPIRAL'''
'''SPIRAL'''


A framework where language models develop reasoning skills by playing zero-sum games against themselves, removing the need for human-supervised datA
''A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.''


== Source ==
== Sources ==
[https://arxiv.org/pdf/2506.24119  Source : arxiv]


[https://arxiv.org/pdf/2506.24119  Source : arxiv]
[https://github.com/spiral-rl/spiral  Source : GitHub]




[[Catégorie:vocabulary]]
[[Catégorie:GRAND LEXIQUE FRANÇAIS]]

Dernière version du 3 mars 2026 à 18:31

Définition

Architecture dans laquelle les modèles apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.

Voir aussi apprentissage par renforcement avec rétroaction humaine

Français

SPIRAL

Anglais

SPIRAL

A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.

Sources

Source : arxiv

Source : GitHub

Contributeurs: Arianne Arel, wiki