« SPIRAL » : différence entre les versions

Dernière version du 9 octobre 2025 à 15:32

en construction

Définition

Architecture dans laquelle les modèles apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.

Voir aussi apprentissage par renforcement avec rétroaction humaine

Français

SPIRAL

Anglais

SPIRAL

A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.

Sources

Source : arxiv

Source : GitHub

@@ Ligne 2 : / Ligne 2 : @@
 == Définition ==
-XXXXXXXXX
+Architecture dans laquelle les '''[[Modèle|modèles]]''' apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.
+Voir aussi '''[[apprentissage par renforcement avec rétroaction humaine]]'''
 == Français ==
@@ Ligne 10 : / Ligne 12 : @@
 '''SPIRAL'''
- A framework where language models develop reasoning skills by playing zero-sum games against themselves, removing the need for human-supervised datA
+''A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.''
-== Source ==
+== Sources ==
+[https://arxiv.org/pdf/2506.24119  Source : arxiv]
-[https://arxiv.org/pdf/2506.24119  Source : arxiv]
+[https://github.com/spiral-rl/spiral   Source : GitHub]
 [[Catégorie:vocabulary]]

« SPIRAL » : différence entre les versions