« SPIRAL » : différence entre les versions


Aucun résumé des modifications
Aucun résumé des modifications
Ligne 20 : Ligne 20 :




[[Catégorie:vocabulary]]
[[Catégorie:publication]]

Version du 27 février 2026 à 13:39

en construction

Définition

Architecture dans laquelle les modèles apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.

Voir aussi apprentissage par renforcement avec rétroaction humaine

Français

SPIRAL

Anglais

SPIRAL

A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.

Sources

Source : arxiv

Source : GitHub

Contributeurs: Arianne Arel, wiki