SPIRAL


Révision datée du 9 octobre 2025 à 16:32 par Arianne (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)

en construction

Définition

Architecture dans laquelle les modèles apprennent en jouant à des jeux à plusieurs tours et à somme nulle contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine.

Voir aussi apprentissage par renforcement avec rétroaction humaine

Français

SPIRAL

Anglais

SPIRAL

A self-play framework where the models learn by playing multi-turn, zero-sum games against continuously improving versions of themselves, eliminating the need for human supervision.

Sources

Source : arxiv

Source : GitHub

Contributeurs: Arianne Arel, wiki